[בפוסט - על הקוסם של גוגל ועל החוש השישי שלי]
עוקבי הבלוג הקבועים יודעים שאני בוכה ומלין על הרעש של האינטרנט הזה, על הציפצוף מחריש האוזניים של טוויטר וכו'. מאידך אני טוען שכאופורטוניסט מצוי, הרעש הזה דווקא טוב לי ולשכמותי – אנשי ה-NLP (נו, עיבוד שפה. נטוראל לאנגוויג' פרוססינג).
והנה הצטרפות מקרים. לאחרונה כמעט ולא יצא לי לקרוא בלוגים (או לכתוב. בלוג). הרידר הצנוע שלי (כ-40 סבסקריפשנס, רק כעשרים פעילים לפחות פעם בשבועיים) שלי מפוצץ בבולד שחור ולמזלי הרסיסים הבילתי קרואים נעלמים אחרי שלושים יום, אחרת הייתי עומד בהלם מול אלפי פוסטנציאליים (כל הזכויות על פוסטנציאליים לשחר, אם כי שיניתי מעט את השימוש וההקשר).
והנה, טרי טרי, חידוש מרגש בקורא הרסס של גוגל – הם קוראים לזה, ט-טם!… magic, לא פחות. ניתן לבלוג הרישמי גוגל את רשות הדיבור:
Only have a 10 minute coffee break and want to see the best items first? All feeds now have a new sort option called "magic" that re-orders items in the feed based on your personal usage, and overall activity in Reader, instead of default chronological order. Click "Sort by magic" under the "Feed settings" menu of your feed (or folder) to switch to personalized ranking.
ומה אגיד לכם, מבדיקה שיטחית זה נראה טוב. ניסיתי את זה על שני פידים עמוסים במיוחד. ה-language log הבלתי נלאים וה-tech crunch העמלנים. בכלל לא רע. ב-LL, למשל, הפוסט הראשון שהוצג הוא: Is Irony universal? נושא שאני מתעניין בו מעט בזמן האחרון. גם ב-TC ההמלצות נראו רלוונטיות.
הפיצ'ר הזה מרגש מאוד גם מבחינה מקצועית (נטולת אירוניה), אם כי אני מניח שהאלגוריתם מבוסס על collaborative filtering ועל היסטוריית חיפוש (כלומר הקלקה) וחישוב המרחק בין השאילתות, הדפים הנצפים ופוסטים בפיד (וכמובן פידים מוקלקים), בניגוד לעניין האישי שלי בניתוח תוכן.
החוש השישי
ואם כבר המלצות אישיות אז צריך לפרגן לחוש השישי שלי (my6sense) הישראלים שפיתחו מנגנון המלצוטומט (כל הזכויות שמורות לי. טו-דו: להציע בדורבנות) שכנראה שפועל מצויין. אגלה שזכיתי להיות מוזמן לבטא שלהם שהייתה זמינה פעם גם לשואש. לבושתי אודה שלא היה לי ממש זמן להתעסק בזה. לפני כחודש (אולי חודשיים), אחרי עיכובים ודחיות מאפל הם אפילו העלו את האפליקציה לחנות היישומים של האייפון.
"מה עם סימביאן?" כתבתי לחושישים בתחינה. "בעתיד… בעתיד…" הם ענו לי פחות או יותר את התשובה שנתתי להם כששאלו מידי פעם על התרשמותי מהבטא.
כאמור, זמן טוב לאנשי ההמלצוטומת ובמיוחד לאחד שמסתובב כאן בבלוג. (הערת המערכת – את הכסף סופרים במדרגות.)

Speaking of personalized recommendations, you forgot to mention that the Netflix competition is over.
Neta
אוקטובר 27th, 2009
סוף סוף אני אוכל לבדוק את זה. אני מאוד סקפטי לגבי היכולת לעשות ]ה משהו באמת חכם (במיוחד בעברית).
צפו פדיחות גדולות
מהגג
אוקטובר 27th, 2009
נטע –
דווקא כן: http://www.sciencefriction.net/blog/2009/06/29/285/
מהגג –
אתה מתכוון לחוש השישי או לגוגל רידר? אני דווקא אשמח לשמוע כאן חוות דעת על עברית ובכלל.
אורן
אוקטובר 27th, 2009
Short term memory problems.
Neta
אוקטובר 27th, 2009
אני מתכוון לחוש השישי בכלל ולמימוש של גוגל בפרט.
אני חושש שהמשימה סובכה מדי מכדי שמחשב יעשה משהו באמת טוב.
כלומר, סטטיסטית בטח הוא יהיה בסדר, אבח מדי פעם חייבות לצוץ פדיחות גדולות שייחשפו את ערוות אי היכולת של מחשב להבין *באמת* שפה אנושית, רק לחקות ממש טוב כאילו.
והמוניטין של גוגל כחברה שעושה דברים ממש טוב מתבסס על מנוע החיפוש (טוב, גם על הג'י מייל), לגבי שאר ה90% מהמוצרים שלהם.. נו אנסח את זה ככה: התירוץ "אנחנו בbeta" לא סוחב.
ומי שמשלה את עצמ שגוגל יודעת הכל, גם בעברית מוזמן לנסות (שוב) את התרגום שלהם…
http://eincyclopedia.wikia.com/wiki/%D7%9E%D7%9B%D7%95%D7%A0%D7%94_%D7%AA%D7%A8%D7%92%D7%95%D7%9D
מהגג
אוקטובר 29th, 2009
מהגג –
יש כאן כמה נקודות. קודם כל ברור שגוגל לא יודעת *הכל*.
לגבי העברית – יש משימות קשות כמו תרגום שהדיוק שלהן עולה ככל שיש יותר נתונים, ובמקרה של תרגום – יותר טקסטים מקבילים (עברית-אנגלית) עליהם ניתן לאמן את האלגוריתם. תרגום, אם כן, הוא בעיה קשה מאוד.
לגבי הרידר, הבעיה קלה בהרבה. בתור התחלה, נניח שאנחנו מסכימים שהחיפוש העברי של גוגל פועל ברמה טובה. אני באמת לא מכיר את האלגוריתם מאחורי הרידר-מג'יק אבל אני מניח שקורה שם משהו דומה לאלגוריתם החיפוש. כלומר מציאת המרחק (נניח, מרקח קוסינוסי) בין היסטוריית השאילתות שלך להיסטוריית הקליקים שלך, ואז מבוצע חיתוך מרחקים בין הפוסטים בפיד לבין הדפים אליהם נכנסת בחיפוש. (כמובן שיש עוד אלמנטים לאלגוריתם, אבל אם אני צריך לנחש אז זה העיקרי שבהם). כלומר אם החיפוש מוצלח אז כנראה שגם ה'מג'יק' יהיה מוצלח. דבר נוסף שמסייע להצלחת המגי'ק הוא שזה עובד על פידים שנרשמת אליהם, כלומר כאלו שבאופן עקרוני הבעת בהם עניין ואמון.
ועכשיו לגבי מדידת ההצלחה קשה מאוד למדוד הצלחה. כלומר קל לשים לב לפרסיז'ן (precision) כלומר האם הפוסטים שמוצגים למעלה אכן מעניינים, אבל קשה יותר לאמוד את הריקול (recall) כלומר האם תפסנו את *כל* הפוסטים המעניינים. זה קשה כי אתה צריך, למעשה לקרוא את כל הפוסטים ולהצהיר שהנה פוסט מרתק במובהק שאותו גוגל פיספסו. מאידך גוגל יטענו שהרעיון כאן הוא דיוק ולא ריקול.
כלומר צריך שהאלגוריתם יפעל מספיק טוב ולא ממש מצפים למושלם.
ואחרי שאמרנו את כל זה – ברור שיהיו פדיחות. זה נובע מזה שאין אלגוריתם מושלם, אבל לא פחות מכך – אין בן אדם עם טעמים והעדפות מוגדרים בצורה נוקשה לחלוטין.
אורן
אוקטובר 29th, 2009
להערכתי הלא מקצועית, הבעיה נעוצה ב"מציאת המרחק (נניח, מרקח קוסינוסי) בין היסטוריית השאילתות שלך להיסטוריית הקליקים שלך".
הנקודה פה היא שבניגוד לחיפוש שבו המשימה מוגדרת היטב, המרחק הזה שאתה מדבר עליו הוא מאוד מעורפל, איך תמדוד מרחק בין שני פוסטים? האם תשווה מילים זהות בהטיותיהן שונות כמו שהחיפוש עושה לא רע?
הבעיה היא שהשוואה כזו תהיה בנאלית כי בין שני פוסטים, סביר להניח שיהיו זהות רק המילים הלא מעניינות, כלומר מלות הקישור, מה שבאמת מגדיר טוב תחום של פוסט הוא המילים הנדירות שבו, ואלה כנראה יהיו שונות גם בין פוסטים קרובים.
אז מה, תנסה להגדיר שמילים שונות מאותו תחום הן קרובות? איך תגדיר תחום?
מה תעשה עם מילים שיש להן משמעויות שונות ולכן רלוונטיות לתחומים שונים, למשל פוסט שעוסק בזהירות בדרכים ומכיל את כתובת האתר RSA.gov.il, עשוי להיות בטעות משוייך לתחום ההצפנה ואבטחת המידע בגלל שראשי התיבות RSA בד"כ קשורות לריווסט שמיר ואדלמן.
אני יודע שיש לאקדמיה פתרונות לamiguity אבל עד כמה שידוע לי הם כולם מבוססי סטטיסטיקה וכדי לתת פתרון שהוא טוב באופן כללי ולא בdomain ספציפי צריך קורפוס ענק ורצוי שהפוסטים יהיו ארוכים ופורמליים.
וזה עוד בלי שהזכרתי שעברית לא מנוקדת היא שפה שמאוד קשה למחשב להבין בגלל ריבוי הדו משמעויות שמפורשות באמצעות ההקשר. לך תתכנת הקשר…
בקיצור, הבעיה מאוד מאוד מאוד מורכבת, ואני הייתי ספקטי כבר באירופה. נחיה ונראה איך זה יתקדם.
אולי דווקא הנקודה האחרונה שהעלית תשחק לטובת החברים מפאלו אלטו, הבעיה היא כל כך מעורפלת שקשה למדוד אותה ולכן, בניגוד לתרגום שבו קל לראות שהם עושים עבודה על הפנים, כאן יהיה קשה לומר שזה לא מוצלח וכמו בכל קסם, המבחן האמיתי הוא אם הקהל משתכנע ולא אם באמת נעשה כאן משהו על טבעי באמת…
מהגג
אוקטובר 29th, 2009
אולי אני אתן דוגמא להמחשה: האם אתה חושב שיהיה אלגוריתם שמסוגל להבחין בכך שהתגובה האחרונה שלי לא קשורה בכלל לזהירות בדרכים?
מהגג
אוקטובר 29th, 2009
אין לי ספק שכמעט כל אלגוריתם נאיווי וזהה שהתגובה ה(אחת לפני) אחרונה שלך לא קשורה לזהירות בדרכים.
בתגובה עלית בעצם על רוב הבעיות בעיבוד שפה, רק שלחלקן כבר יש פתרונות (חלקיים) וחלקן, במקרה של הקסם דנן, לא כל כך בעייתיות.
כבר בתגובה הראשונה שלך כתבת שמבחינה סטטיסטית כנראה שהאלגוריתם יפעל טוב וזה בדיוק העניין. אף אחד לא מצפה למאה אחוז.
בכל אופן, בתגובה שלך היא פתח לעוד איזה 70 פוסטים…
אורן
אוקטובר 29th, 2009
1. כנראה שאנחנו מסכימים, יש מצב שזה יפעל טוב ברוב המקרים, פדיחות קשות צפויות במקרים מעטים בלבד.
2. שמת לב שהתגובה ה(לפני לפני) אחרונה, מזכירה את המילים המפורשות "זהירות בדרכים" אבל רק כדוגמא לא רלוונטית? לדעתי רוב האלגוריתמים יפלו בפח ותנו לקשר בין תגובה הנ"ל לזהירות בדרכים משקל גבוה מדי. איך אלגוריתם ידע להבדיל בין הנושא העיקרי של התגובה לדוגמא צדדית – אין לי מושג. מה עוד שקיימים סגנונות כתיבה בהם הדוגמאות נבחרות באופן שהוא כן רלוונטי, מה שלא היה המקרה הפעם.
3. הפרשנות (שוב, הלא מקצועית בכלל) שלי לעניין הוא שאי שם בשנות ה70-80 נואשו מדעני הבלשנות החישובית מלגרום למחשב להבין *באמת* את כוונת המשפטים והחליטו לתקוף את הבעיה בשיטה סטטיסטית שאפשר לכנות אותה הונאה והטעיה במידה מסוימת. המחקר הלך לכיוון של מה אפשר לעשות שנותן לך הרגשה כאילו מבינים את המשפט בלי לנתח תחביר. בסופו של דבר יש בהבנת שפה הרבה הרבה יותר מאשר נתונים סטטיסטיים כמו המשפט X מכיל 25% מילים שהופיעו בטקסט Y ו2% מילים שהופיעו בטקסט Z. אפשר ללהטט במידע הזה כדי לעשות רושם אבל מתישהו יגיע הרגע שבו העובדה שלא *באמת* גרמת למחשב להבין את המשפט תעצור את ההתקדמות בNLP סטטיסטי ותאלץ אותך להודות שלהגיד שמחשב מבין שפה זה כמו לומר שהקופאית בסופר באמת מכירה אותי רק בגלל מה שהיא למדה מרשימת הקניות שלי.
4. אם התגובה שלי מעוררת אותך לכתוב פוסטים נוספים עשיתי את שלי… אם תכתוב אותם באמת – עאכו"כ ולהשומע ינעם.
מהגג
אוקטובר 29th, 2009
הגיע הזמן שתפרגן סוף סוף! תודה. החוש השישי, אגב, עובד מצוין גם בעברית ואם תרצה נשמיש לך את הגרסה בשואש.
עומר
אוקטובר 29th, 2009
יאללה, עומר. תשמישו. (ומה עם סימביאן?)
אורן
נובמבר 8th, 2009
[...] חביבים, אולי תתעניינו בפוסטים הבאים: – המלצוטומט: העתיד של האינטרנט – בחירת תמונות – עורך ממוחשב או עורך אנושי – פלונית [...]
מומחי מדיה: הלוואי והייתי עמוק כמו שאני יומרני
נובמבר 13th, 2009