מדע בזיוני

מעניין. אולי זה אפילו נכון.

הבלוג של אורן צור-

אורן הוא:
-עוד קורבן של הסטטיסטיקה
-נכשל במבחן טיורינג

כבר מזמן לא כתבתי כאן על אמזון, אז הנה זה בא.
מערכות המלצה אוטומטיות (recommender systems) הן עניין לדון בו. יש בזה הרבה עניין מדעי ולא פחות מכך עניין מסחרי. אבל לא במערכות המלצה יעסוק הפוסט הזה אלא בבן דוד קרוב שלהם - רשימות לקריאה נוספת. לפני כמה חודשים אמזון הוסיפו פיצ'ר חדש לחנות הספרים שלהם והוא 'ספרים קשורים' (books on related topics). בינתיים הפיצ'ר הזה לא זמין לכל הספרים (למעשה הוא זמין רק למיעוטם) והוא בהחלט סובל מכמה מחלות בהן אנסה לדון כאן.

חשוב להבדיל בין הפיצ'ר הזה לפיצ'ר ההמלצות המותאמות אישית (על פי הוויש-ליסטס) ושונה גם מההמלצה הפחות פרסונלית של אמזון 'לקוחות שקנו את הספר הזה קנו גם'. מערכות ההמלצה מבוססות בעיקר על סינון שיתופי (collaborative filtering) כלומר, על התאמה סטטיסטית של רשימת ההעדפות שלי ורשימת ההעדפות של אחרים והמלצה על ספרים שנמצאים ברשימות האחרות תחת ההנחה הסבירה שחפיפה גבוהה מעידה על טעם זהה ולפיכך בטח אוהב גם את הספרים האחרים. 'ספרים בנושאים קשורים' (סב"ק), בניגוד למערכות המלצה [הערה אישית: צריך למצוא תרגום יותר מוצלח. המלצות?], מבוססים על תוכן הספר או כמו שמסבירים באמזון:

This feature helps you find books on similar topics to the book that you are currently viewing. We determine whether two books discuss similar topics by looking at the Statistically Improbable Phrases, or "SIPs," that occur in both books. The more SIPs the two books share, the more closely related they are.

באופן עקרוני זה מאוד דומה לאופן הפעולה של מנוע חיפוש (מתנדב פוסט אורח?!), כלומר של שלב האינדוקס של מנוע החיפוש. אבל לאמזון, משום מה, זה לא ממש פועל. דוגמאות? בבקשה*:
1. בסב"ק של העולם שטוח (the World is Flat) של פרידמן נמצא ספר יחיד - 'Trump University Entrepreneurship 101: How to Turn Your Idea into a Money Machine'.. לא קראתי את הספר של טרמפ (יוניברסיטי) אבל אני די משוכנע שהוא לא באמת קשור.
2. בסב"ק של אי המטמון (Treasure Island) מופיעים חמישה ספרים… חמש מהדורות נוספות של אי המטמון (פשוט מבתי הוצאה אחרים), ספר אחד בשם פיראטים (למה דווקא זה?!) וספר נוסף בשם the Definition of Literature and Other Essays. מוזר משהו.
3. יוליסס? מהדורה נוספת של יוליסס.
4. המזל מאיר פנים לצופן דה-וינצ'י (The da Vinci Code). בסב"ק שלו מופיעה מהדורה מיוחדת ומאויירת של צופן דה-וינצ'י ועוד חמישה ספרים, כולם עוסקים באופן ישיר בצופן דה וינצ'י (הספר), למשל Secrets of the Code או De-coding the Code.

אז מי/למה צריך את זה?

השאלה הראשונה והמתבקשת (אם נתעלם לרגע מהביצועים העלובים) היא בשביל מה בכלל צריך את בלון הניסוי הזה – 'ספרים בנושאים קשורים'. התשובה שצצה לי בראש היא שזו מעין רשימת קריאה לעיון נוסף, כלומר לא לפי טעם אישי אלא לפי נושאי עניין. אתה בקטע של צופן דה וינצ'י? אולי תתעניין גם בספרים קשורים, למשל בגירסה המאויירת או בפולמוס על הספר. בשביל ליצור את רשימת הקריאה הזו צריך להתייחס לתוכן הספר ולא רק לרשימת הספרים שאהבתי. (אתם כמובן מוזמנים להעלות הסברים ושימושים נוספים. כן, בתגובות :(

ולמה ככה ולא קלאסטרינג (clustering) רגיל?

השאלה השניה נוגעת לשיטה. בניסוח אחר של הבעיה, אנחנו רוצים למצוא ספרים עם טקסט דומה (דומה במובן זה או אחר). ישנם מספר אלגוריתמים וותיקים ומוצלחים לסיווג טקסט (text classification/categorization) ולקלאסטרינג של טקסטים (שזה בעצם מה שהפיצ'ר הזה עושה), מדוע צריכים היו האלגוריתמיקאים של אמזון להשתמש במה שהם כינו SIPs – ביטויים לא סבירים סטטיסטית ולא באחת משיטות הקלאסטרינג המקובלות? גם כאן אני לא משוכנע בתשובה, אבל אני מנחש שהפעלה של אלגוריתמים לסיווג טקסט על טקסט המקור של מיליוני ספרים מצריכה כח חישוב גדול מדי כך שהמימוש לא ממש מעשי, או שאולי המימוש דווקא סביר אבל הטקסט המלא כל כך רועש עד שחבל על המאמץ. כנראה שהשימוש ב-SIP הוא דרך להורדת המימד (dimensionality reduction) בדרך לייצוג הספר בצורה קומפקטית יותר ולפיכך ניתנת לחישוב יעיל. (תפריעו בכל רגע שתרצו – התגובות מחכות).

מה הקשר?

השאלה השלישית ואולי המעניינת מכולן היא מהם הקריטריונים לקשר בין ספרים. אני אמשיך עם צופן דה וינצ'י, משום שהוא ספר פולחן (זבל אמיתי בסולם אורן), מקור לא אכזב לקוריוזים, מוזרויות ומקרי מבחן.

לקורא אשר לא ידע את דה וינצ'י אספר שמדובר במותחן בו מסופר על רוברט לנגדון, פרופסור לתורת הסמלים וסופי נווה, מפענחת צפנים צרפתית שביחד מנסים לפענח סדרת חידות וצפנים שהשאיר להם הסבא של סופי בטרם נרצח במוזיאון הלובר. הם צדים וניצודים במהלך מרדך חוצה גבולות – איטליה, צרפת אנגליה. החידות כולן קשורות להסטוריה המפוקפקת של הנצרות (דן בראון טוען שחשף אמיתות היסטוריות ומבקריו, נוצרים ואתאיסטים כאחד, טוענים שהוא פנטזיונר), למעמד האישה בנצרות (נו, קצת פילפל בשביל הפמיניסטיות-לייט), ולאוסף מיתוסים וקונספירציות בקשר למסדרי אבירים (הטמפלרים, מסדר ציון) ולזרמים שונים בכנסיה (אופוס דאי, הנצרות המקורית שלפני קונסטנטין וכו'). אה-כן, הגביע הקדוש גם הוא לא נפקד מהסיפור. כולם רוצים את הגביע הקדוש.

עכשיו תרשו לי להציג לכם מועמד נוסף לספר באותו נושא. קבלו את המטוטלת של פוקו (Foucault’s Pendulum) של אומברטו אקו. [וידוי – הפסקתי בערך בעמוד 150]. ועכשיו תיאור קצר של המטוטלת של פוקו - מותחן בו מסופר על סופר שמתחקה אחרי רמזים שמצא במחשב של חברו שמת (השתגע לפני?). העלילה נודדת בין איטליה לצרפת שם מתחבא הגיבור במעמקי מוזיאונים כדי לגלות את סודותיהם של אגודות נוצריות חשאיות ולתת סדר בין תיאוריות הקוספירציה השונות הקשורות בהן.

שני הספרים (המטוטלת של פוקו וצופן דה וינצ'י) היו רבי מכר מטורפים. שני הספרים עוסקים בנושאים דומים – פיענוח חידות וצפנים וקונספירציות הקשורות לנצרות. לעומת זאת, קשה להעלות על הדעת שני ספרים שפונים לקהל יעד כה שונה. דה וינצ'י הוא קריאה קלה ולא ממש מאתגרת (למרות היומרה) ופוקו הוא אחד הספרים הקשים לקריאה, הן מבחינה סיגנונית, הן מבחינת אוצר המילים והן מבחינת הרעיונות אליהם מכוון הספר (הסטוריה של הדת, בלשנות ובינה מלאכותית). כלומר די ברור שמערכת המלצה לא אמורה להמליץ לחחובבי דן בראון לקרוא את אומברטו אקו. מאידך – אולי מערכת סב"ק דווקא אמורה לקשר בין הספרים מעין – קריאה נוספת על המיתוסים והקונספירציות הקשורים ביסודות הנצרות. ובקשר לעניין הזה, קוראים יקרים, אני עומד אובד עצות.
אבל למרות העצות האבודות שלי, אני עדיין מתפלא על האלגוריתם של אמזון שמצד אחד מספק סב"ק טריוויאליים כמו אותו ספר בהוצאה נוספת, ומצד שני מתבדר ומציע ספרים רנדומליים בעלי הקשר מפוקפק.
ושוב, נניח לאמזון ומוזרויותיה ונחזור לשאלה המקורית וגם בה, קוראים נכבדים – אשמח לשמוע את דעתכם מחזירת העצות בדבר הקריטריונים לקשר בין ספרים.

*הדוגמאות נכונות ליום כתיבת הפוסט. ייתכן שאמזון ישנו את האלגוריתם וגם הסבק"ים ישתנו.

———
פוסטים קשורים:
- מוזיקה גחלילית
- פכים קטנים מו האמזונס

8 תגובות עבור “לקריאה נוספת”

  1. מבחינתה של אמזון, הפתרון (מעבר לשיפור המערכת) הוא פשוט, תחת אילו קריטריונים אנשים קונים יותר ספרים ונהנים מהם (מתוך מחשבה שהם משחקים גם לטווח הארוך)? אפשר להציג קריטריונים שונים לקבוצות שונות ולבדוק אחרכך שביעות רצון. כמו כן אפשר בעדיפות נמוכה יותר גם להציע את השיטה המפסידה.

    לעצמי, נדמה לי שאיכות הכתיבה חשובה לא פחות מהנושא, הייתי מזדעזע לקבל המלצה לבראון כשאני מזמין את פוקו. ניתן גם יחסית בקלות להעריך את "איכות" הכתיבה (למשל אוצר המילים בספר, תדירות החזרה של מילים נרדפות למול שימוש באותה המילה שוב) וזה יכול להיות פילטר חיוני. כמובן שדרך הפילטר הזה ניתן להעביר ספרות שדומה רעיונית.

    שם

  2. לאמזון יש גם את הנתונים האלו בדבר מורכבות הכתיבה (אם כי הם משתמשים במדדים פשוטים יחסית).
    הנה המדדים לדה וינצ'י:
    http://www.amazon.com/Da-Vinci-Code-Dan-Brown/dp/sitb-next/1400079179/ref=sbx_txt#textstats

    והנה המדדים לפוקו:
    http://www.amazon.com/Foucaults-Pendulum-Umberto-Eco/dp/sitb-next/015603297X/ref=sbx_txt#textstats

    אורן

  3. תיאורטית, השימוש ב-SIP
    נראה רעיון מצויין.
    מעשית, כדאי לעשות צעד נוסף ולהסתכל בנתונים. יש רשימת
    SIPS
    בדף של דה-וינצ'י
    http://www.amazon.com/Da-Vinci-Code-Dan-Brown/dp/0385504209
    תחת
    Key Phrases - Statistically Improbable Phrases (SIPs):
    והם, אפעס, נראים לא משהו, ופחות טובים מהצירופים באותיות רישיות.
    כנ"ל אלה במטוטלת של פוקו, ששונים לגמרי מאלה של דה וינצ'י:
    http://www.amazon.com/Foucaults-Pendulum-Umberto-Eco/dp/0345368754
    נראה לי שהסיגנל הסטטיסטי מהסוג הזה בספר הוא פשוט חלש מדי.
    אגב, יכול להיות שמחשבים את ה- SIPS
    באופן המתואר אצל מנינג ושוטצה:
    http://nlp.stanford.edu/fsnlp/promo/colloc.pdf
    השתמשתי פעם בשיטות האלה על "גאווה ודעה קדומה", וחוץ משמות של דמויות וצירופי מילות יחס לא יצא הרבה.
    כמובן, מאוד אפשרי שמהנדסי אמאזון עושים את זה בצורה טובה יותר.

    יובל

  4. יובל -
    זה הכל שאלה של הקורפוס הנכון, כלומר מול מה אתה מחשב את הSIP. אמזון כותבים שהם עושים את זה מול ספרים אחרים (כמה? אן לא מול כולם אז איך דוגמים את הספרים?) כל שינוי של הקורפוס, בהנחה שזה לא פשוט אוסף *כל* הספרים האלקטרוניים שלהם יכול לשנות מאוד את התמונה. יש לי כמה ניסויים משלי שאני אפרסם בהזדמנות אבל עוד לא בשלה השעה.

    בכל אופן, השאלה הנוספת היא למה אמזון מאפשרים את הפיצ'ר הזה אם הוא כל כך רועש/לא מדוייק וכו'
    (אני גם לא ממש מאמין להם כשהם מסבירים את הSIP. אני בטוח שיש שם עוד מליון החלקות [smoothing] וכמה פאצ'ים וכו' רק שהם לא ששים לשתף. כלומר אם זה היה פועל הם לא היו מספרים לנו איך וכשזה לא פועל הם מתביישים…)

    אורן

  5. נראה לי שסיווג לפי נושא יותר שימושי לספרי עיון, מאשר לספרות בדיונית.

    לגבי עומס החישוב. לאדם אין צורך לקרוא (או גם לסרוק) את הטקסט המלא של ספר כדי להבין במה הוא עוסק. ייתכן, שמיון על-פי מילות התוכן בהקדמה בלבד, או אפילו רק בתוכן העניינים, ייתן תוצאות לא פחות טובות ממיון על-פי ה-SIP בטקסט כולו. (בספרי עיון כמעט תמיד יהיו מבוא ותוכן עניינים, מלבד אולי ספרים קצרים שאותם אפשר לסרוק במלואם).

    דודי

  6. I'm not sure it’s relevant only to non-fiction but it might be more relevant to certain genres.

    I also guess they aim at something more focused than just simple categorization (books about biology) but they want books that are really related.

    it is interesting to try and classify the books by the intro, the table of contents or even better - the terms index at the end, I wonder if it was done before (I guess so).

    but lately I came across the opposite challange - automatic creation of the book index according to its contents:
    http://www.aclweb.org/anthology-new/P/P08/P08-1106.pdf

    this paper is very interesting because it tries to model the cognitive process. results are not prime but very interesting.

    oren with no hebrew

  7. […] ערימת הספרים בפוסט לקריאה נוספת העליתי כמה תהיות לגבי הפיצ'ר של אמזון 'ספרים בנושאים […]

    פרדוקס ערימת הספרים

  8. […] אורן צור מנתח מהביט סטטיסטי את שירות "ספרים נוספים" של אמאזון. "….מערכות המלצה אוטומטיות (recommender systems) הן עניין לדון בו. יש בזה הרבה עניין מדעי ולא פחות מכך עניין מסחרי. אבל לא במערכות המלצה יעסוק הפוסט הזה אלא בבן דוד קרוב שלהם - רשימות לקריאה נוספת. לפני כמה חודשים אמזון הוסיפו פיצ'ר חדש לחנות הספרים שלהם והוא 'ספרים קשורים' (books on related topics). בינתיים הפיצ'ר הזה לא זמין לכל הספרים (למעשה הוא זמין רק למיעוטם) והוא בהחלט סובל מכמה מחלות בהן אנסה לדון כאן.." http://www.sciencefriction.net/blog/2008/07/30/135/ […]

    הקולקטיב » » [שכונה] תיכף נדליק את המשואה, גרסת ההייטק

להוספת תגובה