מדע בזיוני

מעניין. אולי זה אפילו נכון.

הבלוג של אורן צור-

אורן הוא:
-עוד קורבן של הסטטיסטיקה
-נכשל במבחן טיורינג

לפני כמה ימים כתבתי על הטיה (לכאורה) בדירוג המוֹעילוּת של אמזון ובכלל. להטיה כזו, טענתי, יש השלכות רציניות ומעניינות על הן המודלים העיסקיים שתלויים בדירוגי הביקורות והן על המחקר האקדמי בתחום של עיבוד שפה וכריית מידע. אני מסתכן כאן באיבוד קוראים (לא שהם מסתובבים פה ברבבותיהם) ובהפיכת הבלוג לטכני וטרחני מדי, אבל שווה לקחת את הסיכון – האינטרנט סופג הכל ולהלן כמה תובנות מיידיות. חיפשתי התייחסות פורמלית לנוסחה בה אמזון משתמשת לדירוג המוֹעילוּת. לא ציפיתי למצוא "סוד" מסחרי שכזה ואכן לא מצאתי. בחינה של דירוגים של כמה ספרים מגלה שהדירוג לא נקבע רק לפי מספר המצביעים והתפלגות ההצבעות אלא יש כמה גורמים נוספים שכנראה נכנסים למשוואה:

1. המספר הכולל של דירוגי המועילות.
2. היחס בין מספר ההצבעות כמועיל למספר ההצבעות כלא מועיל (או בין מספר ההצבעות כמועיל למספר ההצבעות הכללי).
3. ההפרש בין ההצבעות כמועיל למספר ההתבעות הכללי.
4. נדמה לי שיש שיש התחשבות בתאריך פרסום הביקורת.
5. ואולי גם באורך הביקורת ובמורכבות הלשונית שלה.
6. וסביר להניח שגם במוניטין של כותב הביקורת (כלומר כמה ביקורות אחרות הוא כתב ומה דירוג המועילות שלהן)
7. יכול להיות שלאמזון שיטה מורכבת יותר להערכת טיב הביקורת והם משלבים אותה עם הצבעות הגולשים.

לא ברור מה הפקטור שמקבל כל גורם (והאם יש גם גורמים נוספים). הנה טבלת הדירוגים של הספר גילגולי לשון.
אם נסתכל על המקום הראשון (54/50), היחס בין ההצבעות כלא-מועיל לבין סך ההצבעות הוא 0.1 בעוד במקום הרביעי (19/20) היחס טוב בהרבה: 0.05. ברור, אם כן, שמספר הצבעות גבוה מקבל פקטור דומיננטי יותר מגורמים אחרים.

סעיפים 4 ו-5 נזקקים כדי להסביר כמה תופעות של חוסר לינאריות. שימו לב למקומות 13 ו-14 שקיבלו 5/6 (כלור 5 גולשים הצביעו שהביקורת מועילה וגולש בודד הצביע שהיא לא מועילה), מקומות 15 ו-16 קיבלו 5/5 והנה ההפתעה – מקום 17 קיבל 5/6 – בדיוק כמו מקומות 13-14, אז למה הוא מדורג תחתיהם?

קצת קשה לי להבין למה (1/3) מדורג לפני (1/1) – בשני המקרים יש רק הצבעה אחת בעד הביקורת אבל במקרה של 1/3 יש גם שתי הצבעות נגד הביקורת. שתי הביקורות האלו מהוות ניגוד סיגנוני – האחת היא הביקורת הקצרה ביותר על הספר: שתי שורות, בעוד השניה היא הביקורת הארוכה ביותר: 1140 מילה – ארוך כמעט כמו הספר עצמו. לאמזון הפיתרונים ואת הנוסחה הסודית הם כנראה לא יסגירו.

בדקתי ביקורות גם על העולם שטוח של תומס פרידמן. הנה טבלה מסכמת. שימו לב דירוג התוצאות הכי פחות מועילות – גם שם נראה שיש קצת יותר מאשר שיקלול של ההצבעות בעד ונגד. ושימו לב גם לנתום המעניין הבא: באמזון יש בסה"כ 1039 ביקורות על העולם שטוח. ממוצע הציונים (stars) של כל הביקורות הוא ארבעה כוכבים (מתוך חמישה), אבל ממוצע הכוכבים שניתנו על ידי 20 הביקורות שדורגו המועילות ביותר הוא שניים בלבד. קורולציה הפוכה שכזו מסתמנת גם בין דירוג המועילות לציון בכוכבים לספר 'קוד דה-וינצ'י' (לא קראתי) . כל הבדיקות האלו הן בדיקות חפיף שנותנות לי תחושה מסויימת. אם נעזוב לרגע את תחום הספרים ונעבור למוצרי אלקטרוניקה – בדיקה לא מייצגת מגלה שהקורלציה ההפוכה לא מתקיימת עבור מצלמה דיגיטלית powershot S3 IS של קנון, שם זה לא חכמה כי ממוצע הכוכבים הוא 4.5, אבל כן מתקיימת עבור נגן זיון של מייקרוסופט (Zune) שזכה ל- 868 ביקורות: ממוצע של שלושה וחצי כוכבים בעוד 20 הביקורות המועילות ביותר מעניקות לו ממוצע של שני כוכבים בלבד.

הקורלציה ההפוכה הזו מדגימה את החשיבות של סיווג נכון של ביקורות כמועילות.

באובססיביות מסויימת חיפשתי עוד מאמרים בנושא. בסוף השבוע קראתי חמישה-שישה מאמרים מהשנתיים האחרונות. אחד המאמרים (ICEC2007), נכתב על ידי שני חברה מבית הספר למנהל עסקים ב-NYU דווקא (מהמחלקה למערכות מידע כך שהשיוך למנהל עסקים נסלח). המאמר בוחן את ההשלכה של ביקורות הגולשים על המכירות ומציע שיטה אוטומטית לסיווג ביקורות על פי השפעתם על המכירות. הוא גם מציע שיטה לדירוג אוטומטי של הביקורות לפי מוֹעילוּת (הם משתמשים בציון המועילות של אמזון כדי לאמן את המערכת ולא מתייחסים להטיות האפשריות), אבל חסר שם השלב הבא – בדיקה של הקורולציה בין מדד המועילות של ביקורת לבין השפעתה על המכירות.
מאמר אחר (ACL2007), מעניין ורלוונטי מצביע על שלוש הטיות נוספות בדירוג המועילות: ביקורות מוקדמות זוכות ליותר דירוגים, תסחיף ניצחון – ביקורת שדורגה כמועילה תדורג שוב כמועילה (עקב חשיפה גבוהה יותר?) ונטייה כללית לדרג ביקורות לחיוב ולא לדרג כלל ביקורות רעות. השאלה המתבקשת היא האם אפשר להחליק ולנטרל את ההשפעה של ההטיות האלו בצורה מיידית וללא צורך בעיבוד שפה כלל. התייחסות להטיה "שלי" (שעדיין לא הוכחה) שתקרא להלן 'הטיית התמימות' (שם זמני) לא מצאתי ואת הנוסחה של אמזון לדירוג מועילות עוד לא פיצחתי.

המשך יבוא? [עדכון מאוחר – הנה בא: עוד על הדירוג של אמזון, על כותבי הביקורות, קוריוז על מגדר ועוד]

4 תגובות עבור “אז מה משפיע על דירוג המועילות באמזון”

  1. פוסט נהדר!

    ינאי

  2. תודה.

    אורן

  3. מעניין.

    והנתונים לפיהם ביקורות גרועות על מוצרים טובים קיבלו דירוג מועילות גבוה גרמו לי לחשוב: כנראה ש*הפתעה* היא אחד המאפיינים של ביקורת מועילה — "ספרו לי משהו שאני עוד לא יודע". אנשים מתלבטים בין כמה מוצרים טובים, ישמחו לגלות את הכשלים של אחד מהם (גם אם הם לא אמיתיים) פשוט כי זה עוזר להגיע להחלטה. לחילופין, השכנוע העצמי של "אני לא צריך אייפוד, סתם מותג יקר" יכול מאד להעזר בביקורות נגד שכאלו.

    ובנוסף — אני חושב שחלק מדירוג המועילות הוא למעשה דירוג "כמה מועיל לאמאזון שתראה דווקא את הביקורת הזו" — אם יש להם כמה ביקורות שקיבלו ציונים טובים, ייתכן והם מסדרים אותן לפי מדד שבודק כמה אנשים רכשו מוצר בעקבות צפיה בן, או משהו כזה..

    יואב

  4. […] הביקורות מהללות – על מניפולציות באמזון ולאן צועד תוכן גולשים. רביזור – מי יבקר את המבקר? מה משפיע על דירוג המועילות באמזון? […]

    המקרה המוזר של הזאב בשעת לילה

להוספת תגובה