מדע בזיוני

מעניין. אולי זה אפילו נכון.

הבלוג של אורן צור-

אורן הוא:
-עוד קורבן של הסטטיסטיקה
-נכשל במבחן טיורינג

אמנם מתוקף תפקידי כבר סמכא בזוטות רשת סמי מדעיות הייתי צריך לכתוב על זה כבר לפני שבועיים (התירוץ: צייצתי על זה. טוויטר הרג את פייסבוק הבלוגים), אבל לאור השתיקה הרועמת כאן בבלוג, תפרגנו לי כאילו כתיבה מתוך פרספקטיבה הסטורית. על הריונות בתיכון, על נבואה שנתנה גם לשוטים, על פייסבוק המתה, מחלת השפעת החיה: פולמוס כאילו מדעי ומדע כאילו פולמוסי. פוסט שיכול להיחזות כמיון ערימה.

[הערה מוזרה: יכול להיות שצריך לרפרש בשביל שכל הגרפים יעלו. לא ברור לי למה.]

מחלות ויראליות (1993)

במודלים אפידמולוגים נתקלתי לראשונה לפני כמה שנים בקורס "סמינר מתקדם" בשיטות חישוביות בפסיכולוגיה (או משהו כזה). נקלענו ארבעה דוקטורנטים למדעי המחשב, אמונים על למידה חישובית, וגילינו עולם שלם של שיטות כמותיות/חישוביות שלא הכרנו. אחד המאמרים בקורס היה Social contagion and adolescent sexual behavior: a developmental EMOSA model. המאמר מתייחס לקיום יחסי מין בתיכון כאל מחלה. אין כאן שיפוט מוסרי, אלא מודל. ההנחה היא שיחסי מין  בתיכון מושפעים מלחץ חברתי וחונכות חברית. כלומר איבוד בתולין הוא הידבקות במחלה וכאשר עלם/עלמה מוקפים בחברים 'חולים' גדלים סיכויי ההדבקה – אותם אפשר לשערך בנוסחאות הסתברות. ההנחה הזו אמנם ברורה לכל מי שגדל על דגרסי – הנועזת שבסדרות, אבל במדע כמו במדע – צריך לתקף את המודל עם נתונים. אחרי שתוקף המודל הבסיסי גם מסבכים אותו עם פרמטרים נוספים כמו חלוקות מגדריות, גזעיות, שכבת גיל, הבגרות המינית, שיהוי (lags) ואפילו בסיסים שהרי בבסיס ראשון אתה עוד לא ממש חולה אבל כבר בהחלט נשא…

הגישה (framework) המחקרית הזו הייתה משעשעת בהקשר המיני אך גם פוקחת עיניים ובמין כמו בהריון – פתאום כולם מסביב בהריון – החל מ-hubs and authorities (לא בדיוק אפידמולוגי ולא הסתברותי) שהוליד את הפייג' רנק הידוע של גוגל והתפתח למאות מאמרים על information diffusion ו-cascades שרודדו במקומותינו לממים ויראליים. למעשה זה אחד מתחומי המחקר החמים אצל פיזיקאים דווקא, רק שהם קוראים לו complex networks.

מחלות ורבליות (2006, 2009)

על אובדן הפרטיות התחילו לדבר הרבה לפני פייסבוק. מסתבר שמנועי החיפוש יודעים עלינו הכל ואפילו ניסיונות להגנה על הפרטיות לא עוזרים, כמו בחשיפת הזהות של משתמש 4417749. לא צריך להרחיק עד למחוזות הפרטיות כדי ללמוד משהו מנתוני החיפוש. בגוגל גילו שמניתוח נכון של חיפושים תקופתיים אפשר לזהות התפרצויות מקומיות של שפעת ולמנוע הדבקה. Google Flu Trends הם קוראים לזה:

 

ולמעוניינים יש גם מאמר שהתפרסם בנייצ'ר: Detecting influenza epidemics using search engine query data. המאמר הזה , הפשוט (וכדאי) לקריאה, רב הנסתר בו על הגלוי ומייקאפ של הסברים פשוטים מכסה על עיבוד די מורכב של ביג-דטא וסינון רעשים.  השלמנו מעגל, אם כן, והשמתשנו בניתוח של מילות חיפוש על מנת לזהות התפשטות של מחלות אמיתיות. השיטה עובדת.

מותן וחייהן של רשתות חברתיות אמריקאיות (2014)

חלק א' – אינטואיציה מחקרית (או: כשרצתה לחלץ מין סביר הייתה מכריזה אנחנו מין מדהים)

מעשה בשני חוקרים קצת שלומיאלים מהמחלקה למכניקה והנדסה אוירית בפרינסטון. ישבו השניים בפינת הקפה (כך אני מדמיין) וניהלו את השיחה הבאה:

– שיתפו לי בפייס את המאמר של גוגל בנייצ'ר? ראית? זה כבר נהיה ממש ויראלי.
– הפייסבוק הזה לא מה שהיה פעם, אני כבר לא מקבל תוכן איכותי לטיימליין.
– משהו פשוט ואלגנטי – משתמשים באגרגציה של מילות חיפוש כדי לחזות את העתיד.
– העתיד?
– התפשטות מחלות, למשל.
– מודל אפידמויולגי, אתה מתכוון?
– לא בדיוק, אבל בו'נה זה רעיון גדול – לשלב את הפרוקסי של מילות חיפוש עם מודל אפידמולוגי. מה נמדל?
– אולי את ההתפשטות של רשתות חברתיות? אם כי הפייסבוק הזה כבר לא מה שהיה פעם. דווקא שיתפו לי את המחקר שטוען שצעירים בורחים מפייסבוק אז יש לנו כאן תוצאות מובטחות.

וכך מצויידים באינטואיציה נכונה והבנה לקויה במתודות המחקר ניגשו שני הליצנים לגוגל טרנדז וגיבשו מודל אפידמולוגי שחוזה את שקיעתה של פייסבוק. התוצאות תאמו להיפותזה והשניים רצו לעיתון (כלומר כנראה למחלקת יחסי הציבור של פרינסטון)  כמוצאי שלל רב. לא בכל יום מפרסמת אוניברסיטת יוקרה שפייסבוק גוססת וכך התפרסם המחקר הזה בכל העיתונים.  אני שמעתי על זה דרך ציוץ של יוסי לוי:

 

את המחקר עצמו (Epidemiological modeling of online social network dynamics, קל לקריאה) לא קראתי באותו זמן (לחץ ודדליינים), אבל מהכרותי עם המטעמים שעיתונאים עושים ממחקרים נתתי לחוקרים (ולפרינסטון) קרדיט מסויים עם כוכבית של ערבון מוגבל על המחקר עצמו וביקמרקתי אותו לקריאה מאוחרת.

חלק ב' – השמועות על מותי היו מוקדמות (או:  חוץ מזה היא לא הייתה אינטליגנטית בכלל)

בעיתון אולי עוטפים דגים, אבל  שמחה פופוליסטית וויראלית לאידה של חברת ענק מטריד מאוד את בעלי המניות וכך גויסו מיטב המוחות בצוות המחקר של פייסבוק לגבש תגובה מהירה שתציל את הפייסבוק מנפילה על הפנים. הטעות של הפרינסטונים הייתה ברורה (ברורה =  אני מציע כאן תאוריה פסיכולוגית לא מבוססת בעליל) – המאמר הגוגלי שמשתמש במילות חיפוש כפרוקסי אמנם עוסק באפידמולוגיה אך לא מציג מודל אפידמולוגי – מקור קל לבלבול מושגי. ברגע שנשתל הבילבול במוחם של החוקרים, שאכן מצביעים/מצטטים את מחקר השפעת של גוגל כמקור השראה עיקרי, נסללה הדרך לסדרה של הנחות שגויות וטעויות מתודולוגיות. הנה כמה נקודות שעולות אפילו בקריאה שיטחית של המאמר (שפורסם ב-arXiv, מעין מנגון מקדים לשיפוט עמיתים חסוי):

– בניגוד לחיפושי מחלות להן ברור שיש תבנית תקופתית, אין לצפות לתבנית תקופתית מחזורית בחיפושי המילה פייסבוק.
– באגרציית חיפושים אין תבנית חברתית כך שאי אפשר להניח מגע בין נשאים – תנאי הכרחי למודל אפידמולוגי.
– בשנים האחרונות זינק השימוש בפייסבוק דרך הסמרטפון. הטלפונים כבר מגיעים עם אפליקציית פייסבוק, כך שאין ממש צורך בחיפוש פייסבוק במנועי החיפוש, כך ששכיחות החיפושים לא בהכרח מתואמת עם תדירות השימוש ותבניות החדירה לשוק.
– הפרינסטונים בדקו את המודל שלהם גם על מייספייס וראו כי טוב, לכאורה מדע במיטבו. אלא שפייסבוק ומייספייס אינן בהכרח 'מחלות' נפרדות אלא אותה מחלה בגילגול אלים יותר —  מחלת הרשתות החברתיות. גם אם נניח שאלו מחלות שונות, אפשר להניח שיש בינהן תלות מסויימת – זה לא שמחלה אחת (מייספייס) הודברה והשניה (פייסבוק) פרצה, אלא שפייסבוק הרגה את מייספייס.

ליבי עם הפרינסטונים הרשלנים שהניחו את המבוקש, הסתנוורו ושכחו את המדע. אני יכול לראות את עצמי מניח הנחות, מצפה לתוצאות ואונס את המפה, אם כי אני מקווה שאת הניסויים והבדיקות אני עושה במעט יותר יסודיות ואת ההתברברות אני מגלה לפני שאני רץ לספר לחברה.

בפייסבוק, לעומת זאת, לא ריחמו. צוות המחקר נקרא אל הדגל וצווה (כך אני משער) להפריך את המחקר ויהי מה – או שלא יהיו בונוסים. למזלם זה היה קל ואפילו קומי. הם לא נדרשו שם לבילבול בין מודל אפידמולוגי לתחזית של תופעה אפידמולוגית. הם גם לא נדרשו להשלכות של השימוש בטלפונים סלולריים וגם לא לייחסי רצח האב של מייספייס-פייסבוק. הם מצאו תופעה שולית, נעצו בה את השיניים ועשו אקסטרפולציה אד אבסורדום. הם השתמשו באותה מתודולוגיה של הפרינסטונים, כלומר שכיחות של מילות חיפוש כפרוקסי. הם גילו ירידה בתדירות החיפושים הקשורים לפרינסטון ומייד  הכריזו על העתיד של פרינסטון – התדרדרות האקדמית עד חידלון. נוק-אאוט וירטואוזי למצהלות הצופים:

In keeping with the scientific principle "correlation equals causation," our research unequivocally demonstrated that Princeton may be in danger of disappearing entirely

כך, באירוניה, נפתחת התגובה שלהם: Debunking Princeton.

העיתונאים, כפי שלא מצאו טעם לפגם בפירסום המחקר הפרינסטוני, כך גם לא מצאו טעם לפגם בתגובה הפרודית הפייסבוקית. זה הכל משחק של גיקים. רק קצת דם לקינוח הלייק, כמו שריפרר יובל דרור בהקשר מעט שונה*. כי השיטה הזו, ככלל, לא לגמרי מופרכת.  שימוש במונחי חיפוש (או בקורפוס סטטיסטיקס) כפרוקסי היא פרקטיקה מדעית מקובלת. גם מודלים אפידמולוגים למידול תופעות חברתיות הם פרקטיקה מקובלת. בפייסבוק התעלמו לחלוטין (ובצדק) מהעניין האפידמולוגי וכאמור, תקפו את הפרינסטונים בעזרת ניתוח שכיחויות. אלא שבשכיחויות האלו יש משהו שדורש ניתוח מעמיק יותר ומדעני הנתונים של פייסבוק יודעים את זה. אולי באמת הועם קרנה של פרינסטון (לא צריך להגזים עם האינטרפולציה). ואולי זו דווקא  פייסבוק שהועם זהרה שהרי תדירות האיזכורים לפרינסטון ירדה דווקא בתוך פייסבוק, כלומר אולי משתמשי הפייסבוק הופכים משכילים פחות (הם אמנם הראו עליה של הרווארד וייל אבל לא ציינו קני מידה, סיגניפיקנטיות והשוואה לאוניברסיטאות נוספות, החלוקה המלאכותית לשלושה גרפים שונים מצביעה על סקאלות שונות). הנה הגרפים, מתוך התגובה של פייסבוק: 

אך נצא-נא רגע מהגטו הפייסבוקי ונסתכל בגוגל טרנדז. גם ידידינו מפייסבוק נדרשו לגוגל טרנדז והביאו משם ראיה לשקיעתה של פרינסטון. אלה שכאן הם אפילו לא טרחו להשוות את הגרפים לאלו של הרווארד וייל (כלומר בטוח טרחו, אבל לא פרסמו כי זה לא שרת את מטרתם). אז עשיתי את זה בשבילכם – רעה ומרה אחריתה של ההשכלה הגבוהה בארה"ב ונגזר מכך גם עתידה של פייסבוק…

סוף דבר – שוב שפעת

אז מה היה לנו כאן – טעות מדעית מכמירת לב – שילוב של להיטות, חוסר ניסיון ונקודה עיוורת. תגובה משעשעת ומרושעת (אך נדרשת) של פייסבוק בניסיון למזער נזקים בתקשורת. פייסבוק יטענו שהתגובה היא פרודית ולא צריך לקחת אותה ברצינות, אבל התגובה הזו למעשה היא דמגוגיה זולה וביריונית שנשענת על אנקדוטות ומניפולציות ולא על פירכא מדעית רצינית (אפשרית רק פחות מצחיקה). אה, ועיתונאי טכנולוגיה בורים אך שמחים – פעם לאידם של אלו ופעם לאידם של אלו.

ומה עם גוגל והשפעת? השיטה אולי עובדת אבל מקרטעת לפרקים (When Google Got the Flu Wrong, שוב בנייצ'ר) ומשך תקופה מסויימת גוגל ירדו מהעניין והפסיקו לעדכן את התחזיות ואז עדכנו את המודל וחוזר חלילה.

*אין לינק כי בהארץ רוצים תשלום. גם אני רוצה תשלום – שבהארץ יציעו תוכנית שותפות לחלוקת הרווחים (affiliate). סרק, סרק

[הערה מוזרה: יכול להיות שצריך לרפרש בשביל שכל הגרפים יעלו. לא ברור לי למה.]

6 תגובות עבור “פייסבוק, יחסי מין ושפעת (הסדר לא מחייב)”

  1. תודה אורן, על הנחתוח המעמיק (אני מודה שמעבר לציוץ הלינק לידיעה הראשונית בכלכליסט לא טרחתי להתעניין בסאגה).

    כמו כן, למען הפרוטוקול וההיסטוריה אני רוצה לציין כי תגובתי לטענתך כי הדיווח הנ"ל עלוב הייתה "לקרוא לדיווח הזה "עלוב" זו מחמאה".

    יוסי לוי

  2. יוסי – למעשה ניסיתי לאמבד גם את התגובה שלך וזה לא יצא. אבל עשיתי גם צילומסך שכולל אותה ואולי אחליף (תוך איבוד הלינקים הכלולים).

    אורן

  3. יפה! והקטע הקצת עצוב הוא שלא ברור לי לגמרי שה"מדענים" בפייסבוק ערים לדקויות שאתה מעלה כאן. כלומר, שייתכן מאד שהם, כמו העיתונאים, גם מאמינים בתגובה של עצמם, לפחות קצת אם לא די הרבה.

    יואב

  4. יואב –
    אני די משוכנע שהם מודעים היטב למניפולציה שלהם. הפיצול לשלושה גרפים שונים רומז לי שאי אפשר היה לשים אותם על אותה סקאלה כמו גם העובדה שהם בחרו להביא רק את הגרף של פרינסטון מגוגל טרנדז.
    מלבד זאת, לאדה אדמיק (אחת החתומות שם)היא חוקרת די רצינית ואני בטוח שלא הייתה מעבירה דבר כזה בשנותיה באקדמיה (U אוף מישיגן) ולא עושה שטויות כאלו בקורס שלה בקורסרה…

    אורן

  5. ואם כבר – גם הגרף השלישי שהם מביאים – מספר הציטוטים היורד (דבשת) הוא א. מוחלק לחלוטין עם דרגה גבוהה וב- לא ברור איל בדיוק חושבו הנתונים האלו.
    ועוד ענייני גרפים – אצל פייסבוק, בגרף העולה של ייל – לא היו שום איזכורים של ייל לפני אמצע 2011? כנראה שהיו אבל הם צנחו לשפל ב2011 וטיפסו חזרה.

    ונקודה שלישית ומעניינת (אבל לא ממש קשורה): בגרף שאני הבאתי מגוגל טרנדז יש קפיצה מטורפת של ייל בספטמבר 2009. מעניים למה. שערוריה? פרס נובל? אתמהה. (תוספת, מסתבר שבדיוק היה שם רצח של סטודנטית ואת הגופה מצאו בתוך קיר (?!) באחת המעבדות. אולי זה גרם לעניין דווקא אז).

    אורן

  6. אני גם חושב שהם מבינים את המניפולציות (אגב, קצת מביך שהם מסכימים לחתום על זה בכ"ז). התכוונתי לכך שאני לא בטוח שהם מבינים את הכשלים האמיתיים של המחקר של פרינסטון, ולא חשבו משהו כמו "הא! שימוש בנפחי חיפוש כפרוקסי זו שיטה מטופשת וקורליישן זה לא קאוזיישן, בואו נעשה משהו מטופש משל עצמנו ונצא מגניבים. אוי, שיט, זה לא ממש מצליח — טוב נו אם כבר אז כבר, נעגל קצת פינות" וסגרו עיניין.

    יואב

להוספת תגובה