מדע בזיוני

מעניין. אולי זה אפילו נכון.

הבלוג של אורן צור-

אורן הוא:
-עוד קורבן של הסטטיסטיקה
-נכשל במבחן טיורינג

על פסיכופת שאוסף טרמפיסטים בטנדר חבוט, על הפצה ויראלית של רעיונות (בטוויטר), מבנה מול תוכן וגם סוג של הערה לא ברורה על שילוב של מחקר כמותי ואיכותני. פוסט לא קוהרנטי, מעט המחזיק את המרובה (שעליו עוד לא חשבתי).

כחלק מהמחקר שלי אני משחק לאחרונה עם האשתגס (hashtags) של טוויטר. המוטיבציה השאפתית היא לבחון תבניות של התפשטות רעיונות ברשת חברתית. memes, אם תרצו. בדרך כלל מקובל להתחקות אחרי מבנה הרשת החברתית שמאפשר את  התפוצה יוצאת הדופן (המאמר המכונן הוא maximizing the spread of influence through a social network של  קמפ, קליינברג וטרדוש). מהזווית החברתית, במובן המתמטי, השאלה מוגדרת באופן הבא – בהינתן מבנה של רשת חברתית  (גרף) ובהינתן רעיון להפצה – איך אפשר לבחור את מספר היוזר/ים (צמתים) המינימלי שאם "ידבקו" ברעיון, ההפצה תהיה היעילה ביותר. שאלה הזו מרתקת, ללא ספק. בעיקר אם אתה מפרסם, ספאמר או מומחה לפרופגנדה. (האחרון שעבד על זה [פוסטדוק של קליינברג] קיבל מיד משרה בסטנפורד, ללמדכם על העניין הרב בהפצה וויראלית של מוצרים ורעיונות [וללמדכם גם על יוקרתו של קליינברג ועל ההנחיה המצויינת שלו]).

המחקר הוויראלי התמקד כאמור בתורת הגרפים – במבנה הרשת החברתית. מנגד, ענייני תוכן ומשמעות נזנחו בצד הדרך. אבל לא איש חסיד תוכן שכמותי יפקיר פצועים וכך החלטתי להתעסק קצת בתוכן, כמו אותו פסיכופת בטנדר חבוט שאוסף טרמפיסטים בדרכים צדדיות רק כדי לכלוא אותם במרתף טחוב. ניסוח מסויים של הבעיה מהזוית הפסיכו-בלשנית-חישובית הוא: בהינתן נתונים על התפוצה של הרבה  האש-תגים (להלן HT), האם נוכל למצוא קורלציה בין תכונות אינהרנטיות ל-HT (ולתוכן הטוויט בו הוא נמצא?) לבין מידת הפופולריות שלו (ואולי גם לתבנית ההפצה). למשל – האם תגים שמורכבים ממילת רגש (sentiment) מאומצים ביתר קלות מתגים אחרים*.

עוד אין לי תובנות מרחיקות לכת, בוודאי לא אלגוריתם לחיזוי התפוצה של meme אבל זה הזמן לספר סיפור על HT אחד ואולי לקבל כמה עצות ותובנות משועלי טוויטר וותיקים שאולי קוראים כאן בבלוג.

במו מחשבי עברתי על 400000000 (ארבע-מאות מיליון! הא לכם! חסידי המחקר האיכותני!) טוויטים של ששת החודשים האחרונים של 2009 וגיליתי שה-HT הפופולרי ביותר הוא FF#. הא?! WTF? שאל את עצמו טירון טוויטר שכמותי. מה זה בכלל FF? לא הועילו לא נחש ולא לחש אלא רק פניה לאלוהי הגוגל. מסתבר ש-FF הוא קיצור של Follow Friday. והנה איך שהכל התחיל בבוקר בהיר של יום שישי:

שימו לב שאין כאן שום HT. אחד העוקבים הציע את התג followfriday#, עוד כמה עוקבים אימצו את ההצעה ופתאום הייתה התפוצצות – בשעות השיא של יום שישי התג הופיע פעמיים בשניה. יום אחר כך התג לא הופיע כלל. אף לא צפצוף של מאמץ מאוחר וחסר מודעות. קול דממה דקה. עד לסוף השבוע הבא. ביום חמישי בלילה התג הפציע שוב, הפעם גם ממצייצים בשפות זרות. וכך שבוע אחר שבוע התג היה מופיע בתדירות פנטסטית ונעלם כלעומת שבא. את הסיפור ההיסטורי הזה מצאתי כאן ויש שם גם הסבר מסויים (אך פשטני)  על הסיבה שהתג הפך לכזה פופולרי + השתפכויות על טוויטר כמערכת המלצה משוכללת.

אבל אנחנו בעניני תוכן ובלשנות ומבחינתי הסיפור לא נגמר כאן. שימו לב שהתג הפופולרי הוא FF# ולא followfriday#. למעשה, בדטא שלי (כשישה חודשים אחרי ההתפרצות הראשונה) ספרתי את השכיחויות הבאות:
FF#: 701313
ff#: 217060
followfriday#: 219968
FollowFriday#: 159166
כלומר יש כאן גם תופעה של קיצור והתופעה הזו מרתקת בפני עצמה.

כמדיום להעברת רעיונות, שפה, באופן עקרוני, שואפת לחסכנות. בשפה מדוברת (באופן מילולי) מילים נפוצות וחשובות (כן, לא, אני) יטו להיות קצרות (כמו קידוד בדחיסת קבצים). מילים ארוכות יקבלו תנועות והטעמה שיגרמו לדובר להשקיע מאמץ מינימלי וכו'. התאוריה הזו, מורכבת מעט יותר מהניסוח שלי במשפט האחרון נקראת optimality theory (והדוגמא החביבה עלי מהזמנים שהייתי קורא מאמרים בבלשנות היא "minne-fuckin-sota" ממאמר שמסביר למה אנשים ממינסוטה יגידו שהם ממינ-פקינ-סוטה ולא, נניח, ממי-פאקינ-נסוטה). התופעה הזו קיימת, כמובן, גם בכתיבה. בעיקר כשהכתיבה מעצבנת ובעיקר כשהמדיום מטיל אילוצים שונים ומשונים כמו הקלדה על תשעה מקשי המספרים בפלאפון והגבלת מספר התווים של סמס או של טוויט.

אבל קיומם של אילוצים לא מספיק כדי לגרום למנגנוני השפה לפעול ולקצר. כדי שמילה, תג או meme יתקצרו הם צריכים להיות נפוצים מספיק כדי שיהוו "מטרד" וידרשו קיצור. הם גם צריכים להיות ברורים מספיק כדי שהקיצור יובן. מזלו של ה-followfriday שיחק לו. לטוויטי followfriday יש, בדרך כלל, מבנה קבוע – אוסף @ שמות משתמש (להמלצה) והתג followfriday#. התפוצה הרחבה של התג בצורה הארוכה והמבנה המובן מאליו מאפשרים זיהוי מיידי של followfriday עם FF (ושימו לב שהפופולרי ביותר הוא FF שדורש מאמץ גדול יותר מff [לחיצה על SHIFT]).

למען האמת, ה- followfriday לא ממש מתאים להשערות שיש לי בדבר אופן התפוצה של תגים בטוויטר. זה בסדר. המקרה של הFF נותן תובנות מעניינות מספיק, הן על חריגים מיוחדים התבניות התפוצה והן על תופעות בלשניות מסויימות שנמצאות בבסיס תבניות התפוצה (תודה לכם אנשי המחקר האיכותני). עם זאת, המקרה הזה של ה-FF מגלם בתוכו שילוב מרתק של עקרונות וויראליים של מבנה חברתי, של תוכן (משמעות, מבנה הטוויט) ושל אבולוציה של שפה ואני מרותק. כבר שלושה ימים אני חושב רק על זה. כמעט. בערך. כלומר, גם על זה**.

*טוב, המודל שאני מציע הוא לא כל כך פשטני אבל גם לא מאוד מורכב. אני רוצה לאפיין כל HT על ידי ווקטור של פיצ'רים בלשניים ואז להפעיל מודל רגרסיה שילמד את המקדמים של כל פיצ'ר ויאפשר לעשות פרדיקציה. חלק מהפיצ'רים הם משפחות סנטימנט.
**וגם על ההבדל בין התגים fuckYou (שכיחות: 1622) ו – weHateYouMiley (שכיחות: ~5000 בקומבינציות שונות של אותיות גדולות וקטנות).

11 תגובות עבור “ומה זה FF#, לעזאזל ?”

  1. מעניין מאד. איך עוד לא גייסו אותך לאיזה סטארטאפ מגניב ופורץ דרך?

    מרגוליס

  2. מעניין מאוד.

    אגב, FF לא דורש יותר מאמץ: בשביל גירסת ה-lowercase, צריך לשחרר את ה-shift באמצע, וזה יותר קשה.

    חמיס

  3. ככל שהזמן חולץ אני פחות ופחות מבין מה הקטע שלך עם טוויטר.

    כאילו, זה שהם דטה בייס ענקי ונגיש של מידע בפורמט אחיד זה אחלה, באמת, אבל הדוגמא הזו בדיוק מראה את כמה שהוא מוטה ע"י כל מיני טרנדים איזוטריים ובדיחות פנימיות של קהילת (קוקואים נרקיסיסטים) סגורה.
    האם זה מלמד משהו על שפה טבעית אמיתית יותר ממה שאפשר ללמוד, נניח, מאשר דפי זהב?

    מהגג

  4. מרגוליס – תודה.

    חמיס – לא הבנתי. למה לשחרר באמצע? פעם אחת שיפט בשביל ההאש ושאר המשפט הוא באותיות קטנות (ההאש מופיע לאו דווקא בסוף המשפט).

    מהגג – במידה מסויימת יש לי חשש כזה או לפחות חשש שיש הרבה מאוד תופעות שונות שקשה לאפיין. אבל אני מקווה שזה שמדובר בה-מ-ו-ן דטא יאפשר למצוא סיגנל. אני גם רואה את טוויטר כאחד המקומות המתוייגים ביותר ושהתיוג בו מהווה לייבל מאוד משמעותי (כי כל תו יקר) כך שאני מקווה שיש גם מספיק תופעות איכותיות.

    אורן

  5. לי אין ספק שבטוויטר יש סיגנל, שהוא משמעותי וחזק ויכול ללמד הרבה על אה… אנשים שכותבים בטוויטר.

    הנקודה היא שמשתשמי טוויטר רחוקים מבני כמעט כמו יפנים.

    לו אני עורך של ז'ורנל על natural language processing הייתי דוחה מאמרים על טוויטר על סעיף אי רלוונטיות לשפה אנושית.

    מהגג

  6. אני גם חושבת ש #FF זה קצר יותר.
    צריך לחשוב על זה עם הגוף, לא עם העיניים: סוף מילה זה מקום יותר טבעי לעזוב בו את השיפט, יחד עם הלחיצה הדרמטית על הרווח. זה מקצר את הכתיבה בפעולה אחת.

    מה גם שאם אתה דובר שפות זרות (שאינן אנגלית), ובהנחה שאתה מעתיק את השמות לתיבה ולא מקליד אותם ידנית, בכלל השימוש באותיות גדולות מקצר לך את העבודה כי הוא חוסך שינוי שפה.
    את זה אפשר לבדוק, אפילו (נגיד, מה שיעור השימוש ב ff לעומת FF אצל אנשים שכותבים באנגלית ואנשים שכותבים בשפות זרות, אם זה מעניין בכלל).

    hilanoga

  7. גם אתה נתפסת ברשת של ניתוח רשתות חברתיות (נר"ח?). הרי לך טרנד שפושט במהירות.

    הייתי בסדנה על נר"ח ב-ICML בקיץ, הציגו שם בין היתר מחקרים על השפעה בטוויטר, אם כי לא על HT. אחד מהם בדק את ההפצה של קישורים מקוצרים עם סיומת bit.ly, שזה מקור מידע מעניין – כיוון שהם יוצרים כתובת מקוצרת חדשה בכל פעם, גם כאשר הכתובת המקורית היא אותה כתובת, אפשר להתחקות על המסלול שעשה הקישור בטוויטר ועקרונית גם מחוצה לו.

    דנקן ווטס, שנתן הרצאה טובה מאד לדעתי, טען (אם הבנתי נכון) ש"מגיפות חברתיות" הן פחות או יותר בלתי ניתנות לחיזוי, ושככל שעוקבים אחריך יותר אנשים כך השפעתך (הנמדדת בסיכוי שיחזרו על דבריך\קישוריך) על כל אחד מהם קטנה. כך שלצרכי פרסום מוטב לשלם, אם זה אפשרי, מעט כסף להרבה טוויטראים קטנים, מאשר הרבה כסף לידוען אחד עם מיליון עוקבים כמו שעושים המפרסמים היום.

    טרם נכנסתי לקישור שלך על ההסבר לפופולריות של FF, אבל הייתי מנחש שזה קשור לכך, שתג כזה שימושי למי שמתעסק בבניית הרשת – מציע לאנשים לחבור לאנשים חדשים. תופרי רשתות כאלה הם בדיוק האנשים שמאמצים ומפיצים ממים; האנשים שעוקבים אחריהם צפויים להיות כאלה בעצמם, בגלל הומופיליה. מעניין לבדוק, אם אנשים שמשתמשים ב-FF הם מובילי דעה\מושפעים באופן כללי.

    איזה הסבר אתה מציע להתפשטות של HT? האם זה משהו שאמור להיות אורתוגנלי למידת ההשפעה או המושפעות הכללית של המשתמש?

    אם כבר ממילא הארכתי כל-כך, אעיר עוד משהו בעניין ה-HT – הצייצנים העבריים משתמשים ב-HT עבריים (#האשטאג) שימוש שהוא כולו אירוני ומודע לעצמו, כי המנגנון של טוויטר לא תומך בזה, או לפחות לא תמך עד לאחרונה. כלומר, ה-HT לא עוזר לחיפוש, אלא משמש רק כמין תוסף אמנותי לטוויט. (אגב, היינו מצפים, ואכן אני לפחות ציפיתי לזה כשהתחלתי לעסוק בעיבוד שפה טבעית בעברית, שבשנת 2011 כבר לא תהיה שום משמעות לשפה שבה אתה משתמש באינטרנט והכל יהיה שקוף, אבל הנה, זה לא קורה!).

    דודי

  8. דודי –

    קודם כל תודה על התגובה הארוכה.
    בקצרה – מה שאני מציע הוא אורתוגונלי לחלוטין למבנה הרשת. יואב ניסח את זה בצורה יפה (באימייל) אם יש כמה תגים שונים אבל בעלי אותה משמעות (כלומר מסמנים את אותו דבר), האם אפשר לאפיין איזה מתוכם יהפך למקובל בניגוד לאחרים.

    או אולי מכיוון אחר – נניח שמצאנו את מצייץ האלפא (או כמה מצייצים אחרים) עדיין – לא כל הHT שלהם יתפסו. האם אפשר לאפיין אותם?

    בעוד כמה שבועות, כשיהיה לי זמן ומשהו מעניין לומר אני ארחיב עוד קצת על ההסבר שאני מציע/מצאתי להתפשטות.

    אורן

  9. […] את ההרצאונת. בכל מקרה – מומלץ לקרוא גם את הפוסט מה זה FF לעזאזל? […]

    עברית אינטרנטית

  10. כיצד מוגדר: "ההפצה תהיה היעילה ביותר" ?

    Ron

  11. יש הגדרה מדוייקת במאמר בלינק למעלה, אבל זה משהו כמו בהינתן גרף G ובהינתן שמותר לבחור מקסימום K קודקודים בגרף, אילו קודקודים יגרמו לתפוצה/חשיפה מקסימלית. הבעיה היא בעיה קשה כי צריך לקחת בחשבון גם את הפעולות של העוקבים של הקודקודים האלו (ושל העוקבים שלהם וכו') ולא פשוט לספור את מספר העוקבים של כל K קודקודים.
    אם אתה מתעניין בזה, אז יש על זה ה-מ-ו-ן עבודות, בעיקר בכנסים WWW, WSDM ו-ICWSM.

    אורן

להוספת תגובה