נראה שנרדמתי בשמירה אבל רק עכשיו פתאום שמתי לב שYNET מספקים מנגנון להמלצה על טוקבקים.
"להמלצה על תגובה זו לחץ כאן," הם מציעים בפינה הימנית התחתונה. תראו למשל את התגובה הבאה. לא הייתם ממליצים עליה? אני לא יכולתי להתאפק.
יומיים אחרי ששמתי לב למנגנון להמלצת טוקבקים יצא חה"כ חסון עם הצעת החוק להטלת האחריות על האתרים הגדולים. זה די מביש. לא, לא ההצעה של מר חסון אלא העובדה שכבר לפני חודש וחצי קראתי על המנגנון הזה להמלצה על תגובות אצל דני בדיסוננס קוגניטיבי ולחלוטין שכחתי. זה כנראה האלצהיימר שכבר מתחיל להזדחל. נראה שההצעה של חסון כבר ניטחנה ונכתשה בכל הבלוגים והכתבות – אני אנסה לתת כאן את הזוית החישובית.
א.
קודם כל נוריד את הנושא המוסרי מסדר היום – ח"כ חסון הוא אולי פופוליסט וההצעה שלו היא אולי היסטרית ומטופשת (ואולי לא), אבל כל מגיני חופש הדיבור, מבכי הדמוקרטיה, שבאותה נשימה קוראים למצות את הדין עם אוהדי בית"ר, קצת נסחפו. יון פדר נתן ויון פדר (או הכנסת) לקחו – כתיבת טוקבקים אינה אחת מזכויות היסוד ואף אתר פרטי לא חייב לתת במה לטוקבקים. הטוקבקיסט יכול לפתוח בלוג בישרא, להקים בלוג עצמאי על שרת באיי קיימן עם תשתית של וורדפרס או אפילו לכתוב בלוג מכובד ברשימות המתרחב לפני סגירה ושם הוא יכול להפיץ את דעותיו המלומדות ככל שתחפוץ נפשו. אלא שחסון הוא לא חכם גדול, הוא חבר במפלגה הלא נכונה ויש לו עבר בשירותי הביטחון הכה-אהובים שלנו - כל אלו הופכים אותו לשק חבטות אידיאלי – לפשיסט, שטאזיסט ועוד כהנה. חסון, אגב, לא לבש את החליפה של האיומים הוא פשוט הציע שהאתרים הגדולים יהיו אחראיים לתוכן הגולשים (לא ברור לי מה זה אומר, באתר הכנסת לא מצאתי את הצעת החוק).
תרשו לי מילה אישית ואופורטוניסטית – אני בעד ההצעה של חסון ולוּ בגלל שאם היא תתקבל האתרים יצטרכו כלים אוטומטיים מתוחכמים לסינון תגובות - אתגר מחקרי עם תועלת כלכלית לבלשן החישובי (לקוראים ממשפחות מוזס ושוקן – הצעות מימון נדיבות ו-CD של מסד הנתונים של הכתבות והטיקבוקים יתקבלו בברכה).
ב.
רבבות קוראי הנאמנים בטח שמו לב שבזמן האחרון אני מתעניין קצת במנגנון דירוג ביקורות הגולשים באמזון (רביזור – מי יבקר את המבקר? וגם אז מה משפיע על דירוג הביקורות באמזון?). לביקורות הגולשים באמזון ולטוקבקים תוצרת הארץ אין הרבה מן המשותף, אבל דבר אחד עומד בבסיסה של הפלטפורמה – לא הדמוקרטיה של הרשת כי אם הגדלת החשיפה. אַפְשֶר לכתוב ביקורת - יותר אנשים יגיעו כדי לכתוב ויותר יגיעו כדי לקרוא. יש אפשרות להשאיר טוקבק – הגולשים יגיעו כדי לכתוב את דעתם על אמא של הכותב ויגיעו שוב כדי לראות אם התגובה שלהם פורסמה או צונזרה ויחזרו בשלישית כדי לראות אם כתבו להם "34 אתה גדול" או אולי דווקא "34 אתה אידיוט", ויחזרו לריב עם 47 שכתב "34 אתה אידיוט". נתת להם אפשרות להמליץ על הביקורת אז הם יחזרו שוב בשביל להמליץ על עצמם ואז עוד כמה פעמים בשביל לראות אם גם אחרים המליצו עליהם והם זכו לבּוֹלְד הנכסף. תוכן גולשים? זו הכלכלה, טמבל, לא הדמוקרטיה.
ג.
הרעיון שעומד בבסיס של המלצת התגובות בוינט הוא יפה – תגובה שתקבל מספר גבוה של המלצות תופיע בבּוֹלְד וכך תזכה לחשיפה גבוהה יותר על חשבון תגובות הזבל (תרתי משמע). באותה מידה אפשר לדחוף את התגובות המומלצות למעלה או להציג אותן ולמחוק אחרות. דני בדיסוננס (לינק למעלה) כבר דן בזה והציג את ההטיות המובנות בשיטה. דני הציע גם את ה-smartcha (יופי של הברקה מילולית) מעין מבחן IQ לסינון ביקורות. בתגובות אצלו התפתח דיון בדבר ישימות המבחן הזה ויפי הנפש שבחבורה גם יצאו (בצדק מסויים) נגד ההתנשאות הגלומה במבחני IQ לסינון טוקבקים.
ד.
אני מניח שכיום משתמשים העורכים בכלים אוטומטיים פשוטים – יש רשימת מילים אסורות (קללות, למשל) שאם הן מופיעות בתגובה היא נזרקת לפח הזבל של בסיס הנתונים, יש רשימת מילים שנויות במחלוקת – תגובות כאלו מקפיצות נוטיפייר לעורך אנושי שיקרא וישפוט. רוב התגובות עוברות חלק. אם אין מערכת כזו אז צריך לבנות אחת כזו – זה כלום עבודה. אבל מצד שני, גם מערכת כזו לא תזהה את מרבית התגובות הבעייתיות מלכתחילה, וניתן לעבוד עליה בקלות ולהשחיל גם מילים אסורות – ראו למשל את היצירתיות של יצרני הספאם/פקאצות בשימוש יצירתי בסימנים במקום אותיות. כירושלמי (בעבר) וכבית"רי (בתרדמת) הנה דוגמה ברוח הימים האחרונים: 7בי| ב1גז (הסתה-הסתה).
ה.
בסימון התגובות המומלצות יש גם יתרונות חישוביים רבים – אני אתן לפדר את הקרדיט שהוא יודע מה יש לו ביד – קורפוס מתוייג שמאוחר יותר, כשהצעת החוק של חסון תעבור, יוכל לשבש כטריינינג-סט לאלגוריתם לסינון טוקבקים בצורה אוטומטית. (לשבש – צ"ל 'לשמש' אבל הטעות הפרוידיאנית הושארה בכוונה בשביל הסעיפים הבאים).
נראה שהדרך להתחיל עם זה היא בשילוב של clustering עם שיטות של איחזור מידע. היינו רוצים לזהות את המשותף לתגובות המומלצות ואת המשותף לתגובות הלא מומלצות (באופן כללי או בהתאם לכתבה מסויימת). זה נשמע פשוט אבל זה לא. כדאי לבדוק דימיון קוסינוסי בין תגובות מומלצות לבין מושא התגובה (=הידיעה/כתבה). אפשר וצריך לנסות את זה גם בלי התיוג. אני אנסה לנסח את שאלת המחקר הזו בצורה חצי פורמלית – האם ניתן למצוא התאמה (פונקציית מיפוי?) בין מודל השפה של כתבה מסויימת למודל השפה של תגובה טובה.
ו.
וכאן הכל מסתבך. מה זו תגובה טובה – האם זו תגובה שמגיבה לעניין? ומה עם תגובה לתגובה ולדיון אינטליגנטי שמתפתח בתגובות ומפליג הרחק אל מקומות רחוקים שלא קשורים באופן ישיר לנושא הכתבה. ומה עם תגובות מתחכמות ומשעשעות? ולשון הרע? ומה עם תגובות לפי ז'אנרים של כתבות – מודל של תגובה מומלצת לסקירה פוליטית שונה מתגובה טובה בערוץ הרכילות…
רוצים פתרונות – תנו מלגות!
ז.
אחרי שהשתפכתי כאן על האוצר הבלום של יש לYNET ביד עם ההמלצות על התגובות אני רוצה גם לסייג ולומר שבהתחשב באופי של הישראלי המצוי הנתונים האלו קצת חסרי חשיבות. אני אדגים בסיפור אישי מילדותי הרחוקה אי-אז כשהלכנו בשביל קליפות התפוזים:
בתיכון בו למדתי היה נהוג להעניק 'פְּרַס חנוכה'. נגד התיכון בו למדתי טענו שהוא "בית חרושת לציונים" ותו-לא, ה'פרס חנוכה' נועד להזים את הטענות. זה היה פרס שלא הוענק על הישגים אלא על 'אישיות' - פרס לתלמיד הפעיל חברתית, עוזר לחבר'ה, אהוד על התלמידים ובקיצור - מהווה דוגמא לדרך ארץ שקודמת לתורה. הפרס היה מוענק ברוב טקס והדר במסיבת החנוכה הבית-ספרית. רעיון יפה מאוד לכשעצמו שנתקל, כמובן, בבוז גדול מצד התלמידים שלא סבלו שום טקס בית סיפרי – "ממסדי". כמובן שכל זוכי הפרס הוקעו מייד כעדת לקקנים שנבחרו על ידי המורים – אות קין לכל חיי התיכון. לקראת חנוכה של כיתה י' הפתיע המחנך ובניסיון לתת לגיטימציה ל"מוסד הפרס" הודיע על בחירות – "היום, ברגע זה ממש, אתם תבחרו את מקבל הפרס", אמר וחילק לנו פתקים עליהם היינו אמורים לרשום שם אחד - שמו של הראוי לפרס. התיקו התברר בתום מניין הקולות - בדיוק חצי כיתה בחרה את ע' הערס המזרחי של הכיתה והחצי השני בחר את א' הערס האשכנזי של הכיתה – שניהם תלמידים גרועים מאין כמותם, שניהם תמונת נגטיב מושלמת לאותו תלמיד ייצוגי עליו חלמו בהנהלה. ההישג הסטטיסטי בבחירות היה מרשים. הכיתה הוכיחה תאום רעיוני מופלא כתגובה לדמוקרטיה הזו שנכפתה עלינו בהפתעה. הגיבוש הכיתתי הוכח בצורה ספונטנית, לא מתואמת ובלתי תלויה – מעין גרסה מודרנית ואנרכיסטית משהו לתרגום השבעים: "נתן הקב"ה בלב כל אחד ואחד מהם עצה והסכימו כולם לדעה אחת וכתבו…". סוף דבר, הוכרז שאנחנו עדיין לא בשלים לדמוקרטיה. אבו-מאזן הודיע על ביטול תוצאת הבחירות ובחר בעצמו את זוכה הפרס שזהותו נשמרה בסוד עד לטקס.
חוששני שזה בדיוק מה שקורה עם המלצת התגובות בוינט – הישראלי המצוי והמשועמם בוחר את התגובות שנראות לו משעשעות, חצופות וגסות. למה? בשביל לדפוק את המערכת כמובן. ככלות הכל - מה יותר משעשע מ"אני אוהב אותך בית"ר" כתגובה בולטת בכתבה על רבין?
ח.
הסיפור על הפרס-חנוכה דווקא נגמר באווירה אופטימית. בטקס, כשהכריז הכרוז את שמו של ה'פרס' נשתרר שקט ואף אחד לא ניגש. הכרוז שנה ושילש ואז, לקול מצהלות התלמידים, הסתבר שה'פרס' מצא לעצמו עיסוקים מהנים יותר ופשוט הבריז מהטקס. יש לציין, אגב, שהמחנך קלע בול ובאמת בחר את זה שלא הצטיין בלימודים אבל בהחלט היה בעל לב זהב ואישיות מלבבת ואהודה על שאר בני הכיתה. ההברזה מהטקס רק הצדיקה את הבחירה. בפעם הראשונה בהיסטוריה הבית-ספרית הוכר זוכה הפרס כראוי גם על ידי התלמידים. זה היה בימים ההם.

הנה 7.84 האגורות שלי בנושא: נראה לי שיש יוריסטיקה מאד פשוטה לזיהוי "טוקבקים איכותיים", לפחות לפי המדד שלי לאיכות: טוקבק יחשב איכותי אם הוא מכיל לפחות 2 משפטים ו/או 50 מילים, והוא תחבירי במידה סבירה (כשההגדרה של תחבירי יכולה להיות מאד גמישה, למשל בעל הסתברות מעל סף מסויים על פי מודל שפה המבוסס על שכיחויות של זוגות מילים).
היוריסטיקה הזו מתעלמת אמנם מהתוכן, ומהתאמת התגובה לטקסט הספציפי, אבל היא קולעת למה שביעני הוא החשוב ביותר: זוהי תגובה שכנראה מעבירה רעיון חדש כל שהוא. למעט כמה הברקות/שנינויות, קשה מאד להעביר רעיון (ששווה התייחסות) בפחות מזה.
ו, רעיון ליורסטיקה נוספת: בהנחה שתוכן איכותי הוא כזה ששיצירתו דרשה מחשבה מסויימת, אפשר להשתמש ב"זמן הדרוש להקלדת התגובה" כמדד גס לאיכות, ולפסול תגובות מתחת לסף מסויים.
יואב
נובמבר 11th, 2007
יואב - הנה העודף:
ההיוריסטיקה שאתה מציע היא מיידית והיא טובה במובן זה שהיא תעשה בקלות עבודה של שמונים אחוז אבל תתקשה מאוד עם העשרים אחוז הנותרים. ועוד משהו - יצא לי לדבר על זה עם מקורות יודעי דבר בגוגל-יאהו-מיקרוסופט (מחק את המיותר) והם אישרו שהבעיה מורכבת מאוד אם רוצים מנגנון סביר לשימוש גורף.
חוצמזה, אותי, באופן אישי, מעניין הנושא של ניתוח תוכן והתאמת מודלים ולכן ההיוריסטיקה שלך שעוקפת את זה לא כל כך מוצאת חן בעיניי.
אגב, אם זה מעניין אותך, יש כמה מאמרים שמנסים את השיטות האלו כדי לדרג ביקורות באמזון. בEMNLP האחרון היה פוסטר על זה (אני לא מבין איך הוא התקבל הוא פשוט חזר על מאמרים אחרים).
אורן
נובמבר 11th, 2007
על מנגנון ההמלצה של Y NET אני יודעת הרבה זמן. גם אנוכי מדי פעם חוטאת בטיקבוק שם. לא תמיד אני עוברת את מחסום הצנזורה. אולם באתר רשומות אני כן עוברת. קולגות רבים שלך כן מכניסים את התגובות שלי. אבל ידידי החביב לא תמצא אותי מתלהמת שם כאחת מהשוק אלא מביאה נימוקים היסטוריים ומדעיים האם זה מה שמעצבן את Y NET? לא יודעת אבל בכל אופן ממשיכה לכתוב. ולגבי חברי כנסת מהזן הפופוליסטי, הם ימשיכו לרכוב על הגל עד שזה יעבור להם. גלים סופם להתנפץ אל החוף כך גם הצעת החוק של החבר חסון שלא פורסמה כאמור באתר הכנסת… הצעה במשקל נוצה.
רחל
נובמבר 12th, 2007
והנה גנבתי מלינק שמצאתי בלינק שמצאתי אצל יובל דרור, קבלו את ה-StupidFilter: http://stupidfilter.org/main/index.php?n=Main.About
אני כמובן סקפטי, כלומר לאמן קלסיפייר לפי מספר הופעות של LOL או OMG זה לא חוכמה, וחוצמזה - בעיקר בבלוגים קיימת תופעה של הפוך-על-הפוך ואנשים גם אנטליגנטים מביאים אותה ב"אני ראשון שולתתתת!!!1".
אבל זה צעד ראשון מעניין ונכון ונראה לאיזו רמה של סינון הם יגיעו.
אורן
נובמבר 12th, 2007
[…] טוב עם: 1. גבינות קשות ובשרים קרים. 2. גם עם הפוסט הזה: טוקבקים – שהמחשב יפקח עליהם בעצמו, שמציע מודרציה אחרת של […]
פייר מנארד וסינון חכם של תגובות
ינואר 15th, 2008
אני אישית מאמינה שבמצבים כאלה אין כמו הסינון האנושי. אם הקהל רוצה לשמוע ש"שרוף על כדורגל" אוהב את בית"ר כתגובה על כתבה על רבין, כנראה שזה מה שהוא צריך לקבל.
לאחרונה נתקלתי במנגנון שמפותח שאמור לתת מענה לדרישה הזאת:
http://www.pnyxe.co.il/
(למען הגילוי הנאות - החבר'ה שמפתחים אותו הם מכרים שלי).
ובהתייחס לסעיף ו' שלך - נראה לי שהדוגמה של המלצת התגובות בווינט ענתה לך על השאלה: תגובה טובה היא תגובה שקהל היעד של המאמר אינו אדיש אליה, כשחוסר האדישות יכול לבוא לידי ביטוי בשליחת תגובה "37, אתה אפס", בצחקוק והמלצה על התגובה, או בקיום דיון אינטלקטואלי קשור או שלא קשור לנושא הכתבה המקורי.
מכאן שהעניין העיקרי בפונקציית המיפוי שלך הוא שעבור כל "סגנון של קהילה" היא אמורה להתנהג בצורה מעט שונה. לצורך הדוגמה, היא תחזיר עבור התגובה "אני אוהב אותך בית"ר" בווינט ערך גבוה יותר מאשר היא תחזיר עבור אותה תגובה על הפוסט הזה.
מה שמוביל אותי לסעיף ו' בפוסט שלך - לדעתי ההסכמה שתגובה טובה היא תגובה שהקהילה אינה אדישה אליה מעקרת מתוכן את הדיון ב"מה זו תגובה טובה" (לצורך העניין גם אוסף תווים אקראי יכול להיות תגובה מצויינת אם אתה ואני ורוחמה חושבים שזו יופי של תגובה), וגם את הדיון באליטיזם של תגובות.
HM
ספטמבר 15th, 2008
HM -
יש כאן כמה נקודות מעניינות. הראשונה שבהן היא שלפחות באופן תאורטי המחשב יוכל "ללמוד" לזהות תגובות טובות לפי קונטקסט מסויים כלומר מהן תגובות טובות במדור הספורט ומה הן תגובות טובות במדור הדעות.
אבל הנקודה המעניינת היא מה שהזכרת בהתחלה וזה שאם זה מה שהמשתמשים רוצים אז זה מה שהם יקבלו. ובכן - אני לא בטוח שאני מסכים עם זה. לכן הבאתי את הסיפור על הפרס חנוכה. או לפחות, הייתי רוצה ליצור גם אופציה לסינון תוכן איכותי באמת ולא סתם איכותי לפי קפריזות הטרנד והדחקה של הטוקבקיסט המצוי.
אורן
ספטמבר 16th, 2008