מדע בזיוני

מעניין. אולי זה אפילו נכון.

הבלוג של אורן צור-

אורן הוא:
-עוד קורבן של הסטטיסטיקה
-נכשל במבחן טיורינג

סגירת מעגל: אלגוריתם לזיהוי אירוניה וסרקזם. כן. בטח.

עריצה היא הלבנה

לא אוהב מדע בדיוני. כמעט לא קורא מדע בדיוני. אבל מעט הספרים שקראתי דווקא היו מעולים. את עריצה היא הלבנה קראתי בפעם הראשונה בכיתה י’ (שורה אחרונה שולחן ימני, כיסא ימני). הקטע הזה עם המחשב שלומד להבין בדיחות ממש הפיל אותי מהכיסא. לפני כמה שנים, כשקראתי את הספר שוב הבנתי שללמידת המכונה תפקיד משני לחלוטין.  ובכל זאת, באופן מסויים השפיעה האנקדוטה הזו על החיים שלי.

תודה לך פרופסור אורן

בחודש הראשון בשנה הראשונה של התואר הראשון קיבלתי אימייל ששיעשע אותי קשות. “תודה לך פרופסור אורן XXX,” היה כתוב שם. הם הודו לי על התרומה לכנס ZZZ בשנה שעברה ותהו אם אסכים להיות גם השנה בוועדת המארגנת של הכנס שיתקיים בפלורידה.

כתבתי להם שפלוקידה זה מצויין כי אפשר לקפוץ לדיסניוורלד אבל אני קצת עסוק באדמיניסטרציה של תחילת שנת הלימודים ולכן אין לי כל כך פנאי. "אולי בעוד חודש חודשיים אוכל להחזיר להם תשובה" עניתי, נהנה מהשידרוג המפתיע במעמדי האקדמי (ומיד רץ להגיש תרגיל באינפי).

“אין בעיה**. קח חודש,” הם אמרו ושאלו גם על מה אני עובד עכשיו.  ללא היסוס עניתי שעל זיהוי אירוניה בטקסטים כמו אימייל. “מרתק!” הם ענו. “אכן,” סיכמתי גם אני “זה תחום שגם בני אדם מתקשים בו”.

ובמהלך הלימודים לקחתי קורסים בלמידת מכונה ובבלשנות חישובית, נזכרתי בעריצותה של הלבנה והחלטתי לכתוב סמינר (בוסרי עד בושה) על מודלים חישוביים לזיהוי אירוניה. ואז החלטתי להתמקד בעיבוד שפה גם בלימודי המאסטר. וגם בדוקטורט. ובמסלול מפותל שעבר דרך מערכות QA (שו”ת), מודלים של רכישת שפה שניה ודירוג ביקורות באמזון נסגר מעגל והשנה כתבנו שני מאמרים על זיהוי משפטים אירוניים/סרקסטיים  בביקורות מוצרים (אמזון) וזיהוי טוויטים סרקסטיים.

זיהוי אירוניה

אני חושב שזו הפעם הראשונה שאני מלנקק כאן מאמר שלי (מאמרים של אחרים יש כאן למכביר). זה מאמר חמוד מאוד, משעשע לפרקים, מפתיע ושיש סיכוי שיעניין את קהילת הקוראים/מצייצים. והוא כמובן אירוני ומודע לעצמו. או שלא.

Semi-supervised Recognition of Sarcastic Sentences in Twitter and Amazon*** [pdf]
(CoNLL 10- Computaitonal Natural Lanuage Learning)

המאמר דחוס מאין כמוהו כדי להתאים לסד מכסת העמודים המוקצית. למרות זאת, המבוא, החלק על טוויטר והדיון על התוצאות (פרקונים 1,2 ו-5) קלים לקריאה גם למי שלא מבין במדעי המחשב ובעיבוד שפה. למעשה גם החלק האלגוריתמי הוא מעט טכני ומייגע אבל לא מסובך במיוחד. תהנו. בטח.


* מוקדש לאמן הציוץ הקצר שציוץ שלו נכנס למאמר כדוגמה למבנה של טוויט ושעבר בטובו על הקטע שמתאר את טוויטר והעיר את הערותיו לצפצפן-טירון שכמותי.
** כמובן שבדיעבד גיליתי שזה כנס ספאם. רק שהוא היה חלוץ בתחומו – עוד לפני שהמציאו את המושג. והכנס הספציפי הזה ראוי לפוסט משל עצמו.
*** המאמר הזה משלים מאמר אחר (שיוצג בעוד שבועיים ב-AAAI-ICWSM) שמתעסק רק באמזון, מניח את התשתית האלגוריתמית ומנתח אותה (גם) במנותק מהדטא. המאמר המלונקק מנתח בעיקר את הייחוד של טוויטר מול אמזון. ואני מאוד אוהב את החולצה הזו.

16 תגובות עבור “באופן אירוני ומודע לעצמו*”

  1. קודם תפתחו אדם שמזהה אירוניה, אחרי זה תעברו לאלגוריתם.

    עידוק

  2. עידוק-
    היפנים עובדים על זה. אירוניה מזן מסויים.

    אורן

  3. וואו תודה!
    נורא נהניתי מהפוסט הזה.
    בעיקר מהמאמר.

    (recognize that, algorithm)

    liza

  4. וואלה אורן, הכנת אותי להופעה של פורטיס. תודה!

    יובל

  5. ועכשיו, אחרי ההופעה (הוא משוגע) ואחרי שקראתי:

    1. אם עוד לא מאוחר להגהה ותיקונים – ההופעה של ג'נט ג'קסון לא היתה ב-2009; חוץ מזה יש כמה שגיאות בהתאם:
    עמ' 6 למטה (impossible to created, these
    agreement statistics indicates) ועמ' 8 באמצע – easy to
    understand from individual sentence

    2. האלגוריתם מתעלם משמות הספרים והמחברים (החלפתם אותם בקודים) – אבל האם אין תגובות
    (ובמיוחד סרקסטיות) שמשחקות על השמות? האם זה לא הופך את אי-זיהוי הרפרנס למגבלה?

    יובל

  6. יובל –
    1. קודם על תודה על התיקונים. קצת מאוחר לתקן באופן רישמי אבל אני אתקן לפחות את הגירסה באתר. מצחיק שאף אחד מהריביוארס לא העיר על הג'נט ג'קסון (איכשהו שכרתי שזה היה בשנה שעברה. הייתה אולי איזו שערוריה אחרת?).

    2. אתה צודק שזה לא מאפשר לזהות משחקי מילים על השם אב א – נראה שמיעוט ההערות הסרקסטיות הן כאלו וב – אני חושב מישחקי מילים מצריך גישה קצת שונה. אני מכיר כמה עבודות על זה.

    אורן

  7. האם תוכל לפרסם רשימה נפרדת של ציוצים וביקורות שהאלגוריתם הצליח לזהות כאירונים?

    חנן כהן

  8. חנן –
    כשיהיה לי זמן אני אעלה חלק מהדטא שיש לי על הלפטופ. להעלות כמויות גדולות יותר זו פרוצדורה כי אני בחו"ל והמחשב שהכל עליו לא זמין מרחוק. אבל אני אנסה לזכור (ואולי לשכנע מישהו לכתוב איזה אפלט שיוציא את הבחירות של האלגוריתם ויתן לקוראים להצביע ולהחליט בעצמם. אולי זה גם ישפר את האלגוריתם. אבל זה כבר סיפור אחר).

    אורן

  9. אתה לא אוהב מד"ב? מפתיע, במיוחד בגלל שם הבלוג.

    רשקולניקוב

  10. סחתיין על החשיפה שזכיתם לה במדע פופולרי/בוינג בוינג/סלאשדוט/הטוש. מחר נעשה לכם כבוד גם אצלנו.

    איתמרק

  11. […] 2010 מאת איתמרק עמיתנו אורן צור חרג ממנהגו בשבוע שעבר והעיד על עיסתו; ליתר דיוק, העיסה שלו, של דמיטרי דוידוב ושל ארי רפופורט, […]

    באופן אירוני ומודע לאחרים « דגש קל

  12. […] אורן הוא:-עוד קורבן של הסטטיסטיקה -נכשל במבחן טיורינג « באופן אירוני ומודע לעצמו* […]

    בין סרקזם לאירוניה

  13. […] סרקזם בשולי המשט 1 יוני, 2010 בשעה 19:00 | פורסם בפוליטיקה, פרגמטיקה | להגיב לידיעת הקורא אורן צור: […]

    סרקזם בשולי המשט « מקפים לוהטים

  14. כל הכבוד. סתם שאלה לאורן. על בסיס המחקר הזה, ניתן לסווג רגשות והתנגות בטקסט?

    דן

  15. דן –

    אני לא יודע מה ההכוונה בלסווג התנהגות בטקסט אבל לגבי רגשות, יש לנו מאמר נוסף שיתפרסם בCOLING ועוסק במגוון רגשות. אם תרצה אוכל לשלוח לך את הגירסה הסופית שתהיה מוכנה בעוד שבוע-שבועיים.

    אורן

  16. היי אורן.
    אני מאוד אשמח לקבל את המאמר שלך שמתייחס למגוון רגשות.(כשיהיה מוכן כמובן)
    תודה.
    selash@gmail.com

    דן

להוספת תגובה