מדע בזיוני

מעניין. אולי זה אפילו נכון.

הבלוג של אורן צור-

אורן הוא:
-עוד קורבן של הסטטיסטיקה
-נכשל במבחן טיורינג

תזכורת לכנס הישראלי לבלשנות חישובית (ISCOL) ומעט על הבעיות החישוביות עליהן אדבר שם.

ISCOL
טוב, קודם כל הנה אנכי מזכיר לקוראי הבלוג – חובבי הבלשנות החישובית ועיבוד השפה, שביום חמישי הקרוב יתקיים כנס ה-ISCOL (האגודה הישראלית לבלשנות חישובית). הכנס יקח מקום* באוניברסיטת בר אילן, אודיטוריום בק (בניין 410). עבדכם ישא שם דברים על ענייני הקֶשֶר בין ספרים והבעיות הכרוכות בהערכת הביצועים של הפתרונות לבעייה הזו. יהיו הרצאות מעניינות אחרות והחידוש השנה הוא שבנוסף להרצאות הסטנדרטיות יהיו גם הרצאות הכירות קצרות בהם דוקטור[נט]ים צעירים יציגו את עצמם לקהילה. הנה התוכניה המלאה. יש דיבור לא רישמי שאחרי הכנס יצאו הצעירים (והצעירים בנפשם) לשתות באחד מבתי המרזח התל אביביים. הפרטים יסגרו במהלך הכנס על קוראסון ומיץ תפוזים.

הגדרות, תוצאות, בעיות
העיסוק שלי ב'ספרים קשורים' היה אמור להיות פרוייקטון קצר, מהיר ואלגנטי אבל, כדרכו של התהליך המדעי, התוצאות לא תאמו לאינטואיציה ואז, כדרכו של מדען (נניח) אחזה בי האובססיה. אז עכשיו התוצאות מעניינות מאוד (יוצגו בכנס) וגם באלגוריתם יש עניין מסויים (יוצג) אבל עדיין יש בעיות קשות, חלקן נוגעות גם במתודולוגיה (אני אנסה לדבר בעיקר על הבעיות). הבעייה העיקרית היא בעיית האבלואציה (evaluation), כלומר לתת תיקוף חיצוני לביצועי האלגוריתם.
בפרדוקס ערימת הספרים כתבתי על הבעייתיות האינהרנטית בהגדרת קשר בין ספרים. זו הייתה התחכמות פילוסופית שכמעט ושומטת את הקרקע מהמחקר היישומי בתחום. אבל בחיי היומיום נוהגים בני אדם (ומדענים) להתעלם מפרדוקסים פילוסופיים. מהנדסי תעשיית הפארמקולוגיה שוקדים על תרופות (אליל?) להתקרחות למרות שפרדוקס הקרח מוכיח שאין קרחים בנמצא, ומדעני NASA שוקדים על פיתוח טילים ולווינים למרות זנון שלועג להם ואומר שהטיל לא ממש ימריא.

בכל אופן, ההגדרה הבעייתית היא שורש הרע המדעי. כלומר ההגדרה והמורכבות האנושית. אם נשתמש במושג האמזוני הכושל 'ספרים בנושאים קשורים' (books on related topics), אזי הבעיה היא בעיה מורכבת של מודלים נושאיים (topic modeling) כאשר כל ספר יכול להיות משוייך למספר נושאים לא ידוע, מה-גם ש'נושא' הוא מונח מעורפל שניתן לפירוש ברמות גירְעוּן (granularity) שונות. לכן אני מעדיף לדבר גם על themes ולא רק על 'נושאים'.

נתעלם לרגע מהעובדה שמדובר כאן בשיוך מרובה (mixed membership model) ונדבר על קלאסטרינג פשוט מהסוג הישן והטוב – איך מעריכים ביצועים של אלגוריתם קלאסטרינג כאשר מספר הקלאסטרים לא ידוע (ואפילו ידוע) – אם אין "תשובה נכונה" (golden standard) ידועה לפחות על חלקיק מהדטא. השאלה האורתוגונלית היא איך יוצרים גולדן-סטנדרט שכזה**, בעיקר כאשר הגדרת הבעיה כה מעורפלת. ובפרט – בקורפוס שלי 69 ספרים – חלקם קשורים במובהק, חלקם לחלוטין אינם קשורים, חלקם נבחרו בכוונה כי הם מציגים דמיון מסויים אם כי קלוש וחלקם נדגמו באקראי והם אולי דומים ואולי לא. חלקם נכתבו על ידי אותו סופר וחלקם נכתבו על ידי אותו סופר אך הם שונים במובהק.

בבלוג (ובכנס) אשמח לשמוע רעיונות, תובנות והצעות – מטורפים ככל שיהיו.


*תרגום מילולי מכוון כנגד השימוש הנפוץ ב'בסופו של יום' המאוס.
**אפשר להיכנס כאן לסוגייה החשובה על ההבדלים בשיטות הניסויים בין מדעי החברה למדעי המחשב – הבדלים שבאים לכדי התנגשות במדעים הקוגניטיביים החישוביים. דעתי בקצרה – לאנשי המחלקה לפסיכולוגיה ידע רציני על עריכת ניסויים אנושיים בהקף גדול וראוי ללמוד מהם מה לעשות. הבעיה היא שאנחנו, אנשי מדעי המחשב התרגלנו לסייקל מהיר מאוד של ניסוי ותוצאות (בשביל זה יש מחשבים, לא?) ואין לנו את אורך הרוח, הניסיון והתקציב לערוך ניסויים שיקחו כמה שנים.

4 תגובות עבור “ספרים קשורים – הערכת ביצועים”

  1. תהיה איזה שהיא הקלטה/מהדורת אונליין לכנס?

    משהו שאנשים יוכלו לשמוע גם בלי לנסוע לבר אילן?

    מהגג

  2. באמת שאין לי מושג. לא נראה לי אבל אם יהיה משהו כזה אז אני אפרסם לינק.

    אורן

  3. הי. מה עם תרגום או המרה של רמת הקשר לטונאליות או צלילים. צריך גם להחליט על מנעד מתאים. יש מצב שרבעי וחצאי טונים יתאימו לתיאור קשר חלקי. אולי הצגת התוצאה הסופית תוביל להרמונית צלילים (או לא) שעל פיה תוכל לכמת ולהעריך ביצוע של אלגוריתם קלאסטרינג ?

    רעות

  4. הא?!
    אני לא בטוח שאני מבין למה התכוונת אז אשמח אם תפרטי.
    בכל אופן (לגבי מה שאולי הבנתי)- בעיית ההגדרה עדיין קיימת, כלומר אילו סוגים של קשרים יתורגמו לחלקי טונים?

    אורן

להוספת תגובה