מדע בזיוני

מעניין. אולי זה אפילו נכון.

הבלוג של אורן צור-

אורן הוא:
-עוד קורבן של הסטטיסטיקה
-נכשל במבחן טיורינג

בתיבת האימייל נחתה הודעה על ייסודו של הJINR הלא-הוא: Journal of Interesting Negative Results in Natural Language Processing and Machine Learning. לכאורה עוד אימייל שימחק על עוד יוזמה שתתאדה, אבל היוזמה הזו, שאני מקווה שתצליח, דווקא מספקת הצצה מעניינת לאחד הסודות השמורים של האקדמיה. טוב, לא ממש סודות וגם לא בדיוק שמורים אבל זה עוד אחד מהנושאים העקרוניים האלו שלא כל כך אוהבים לדבר עליהם.

האקדמיה מבוססת על פרסומים. האקדמאי נבנה מפרסומים. פרסומים הופכים, לפעמים, לחזות הכל וכמובן שכל דיון ברפורמה בהשכלה הגבוהה מעורר מחדש את הוויכוח בעניין שיפוט הפרסומים וכמות מול איכות. מנגנון הפירסומים הוא כלי נהדר לשיתוף והפצת הידע. ההמונים (כלומר ארבעת החוקרים המומחים לאותו תת-נושא) יוכלו ללמוד על המחקר של הקולגות ואף להעמיד אותו למבחן, לכרכר סביבו ולקרקר, לנקר בו בשמחה, ללקט ממנו זרעונים או לקרוע לגזרים את הגופה – מדע במיטבו. כמובן שהמנגנון היפה הזה קצת הסתאב והוא גם נתון למניפולציות שונות ובכל זאת, בפרפרזה על צ'רצ'יל והדמוקרטיה – השיטה אולי דפוקה אבל היא הכי טובה שיש. אבל לא נתכנסנו כאן היום כדי לדבר על פוליטיקה אקדמית אלא דווקא על מדע (הוֹ הפאתוס!).

מסתבר שבשנים האחרונות מתקיים דיון ער בנושא וכדאי לשאול את הדימוי הבא מרשימה ישנה ב-WSJ: ביוון העתיקה נהגו להציג במקדשו של נפטון את דיוקנותיהם של ניצולים ימיים. הרעיון היה לפאר ולרומם ולשבח את נפטון וכוחו שהצילו את אותם יורדי ים ומשו אותם ממצולות. אבל מה עם דיוקנותיהם של הניספים, שמספרם עלה בהרבה על מספר הניצולים? אלו כמובן לא הוצגו בשום מקום. הנספים לא פיארו את אל המצולות וגם לא קיעקעו את האמונה בכוחו של נפטון אל הים המושיע.
העבודה המדעית רצופה כשלונות מפוארים. יושב לו המדען המתוסכל במעבדה, במשרד או על חוף הים, בוהה בטבלאות של תוצאות שלא מסתדרות עם המודל המבריק שבנה, כותב ומוחק נוסחאות, מפריח תאוריות, מפריך הנחות ופולט אנחות. פעם-פעמיים בשנה מנחם את עצמו המדען המתוסכל בפרסום של הצלחה ראשונית או חלקית שלעיתים מושגת ממניפולציה של הנתונים, מתקלת חומרה או באג מבורך. (את הנחרצות שלי אני מסייג למדעי הטבע או אפילו רק למדעי המחשב, שם יושב המדען המתוסכל הזה). נדיר לקרוא פירסומים של תוצאות שליליות וגם אלו, יובלעו בד"כ בפרק ה'דיון' או 'ניתוח התוצאות' ויוסתרו מאחורי הצלחה מרשימה. הפירסומים, אם כן, נוטים לשקף מעט מזעיר מהעבודה המדעית. יש שיאמרו שזהו השאור שבעיסה – המאלט המזוקק – היהלום המלוטש, אך יש שיזכרו בנפטון המתחזה לאל רחום ומושיע ובהטעייה המתקבלת מהצגת הניצולים לבדם.

[בסוגרים, צריך לספק כאן הסבר קצרצר – מדען מנסה להוכיח מודל/תיאוריה מסויימ/ת. לצורך כל הוא עורך ניסוי שיבחן א תההתאמה בין המציאות (אהמ…) למודל. תוצאה שלילית היא תוצאה שאינה תומכת במודל המוצע. חוסר התאמה בין תוצאות הניסוי לתוצאות המצופות לא מעידה בהכרח על מודל שגוי אך מאידך גם לא מוכיחות את המודל. הסיבות לקבלת תוצאה שלילית הן מגוונות – החל מחוסר הקפדה בפרטי הניסוי ועד (כמובן) למודל שגוי או בוסרי. הפדנטים שבמדענים ינסו להבין מה גרם לתוצאה השלילית ואז יעדנו את המודל או ישליכוהו אל מגירת הכשלונות האפלה, אחרים ימהרו לדלג אל המודל הבא ולגאולה שבפרסום. המהדרים ינסחו מראש מודל פשוט שיוביל בהכרח לתוצאה חיובית אם-גם משמימה. מודלים רבים מסיימים כך את חייהם בטרם עת והתהוות המהפכה המדעית מתעכבת, כמאמר קון].

jinrLogo
אם כן, שיטת הפירסומים הנהוגה כיום היא מוטית (biased) מעיקרה והמדע, בהיותו חותר לאמת (הוֹ!), מנסה, בקטנה, לתקן ולאזן. זה מה שמעניין כל כך ב-JINR – כלומר בטרנד החדש שמעודד לפרסם גם תוצאות שליליות.

הטרנד הזה התחיל לפני כשנתיים דווקא מהביולוגיה (תקנו אותי אם אני טועה) שם התעורר וויכוח בדבר הצורך לפרסם נתונים על תרופות שכשלו. המתנגדים טוענים שתוצאות שליליות יש בשקל, הן לא מעניינות וקשה מאוד לטעון שיש בהן משהו מהותי ולא בעיה בתנאי הניסוי. מנגד, אומרים המצדדים – זה יכול לחסוך עבודה, זמן ואולי גם חיים. ניתוח קפדני של תוצאות שליליות יכול לצמצם כיווני מחקר מתבדרים ואולי גם לתת תובנות משמעותיות. עכשיו זה מגיע גם לקהילה של עיבוד השפה והלמידה החישובית. ואולי כאן זה מעניין אפילו יותר מאצל אחינו הביולוגים כי הרעיון של למידה מתוצאות שליליות חורג ממחלוקת על כדאיות כלכלית ועניין מדעי וכמעט ונוגע ביסודות של התאוריה שעומדת בבסיס תחומי המחקר שלנו – למידה חישובית ועיבוד שפה (אם כי מאוד סביר שאני לוקח את זה קצת רחוק מדי ונותן משמעות פילוסופית במקום חף ממטא שיקולים).

קצת על למידה חישובית ולמידת שפה

ושוב נדרשת כאן חריגה קצרה והסבר על טיבה של למידה חישובית ולמידת שפה.
למידה חישובית מונחית (supervised machine learning)היא התהליך בו המחשב מקבל אוסף של זוגות ומייצר כפלט פונקציית הפרדה. עכשיו בעברית: המחשב מוזן במאות/אלפי זוגות – כל זוג הוא דוגמא של משהו והתגית של הדוגמה הזו. למשל, זוג הוא האות א' בכתב יד של אדם כלשהו והתיוג הוא הא' בקידוד ממוחשב, כלומר אנחנו מראים למחשב דוגמא לשירבוט של אות ואומרים לו – זו א'. כך נזין את המחשב בזוגות של אותיות שונות שנכתבו על ידי אנשים שונים ובסופו של דבר ילמד המחשב לזהות את הדומה והשונה באותיות ויוכל "להכליל" ולזהות אות גם ללא התיוג שלה, זאת למרות הייחודיות שיש לכל כתב יד. באותו אופן, נוכל להזין זוגות של מאמרים על ספורט עם התיוג 'ספורט' והמחשב ילמד לזהות בעצמו מאמרים שעוסקים בספורט, גם כאן הזיהוי מתבצע על ידי הכללה סטטיסטית והמחשב בעצם לומד שאם מאמר מכיל מספיק מילם מתוך לקסיקון מסויים (למשל כדור, מאמן, ניצחון, אוהדים, גביע, ליגה וכו') אזי המאמר עוסק בספורט.

הכללה שכזו (כלומר פונקציית הפרדה) יכולה להלמד מאוסף גדול (מאוד) של דוגמאות בעלות תג משותף מאמרים שעוסקים רק בספורט, אבל מסתבר שהכללה כזו נלמדת בצורה יעילה הרבה יותר כאשר ניתנות גם דוגמאות שליליות, למשל אלפי דוגמאות של כל האותיות בכתב יד (ולא רק האות א') או למשל אוסף זוגות של מאמרים (ותגים) בנושא ספורט ואוסף זוגות של מאמרים (ותגים) בנושא כלכלה. התיוג הזה (annotation) הוא אחד החלקים היקרים, המתישים והמשעממים במחקר ודטא מתוייג הוא יקר ערך (וגם לזה יש הטיות שאולי יידונו בפוסט אחר). למעשה, כשאתם מתייגים תמונות ומאמרים באתרי שיתוף אתם בעצם מספקים למערכת הלומדת (כלומר לחברה המסחרית) את הזוגות יקרי הערך האלו.

נניח את הלמידה החישובית לרגע ונדבר קצת על בני אדם. את כישורי השפה אנחנו רוכשים כבר כילדים קטנים. חומסקי ביסס את התיאוריה שלו בדבר הדיקדוק הגנרטיבי על ההנחה של דלות הגירוי (ספר הדקדוק האוניברסלי). גם אם נחלוק על ההנחה הזו של דלות הגירוי ונניח שגם אצל תינוקות מתקיימת למידה (במובן החישובי-תאורטי), לא ברור עד כמה הלמידה הזו היא בכלל למידה מונחית – שהרי את רוב כישורי השפה קולט הילד מהאזנה לסביבה ולא מהוראה אקטיבית של ההורים. לעומת זאת, די ברור שילדים כמעט ולא לומדים מדוגמאות שליליות, כלומר במהלך רכישת השפה נדירים מאוד המקרים בהם מקבל הילד פניה של מבוגר שאומר לו "כדי לתאר מקרה של אדם שננשך על ידי כלב לא אומרים 'אדם נשך כלב'[דוגמא שלילית א.צ.] אלא 'כלב נשך אדם'[דוגמא חיובית א.צ.] ".

כלומר בעוד התאוריה המתמטית של הלמידה החישובית מראה שלמידה מדוגמאות שליליות (יחד עם דוגמאות חיוביות) יעילה יותר מלמידה מדוגמאות חיוביות בלבד, נראה שתהליך למידת השפה אצל בני אדם מבוסס על דוגמאות חיוביות בלבד (כמעט).

גם לכישלון מגיע היכל תהילה

ועכשיו נחזור אל הג'ורנל החדש שמטרתו להביא גם לפירסומים של מחקרים שכשלו. בקול הקורא צויין:

It is becoming more and more obvious that the research community in general, and those who work NLP and ML in particular, are biased towards publishing successful ideas and experiments. Insofar as both our research areas focus on theories "proven" via empirical methods, we are sure to encounter ideas that fail at the experimental stage for unexpected, and often interesting, reasons. Much can be learned by analysing why some ideas, while intuitive and plausible, do not work. The importance of counter-examples for disproving conjectures is already well known. Negative results may point to interesting and important open problems. Knowing directions that lead to dead-ends in research can help others avoid replicating paths that take them nowhere. This might accelerate progress or even break through walls!

Because of the nature of the journal, there should be good justification for trying out the ideas presented. The experiments reported should be shown in a manner that allows their reproduction. The negative results should be explained and justified, along with the reasons why the idea did not lead to the predicted results. The lessons learned should be clearly stated.

בהכרזה הזו אין קישור ישיר לתאורייה של הלמידה מדוגמאות שליליות או לעובדה ששפה נרכשת מדוגמאות חיוביות בלבד. בצדק. קישור שכזה הוא רופף ביותר והשיג והשיח המדעי מתנהל בעיקר בזירה של המתודולוגיה והניסוי ולא, כמו שניסיתי לרמוז, באסוציאציות הפסיכולוגיות של החוקרים. בכל זאת, אני סקרן – האם לפרדיגמה של הלמידה החישובית ולפרדיגמה של רכישת השפה תהיה השפעה על הכיוון, הפופולריות וההשפעה של הג'ורנל החדש. כמובן שאין לי תשובה – אני לא סוציולוג של המדעים.

15 תגובות עבור “היכל התהילה של הכישלונות המדעים – JINR”

  1. אדיר!

    ע. הסערה

  2. מעניין מאד. כמה נקודות שעלו בדעתי:

    1. מה עם JI0R? הירחון ל-null results (כלומר – תוצאות שתומכות בידע הקיים). נראה לי – ואני בטח לא הראשון שחושב כך – שג'ורנלים מעדיפים מחקרים פוזיטיביים בצורה גורפת, מה שאוטומטית גורם להטיות של המחקר לכל מיני כיוונים "פוזיטיביים בכוח".

    2. כשאמרת – "למידה מדוגמאות שליליות יעילה יותר מלמידה מדוגמאות חיוביות" התכוונת *גם* מדוגמאות שליליות, נכון? אפשר ללמוד רק מדוגמאות שליליות?

    3. ועוד עם למידה שלילית – קשה לי עם הטענה שאין דוגמאות שליליות. כשילד אומר משפט לא דקדוקי, בד"כ מתקנים אותו. למה זה לא בגדר דוגמא שלילית?

    4. התגים הזכירו לי – בטח כבר ראית את זה, אבל בכל זאת:
    http://video.google.com/videoplay?docid=-8246463980976635143

    אילן

  3. פוסט נפלא ומרתק. באיזשהו שלב, נושא הדוגמאות השליליות הזכיר לי את הכתבה הזו: http://www.ynet.co.il/articles/0,7340,L-3448665,00.html

    יחזקאל

  4. תודה לכם.

    אילן –
    2. כמובן. ראה בפסקה הקודמת "אבל מסתבר שהכללה כזו נלמדת בצורה יעילה הרבה יותר כאשר ניתנות גם דוגמאות שליליות". אני גם אתקן את זה בגוף הפוסט.

    3. זה לא שאין בכלל דוגמאות שליליות אבל מספר הדוגמאות השליליות הוא זעום ביחס למספר הגירויים החיוביים/לא מתוייגים כך שבגדול אפשר להתעלם ממנו. יתר על כן, גם אף אחד לא תיקן את הילד מעולם – הוא עדיין ירכוש כשורי שפה סבירים וכנראה שלא יהיה גרוע בהרבה מהאדם הממוצע.
    אבל בכל זאת נגעת כאן בנקודה מרתקת, גם מבחינת הלמידה החישובית וגם מבחינת תהליך הלמידה האנושי (קוגניטיבי) והוא שאולי מספיק מספר מצומצם מאוד של דוגמאות שליליות כדי לזרז את הלמידה בכמה סדרי גודל. יש על זה לא מעט מחקרים וזה ראוי לפוסט שלם בפני עצמו (ובעצם למאמר או אפילו לדוקטורט).

    אורן

  5. בהקשר הזה בדיוק פירסמתי על הנושא פוסט:

    http://www.notes.co.il/greengross/43357.asp

    יש שם כתב עת אחר שהוקם לפני כמה שנים לתוצאות שליליות במדעי החברה.

    גיל

  6. תודה גיל. מה שכתבת פותח עוד כמה שאלות מזויות אחרות וזה מרתק. (איזה צירוף מקרים של סמיכות בפרסום…)

    ——-
    ובכלל בעניין התיוג, שימו לב לידיעה הזו מטמקא היום:
    http://www.ynet.co.il/articles/0,7340,L-3536914,00.html
    אחרי שמנפים את כל השטויות שהכתב האנונימי הכניס מיד ראשונה וגם בטלפון שבור ומבינים שאין שום קרש בין הפייג'-רנק לויז'ואל-רנק מלבד המילה רנק שמופיעה בשניהם – מקבלים עוד דוגמא מצויינת לחשיבות התייוג, וגם למה עושים בגוגל עם התיוגים של התמונות בפיקאסה…
    ולמי שיש שעה פנויה מומלץ לצפות בקישור הוידאו בתגובה של אילן – על טורקי מכאני וניצול הגולשים (הלינק הזה כבר הופיעה כאן פעם בבלוג).

    אורן

  7. אילן ואורן: כשמתקנים לילד משפט לא דקדוקי זו דוגמה של שאילתת אורקל (כמו ב-active learning) בעוד שכשמספקים לילד דוגמאות זה יותר בכיוון של learning from random samples (או לכל היותר teaching). וידוע ששאילתות אורקל יותר חזקות, לפחות במודלים תיאורטיים מסויימים.

    במילים אחרות, מתוך שאלות הילד מקבל מספר "דוגמאות" קטן יותר מבחינה מספרית, אבל הדוגמאות האלה עוזרות לו הרבה יותר.

    (וכמה שהילד כבר יודע יותר, הדוגמאות מתוך שאלות עוזרות לו יותר. אם יש מילה שאני לא מכיר, הרבה יותר טוב לי לשאול למשמעותה מאשר לחכות ללמוד אותה בתוך משפט).

    תחשבו על חיפוש איבר במערך ממויין. אם הילד מקבל בתור קלט תשובות לשאילתות אקראיות, או אם מנסים ללמד אותו אבל אף אחד לא יודע מה הילד יודע, אז הזמן יהיה לינארי באורך המערך (אם מגדירים נכון את המודל). אם הילד שואל שאלות, הזמן יהיה לוגריתמי.

    שאלה מעניינת: שיקרתי למעלה. האם אתם יכולים למצוא דוגמה למודל שבו הילד לומד משאלות, אבל לא לומד כשמנסים ללמד אותו אבל לא יודעים מה הוא יודע? דוגמה אחת היא אם מלמדים אותו אנשים שונים שלא מתקשרים אחד עם השני. דוגמה נוספת היא כשהילד משתמש ברנדומיות בצורה משמעותית וסיכויי ההצלחה שלו תלויים מאד ברנדומיות שהוא קיבל. אם הילד דטרמיניסטי אז המורה יכול לסמלץ אותו. דוגמה שלישית היא אם המורה לא יכול לסמלץ את הילד מטעמי סיבוכיות. לדעתי הדוגמאות השניה והשלישית שתיהן מייצגות את מה שקורה בפועל. למישהו יש עוד רעיונות?

    (אני מניח שאם תחפשו מאמרים על הפערים בין teaching complexity לבין learning from membership queries) תמצאו את רוב מה שדיברתי עליו למעלה, וכמובן עוד הרבה מידע. אם לא — מישהו רוצה לכתוב מאמר?

    אלעד-וו

  8. הדוגמה של למידת שפה היא דוגמה מצוינת ללמידה תוך שימוש (בעיקר) בדוגמות חיוביות, אך היא לא רלוונטית לשאלה אם כדאי או לא להשתמש בדוגמות שליליות.

    ילדים לומדים לדבר מדוגמות חיוביות כי "זה מה יש".
    מי יודע, אולי אם אנשים היו משתמשים בחיי היום יום גם בדוגמות שליליות (שזה מוזר כשלעצמו… למה הכוונה? שאנשים יאמרו לילד "ככה לא מדברים:" ואז יפלטו גיבוב שטויות חסר כל פשר?), אולי ילדים היו לומדים לדבר מהר יותר?

    תסמלצו ילד ותבדקו…

    דודי

  9. […] פוסטים כמעט קשורים: אורן צור כותב על פרויקט חדש ומרתק של פרסום תוצאות שליליות […]

    The Daily Dolly 28/04/2008 at The Daily Dolly

  10. אורן, אתה יודע שיש הרבה דוגמאות מההיסטוריה המדעית שבה שני אנשים חשבו על אותו רעיון פחות או יותר באותו זמן. כנראה שזה היה באוויר..

    גיל

  11. wh0cd521720 buy effexor

    AlfredTew

  12. пруток алюминиевый д16т – уголок алюминиевый 25х25, алюминиевая проволока 1.

    Robertfap

  13. Mad Dash bonus slot BlackJack Ballroom online gambling casino app – Kung Fu Monkey bonus slot BlackJack Ballroom gambling online

    ErrolBog

  14. достаточный веб ресурс https://spbescort.info/weight-below-50/

    Charleshyday

  15. Как прочитать чужую переписку telegram – взлом телеграм бесплатно, взлом telegram.

    ChrisNap

להוספת תגובה