מדע בזיוני

מעניין. אולי זה אפילו נכון.

הבלוג של אורן צור-

אורן הוא:
-עוד קורבן של הסטטיסטיקה
-נכשל במבחן טיורינג

"מילה בסלע – שתיקה בתרי" אמרו לנו חכמים ותמחרו את ערכו של השקט למושגים חומריים כך שכולנו נבין את ערכו. אבל איך מזהים את השקט הזה? איך קוראים בין השורות ואיך מקשיבים לשקט שבין המילים? מסתבר שזה לא כל כך פשוט.

נראה שהפרדה בין מילים היא שלב מוקדם והכרחי בהבנת המשמעות של משפט שנאמר. איך מצליחות תוכנות לזיהוי דיבור להבין את המשפטים שנאמרים להם? (טוב, הן לא תמיד מבינות, התוכנות המתסכלות האלו) ואיך אתם – אנשים בוגרים ואנטליגנטיים כקוראי הבלוג עושים זאת? ואיך עושים זאת תינוקות בני שנה שרק התחילו למלמל?

נסו למשל לקרואאתהמשךהמשפטהזה.

אני מניח שבכמה שניות של מאמץ קוגניטיבי מסויים אם-גם זניח הצלחתם כולכם לפענח ו'לקרוא את המשך המשפט הזה'. יפה. אבל איך הצלחתם לעשות את זה? התהליך המחשבתי שארך לא יותר משניות בודדות הוא מסובך מאין כמוהו וכולל שימוש בעוגנים כמו ה'ך', כמה ניסיונות אקראיים לחלק את המילים וניסיון להשלים את תצרף המילים בעיקבות זיהוי של מילה בודדת. ייתכן שפיענחתם "לקרוא אתה משך" - שלוש מילים אפשריות אבל לא ממש סבירות כשרשרת וכך עשה המוח שלכם אחורה-פְּנֵה וניסה חלוקה אחרת – עד שקיבלתם חלוקה הגיונית ומניחה את הדעת. הבעיה הזו נקראת הפרדת מילים או word segmentation (או text segmentation), בלשון הקודש של המחקר. והמחשב שלא "מבין" את חוסר ההיגיון בחלוקה "לקרוא אתה משך…" - איך המחשב מצליח לפתור את הבעיה הזו? ובכן, זה לא הכי פשוט אבל גם לא הכי מסובך ובכל אופן – נושא הפוסט כאן הוא איך המחשב לא פותר את הבעיה הזו.

הרווחים והשקט שבין המילים

אבל לפני שנדבר על המחשב כדאי, אולי, לחזור לבני האדם ולמוח האנושי. איך אנחנו, בני אדם בוגרים השולטים ברזי השפה, מצליחים לפרק משפטים פשוטים למילים נפרדות? מה הבעיה, תאמרו, הרי יש רווחים בין המילים… ובכן, ידידי – ניצול הרווחים מתאים לקריאה אך מסתבר שבזרם הדיבור (speech stream) הרווחים– קטעי השקט, כלל לא מהווים אינדיקטור חד משמעי (ראו את גרף התדירויות שנלקח מהמאמר הזה).

speach wave

תאמרו – הפרדת המילים אינה בעיה – אנו זוכרים את המילים שלמדנו ולמעשה יש לנו בראש אינדקס מילים וכך אנו מזהים בקלות את המילים. ואני אומַר לכם שזה לא ממש סביר. ראשית – זיהוי המילים בשמיעה הוא כל כך מהיר עד שלא סביר שמתבצע במוח דיפדוף באינדקס עד למציאת כל האפשרויות לפירוק המשפט למילים*. שנית, אנו בוחנים ושוללים משמעויות אפשריות שונות של המשפט במהירות מדהימה (חלקיקי שניה) ושלילת האפשרויות לא אפשרית על ידי משימוש באינדקס בלבד**. ושלישית, וזו השאלה המעניינת ביותר – נניח שיש לנו אינדקס מילים בראש – איך למדנו/רכשנו את האינדקס הזה – הרי לא הכתיבו לנו אתו אלא למדנו אותו תוך האזנה לדיבור רצוף ומהיר, כלומר הצלחנו לפרק משפטים למילותיהם גם ללא אינדקס מוכן מראש.

[*,** - למען הדיוק צריך לציין שכנראה שיש בראש מין סוג של מילון בו אנחנו משתמשים להבנת המשמעות של מילה – כלומר תרגום של רצף צלילים או אותיות ליחידה בעלת משמעות. כנראה שה"דפדוף" במילון הזה הוא מהיר מאוד והמידע מקודד במוח בצורה אופטימלית לשליפה מהירה – ועם זאת – לא ברור שהשליפה מהירה מספיק לפירוק המשפט למילים].

תינוקות לומדים מילים?

השאלה המרכזית, לפיכך, היא איך ילדים (תינוקות) לומדים את שפת אימם ובהכרח לומדים גם לזהות מילים ולהפריד את המשפט למילים. ברור שחלק מהמילים נלמד כמילים בודדות: "א-בא… א-בא…" מדקלם האב לבנו תוך תקווה שהמילה הראשונה שיפלוט הינוקא תהיה 'אבא' ולא 'אמא'. עם זאת, מחקרים מראים שאחוז המילים אותם שומע התינוק כמילים נפרדות
הוא קטן יחסית ובוודאי לא מספיק כדי ליצור מילון מנטאלי של כל המילים בשפה – אפילו לא של כמה מאות המילים השכיחות ביותר.

לג'ני ספרן, דוקטור לפסיכולוגיה קוגניטיבית שחוקרת את תהליכי רכישת השפה אצל תינוקות יש תשובה – תשובה שהרעידה את אמות הסיפים של הבלשנות הקוגניטיבית.

תינוקות, כך היא טוענת בסדרת מאמרים שהחלה לפני כעשור, מפרידים בין מילים על ידי לימוד ההתפלגות של רצפים של צלילים. לימוד לא מודע כמובן. התינוק ששומע צירופים כמו "ילד חמוד", ו"ילד טוב" לומד שצירוף ההברות "י-לד" שכיח הרבה יותר מכל אחד מהצירופים "לֶד-חָ" או "לֶד-טוב" ומסיק שרצף לא שכיח של הברות מהווה הפרדה בין מילים. הסברה הזו, שבמבט ראשון נראית פרמיטיבית ואפילו שטותית, מגובה בניסויים ותצפיות מעמיקות על ילדים ומתאים לממצאים רבים אחרים על המוח שמעבד מידע בצורה סטטיסטית. את טריק השכיחויות של של רצפי ההברות יכול לעשות גם המחשב וכך למעשה ניגשים לפתור את בעיית הסגמנטציה של זיהוי הדיבור, למשל.

התיאוריה הסטטיסטית של ספרן היא נאיווית משהו. ספרן עצמה וגם הקולגות מודים שאין בה בכדי להסביר לחלוטין את תהליך לימוד השפה של ילדים ואפילו לא את תהליך למידת הסגמנטציה, אבל לתיאוריה הזו חשיבות עצומה – אחרי שנים רבות של דיקטטורת מחשבות חומסקיאנית - זו אולי הפעם הראשונה שתיאוריה מתחרה לדיקדוק האוניברסלי של חומסקי זוכה לתמיכה נרחבת בקהילה האקדמית. התאוריה זכתה לתמיכה נרחבת עד כדי כך שחומסקי עצמו נאלץ להודות שללמידה סטטיסטית (נטולת דקדוק) משקל לא מבוטל בתהליך רכישת השפה ואף לתקן ("להתאים") את התאוריה שלו שמשלה בכיפה ועמדה בעוז מול התקפות מאז שנות החמישים.

זה אולי המקום להסביר קצת יותר על חומסקי, על הדקדוק האוניברסלי ואיך בדיוק מנגחת התאוריה של ספרן את הפרדיגמה החומסקיאנית השלטת אבל כל זאת ועוד בפרק הבא (שבוא יבוא כש/אם תנוח עלי הרוח). בינתיים – תסתפקו בלינקים לויקיפדיה ותהנו מהשקט שבין הפוסטים.

6 תגובות עבור “?The Sound of Silence”

  1. סיפור אמיתי ומשעשע מאד לגבי עמימות פונולוגית / בעייה בהפרדת מילים בדיבור:

    לפני מספר ימים התרחשה בין חבר שלי למוכרת במכולת השיחה הבאה:
    היא: רוצה גם כרטיס לוטו?
    הוא: לא תודה.
    היא: אז אתה רוצה כרטיס??
    הוא: לא תודה.
    היא:
    הוא: ???
    היא: אבל אמרת — "לאתודה".

    רב תרבותיות במיטבה.

    יואב

  2. נממ.. מסתבר שתוכן בסוגריים משולשים לא מוצג.
    מה שאמור להיות כתוב בשורה הריקה זה "{מוציאה כרטיס, מדפיסה ומגישה לו}"

    יואב

  3. אכן סיפור משעשע. אני שומר את הזכות לצטט אותו בעתיד. זה מזכיר לי את ה"אישה נעלה נעלה נעלה נעלה…" שבתורו מזכיר לי את ה"שלמה שלמה שלמה שלמה שלמה".

    אורן

  4. תמשיך ךכתוב אורן - זה מעניין.
    לא דווקא בעניין הסגמנטציה אלא בעניין זיהויין של מילים:
    אתה בטח יודע שאנו יכולים לקרוא - אפילו בלי הרבה קושי - משפט שנכתב בשגיאות כתיב או שהרבה אותיות הושמטו ממנו. יש את הטקסט המפורסם של מארק טוויין בו הוא משנה את האנגלית ל"גרמנית" ובכל זאת אפשר להמשיך לקרוא ולהבין.
    הניחוש שלי הוא שזה מעיד על כך שבכל מילה יש הרבה יותר אינפורמציה מכפי שנדרש בפועל על מנת לזהות אותה.
    ומשהו שפחות סביר שאתה מכיר: בביפנית יש מלים רבות בעלות אותו צליל ומשמעויות שונות לגמרי (כמו ספר של תספורת וספר של סיפור - אבל מדובר בהמון מילים כאלו). בכל זאת היפנים מדברים ןמבינים זה את זה בלי שהם צריכים לעצור ולהריץ בראש משמעויות אפשריות. כמי שחי ביפן והיפנית שלו השתפרה בהדרגה אני יכול לספר שהיה שלב שבו כן הרצתי משמעויות ואחר כך לא הייתי זקוק לכך יותר.

    avivsky

  5. אביב, קודם כל תודה.
    הנקודות שאתה מעלה הן בדיוק הנקודות שמעניינות אותי וכתבתי עליהן קצת בעבר ואולי זה יעניין אותך.
    (כאן בא מעשה אוננות פומבי) לא ידעתי שזה הטקסט של מרק טוויין אבל על טקסט שכזה כתבתי ב"מבצע: פינוקי בריות" : http://www.sciencefriction.net/blog/2007/09/16/12/
    ועוד על זיהוי מילים למרות השגיאות כאן: http://www.sciencefriction.net/blog/2007/09/10/18/

    אני לא מבין כלום ביפנית אבל יש את המשורר אוכל האריות הסיני:
    http://en.wikipedia.org/wiki/Lion-Eating_Poet_in_the_Stone_Den

    אורן

  6. […] טוב עם : - the Sound of Silence על השקט שבין המילים ועל המנגנונים הסטטיסטיים הפשוטים […]

    ספר הדיקדוק האוניברסלי - על חומסקי וכנגדו

להוספת תגובה