היישומים של בלשנות חישובית (computational linguistics או עיבוד שפה טבעית Natural language processing) נעים בין הטריויאלי אל היומרני - בין אפליקציות המבוססות על ניתוחים סטטיסטיים פשוטים של שכיחויות של אותיות ומילים ועד ניסיונות מרתקים להבין ולחקות את היכולות הקוגניטיביות של האדם. בצד היומרני של הסקאלה נמצאים תרגום ממוחשב (machine translation) וסיכום אוטומטי. תרגום וסיכום נימצאים בצד היומרני של המחקר כי באופן אינטואיטיבי די ברור שתרגום טוב דורש הבנה מעמיקה של הטקסט המתורגם ושל הניואנסים שלו, בדומה לסיכום שמצריך הבנה של הטקסט והבחנה בין עיקר לתפל – הבחנה שקשה לדמיין שתֵעַשֶה בהצלחה על ידי מחשב. זה לא מדוייק, כמובן. מפליא לגלות עד כמה שימושית היא סטטיסטיקה "טיפשה" וחסרת הבנה, אבל הביצועים הלא מרשימים בעליל של מערכות תרגום וסיכום מראים שהסטטיסטיקה אֹמנם תורמת רבות אבל עוד חזון לְמועד הבינה המלאכותית.
ובעברית?
הרשימה הזו תשחק קצת עם סיכום אוטומאטי (גם עם א' בשביל אלוהי הגוגל). בשפה המקצועית (באנגלית, אלא מה) התחום נקרא automatic summarization או text summarization. השמות 'סיכום אוטומטי', 'סיכום ממוחשב' ו'סיכום טקסט' מצלצלים לי נורא ואיום. אחרי שפסלתי גם את אוֹטוֹמַתִיקְצוּר החלטתי לעברת את זה ל'סיכום מלאכותי' – שילוב של סיכום בעזרת בינה מלאכותית ושל האופי המלאכותי של הסיכומים שנוצרים (כיום) על ידי מחשב.
סיכוּמֶלאכותי
מאז שחיפשתי נושא לתזה לתואר שני אני מפלרטט קצת עם התחום הזה של סיכוּמֶלאכותי. פעם בכמה זמן אני עוקב אחרי ההתפתחויות (הקטנות בתחום), מתרגש מהפוטנציאל ומתאכזב מהתוצאות המדווחות בפורומים אקדמאיים שונים וגם מהכלים בהם מנסים לגשת לתחום – כלים סטטיסטיים ללא שאר רוח וללא תובנות קוגניטיביות. משום מה, אני משוכנע שהפריצה הבאה בתחום תבוא מקידוד של ידע בלשני וקוגניטיבי בשילוב עם הכלים הסטטיסטיים המתוחכמים. אחרים, אנשי אקדמיה מכובדים ומנוסים, משוכנעים שהעולם ניתן להסבר סטטיסטי - פשוט צריך הבנה נכונה של מרחבי המדגם וההתפלגויות ולא תזיק גם תוספת משמעותית של כח חישוב.
באופן עקרוני, צריך להבדיל בין שני סוגי סיכום – מירקור (extraction) ואבסטרקציה (abstraction). במירקור אנו פשוט מסמנים את המשפטים הכי חשובים כמו אותו סטודנט שקורא מאמר וממרקר לעצמו את עיקרי המאמר. אבסטרקציה היא כבר סיפור מסובך בהרבה (לא שמירקור הוא פשוט) – באבסטרקציה צריך לבחור את החלקים הכי חשובים בטקסט להתיך אותם ולצרף אותם מחדש עם תוספות והשמטות לשוניות כך שיווצר סיכום בהיר, נהיר וממצה של הטקסט (אבסטרקט, בלעז מדעי).
קחו למשל את ה-mp3
לסיום הרשימה אני רוצה לכלוא את בעיית המירקור בין שתי בעיות אחרות – פתורות ומוכרות: קריאה מהירה ודחיסת מידע/נתונים (data compression).
יש שני סוגים עיקריים של דחיסת מידע – דחיסה משמרת מידע (lossless) ודחיסה מאבדת מידע (lossy compression). בעוד דחיסה משמרת מידע היא פשוט אירגון (וקידוד) מתוחכמים ויעילים יותר של המידע (כמו קובצי ה-zip), אפשר להסתכל על דחיסה מאבדת מידע כמין סיכום (מירקור).
כלומר בעוד האלגוריתמים המוכרים לסיכום טקסט פועלים בצורה נוראית – הרי יש לנו שורה של אלגוריתמים יעילים, שימושים ונפוצים שעושים עבודה דומה בדומיינים אחרים.
ניקח, לדוגמא, את הmp3. עיקרון הדחיסה של ה-mp3 מבוסס על כך שהאוזן האנושית לא מסוגלת לקלוט את מרבית התדרים (מעל ומתחת לתדר מסויים) ולכן התדרים האלו מיותרים (גם על זה אפשר להתווכח, דויד פרץ: מוות ל-mp3!!). עיקרון דומה מופעל בפורמט ה-JPEG לתמונות – חדות התמונה נקבעת על ידי הניגודיות בין השחור ללבן (בערך) בעוד על שאר הצבעים אפשר להתפשר בצורה שתפריע רק לחדי הראיה שבינינו.
קידוד ה-mp3, אם כן, הוא למעשה אלגוריתם סיכום ש"ממרקר" את הקטעים הרלוונטיים וזורק את השאר. שאלת מליון הדולר היא – אם זה כל כך פשוט אז איפה הקאצ'.
אלא שאליה וכמה קוצים בה. ראשית, אולי ההשוואה בין דחיסה מאבדת מידע לסיכום מלאכותי היא לא כל כך מוצלחת. אולי המקבילה האמיתית לסיכום היא בחירת הקטעים ה"מעניינים"(?) בשיר - בחירה שלהם בחתך אורך ולא בחתך רוחב, כלומר, למשל, בחירה של הפזמון ושל סולו הגיטרה המופלא והשמטה של דינדוני פעמונים. השוואה כזו היא מופרכת מיסודה כי בניגוד לסיכום בחירה של קטעים מתוך ערוצים ספציפיים הורסת את השיר עד היסוד.
בעייתיות נוספת בהשוואה לדחיסה לוֹסי היא שקל מאוד לאפיין (מתמטית) את התדרים ה"לא חשובים" אותם האוזן לא קולטת, לעומת זאת, אפיון מתמטי של הסמנטיקה (תוכן/משמעות/חשיבות/מבנה) של משפטים מסויימים לעומת משפטים אחרים הינו קשה לאיפיון, כלומר זו בדיוק הבעייתיות בסיכום מלאכותי ורדוקציה לבעיית דחיסה היא טפשית – מדע בזיוני.
ומה עם קריאה מהירה?
ועוד ירייה באפלה – בסוף שנות השמונים היה מין באז של קורסים לקריאה מהירה. בזמנו לא ממש התעניינתי בזה. באופן יחסי הייתי קורא די מהר, ובהקשר של קריאת ספרים (ספרות) - קורס שילמד אותי לדלג על מילים, להתרכז ב"עיקר" ולזרוק לפח את חווית הקריאה נראה לי כמעט ולא מוסרי.
גם היום אני לא מומחה גדול לקריאה מהירה. הטכניקות הפסיכולוגיות והקוגניטיביות שנלמדות בקורסים שכאלו הן שנויות במחלוקת וכל העניין קצת מריח כמו מונקי ביזנס שמשלב אגדות פסיכולוגיה אורבניות עם קורטוב של מחקרים מדעיים. אבל יש דימיון רב בין קריאה מהירה לבין סיכום מלאכותי. בשני המקרים יש סינון (מירקור) של התוכן העיקרי על חשבון ניואנסים ודקויות. אם זה פועל, אולי אפשר לגייס חלק מהטכניקות לטובת הסיכום המלאכותי?
עד כמה שידוע לי, אף אחד עוד לא תקף את בעיית הסיכום המלאכותי באחת משתי הצורות האלו באופן מפורש (אולי בגלל הבעיות האינהרנטיות שבהם). עם זאת את האלגוריתמים המוכרים אפשר לחלק בגסות לשתי קטגוריות – הקטגוריה הסטטיסטית הדומה באופן חלקי לשיטות הדחיסה (בעיקר האלגוריתמים ל"דחיסת" משפטים של מרקו, נייט וצ'רניאק) ולעומתם האלגוריתמים ההיוריסטיים הדומים מאופן מסויים לשיטות לקריאה מהירה.
אולי ניסיון מוצהר לתקוף את הבעייה מאחת נקודות המבט (או משילוב שלהן) יניב את פריצת הדרך המצופה. עכשיו רק נותר שמישהו ירים את הכפפה…
(עד כאן בריין-סטורמינג גירסה 1.0)
דוגמאות זמינות ומוכרות לתרגום ממוחשב אפשר למצוא ב-google language tools וב- world lingo.
מערכת סיכום (מעפנה לעילא) יש לכל אחד מכם במעבד התמלילים של הווֹרד (tools->autoSummarize).
גילוי נאות: הפוסט הזה פורסם לראשונה בבלוג שלי ברשימות וזכה שם (עד היום) ל-882 כניסות ו-0 תגובות. אולי הוא לא עיניין ואולי הוא הותיר את הקוראים פעורי פה. בכלופן - הוא בהחלט מתאים יותר לבלוג הזה.


אני ראשון? _(-:
ברכות וכ'. כמי שעשה את הדרך ההפוכה מאתר עצמאי (אמנם לא בלוג, כי עוד לא המציאו את המילה) לרשימות, אני עומד משתאה. כל הכבוד. העיקר שיש RSS, אני אמשיך לבקר. בהצלחה.
אבנר שץ
ספטמבר 23rd, 2007
[…] אמזון, יאהו וגוגל מפתחות כלים לניתוח ביקורות, דירוג שלהם או סיכום של אלפי ביקורות לביקורת תמציתית אחת. מחקר ענף בנושא מתפתח גם באקדמיה. האתגר הוא כמובן ניתוח תכנים באופן כללי, גם, נניח, בבלוגים ובפורומים, וניתוח ביקורות הוא רק תת תחום - מוגדר מעט יותר טוב. תחום מחקר משיק הוא סיכום אוטומטי (כתבתי על זה קצת כאן). […]
הטיות והטעיות בביקורות מוצרים וספרים באינטרנט
אוקטובר 18th, 2007