לפני שבוע נפגש ברק אובאמה עם ראשי הקהילה היהודית וניסה לשכנע אותם שהוא חובב ציון (הוא שכח לציין שהוא בעד מגעים אם איראו וסוריה והוא התנגד בסנאט לגדר ההפרדה, למשל). אחת הצרות של אובאמה היא שמו האמצעי – חוסיין, או בשמו המלא – ברק חוסיין אובאמה. הוא גדל באינדונזיה, מדינה עם אחוז נכבד של מוסלמים ועכשיו לך תוכיח שאין לך אמא ערביה (אח של שימון פרס), שאתה בכלל נוצרי פרוטסטנטי ולא באמת תומך באוסאמה בין-לאדן.
זה קשה עוד יותר כשנראה שמייקרוסופט מתגייסים נגדך ומעבד התמלילים לא מכיר את המילה אובאמה ומציע להחליף אותה באוסאמה, חביבם של האמריקאים.

(מקור: language log שלקחו מ-ABC News)
עכשיו, לכאורה זה המקום לשטוח הסבר על אלגוריתמים לספל-צ'קרס, אבל בעל הבית דוחק ומאמרים חייבים להיכתב, אז נפנה אתכם לפוסט ישן שמדבר גם על זה: שירי איגיון ופיענוח צפנים – על מודלים מרקוביים של שפה. יש גם אלגוריתמים מורכבים יותר שלוקחים בחשבון גם חילופי אותיות סמוכות במקלדת, דמיון פונטי בין אותיות וכמובן – בדיקה מול מילון מוגדר מראש.
ולסיום, הנה קטע קלאסי שמדגים היטב את מגבלות השימוש בספל-צ'קרס:
Eye halve a spelling chequer
It came with my pea sea
It plainly marques four my revue
Miss steaks eye kin knot sea.
Eye strike a key and type a word
And weight four it two say
Weather eye am wrong oar write
It shows me strait a weigh.
As soon as a mist ache is maid
It nose bee fore two long
And eye can put the error rite
Its rare lea ever wrong.
Eye have run this poem threw it
I am shore your pleased two no
Its letter perfect awl the weigh
My chequer tolled me sew.
———-
קצת קשור גם לכאן:
ואת אמא שלך גם - על הצרות הדיפלומטיות שבשילוב של תוכנת תרגום ועיתונאי לא חכם.

הזכרת לי את פרויקט "שירי T9" הזנוח שלי שנמצא ב- http://tnine.blogli.co.il
אני נוטה להאמין שהעובדה שהסלולרי שלי מנחש שרציתי לכתוב "עוד חוזר המיגון" יש בה להעיד משהו על עגמימותו של מצבנו הקיומי.
שחר
פברואר 3rd, 2008
שחר -
זה בדיוק מה שזה אומר. הסטטיסטיקות האלו נלמדו מקורפוס (יש להניח קורפוס של עיתונים+אוסף הודעות סמס שהחברה אגרה) והן משקפות בדיוק את המצב הזה.
היה לי פעם טלפון שתמיד השלים את אות_ ל'אותי' בהודעה 'אני אוהב אותך'. זה נתן משמעות חדשה לחברים של נטשה "אני אוהב אותך בגלל שאני אוהב אותי".
(הרשיתי לעצמי לסדר לך את הלינק בתגובה כדי שיהיה קל להגיע)
אורן
פברואר 3rd, 2008
קשה לי להזכר מתי קרו להם שטויות מצחיקות כאלו בחלונות אנגלית (אני בטוח שהיו) אבל בגרסה הסינית היה מקרה אחד של הודעות מערכת טעונות פוליטית שתורגמו ע"י חברה טייואנית עם אג'נדה.
מצחיק לראות את ההצעה הזאת בספל צ'קר בראי התקופה הנוכחית… במיוחד שמשחקי "אובמה-אוסמה" כבר צצו בסטנד-אפ ומצחיקוני יוטיוב למיניהם, והנה מיקרוסופט "נותנת גושפנקא". יפה
אינשולדיגן Z
פברואר 3rd, 2008
יכול להשבע שהקלדתי סמיילי מחייך ולא עצוב…
אינשולדיגן Z
פברואר 3rd, 2008
עירא -
צריך לעשות חסד קטן עם מייקרוסופט. עם צוללים לLanguage Log ומשם לכתבה בABC, מגלים שזה נכון בגרסאות הישנות של אופיס, כלומר באופיס 2003. מיירוסופט כמובן מצפים שתקנה עדכונים או תשדרג או אני לא יודע מה.
והסמיילי - זה לא אתה - זה הLTR דפוק כאן בתגובות.
אורן
פברואר 3rd, 2008
ואלגוריתם עוד יותר מתוחכם - של אנדרו גולדינג ודן רות, לוקח בחשבון גם מילים סמוכות (ברק ==> אובמה) (בן לאדן ==> אוסמה):
http://citeseer.ist.psu.edu/116990.html
לא ידוע לי על מימוש מסחרי/קוד פתוח של האלגוריתם הזה.
יובל
פברואר 4th, 2008
יובל,
גם על זה כתבתי קצת באחד (בלינק על האנגרמים) אבל הבעיה במימוש פתוח של זה היא שבהרבה מקרים יש אנאפורות לפתור. בפעם הראשונה כתוב ברק אובאמה, אבל בכל שאר הפעמים יהיה כתוב רק אובאמה. מקרה קיצוני יותר - ברק אובאמה שוטח את משנתו בקשר למלחמה בטרור ומדבר גם על אוסאמה ואז אוסאמה כבר ממש מופיע בטקסט.
אבל הנה רעיון לשימוש בפלטפורמה של רויטר מהפוסט הקודם - תיוג מסמכים בשביל תיקון שגיאות. רק שזה כבד מאוד ותקף רק באקדמיה.
אורן
פברואר 4th, 2008
יובל: מימוש פתוח של אלגוריתם הלמידה עצמו (SNoW) קיים, ניתן להגיע מהאתר של קבוצת עיבוד השפה ב-uiuc. אבל המימוש של אלגוריתמים כאלו הוא די טריויאלי, ובנוסף אלגוריתם הלמידה עצמו משחק תפקיד קטן למדי בבעיות כגון אלו, להערכתי כל אלגוריתם אחר ללמידת מסווגים לינאריים ייתן תוצאות דומות מאד.
מה שלא קיים זה תוכנה שמממשת את המאמר שהבאת, כלומר משתמשת באלגוריתם הלמידה הזה (או אחר) עם אוסף המאפיינים שהוצגו במאמר. גם אותה יהיה טריויאלי לכתוב. הסיבה שאף אחד לא עשה את זה עדיין, היא שזה ממש ממש לא ישים לשום יישום פרקטי.
שים לב שבשיטה שלהם יש לאמן מסווג נפרד עבור כל קבוצת מילים שניתן לטעות ביניהן! הם אימנו ובדקו את האלגוריתם שלהם על כ-20 קבוצות כאלו. יישום פרקטי (למשל כזה שיידע להבחין בין Obama ל-Osama) יצטרך להתאמן על מספר עצום של קבוצות מילים. המשמעות של זה היא גם זמן ריצה ארוך מאד באימון, גם דרישה למקום אכסון עצום עבור המודלים שמתקבלים, וגם זמן ריצה ארוך מאד בבדיקת איות, כי כעת כל מילה בטקסט תעבור השוואה+סיווג לכל המילים במרחק עריכה מסויים ממנה (בניגוד לבודקי איות כיום שפשוט בודקים האם המילה נמצאת ברשימה שלהם או לא, בדיקה פשוטה בהרבה).
—-
וכל העיסוק הזה באיות תלוי הקשר הזכיר לי שלפני שנתיים הייתי צריך, במסגרת קורס, להעביר הרצאה פופולרית על "מה זה עיבוד שפה טבעית", והדגמתי שם איך מידע סטטיסטי יכול לעזור לקבוע ש Eye halve a spelling chequer זו כנראה טעות. למתעניינים: http://www.cs.bgu.ac.il/~yoavg/presentations/NlpForDummies.ppt
יואב
פברואר 4th, 2008
אויש, בודקי האיות המזורגגים האלה.
בטלפון שלי זה דבר נורא. הוא לא מכיר אפילו את המילה "נרדמה?" מילה חשובה במיוחד כשהולכים למקהלה ואבא מרדים את הילדה. אני נאלצת להשתמש בחלופה "ישנה?" שלא מעבירה היטב את הדרמה שמתחוללת חצי שעה קודם.
שלא לדבר על מילים כמו "מנוזלת" או סתם "נזלת" שצריך לכתוב במהירות מדי פעם כדי לקבל המלצות על המשך הטיפול ההומיאופתי.
ימימה
פברואר 5th, 2008
[…] אורן צור מראה לטכנולוגיה מאיפה משתין הדאג. […]
בודה כי עוט » במרכאות כפולות
פברואר 6th, 2008
תודה יואב. אז הנה לינק מאד מעשי. פיטר נורביג, מנהל המחקר בגוגל, מדגים בניית בודק איות בפיתון. הוא די טוען שעיקר הבעיה היא איסוף נתונים. ולמי יש הכי הרבה נתונים על השימוש בשפה? ניחשתם נכון:
http://norvig.com/spell-correct.html
יובל
פברואר 11th, 2008
יובל -
זה לינק נהדר מכל כך הרבה בחינות. קודם כל הקוד הנקי והקצר הוא תאווה לעיניים.
אבל זה גם הסיגנון וההסבר - החל מפסקת הפתיחה:
What surprised me is that I thought Dean and Bill, being highly accomplished engineers and mathematicians, would have good intuitions about statistical language processing problems such as spelling correction. But they didn't, and come to think of it, there’s no reason they should: it was my expectations that were faulty, not their knowledge.
דבר שגם אני נוטה להתעלם ממנו כשאני מדבר עם אנשים (מתכנתים או אפילו חוקרים) על עיבוד שפה.
וגם הגילוי הנאות: "אח"כ נאמן מודל הסתברותי, שזה בעצם מילים מנופחות לומר שנספור את המופעים של כל מילה".
גם במודל שלו יש חיסרון קטן - צריך לשמור את רשימת המילים והשכיחויות שלהן - זה צורך זיכרון יקר, בעיקר כשמדובר במכשירים קטנים (בעצם אולי ההערה הזו נכונה ללפני שנתיים). וכמובן, כמו שכתבת - הכל תלוי בקורפוס ממנו לומדים את השכיחיות.
אורן
פברואר 11th, 2008