מדע בזיוני

מעניין. אולי זה אפילו נכון.

הבלוג של אורן צור-

אורן הוא:
-עוד קורבן של הסטטיסטיקה
-נכשל במבחן טיורינג

שנות החמישים היו ימי הזוהר של הבלשנות החישובית (או של עיבוד השפה. אולי צריך פוסט על ההבדל בין השתיים). ימי הזוהר לא נבעו מהצלחות גדולות אלא מתקוות כבירות ומהתחושה שהנה – עוד רגע קט מחשבים יבינו שפת אנוש. אפשר לומר שבכל אשם טורינג עם פיצוח האניגמה וההגדרה של מבחן טורינג לבינה מלאכותית. המלחמה הקרה עוררה את הצורך בתרגום ממוחשב מרוסית לאנגלית. מה זה בעצם פיצוח של מסר מוצפן, טענו המדענים, אם לא תרגום של המסר משפת סימנים אחת (הצופן) אל שפה אחרת (שפת המקור). אוי כמה שהם טעו. תרגום ממוחשב – הגביע הקדוש של הבלשנות החישובית עדיין רחוק מלהיות בעיה פתורה. בפוסט הזה שהוא בעיקרו קוריוז, אני אביא כמה הפניות* משעשעות ומוקדמות יותר – מהימים האופטימיים של הבלשנות החישובית. מעניין לראות שהיום, אחרי חמישים שנות מחקר ומיליוני שנות מהירות מעבד, מתחבטים באותם בעיות בדיוק (עד כדי קבוע).

הנה קטע מ-The Automatic Creation of Literature Abstracts שנכתב במעבדות IBM בשנת 1958. המאמר תאר מערכת ממוחשבת לסיכום של מסמכים ארוכים. שימו לב לתובנה התמימה הבאה – תובנה שעל סף התפכחות:

luhn1.JPG

חמוד. אבל יותר חמוד הוא סעיף ה-Machine Procedure. כיום, סעיף כזה יתאר את אלגוריתם הלמידה. שימו לב לתאור הבא:
luhn2.JPG

את הכרטיסים הצבעוניים האלו אני זוכר מילדות (סוף-סוף שנות השבעים). אצל סבא וסבתא הם שמשו בעיקר לרשימות מכולת, הודעות טלפון וכסימניות לספרים.

punchcard2.jpg

ואז בא יהושוע בר הלל ואמר שזה פשוט לא ילך** ובאבחה אחת כמעט וחיסל את תחום המחקר הזה, או לפחות הפך את השאיפות לצנועות בהרבה.

The task of instructing a machine how to translate from one language it does not and will not understand into another language it does not and will not understand presents a real challenge for structural linguists… If, in a translation programme, some step has to be taken which directly or indirectly depends on the machine’s ability to understand the text on which it operates, then the machine will simply be unable to make the step, and the whole operation will come to a full stop.

כאמור, המחקר בתחום לא מת אבל הוא גסס קשות ועיקר המשאבים הופנו לתתי משימות כמו איפיון חלקי דיבר (POS tagging), פתירה של דו משמעות (river bank לעומת financial bank) וכל מיני זוטות (או אולי "זוטות") בלשניות איזוטריות. מחקר חישובי "קוגניטיבי" (כלומר שאפתני) כמעט ולא היה. הנה משהו חריג, הפעם משנת 67' (COLING 67), אלו השנים שכבר התחילו לדבר על בינה מלאכותית: Statistical and Linguistic Strategies in the Computer Grading of Essays.

essaygrading.JPG

אפשר לנסות ללקט ולדוג עוד פרורים ודוגמאות ממאמרים שהודפסו במכונת כתיבה והוגהו בכתב יד אבל דווקא מאמר בן ימינו (2006) שסוקר מערכת מודרנית להערכת חיבורים ייתן את התחושה הנכונה Automated Essay Scoring with E-Rater v2:

AES systems do not actually read and understand essays as humans do. Whereas human raters may directly evaluate various intrinsic variables of interest, such as diction, fluency, and grammar, in order to produce an essay score, AES systems use approximations or possible correlates of these intrinsic variables.

נשמע מוכר, לא?

ולסיום, בר הלל הוא משלנו ואפילו חומסקי עבד עם סיינפלד בקיבוץ אז הנה עוד פיסת נוסטלגיה ישראלית:
israel_stamp-computer.jpg

*זו לא סקירה היסטורית של המחקר בבלשנות חישובית והציטוטים כאן הם לא בהכרח מהמאמרים הראשונים בתחום. אלו רק כמה דוגמאות מוקדמות (ובודדות) בהם נתקלתי במהלך המחקר שלי – ניתוח והערכת טקסטים.
**הוא אמר את זה על תרגום מכונה והמאמר של IBM הוא בכלל על 'סיכום' (כבר התחילו אז להבין שתרגום זה קצת גדול) אבל הטענה שלו הייתה רלוונטית וחילחלה לכל תחומי עיבוד השפה.

23 תגובות עבור “ערך היסטורי - בלשנות חישובית בימים ההם ובזמן הזה”

  1. מעניין, תודה.

    פאזי

  2. נדמה לי שהיום מדענים הרבה יותר אופטימיים ויש פרוייקטים די שאפתניים. (למשל המענה הקולי של קופת חולים מאוחדת או דפי זהב בסלולארי).

    כיום נדמה שהבנה פשוטה של שפת דיבור רגילה היא בהישג יד.

    אני חושב שכדאי להקים קרו שתיתן פרס ענק למי שיצליח ללמד מחשב לפתור תשבץ הגיון.
    אני מתערב שזה לעולם לא יקרה. לעולם.

    מהגג

  3. זה אולי משעשע לראות איך חשבנו שהמחשבים יהיו כל יכולים, אבל אותו הדבר היה גם ברובוטיקה, כולם היו משוכנעים שאו-טו-טו, מקסימום בשנות האלפיים, חצי עולם יופעל ע"י רובוטים דמויי אדם (ועשר שנים אח"כ הם גם ישתלטו עלינו).

    כל זה מראה עד כמה קשה עד בלתי אפשרי לתת תחזיות מראש, במיוחד אם מדובר על "לאן תתפתח הטכנולוגיה". עד שלא ננסה ברצינות איזה תחום, לא נדע אם הוא לא מעבר ליכולות הקיימות.‏

    ותודה על הפוסט הזה.

    יחזקאל

  4. מהגג: אני חושבת שאני יכולה לכתוב תוכנת מחשב שפותרת תשבצי היגיון בדיוק גבוה תוך 24 שעות. עקרונות הפיתרון: להאכיל למחשב מספיק טקסטים שיילמדו אותו קשרים בין מילים (הכוונה בקשרים בין מילים, היא קשר טריוויאלי לחלוטין כמו שהמילים נוטות להופיע אחת ליד השניה בטקסט), אם אפשר להאכיל לו פיתרונות של תשבצי היגיון קיימים, ואחר כך פשוט לתת לו לבדוק אפשרויות שונות ולפסול אותן על סמך האילוצים של מבנה התשבץ.

    טוב, חיפוש קצר בגוגל מעלה שיש תוכנות מסחריות שעושות את זה, אם כי אני לא יודעת כמה טוב.

    לדעתי זאת בעיה הרבה יותר קלה, בכלים שאנחנו עובדים איתם היום, מאשר המענה הקולי של קופת חולים.

    וזה בדיוק הדגמה מצוינת לרוב מה שקורה היום בתחום של בלשנות חישובית (וגם בינה מלאכותית בכלל), וגם תשובה למה שאמרת בתחילת התגובה שלך. אנחנו לא מתקרבים אפילו ל"הבנת שפה פשוטה", במובן שאנשים מבינים שפה פשוטה. אנחנו פשוט יודעים לעקוף את ההבנה, כדי לפתור בעיות ספיציפיות.

    המענה הקולי לא "מבין" את הפנייה שלך, כמו שבן אדם היה "מבין" את הפנייה שלך. הסיבה שהוא יכול לעשות את העבודה שלו, היא שבסך הכל מספר הנוסחאות שבהן אתה יכול להשתמש כדי לקבוע תור בקופת חולים הוא מוגבל מאד. מאד בגדול, מה ש(סביר להניח ש)עשו זה תיכנתו לתוכו את כל הנוסחאות האלה.

    התוצאה של העניין הזה היא סוג של היפוך מבחינת הקושי של המשימות. משימות מאד פשוטות לבנאדם, כמו להבין משפט פשוט בשפת אימו או לזהות אובייקטים בתמונה, קשות למחשב. לעומת זה, משימות קשות לאדם כמו לנצח את גרי קספרוב בשחמט או לפתור תשבץ היגיון, קלות למחשב.

    אידיוסינקרטית

  5. מה שאידיוסינקרטית אמרה.

    וזה מזכיר לי את הרשימה הישנה והמופלאה של קווים לדמותו:
    http://israblog.nana10.co.il/tblogread.asp?blog=24829&blogcode=740670

    ובאסוציאציה פרועה זה גם מזכיר לי את הקטע מסיינפלד בו קריימר מחקה מענה אוטומטי של קולנוע:

    אורן

  6. לא מאמין

    אני רוצה לראות את התכנית שפותרת תשבץ הגיון. זה לא רק דורש להבין שפה -זה דורש גם להתחכם ולצאת מעבר לשפה.

    אני רוצה הוכחות - או לפחות לינק

    מהגג

  7. לא מכיר תוכנית שפותרת תשבצי הגיון — אבל גם אני מאמין שהרבה מההגדרות ניתנות לפתרון אוטומטי, _דווקא בגלל_ שהן יוצאות מעבר לשפה. דווקא התופעות היותר קשות לטיפול בשפה אמיתית (תחביר, אנאפורה, כמתים, והרשימה עוד ארוכה) לא מופיעות בתשבצי הגיון, וכאשר הן כן מופיעות, מדובר כמעט תמיד בפירוש "לא צפוי" מה שדווקא מקנה למחשב יתרון.

    ליצור הגדרות של תשבצי הגיון זה דווקא יותר מסובך (לדעתי), והנה דוקטורט שמנסה לבצע את זה באנגלית:
    http://www.davidhardcastle.net/Hardcastle-phd.pdf

    פרט מעניין בהקשר העבודה הזאת: כאשר נתנו לאנשים לזהות אלו הגדרות נכתבו על ידי אדם ואלו על ידי מחשב, אנשים רבים סימנו הגדרות המכילות סימני פיסוק ככאלו שנוצרו על ידי אדם, מתוך הנחה ש"מחשב בטח לא יוסיף פסיקים" (מה שמאד נכון, והיה נכון גם במקרה הזה, אבל בהחלט מראה משהו על שטחיות השיפוט שלנו).

    יואב

  8. יואב -
    יכול להיות שיצירת תשבצי היגיון זה לא אתגר כל כך גדול. זה מזכיר לי כמה דוגמאות מהרשימה על הומור ממוחשב שחלקן ממש מתאימות גם לתשבץ היגיון. למשל: רוצח שרוצח בעיקר בבוקר. ת: cereal killer.
    כלומר זה די קל למחשב למצוא (להמציא) התחכמויות מילוליות שכאלו.

    והבהרה לגבי הפתרונות של תשבצי היגיון - יהיה קשה לכתוב תוכנה שתהיה מושלמת בזה, אבל יהיה קל מהצפוי במבט ראשון לכתוב תוכנה שתפתור חלק נכבד מההגדרות.
    את השאר אפשר יהיה לפתור בברוט-פורס של חיפוש ממצה על כל האפשרויות של כל האותיות בכפוף לאילוצי מילון ואותיות שכבר הוספו. אם נשארו יחסית מעט הגדרות כאלו זה אפילו לא ייקח המון זמן.
    (וכמובן שקל לי לדבר בלי שבאמת ניסיתי, והמציאות כמובן תטפח לי על פני ותחשוף קשיים לא צפויים)

    אורן

  9. תשבצי הגיון בעברית ובאנגלית הם שתי חיות שונות. בעברית העקרונות המנחים הם (למשל) האפשרות ששתי מילים נהגות אחרת אך נכתבות באופן זהה, או להיפך, כפל משמעות למילה אחת, צרוף מילים שנשמע כמו משהו שונה, וכדומה. באנגלית (לפחות בתשבץ של הטיימס, שאותו אני מנסה לפתור מדי פעם) יש מעט מאד כפלי לשון כאלו, בעיקר בגלל אותיות הניקוד שיש בשפה האנגלית (שלא מאפשרות גמישות בהגיה). רוב ההגדרות הן מילים נרדפות, ידע כללי, או אידיומים (בלע"ז). מיעוט ההגדרות הוא מסוג cereal killer. לכן הייתי מצפה שפתרון התשבץ של הטיימס יהיה קל יותר למחשב מאשר פתרון התשבץ של בירמן, למשל.

    Neta

  10. - אין ספק שלכתוב תשבצי הגיון זה הרבה יותר קל מאשר לפתור אותן

    - הניסיון שלי עם תשבצי הגיון הוא רק בעברית, הנה דוגמא מקרית להגדרה מתשבץ הגיון (http://www.higayon.co.il/tash/laisha.html): "למרות הכל: כך אמנם נראה פרצופי" - תשובה "אף על פי כך".

    שימו לב שהתשובה דורשת: היכרות עם המציאות האנטומית, יכולת הבנה של ביטוי בדרך העקומה (צריך לדעת מה המשמעות הישרה כדי לזהות מתי פרשנות היא עקומה ומתאימה לתשבץ הגיון) ומעקב מילוני אחרי הגדרה (למרות הכל=אף על פי כך).

    מכל אלה, נדמה לי שמחשב מסוגל לעשות רק את האחרון.

    במחשבה ראשונה חשבתי להכריז על התערבות: אידיוסינקרטית טענה שייקח לה יום אחד לכתוב את זה: אני מוכן להציע שמי שיכתוב תוכנה שפותרת תשבץ היגיון של העיתונים הגדולים בעברית עם לא יותר משתי טעויות בממוצע יקבל ממני פרס יקר ערך.

    מבלי לסגת מהמחשבה הראשונה: אני מוכן גם לעסקה שניה: היות וחלקכם מבינים בתחום הזה ויש לכם רעיונות איך לעשות זאת, אני מוכן להציע את שירותי כמתכנת ושנעבוד על זה ביחד. מי שמוכן להציע לי אלגוריתם שאני אשתכנע שיש לו סיכוי להצליח - אני אתכנת את זה (והנה הזדמנות למאמר למי שמחפש…).

    אני חוזר ואומר, אין סיכוי בחיים שזה מצליח.

    מהגג

  11. 1. אין לי ספק שזה לא לוקח יום.
    2. אני חוזר וטוען שלכתוב הגדרות טובות זה קשה יותר מלפתור אותן. אם נתמקד בדוגמה שהבאת, תהליך ההסקה יכול להיות כזה: "למרות הכל" –> חיפוש ביטויים נרדפים (כי ככה עובדים תשבצי הגיון) –> אחד מהם הוא "אף על פי" –> שוב חיפוש במילון וגילוי ש"אף" ו-"פרצוף" קשורים זה לזה (מספיק שההגדרה של אחד מכילה את השני) –> זה כבר מספק סבירות די גבוהה. מגיעים לסבירות גבוהה בהרבה הגדרות, ומבנה התשבץ עוזר למצוא את המועמדים הנכונים ולהפתר מהלא נכונים. נשים לב שלא צריך הרבה ידע עולם כאן.

    עכשיו נחשוב על התהליך שביצירת ההגדרה הזאת. ספציפית, הביטוי "כך אמנם נראה פרצופי" . קודם כל, נשים לב שסתם "כך אמנם נראה פרצוף" לא יעבוד. סיומת השיכות חשובה כי גם בקריאה הלא רגילה של "אף על פי" יש שייכות כזו. כמו כן כדי לקשר בין "פרצופי" לבין "אף על פי" צריך לדעת לא רק שפרצוף מורכב מאף ומפה, אלא גם את הסידור שלהם. ידע לא טריוויאלי כלל. בנוסף, הקשר הסמנטי בין "אף", "פה" ו"פרצוף" הוא מאד מיוחד. למשל, ההגדרה "ישוב בו נמצא פרצופי" כשהתשובה היא "ראש העין" תהיה גרועה מאד, למרות שעל פניו גם "ראש, עין, פרצוף" וגם "אף, פה, פרצוף" מגיעים מאותו שדה סמנטי. ו, אם זה לא מספיק, נתבונן בחלק המקשר/המסיח של הביטוי "אמנם נראה". למה נבחרו דווקא המילים האלו? למה דווקא אמנם? למה דווקא נראה? האם כל קישור יעבוד כאן? אני חושב שלא. "נראה" נבחר כי "אף מעל פה" באמת מתאר מראה של פרצוף (הממ.. צריך לדעת שפרצוף זה משהו שמרבים להתבונן בו, ושאף ופה הם מרכיבים ויזואליים בולטים) וגם "אמנם" קשור מאד במשמעות שלו ל"למרות" ול"אף על פי". בקיצור, המון המון המון שיקולים לא טריוואליים בכלל, שאני לא רואה מחשב מבצע בזמן הקרוב.

    יואב

  12. מהגג -
    גם אם נציע אלגוריתם לפתירה סביר והגיוני - בעברית יש בעיות יישום רבות מאוד. אבל אם בעברית חשקה נפשך אז יואב הוא האיש שלך ;-)

    ועכשיו שלוש הערות קטנות (ועוד אחת):
    1. ברור שלא *יום*. זה רק ביטוי. לעשות את זה טוב זה פרוייקט רציני.
    2. אני לא ממש חובב תשבצים אבל שמתי לב שלתשבצים בארץ יש מספר לא גדול של כללים קבועים ורמזים - מתי מילה הפוכה (עולה או יורדת), או משובשת וכו' אני מניח שאפשר להוסיף למחשב גם כללים (הסתברותיים) שיצמצמו את מרחב החיפוש.
    3. שימו לב, לא הועלתה כאן טענה שמחשב יכול לכתוב *כל* הגדרה לתשבץ הגיון. 'אף על פי כך' היא אולי הגדרה קשה. טענתי שמחשב יכול לכתוב הגדרות שמתאימות לתשבץ הגיון (שהרבה פעמים הם על העוקם), שהם לא בהכרח יהיו קלות יותר מהגדרות אנושיות ושפותרים אנושיים יתקשו לזהות שמדובר בהגדרה שכתב מחשב.

    4. (בקטנה) איך אף אחד כאן לא התפעל בקול מהתמונה של הבול עם המחשב האלקטרוני?! אני נכנסתי לאובססיה להשיג אותו.

    אורן

  13. אני מסכים שמחשב יכול לכתוב תשבץ הגיון אבל לא שמחשב יכול לפתור אותו.

    זה פשוט לא יקרה.

    מהגג

  14. מהגג -
    שמעת על החוק הראשון של קלארק?
    "כשמדען מכובד אך מבוגר מצהיר שמשהו אפשרי, כמעט בטוח שהוא צודק. כשהוא מצהיר שמשהו בלתי אפשרי, סביר מאוד שהוא טועה".
    ולדוגמה, הנה לינק למאמר שמתאר תוכנה שפותרת תשבצי היגיון (אמנם באנגלית, ולהוסיף חטא על פשע - המאמר בפוסטסקריפט).
    http://www.cs.duke.edu/~mlittman/docs/aaai99-crossword.ps
    זו עבודת התזה של נועם שזיר בהנחייתו של מייקל ליטמן.
    הנה תיאור ב-PDF
    http://www.cs.duke.edu
    /researchers/artificial_intelligence/PAPERS/1999/aaai99-demo.pdf
    אורן - יופי של בול.
    שבעים אגורות היה גם מחירו של בול חמוד על משפט פרמה שקניתי בצ'כיה. (חידה: מי לא חשב לקנות, למשל, חמישה בולים כאלה ואיבד את העותק היחיד שהיה לו אחרי חודש?)

    יובל

  15. אוקיי, חיפוש תמונות בגוגל נותן קירוב טוב לדבר האמיתי:
    http://www.scientific-web.com
    /Stamps/Mathematics/thumbnails/AndrewWilles01.jpg

    יובל

  16. נראה לי שצריך להבדיל בין סתם תשבצים למה שמהגג קורא תשבצי היגיון (גם נטע התייחסה להבדל הזה). בתשבצי היגיון ההגדרות מתחכמות יותר והתשובה מבוססת גם על משחק מילים או צלילים ולא רק על הגדרה חידתית ותשובה ישירה. למרות זאת, אני טוען, אפשר לפתור לפחות חלק מההגדרות האלו.

    אורן

  17. אורן - צודק. בקריאה נוספת, שזיר וליטמן פותרים תשבצים רגילים. עם זאת, יש גם התחלות של פתרון ממוחשב של תשבצי הגיון:
    http://www.williamtp.com/crosswords/
    (תכנה מסחרית, ולכן קשה לדעת מה האלגוריתם :-( )
    המשותף לתשבצי הגיון ולתרגום ממוחשב הוא הישענות על ידע על העולם. עדיין, בתשבצי הגיון הידע הנדרש נראה לי קצת יותר צר.

    יובל

  18. כמו שרמזתי בתגובה הקודמת — תשבצי הגיון אמנם מסתמכים על ידע עולם, אולם לרוב מדובר בידע שטחי למדי, כזה שקל יחסית למחשב לרכוש (בהנחה כי קיים מילון בפורמט שמחשב מסוגל לקרוא — מישהו מכיר כזה לעברית (רצוי חופשי)?).

    בנוסף, ובשונה מתרגום אוטומטי, בתשבצי הגיון יש יתרון גדול נוסף, והוא המגבלות הצורניות. אם מדובר בהגדרה אחת, הרי שניתן לסנן פתרונות רבים על ידי מגבלת האורך. וכשמדובר בתשבץ שלם הרי כל פתרון מגביל את האחרים, וזה יתרון אדיר לפתרון אוטומטי.

    כלומר, אלגוריתם פתרון תשבץ הגיון יכול להמציא 5 (נניח) מועמדים לפתרון לכל הגדרה, חלקם יהיו טובים יותר וחלקם פחות, ואז לבחור מתוכם באופן שימקסם את סך ההגדרות העקביות. לעומת זאת, אלגוריתם לתרגום אוטומטי יכול גם הוא ליצור 5 תרגומים אפשריים, אבל כשיבוא לבחור ביניהם יאלץ להשתמש בשיקולים סמנטיים (במקרה הטוב) ו/או מודל שפה (במקרה הנפוץ), ואת זה אנחנו לא יודעים לעשות כל כך טוב.

    בפתרון תשבצי הגיון הרבה מהצורך בידע סמנטי מומר בשימוש פשוט מאד באילוצים צורניים, וזה הדבר העיקרי שהופך את פתרונם לקל יחסית*.

    * לא ניסיתי אף פעם. יכול להיות שזה מאד קשה. למעשה, אני, כאדם, לא מוצלח במיוחד בפתרון תשבצי הגיון, ודי טוב בתרגום. אבל אם רודן אכזר ידרוש ממני לכתוב או תוכנה לתרגום מעברית לאנגליתאו תוכנה לפתרון תשבצי הגיון בעברית, אין ספק שאבחר בתשבצי ההגיון.

    יואב

  19. אגב, לפעמים התשובה להגדרה היא שגיאת כתיב במתכוון.

    Neta

  20. יובל: תיכף גם תגיד שהיתה לך הוכחה קצרה ואלגנטית למשפט פרמה שנכתבה על גב הבול ההוא ואבדה לבלי שוב.

    שחר

  21. שלום לכל הנ"ל ואחרים,
    אני חוכך בדעתי לכתוב פרויקט לאוניברסיטה שעניינו תוכנה לפתרון תשבצי הגיון. מצאתי את ההתכתבות הזו פה, וחשבתי שיהיה מעניין להתייעץ איתכם בנושא. אולי מישהו מכם שמע על פרויקט כזה שנעשה בעברית, או אולי שמעתם על מילון עברי דיגיטלי שאני יכול להסתמך עליו או תוכנה לניתוח תחבירי וכו'. ובכלל - רעיונות מעניינים שקשורים לפרויקט כזה (למשל, באילו סוגי הגדרות כדאי להתמקד - שהרי לא אוכל לעסוק בכל הסוגים בפרויקט של מספר שבועות/חודשים).
    מי רוצה לפטפט קצת על הנושא?
    תודה.

    עמרי

  22. עמרי -
    נראה לי שפתירה של תשבצי היגיון זה קצת גדול על פרוייקט. אפשר להתחיל מפרוייקט שמגדיר את הבעייתיות ומחלק את הבעיה למשפחות. אני גם מתכנן לנסות להפריח איזה פרוייקט שיתופי בנושא (בקרוב יגיע פוסט ראשוני) ובשמחה תוכל להשתתף.

    אורן

  23. עמרי, גם אני התחלתי להשתעשע ברעיון. זה נראה לי חומר לדוקטורט או יותר מזה, ולכן מקסימום אוכל לתרום קצת קוד לפרוייקט קוד פתוח כזה. מבחינת משאבים, כדאי לך להסתכל באתר מיל"ה:
    http://www.mila.cs.technion.ac.il/hebrew/resources/index.html
    זה האוסף הכי מקיף (היחיד?) של קורפורה ותוכנה לניתוח עברית. נראה לי שחייבים להשתמש במנתח מורפולוגי, וזאת רק התחלת הבעיה.
    מבחינת הבעייתיות וסוגי הגדרות, אני ממליץ על המאמר של נועם שזיר שקישרתי אליו למעלה.
    הנה כמה לינקים לסוגי הגדרות:
    http://www.potrim.com/wiki/%D7%9B%D7%99%D7%A6%D7%93_%D7%9C%D7%A4%D7%AA%D7%95%D7%A8

    http://he.wikipedia.org
    /wiki/%D7%AA%D7%A9%D7%91%D7%A5_%D7%94%D7%99%D7%92%D7%99%D7%95%D7%9F

    יובל

להוספת תגובה