מדע בזיוני

מעניין. אולי זה אפילו נכון.

הבלוג של אורן צור-

אורן הוא:
-עוד קורבן של הסטטיסטיקה
-נכשל במבחן טיורינג

שתיים וחצי סקירות על תרגום ממוחשב ועוד כמה מיתוסים וסיפורים

א. הקדמה – הבשר בא קר
לא מזמן גמרתי את הספר שנת הבשרים שלי. מומלץ. לצד כמה הברקות ('בשר הוא המסר', 'העיקר בקר'), התרגום צולע מעט. אחת הדוגמאות היא "הייתי צריכה לקנות בגדים. נכנסנו לאחד הבוטיקים וסלואן הפגין בקיאות באוספים*". האמת שאני לא מכיר את המקור האנגלי אבל אני די משוכנע שהמילה המקורית הייתה collection (אולי ברבים) ובהקשר הבוטיקי היא הייתה צריכה להיות מתורגמת ל'קולקציה' או אולי למבחר.
*בדיוק אתמול השאלתי את הספר (4 במאה) לחברה כך שהציטוט מזיכרון. בכולופן, המילה אוספים בהחלט מופיעה שם.

ב. תרגום ממוחזר
הרי לכם לינק לנענע10 שם מתפרסמת סקירה של עידו גנדל ("מתרגם אנושי", הוא מעיד על עצמו בגאווה) על תרגום ממוחשב: מי מפחד מבימבו שושנה?
(ישי, תודה על הלינק). נו, אז יש לי מעט השגות על התוכן וקצת יותר השגות על הסגנון אבל אלו עניינים של טעם וריח וגם של הנחיות ושיכתובים של עורך שרוצה אייטמים מאאאאגניבים.
אבל יש לי גם השגה נוספת. לפני כמה שנים התפרסמה סקירה אחרת על תרגום ממוחשב. על הסקירה היה חתום אחד, אורן צור, והיא התפרסמה ב… כן, גם בנענע (בחיים ברשת): המרוץ אחר התרגום המושלם.
א. בחיי אימי שלא אני נתתי את הכותרת הזו. ב. תודה לגוגל שמחזיק עותק של הרשימה הזנוחה הזו.

אה, שום דבר מהותי לא השתנה בתרגום המכונה מאז ועד גנדל. זה סתם נותן לי פתח להתקטנן ולהתלונן – שתי פעולות חביבות ביותר.

ג. אפרופו מיחזור
ואת אמא שלך גם – על תרגום ממוחשב: רשימה על תקרית דפלומטית דמיונית, סיפורים, מיתוסים וטעויות תרגום שמחשבים לא עושים.

ד. ושוב ענייני בשר, תרגום ממוחשב ומתרגמים אנושיים
אחד הסיפורים המשעשעים על תרגום ממוחשב מגיע ממעבדות המחשבים של IBM וממערכת התרגום שנבנתה בשנות החמישים עבור ה-CIA. כדי לבחון את המערכת הכניסו לה משפט אנגלי, תרגמו אותו לרוסית וחזרה לאנגלית. "הן הנפש חפצה אך הגוף רפה" (the spirit is willing but the flesh is weak) הוזן פסוק מהברית החדשה. הרגום החוזר סיפר ש"הוודקה מעולה אבל הבשר רקוב". משך שנים סיפרתי את האנקדוטה הזו כאמת לאמיתה עד שאחד הקוראים בבלוג כתב לי באימייל שכנראה שמדובר באגדה אורבנית משעשעת. בירור קצר (שוב, תודה לאח הגָגוֹל) מצא את המאמר "הוויסקי הבלתי נראה" (pdf) שמתחקה אחרי שורשי המיתוס. אני לא יכול להתאפק מלצטט ממנו כמה שורות אפרופו הבשר והוודקה, ה'אוספים' משנת הבשרים והרשימה של גנדל ("מתרגם אנושי"):

It is surely ironic that a joke by journalists about incompetent human translators should be used, in all seriousness, to show how poor computers can be in comparison with human translators.

18 תגובות עבור “הבשר בא קר: תרגום ממוחשב או תרגום ממוחזר?!”

  1. אכן אירוני. אבל למה אתה לא יכול לצטט? הנה ציטטת. (צ"ל: "ולא לצטט" או "מלצטט".)

    יחזקאל

  2. "אה, שום דבר מהותי לא השתנה בתרגום המכונה מאז ועד גנדל."
    אז אותן בעיות שהיו עם תרגום מאנגלית לספרדית ב-2005 קיימות ב-2008 בתרגום מעברית להונגרית (או כל אחת ממבחר השפות של גוגל)?
    וקצת יותר ברצינות, נראה לי* שהציפיות מתרגום מכונה סטטיסטי מוגזמות בשלב זה. יפה דיבר (כהרגלו) מארק ליברמן לפני שבועיים-שלושה כשהתלהב מתרגום לא-שוטף-אבל-מובן של כתבה על ברק אובמה מעיתון איסלנדי. איסלנד!

    אגב, סקירה נאה של הפיתוחים שהוצגו באחד הכנסים האחרונים (אני חושב שקולינ"ג) סיפק פיליפ קוהן בבלוג של האל דאומה.

    *גילוי נאות: הכותב הוא גם מתרגם אנושי וגם מתרגם מכונה.

    איתמרק

  3. יחזקאל – תודה. תיקנתי.

    איתמר –
    באמת שום דבר מהותי לא השתנה. הקורפוסים גדלו, האבלואציה האוטומטית השתפרה (בלו וכו'), מודלים של אליינמנט השתפרו גם הם אבל הבעיות אותן בעיות (גם בעייית המורפולוגיה וחוסר הניקוד העברי הייתה קיימת אז והיום) וגם בעיות הדיסאמביגואציה נשארו כשהיו. אם תשים לב אז השיפורים בתוצאות הם מרג'ינליים ולא הייתה שום פריצת דרך אלגוריתמית.
    מה שכן מעניין – SMT וEBMT שתי אסכולות שנהגו להתעלם אחת מהשניה התחילו לשאול שיטות והיום כמעט קשה להבדיל בינהן (למעט הז'רגון). ואם כבר האל (תודה שהזכרת לי את הסקירה הזו. היא נשמטה מזכרוני כי האל כמעט וכבר לא כותב), אז הנה הלינק לסקירה של COLING:
    http://nlpers.blogspot.com/
    הסקירה שם רק מדגישה את השינויים המינוריים.

    אורן

  4. עוד הערונת על תרגום אנושי דווקא.

    מידי פעם בעלת השליטה שוברת את החרם שלי על העיתונות המודפסת וקונה את המהדורה האנגלית של ה'ארץ' וכך הזדמן לי הבוקר לשבת בשרותים (כמה סימלי) ולקרוא את הרשימה של הנדלזלץ על הביקור שלו בניאגרה. וכך כתוב שם: "Victoria falls in Africa puts Niagara in its back pocket".
    אולי אני טועה אבל עד כמה שאני יודע (וכך גם בעלת השליטה) אין באנגלית ביטוי כזה "שם בכיס האחורי" (פרי עטו של מתרגם אנושי) או "שם בכיס הקטן" (כך במקור בעברית). אהמ…

    ואם כבר התקטנוניות תרגום אני אלין גם על הנדלזלץ עצמו. הוא כותב על 'מייד אוף דה מיסט' או "בתולת הערפל" כפי שהוא מתרגם את שמה של הספינה שלוקחת את המבקרים להרטב מנתזי הניאגרה. כמובן ש maid of the mist היא 'עלמת הערפל' (ערפל של נתזים) ואין שום קשר למצב הבתולים של אותה עלמה. אבל מה אלין על הנדלזלץ אם את הטעות הזו כבר עשו הנוצרים עם מריה לפני כמעט אלפיים שנה ובשנות ה-80' החרו-החזיקו אחריהם חובבי הרוק הכבד עם בתולת הברזל.
    ולא נותר אלא לתמוה איך היה מתרגם את זה מחשב – the misty virgin?!

    אורן

  5. איתמרק: אולי קראת את הפוסט של ליברמן באמצעות תוכנת תרגום שתומכת בפיצ'ר המופלא של החלפת שמות מדינות? כי נדמה לי שאתה מדבר על הפוסט הזה שעוסק דווקא בעיתון נורבגי. http://languagelog.ldc.upenn.edu/nll/?p=684

    ואם יורשה לי בהקשר זה קידום מכירות ציני לפוסט די רלבנטי שלי:
    http://www.morewords.info/למה-התרגום_לאנגלית_בגוגל_יותר_טוב

    אידיוסינקרטית

  6. אידיוסי –
    קדמי חופשי כל זמן שזה רלוונטי (וזה בהחלט רלוונטי ויופי של פוסט).

    בקשר לlanguage log ניתוחי הטעויות האלו זה משהו שנמשך שם כבר די הרבה זמן ולאורך לא מעט פוסטים. הייתי בטוח שהיה על זה דיון כאן אצלי בבלוג אבל אם היה הוא פשוט פרח ונעלם. מוזר.

    אורן

  7. צריך לזכור שגם מתרגמים אנושיים עושים לפעמים טעויות טפשיות, כאילו היו מכונות טפשות* (למי שנתקל למשל בכותרת של הארץ לא מזמן, בה קבע שר החוץ הצרפתי כי "ישראל תאכל את אירן" לפני שלזו יהיה נשק גרעיני. (הפיתרון – hit במבטא צרפתי כבד))

    אורן, בתור מישהו שנמצא בלב העניין – אתה גם חושב שהשיטות הסטטיסטיות חסומות ע"י איזה מין כלל 80-20?
    והאם עושים גם התקדמויות בכיוונים אחרים, לא סטטיסטיים?

    * המשפט הזה בעייתי בכל כך הרבה דרכים.

    אילן

  8. אילן –
    קודם גילוי נאות וכסת"ח – למרות שאני עוסק בעיבוד שפה אני לא נמצא בלב העניין של התרגום הממוחשב כך שאת הקביעות שלי כאן צריך לקחת בערבון מוגבל משהו.

    ולשאלה – יש לי תחושה של איזה 80-20 או אולי 91-9 ואני יודע שלעוד כמה וכמה אנשים בתחום יש את התחושה הזו אם כי אני לא בטוח שהיא כבר חילחלה למיינסטרים (וזה כבר עניין לסוציולוגיה של המדע).
    חוץ מזה יש את הכיוון של example based machine translation שגם הוא סטטיסטי אבל באופן מעט שונה שנותן דגש גדול יותר למבנים קבועים. בחמש עשרה השנים האחרונות קצת ירד קרנה של האסכולה הזו אבל בשנים האחרונות יש תחיה ויש גם התכנסות של ה-SMT וה-EBMT אחת אל השניה.

    יש עוד כיוונים פחות יומרניים כמו תרגום חלקי או תכנות כזה שהמחשב ידע מה הוא לא יכול לתרגם.

    למרות כל זאת – עיקר המחקר הוא עדיין סטטיסטי ומתמקד בקורפוסים גדולים יותר ובעימוד (alignment) טוב יותר.

    ואחרי כל התגובה הזו – אם יש כאן מישהו שבאמת מתעסק בתרגום ממוחשב הוא מוזמן להוסיף או לתקן אותי.

    אורן

  9. שלום

    מישהו יכול לתתלי עוד דוגמאות מוכרות על תרגום שגוי?

    תודה

    שירן

  10. שירן, באדיבות אבא שלי (הסיפור לכל המאוחר משנות השישים של המאה העשרים):
    ""Out of sight, out of mind
    תורגם ל "invisible idiot"
    ולינק:
    http://www.geoffreylandis.com/sight.htp

    יובל

  11. יובל, ראשית תודה על התגובה המהירה.
    ייתכן ואתה מבין בתרגום ממוחשב (אפילו קצת?)?

    שירן

  12. שירן, מידת ההבנה שלי בתרגום ממוחשב פחותה משל אורן (ראי את תגובתו לפוסט הזה מה-20 באוקטובר 2008). עם זאת, אולי אוכל להפנות אותך למקורות יודעי דבר. ובעברית, שאלי ומישהו מקוראי הבלוג, כולל אותי, ינסה לענות לך.

    יובל

  13. הבנתי שיש מספר שיטות של תרגום ממוחשב.
    רציתי לדעת איך עובדת (בפירוט) השיטה הסטטיסטית.

    נ.ב
    אפשר לדבר בטלפון או במייל?

    שירן

  14. מישהו יכול לומר לי אז מה ההבדל בין EBMT ל- SBMT ? הדומה הוא ששתיהן גישות סטטיסטיות אך מה השונה?

    בדחיפות

    שירן

  15. שירן –
    (תשובה מקוצרת): בשני המקרים משתמשים בסטטיסטיקה אבל ב-SBMT זו בעיקר סטטיסטיקה על צירופים של מילים בודדות שיוצרות את המשפט ובEBMT זו סטטיסטיקה על ביטויים וחלקי משפט שלמים. זה הסבר שיטחי מאוד. להרחבה תתחילי מלקרוא את דפי הויקיפדיה.

    בכל אופן – כיום השיטות מתכנסות אחת אל השניה.

    אורן

  16. תודה,

    מה ז"א מתכנסות אחת אל השנייה?

    יש חומר בעברית (חוץ מויקפדיה) שתוכל לשלוח לי?

    שירן

  17. אני לא יודע על חומר בעברית.
    אם כבר ויקי – עדיף להסתכל בויקי האנגלי שהוא הרבה יותר מפורט.

    אורן

  18. אני צריכה דוגמאות מאנגלית לעברית אשר התרגום בהם הוא שגוי…

    שירן

להוספת תגובה