מדע בזיוני

מעניין. אולי זה אפילו נכון.

הבלוג של אורן צור-

אורן הוא:
-עוד קורבן של הסטטיסטיקה
-נכשל במבחן טיורינג

שירות התרגום של גוגל (כמו כל תרגום מכונה) הוא מקור לא אכזב לשעשועים וכך בזמן האחרון קיבלתי גם ממיכאל וגם מיואב את הטיפ הבא – נסה לתרגם את veni, vidi, vici מלטינית לעברית. אז ניסיתי. התוצאה המשעשעת עד למאוד היא "באתי, ראיתי, אני כבשה". מוזר מאוד, כמובן.

זה מוזר מעט (רק מעט) פחות כשמבינים שלא מדובר בכבשה (בעעעעעעעע, sheep) אלא בהטיית עבר במין נקבה של השורש כ.ב.ש. (conquered). ושוב אתן כאן את ההסבר המוכר לעייפה לקוראי הבלוג הוותיקים – תרגם מכונה מתבסס על שכיחויות מילים, ביטויים ומבנים תחביריים בקורפוסים מקבילים. כלומר כדי לתרגם תרגום יחסית מוצחל המחשב צריך "ללמוד" להכליל מהרבה מאוד דוגמאות של משפטים דומים בשתי השפות. אבל אין מספיק דוגמאות תרגום מקבילות בין עברית ללטינית ולכן בגוגל משתמשים בשפה אחרת כפרוקסי. התרגום מתבצע מלטינית לאנגלית וכך veni, vidi, vici הופך ל I came, I saw, I conquered (גוף ראשון, perfect [איך אומרים בעברית perfect form?] של הפעלים venire, videre ו- vincere. אותנו מעניין כאן הפועל vincere  שמובנו גם לנצח וגם לכבוש (מונחים די קרובים, לפחות לפי תפיסת הביטחון שגורסת שאפשר לנצח רק בעזרת החזקת שטחים).
מילים אנגליות אחרות שהתגלגלו  מ-vincere  הן הפועל to win ושם העצם victory (שהגיע דרך victoria ו- victorem).

טוב, אז אנחנו כבר באותו שדה סמנטי, כלומר עוסקים בנצחונות וכיבושים אבל מה עם ההטיה המוזרה וחסרת ההקשר (וההסכמה, agreement) "אני כבשה"? כלומר אם מדובר בגוף ראשון ("באתי", "ראיתי", "אני") אז למה הפועל בגוף שלישי "[היא] כבשה"? ושאלה שניה – למה החליט המתרגם שמדובר כאן בהטיית נקבה ("באתי", "ראיתי" הם נייטרליים)?

מי שיודע באמת איך פועל מנוע התרגום של גוגל הוא פרנץ אוך (Franz Och).  אנחנו, לעומת זאת, רק בענייני השערות. ברגע שמנוע התרגום מזהה את המילה conquered הוא מחפש אותה בהקשרים השונים. באנגלית הפועל to conquer משמש בעיקר לתיאור כיבוש של שטח כלומר בהקשר של מלחמה אמיתית (הוא משמש גם בצורה המטאפורית 'לכבוש את ההר') ואת השטחים כובשות מדינות. ניזכר שמנוע התרגום פועל בצורה סטטיסטית ולכן כיוון שרוב הכיבושים נעשים על ידי מדינות, בקורפוס המקבילי אנגלית-עברית המילה conquered תתורגם לעברית בהטיית נקבה. כיוון שההטיה האנגלית היא בעבר (וכך כנראה גם רוב המופעים), אזי נשמרת צורת העבר וכיוון כנראה שרוב המופעים בקורפוס מתארים ש"מדינה א' כבשה את מדינה ב'" מקבלת ההטיה חסרת הגוף conquered  תרגום לגוף שלישי. וכך מתקבלת צורת גוף שלישי-עבר-נקבה: כבשה.


יש כאן מעין הסבר לסטטיסטיקה שגרמה לשיבוש. יש כאן הסבר שמראה שהתרגום לא כל כך רחוק ולא מדובר כאן על כבשה (בעעעעע) ובכל זאת יש כאן משהו מאוד מאכזב – חוסר היכולת להתאים את ההטיה לשאר הפעלים ושמות העצם במשפט גורמת להרמת גבה. יכול להיות שחריגות ההסכמה האלו קיימות רק בתרגום לעברית שהיא שפה סקס מניאקית ומאותגרת סטטיסטיקה מקבילית. אבל אולי לא. כאמור, לאויך (ואולי לקוראים כאן) הפתרונים.

עד כאן הסבר מייגע משהו ל ענייני תרגום ספציפיים. מתחת למכסה המנוע מסתתרת תופעה מעניינת עוד יותר והיא (וגם זה לא חדש לקוראי הבלוג, אבל זה מה שהופך את הרשימה הזו מתאימה ליום האישה שעבר עלינו לטובה) – מנועי תרגום מבוססי סטטיסטיקה מאמצים בחום את הגישה הדסקרפטיבית והלא טהרנית לשפה – הם "לומדים" את השפה כמו שמשתמשים בה ולא לפי כללים נוקשים. כך יוצא שמערכות ממוחשבות משקפות (ומנציחות?) סטריאוטיפים (סטראוטיפים?) מגדריים.

פוסט קשור: אם בפוסט הזה הסברתי את הטעות הסטטיסטית שגרמה לתרגום המשובש, בפוסט הכבשה שכבשה – יוליוס קיסר cognitively revisited – אני מנסה להסביר את הטעות האנושית שגורמת לרוב האנשים לקרוא "אני כיבשה (בעעעעע)" ולא "אני כבשה" (כ.ב.ש. בגוף שלישי-עבר-נקבה).

כמה קוריוזים על התרגומים הסקסיסטיים  הבאתי כאן: תרגום ותרבות: מין מגדר ומודל שפה עם דוגמאות שונות ומשונות כמו I drive a car שמתורגם ל'אני נוהג במכונית' לעומת I don't know how to drive שמתורגם ל'אני לא יודעת לנהוג".
ועל עוד כמה קוריוזים ומוזרויות תרגום, בעיקר בתרגומי שמות ועניינני agreement, כתבתי כאן: what's in a name?
ועוד ענייני תרגום מכונה תחת הקטגוריה תרגום.

17 תגובות עבור “יוליוס קיסר, הכבשה ומעמד האישה”

  1. אני מכיר פשוט "אספקט מושלם" כתרגום לאספקט הפרפקט.
    והדוגמה הכי מובהקת של התגלגלות vencire לאנגלית היא כנראה (in)vincible.
    עוד מעניין בתמונה שסיפקת היא ההבדל בין הניתוח עם הפסיקים לבין הניתוח בלי הפסיקים. ילדים הישמרו מפסיקי הבאובב! (אם כבר כבשים)

    יובל

  2. כן. בהתחלה חשבתי לדבר גם על ענייני הפסיקים ותרגום של משפט שלם מול מילה. אבל זה כבר היה נגרר להיות יותר מייגע וגם הברזתי משיעורי הלטינית בתיכון כך שבטח הייתי טועה בניתוח של ה-possessive הלטיני ואיך הוא משנה את שם העצם (via).

    ואיך מתרגמים לעברית את אספקט?

    אורן

  3. יש שם כמובן עוד כמה מוזרויות. כמו "אני בא" בהווה בניגוד לעבר של שאר הפעלים ולעבר בתרגום הביטוי כולו. ויש גם את המשפט החסר – "באתי ראיתי את הבית של" מה עם המושא? הרי ברור שאין שום עץ פרסינג שמאפשר משפט כזה.

    אורן

  4. במורפיקס אין תרגום למובן הדקדוקולוגי של אספקט. אתה מוזמן להשתמש ב"היבט", אולי מישהו יבין :)

    יובל

  5. אין עץ פרסינג שמאפשר את זה — אבל תהליך התרגום של גוגל לא מסתמך על עצים (זה פשוט איטי מדי). התרגום שלהם הוא phrase based, כלומר מתרגם רצפי מילים לרצפי מילים, ומרשה שינוי בסדר הופעת רצפי המילים בין השפות השונות. חוצמזה, נראה שמבחינת האלגוריתם של גוגל, המשפט לא נגמר כל עוד לא הגענו לנקודה. vici ונקודה אחריו דווקא מתרגם בסדר (לאנגלית)..

    כמובן שהיה מאד עוזר למנוע התרגום להשתמש במידע תחבירי או בעצים. להערכתי זו הדרך היחידה להתמודד עם תרגום לשפות שיש בהן תופעה של התאמה מורפולוגית בין מילים שונות (וראו מצגת לא מאד טכנית כאן: http://cl.haifa.ac.il/MT/pres/yoav.pptx), אבל התהליך באמת כבד מכדי שגוגל יוכלו לבצע אותו "על המקום" בקנה מידה רחב ובחינם וגם להשאר רווחיים (מה גם שההבדל באיכות, נכון להיום, הוא עדיין לא כזה גדול — יש עוד הרבה מקום למחקר בתחום הזה).

    יואב

  6. בתור מגן השפה הלטינית אני מרשה לעצמי לשלוח לך תיקון – האינפיניטיב של vici
    הוא vincere ולא כפי שכתבת.

    אלי

  7. וירגיליוס –
    תוקן. תודה על ההערה.

    אורן

  8. אויך? שויין.
    אוך. פרנץ-יוזף אוך.

    איתמרק

  9. אבל למה בעעעעעע ולא מהההההה?
    עברי – דבר עברית.

    יהונתן

  10. איתמר – תודה. תיקנתי. (למעשה אני יודע שזה אוך [אולי אתה כבר הערת לי?] ואני מדבר באוך וכאן זו פשוט פליטת קולמוס).

    יהונתן – האמת שזה נושא לפוסט. והסיבה האמיתית שלי היא שכשמגדלים ילד דו לשוני אז הצלילים האלו נוטים להתערבל וכל אני לפעמים אומר מהההההה ולפעמים בעעעעע וכבר לא זוכר מי הגיע מאיפה. היחידים שאני מצליח באמת לזכור ולמקם הם חזיר (אוינק אוינק VS נחירה, וצפרדע שבאנגלית היא מדברת "ריביט-ריביט" [WTF?!]).

    ואלעד מעיר בבלוגו (http://eladspage.blogspot.com/2011/03/isle-of-jura.html משום מה לא נוצר טראקבק) שבגוגל טרנסלייט אפשר לעזור לאמן את האלגוריתם ולתקן אותו. במילים אחרות – הוא נוזף בי על חוסר המודעיות החברתית שלי.

    להגנתי אומר – א. לא ידעתי שיש כזו אופציה, וב. אם הייתי יודע בטח הייתי משתמש בה כדי לשבש את התרגום, מעין הפצצת גוגל לשונית. מהכירותי עם אלעד אני די משוכנע שזה היה האינסטינקט הראשוני גם שלו.

    אורן

  11. אתה צודק שהמחשבה לשבש חלפה במוחי:
    א. זה לא מוסרי (לא מזיז לי)
    ב. זה בטח לא ישפיע על המנוע רובוסטי והמופלא של גוגל (לא רלוונטי)
    ג. לגרום לזה לעבוד כמו שצריך יפגע באוסף הנושאים האפשרי לפוסטים עתידיים שלך (סתם).

    בכל מקרה מניין לי שבלשנים חישוביים שכמוך לא אלו שיצרו את הבאגים המצחיקים האלו בגוגלתרגם רק כדי שיהיה להם על מה לכתוב אחרי זה :)

    אלעד

  12. בעניין הבעעעעעעע – בסוף השבוע נפל עלי צינון מעיק ומתיש וכמויות הנזלת שזורמות ממני הן פשוט מרשימות (כאן הייתה אורה לבוא בדיחה תפלה על צונאמי). אז הלכתי לשאול את גוגל והוא מצא לי מאמר ישן שמסביר על הנזלת ("… [הנזלת] מגיעה לנפח הגדול עד פי 500 מהנפח המקורי בתוך 20 אלפיות השניה …המטען השלילי מנוטרל ביעילות על ידי יוני הסידן הנושאים מטען חיובי, כך שהמטענים השליליים "מסכימים" לחיות בשכנות והחלבון מכווץ. מחוץ לתא הסביבה עניה בסידן, אין מה שינטרל את הדחייה שבין מטענים שליליים סמוכים, והחלבון מתמתח בבת אחת. …") ובסופו גם סקירה מקוצרת על איך עושה ברווז בשפות שונות: http://news.nana10.co.il/Article/?ArticleID=372551

    אורן

  13. ואצלנו בכיתה י"ב התעורר ויכוח עז סביב איך עושות כל מיני חיות ברוסית, עד שנכנסה המורה וצעקה על אחד המתדיינים "לך תעשה חרו-חרו* ליד מכונת ההפרעות**"
    * חזיר
    ** מוקמה ליד המזכירות. מעבירים כרטיס תלמיד, לוחצים על "הפרעה" במסך מגע, וזה מוציא קבלה לתתה למורה בשיעור. מה, לכם לא היתה?

    יובל

  14. […] href="http://www.sciencefriction.net/blog/2011/03/09/1245/">אורן צור מסביר שזה בעצם "אני […]

    שער המרה כפול « עברית וחיות אחרות

  15. […] יוליוס קיסר cognitively revisited לפני כמעט שנה כתבתי על עלילות יוליוס קיסר והכבשה. תזכורת: בניסיון לתרגום הביטוי veni, vidi, vici מלטינית […]

    הכיבשה שכבשה: יוליוס קיסר cognitively revisited

  16. […] גוגל-טרנסלייט כושל בכל אספקט אחר של תרגום הפיסקה הזו (והרבה […]

    איפה המהדיר? מעין מכתב לעמוס שוקן

  17. בשולי ההשקה של גוגלתרגם הנוירוני, שבו הבעיה הזו נפתרה, חזרתי לפוסט ולתגובות ועכשיו אני יכול לתרום את העובדה שצפרדעים שעושות ריביט ריביט זה רק מין מסוים מאוד, שממוקם בהרים סביב הוליווד ולכן הופיעו במאסה קריטית של סרטים ונכנסו לקאנון.

    יובל

להוספת תגובה