הנה פוסט חוצה גבולות. הוא מערב ביזנס ופלז'ר או יותר נכון משפחה ועבודה. לזכותו יאמר שהוא נוגע בכמה וכמה נקודות מרתקות שקשורות לשפה, תרבות, אינטרנט וקצת תורת האינפורמציה.
בתיכון היה לי חבר ולו סבא וסבתא עשירים שהתגוררו בבוורלי הילס. פעם בשנה הוא היה נוסע אליהם או שהם היו מגיעים לארץ ואז משך חודשיים נגזר על החברים לשמוע סיפורים על בּוֹבִּי וזֵיידִי. לא ממש הבנתי מי זה בובי ומי זה זיידי אבל הבנתי שהכינויים מתייחסים לסבא וסבתא. למה הוא קורא להם כך לא הבנתי, אולי בגלל שהם היו סבים חורגים. מאוחר יותר הבנתי שאלו אחדות מהמילים האידיות האלו שהובאו מהשטעטעל ונטמעו בשפתם של יהודי אמריקה ביחד עם 'ליין' (לקרוא[ בתורה]) וגם עם ה'אוי', ה'אָיָיָי' וקרעכצענים נוספים. משמעות המילים היא סבא וסבתא או נכון יותר סבתא (בובי) וסבא (זיידי). למעשה, הייתי צריך לקלוט את זה מההתחלה שהרי ידעתי שבּוֹבֶּה מַייסֶעס (צ"ל באבע מעיישעס) פרושם סיפורי סבתא, כלומר בובי=בּוֹבֶּה (באבע) = סבתא.
חלפו השנים והתחתנתי עם עולה מקנדה וכך כשנולד נעם נהיו לו סבא וסבתא וגם בּוֹבִּי וזֵיידִי. אז למה אני מספר לכם את סיפורי הסבתא האלו? למשפחה של אישתי יש רשימת תפוצה משפחתית ובאימייל שעבר שם נכתב על Bubby ועל Zadie. כאן כבר נעורה הנטייה הבלשנית ובאימייל ששלחתי לרשימת התפוצה תמהתי על הכתיב Bubby לעומת Zadie – שתי המילים מגיעות מיידיש, שתיהן מסתיימות באותו צליל ולמרות זאת אחת זכתה לסיומת y בעוד השניה לסיומת ie. למה? ככה! ענו לי. כלומר ענו שזה לא משנה, אפשר כך או כך וזו סתם הטרנסליטרציה של כותב המייל.
אבל לי, אובססיבי שכמותי, זה לא הספיק. הכתיב Bubby and Zadie הרגיש לי נכון יותר, בדיוק כמו לבן-דוד שכתב את המייל, כלומר יש כאן תופעה קוגניטיבית מסקרנת שדורשת מידול.
ראשית חכמה ניסיתי להראות שאכן, הכתיב ה"נכון" הוא Bubby and Zadie ולא נאמר Bubby and Zady, Bubbie and Zady או כל קומבינציה אחרת. בשביל להוכיח דבר שכזה אפשר להשתמש במדד הסטטיסטי (תורת האינפורמציה) שנקרא pointwise mutual information (או specific mutual information). המדד הזה מאפשר לגלות קשרים בין שתי מילים (= שני משתנים מקריים) ולראות אם הקשר בינהם חורג מהמצופה.
בבחירה בשימוש בPMI יש כמה וכמה בעיות. קודם כל אני מניח כאן שהמילים סבא וסבתא יופיעו בקונטקסט משותף, ולכן עבור משתנים מקריים B ו-Z, הערכים ה"נכונים" (למשל bubby ו- zadie) יקבלו ערך PMI גבוה יותר מאשר שתי מילים שגויות (למשל bobi ו-zedi). ההנחה הזו היא די סבירה אם כי לא בביטחון של מאה אחוז.
אבל הבעיה העיקרית היא שאין לנו נתונים על שכיחויות המילים האלו וכך אי אפשר לחשב את הנוסחא. וכאן גוגל בא לעזרה עם שיטה שקראתי מזמן במאמר של אנה-מריה פופסקו ואורן עציוני מאוניברסיטת וושינגטון (EMNLP05) – במקום שכיחויות אפשר להשתמש בתוצאות של גוגל. זה הורס חלק מהתכונות המתמטיות היפות של נוסחת האינפורמציה אבל זה נותן אינדיקציה טובה לקשר בין מילים.
התוצאות הרי הן לפניכם בטבלה הבאה (+"" מציין שאילתת גוגל מדוייקת, וno "" מציין שאילתה חופשית):
שוד ושבר מסתבר שהנטייה שלי (ושל הבן דוד) בכלל לא נכונה ושהכתיב הנפוץ הוא דווקא bubbie and zadie. מצד אחד, זה כבר פחות מעניין – אלו שתי מילים שמסתיימות באותו צליל ומקבלות את אותה סיומת גם בכתב. מצד שני – מה פתאום הן נכתבות עם ie ולא עם y כמקובל באנגלית. מה גרם להמוני מהגרים יהודים לעשות טרנסליטרציה לצורת כתיב מסורבלת יותר?
אם קראתם עד כאן תשמחו לגלות שיש לי השערה. לא מבוססת, כמובן. יידיש עסיסית היא שפה מלאת דיפטונגים. אני מהניח שההגיה האידית המקורית הכילה גם איזה שמץ של אנחה נוסטלגית (מישהו כאן דובר יידיש?) שבוטאה בכתיבה על ידי ie ולא על ידי y סתמי (בחלק מהדיאלקטים בכלל אומרים בּוֹבֶּה א-לה בּוֹבֶּה מַייסֶעס). עם הזמן התרחקה ההגיה מהיידיש המקורית ועצלנות, יעילות וחוסר ידיעת השפה הובילה לדיבור סתמי שנשמע כמו y, אבל הכתיב, תמיד שמרני יותר מההגיה, נשאר כשהיה. זו כמובן תיאוריה מצוצה מן האצבע, ובכל זאת, עד שלא תפריכו אותה אני נשאר עם סיפורי הסבתא שלי.
—————
[תוספת מאוחרת: קצת אינטרוספקטיבה - בתגובות למטה (לכו תקראו) העיר לי שחר ש-PMI הוא לא המדד הנכון כאן ולמעשה מספיק (וצריך) להסתכל רק על השכיחויות של הביטויים המדוייקים ("bubby and zadie", "bubbie and zadie" וכו'). אני חושב שהוא צודק בהערה שלו וביום האחרון ניקרה לי בראש השאלה מה פתאום קפצתי להשתמש ב-PMI, אחרי שכבר בדקתי גם את השכיחויות של הביטויים המדוייקים (שב"מ). או בניסוח כללי יותר - מתי להשתמש ב-PMI ומתי לא?
אז למה בעצם PMI - התשובה הראשונית, אם לגלוש לפסיכולוגיה, היא כנראה שבגלל שהשכיחויות של השב"מ נתנו תוצאה שונה מהציפיה שלי ולכן ניסיתי גם מדד אחר. בסדרות ניווט קוראים לזה "לאנוס את השטח" וזה ביג נו-נו שאדם עם שאיפות מדעיות אסור לו שיבצע. מאידך, כשגם ה-PMI נתן את אותן תוצאות מיהרתי לשנות את הדעה ולהיכנע לסטטיסטיקה. לפחות זה.
התשובה השניה והמדעית יותר היא שזו סתם טעות בשיקול הדעת - טעות של מהירות. אם בובי וזיידי היו סתם מילים קשורות אבל כאלו שלא מהוות ביטוי ("סבא וסבתא") אז אולי היה נכון יותר להשתמש ב-PMI. הסיבה שאפשר לוותר כאן על ה-PMI היא שהשב"מ הנכון מהווה ביטוי שלם ולכן אפשר לחפש פשוט את השכיחות שלו, בלי התחכמויות סטטיסטיות מיותרות.
טעות (?) שלישית היא שבדיקה לפי PMI יכולה להתאים כאשר בודקים מגוון של קשרים בין מגוון מילים (משתנים). כמובן שיכול להיות שלאחדים מהמילים יש משמעויות נוספות ולכן יש להם יותר מופעים ואלו יטו את התוצאות, אבל אם אנחנו מנסים את זה על הרבה מאוד צירופים, מספר ההטיות יהיה יחסית נמוך (כך יש לקוות). כלומר יכול להיות שפשוט לא היה לנו מזל עם המילים הספציפיות האלו (bubby, zadie). קורה.
אני מניח שאם אחשוב עוד אוכל גם לתת עוד איפיונים. אל תבנו על זה.]
———
עוד על טרנסליטרציה במוזיקה, תעתיק ומערכות לומדות.

מסתבר ש"bubbie and zadie" זה קצת מותג. יש איזה ספר או סדרת ספרי ילדים כזו (לא ממש היה לי כוח להתעמק), כך שמאוד יכול להיות שכל ההטיה המובהקת לכאורה של גוגל נובעת מבחירה אקראית אחת של הוצאה לאור.
אני, אגב, נטיתי לבחירה שלך, ככל הנראה בדיוק מהסיבה שבגללה התבלבלת במקור. אני מיישם על המלים האלה במשמעות ה"חדשה" שלהן את הכתיב שמוכר לי מהשמות Bobby ו-Zadie
שחר
יוני 25th, 2008
עוד נקודה מעניינת (וחצי פיתרון לשאלתך): הכתיב העברי למילים אלו, אם אני לא טועה, הוא: בובע, זיידע (ו' לציון חולם, יי' לצירי, ו-ע' לסגול). בהברה הסטנדרטית (הברה "אשכנזית") הצירי הוא דיפתונג של סגול וחיריק (שומעים יו"ד אחרי הסגול, כמו בקריאה: הי! בצירי).
צורת קריאה אחרת היא זו שמכונה "הברה חסידית" (בדר"כ מפולין והונגריה) בה הצירי הופך לפתח (אך עדיין גורר אחריו הברת יו"ד!) וחלק מהקמצים הופכים לשורוק. הסגול, מצידו, מתקרב אל הצירי הרגיל (הכללים, אם אפשר בכלל לנסח כאלו, די מסובכים, ויש כמה תת-דיאלקטים, אבל זה בגדול).
אנו רואים שבקרב דוברי האנגלית נקלטו המילים בהגייתן ה"חסידית" (הגיוני מאוד בהתחשב בכך שזו עיקר האוכלוסיה ששימרה את האידיש בארה"ב).
יש כאן שילוב של מרכיב נוסף. את הu של בובע אני מניח שמבטאים כפתח. כאן נכנס עיוות קל של המילה כדי להוסיף מימד אישי (דומה להבדל בין אב ו-אבא, אם ו-אמא, סב ו-סבא וכו') וקצת "חמידות" ילדותית. זו גם חלק מהסיבה לסיומת שהשתנתה מסגול לחיריק. לעומת זאת, במילה זיידע, השינוי של הצירי לפתח גורר שינוי מסוים של הסגול בסוף המילה לחיריק, גם בלי אפקט ה"חמידות" הנ"ל. (אני לא בטוח באמירה האחרונה, אבל כך הרגשתי). לכן אין y/i אחרי הa, כי היו"ד מגיעה אוטומטית מתוך שינוי הצירי לפתח, ויש ענין להדגיש את החיריק שבסוף כי הוא יותר "אמיתי" מאשר זה של בובע שנוצר מסיבות אחרות.
שוב, אני מניח שגם את הa בזיידע קוראים בפתח, ושוב ההבדל בינו לבין הu של בובע מגיע מכך שבזיידע הוא נובע מצורת הגייה כללית, ובבובע הוא נובע מ"חמידות".
(מקווה שיצא מספיק ברור.)
יחזקאל
יוני 25th, 2008
שחר -
אתה צודק וה"מותג" הזה קצת מטה את התוצאות, אבל:
1. הכתיב של המותג הזה (ספר) מהווה אוטוריטה מסויימת, כלומר יש כאן ספר שעבר הגהה ואת כל מדורי השיווק ונבחר למתג אותו עם ie. כלומר, בהנחה שהכתיב בשם לא נבחר באקראיות, זה מחזק את הטענה.
2. אמנם יש מותג כזה ובדיוק בשביל זה משתמשים בPMI - במכנה מנרמלים (בערך) לפי מספר המופעים הבלתי תלויים (בערך) כלומר מחלקים גם בכל המופעים של ה"מותג".
אבל, שחר, מאוד אהבתי את ההסבר הפשוט שלך שאנחנו פשוט מיישמים את התבנית המוכרת של השמות (Bobby ו- Zadie) על המילים סבא וסבתא. למה השמות נכתבים כך זו שאלה אחרת אבל היא כבר מסדר שני או שלישי ולא רלוונטית לסבא וסבתא. אני אוהב הסברים פשוטים. שיחקת אותה
יחזקאל-
יצא ברור. לחלק מזה התכוונתי בפסקה האחרונה ותודה על ההרחבה.
אורן
יוני 25th, 2008
ועוד על המותג:
הספר הזה הוא די מדהים מבחינה סוציולוגית עד כדי כך אשני שוקל לקנות אותו. הציורים הם ללא ספק בהשראת שאגאל שאין יהודי-נוסטלגי ממנו והסיפור הוא ממש בהשראת סנטה קלאוס. סבא וסבתא (סליחה, בובי וזיידי) מגיעים בריחוף ביום הראשון של חנוכה ומביאים סיפורים והפתעות. לא מספיק סנטה? הם מגיעים מהמתפרה שלהם באלסקה שבצפון והם מבטיחים להופיע בכל שנה.
הצעה לשם לספר ההמשך: מי הזיז את החנוכה-בוש שלי?
אורן
יוני 25th, 2008
[…] כאן « בראשית היתה המילה […]
גם-שם » בּוֹבִּי וזֵיידִי
יוני 25th, 2008
אני לא בטוח אחרי עוד קצת מחשבה שהשימוש ב-PMI כאן הוא מוצדק, נראה לי שמספר המופעים של הביטויים המדוייקים הוא קריטריון מוצלח יותר, במיוחד בהתחשב בעובדה שברור לנו לפחות לגבי שלוש מארבע המלים שתשעים וחמישה אחוזים או יותר מהמופעים שלהן לא קשורים למשמעות המדוברת.
רק כדי להקצין, נניח שהיה נמצא מישהו אחד שהיה כותב דווקא bbabbi and zeyddi די ברור שה-PMI שלו היה גבוה להחריד (בהנחה שהצלחתי למצוא איותים שאין להם משמעות אחרת, די התעייפתי אחרי כמה נסיונות).
שחר
יוני 25th, 2008
כמובן שבדקתי גם את מספר המופעים המדוייקים (תראה בטבלה) וגם שם bubbie and zaddie לוקח בגדול. אבל רציתי להכליל בבדיקה גם את הדפים בהם המילים לא מופיעות כביטוי רצוף אלא מדברות על סבא וגם על סבתא כי חשבתי שאולי הם ישנו את התוצאות (מסתבר שיש כאלו פי שלושה מאשר הביטוי הרצוף). אבל בדיוק בשביל ביקורות כאלו (שאני שמח לקבל) שמתי את האקסל as is - אולי מישהו יראה נתונים שחמקו ממני.
לגבי ההערה שלך על איותים מוזרים - בשימוש בגוגל יש הנחה מוקדמת שלאיותים מוזרים לא תהיה נוכחות סטטיסטית גבוהה וכמובן שאני לא מעלה אותם בתור אופציות לניסוי. אם הייתי בודק את כל ההשילובים של הטרנסליטרציות האפשריות אז כנראה שהיו כמה מקרים מוזרים שהיו מקבלות ניקוד PMI גבוה.
בניסוח קצת יותר סטטיסטי - קודם צריך לסנן רעש ו outlliers ואת זה צריך לעשות באמצעות ספירת מופעים.
אבל אני לא בהכרח מסכים עם הטענה ש"לפחות לגבי שלוש מארבע המלים שתשעים וחמישה אחוזים או יותר מהמופעים שלהן לא קשורים למשמעות המדוברת". כלומר זה יכול להיות נכון אבל קשה מאוד לבדוק את זה (אני מניח שהרבה אנשים כתבו רק על הסבתא שלהם ולא מעט אנשים רק על הסבא).
אני מסכים לחלוטין שהשיטה הזו קצת גסה, אבל היא נותנת אינדיקציה טובה.
עכשיו, יש עוד בעיה עם גוגל שמנסים להיות מתוחכמים ולתת גם תוצאות דומות. למשל, אין אף תוצאה ל "bobi and zedi"
(יש ~1500 תוצאות בלי המרכאות והמוני תוצאות לכל מילה בנפרד) ואז גוגל משנים את השאילה ומחזירים תוצאות גמישות יותר.
אורן
יוני 25th, 2008
ראיתי שבדקת את מספר המופעים המדוייקים כמובן, ואני טוען שהוא האינדיקציה החזקה יותר כאן.
אבל בוא נניח לרגע שהאיותים bubby ו-bubbie היו מקובלים באותה מידה, רק ש-bubby מה לעשות היא גם מילת סלנג (בחיים לא שמעתי עליה עד היום) לחזה הנשי, במקרה כזה ה-PMI של bubbie and zadie היה עולה באופן מלאכותי.
שחר
יוני 25th, 2008
קודם כל, סטטיסטית, אתה צודק. אני מקבל. ועדיין חיפשתי גם אינדיקציה לפי הקשר בעמוד ולא רק לפי סמיכות קרובה.
ובהערת אגב, סטטיסטיקה של שפה תמיד מפתיעה ואחת הבעיות המרכזיות היא שאנחנו לא תמיד יודעים להעריך תלות/אי-תלות של משתנים (למשל, בגלל תופעות של כפל משמעות של מילה)ולכן הרבה מהמדדים הם בעייתיים.
נ.ב. חזה נשי - אני חושב שהסלנג מבוטא בּוּבִּי ולא בּוֹבּי - מין טייק-אוף על המילה boobs. אבל ממילא אנחנו מתעניינים בכתיב.
אורן
יוני 25th, 2008
[…] מי הבוס? Yahoo BOSS – Build your Own Search Engine בראשית הייתה גוגל. לא באמת. בראשית הייתה דווקא יאהו – מנוע החיפוש הראשון שלי, אבל אקדמית, גוגל did no evil ואפילו עשו טוב וצ'יפרו את קהילת המפתחים והחוקרים במפתחות ל-API שלהם. המפתחות איפשרו לשלוח שאילתות לחיפוש ישירות מהקוד ולעשות כל מיני דברים מעניינים עם התוצאות. למשל משחקי PMI למבצע סבתא. […]
מי הבוס? Yahoo BOSS – Build your Own Search Engine
ספטמבר 10th, 2008