דרכן של מהפכות, גם המוצלחות שבהן, הוא שאי אפשר לחזות את סופן ויעידו על כך אין-ספור מהפכות השחרור האפריקאיות בהן הודח רודן אחד על ידי משחרר המונים שהפך בתורו לרודן גרוע יותר מעין "אבי ייסר אתכם בשוטים ואני אייסר אתכם בשוטים ועקרבים". היום נפל דבר בשוק הגאדג'טים הישראלי וחברת 'ידע' איבדה את הזיכיון שלה למוצרי אפל ('מכרה' את הזיכיון הוא תיאור מדוייק אבל 'איבדה' מוסיף כאן נופך דרמטי שמשרת את המהפכה). אין ל'ידע'הרבה אוהדים, כמו שאפשר להתרשם מהטוקבקים בדיווחים השונים ומהפורומים הדנים במוצרים של אפל. הכעס האישי שלי על ידע נובע מהניסיון שלהם למכור בכסף מלא את עדכון העברית לאייפודים שנקנו בחו"ל, אבל יותר מש'ידע' תאבי הבצע אשמים במחדל אני עצבני יותר על אפל העולמית שלא סיפקה עדכוני שפה ללקוחות ברחבי העולם ולא הכריחה את הזכיינים השונים לספק עידכון כזה בחינם – מהלך מתבקש כשירות ללקוחות שקנו מכשיר במאות דולרים. כך נאלצו משתמשי האייפוד העבריים לראות את שמות השירים העבריים שלהם מוצגים כג'יבריש או כשורה ריקה – דבר שמונע מהמשתמש לחפש ולנגן שיר אהוב.
החסך בתמיכה עברית לאייפוד בשילוב עם הקמצנות הטבעית שלי וקמצוץ של אספירציות מדעיות הביאו אותי לחיפוש פתרונות אחרים ופשוטים. אני לא מבין בחומרה וגם לא מכיר את הקוד והממשק של האייפוד אבל אני מבין קצת בבלשנות חישובית וכך חשבתי על כתיבה והפצה חופשית של תוכנת העתקה (מלשון תַּעְתִּיק - טרנסליטרציה) שתהפוך את שמות השירים, האמנים והאלבומים מעברית לאנגלית בצורה אוטומטית. הוי התמימות! בדיוק כמו בנושאי המחקר לדוקטורט כל נושא פשוט שאני נוגע בו הופך תחת ידי לעסק מסובך עד לא פתיר – כזהו סיפורו של התעתיק מעברית לאנגלית.
תעתיק, למי שלא סגור על ההגדרה, הוא המרה של סימני כתב בשפה אחת לסימנים בשפה אחרת. להבדיל מתרגום, תעתיק שומר על הצליל ולא על המשמעות ולכן רלוונטי בעיקר להמרת שמות אבל גם, בין היתר, למערכות דיאלוג ממוחשבות.
(זה אולי זמן טוב להבהיר לקוראים שהגיעו דרך מנועי החיפוש בחיפוש אחר תמיכה עברית לאייפוד שאין כאן פיתרון ממשי. בלי אחריות הייתי מפנה אתכם ל-HebPod אבל האתר נסגר. על בעיות אחרות של ניהול אייפוד ואייטונס תוכלו לקרוא ברשימה ישנה שלי – מה שאפל לא רוצים שתעשו)
טייק 1
הרעיון הראשוני היה פשוט לנסח ולקודד כמה כללים לתיעתוק – באופן דומה לאלגוריתם מציאת השורש (stem) של פורטר. גם הסְטֶמֶר של פורטר ( ידוע כ- Porter stemmer) לא נותן תוצאות אופטימליות והשורשים שהוא מוצא הם מוזרים לעיתים אבל הוא טוב מספיק בשביל לשמש כסטנדרט בתעשייה.
כך נהפוך את מאיר אריאל ל- meir ariel ואת רונה קינן ל- rona kenan ובא לציון גואל.
אבוי – נוכחתי לדעת שניסיון למציאת כללים, בלתי מושלמים ככל שיהיו, להמרה של עברית ללא ניקוד לאותיות לטיניות הוא מאמץ חסר תוחלת ואילו המרה ללטינית ללא אותיות הניקוד יוצרת צירופים שוברי שיניים וג'יברשיים לא פחות מהג'יבריש המקורי. נראה שניסיון נאיבי נטול אותיות ניקוד נותן את התוצאות הטובות ביותר, למשל את mair arial כתעתיק סביר למאיר אריאל, בעוד rone kinn היא רונה קינן. עכשיו תנסו 'לנשום בספירה לאחור'.
תעתיק עברי-לטיני
עברית היא שפה קשה לתיעתוק. זה לא רק המחסור בניקוד הפשוט אלא גם אותיות כפולות ומילות יחס משורשרות. האם 'שבת' תהפוך ל-shabbat או ל- shabbath ואולי בכלל רק עם בי אחת? ומה עם 'ואולי' ve-ulai, v’ulai, ve-ulai, veula’i או אולי v’uly (או כל אחת מהקומבינציות שאפשר ליצור מהאפשרויות לעיל).
כמובן שאפשר להתגבר על מרבית המחסומים בעזרת כללים מוסכמים. אבל לכל כלל יש הרי יוצא מן הכלל. הקליקו להסבר ארוך יותר על בעיות הטרנסליטרציה העברית (ויקיפדיה).
שיעורי בית: ילדים יקרים - האם תוכלו לספור בכמה דרכים שונות כתוב (באנגלית) שם העיר פתח תקווה על השלטים הרשמיים של מדינת ישראל התלויים בצידי הדרכים הבין-עירוניות (כן, אלו השלטים הירוקים הגדולים)? נדמה לי שבאחד מהשלטים כתוב petach tiquwa.
טייק 2
כיאה וכיאות לדוקטורנט שמכלה את זמנו בהסחות מהמחקר העיקרי התחלתי לקרוא קצת על טרנליטרציה. מסתבר שיש לא מעט מחקר בתחום (זה מועיל לאליינמנט בתרגום ממוחשב ובכריית מידע ושימושי ביישומי מודיעין כמו בניית מפות של רשתות חברתיות [link analysis]. שימו לב לכמות המאמרים האקדמיים העדכניים [אחרי ה-11 בספטמבר] על arabic english transliteration. תתעלמו מהמשפטים האחרונים אם אתם לא בעניין של עיבוד שפה). ההצלחות המדוווחות במחקרים האקדמיים הן מוגבלות מאוד (אחד החוקרים המובילים בתחום הוא Grzegorz Kondrak שם בילתי ניתן להגייה ולתיעתוק כאחד).
הגישה העיקרית לטרנסליטרציה היא בעזרת למידה חישובית. כמו בהרבה בעיות בלמידה חישובית, אחת המגבלות הגדולות הוא היעדר של דטא, במקרה דנן אלפי זוגות של מילים עבריות והתעתיק הלטיני שלהן שיהוו את הבסיס ללמידה ויאפשרו למחשב ללמוד בעצמו כללי תיעתוק על מנת ליישם אותם על מילים עבריות חדשות.
וכאן בא מקומם של הכנסים. אחרי הרצאה פסימית של אותו גרזגורץ קונדרק, בעודי יושב בהרצאה בכנס ה-ACL, בוהה-הוזה באיזה סיני לא מובן ומשרבט רעיונות במחברת נפל לי האסימון. יש דטא מוכן לטרנסליטרציה כמעט מכל שפה לאנגלית. גרייסנוט (gracenote לשעבר CDDB) בסיס הנתונים המוזיקלי שמשמש את אייטונס ואת שאר הנגנים כבר מחזיק זוגות-זוגות של שמות המבצעים, האלבומים והשירים בשפת המקור, באנגלית וגם, לפעמים, בתעתיק לטיני ווהנה אוסף גדול של דוגמאות לאימון המערכת הלומדת. כמקובל במערכות מדעיות שכאלו - אפילו מגוון שֶמות קליטים למערכת מבוססת המוזיקה הגיתי לי - מֶט (MHET – Music-Based Hebrew Transliteration), או גֶט (GHET – Generative Hebrew Transliteration , לא ברור מה עניין גנרטיבי לרעיון הלמידה החישובית הזה, אבל אצל החומסקיאנים גנרטיביות תמיד הולכת טוב עם שפה).
למעשה זה לא כל כך פשוט ובדטא המוזיקלי יש לא מעט רעש. ראשית, לא ברור האם יש אחידות בתעתיק. חוסר אחידות יכול לבלבל את המערכת ולמנוע למידה יעילה ונכונה. שנית, מן הסתם יש הטיה סטטיסטית לכיוון מילים והברות מסויימות. יש להניח, למשל, שבבסיס נתונים מוזיקלי המילה 'אהבה' תופיע בשכיחות גבוהה יחסית. האם זה ישפיע על הלמידה? כמה זה ישפיע? האם צריך לחלק להברות או שאולי רצפי תווים מספיקים. האם כלי התעתיק שילמדו עומדים בפני עצמם או שהם מושפעים מההברות השכנות (סביר להניח) ולכן צריך ללמוד שרשראות מרקוביות? ומה על האליינטמט (alignment) של ההברות של המילה? כלומר כנראה שבעיית המחסור בדטא תיפתר על ידי שימוש בבסיסי נתונים מוזיקליים אבל עבודה עדינה עוד יש לא מעט. "מעניין, אולי שווה לנסות" אמרו לי בכנס כמה אנשים שהצעתי להם את הרעיון. "תעזוב את זה ותתרכז בדבר האמיתי - בתזה שלך" אמר לי המנחה כששטחתי בפניו את הרעיון.
אז הנה אני מביא כאן את עיקרי הרעיון, אולי בטעות יקרא כאן מישהו שירצה לנסות את זה כפרוייקט סיום, כסמינר או כ(חלק העיקרי מ)תזה לתואר שני. באופן אישי אין לי זמן לפתח וליישם את המערכת אבל אני אשמח לענות על שאלות, לעזור ולחלוק תובנות. ואם לא ייצא מזה כלום אז הנה עוד פוסט, אחד מני רבים, שנזרק לחלל הבלוגוספירה והתפוגג אל האין.
ואולי, איי-דיגיטל, הזכיינים החדשים של אפל ירימו את הכפפה וישחררו עידכון תמיכה בעברית ויחסכו את נסיונות הסרק החבויים באיצטלה מדעית (לא באמת).
ובנימה אישית:
הבלוג החדש הזה עושה את צעדיו הראשונים, מועד קדימה, נופל על התחת ובעיקר מגשש את דרכו אל עבר הקוראים. אני מנסה ללכת כאן בין הטיפות – ביןפוסטים מקצועיים ופחות מובנים לקהל הרחב (אבל כמה בלשנים חישוביים כבר יש בארץ) לבין פוסטים פופולריים, אם גם בצד התובעני של הסקאלה הפופולרית. תרגישו חופשי להתלונן או לכוון, לקלל על הקריפטיות של הפוסט או למחות על השיטחיות. ואם יש לכם בכיס איזה חבר בלשן חישובי או סתם חובב מחשבים או שפה שיגלו עניין בפוסט הזה או בבלוג כולו – אנא - שילחו אותם אלי (בראש הבלוג משמאל אפשר להרסם לרסס או לקבלת עידכונים באימייל).

בהרצאה הזו יש הדגמה נהדרת לשימוש במשחקי רשת כדי לבנות בסיס נתונים עבור מערכות לומדות.
נראה לי אפשרי בהחלט לתכנן משחק טרנסליטרציה. אולי אחרי שאני אתעורר.
ישראל
אוקטובר 2nd, 2007
הלינק לא עבד.
http://video.google.com/videoplay?docid=-8246463980976635143
ישראל
אוקטובר 2nd, 2007
יש איזו בעיה בהשארת לינקים בתגובות. אני צריך לבדוק אם זה באג במנגנון התגובות המשורשרות או מנגנון הגנה בספאם בתגובות ובכל מקרה, זה די מעצבן.
אורן
אוקטובר 2nd, 2007
אכן זו כנראה הייתה בעיה במנגנון התגובות המשורשרות. עכשיו הלינקים פועלים.
ואגב, יופי של לינק _:-)
(הסרטון קצת ארוך, ואני אצפה בכולו יותר מאוחר)
אורן
אוקטובר 2nd, 2007
יש פה שתי שאלות - אחת, מהם התעתיקים האפשריים תאורטית למילה עברית, והשנייה היא מהו התעתיק הנכון.
את השאלה הראשונה נראה לי שלא קשה במיוחד לפתור, (למשל, לקבל "מאיר" ולהוציא meir, mair, meayar וכו'). את השנייה - בלתי אפשרי, הרי גם אדם לא יידע להגות שם לא מנוקד לא מוכר.
ד.ט
אוקטובר 2nd, 2007
אני לא משוכנע ששתי השאלות האלו רלוונטיות. בכל מקרה של למידת מכונה מילת המפתח היא נכונות ב*רוב* המיקרים ולא בכולם.
בכלל - השאלה "מהו התעתיק הנכון" לא כל כך חשובה כמו "מהו התעתיק המוסכם". והרי אפשר להגדיר כללי תעתיק מוסכמים לכל מקרה אפשרי.
לגבי השאלה השניה - זה נכון שאדם לא תמיד יודע להגות שם לא מנוקד ולא מוכר אבל במיקרים רבים הוא כן יודע להגות אותו. אתה קורא ספר ורואה שם לא מוכר ובד"כ יש לך מין "תחושה" איך להגות את השם הזה. התחושה הזו מבוססת על ניסיון וזה מה שננסה ללמד את המחשב. יש מרווח טעות מסויים שנוכל לסבול גם אצל בני אדם וגם אצל מחשבים.
בתאוריה של למידה חישובית מקובל לטעון (יש לזה הוכחה - PAC: http://en.wikipedia.org/wiki/Probably_approximately_correct_learning ) שאפשר להגביל את מרווח הטעות כפונקציה של מספר הדוגמאות. באופן פשוט - אם הראינו למחשב את כל הזוגות ה":נכונים" האפשריים כך שבעצם לא נדרשת שום הכללה אז הטעות היא אפס.
אורן
אוקטובר 3rd, 2007
אכן, כוונתי היתה לתעתיק המתאים להגייה על פי מוסכמות כלשהן.
אני לא בטוח שיש לאדם תחושה במקרה הכללי. ראה למשל את האות ו"ו שיכולה להיות O או U. פה ושם אפשר לנחש (נניח, בסיומת כמו OV לשם רוסי) אבל באופן כללי, ובמיוחד בשפה לא מוכרת, סתם מהמרים.
ראה למשל את הרשימה הבאה של שחקני קולנוע הודים (מוויקיפדיה). פרט לשמות מוכרים כמו סלמן, אתה חושב שתוכל לנחש נכונה את ההגייה (אני מניח פה שאינך מומחה לקולנוע הודי)?
* אמיטאב באצ'אן
* מדהורי דיקסיט
* פריטי זינטה
* אמיר ח'אן
* סלמן ח'אן
* שאהרוח' ח'אן
* ראווינה טנדון
* המה מליני
* נרגיס
* ג'והי צ'אולה
* מיתהון צ'קרבורטי
* קאג'ול
* קאריסמה קאפור
* ראג' קאפור
* אקשאיי קומאר
* אישווריה ראי
* רקהה
* שילפה שטי
ד.ט
אוקטובר 3rd, 2007
אבל זה בדיוק העניין - אני לא מומחה אבל לו הייתי מומחה אז הייתה לי תחושה. בדיוק כמו שלך יש תחושה לשמות אנגליים ותחושה קלושה מעט יותר לשמות רוסיים.
ושוב, אם בלמידה עסקינן אז יש מגבלה של הדומיין, מה שמכונה בעיה של דומיין אדפטיישן, כלומר ברור שאם אימנת את המערכת על שמות עבריים אז היא לא תהיה מוצלחת לשמות מדומיין אחר - למשל שמות הודיים.
(האמת, זה רעיון לסדרת פוסטים על למידה חישובית בכלל ועל דומיין אדפטיישן בפרט, רק שאז נראה לי שאני אאבד גם את מעט הקוראים הסבלניים שעוד ונתרו כאן).
אורן
אוקטובר 3rd, 2007
מאז שעברת לאתר החדש יש בעייה לקרוא את הפוסטים שלך בפיירפוקס. הגרשיים, הפסיקים ובעיקר הסוגריים לא מוצגים כיאות.
הילל
אוקטובר 7th, 2007
טוב, אז אתה מניח, שהתוכנה תדע באיזו שפה נכתב השם? זו בפני עצמה משימה קשה.
כמו כן, גם אדם שמכיר שמות רבים, עדיין יזדקק לניחוש (ויטעה) בחלק ניכר מהמקרים שאינו מכיר.
ד.ט
אוקטובר 7th, 2007
מה שניסיתי לומר, שהאדם מסתמך יותר על היכרות מוקדמת עם השם מאשר על כל דבר אחר, כשהוא בא לקבוע את ההגייה.
ראה את זוגות השמות העבריים "נדב" ו"נגב", "נגר" ו"נגב", "צור" ו"דור". מלבד היכרות מוקדמת, איך אפשר לדעת שנדב זה NADAV ואילו נגב זה NEGEV? (מה שכן, צורות כמו NADV שאפשריות תאורטית, נפסלות אוטומטית אם מזהים שמדובר בשם עברי).
ד.ט
אוקטובר 7th, 2007
ודבר אחרון, השאלות מה מקור השם ואיך הוגים אותו כרוכות זו בזו.
למשל, ייתכן ששם על משקל "רוסו" ייהגה אחרת אם הוא איטלקי (Rosso) או צרפתי (רוּסוֹ). בשביל להחליט איך להגות צריך להחליט מה השפה, ולהיפך.
יאללה, גם לי יש מה לעשות.
ד.ט
אוקטובר 7th, 2007
הילל -
דווקא האקספלורר עושה קצת בעיות. באיזו גירסה של FF אתה משתמש? גם אני משתמש בFF (מוזילה 5.0 Gecko/20070914 Firefox/2.0.0.7) ואצלי זה נראה בסדר. אני אשמח לבדוק ולראות אם אוכל לסדר את התאימות.
ד.ט -
אתה צודק בערך במליון אחוז וזו בדיוק הבעיה וזה גם האתגר - מה גם שלא שואפים למאה אחוזי הצלחה.
לגבי זיהוי שפת הכתיבה - זה לא מסובך במיוחד ואפשר לעשות את זה בדיוק די מרשים (בהינתן שהשם מופיע כחלק מטקסט).
לגבי הרוסו האיטלקי והצרפתי - זו אכן בעיה, אבל נראה לי שיש דרכים להתגבר גם עליה בצורה מספקת.
וסתם - נראה לי שרוֹסוֹ האיטלקי (במילעיל ומשיכה של הס') ורוּסוֹ הצרפתי (מילרע) מגיעים מאותה מילה - אדום/אדמוני (יעני מין קוגנטים) - את שניהם הייתי "מתעתק" ל-ג'ינג'י.
אורן
אוקטובר 7th, 2007
היי, יופי של פוסט, וגם על נושא שבדיוק חזרתי קצת להתעסק בו שוב.
אז קודם קודם מהאופטופיק — משחקי הרשת של ואן-אהן (והא לך דילמת תעתיק): משחק תיעתוק לעברית לא יעבוד, מהסיבה הפשוטה שהמשחקים האלו משעממים רצח. זה אולי עובד איכשהו על כמה אמריקאים תמוהים/משועממים, אבל קשה לי לדמיין את זה ממריא עם קהל ישראלי.
עכשיו, לעצם העניין:
אני חושב שגם ב-PAC כדי שלמידה תתכנס צריך שהקבוצות יהיו ניתנות להפרדה. כשזה נוגע לתעתיק (או שפה בכלל, אבל נעזוב את זה כרגע) הדרישה הזו לא מתקיימת — מחוץ להקשר גם Mayer וגם Meir הם תעתוקים טובים עבור 'מאיר'. בתוך הקשר, אני מכיר מעט מאד אנשים (אממ.. בעצם אחד) שיאייתו באופן הראשון.
להשתמש בCDDB עבור כמאגר ללימוד תיעתוק שמות זה יופי של רעיון! (אגב, באופן דומה, מה לגבי כתוביות פיראטיות לסרטים כקורפוס מקבילי ללמוד תרגום?)
ו - דבר אחרון — שיחקתי פעם קצת עם נושא קרוב קרוב רחוק — כיצד לזהות מילים לועזיות בטקסט עברי. כלומר, המילים 'אדפטיישן' או 'טרנליטרייט' או 'אליינטמט' הן בלי ספק לא בעברית. 'כלב', 'חתול', 'טרנסליטרציה' הן כן. משהו בצלילים. האם ניתן לכתוב תוכנה שתדע להבחין בכך? ניסיתי. אחת הגרסאות היותר מוקדמות (מודל לא משהו..) נמצאת ברשת: http://www.ygyg.net/cgi-bin/decider_cgi.pl?
(הקידוד של העמוד אמור להיות cp1255). כולכם מוזמנים לשחק.
יואב
אוקטובר 9th, 2007
הסמיילי אמור היה לחייך ויצא עצוב. חבל.
יואב
אוקטובר 9th, 2007
יואב-
הסמיילים כאן זו אחתהבעיות של התמיכה בעברית - הם תמיד יוצאים הפוכים.
שיחקתי קצת עם האפליקציה שלך. חמוד מאוד. כמובן שניסיתי להיות נבזי עד כמה שאפשר ולכן ניסיתי את המילים {טלפון, טלוויזיה, טלביזיה, מוניטור, אחשדרפנים [מילה פרסית, מופיעה פעם אחת בתנך], מניאק, ספיקר וספיקרים). יצא מעניין
אבל לגוף העניין זה נכון שבראייה רחבה בעיית התעתיק לא ניתנת להפרדה, אבל מה שזה אומר זה שלא ניתן יהיה לצמצם את הטעות כראות עינינו גם אם נוסיף עוד ועוד דוגמאות, אלא אם קבוצת השמות (או הזוגות) היא סופית. אם הקבוצה סופית אז הבעיה לא כל כך מעניינת, אבל גם אם היא לא סופית ניתן יהיה ללמוד בצורה סבירה (זו תחושה בקשר לבעיה הזו ספציפית, או שאני טועה כאן). בכל אופן - הייתי מכניס אילוץ של קומפקטיות, ואני אנסח אותו בחופשיות ללא מחשבה מעמיקה - "בתיעתוק ללא הקשר בחר באופציה הקצרה" וכך מאיר יהפוך לmeir ורוסו יהפוך ל-ruso (נניח).
זה גם נראה לי סביר אינטואיטיבית, כלומא אולי זה מה שאנחנו עושים כישראלים - למה נראה לך שרוב האנשים יבחרו ב-meir על פני mayer?
(בעצם, אולי כי 'מאיר' שכיח יותר מ'מָאייר').
אורן
אוקטובר 9th, 2007
לא צריך להיות נבזי במיוחד כדי לקבל תוצאות מעניינות — נסה 'הד', 'בד', 'היברו'.
ולעניין ההפרדה — טלפון היא בדיוק אחת המילים שנמצאות בראייתי על גבול הבלתי ניתן להפרדה במקרה של הבעיה שאני מנסה לפתור, שכן מבחינה צלילית המילה מתאימה גם לכאן וגם לכאן. מצד שני 'טלפונים' נשמע כבר עברי, ו'טלפונס' בלעז.
ולגבי ההפרדה בבעיית התעתיק — אחדד את הדוגמה של mayer (שאני בהחלט יכול להבין מדוע היא לא עברה טוב) — ההגיה העברית הנכונה של mayer היא מאיר, ולא מאייר, (ראה http://www.cs.bgu.ac.il/~gmayer). ואתן גם דוגמה נוספת, ויותר בעייתית: איך תתעתק 'קווין'? בתחום המוזיקה, מחוץ להקשר, בטוח תטעה מון פעמים (אלא אם יש לך "מודל משתמש" ואתה יודע משהו על העדפותיו המוזיקליות, אבל זה כבר ממש לא בלי הקשר).
יואב
אוקטובר 9th, 2007
אני משתמש ב-Win98, כך שיכול להיות שזו הבעיה
הילל
אוקטובר 12th, 2007
[…] על טרנסליטרציה במוזיקה תעתיק ומערכות לומדות. SHARETHIS.addEntry({ title: "מבצע סבתא וטרנסליטרציה", url: […]
מבצע סבתא וטרנסליטרציה
יוני 25th, 2008
אבידות ומציאות:
מחפש עבורי ++ פתרון יהודי-יעוד
לקרוא באותיות אנגליות את שמות שירים באייפוד שהועלו בעברית והחשוד מסרב להסגיר ידיעותיו בשפות
יבורך המוצא ויקבל קרדיט בהפצה מסיבית של פתרון
askzeev
יולי 3rd, 2008