מודלים מרקוביים הם מודלים סטטיסטיים פשוטים במיוחד המשמשים בין היתר למידול השפה הטבעית. מה אפשר לעשות עם מודלים כאלו - בין היתר אפשר לכתוב שירי איגיון, לפצח צפנים, לתקן שגיעות קתיב וליעל את שליחת הס.מ.ס-ים. (פורסם לראשונה בגיליון 99 של המגזין גלילאו, נובמבר 2006)

הִבְרִיל כְּבָר, זַחְלָצִים קְלִיחִים
חָגְווּ וְעָגוּ בַּשְּׁבִילֵל,
מַסִּים הָיוּ הַסְּמַרְלַחִים
וְחֶזְרוֹנִי צִרְלֵל.
”'זָּהֵר מִגֶּבֶרִיק, בָּחוּר!
שִׁנָּיו נוֹשְׁכוֹת, טָפְרוֹ חָזָק!
'זָּהֵר מִגַּבְגַּב עָף, וְסוּר
מִבַּנְדֶּרְצְבַט הַזָּף!“
נָטַל חַרְבּוֹ הַסַּרְפִּלִּית,
זְמָן רַב חִפֵּשׂ צָרוֹ מִשְּׁחוּר,
וְנָח לוֹ שָׁם, תַּחַת עֵץ טַמְטַם,
שָׁקוּעַ בְּהִרְהוּר.
(תרגומה של רִנה ליטוין לשלושת הבתים הראשונים של "שיר הגֶּבֶרִיקָא" של לואיס קרול [Jabberwocky]).
קשה לתרגם שירה. קשה לשמור על המשמעות, על האסוציאציות, על המבנה וגם על המצלול. אולי קשה אף יותר לתרגם שירת איגיון (nonsense), המחויבת דווקא לחוסר משמעות. ולכתוב שירה שכזו? זוהי אמנות שלא רבים משתבחים בה. במהדורה המוערת ל"מבעד למראה" מציין מרטין גרדנר ש"לא מעטים גילו שהם יודעים את 'גבריקא' בעל פה בלי שעשו ניסיון מודע כלשהו לשננו… אוֹגדֶן נאש הוציא תחת ידו יצירת איגיון נאה בשירו 'גדונדיליו', אבל אפילו אצלו ניכר מאמץ גדול מדי ליצירת הרושם, ואילו 'גֶּבֶרִיקָא' מצטיין במקצב טבעי ובשלמות". ניסיונות רבים נעשו כדי להסביר את דרכי היצירה והפירוש של המילים החדשות שהמציא קרול, ואילו הוא עצמו כתב שאינו יכול להסביר מילה כמו "החרב הַסַּרְפִּלִּית" (בשורה הראשונה בבית השלישי) וגם לא מילים אחרות. לואיס קרול, מתמטיקאי ובלשן בעיסוקו, לא ידע או לא רצה להסביר את יצירת המילים, אך ייתכן שמודלים של שפה ישפכו מעט אור על השילוש (הקדוש?) מילה-צליל-משמעות.
אחת השאלות המרכזיות המעסיקות בלשנים תיאורטיים ומעשיים, כמו גם מדעני מחשב העוסקים בבלשנות חישובית, היא השאלה אם לשפה יש מבנה. ואם כן - מהו מבנה זה וכיצד ניתן לחשוף ולייצג אותו בצורה פורמלית. "מבנה" של שפה הוא מושג מעורפל שאפשר להגדירו באופנים שונים: אפשר להתייחס למשפט מבחינה תחבירית (נושא, נשוא, מושאים וכו', או להשתמש במונחים שונים במקצת, כמו ביטוי שמני (Noun Phrase), ביטוי פעלי (Verb Phrase) וכו'; ניתן לדבר גם על מבנה של מילה, של מילים ושל מילים סמוכות זו לזו. אפשר לעסוק במבנה הלקסיקוגרפי של מילים – סמיכות האותיות - או במבנה הפונטי – סמיכות הצלילים (הקשורים, כמובן, לאותיות). בעברית, למשל, רצף של שלושה עיצורים הוא נדיר במיוחד, ולעומת זאת בשפות מזרח אירופיות ומרכז אירופיות מסוימות (רוסית, צ'כית ועוד) שכיחים מאוד רצפי עיצורים השוברים את שיניו של הישראלי המצוי.
האם לשפות שונות יש מבנה משותף (ברמה מסוימת של הפשטה) על אף ההבדלים ביניהן? האם העברית, למשל, היא שפה בעלת מבנה אחיד, או שמא לשפה המדוברת יש מבנה מסוים ולשפה הכתובה מבנה שונה? האם כותבים שונים משתמשים במבנה שפה שונה? ומה באשר לעברית מקראית או תלמודית? אין זה משנה איך נגדיר "שפה"; מודל שפה (Language Model) הוא מודל פורמלי, מתמטי בדרך כלל, המנסה לתאר את מבנה השפה או היבטים שלו. מודל טוב יכול לייצר משפטים חדשים בשפה שהוא "ממדל". במאמר זה נעסוק בעיקר במודל סטטיסטי פשוט – מודל מרקובי (Markov Model). נראה כיצד מודל פשוט ונאיווי יכול להסביר תופעות לשוניות מעניינות, וכיצד אפשר ליישמו הלכה למעשה כדי לתקן שגיאות כתיב, להשלים מילים בהודעות סמ"ס, לפענח צפנים או לכתוב שירי איגיון.
מודלים סטטיסטיים לשפה
את מודל השפה הפשוט ביותר אפשר לבנות על ידי חישוב של התפלגות האותיות בשפה. לשם כך נאסוף קורפוס גדול של מסמכים בשפה המבוקשת, ונחשב את שכיחותה של כל אות בשפה. אם הקורפוס גדול דיו והוא אכן מייצג נכונה את השפה, אזי יש לנו מודל פשוט במיוחד. מודל זה יכול לשמש, למשל, לזיהוי שפתו של טקסט לא מוכר. כבר בעת העתיקה השתמשו מפצחי צפנים במודל מעין זה בהצלחה. אחת מדרכי ההצפנה הקדומות התבססה על התמרות שונות בין אותיות: כל אות מוחלפת באות מסוימת אחרת (בכתב א"ת-ב"ש הנודע מוחלפת ה-א' ב-ת', ה-ב' ב-ש', ה-ג' ב-ר' וכן הלאה). מפצחי הצפנים הקדומים היו "מיירטים" מכתבים מוצפנים, ומפענחים אותם מתוך הנחה שהם מצייתים לכללי השפה, ולכן התפלגות האותיות שבהם זהה להתפלגות האותיות בשפה. מכאן, שהאות השכיחה ביותר במכתב מחליפה את האות השכיחה ביותר בשפה וכן הלאה. שיטה זו טובה לפענוח מכתבים ארוכים יחסית,שהוצפנו רק בדרך של החלפת אותיות; זאת משום שגם אם הפענוח לא יהיה מדויק לגמרי, יתקבל מכתב מובן למדי, ש"שגיאות הכתיב" שבו ניתנות לתיקון על ידי הקורא-המפענח האנושי. (תורת ההצפנה - כאן תמצאו כמה דוגמאות ומשחקי הצפנה).
המודל ההסתברותי שתואר לעיל הוא שימושי במידת מה, אך הוא אינו מניח כי קיים קשר בין אותיות, בין הברות או בין מילים, וכולו מתבסס על שכיחויות בלתי תלויות - בדיוק כמו בסדרה של הטלות קובייה. מובן ששפה היא מובנית יותר מאשר סדרה אקראית, ומשקפת קשרים יסודיים בין האטוֹמים המרכיבים אותה. שפה מוצגת לרוב בצורה ליניארית, כלומר כרצף ליניארי של סימנים (אותיות, הברות או מילים) הנחשפים בפני המאזין או הקורא בזה אחר זה. יהיה זה הגיוני להניח שהאופי הליניארי של השימוש בשפה משפיע על מבנה השפה או מושפע ממנו. מודל טוב של השפה "ימדל" גם את התכונה הזו. מודלים מרקוביים הם צעד נוסף ביצירת מודל סטטיסטי של השפה, שכן על אף פשטותם המפתיעה יש להם שימושים בלשניים ולשוניים נרחבים.
שרשראות מַרקוֹב
אנדריי מרקוב (Markov) היה תלמידו של פָּפְנוּטִי לְבו�בִיץ' צֶ'בִּיצֶ'ב ((Chebyshev (ששמו מוכר לסטטיסטיקאים מן המושג הסטטיסטי "חסם צ'ביבצ'ב", הקובע חסם להסתברות הסטייה מהתוחלת). מרקוב חקר תהליכים אקראיים מותנים. "שרשראות מרקוב" הן מודל שפה פשוט ויעיל. דוגמה קצרה ופשטנית תסביר את העיקרון המרקובי:
האם תוכלו לנחש מהי המילה "XXX" (שלוש אותיות)? סביר להניח שלא תוכלו לעשות זאת, כי יש מאות ואלפי מילים בנות שלוש אותיות. ומה באשר ל"Xחת"? אולי זוהי "אחת", אולי "תחת" ואולי שמנתם מ"נחת"? האפשרויות הן רבות, וניחוש אקראי הוא בבחינת ירייה באפילה.
ואם נכתוב "קשה למצוא מחט בערימת Xחת"? כולכם, מן הסתם, ניחשתם ש"שחת" היא המילה המבוקשת. הניחוש הוא כמעט ודאי מכיוון שהכול מכירים את הביטוי, ולכן חלקו הראשון - ("קשה למצוא מחט בערימת" - מהווה אינדיקציה סבירה להמשך. מכאן, שבהינתן חלקו הראשון של המשפט, נוכל לנחש את המילה האחרונה - גם אם לא נתונה ולוּ אות יחידה ממנה.
הנחת המרקוביוּת מאפשרת טיעון חזק אף יותר. מסתבר שאיננו צריכים את כל המשפט כדי לנחש בוודאות גדולה את סופו; גם מספר קטן של מילים יספיק. כמה מילים? הביטוי "ערימת זבל" שכיח הרבה יותר מהביטוי "ערימת שחת", ולכן המילה "ערימת" לבדה לא תספיק כדי לנחש כי "שחת" היא המילה החסרה (הביטוי המדויק "ערימת שחת" מניב 298 תוצאות ב'גוגל', ואילו הביטוי "ערימת זבל" מניב 421 תוצאות. חיפוש ביטויים מדויקים ב'גוגל' יכול לתת אינדיקציה מסוימת על שכיחותם היחסית. חיפוש הביטוי "מחט בערימת שחת" מניב כ-190 תוצאות, ואילו הביטוי "מחט בערימת זבל" לא נמצא כלל בחיפוש ב'גוגל' בזמן כתיבת הרשימה). אולם שתי מילים – "מחט בערימת" - כבר מסגירות את המילה הנוספת בוודאות הזהה (כמעט) לביטוי השלם (אם גם קטום הסיפא): "קשה למצוא מחט בערימת". מודל המבוסס על מילה מקדימה יחידה ("ערימת" בדוגמה שלעיל) מכוּנה מודל מרקובי מסדר ראשון או מודל בי-גרם (bi-gram), וזאת מאחר שכל אירוע מכיל שתי מילים (המילה החסרה והמילה הקודמת). מודל המבוסס על שתי מילים מקדימות ("מחט בערימת") מכוּנה מודל מרקובי מסדר שני או מודל טרי-גרם (tri-gram), שכן כל אירוע מורכב משרשרת של שלוש מילים. באופן כללי נקרא מודל כזה מודל אן-גרמי (n-grams), כלומר יחידה במודל מורכבת מ-N אירועים עוקבים.
נוח לראות שרשראות מרקוב כמודל סטטיסטי המבטא תלות בין מצבים על ציר הזמן. מרקוביוּת מסדר N פירושה תלות סטטיסטית רק ב-N המצבים הקודמים ואי-תלות (סטטיסטית) במצבים רחוקים יותר מ-N, כלומר ב"היסטוריה" הרחוקה יותר מ-N מצבים.
בצורה פורמלית יותר נאמר כך: מודל מרקובי מסדר N מוגדר על ידי ההסתברות למעבר למצב (סימן/מילה) הבא בהינתן N המצבים (סימנים/מילים) הקודמים. במודל מרקובי מסדר ראשון יהיה המצב הבא תלוי אך ורק במצב הקודם, ולא בכל המצבים הקודמים. כלומר ההסתברות לקבל תוצאה מסוימת התלויה ב-N מצבים קודמים שווה להסתברות לקבל תוצאה מסוימת התלויה בכל המצבים הקודמים.
זוהי, למשל, הנוסחה לשרשרת מרקובית מסדר ראשון:

Pr מסמן פונקציית הסתברות. Pr(A=a) מציין את ההסתברות שאירוע a יתרחש במקרה A. Pr(A=a|B=b) מסמן הסתברות מותנית, כלומר ההסתברות שיקרה a במצב A אם ידוע שכבר התרחש b במצב B. P(A=a|B=b,C=c) מסמן הסתברות מותנית, כלומר ההסתברות שיקרה a במצב A בהנחה שקורים b במצב B ו-c במצב C. Xi - האירוע ה-i במספר. כך ניתן לציין קבוצה של אירועים (לרוב עוקבים) בלי להשתמש בכל אותיות הא"ב.
שרשרת מרקובית (מסדר ראשון, כמתואר בנוסחה לעיל) היא רצף הנוצר על ידי פונקציית הסתברות מרקובית, כלומר המצב הבא תלוי במצב הקודם, המצב הקודם תלוי במצב שלפניו וכן הלאה. אם נסתכל על השפה כעל רצף ליניארי של סימנים (אותיות, הברות או מילים), אזי נוכל לדמות לעצמנו ששרשרות מרקוב הן מודלים פשוטים במיוחד המתאימים לתיאור המבנה הסטטיסטי של השפה. את העיקרון המרקובי אפשר להחיל על מילים שלמות, על אותיות או על צלילים, וכן על חלקי שפה מופשטים יותר - נושא, מושא ויחידות תחביריות אחרות.
האינטואיציה הבסיסית היא שמובילה אותנו להתבונן בשפה כברצף סימנים ליניארי. כך אנו קוראים וכך אנו נחשפים לדיבור: אות עוקבת אות - הברה עוקבת הברה – ומילה עוקבת מילה. עם זאת יהיה זה נאיבי להניח שמבנה השפה הוא מרקובי. קיומן של פסוקיות בשפה מראה שמילה מסוימת יכולה להיות תלויה בחלק מרוחק של המשפט דווקא, ולא ב"עבר" הקרוב ביותר. כמו כן חלון ההזדמנויות – הגודל N של המודל - הוא גודל שרירותי המתאים יותר לביטויים ולרצפים מסוג מסוים ופחות לביטויים מסוג אחר. ובכל זאת מסתבר ששרשרות מרקוביות, ואפילו כאלה מסדר נמוך, מהוות מודל שפה מדויק דיו לשימוש מעשי – לתיקון שגיאות כתיב, לזיהוי (פענוח) דיבור, לפענוח הודעות מוצפנות ועוד.
יצירת מודל מרקובי
כדי ליצור מודל מרקובי לשפה מבוקשת נחשב את ההסתברויות של כל האן-גרמים בשפה. ההסתברויות יחושבו לפי שכיחות ההופעה של כל אן-גרם באוסף טקסטים גדול, המייצג את השפה. אם האוסף גדול דיו נקבל פונקציית התפלגות קרובה מספיק להתפלגות האן-גרמים בשפה (או לפחות בשפה כפי שהיא משתקפת באוסף זה). לאחר חישוב ההסתברויות נוכל להשתמש במודל ליצירת רצפים חדשים, או לבדיקת ההסתברות לקבל רצף מסוים. חשוב לציין שגם באוסף טקסטים גדול מאוד לא תמיד יימצאו כל האן-גרמים האפשריים בשפה, ולכן נשתמש בטכניקות של החלקה (smoothing) כדי לתת הסתברות קטנה גם לאותם אן-גרמים שלא הופיעו באוסף.
הנה למשל טקסט קצר בצרפתית, שנכתב באופן אוטומטי על ידי מחשב שלמד למד מודל שפה בן טרי-גרמים של אותיות:
Cannez la pre: Martif c'es aux géné qu'in, que plut l'oeu me ce pagrable
cousanacatisi voyez-vourd garient cetindes cole J'auve à va bo.ordrais, de la bart Prophappays de frassez, vait dandu mourque que mil ne sui son parces poute, que appect"). Lespor le yez me, chorde, et voudisinaprant
הטקסט שממנו נלמד מודל השפה הוא "קנדיד" של וולטיר. מובן שאין בטקסט זה די נפח כדי ללמוד מודל אמיתי של השפה הצרפתית, והוא אפילו אינו מודל של שפתו של וולטיר.
בבחירה בטקסט צרפתי לאימון מודל השפה יש משום הטעיה מכוונת של מי שאינו דובר צרפתית. במבט ראשון יחשוב אדם שנחשף לצרפתית במידה מוגבלת - הוא מכיר את הצלילים וכבר ראה (ולא הבין) טקסט צרפתי בעיתון או במוזיאון - כי זהו אכן טקסט צרפתי לגיטימי. אין אלו סתם אותיות לטיניות (צרפתיות) המפוזרות באופן אקראי; על כך יעיד למשל מספרם הרב יחסית של צירופי אותיות ניקוד כמו au ו-ai, צירופים האופייניים לצרפתית. המילים המלאכותיות מורכבות מהברות ומחלקי מילים שכיחים בצרפתית – מעין "גבריקא" צרפתי חסר ברק ונטול משקל שירי. מובן שדובר צרפתית יבחין מייד בזיוף, שהרי כ-80% מהמילים חסרות משמעות, אבל עדיין המודל מייצג פן מסויים של מבנה השפה.
אחד המשחקים המשעשעים הוא ליצור אן-גרמים של מילים משפה מצומצמת, למשל משפת ספרי הבישול. ה"שפה" של ספר בישול היא מובנית ואחידה, וכוללת רשימות של מרכיבים והוראות אופרטיביות להכנה ("ערבבו את הביצים עם החלב והקמח עד לקבלת תערובת אחידה"). לימוד של אן-גרמים של מילים מתוך ספרי מתכונים יניב מתכונים חדשים, קריאים וקולחים ברובם, אם כי סביר להניח שה"פיוז'ן" הקולינארי שיוצע בהם יהיה מוזר לחֵךְ. מודלים מרקוביים של אותיות או מילים הם מודלים מוצלחים עבור החלקים הטכניים של השפה, אבל כמו במרבית יישומי השפה אין בהם דבר המעיד על משמעות השפה. לפיכך, שימוש במודל מרקובי ליצירת טקסט חדש יניב, לכל היותר, טקסטים משעשעים של איגיון - טקסטים שאמנם יש בהם כדי לשפוך אור מסוים על שירי איגיון מהסוג של ה"גבריקא", אך אין בהם כדי להתעלות לרמתה של יצירת מופת אנושית.
אף שאין במודלים מרקוביים כדי ליצור טקסטים חדשים (ושימושיים) יש מאין, הרי שניתן להשתמש במודלים כאלו למגוון יישומים הרלוונטיים לטקסט "משובש".
תיקון שגיאות כתיב
יישום שימושי מאוד של מודל השפה הוא לתיקון שגיאות הכתיב וההקלדה במעבד התמלילים. כיום מרבית מעבדי התמלילים מעירים לכותב על שגיאותיו, והמודלים המרקוביים הם שיטה פשוטה ביותר לתיקונן (וגם זיהויין). המודל נבנה מאוסף גדול של טקסטים מוגהים ונטולי שגיאות. כשתוקלד מילה חדשה ולא מוכרת היא תאובחן כשגיאה. בהנחה שהמילה השגויה קרובה דיה למילה הנכונה, יוכל המודל המרקובי להציע את החלופה המתאימה ביותר, שלָרוב היא אכן המילה המבוקשת. אם יש במילה מספר שגיאות רב יציע המודל המרקובי מילה השונה לחלוטין מזו המבוקשת (ועם זאת קרובה דיה למילה השגויה), או שמילה מתאימה לא תימָצֵא כלל. לעתים, בגלל אופיו הסטטיסטי של המודל, תתוקן גם שגיאה פשוטה בצורה שגויה. מתקן השגיאות הנפוץ aspell, למשל, מתקן את המילה השגויה rain) rian [גשם] בשגיאת הקלדה - שׂיכול של ה-i וה-a) ל-Rina ולא ל-rain: באוסף המילים שמודל השרשרת המרקובית נבנה לפיו גבוהה ההסתברות של השרשרת Rina מזו של השרשרת rain, וזאת אף שסביר להניח כי המילה השלמהrain שכיחה הרבה יותר מהשם Rina. זה כוחה של הסטטיסטיקה וזו גם תוצאת הבחירה במודל אן-גרמי (עם n מסויים) של אותיות ולא במודל של שכיחות מילים שלמות – בחירה מוצדקת לבודק איות.
אח חורג לתיקון שגיאות הכתיב הוא המשלים האוטומטי של המילים בהודעות הטקסט הסלולריות. השלמת המילים בהודעות טקסט (SMS) היא אחד היישומים הנפוצים והשימושיים ביותר. כל לחצן במכשיר הטלפון הסלולרי מייצג שלוש או ארבע אותיות. לחיצה על ארבעה כפתורים ליצירת מילה בת ארבע אותיות יכולה ליצור יותר מ-81 (שלוש בחזקה רביעית) מילים אפשריות. אחת הדרכים ליישום ההשלמה האוטומטית (הנקראת 9T, קיצור של המושג Text on 9 keys) בוחרת את השרשרת המרקובית הסבירה ביותר מבין המילים האפשריות.
זיהוי דיבור
זיהוי דיבור (ממוחשב) הוא למעשה מיפוי של רצף צלילים והמרתו לרצף אותיות או לרצף צלילים אחר. המרה של רצף צלילים לרצף אותיות מוכרת לנו מיישומים המקבלים פקודה קולית ומבצעים אותה; הדוגמה השכיחה לכך היא חיוג קולי בטלפונים הסלולריים. שימוש נוסף בזיהוי דיבור הוא תיקון עיוותים בתקשורת דיגיטלית מילולית, סלולרית או אחרת - "סקייפ" (skype) למשל.
עם הזמן הופכים האלגוריתמים המודרניים לזיהוי דיבור ולתיקון שגיאות למורכבים יותר ולמדויקים יותר, אך בעבר הלא רחוק היו אלו המודלים המרקוביים הפשוטים ששימשו לזיהוי דיבור ולתיקון שגיאות.
למעשה, זיהוי דיבור ותיקון שגיאות הם שני תחומים קרובים במיוחד. בשניהם האתגר הטכנולוגי הוא הֶעדר הסטנדרטיזציה של הקול האנושי מחד-גיסא, ותוספת של רעשי רקע ורעשים חשמליים מאידך גיסא – שני גורמים ההופכים את האתגר לקשה פי כמה מתיקון פשוט של שגיאות כתיב.
לאנשים שונים יש קולות שונים לחלוטין. ועם זאת כאשר שני בני-אדם אומרים את אותו המשפט, יֵדע השומע האנושי לזהות כי מדובר באותו המשפט ובאותו התוכן. אך כיצד יֵדע זאת המחשב (או הטלפון) בהֶעדר קיומו של סטנדרט של צורת דיבור? כיצד יֵדע המחשב להפריד את קולו של הדובר מרעשי הסביבה, וכיצד יתגבר על מילים קטועות, על דיבור אטי, על השתהות קלה באמצע מילה או על השראה אלקטרו-מגנטית המעוותת את הצליל?
מודל שפה המבוסס על שרשרות מרקוב הוא כלי פשוט לתיקון שגיאות ולזיהוי רצפי הצליל. המודל נלמד מתוך רצף נקי של צלילים; אחר כך, בהינתן רצף צלילי מסוים שיש להפכו להברות או למילים,אפשר להעריך מהי הסבירות שהמילה שהתקבלה (או רצף המילים) היא אכן רצף תקין. נוכל אף להציע תיקונים או לתקן אוטומטית את רצף הצלילים, כמו שאכן נעשה בשידורים סלולריים ואפילו בתיקון התמונה בשידורי טלוויזיה.
קיימים עוד יישומים רבים לשרשרות מרקוב; חלקם יישומים בלשניים ה"ממדלים" תופעות לשוניות, וחלקם משמשים לפתרון בעיות בתחומים אחרים לחלוטין – החל מייצור סדרות של מספרים אקראיים (שרשרות מרקוב "מונטה קרלו") וכלה ב"פייג' רנק" (page rank), הלוא הוא אלגוריתם דירוג הדפים של 'גוגל'.
מודלים מרקובים חבויים (Hidden Markov Models) הם מודלים מרקוביים שבהם הקשר הסטטיסטי ה"אמיתי" בין חוליה לחוליה בשרשרת המרקובית אינו נתון, וגם הוא מוערך באמצעים שונים. מודלים מסוג זה מתאימים אולי לתופעות רבות בעולם, שהרי הקשר הסטטיסטי הנצפה אינו מעיד ישירות על סיבה ומסובב, ועם זאת, מפתיע לגלות את כוחם של המודלים המרקוביים הפשוטים ביצירת מודל שפה לצרכים בסיסיים.&
הרשימה התפרסמה בשינויים קלים בגיליון 99 של המגזין גלילאו (נובמבר 2006).


[…] חייבים להיכתב, אז נפנה אתכם לפוסט ישן שמדבר גם על זה: שירי איגיון ופיענוח צפנים – על מודלים מרקוביים של שפה. יש גם אלגוריתמים מורכבים יותר שלוקחים בחשבון גם […]
בודק איות (spell checker) עם אג'נדה פוליטית?
פברואר 3rd, 2008
[…] בכלל?" שאלתי. מסתבר שבעקבות מאמר שפרסמתי פעם בגלילאו: על שירי איגיון ופיענוח צפנים הוא נקרא. המאמר בכלל עוסק במודלים התסברותיים לשפה […]
סודות ההצפנה: פרס ישראל לעדי שמיר וההבדל בין ההצפנה הקלאסית לזו המודרנית
פברואר 20th, 2008