אין בפוסט הזה מעבר לטריוויאלי – כלומר מעבר לפיסת הטריוויה שפתאום גיליתי. טענה רווחת היא שאין בעברית שלשה עיצורים רצופים ללא תנועה בינהם. במידה רבה זה נכון גם לאנגלית. נדמה לי שהמצב שונה בשפות הסלאביות דוגמת הרוסית, הפולנית והצ'כית, אבל אני סוטה מהנושא.

הקומיקס האולטרא-גיקי והמשעשע הזה (שבמקרה הזה מביע את דעתו על המקצוע שלי) נקרא XKCD וכותב אותו בחור בשם רנדל מונרו (Randall Munroe ). בתשובה לשאלה למה הוא נקרא דווקא כך ומה המשמעות של ראשי התיבות ענה רנדל: "זה לא ראשי תיבות. זו רק מילה שבלתי אפשרי לבטא. היא מייצגת את הקומיקס ואת כל מה שמאחוריו".
במסגרת המחקר לדוקטורט אני עובד על קורפוסים די גדולים – מדובר בסדר גודל של מיליוני מילים שמתכנסות לכשישים אלף מילים שונות (למעשה אין כל כך הרבה מילים בשפה אבל יש המון שגיאות כתיב שיוצרות "מילים" חדשות). בכל אופן – לנתונים נכנס רעש בדמות רצפי תווים ארוכים. בשביל לנקות את הנתונים הגדרתי בפייתון את הביטוי הרגולרי הבא:
consonantRE = re.compile(r'([(bcdfghjklmnpqrstvwxz]{4,7})')
ובהרצה על מיליוני המילים שלפתי את כל המילים בהן ארבעה עיצורים רצופים (שמופיעות יותר ממאה פעמים).
התוצאות שקיבלתי הן מעניינות. מלבד רצפי הג'יבריש, כמובן שרוב המילים הן כאלו שמסתיימות ב-S של רבים או פעלי הווה בגוף שלישי, מילים אחרות מכילות עיצורים נכים כמו ck במילה background ובמילה delightful או שהן פשוט נוצרו מהלחם (מזוייף) של שתי מילים כמו במילה heartbreaking (וגם שתי הדוגמאות לעיל).
אבל יש כמה חריגים. תראו למשל את construction. כאן יש ארבעה עיצורים שכולם מבוטאים בקול. אפשר לטעון שהיא בעצמה הלחם של con+structure בהטייה אבל גם אם נתעלם מההלחם – העיצור האחרון מקבל תנועה ולכן אלו לא באמת ארבעה עיצורים. אבל (אל) דאגה – גם מילה כזו נמצאת לנו: angst – ארבעה עיצורים ללא תנועה. VOILA!. כמו אותו אחד שגילה שהוא מדבר בפרוזה – גיליתי שאני לא שם לב לתכונות מעניינות של מילים שאני מכיר. אולי זה כי אני שקוע בחרדות. כמה עיצורים יש בחרדות (רבים)?
[מילה נוספת עם ארבעה עיצורים רצופים היא amongst. אני לא מוצא שום קשר אטימולוגי/קוגנטי בין amongst ל-angst (אני טועה?). אז מה יש ברצף העיצורים הזה ngst שהופך אותו לנפוץ יותר מנניח, למשל, xkcd? כנראה שזו קלות ההגיה - ה-n מבוטאת מהאף, ה-g מהחך שבעצם ממשיכה את התנועה מהאף ואותה המשכיות קיימת בין ה-s השינית אל ה-t הלשונית וככה זורמות התנועות אחת אחרי השניה מאחורי הפה אל קידמתו ללא התנגשות. אולי בשירותים אני אנסה לחשוב על עוד שרשראות עיצורים מדמי תנועה שכאלו. אין כאן איזה קורא רוסי ייצוגי שייתן פרספקטיבה?]

zdravstvuite
שלום ברוסית.
וגם סחתיין על הפיתון!
תומר
נובמבר 19th, 2007
Tungsten
Neta
נובמבר 19th, 2007
תומר - לא רק למרות שהV האחרון בא עם תנועה.
נטע - כנ"ל. נדמה לי שגם אנגסט וגם טונגסטן הם מילים גרמניות. צריך לתפוס איזה דובר גרמנית ולברר את העניין.
אורן
נובמבר 19th, 2007
לפני שבוע סיימתי לקרוא את הספר של דה-סוסייר, ומשהו בפוסט שלך מאד מהדהד לי לספר הזה, אבל לא ברור לי מה. אעיין בו שוב יותר מאוחר.
ומשהו ענייני: אני חושב ש-NG נחשב לעיצור אחד. זה אומר ש amongst הוא רק תלת עיצורי. אבל ב-angst ההגייה היא קצת אחרת, ונראה לי שהוא באמת 4 עיצורי.
יואב
נובמבר 19th, 2007
אוי סוסיר סוסיר. הוצאת רסלינג הנהדרת וגם הרשב שלנו ונועם חומסקי יאללה חבר'ה קראתי הכל על זה ( זה מה שקורה כשלומדים ספרות) מישהו אמר כאן לא פרקטי? מישהו דבר על מבנה ההגה? המשקל ההברה? למה המקלדת של המחשב בנויה איך שהיא בנויה? אם תחשוב על זה פעם תגיעו למסקנה שמי שבנה אותה למד על סוסיר… רק שהוא קרא לזה מדעי המחשב בטעות.
רחל
נובמבר 19th, 2007
למען האמת מעולם לא קראתי את דה-סוסיר. קראתי עליו קצת. מאוד. אז אני אשמח אם תפרט (ואני אוסיף את זה לרשימת הקריאה כך שאולי אני אגיע לזה בפסח).
ההערה שלך על ה-gn שמבוטא כעיצור אחד (יותר אחד וחצי) מזכירה לי שה-g הוא עיצור מקולל (או מכושף). ה-g הוא כמו זיקית שמשתנה לפי הסביבה ובכל פעם מקבלת צורה שונה.
נכה כמו ב-right.
פ' רפה כמו ב-laugh
ג וג' השיגרתיים.
וגם בשפות אחרות. אפילו באיטלקית, שפה שנקראת בדיוק כפי שהיא נכתבת, יש יוצא מן הכלל אחד - gl הופך לעיצור אחד (או עיצור וחצי ומבוטא כמו מין י' מהחיך, למשל famiglia - משפחה שמבוטא בערך פַמִילְיָה אבל עם מין תקיעה כזו לפני הל' או meglio (הטוב ביותר - מֶלְיוֹ).
דרוש בלשן אמיתי שיחלוק לנו מתובנותיו.
אורן
נובמבר 20th, 2007
רחל — אשמח לשמוע על הקשר בין סוסיר לסידור מקלדת המחשב. ככל שידוע לי, סידור ה-QWERTY הנו ירושה ממכונת הכתיבה, ושם האילוץ היה מכני בעיקרו. (ובנוסף, מה בין חומסקי וסוסיר לספרות?)
אורן — לגבי סוסיר אפרט מאוחר יותר (אין לי יותר מדי לפרט, אבל עוד פחות מזה זמן ו/או סבלנות כרגע), אך הערה קטנה לגבי ה-gl באיטלקית: בגרמנית היה תהליך של gl שהפך ל-gel. קשה להגות l אחרי g בלי תנועה. נראה שבאיטלקית התהליך דומה אך הפוך, במקום להוסיף תנועה הפילו את העיצור..
חוצמזה, הפוסט הבא בנוגע לעיצורים גרעיניים יכול להיות רלוונטי לכאן במידת מה. http://israblog.nana10.co.il/blogread.asp?blog=90303&blogcode=4798097
יואב
נובמבר 20th, 2007
צרור תגובות.
1. הלינק לעיצורים הגרעיניים מעניין מאוד אבל בעברית יש "תופעה" מעניינת והיא השווא-נע. הדוגמא שאילן מביא שם היא "נְחְשְבְתְשְכֵּן" (אני חושבת שכן) ואני לא יכול לדמיין את זה נאמר ברצף שוואים נחים.
2. אתה כנראה צודק לגמרי לגבי האיטלקית והגרמנית. אבל אז מעניין מאיזו שפה הגיעו הצירופים האלו (gl) לשפות השונות האלו (גרמאנית ולטינית). אני גם בטוח שיש הרבה חומר על התופעות של ה-gh. בהזדמנות אני אחפש.
3. סידור ה-QWERTY במקלדת המחשב לא קשור ישירות להגיה אבל כנראה יש קשר מסדר שני. האילוץ המכני נבע ממכונת הכתיבה - כדי שהזרועות של האותיות לא יתנגשו בהדפסה מהירה. אבל למה שהם יתנגשו בכלל - כי יש אותיות שבאות הרבה פעמים בסמיכות וצריך היה למקם אותן במקומות "קשים" כדי להאיט את ההקלדה. קארידג' ריטרן.
אורן
נובמבר 20th, 2007
Tungsten ist nicht in Deutsch - es heist Wolfram.
Neta
נובמבר 26th, 2007
Should be "heißt", I don't know what happened to the ß.
Neta
נובמבר 26th, 2007
צודקת. בדיקה נוספת העלתה שזה משבדית: tung sten: heavy stone
למרות שזו בכלל מתכת.
משום מה היה נדמה לי שקראתי פעם שזה מגרמנית.
אורן
נובמבר 26th, 2007
אם הולכים לשפות סלאביות יותר "הארדקור", אז יש לך מילים בקרואטית כמו krk או vrbnik. וכמו שויקיפדיה יודעת לספר על גרוזינית:
* There also a few words in Georgian that begin with four contiguous consonants. Examples are:
o მკვლელი, (mk'vleli), "murderer"
o მკვდარი, (mk'vdari), "dead"
o მთვრალი, (mtvrali), "drunk"
o მწკრივი; (mts'k'rivi), "row"
* There can also be some extreme cases in Georgian. For example, the following word begins with six contiguous consonants:
o მწვრთნელი, (mts'vrtneli), "trainer"
* And the following words begin with eight consonants:
o გვფრცქვნი (gvprtskvni), "you peel us"
o გვბრდღვნი (gvbrdgvni), "you tear us"
תומר
נובמבר 27th, 2007
ומה עם GN? Lasagna, Cognac, זה תופס לצרפתית ואיטלקית ובוודאי לעוד שפה או שתיים מבין שפות הרומאנש.
עירא
דצמבר 3rd, 2007
סתם כי הזכרת את הפוסט ההוא של XKCD: לפני כמה חודשים חנונים כבדים, חובבי הקומיקס המצוין, נפגשו באיזה פארק לכמה שעות של פורענות-גיקים. בין השאר היה שם לוח מחיק שבו מונרו השאיר מקום ריק לחובבים לצייר מה שעולה על רוחם. בין השאר הופיע שם הדבר הבא (שים לב לשני מלמטה, משמאל):
http://imgs.xkcd.com/blag/meetup/whiteboard/whiteboard_selections.jpg
[מקור: http://blag.xkcd.com/2007/10/01/the-meetup/]
בנימין
ינואר 14th, 2008
נקמת המרובעים. הראינו לו!
משעשע.
אורן
ינואר 14th, 2008