<?xml version="1.0" encoding="UTF-8"?><!-- generator="wordpress/2.2.2h" -->
<rss version="2.0" 
	xmlns:content="http://purl.org/rss/1.0/modules/content/">
<channel>
	<title>&#8235;תגובות על: בודק איות (spell checker) עם אג'נדה פוליטית?</title>
	<link>http://www.sciencefriction.net/blog/2008/02/03/75/</link>
	<description>&#8235;מעניין. אולי זה אפילו נכון.</description> 	<pubDate>Thu, 20 Nov 2008 13:20:25 +0000</pubDate>
	<generator>http://wordpress.org/?v=2.2.2h</generator>
	<language>he</language>
	<item>
		<title>&#8235;מאת: אורן</title>
		<link>http://www.sciencefriction.net/blog/2008/02/03/75/#comment-363</link>
		<author>&#8235;אורן</author>  		<pubDate>Mon, 11 Feb 2008 15:38:38 +0000</pubDate>
		<guid>http://www.sciencefriction.net/blog/2008/02/03/75/#comment-363</guid>
		<description>&#8235;יובל - 
זה לינק נהדר מכל כך הרבה בחינות. קודם כל הקוד הנקי והקצר הוא תאווה לעיניים.
אבל זה גם הסיגנון וההסבר - החל מפסקת הפתיחה:
What surprised me is that I thought Dean and Bill, being highly accomplished engineers and mathematicians, would have good intuitions about statistical language processing problems such as spelling correction. But they didn't, and come to think of it, there's no reason they should: it was my expectations that were faulty, not their knowledge.
דבר שגם אני נוטה להתעלם ממנו כשאני מדבר עם אנשים (מתכנתים או אפילו חוקרים) על עיבוד שפה. 

וגם הגילוי הנאות: "אח"כ נאמן מודל הסתברותי, שזה בעצם מילים מנופחות לומר שנספור את המופעים של כל מילה". 

גם במודל שלו יש חיסרון קטן - צריך לשמור את רשימת המילים והשכיחויות שלהן - זה צורך זיכרון יקר, בעיקר כשמדובר במכשירים קטנים (בעצם אולי ההערה הזו נכונה ללפני שנתיים). וכמובן, כמו שכתבת - הכל תלוי בקורפוס ממנו לומדים את השכיחיות.</description> 		<content:encoded><![CDATA[<div dir="rtl"><div style='direction: rtl;'>
<p>יובל -<br />
זה לינק נהדר מכל כך הרבה בחינות. קודם כל הקוד הנקי והקצר הוא תאווה לעיניים.<br />
אבל זה גם הסיגנון וההסבר - החל מפסקת הפתיחה:<br />
What surprised me is that I thought Dean and Bill, being highly accomplished engineers and mathematicians, would have good intuitions about statistical language processing problems such as spelling correction. But they didn't, and come to think of it, there&#8217;s no reason they should: it was my expectations that were faulty, not their knowledge.<br />
דבר שגם אני נוטה להתעלם ממנו כשאני מדבר עם אנשים (מתכנתים או אפילו חוקרים) על עיבוד שפה. </p>
<p>וגם הגילוי הנאות: "אח"כ נאמן מודל הסתברותי, שזה בעצם מילים מנופחות לומר שנספור את המופעים של כל מילה". </p>
<p>גם במודל שלו יש חיסרון קטן - צריך לשמור את רשימת המילים והשכיחויות שלהן - זה צורך זיכרון יקר, בעיקר כשמדובר במכשירים קטנים (בעצם אולי ההערה הזו נכונה ללפני שנתיים). וכמובן, כמו שכתבת - הכל תלוי בקורפוס ממנו לומדים את השכיחיות.</p>
</div>
</div>]]></content:encoded>	</item>
	<item>
		<title>&#8235;מאת: יובל</title>
		<link>http://www.sciencefriction.net/blog/2008/02/03/75/#comment-360</link>
		<author>&#8235;יובל</author>  		<pubDate>Mon, 11 Feb 2008 08:47:13 +0000</pubDate>
		<guid>http://www.sciencefriction.net/blog/2008/02/03/75/#comment-360</guid>
		<description>&#8235;תודה יואב. אז הנה לינק מאד מעשי. פיטר נורביג, מנהל המחקר בגוגל, מדגים בניית בודק איות בפיתון. הוא די טוען שעיקר הבעיה היא איסוף נתונים. ולמי יש הכי הרבה נתונים על השימוש בשפה? ניחשתם נכון:
http://norvig.com/spell-correct.html</description> 		<content:encoded><![CDATA[<div dir="rtl"><div style='direction: rtl;'>
<p>תודה יואב. אז הנה לינק מאד מעשי. פיטר נורביג, מנהל המחקר בגוגל, מדגים בניית בודק איות בפיתון. הוא די טוען שעיקר הבעיה היא איסוף נתונים. ולמי יש הכי הרבה נתונים על השימוש בשפה? ניחשתם נכון:<br />
<a href="http://norvig.com/spell-correct.html" rel="nofollow">http://norvig.com/spell-correct.html</a></p>
</div>
</div>]]></content:encoded>	</item>
	<item>
		<title>&#8235;מאת: בודה כי עוט &#187; במרכאות כפולות</title>
		<link>http://www.sciencefriction.net/blog/2008/02/03/75/#comment-333</link>
		<author>&#8235;בודה כי עוט &#187; במרכאות כפולות</author>  		<pubDate>Wed, 06 Feb 2008 18:29:20 +0000</pubDate>
		<guid>http://www.sciencefriction.net/blog/2008/02/03/75/#comment-333</guid>
		<description>&#8235;[...] אורן צור מראה לטכנולוגיה מאיפה משתין הדאג. [...]</description> 		<content:encoded><![CDATA[<div dir="rtl"><div style='direction: rtl;'>
<p>[&#8230;] אורן צור מראה לטכנולוגיה מאיפה משתין הדאג. [&#8230;]</p>
</div>
</div>]]></content:encoded>	</item>
	<item>
		<title>&#8235;מאת: ימימה</title>
		<link>http://www.sciencefriction.net/blog/2008/02/03/75/#comment-326</link>
		<author>&#8235;ימימה</author>  		<pubDate>Tue, 05 Feb 2008 12:22:44 +0000</pubDate>
		<guid>http://www.sciencefriction.net/blog/2008/02/03/75/#comment-326</guid>
		<description>&#8235;אויש, בודקי האיות המזורגגים האלה. 

בטלפון שלי זה דבר נורא. הוא לא מכיר אפילו את המילה "נרדמה?" מילה חשובה במיוחד כשהולכים למקהלה ואבא מרדים את הילדה. אני נאלצת להשתמש בחלופה "ישנה?" שלא מעבירה היטב את הדרמה שמתחוללת חצי שעה קודם. 

שלא לדבר על מילים כמו "מנוזלת" או סתם "נזלת" שצריך לכתוב במהירות מדי פעם כדי לקבל המלצות על המשך הטיפול ההומיאופתי.</description> 		<content:encoded><![CDATA[<div dir="rtl"><div style='direction: rtl;'>
<p>אויש, בודקי האיות המזורגגים האלה. </p>
<p>בטלפון שלי זה דבר נורא. הוא לא מכיר אפילו את המילה "נרדמה?" מילה חשובה במיוחד כשהולכים למקהלה ואבא מרדים את הילדה. אני נאלצת להשתמש בחלופה "ישנה?" שלא מעבירה היטב את הדרמה שמתחוללת חצי שעה קודם. </p>
<p>שלא לדבר על מילים כמו "מנוזלת" או סתם "נזלת" שצריך לכתוב במהירות מדי פעם כדי לקבל המלצות על המשך הטיפול ההומיאופתי.</p>
</div>
</div>]]></content:encoded>	</item>
	<item>
		<title>&#8235;מאת: יואב</title>
		<link>http://www.sciencefriction.net/blog/2008/02/03/75/#comment-318</link>
		<author>&#8235;יואב</author>  		<pubDate>Mon, 04 Feb 2008 18:54:56 +0000</pubDate>
		<guid>http://www.sciencefriction.net/blog/2008/02/03/75/#comment-318</guid>
		<description>&#8235;יובל:  מימוש פתוח של אלגוריתם הלמידה עצמו (SNoW) קיים, ניתן להגיע מהאתר של קבוצת עיבוד השפה ב-uiuc.  אבל המימוש של אלגוריתמים כאלו הוא די טריויאלי, ובנוסף אלגוריתם הלמידה עצמו משחק תפקיד קטן למדי בבעיות כגון אלו, להערכתי כל אלגוריתם אחר ללמידת מסווגים לינאריים ייתן תוצאות דומות מאד.

מה שלא קיים זה תוכנה שמממשת את המאמר שהבאת, כלומר משתמשת באלגוריתם הלמידה הזה (או אחר) עם אוסף המאפיינים שהוצגו במאמר.  גם אותה יהיה  טריויאלי לכתוב.  הסיבה שאף אחד לא עשה את זה עדיין, היא שזה ממש ממש לא ישים לשום יישום פרקטי.

שים לב שבשיטה שלהם יש לאמן מסווג נפרד עבור כל קבוצת מילים שניתן לטעות ביניהן! הם אימנו ובדקו את האלגוריתם שלהם על כ-20 קבוצות כאלו.  יישום פרקטי (למשל כזה שיידע להבחין בין Obama ל-Osama) יצטרך להתאמן על מספר עצום של קבוצות מילים. המשמעות של זה היא גם זמן ריצה ארוך מאד באימון, גם דרישה למקום אכסון עצום עבור המודלים שמתקבלים, וגם זמן ריצה ארוך מאד בבדיקת איות, כי כעת כל מילה בטקסט תעבור השוואה+סיווג לכל המילים במרחק עריכה מסויים ממנה (בניגוד לבודקי איות כיום שפשוט בודקים האם המילה נמצאת ברשימה שלהם או לא, בדיקה פשוטה בהרבה).  

----

וכל העיסוק הזה באיות תלוי הקשר הזכיר לי שלפני שנתיים הייתי צריך, במסגרת קורס, להעביר הרצאה פופולרית על "מה זה עיבוד שפה טבעית", והדגמתי שם איך מידע סטטיסטי יכול לעזור לקבוע ש Eye halve a spelling chequer זו כנראה טעות.  למתעניינים: http://www.cs.bgu.ac.il/~yoavg/presentations/NlpForDummies.ppt</description> 		<content:encoded><![CDATA[<div dir="rtl"><div style='direction: rtl;'>
<p>יובל:  מימוש פתוח של אלגוריתם הלמידה עצמו (SNoW) קיים, ניתן להגיע מהאתר של קבוצת עיבוד השפה ב-uiuc.  אבל המימוש של אלגוריתמים כאלו הוא די טריויאלי, ובנוסף אלגוריתם הלמידה עצמו משחק תפקיד קטן למדי בבעיות כגון אלו, להערכתי כל אלגוריתם אחר ללמידת מסווגים לינאריים ייתן תוצאות דומות מאד.</p>
<p>מה שלא קיים זה תוכנה שמממשת את המאמר שהבאת, כלומר משתמשת באלגוריתם הלמידה הזה (או אחר) עם אוסף המאפיינים שהוצגו במאמר.  גם אותה יהיה  טריויאלי לכתוב.  הסיבה שאף אחד לא עשה את זה עדיין, היא שזה ממש ממש לא ישים לשום יישום פרקטי.</p>
<p>שים לב שבשיטה שלהם יש לאמן מסווג נפרד עבור כל קבוצת מילים שניתן לטעות ביניהן! הם אימנו ובדקו את האלגוריתם שלהם על כ-20 קבוצות כאלו.  יישום פרקטי (למשל כזה שיידע להבחין בין Obama ל-Osama) יצטרך להתאמן על מספר עצום של קבוצות מילים. המשמעות של זה היא גם זמן ריצה ארוך מאד באימון, גם דרישה למקום אכסון עצום עבור המודלים שמתקבלים, וגם זמן ריצה ארוך מאד בבדיקת איות, כי כעת כל מילה בטקסט תעבור השוואה+סיווג לכל המילים במרחק עריכה מסויים ממנה (בניגוד לבודקי איות כיום שפשוט בודקים האם המילה נמצאת ברשימה שלהם או לא, בדיקה פשוטה בהרבה).  </p>
<p>&#8212;-</p>
<p>וכל העיסוק הזה באיות תלוי הקשר הזכיר לי שלפני שנתיים הייתי צריך, במסגרת קורס, להעביר הרצאה פופולרית על "מה זה עיבוד שפה טבעית", והדגמתי שם איך מידע סטטיסטי יכול לעזור לקבוע ש Eye halve a spelling chequer זו כנראה טעות.  למתעניינים: <a href="http://www.cs.bgu.ac.il/~yoavg/presentations/NlpForDummies.ppt" rel="nofollow">http://www.cs.bgu.ac.il/~yoavg/presentations/NlpForDummies.ppt</a></p>
</div>
</div>]]></content:encoded>	</item>
	<item>
		<title>&#8235;מאת: אורן</title>
		<link>http://www.sciencefriction.net/blog/2008/02/03/75/#comment-316</link>
		<author>&#8235;אורן</author>  		<pubDate>Mon, 04 Feb 2008 08:17:34 +0000</pubDate>
		<guid>http://www.sciencefriction.net/blog/2008/02/03/75/#comment-316</guid>
		<description>&#8235;יובל, 
גם על זה כתבתי קצת באחד (בלינק על האנגרמים) אבל הבעיה במימוש פתוח של זה היא שבהרבה מקרים יש אנאפורות לפתור. בפעם הראשונה כתוב ברק אובאמה, אבל בכל שאר הפעמים יהיה כתוב רק אובאמה. מקרה קיצוני יותר - ברק אובאמה שוטח את משנתו בקשר למלחמה בטרור ומדבר גם על אוסאמה ואז אוסאמה כבר ממש מופיע בטקסט. 
אבל הנה רעיון לשימוש בפלטפורמה של רויטר מהפוסט הקודם - תיוג מסמכים בשביל תיקון שגיאות. רק שזה כבד מאוד ותקף רק באקדמיה.</description> 		<content:encoded><![CDATA[<div dir="rtl"><div style='direction: rtl;'>
<p>יובל,<br />
גם על זה כתבתי קצת באחד (בלינק על האנגרמים) אבל הבעיה במימוש פתוח של זה היא שבהרבה מקרים יש אנאפורות לפתור. בפעם הראשונה כתוב ברק אובאמה, אבל בכל שאר הפעמים יהיה כתוב רק אובאמה. מקרה קיצוני יותר - ברק אובאמה שוטח את משנתו בקשר למלחמה בטרור ומדבר גם על אוסאמה ואז אוסאמה כבר ממש מופיע בטקסט.<br />
אבל הנה רעיון לשימוש בפלטפורמה של רויטר מהפוסט הקודם - תיוג מסמכים בשביל תיקון שגיאות. רק שזה כבד מאוד ותקף רק באקדמיה.</p>
</div>
</div>]]></content:encoded>	</item>
	<item>
		<title>&#8235;מאת: יובל</title>
		<link>http://www.sciencefriction.net/blog/2008/02/03/75/#comment-315</link>
		<author>&#8235;יובל</author>  		<pubDate>Mon, 04 Feb 2008 07:37:24 +0000</pubDate>
		<guid>http://www.sciencefriction.net/blog/2008/02/03/75/#comment-315</guid>
		<description>&#8235;ואלגוריתם עוד יותר מתוחכם - של אנדרו גולדינג ודן רות, לוקח בחשבון גם מילים סמוכות (ברק ==&#62; אובמה) (בן לאדן ==&#62; אוסמה):
http://citeseer.ist.psu.edu/116990.html
לא ידוע לי על מימוש מסחרי/קוד פתוח של האלגוריתם הזה.</description> 		<content:encoded><![CDATA[<div dir="rtl"><div style='direction: rtl;'>
<p>ואלגוריתם עוד יותר מתוחכם - של אנדרו גולדינג ודן רות, לוקח בחשבון גם מילים סמוכות (ברק ==&gt; אובמה) (בן לאדן ==&gt; אוסמה):<br />
<a href="http://citeseer.ist.psu.edu/116990.html" rel="nofollow">http://citeseer.ist.psu.edu/116990.html</a><br />
לא ידוע לי על מימוש מסחרי/קוד פתוח של האלגוריתם הזה.</p>
</div>
</div>]]></content:encoded>	</item>
	<item>
		<title>&#8235;מאת: אורן</title>
		<link>http://www.sciencefriction.net/blog/2008/02/03/75/#comment-313</link>
		<author>&#8235;אורן</author>  		<pubDate>Sun, 03 Feb 2008 20:54:22 +0000</pubDate>
		<guid>http://www.sciencefriction.net/blog/2008/02/03/75/#comment-313</guid>
		<description>&#8235;עירא - 
צריך לעשות חסד קטן עם מייקרוסופט. עם צוללים לLanguage Log ומשם לכתבה בABC, מגלים שזה נכון בגרסאות הישנות של אופיס, כלומר באופיס 2003. מיירוסופט כמובן מצפים שתקנה עדכונים או תשדרג או אני לא יודע מה. 
והסמיילי - זה לא אתה - זה הLTR דפוק כאן בתגובות.</description> 		<content:encoded><![CDATA[<div dir="rtl"><div style='direction: rtl;'>
<p>עירא -<br />
צריך לעשות חסד קטן עם מייקרוסופט. עם צוללים לLanguage Log ומשם לכתבה בABC, מגלים שזה נכון בגרסאות הישנות של אופיס, כלומר באופיס 2003. מיירוסופט כמובן מצפים שתקנה עדכונים או תשדרג או אני לא יודע מה.<br />
והסמיילי - זה לא אתה - זה הLTR דפוק כאן בתגובות.</p>
</div>
</div>]]></content:encoded>	</item>
	<item>
		<title>&#8235;מאת: אינשולדיגן Z</title>
		<link>http://www.sciencefriction.net/blog/2008/02/03/75/#comment-311</link>
		<author>&#8235;אינשולדיגן Z</author>  		<pubDate>Sun, 03 Feb 2008 17:31:34 +0000</pubDate>
		<guid>http://www.sciencefriction.net/blog/2008/02/03/75/#comment-311</guid>
		<description>&#8235;יכול להשבע שהקלדתי סמיילי מחייך ולא עצוב... :-(</description> 		<content:encoded><![CDATA[<div dir="rtl"><div style='direction: rtl;'>
<p>יכול להשבע שהקלדתי סמיילי מחייך ולא עצוב&#8230; <img src='http://www.sciencefriction.net/blog/wp-includes/images/smilies/icon_sad.gif' alt=':-(' class='wp-smiley' /> </p>
</div>
</div>]]></content:encoded>	</item>
	<item>
		<title>&#8235;מאת: אינשולדיגן Z</title>
		<link>http://www.sciencefriction.net/blog/2008/02/03/75/#comment-310</link>
		<author>&#8235;אינשולדיגן Z</author>  		<pubDate>Sun, 03 Feb 2008 17:30:58 +0000</pubDate>
		<guid>http://www.sciencefriction.net/blog/2008/02/03/75/#comment-310</guid>
		<description>&#8235;קשה לי להזכר מתי קרו להם שטויות מצחיקות כאלו בחלונות אנגלית (אני בטוח שהיו) אבל בגרסה הסינית היה מקרה אחד של הודעות מערכת טעונות פוליטית שתורגמו ע"י חברה טייואנית עם אג'נדה.

מצחיק לראות את ההצעה הזאת בספל צ'קר בראי התקופה הנוכחית... במיוחד שמשחקי "אובמה-אוסמה" כבר צצו בסטנד-אפ ומצחיקוני יוטיוב למיניהם, והנה מיקרוסופט "נותנת גושפנקא". יפה :-)</description> 		<content:encoded><![CDATA[<div dir="rtl"><div style='direction: rtl;'>
<p>קשה לי להזכר מתי קרו להם שטויות מצחיקות כאלו בחלונות אנגלית (אני בטוח שהיו) אבל בגרסה הסינית היה מקרה אחד של הודעות מערכת טעונות פוליטית שתורגמו ע"י חברה טייואנית עם אג'נדה.</p>
<p>מצחיק לראות את ההצעה הזאת בספל צ'קר בראי התקופה הנוכחית&#8230; במיוחד שמשחקי "אובמה-אוסמה" כבר צצו בסטנד-אפ ומצחיקוני יוטיוב למיניהם, והנה מיקרוסופט "נותנת גושפנקא". יפה <img src='http://www.sciencefriction.net/blog/wp-includes/images/smilies/icon_smile.gif' alt=':-)' class='wp-smiley' /> </p>
</div>
</div>]]></content:encoded>	</item>
</channel>
</rss>
