<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
		>
<channel>
	<title>&#8235;תגובות לפוסט: &#34;בודק איות (spell checker) עם אג&#039;נדה פוליטית?&#34;&#8236;</title>
	<atom:link href="http://www.sciencefriction.net/blog/2008/02/03/75/feed/" rel="self" type="application/rss+xml" />
	<link>http://www.sciencefriction.net/blog/2008/02/03/75/</link>
	<description>&#8235;מעניין. אולי זה אפילו נכון.&#8236;</description> 	<lastBuildDate>Sun, 05 Sep 2010 20:20:18 +0000</lastBuildDate>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.0</generator>
	<item>
		<title>&#8235;מאת: אורן&#8236;</title>
		<link>http://www.sciencefriction.net/blog/2008/02/03/75/comment-page-1/#comment-363</link>
		<dc:creator>&#8235;אורן&#8236;</dc:creator>		<pubDate>Mon, 11 Feb 2008 15:38:38 +0000</pubDate>
		<guid isPermaLink="false">http://www.sciencefriction.net/blog/2008/02/03/75/#comment-363</guid>
		<description>&#8235;יובל - 
זה לינק נהדר מכל כך הרבה בחינות. קודם כל הקוד הנקי והקצר הוא תאווה לעיניים.
אבל זה גם הסיגנון וההסבר - החל מפסקת הפתיחה:
What surprised me is that I thought Dean and Bill, being highly accomplished engineers and mathematicians, would have good intuitions about statistical language processing problems such as spelling correction. But they didn&#039;t, and come to think of it, there&#039;s no reason they should: it was my expectations that were faulty, not their knowledge.
דבר שגם אני נוטה להתעלם ממנו כשאני מדבר עם אנשים (מתכנתים או אפילו חוקרים) על עיבוד שפה. 

וגם הגילוי הנאות: &quot;אח&quot;כ נאמן מודל הסתברותי, שזה בעצם מילים מנופחות לומר שנספור את המופעים של כל מילה&quot;. 

גם במודל שלו יש חיסרון קטן - צריך לשמור את רשימת המילים והשכיחויות שלהן - זה צורך זיכרון יקר, בעיקר כשמדובר במכשירים קטנים (בעצם אולי ההערה הזו נכונה ללפני שנתיים). וכמובן, כמו שכתבת - הכל תלוי בקורפוס ממנו לומדים את השכיחיות.&#8236;</description> 		<content:encoded><![CDATA[<div style='direction: rtl;'>
<p>יובל &#8211;<br />
זה לינק נהדר מכל כך הרבה בחינות. קודם כל הקוד הנקי והקצר הוא תאווה לעיניים.<br />
אבל זה גם הסיגנון וההסבר &#8211; החל מפסקת הפתיחה:<br />
What surprised me is that I thought Dean and Bill, being highly accomplished engineers and mathematicians, would have good intuitions about statistical language processing problems such as spelling correction. But they didn't, and come to think of it, there's no reason they should: it was my expectations that were faulty, not their knowledge.<br />
דבר שגם אני נוטה להתעלם ממנו כשאני מדבר עם אנשים (מתכנתים או אפילו חוקרים) על עיבוד שפה. </p>
<p>וגם הגילוי הנאות: &quot;אח&quot;כ נאמן מודל הסתברותי, שזה בעצם מילים מנופחות לומר שנספור את המופעים של כל מילה&quot;. </p>
<p>גם במודל שלו יש חיסרון קטן &#8211; צריך לשמור את רשימת המילים והשכיחויות שלהן &#8211; זה צורך זיכרון יקר, בעיקר כשמדובר במכשירים קטנים (בעצם אולי ההערה הזו נכונה ללפני שנתיים). וכמובן, כמו שכתבת &#8211; הכל תלוי בקורפוס ממנו לומדים את השכיחיות.</p>
</div>
]]></content:encoded>
	</item>
	<item>
		<title>&#8235;מאת: יובל&#8236;</title>
		<link>http://www.sciencefriction.net/blog/2008/02/03/75/comment-page-1/#comment-360</link>
		<dc:creator>&#8235;יובל&#8236;</dc:creator>		<pubDate>Mon, 11 Feb 2008 08:47:13 +0000</pubDate>
		<guid isPermaLink="false">http://www.sciencefriction.net/blog/2008/02/03/75/#comment-360</guid>
		<description>&#8235;תודה יואב. אז הנה לינק מאד מעשי. פיטר נורביג, מנהל המחקר בגוגל, מדגים בניית בודק איות בפיתון. הוא די טוען שעיקר הבעיה היא איסוף נתונים. ולמי יש הכי הרבה נתונים על השימוש בשפה? ניחשתם נכון:
http://norvig.com/spell-correct.html&#8236;</description> 		<content:encoded><![CDATA[<div style='direction: rtl;'>
<p>תודה יואב. אז הנה לינק מאד מעשי. פיטר נורביג, מנהל המחקר בגוגל, מדגים בניית בודק איות בפיתון. הוא די טוען שעיקר הבעיה היא איסוף נתונים. ולמי יש הכי הרבה נתונים על השימוש בשפה? ניחשתם נכון:<br />
<a href="http://norvig.com/spell-correct.html" rel="nofollow">http://norvig.com/spell-correct.html</a></p>
</div>
]]></content:encoded>
	</item>
	<item>
		<title>&#8235;מאת: בודה כי עוט &#187; במרכאות כפולות&#8236;</title>
		<link>http://www.sciencefriction.net/blog/2008/02/03/75/comment-page-1/#comment-333</link>
		<dc:creator>&#8235;בודה כי עוט &#187; במרכאות כפולות&#8236;</dc:creator>		<pubDate>Wed, 06 Feb 2008 18:29:20 +0000</pubDate>
		<guid isPermaLink="false">http://www.sciencefriction.net/blog/2008/02/03/75/#comment-333</guid>
		<description>&#8235;[...] אורן צור מראה לטכנולוגיה מאיפה משתין הדאג. [...]&#8236;</description> 		<content:encoded><![CDATA[<div style='direction: rtl;'>
<p>[...] אורן צור מראה לטכנולוגיה מאיפה משתין הדאג. [...]</p>
</div>
]]></content:encoded>
	</item>
	<item>
		<title>&#8235;מאת: ימימה&#8236;</title>
		<link>http://www.sciencefriction.net/blog/2008/02/03/75/comment-page-1/#comment-326</link>
		<dc:creator>&#8235;ימימה&#8236;</dc:creator>		<pubDate>Tue, 05 Feb 2008 12:22:44 +0000</pubDate>
		<guid isPermaLink="false">http://www.sciencefriction.net/blog/2008/02/03/75/#comment-326</guid>
		<description>&#8235;אויש, בודקי האיות המזורגגים האלה. 

בטלפון שלי זה דבר נורא. הוא לא מכיר אפילו את המילה &quot;נרדמה?&quot; מילה חשובה במיוחד כשהולכים למקהלה ואבא מרדים את הילדה. אני נאלצת להשתמש בחלופה &quot;ישנה?&quot; שלא מעבירה היטב את הדרמה שמתחוללת חצי שעה קודם. 

שלא לדבר על מילים כמו &quot;מנוזלת&quot; או סתם &quot;נזלת&quot; שצריך לכתוב במהירות מדי פעם כדי לקבל המלצות על המשך הטיפול ההומיאופתי.&#8236;</description> 		<content:encoded><![CDATA[<div style='direction: rtl;'>
<p>אויש, בודקי האיות המזורגגים האלה. </p>
<p>בטלפון שלי זה דבר נורא. הוא לא מכיר אפילו את המילה &quot;נרדמה?&quot; מילה חשובה במיוחד כשהולכים למקהלה ואבא מרדים את הילדה. אני נאלצת להשתמש בחלופה &quot;ישנה?&quot; שלא מעבירה היטב את הדרמה שמתחוללת חצי שעה קודם. </p>
<p>שלא לדבר על מילים כמו &quot;מנוזלת&quot; או סתם &quot;נזלת&quot; שצריך לכתוב במהירות מדי פעם כדי לקבל המלצות על המשך הטיפול ההומיאופתי.</p>
</div>
]]></content:encoded>
	</item>
	<item>
		<title>&#8235;מאת: יואב&#8236;</title>
		<link>http://www.sciencefriction.net/blog/2008/02/03/75/comment-page-1/#comment-318</link>
		<dc:creator>&#8235;יואב&#8236;</dc:creator>		<pubDate>Mon, 04 Feb 2008 18:54:56 +0000</pubDate>
		<guid isPermaLink="false">http://www.sciencefriction.net/blog/2008/02/03/75/#comment-318</guid>
		<description>&#8235;יובל:  מימוש פתוח של אלגוריתם הלמידה עצמו (SNoW) קיים, ניתן להגיע מהאתר של קבוצת עיבוד השפה ב-uiuc.  אבל המימוש של אלגוריתמים כאלו הוא די טריויאלי, ובנוסף אלגוריתם הלמידה עצמו משחק תפקיד קטן למדי בבעיות כגון אלו, להערכתי כל אלגוריתם אחר ללמידת מסווגים לינאריים ייתן תוצאות דומות מאד.

מה שלא קיים זה תוכנה שמממשת את המאמר שהבאת, כלומר משתמשת באלגוריתם הלמידה הזה (או אחר) עם אוסף המאפיינים שהוצגו במאמר.  גם אותה יהיה  טריויאלי לכתוב.  הסיבה שאף אחד לא עשה את זה עדיין, היא שזה ממש ממש לא ישים לשום יישום פרקטי.

שים לב שבשיטה שלהם יש לאמן מסווג נפרד עבור כל קבוצת מילים שניתן לטעות ביניהן! הם אימנו ובדקו את האלגוריתם שלהם על כ-20 קבוצות כאלו.  יישום פרקטי (למשל כזה שיידע להבחין בין Obama ל-Osama) יצטרך להתאמן על מספר עצום של קבוצות מילים. המשמעות של זה היא גם זמן ריצה ארוך מאד באימון, גם דרישה למקום אכסון עצום עבור המודלים שמתקבלים, וגם זמן ריצה ארוך מאד בבדיקת איות, כי כעת כל מילה בטקסט תעבור השוואה+סיווג לכל המילים במרחק עריכה מסויים ממנה (בניגוד לבודקי איות כיום שפשוט בודקים האם המילה נמצאת ברשימה שלהם או לא, בדיקה פשוטה בהרבה).  

----

וכל העיסוק הזה באיות תלוי הקשר הזכיר לי שלפני שנתיים הייתי צריך, במסגרת קורס, להעביר הרצאה פופולרית על &quot;מה זה עיבוד שפה טבעית&quot;, והדגמתי שם איך מידע סטטיסטי יכול לעזור לקבוע ש Eye halve a spelling chequer זו כנראה טעות.  למתעניינים: http://www.cs.bgu.ac.il/~yoavg/presentations/NlpForDummies.ppt&#8236;</description> 		<content:encoded><![CDATA[<div style='direction: rtl;'>
<p>יובל:  מימוש פתוח של אלגוריתם הלמידה עצמו (SNoW) קיים, ניתן להגיע מהאתר של קבוצת עיבוד השפה ב-uiuc.  אבל המימוש של אלגוריתמים כאלו הוא די טריויאלי, ובנוסף אלגוריתם הלמידה עצמו משחק תפקיד קטן למדי בבעיות כגון אלו, להערכתי כל אלגוריתם אחר ללמידת מסווגים לינאריים ייתן תוצאות דומות מאד.</p>
<p>מה שלא קיים זה תוכנה שמממשת את המאמר שהבאת, כלומר משתמשת באלגוריתם הלמידה הזה (או אחר) עם אוסף המאפיינים שהוצגו במאמר.  גם אותה יהיה  טריויאלי לכתוב.  הסיבה שאף אחד לא עשה את זה עדיין, היא שזה ממש ממש לא ישים לשום יישום פרקטי.</p>
<p>שים לב שבשיטה שלהם יש לאמן מסווג נפרד עבור כל קבוצת מילים שניתן לטעות ביניהן! הם אימנו ובדקו את האלגוריתם שלהם על כ-20 קבוצות כאלו.  יישום פרקטי (למשל כזה שיידע להבחין בין Obama ל-Osama) יצטרך להתאמן על מספר עצום של קבוצות מילים. המשמעות של זה היא גם זמן ריצה ארוך מאד באימון, גם דרישה למקום אכסון עצום עבור המודלים שמתקבלים, וגם זמן ריצה ארוך מאד בבדיקת איות, כי כעת כל מילה בטקסט תעבור השוואה+סיווג לכל המילים במרחק עריכה מסויים ממנה (בניגוד לבודקי איות כיום שפשוט בודקים האם המילה נמצאת ברשימה שלהם או לא, בדיקה פשוטה בהרבה).  </p>
<p>&#8212;-</p>
<p>וכל העיסוק הזה באיות תלוי הקשר הזכיר לי שלפני שנתיים הייתי צריך, במסגרת קורס, להעביר הרצאה פופולרית על &quot;מה זה עיבוד שפה טבעית&quot;, והדגמתי שם איך מידע סטטיסטי יכול לעזור לקבוע ש Eye halve a spelling chequer זו כנראה טעות.  למתעניינים: <a href="http://www.cs.bgu.ac.il/~yoavg/presentations/NlpForDummies.ppt" rel="nofollow">http://www.cs.bgu.ac.il/~yoavg/presentations/NlpForDummies.ppt</a></p>
</div>
]]></content:encoded>
	</item>
	<item>
		<title>&#8235;מאת: אורן&#8236;</title>
		<link>http://www.sciencefriction.net/blog/2008/02/03/75/comment-page-1/#comment-316</link>
		<dc:creator>&#8235;אורן&#8236;</dc:creator>		<pubDate>Mon, 04 Feb 2008 08:17:34 +0000</pubDate>
		<guid isPermaLink="false">http://www.sciencefriction.net/blog/2008/02/03/75/#comment-316</guid>
		<description>&#8235;יובל, 
גם על זה כתבתי קצת באחד (בלינק על האנגרמים) אבל הבעיה במימוש פתוח של זה היא שבהרבה מקרים יש אנאפורות לפתור. בפעם הראשונה כתוב ברק אובאמה, אבל בכל שאר הפעמים יהיה כתוב רק אובאמה. מקרה קיצוני יותר - ברק אובאמה שוטח את משנתו בקשר למלחמה בטרור ומדבר גם על אוסאמה ואז אוסאמה כבר ממש מופיע בטקסט. 
אבל הנה רעיון לשימוש בפלטפורמה של רויטר מהפוסט הקודם - תיוג מסמכים בשביל תיקון שגיאות. רק שזה כבד מאוד ותקף רק באקדמיה.&#8236;</description> 		<content:encoded><![CDATA[<div style='direction: rtl;'>
<p>יובל,<br />
גם על זה כתבתי קצת באחד (בלינק על האנגרמים) אבל הבעיה במימוש פתוח של זה היא שבהרבה מקרים יש אנאפורות לפתור. בפעם הראשונה כתוב ברק אובאמה, אבל בכל שאר הפעמים יהיה כתוב רק אובאמה. מקרה קיצוני יותר &#8211; ברק אובאמה שוטח את משנתו בקשר למלחמה בטרור ומדבר גם על אוסאמה ואז אוסאמה כבר ממש מופיע בטקסט.<br />
אבל הנה רעיון לשימוש בפלטפורמה של רויטר מהפוסט הקודם &#8211; תיוג מסמכים בשביל תיקון שגיאות. רק שזה כבד מאוד ותקף רק באקדמיה.</p>
</div>
]]></content:encoded>
	</item>
	<item>
		<title>&#8235;מאת: יובל&#8236;</title>
		<link>http://www.sciencefriction.net/blog/2008/02/03/75/comment-page-1/#comment-315</link>
		<dc:creator>&#8235;יובל&#8236;</dc:creator>		<pubDate>Mon, 04 Feb 2008 07:37:24 +0000</pubDate>
		<guid isPermaLink="false">http://www.sciencefriction.net/blog/2008/02/03/75/#comment-315</guid>
		<description>&#8235;ואלגוריתם עוד יותר מתוחכם - של אנדרו גולדינג ודן רות, לוקח בחשבון גם מילים סמוכות (ברק ==&gt; אובמה) (בן לאדן ==&gt; אוסמה):
http://citeseer.ist.psu.edu/116990.html
לא ידוע לי על מימוש מסחרי/קוד פתוח של האלגוריתם הזה.&#8236;</description> 		<content:encoded><![CDATA[<div style='direction: rtl;'>
<p>ואלגוריתם עוד יותר מתוחכם &#8211; של אנדרו גולדינג ודן רות, לוקח בחשבון גם מילים סמוכות (ברק ==&gt; אובמה) (בן לאדן ==&gt; אוסמה):<br />
<a href="http://citeseer.ist.psu.edu/116990.html" rel="nofollow">http://citeseer.ist.psu.edu/116990.html</a><br />
לא ידוע לי על מימוש מסחרי/קוד פתוח של האלגוריתם הזה.</p>
</div>
]]></content:encoded>
	</item>
	<item>
		<title>&#8235;מאת: אורן&#8236;</title>
		<link>http://www.sciencefriction.net/blog/2008/02/03/75/comment-page-1/#comment-313</link>
		<dc:creator>&#8235;אורן&#8236;</dc:creator>		<pubDate>Sun, 03 Feb 2008 20:54:22 +0000</pubDate>
		<guid isPermaLink="false">http://www.sciencefriction.net/blog/2008/02/03/75/#comment-313</guid>
		<description>&#8235;עירא - 
צריך לעשות חסד קטן עם מייקרוסופט. עם צוללים לLanguage Log ומשם לכתבה בABC, מגלים שזה נכון בגרסאות הישנות של אופיס, כלומר באופיס 2003. מיירוסופט כמובן מצפים שתקנה עדכונים או תשדרג או אני לא יודע מה. 
והסמיילי - זה לא אתה - זה הLTR דפוק כאן בתגובות.&#8236;</description> 		<content:encoded><![CDATA[<div style='direction: rtl;'>
<p>עירא &#8211;<br />
צריך לעשות חסד קטן עם מייקרוסופט. עם צוללים לLanguage Log ומשם לכתבה בABC, מגלים שזה נכון בגרסאות הישנות של אופיס, כלומר באופיס 2003. מיירוסופט כמובן מצפים שתקנה עדכונים או תשדרג או אני לא יודע מה.<br />
והסמיילי &#8211; זה לא אתה &#8211; זה הLTR דפוק כאן בתגובות.</p>
</div>
]]></content:encoded>
	</item>
	<item>
		<title>&#8235;מאת: אינשולדיגן Z&#8236;</title>
		<link>http://www.sciencefriction.net/blog/2008/02/03/75/comment-page-1/#comment-311</link>
		<dc:creator>&#8235;אינשולדיגן Z&#8236;</dc:creator>		<pubDate>Sun, 03 Feb 2008 17:31:34 +0000</pubDate>
		<guid isPermaLink="false">http://www.sciencefriction.net/blog/2008/02/03/75/#comment-311</guid>
		<description>&#8235;יכול להשבע שהקלדתי סמיילי מחייך ולא עצוב... :-(&#8236;</description> 		<content:encoded><![CDATA[<div style='direction: rtl;'>
<p>יכול להשבע שהקלדתי סמיילי מחייך ולא עצוב&#8230; :-(</p>
</div>
]]></content:encoded>
	</item>
	<item>
		<title>&#8235;מאת: אינשולדיגן Z&#8236;</title>
		<link>http://www.sciencefriction.net/blog/2008/02/03/75/comment-page-1/#comment-310</link>
		<dc:creator>&#8235;אינשולדיגן Z&#8236;</dc:creator>		<pubDate>Sun, 03 Feb 2008 17:30:58 +0000</pubDate>
		<guid isPermaLink="false">http://www.sciencefriction.net/blog/2008/02/03/75/#comment-310</guid>
		<description>&#8235;קשה לי להזכר מתי קרו להם שטויות מצחיקות כאלו בחלונות אנגלית (אני בטוח שהיו) אבל בגרסה הסינית היה מקרה אחד של הודעות מערכת טעונות פוליטית שתורגמו ע&quot;י חברה טייואנית עם אג&#039;נדה.

מצחיק לראות את ההצעה הזאת בספל צ&#039;קר בראי התקופה הנוכחית... במיוחד שמשחקי &quot;אובמה-אוסמה&quot; כבר צצו בסטנד-אפ ומצחיקוני יוטיוב למיניהם, והנה מיקרוסופט &quot;נותנת גושפנקא&quot;. יפה :-)&#8236;</description> 		<content:encoded><![CDATA[<div style='direction: rtl;'>
<p>קשה לי להזכר מתי קרו להם שטויות מצחיקות כאלו בחלונות אנגלית (אני בטוח שהיו) אבל בגרסה הסינית היה מקרה אחד של הודעות מערכת טעונות פוליטית שתורגמו ע&quot;י חברה טייואנית עם אג'נדה.</p>
<p>מצחיק לראות את ההצעה הזאת בספל צ'קר בראי התקופה הנוכחית&#8230; במיוחד שמשחקי &quot;אובמה-אוסמה&quot; כבר צצו בסטנד-אפ ומצחיקוני יוטיוב למיניהם, והנה מיקרוסופט &quot;נותנת גושפנקא&quot;. יפה :-)</p>
</div>
]]></content:encoded>
	</item>
</channel>
</rss>
