
לפני כשבוע השיקה רויטרס פרוייקט חדש, מסקרן ויומרני לאללה – קַלֵה (קַלֵיי, Calais). קלה מציע שורה של שירותי רשת לניתוח ותיוג אוטומטי של מסמכים ועמודים. חינם.
האזרח הגלובלי הממוצע מכיר את רויטרס (Reuters) כסוכנות ידיעות. הישראלי הממוצע מכיר את רויטרס כסוכנות ידיעות חובבנית (או גרוע מכך - מוּטָה בזדון) לידיעות מפוברקות ופרו-ערביות, למשל ההפצצות בלבנון (חתונה לבנה ועוד), או הפסקת החשמל בעזה (חושך לאור יום). אבל החלק הארי והפחות מוכר של רויטרס קשור יותר למחקר ופיתוח ופחות לעיתונות (הזוית הישראלית: לפני כשנה רכשה רויטרס את Clear Forest הישראלית, חברה שעוסקת בכריית מידע, ביטחוני ועסקי).
השם Calais, מעיד על החשיבות והשאפתנות של הפרוייקט, לפחות בעיניי האדונים מרויטרס – רמז למורשת ההיסטורית של החברה: הנחת קו הטלגרף התת-ימי הראשון שחצה את תעלת למאנש וחיבר בין דובר האנגלית לקלה הצרפתית (ולמעשה חיבר את לונדון ופריז)*. יומרני כבר אמרנו? אבל לפעמים היומרנות ראוייה לתמיכה להערכה.
נתחיל מאתר הפרוייקט:
What is Calais?
We want to make all the world’s content more accessible, interoperable and valuable. Some call it Web 2.0, Web 3.0, the semantic web or the Giant Global Graph - we call our piece of it Calais.
The core of Calais is our web service. We're working to make this service more accessible by developing sample applications, supporting developers and offering bounties for specific capabilities.
ברעיון השאפתני הזה יש כמה וכמה אלמנטים מעניינים. היומרה לתייג כל מסמך באשר הוא היא מרשימה ממש. הרשת הסמנטית אמנם התקדמה מאוד אבל תיוג שימושי (כלומר ברמה מסחרית) נעשה בד"כ רק בדומיינים קטנים ויחסית מוגדרים, או על קורפוסים חרושים היטב שהפכו לפודרה תחת שרשראות התיוג של אלפי מערכות לומדות ומתייגים אנושיים.
הגישה השיווקיתשל הפרוייקט מעניינת גם היא – זמינות של שירותי רשת חינם לכל (גם לצרכים מסחריים) תוך ניסיון לעודד מפתחים לכתוב אפליקציות שעושות שימוש בפלטפורמה (API) שמסופקת על ידי רויטרס. הפתיחות הזו שאופיינית בעיקר בעיקר לחברות ווב 2.0 צעירות, די מפתיעה כשהיא באה מכיוון דינוזאור מעונב כמו רויטרס.
וורדפרס וקַלֵה
רויטרס השיקה גם תוכנית מענקים (bounties program) שתעניק 5000$ למפתחים שיכתבו אפליקציות שעושות שימוש בפלטפורמה של קלה. המענק הראשון יוענק למי שיפתח פלאגין מבוסס קלה לוורדפרס. אני מעריך שחלק לא מבוטל מקוראי הבלוג הזה הם בלשנים חישוביים, מתכנתים, משתמשי וורדפרס או שילוב מסויים של השלושה – בדיוק קהל היעד לקבלת המענק. יאללה – לכו לפתח ותזכרו איפה שמעתם על זה לראשונה. אחוזים מהמענק יתקבלו בברכה
שוב, רתימת קהילת הבלוגרים, בעיקר מפתחי וורדפרס, כדי למנף את הפרויקט היא חדשנית ומעניינת, מהלך שכנראה שייצור איזה באז ויראלי אצל הבלוגרים הנחשבים (זה לא אני, הם כנראה מכוונים לבלוגרים המובילים בבלוגי הטכנולוגיה שמעבר ליםׂ.
לשון הקודש
הקריצה אל הבלוגרים שמעבר לים מביאים אותנו לנושא הבא - מה עם תמיכה בתיוג מסמכים בעברית? על פי מפת הדרכים של הפרוייקט השלב השלישי של הפרוייקט (ביולי 2008 ) יהיה תוספת תמיכה בשפות נוספות אבל באתר מוזכרות רק ספרדית, צרפתית ולטינית, לא יידיש וגם לא עברית. הפיתוח הוא ממלכת אי הוודאות, כך בטח אמר איזה חכם מעמק הסיליקון, ומייל-סטונס ומפות דרכים הם רק הצעה לפעולה. "אל תפליץ יותר גבוה מהתחת שלך" אמרה לי פעם אשה חכמה, אמא של חבר. בצרפתית זה נשמע יותר טוב. זה נכון גם לענקית כמו רויטרס - כל אחד והגובה של התחת שלו. אם החלק האנגלי של הפרוייקט נראה שאפתני מאין כמוהו, תמיכה בשפות נוספות כבר ביולי היא כבר בגדר פנטזיה (ואני מוכן לאכול את הלפטופ אם אני טועה).
וכאן אשא תחינה ציונית – אולי קליר-פורסט, ענף הפיתוח הישראלי של רויטרס, יקצה איזה משאב גם לטובת העברית (הרי עם ערבית הם בטח מתעסקים כבר שנים), או אולי איזה שיתוף פעולה אקדמי עם אחת האוניברסיטאות – שרויטרס יביאו את הכסף, האקדמיה את החוקרים-מפתחים שישלימו על זה איזה מסטר או דוקטורט, וקליר-פורסט יתרמו את הכוונה, ניסיון ואת התשתית האנגלית (שיתןף פעולה עם פרוייט מילה והקורפוס העברי של הטכניון, נראה כמו צעד ראשון הכרחי).
חייבים לציין שלפחות מבחינת השאפתנות רויטרס לא לבד:
1. PowerSet – הם טוענים שהם כבר פצחו את סוד הסמנטיקה.
2. Linguistic Agents הקטנה והישראלית, גם הם טוענים לפיצוח הרשת הסמנטית. ננו-בלשנות הם קוראים לזה.
שתיהן ברשימת הפוסט-פונד, מחכות לפוסט שיבשיל.
שאפו לרויטרס על קלה. שאפו ובהצלחה. עכשיו רק נותר לקווות שהם יפסיקו לפברק ידיעות ותמונות.

כבר הגשתי הצעה ולכן אני מחשיב את עצמי כמומחה לשירותים המוצעים
(לא שמישהו טרח לחזור אלי)
לפי הAPI עושה רושם שלפחות בשלב הזה הם מתמקדים במציאת מידע כלכלי ופוליטי בתוך טקסט. לכאורה יש דברים פשוטים כמו שמות של פוליטיקאים ומקומות, אבל הם גם אמורים לזהות שחברה א' קונה את חברה ב' דבר שנראה לי לחלוטין לא טריביאלי בהתחשב בגמישות של השפה האנושית (האם הם יצליחו בכלל לזהות את micro$oft כמיקרוסופט?).
מרק ק.
ינואר 31st, 2008
אמור להיות סמיילי שמח…..
מרק ק.
ינואר 31st, 2008
[…] צור כותב על פרויקט חדש ומסקרן של רויטרס, המציע שורה של שירותי רשת חינמיים לניתוח ותיוג אוטומטי […]
The Daily Dolly 31/01/2008 at The Daily Dolly
ינואר 31st, 2008
מרק -
(תיקנתי את הסמיילי, זה הLTR שמשתגע בתגובות). קודם כל, בהצלחה עם ההצעה שלך ובתקווה שמישהו אכן יתייחס.
לעניין - אני מניח שיש התמקדות במידע כלכלי ופוליטי כי אלו דברים שרויטרס (וחברות כריית מידע) כבר עשו בעבר ויש בו הרבה מחקר (אקדמי) וניסיון.
לגבי ה- micro$oft - זה דווקא מקרה קל ואני מאמין שהם יזהו את זה כחברה וכנראה גם ידעו להגיד שזה מייקרוסופט. זה תלוי במערכת הלומדת שלומדת יחסים ובמספר ההופעות של המילה micro$oft בקורפוס האימון. בעיה דומה ופתורה היא של זיהוי קיצורים של שמות חברה למשל סימוני מניות או שמות עם סיומות ltd, corp, inc וכו' ו"הבנה" שאלו שמות של אותה חברה. אני מניח ש-micro$oft זה אותו סיפור.
אבל, אם המק-בון מבוסס על חוקים שנכתבו ידנית, הסיפור יותר מסובך כי צריך לרדוף אחרי הזנב בשביל לתפוס את כל האפשרויות.
אורן
ינואר 31st, 2008