גם אני אשמח לשמוע על זה, הצטרפתי לקבוצה בגוגל גרופס עכשיו.
2011/9/8 Amir Eldor <amir....@gmail.com>
...נחייה את פרוייקט איבריקס ונתחיל לעבוד (אני חושב שכבר כתבתי דואל עם הצעה לתוכנית עבודה מפורטת בעבר)...2011/9/6 E L <nak...@gmail.com>
אפשר תכנית עבודה מפורטת? לפחות לי, זה יעזור להבין מה צריך לעשות ומה קורה בעולם העברית2011/9/8 E L <nak...@gmail.com>פתחתי חזרה את הפרוייקט
http://code.google.com/p/hebrew-playground/
ןקבוצת דיון
http://groups.google.com/group/open-hebrew
אם מישהו מעונין להצטרך ולתרום אם בקוד או בידע ויעוץ :-)
אלי2011/9/8 Yaron Shahrabani <sh.y...@gmail.com>
2011/9/6 E L <nak...@gmail.com>שיתוף פעולה עם האקדמיה מזכיר לי את פרוייקט מילה המפוקפק. שידעו טוב מאד לנצל את מאמצי הקהילה ולא לתרום כלום חזרה.
אם כל כך הרבה אנשים מתעניינם אנחנו לא צריכים את הממשלה או אקדמיה. הידע כבר נמצא כן.
בו נחייה את פרוייקט איבריקס ונתחיל לעבוד (אני חושב שכבר כתבתי דואל עם הצעה לתוכנית עבודה מפורטת בעבר)
אז למי אכפת באמת מעברית ורוצה לתרום?לי!איזה מידע קיים ברשת על הפרויקט?איפה כתוב במה אני יכול לסייע?
אלי2011/9/6 Tomer Ashur <tomer...@gmail.com>שלום לכולם,
גם אני חושב שמנוע חיפוש עם תמיכה בעברית הוא פרוייקט חשוב. הוא עד כדי כך חשוב שעמותת ויקימדיה ישראל העניקה מענק כספי לאיתמר סין-הרשקו כדי לתמוך בפיתוח ספריית Hebmorf והאינטגרציה שלה עם מנוע החיפוש CLucene.
תומר2011/9/6 E L <nak...@gmail.com>ישנם כבר כמה מאמרים על הנושא, וישנם אלגוריתמים שמגעים למעל 90% דיוק (אפילו בקוד פתוח הבעייה היא שצריך לנקות ולסדר את הקוד)
לפני שאפשר יהיה להישתמש בו.
אלי2011/9/6 Orna Agmon Ben-Yehuda <lady...@ladypine.org>
נקדן אוטומטי זו משימה אקדמית רצינית, שחוקרים אותה באקדמיה ובתעשיה, למשל בטכניון ובסטרט-אפ שעוזי אורנן מעורב בו. יש צורך בפענוח הקשר המילה כדי לדעת איך לנקד אותה. אין שום התחלה חופשית בתחום הזה. אבל משימת ביניים ראויה וישיגה היא נקדן שיציע אפשרויות. כלומר, כלי שבשילוב עזרה אנושית ינקד. כאשר אין אפשרויות רבות, או שניקוד כל המשמעויות השונות יוצר זהה, ינקד את האפשרות היחידה, וכאשר יש ריבוי אפשרויות - יציג למפעיל אפשרויות לבחירה. אפשר אפילו לסדר את האפשרויות לפי בחירות קודמות. (למשל, אם צריך לנקד "שמש", וקודם בקטע נוקדה המילה shemesh, יעדיף את shemesh על פני shamash).כלי כזה יכול לעזור למשל לפרויקט בן-יהודה, אבל גם למו"לים של ספרי ילדים. מצב הניקוד כיום מחפיר בספרי ילדים - הוא חלקי או שגוי, או פשוט יצירתי. לדוגמא, החטף פתח נעלם מן הרפרטואר, שלא לדבר על החטף סגול ועל הניקוד השונה לוו החיבור בהתאם למילים שהיא מחברת.אורנה2011/9/6 Shai Berger <sh...@platonix.com>
החבר׳ה בסדנא לידע ציבורי דיברו על זה קצת, ואולי יש להם רעיונות נוספים מעבר למה
שהועלה כאן. נראה לי שכדאי לשלב ידיים.
On Tuesday 06 September 2011 12:14:50 Lior Kaplan wrote:
> היי,
>
> בשבוע שעבר פורסמה קריאה לציבור להציע הצעות למיזם לשימור וקידום השפה העברית.
>
> http://www.pmo.gov.il/PMO/Secretarial/Govmes/2011/08/spokemazkir310811.htm
>
> אני רוצה לאסוף מחברי העמותה כמה רעיונות לגבי שילוב של תוכנה חופשית וקידום
> של השפה העברית ולשלוח רשימה מרוכזת של הצעות.
>
> השתיים שיש לי בראש הן:
> 1. מימון המשך פיתוח של hspell
> 2. מימון המשך פיתוח של hocr
>
> קפלן
To: hasa...@googlegroups.com
Date: Mon, 29 Aug 2011 15:01:55 +0300
Subject: רעיונות לקידום השפה העברית
שלומות,מפנה את תשומת ליבכם למכתב שפירסם מזכיר הממשלה ובו קריאה לציבור להציע רעיונות לקידות השפה העברית - http://www.scribd.com/doc/63418330/%D7%A4%D7%A0%D7%99%D7%99%D7%94-%D7%9C%D7%A6%D7%99%D7%91%D7%95%D7%A8.רעיון אחד שמתרוצץ במוחי כבר די הרבה הזמן הוא פיתוח נקדן אוטומטי. מי שאי פעם ניסה לנקד טקסט יודע כמה זה קשה. אני מפנטז על שירות ניקוד אונליין וגם תוסף לדפדפנים שינקד אתרים בעברית כך שגם הגדולה שלי שעולה לכיתה א' תוכל לקרוא כל אתר בעברית.רעיון נוסף הוא שדרוג מנוע חיפוש בקוד פתוח (solr?) לתמיכה מעולה בעברית.בקצור, יש מתנדב לאסוף, לחקור ולסכם את הצעות הסדנא לקידום השפה העברית?יומטוב,בני----"אנשים משכילים אנו, בני אדם מודרניים, מבקשי חופש לנו ולכל באי עולם, ולמעשה גרועים אנו מכל מחזיקי נושנות." ש"י עגנון
_______________________________________________
Discussions mailing list
Discu...@hamakor.org.il
http://hamakor.org.il/cgi-bin/mailman/listinfo/discussions
_______________________________________________
Discussions mailing list
Discu...@hamakor.org.il
http://hamakor.org.il/cgi-bin/mailman/listinfo/discussions
_______________________________________________
Discussions mailing list
Discu...@hamakor.org.il
http://hamakor.org.il/cgi-bin/mailman/listinfo/discussions
_______________________________________________
Discussions mailing list
Discu...@hamakor.org.il
http://hamakor.org.il/cgi-bin/mailman/listinfo/discussions
_______________________________________________
Discussions mailing list
Discu...@hamakor.org.il
http://hamakor.org.il/cgi-bin/mailman/listinfo/discussions
_______________________________________________
Discussions mailing list
Discu...@hamakor.org.il
http://hamakor.org.il/cgi-bin/mailman/listinfo/discussions
אבל זו אינה תוכנית עבודה מפורטת
הייתי רוצה למצוא רשימה של מטלות שיאפשרו למישהו מבחוץ להכנס. לדוגמה: משהו
מסדר הגודל של המשימות בקיץ הקוד של גוגגל.
> סריקה בעברית כולל ניקוד
יש תוכנית בשם hocr. היא בערך עובדת. יש לה בעיות רציניות. כרגע אף אחד לא
עובד עליה.
נראה לי שזה אחד המקומות שבהם השקעת מאמץ תתרום לא מעט.
> זיהוי עברי של כתב יד
>
> הרחבת המילונים של למחלקות שונות של עברית
> הוספת מנתח דיקדוק ותיקון שגיאות
> נקדן ובדיקת איות מבוססת ניקוד
> מסכם טקסט
>
> תקן לשימושיות דו-כווניות בקוד פתוח
> מימושו בפרוייקטים שונים
>
> מילון עברי-עיברי עיברי-אנגלי (מבוסס WORDNET?)
תזכורת למה שכבר קיים:
http://culmus.sourceforge.net/dictionary/
> מילון מילים נרדפות
> תרגום אוטומטי
> חיפוש עברי תוך שימוש בשורשים ומילים נרדפות
>
> שיפור התמיכה בספרים אלקטרונים בעברית
> תשתית לעבודה על ספרים (www.pgdp.net)
האם זה מסתמך על OCR עובד בעברית? אם לא: זו נשמעת מטלה פשוטה יחסית בלי
הרבה בעיות "תאורטיות" רציניות.
>
> זיהוי דיבור בעברית
>
> לרוב הדברים ברשימה כבר קיימות תוכנות קוד פתוח בשפות אחרות
> ועיקר העבודה היא התאמתם לעברית.
> העבודה על הליקסיקון מילון ווורדנט כבר נעשתה על ידי מילה ואמורה להיות לפחות
> חלקית תחת ה GPL.
>
> לינקים מעניינים:
> http://www.cs.technion.ac.il/~barhaim/MorphTagger/
נראה מעניין. אבל גרסה 1.0 יצאה בשנת 2005 ומאז לא יצאה גרסה חדשה.
לא לגמרי ברור לי מה היא עושה כשלעצמה ואיך היא מתחברת עם רכיבים אחרים.
היא מסתמכת על תוכנה "כמעט חופשית" אחרת:
http://www.speech.sri.com/projects/srilm/
"כמעט חופשית" מכיוון שהפצתה דורשת רישום אצל יצרן התוכנה המקורי.
יש שם תוכנה חופשית? הם מדברים באתר על כלים שהם open source. בדף ההורדה
אני קורא:
License
For non-commercial research purposes, this tool is licensed under the
GNU General Public License (GPL). Any publications resulting from the
use of this tool should refer to it as "The MILA Hebrew Tokenization
Tool" and cite:
Alon Itai and Shuly Wintner. "Language Resources for Hebrew." Language
Resources and Evaluation 42(1):75-98, March 2008. [BibTeX]
To gain password access to this tool for non-commercial purposes, please
register. For commercial usage, please contact MILA to inquire about
terms.
למישהו יש עותק של הקוד האמור והוא מוכן להעלות אותו לאיזשהו מקום שאין בו
מגבלות הפצה מוזרות כאלה?
קוד המקור של זה זמין? איך זה תורם? האם זה עדיין מתעדכן?
קורפוס של כתבות מהארץ שבו אפשר להשתמש
מהם הנתונים ששם?
>
> ישנם גם פרוייקטים שקשורים לדת כמו סידור, לימוד תורה, שימוש ב VMACHINE לספרי
> תורה ועוד...
--
Tzafrir Cohen | tza...@jabber.org | VIM is
http://tzafrir.org.il | | a Mutt's
tza...@cohens.org.il | | best
tza...@debian.org | | friend