-----Original E-mail-----
From: rime-...@googlegroups.com
Sent Time: 2012-2-7 11:43:16
To: "摘要收件者" <rime-...@googlegroups.com>
Cc:
Subject: [rime-devel] rime-...@googlegroups.com 的摘要 - 1 個主題,1 則留言
Google 網上論壇: http://groups.google.com/group/rime-devel/topics
- 【乞討】請朋友們爲〔粵拼〕輸入方案貢獻數據 [1 則更新]
弓辰 <chen...@gmail.com> Feb 04 12:09PM +0800
Hello,大家好。還記得我嗎。
我是寫輸入法的 佛振。
去年拙作發表了一個實驗版本【小狼毫】0.3,【粵拼】爲其中一款預設輸入方案。
如今,經過將近一年的努力,用C++重新編碼的新版本0.9+,已經在功能、執行效率、系統兼容性上有全面的提升。
是時候,將【粵拼】輸入方案遷移到新平臺上來了!
藉助新版本以碼表中附加的頻度信息干預字自動註音的能力,可令輸入方案較好地反映粵語文本的用字、用詞習慣,獲得堪與「漢語拼音」輸入法媲美的輸入體驗。
特請求,使用過0.3版本【粵拼】方案的朋友,贈我經過訓練的用戶詞庫:
我將利用收集到的多份數據,以腳本程序處理求得常用字、詞的交集,從而爲【粵拼】輸入方案補足常用粵字的頻度信息,以及最常見的方言詞彙。您的詞庫不會被人工檢閱或用於其他用途,詞庫和寄來的郵件將於信息提取完畢後完全刪除。
【小狼毫】0.3,導出用戶詞庫的方法:
於weasel安裝目錄雙擊shell.bat打開命令行,敲:
cd data
> python zimedb-admin.py -s Jyutping
請注意Jyutping首字母大寫。
輸出類似於:
*X:\path-to*\weasel-0.3c\data>python zimedb-admin.py -s *Jyutping*
> *M* records saved to *jyutping-userfreq.txt*
> *N* records saved to *jyutping-usergram.txt*
這保存到data目錄中的 jyutping-userfreq.txt 和 jyutping-usergram.txt 就是導出的用戶資料啦。
ibus-rime 0.3,導出用戶詞庫的方法同上。
所導出的用戶詞庫包含以下信息:
- 單字、系統預設詞語的使用頻度
- 語句中前後兩個字、詞連用的記錄
- *不含*!完整的語句序列
如果對詞庫中的私密內容仍有顧慮,可於導出後、以文本編輯器刪除不願分享的條目。
作爲回報:
- 分享詞庫的朋友可具名於【粵拼】輸入方案文件的「作者」欄;請在來信中寫明用怎樣的身份,以及(可選的)聯繫方式,如:
佛振 <chen...@gmail.com>
- 如有請求,佛振可將所寄用戶詞庫文本轉換爲【小狼毫】0.9+格式的詞庫文件寄回,以在新版本中直接繼承原有輸入習慣。
寫這款輸入法,我爲粵語信息化盡力啦,現在看你的啦!
鴰鴰
這是「Google 網上論壇」針對「rime-devel」群組發送的訂閱通知郵件。
您可以透過電子郵件張貼留言。
如要取消訂閱這個群組,請傳送一封空白的郵件。
如需更多選項,請造訪這個群組。