【乞討】請朋友們爲〔粵拼〕輸入方案貢獻數據

82 views
Skip to first unread message

弓辰

unread,
Feb 3, 2012, 11:09:21 PM2/3/12
to rime-...@googlegroups.com, 弓辰
Hello,大家好。還記得我嗎。
我是寫輸入法的 佛振。

去年拙作發表了一個實驗版本【小狼毫】0.3,【粵拼】爲其中一款預設輸入方案。
如今,經過將近一年的努力,用C++重新編碼的新版本0.9+,已經在功能、執行效率、系統兼容性上有全面的提升。
是時候,將【粵拼】輸入方案遷移到新平臺上來了!
藉助新版本以碼表中附加的頻度信息干預字自動註音的能力,可令輸入方案較好地反映粵語文本的用字、用詞習慣,獲得堪與「漢語拼音」輸入法媲美的輸入體驗。

特請求,使用過0.3版本【粵拼】方案的朋友,贈我經過訓練的用戶詞庫:
我將利用收集到的多份數據,以腳本程序處理求得常用字、詞的交集,從而爲【粵拼】輸入方案補足常用粵字的頻度信息,以及最常見的方言詞彙。您的詞庫不會被人工檢閱或用於其他用途,詞庫和寄來的郵件將於信息提取完畢後完全刪除。

【小狼毫】0.3,導出用戶詞庫的方法:
於weasel安裝目錄雙擊shell.bat打開命令行,敲:

cd data
python zimedb-admin.py -s Jyutping
 
請注意Jyutping首字母大寫。
輸出類似於:

X:\path-to\weasel-0.3c\data>python zimedb-admin.py -s Jyutping
M records saved to jyutping-userfreq.txt
N records saved to jyutping-usergram.txt

這保存到data目錄中的 jyutping-userfreq.txt jyutping-usergram.txt 就是導出的用戶資料啦。

ibus-rime 0.3,導出用戶詞庫的方法同上。

所導出的用戶詞庫包含以下信息:
  • 單字、系統預設詞語的使用頻度
  • 語句中前後兩個字、詞連用的記錄
  • 不含!完整的語句序列
如果對詞庫中的私密內容仍有顧慮,可於導出後、以文本編輯器刪除不願分享的條目。

作爲回報:
  • 分享詞庫的朋友可具名於【粵拼】輸入方案文件的「作者」欄;請在來信中寫明用怎樣的身份,以及(可選的)聯繫方式,如:
佛振 <chen...@gmail.com>
  • 如有請求,佛振可將所寄用戶詞庫文本轉換爲【小狼毫】0.9+格式的詞庫文件寄回,以在新版本中直接繼承原有輸入習慣。


寫這款輸入法,我爲粵語信息化盡力啦,現在看你的啦!


鴰鴰

弓辰

unread,
Feb 13, 2012, 12:06:06 AM2/13/12
to rime-...@googlegroups.com, 弓辰
Hello 大家好。

今天清早,小狼毫發佈了一個新版本:0.9.7
http://code.google.com/p/rimeime/wiki/Downloads

※ 並採納了吳語越音同學的建議,將現有碼表整理成初步可用的方案,
以小狼毫0.9.7爲藍本,打包專門的【粵拼】、【吳語】預發行版。
後續就直接在此基礎上對輸入方案做優化。
且想,新版本收集資料比用0.3版更容易些。

※ 程序庫新增的一項功能是:
以 xxx.custom.yaml 爲名字相對應的配置文件 xxx.yaml 或 xxx.schema.yaml 打補靪,
在已有配置之上實現用戶自字義個別的配置項。
一例,如下的 default.custom.yaml 改寫了可選的輸入方案列表:
patch:
  schema_list:
    - schema: jyutping
    - schema: luna_pinyin
    - schema: cangjie5
【粵拼】預發行版中正是多了這樣一個定製的文件、使粵拼成爲首選方案而已。
所以想試不同輸入方案時只須改寫這個補靪就好啦,不必重複下載預裝不同方案的安裝包。。
有了這一設計,有定製需求的同學再不必擔心,直接修改了配置文件卻由於升級而被覆蓋回去了。
也爲下一步做設置介面做好了準備。

※ 又添加了用戶反饋提議的一個小功能:
逐鍵提示、編碼反查所顯示的編碼可以是拼寫運算所定義的樣式。
如顯示倉頡字母、拼音之字母ü等。
※ Rime的Linux版本 ibus-rime 現有一個粗糙的安裝手冊:
http://code.google.com/p/rimeime/wiki/IBusRime
也請Linux用戶來幫忙完善他。

謝謝
Reply all
Reply to author
Forward
0 new messages