【乞討】請朋友們爲〔粵拼〕輸入方案貢獻數據

90 views

Skip to first unread message

弓辰

unread,

Feb 3, 2012, 11:09:21 PM2/3/12

to rime-...@googlegroups.com, 弓辰

Hello，大家好。還記得我嗎。
我是寫輸入法的佛振。

去年拙作發表了一個實驗版本【小狼毫】0.3，【粵拼】爲其中一款預設輸入方案。
如今，經過將近一年的努力，用C++重新編碼的新版本0.9+，已經在功能、執行效率、系統兼容性上有全面的提升。
是時候，將【粵拼】輸入方案遷移到新平臺上來了！
藉助新版本以碼表中附加的頻度信息干預字自動註音的能力，可令輸入方案較好地反映粵語文本的用字、用詞習慣，獲得堪與「漢語拼音」輸入法媲美的輸入體驗。

特請求，使用過0.3版本【粵拼】方案的朋友，贈我經過訓練的用戶詞庫：
我將利用收集到的多份數據，以腳本程序處理求得常用字、詞的交集，從而爲【粵拼】輸入方案補足常用粵字的頻度信息，以及最常見的方言詞彙。您的詞庫不會被人工檢閱或用於其他用途，詞庫和寄來的郵件將於信息提取完畢後完全刪除。

【小狼毫】0.3，導出用戶詞庫的方法：
於weasel安裝目錄雙擊shell.bat打開命令行，敲：

cd data
python zimedb-admin.py -s Jyutping

請注意Jyutping首字母大寫。
輸出類似於：

X:\path-to\weasel-0.3c\data>python zimedb-admin.py -s Jyutping
M records saved to jyutping-userfreq.txt
N records saved to jyutping-usergram.txt

這保存到data目錄中的 jyutping-userfreq.txt 和 jyutping-usergram.txt 就是導出的用戶資料啦。

ibus-rime 0.3，導出用戶詞庫的方法同上。

所導出的用戶詞庫包含以下信息：

單字、系統預設詞語的使用頻度
語句中前後兩個字、詞連用的記錄
不含！完整的語句序列

如果對詞庫中的私密內容仍有顧慮，可於導出後、以文本編輯器刪除不願分享的條目。

作爲回報：

分享詞庫的朋友可具名於【粵拼】輸入方案文件的「作者」欄；請在來信中寫明用怎樣的身份，以及（可選的）聯繫方式，如：

佛振 <chen...@gmail.com>

如有請求，佛振可將所寄用戶詞庫文本轉換爲【小狼毫】0.9+格式的詞庫文件寄回，以在新版本中直接繼承原有輸入習慣。

寫這款輸入法，我爲粵語信息化盡力啦，現在看你的啦！

鴰鴰

弓辰

unread,

Feb 13, 2012, 12:06:06 AM2/13/12

to rime-...@googlegroups.com, 弓辰

Hello 大家好。

今天清早，小狼毫發佈了一個新版本：0.9.7
http://code.google.com/p/rimeime/wiki/Downloads

※ 並採納了吳語越音同學的建議，將現有碼表整理成初步可用的方案，
以小狼毫0.9.7爲藍本，打包專門的【粵拼】、【吳語】預發行版。

後續就直接在此基礎上對輸入方案做優化。
且想，新版本收集資料比用0.3版更容易些。

※ 程序庫新增的一項功能是：
以 xxx.custom.yaml 爲名字相對應的配置文件 xxx.yaml 或 xxx.schema.yaml 打補靪，
在已有配置之上實現用戶自字義個別的配置項。
一例，如下的 default.custom.yaml 改寫了可選的輸入方案列表：

patch:
schema_list:
    - schema: jyutping
    - schema: luna_pinyin
    - schema: cangjie5

【粵拼】預發行版中正是多了這樣一個定製的文件、使粵拼成爲首選方案而已。
所以想試不同輸入方案時只須改寫這個補靪就好啦，不必重複下載預裝不同方案的安裝包。。
有了這一設計，有定製需求的同學再不必擔心，直接修改了配置文件卻由於升級而被覆蓋回去了。

也爲下一步做設置介面做好了準備。

※ 又添加了用戶反饋提議的一個小功能：
逐鍵提示、編碼反查所顯示的編碼可以是拼寫運算所定義的樣式。
如顯示倉頡字母、拼音之字母ü等。

※ Rime的Linux版本 ibus-rime 現有一個粗糙的安裝手冊：
http://code.google.com/p/rimeime/wiki/IBusRime
也請Linux用戶來幫忙完善他。

謝謝

Reply all

Reply to author

Forward

0 new messages