新酷音詞庫與萌典詞庫注音比對

442 views
Skip to first unread message

陳鵬宇

unread,
Oct 18, 2013, 7:49:33 AM10/18/13
to chewin...@googlegroups.com
hi all,

日前參加黑客松 jserv 提到想要把酷音的詞庫拿來跟萌典的詞庫做比對,找出注音拼法不同的部份,

附件是我目前的一些成果。

preprocess.sh 會先下載 kcwu 大大提供的萌典 sqlite3 詞庫,並且將詞和注音 query 出來,

並且先把格式處理成跟酷音詞庫相同。

check.py 會把處理完的結果做比較並輸出。

result 是目前我比對的結果。

以上不知道各位有沒有什麼建議的,謝謝。

float
check.py
preprocess.sh
result.txt

詹博丞

unread,
Oct 18, 2013, 8:49:31 AM10/18/13
to chewing-devel
Hi, float

有沒有辦法把破音字集中整理,如:

一 [ㄧˊ,ㄧˋ] [ㄧ]
一丁不識 [ㄧ ㄉㄧㄥ ㄅㄨˊ ㄕˋ,ㄧˋ ㄉㄧㄥ ㄅㄨˊ ㄕˋ] [ㄧ ㄉㄧㄥ ㄅㄨˋ ㄕˋ]

另外請教一下,jserv 做這比對能替新酷音帶來怎樣的發展?

thanks
> --
> 您已訂閱「Google 網上論壇」的「Chewing IM Development」群組,因此我們特別傳送這封郵件通知您。
> 如要取消訂閱這個群組並停止接收來自這個群組的郵件,請傳送電子郵件到
> chewing-deve...@googlegroups.com
> 如要在此群組張貼留言,請傳送電子郵件至 chewin...@googlegroups.com
> 請前往以下網址造訪這個群組:http://groups.google.com/group/chewing-devel
> 如需更多選項,請前往:https://groups.google.com/groups/opt_out
>

陳鵬宇

unread,
Oct 18, 2013, 11:01:47 AM10/18/13
to chewin...@googlegroups.com
Hi 博丞,

破音字部份是可以處理,我也還在想怎樣表示會比較容易閱讀。

至於發展的部份 jserv 是提到可以訂正一些詞庫拼音的錯誤,以往可能都是人工去修正。

博丞 詹於 2013年10月18日星期五UTC+8下午8時49分31秒寫道:

詹博丞

unread,
Oct 18, 2013, 11:20:34 AM10/18/13
to chewin...@googlegroups.com
float,

我通常在這邊用 Sponge 做稱呼,可以這樣叫我

其實為了好看,也許可考慮輸出 csv / json, 有其他 tool 能直接吃,不過當然這種格式我用起來沒你們方便,只是能用 Excel 載入這樣

Python 在這二種格式應該都有 support library, 所以這個報表要轉 csv 應該很迅速


在 2013/10/18,陳鵬宇 <a135...@gmail.com> 撰寫:
> Hi 博丞,
>
> 破音字部份是可以處理,我也還在想怎樣表示會比較容易閱讀。
>
> 至於發展的部份 jserv 是提到可以訂正一些詞庫拼音的錯誤,以往可能都是人工去修正。
>
> 博丞 詹於 2013年10月18日星期五UTC+8下午8時49分31秒寫道:
>>
>> Hi, float
>>
>> 有沒有辦法把破音字集中整理,如:
>>
>> 一 [ㄧˊ,ㄧˋ] [ㄧ]
>> 一丁不識 [ㄧ ㄉㄧㄥ ㄅㄨˊ ㄕˋ,ㄧˋ ㄉㄧㄥ ㄅㄨˊ ㄕˋ] [ㄧ ㄉㄧㄥ ㄅㄨˋ ㄕˋ]
>>
>> 另外請教一下,jserv 做這比對能替新酷音帶來怎樣的發展?
>>
>> thanks
>>
>> 在 2013/10/18,陳鵬宇 <a135...@gmail.com <javascript:>> 撰寫:
>> > hi all,
>> >
>> > 日前參加黑客松 jserv 提到想要把酷音的詞庫拿來跟萌典的詞庫做比對,找出注音拼法不同的部份,
>> >
>> > 附件是我目前的一些成果。
>> >
>> > preprocess.sh 會先下載 kcwu 大大提供的萌典 sqlite3 詞庫,並且將詞和注音 query 出來,
>> >
>> > 並且先把格式處理成跟酷音詞庫相同。
>> >
>> > check.py 會把處理完的結果做比較並輸出。
>> >
>> > result 是目前我比對的結果。
>> >
>> > 以上不知道各位有沒有什麼建議的,謝謝。
>> >
>> > float
>> >
>> > --
>> > 您已訂閱「Google 網上論壇」的「Chewing IM Development」群組,因此我們特別傳送這封郵件通知您。
>> > 如要取消訂閱這個群組並停止接收來自這個群組的郵件,請傳送電子郵件到
>> > chewing-deve...@googlegroups.com <javascript:>。
>> > 如要在此群組張貼留言,請傳送電子郵件至 chewin...@googlegroups.com <javascript:>。

ChangZhuo Chen

unread,
Oct 19, 2013, 12:07:53 AM10/19/13
to chewin...@googlegroups.com
On Friday, October 18, 2013 11:01:47 PM UTC+8, 陳鵬宇 wrote:
至於發展的部份 jserv 是提到可以訂正一些詞庫拼音的錯誤,以往可能都是人工去修正。 

如果有發現需要新增修改的部份,可以直接發 pull request。

PCMan

unread,
Oct 19, 2013, 12:34:48 AM10/19/13
to chewin...@googlegroups.com
太棒了!!!
我之前也想做這個,才剛 download moedict 的 json 檔
我程式才正開始寫還沒好,你們已經做出來了,讚!
目前有想到的用途有幾個
1. 檢查現有注音有沒有錯誤或遺漏,比人工檢查要快,詞庫也可加入教育部詞典有的詞和成語
2. 如果能修改 libchewing,讓它支援開啟或關閉"容錯",則這個會很有用。
例如,關閉容錯的時候,強制一定要打教育部公告的正確注音,才會出字
對於正在學習語言的學童,這會有助於學習正確的注音,在學校單位可以預設啟用
而對於工作需要大量處理打字的人,則開啟"容錯",
坊間常見的錯誤注音讀法,都全部容許,以讓打字最快為目的,不管正確性
但更好的是,容許錯誤注音的同時,可以顯示提示訊息和警示音效
告訴使用者"這並不是正確的注音",在顧及方便的同時,仍提供教育效果


2013/10/18 陳鵬宇 <a135...@gmail.com>:

Kuang-che Wu

unread,
Oct 19, 2013, 6:02:22 AM10/19/13
to chewin...@googlegroups.com
要注意授權問題就是了.
https://groups.google.com/forum/#!topic/chewing-devel/NMQOW87CKfA
單純比對大概可以, 不要全部搬過來就是了.

要玩強制教育部讀音的話, 請不要使用「重編國語辭典修訂本」(也就是萌典抓的資料集)
注意到 http://dict.revised.moe.edu.tw/ 網頁上的聲明
「本典係歷史語言辭典,取音以兼收歷代字音為目的,故與教學使用或有差異,請詳見說明。」

想依《國語一字多音審訂表》, 請使用
國語辭典簡編本 http://dict.concised.moe.edu.tw/main/cover/main.htm

或參考
《重編國語辭典修訂本》與《國語一字多音審訂表》取音差異表
http://dict.revised.moe.edu.tw/htm/fulu/dk_htm.htm
Reply all
Reply to author
Forward
0 new messages