deadlink at wiki.debian.org.tw

5 views

Skip to first unread message

Pofeng Lee

unread,

May 26, 2006, 2:14:15 PM5/26/06

to Chewing IM Development

http://web.archive.org/web/20010728004841/http://www.linux.org.tw/mail-archie/xcin/xcin.200106/msg00026.html

==============================================================

Subject: [bims] measured performance
From: Pai-Hsiang Hsiao <phs...@fas.harvard.edu>
Date: Tue, 5 Jun 2001 04:06:05 -0400 (EDT)
To: xc...@tlug.sinica.edu.tw
Delivered-To: xcin...@tlug.sinica.edu.tw
Delivered-To: xcin...@tlug.sinica.edu.tw
Reply-To: xc...@tlug.sinica.edu.tw

最近大概不會有空再整理這個 term project 的 results,
所以該是時候給
大家看看了. 只有英文的 pdf.

http://www.eecs.harvard.edu/~shawn/papers/courses/cs287_final.pdf

唯一有看過 performance results 的是自然輸入法.
他們宣稱在用隨機選取
的語料庫做 benchmark 可以得到 96% 左右的正確率.

bims 的 performance 可能就差一些.

我用來做 benchmark 的語料庫也是新聞稿, 有三百多則,
字數略大於十五萬.
(該 pdf 的附錄有介紹這個語料庫以及簡繁轉換等)

用現在 xcin 裡的詞庫, 可以得到 91% 左右的正確率 (字),
如果算片段的正
確率 (指在標點符號之間的連續中文字), 則只有 50%
左右. 也就是說, 平
均打十個自會錯一個, 兩個片段有一個不用改就全對.
我比較好奇的是, 這到
底跟一般使用者的使用經驗一不一樣?

不過, 當我把所有出現在語料庫裡的詞都加到詞庫裡,
正確率可以提高到 93%
左右. 如果詞庫裡面只有語料庫用的詞,
正確率可以高達 96%.

我又加上一個 rule-based 的 transformation. 基本上,
這個方法從 error
cases 裡面去找可以改善的 rules, 再 apply 到猜字的 output.
我打算用類
似的方法來做未來學習的功能.
這樣的方法可能可以減少 25% 的 error cases.
換句話說, 91% 的正確率可以提高到 93%.

我的結論是, bims 還有很大的空間可以改進 performance.

首先針對詞庫. 大詞庫不見得好,
重要的是跟使用者用的詞要能符合. 多的詞
會產生不必要的錯誤.

再來是學習功能. 每個人用的詞, 詞頻分佈都不一樣,
如果能針對使用者調整
的話, 加上一個好的詞庫, 我認為可以有 95%
左右的正確率.

有兩點是我當初沒料到的. 第一, 讀音似乎不是很重要.
第二, 詞頻也不是很
重要. 在我的 term paper 裡面,
我有一組實驗是把讀音資料逐漸減少, 但是
正確率變化卻不大. 我還搞不懂為甚麼.
大部分的猜字都用不到詞頻, 因為
長度等 rule 就可以挑出特定的字.
詞頻似乎只有在同音詞時才有大用處, 但
是我並沒有觀察到很多這樣的例子. (有一個例子是
"程式", "城市". 前者的
詞頻較高, 但在語料庫裡面, 後者比教常用. 所以說,
不對的詞頻只能幫倒忙)

---

// Shawn

Reply all

Reply to author

Forward

0 new messages