The group you are posting to is a Usenet group. Messages posted to this group will make your email address visible to anyone on the Internet.
Your reply message has not been sent.
Your post was successful
Pofeng Lee wrote: 「直接從注音 map > 2006/6/23, b6s <barab...@gmail.com>: > > old *.cin 跟 ljm 這篇 blog 講的應該是不同的事情? > ljm> 簡言之,如果我們建立一個直接從注音 map 到漢字的 > 我以為 ljm 是要找出新的音轉字的模型來改善酷音 ? 到漢字」的意思是,目前用來做輸入法的模型,在(當年)缺乏資料且記憶體不足的情況下,音和字之間的關聯是齊頭式平等,破音字的各種發音之間沒有機率關係,頂多 只有 .cin 檔裡的先後順序而已。 缺乏資料的原因是,除了國語日報之外,很少有完整音節和漢字並列的語料庫可供統計;另一方面,就算拿國語日報來統計,書面語的用詞及其音標,和口語有一定程度的 差異。而 ljm 想做的,主要是改善後面這個問題,補足日常用語的音標,特別是在使用者通常不會乖乖打破音字發音的情況下。反過來說,「總統」的問題也一樣,有些使用者可能不會 照著標準的聲調輸入。 為什麼要有音->字的統計關聯呢?這要從 (n-gram) language model 與 HMM 的差異說起。又為什麼要提 n-gram 呢?因為酷音的原理是簡化過的 uni-gram。所謂「簡化」,在於酷音裡評分的標準是字詞的「頻」率,而不是「機」率。這樣做有兩個問題:第一,直接用詞頻時,僅出現一次和出現過十次的字 詞,在評分時會造成相當大的落差,然而這完全是語料的 bias,無法代表現實生活中的傾向;第二,「新詞」或「未知詞」在原始語料中的出現次數為零,但新詞或未知詞之所以成詞,表示它在現實生活中出現的「機率」並 不是零。然而,若想要替這些妾身未明的詞加上某個次數,便破壞了原始模型裡的分布,恐怕會在某些地方引發連鎖反應。 真正的 那麼,為什麼 n-gram 是簡化過的 HMM 小結一下,如果我沒誤會 ljm > chewing 比不上 going 的原因, 我直覺是因為 我想,邏輯上「單字詞問題」和「音轉字模型不好」並不是互斥的。好的機率模型並不會厚此薄彼,問題是我們餵進機率模型的東西是不是符合需求? > 單字詞的問題, 並不是音轉字的模型不好 > eg: > 扳機, 扳機指 > 磁性, 雌性, 詞性 > 三隻貓, 三枝筆, 三芝貓空 > 還是詞庫輸入法比較簡單啦, 嘴砲完畢, 還是沒有 patch ( 躲起來 ) 我想,您指的詞庫輸入法其實是 uni-gram 的一種特例,採用資訊檢索常見的 "pattern" 而不那麼在乎斷詞問題。這基本上是可行的,但輸入法與資訊檢索的需求有一處不同:此時這些「詞」的詞頻必須互斥。舉例來說,「扳機指」若出現了 n 次,「扳機」出現的次數就不可包含那 n 次。對資訊檢索來說則不必如此。這樣的方式在某些單字詞問題上的好處是,把以前需要做 bi-gram 或 tri-gram 的東西直接黏在一起,像「週休二日」這種 pattern,斷詞標準不同,可能會被切分成不同的單位,但實務上直接視為一個單位比較方便。而這種方式的缺點是破壞了語言本身的自然現象帶來的預測能力。舉 例來說,中文裡絕大多數的字都是自由詞素,常用的單字總是有機會被拿來跟別的字詞搭配成新詞;然而,當我們採用「互斥」詞頻時,詞長愈短的詞愈容易被孤立。要是 不採用「互斥」詞頻,那麼就跟 uni-gram 沒有太大差異(只有斷詞標準不同),於是我們就回到原點了。上述說法,請參考 "The Properties and Further Applications of Chinese Frequent Strings" (http://www.aclclp.org.tw/clclp/v9n1/v9n1a7.pdf) 一文。所以如果要 patch,照著該文做一遍是可以的。:) You must Sign in before you can post messages.
To post a message you must first join this group.
Please update your nickname on the subscription settings page before posting.
You do not have the permission required to post.
| ||||||||||||||