Account Options

  1. Sign in
The old Google Groups will be going away soon, but your browser is incompatible with the new version.
Google Groups Home
« Groups Home
Message from discussion 音找字 vs 音找詞
The group you are posting to is a Usenet group. Messages posted to this group will make your email address visible to anyone on the Internet.
Your reply message has not been sent.
Your post was successful
 
From:
To:
Cc:
Followup To:
Add Cc | Add Followup-to | Edit Subject
Subject:
Validation:
For verification purposes please type the characters you see in the picture below or the numbers you hear by clicking the accessibility icon. Listen and type the numbers you hear
 
b6s  
View profile   Translate to Translated (View Original)
 More options Jun 28 2006, 6:55 am
From: "b6s" <barab...@gmail.com>
Date: Wed, 28 Jun 2006 03:55:00 -0700
Subject: Re: 音找字 vs 音找詞

Pofeng Lee wrote:
> 2006/6/23, b6s <barab...@gmail.com>:

> > old *.cin 跟 ljm 這篇 blog 講的應該是不同的事情?
> > 我以為,ljm
> > 在乎的是,有些音總是不齊全或不符合一般習慣。

> ljm> 簡言之,如果我們建立一個直接從注音 map 到漢字的
> ljm> language model (HMM 或其他辦法),應該可以改善現行的詞庫、頻率等等方法

> 我以為 ljm 是要找出新的音轉字的模型來改善酷音 ?

「直接從注音 map
到漢字」的意思是,目前用來做輸入法的模型,在(當年)缺乏資料且記憶體不足的情況下,音和字之間的關聯是齊頭式平等,破音字的各種發音之間沒有機率關係,頂多
只有 .cin 檔裡的先後順序而已。
缺乏資料的原因是,除了國語日報之外,很少有完整音節和漢字並列的語料庫可供統計;另一方面,就算拿國語日報來統計,書面語的用詞及其音標,和口語有一定程度的 差異。而
ljm
想做的,主要是改善後面這個問題,補足日常用語的音標,特別是在使用者通常不會乖乖打破音字發音的情況下。反過來說,「總統」的問題也一樣,有些使用者可能不會 照著標準的聲調輸入。
為什麼要有音->字的統計關聯呢?這要從 (n-gram) language
model 與 HMM 的差異說起。又為什麼要提 n-gram
呢?因為酷音的原理是簡化過的
uni-gram。所謂「簡化」,在於酷音裡評分的標準是字詞的「頻」率,而不是「機」率。這樣做有兩個問題:第一,直接用詞頻時,僅出現一次和出現過十次的字 詞,在評分時會造成相當大的落差,然而這完全是語料的
bias,無法代表現實生活中的傾向;第二,「新詞」或「未知詞」在原始語料中的出現次數為零,但新詞或未知詞之所以成詞,表示它在現實生活中出現的「機率」並 不是零。然而,若想要替這些妾身未明的詞加上某個次數,便破壞了原始模型裡的分布,恐怕會在某些地方引發連鎖反應。

真正的
n-gram,首先要用次數除以語料中詞彙的總數而得到機率,接著要用某些方法替「未知事件」分配一個很小很小的機率。而這個小小機率畢竟是無中生有,原始模型 中所有的機率都要重新
normalize 來符合所有事件機率相加等於一的基本要求。

那麼,為什麼 n-gram 是簡化過的 HMM
呢?先轉個方向,想想語音辨識的流程。從聲音訊號轉換成某些音節單位,從某些音節單位再轉換成字詞,這樣基本上是兩個階段。輸入法其實可以視為比較容易的語音辨 識問題(即使是字根式輸入法也可以這麼看),因為系統不必做訊號處理,我們已經直接輸入音節單位的符號了。但
HMM
無論在那一個階段,內部流程用到的機率也不只一種:某音節
Sa 和某音節 Sb 相鄰的機率、某音節 Sa 轉換成某字詞 La
的機率、某音節 Sb 轉換成某字詞 Lb 的機率、某字詞 La
與某字詞 Lb
相鄰的機率。目前採用機率模型的輸入法,就我所知全部都只用了最後一種。

小結一下,如果我沒誤會 ljm
的意思,他要做的事情不是弄個「新的」模型,只是想把舊模型裡被省略掉(全部被當成機率為一)的東西補回去。

> chewing 比不上 going 的原因, 我直覺是因為
> 單字詞的問題, 並不是音轉字的模型不好
> eg:
> 扳機, 扳機指
> 磁性, 雌性, 詞性
> 三隻貓, 三枝筆, 三芝貓空

我想,邏輯上「單字詞問題」和「音轉字模型不好」並不是互斥的。好的機率模型並不會厚此薄彼,問題是我們餵進機率模型的東西是不是符合需求?

> 還是詞庫輸入法比較簡單啦,  嘴砲完畢, 還是沒有 patch ( 躲起來 )

我想,您指的詞庫輸入法其實是 uni-gram
的一種特例,採用資訊檢索常見的 "pattern"
而不那麼在乎斷詞問題。這基本上是可行的,但輸入法與資訊檢索的需求有一處不同:此時這些「詞」的詞頻必須互斥。舉例來說,「扳機指」若出現了
n 次,「扳機」出現的次數就不可包含那 n
次。對資訊檢索來說則不必如此。這樣的方式在某些單字詞問題上的好處是,把以前需要做
bi-gram 或 tri-gram
的東西直接黏在一起,像「週休二日」這種
pattern,斷詞標準不同,可能會被切分成不同的單位,但實務上直接視為一個單位比較方便。而這種方式的缺點是破壞了語言本身的自然現象帶來的預測能力。舉 例來說,中文裡絕大多數的字都是自由詞素,常用的單字總是有機會被拿來跟別的字詞搭配成新詞;然而,當我們採用「互斥」詞頻時,詞長愈短的詞愈容易被孤立。要是 不採用「互斥」詞頻,那麼就跟
uni-gram
沒有太大差異(只有斷詞標準不同),於是我們就回到原點了。上述說法,請參考
"The Properties and Further Applications of Chinese Frequent Strings"
(http://www.aclclp.org.tw/clclp/v9n1/v9n1a7.pdf)
一文。所以如果要 patch,照著該文做一遍是可以的。:)

 
You must Sign in before you can post messages.
To post a message you must first join this group.
Please update your nickname on the subscription settings page before posting.
You do not have the permission required to post.