聯想詞 in OV

33 views
Skip to first unread message

Pofeng Lee

unread,
Nov 8, 2007, 11:27:21 PM11/8/07
to chewin...@googlegroups.com, openv...@googlegroups.com
01:14 <@lukhnos> 另外像打「福」,竟然沒「福氣」但有「福建省」及「福爾摩莎」
01:15 <@lukhnos> 不是說後兩者就不常用,但這有點 counter-intuitive
01:15 <@lukhnos> 但是... 這並不是人工 tweak 的問題啦

福氣 179 ㄈㄨˊ ㄑㄧˋ
福建省 626 ㄈㄨˊ ㄐㄧㄢˋ ㄕㄥˇ
福爾摩莎 402 ㄈㄨˊ ㄦˇ ㄇㄛˊ ㄕㄚ

有 "福氣" 耶 , OV 聯想詞, 是照 "長度" 排, 還是 "詞頻" 排 ?

--
Pofeng "informer" Lee, 李柏鋒, pofeng at gmail dot com

Lukhnos D. Liu

unread,
Nov 9, 2007, 6:05:40 AM11/9/07
to openv...@googlegroups.com, chewin...@googlegroups.com
On Nov 9, 2007, at 12:27 PM, Pofeng Lee wrote:
> 01:14 <@lukhnos> 另外像打「福」,竟然沒「福氣」但有
> 「福建省」及「福爾摩莎」
> 01:15 <@lukhnos> 不是說後兩者就不常用,但這有點
> counter-intuitive
> 01:15 <@lukhnos> 但是... 這並不是人工 tweak 的問題啦
> 福氣 179 ㄈㄨˊ ㄑㄧˋ
> 福建省 626 ㄈㄨˊ ㄐㄧㄢˋ ㄕㄥˇ
> 福爾摩莎 402 ㄈㄨˊ ㄦˇ ㄇㄛˊ ㄕㄚ
> 有 "福氣" 耶 , OV 聯想詞, 是照 "長度" 排, 還是 "詞
> 頻" 排 ?

唔,我的表達有點問題。目前 OV 聯想字只列出前九
名,我只是很好奇「福氣」排不到前九名,有點意外這
樣。:)

d.

Pofeng Lee

unread,
Nov 10, 2007, 2:06:48 PM11/10/07
to OpenVanilla, chewin...@googlegroups.com

On 11月9日, 下午7時05分, "Lukhnos D. Liu" <lukh...@gmail.com> wrote:
> On Nov 9, 2007, at 12:27 PM, Pofeng Lee wrote:
>
> > 01:14 <@lukhnos> 另外像打「福」,竟然沒「福氣」但有「福建省」及「福爾摩莎」
> > 01:15 <@lukhnos> 不是說後兩者就不常用,但這有點 counter-intuitive
> > 01:15 <@lukhnos> 但是... 這並不是人工 tweak 的問題啦

> 唔,我的表達有點問題。目前 OV 聯想字只列出前九


> 名,我只是很好奇「福氣」排不到前九名,有點意外這
> 樣。:)

hmmm, 我想那個詞頻有很大的問題, ( b6s & kcwu 應該更清楚, 我野人獻曝一下 )

首先是每個詞加進去的時間點不一樣, 原始的統計資料, 蕭百祥好像也沒有提出來 (?)

所以我想把任何一個人訓練過的 win32 uhash.dat 轉出來, 都會比現在原始的 tsi.src 的詞頻好

libchewing 的設計是, 一個詞頻(加權)很高的詞, 很久沒有用, 突然打出來, 詞頻(加權)其實應該要扣分

另外 gugod 提到那個 "的*嗶*" 的怪詞
好像是因為早期詞庫很小的時候 蕭百祥 先用斷詞, 跑出一些新詞 ( 這部分的程式碼沒有看到 )
再用人工 review , 我不確定是不是那時候留下來的

不過我確定用 tsiguess 是不會抓出 "的" 開頭的詞, 因為有濾掉一些字 ( 我好像講過很多遍 :p )

/* 連接詞 */ "且並和與及或但若" \
/* 副詞 */ "很只還皆都僅則也要就不將才" \
/* 時態詞 */ "了著" \
/* 定詞/量詞 */ "一二兩三四五六七八九十這那此本該其個杯句" \
/* 語助詞 */ "啊啦吧的得地之乎" \
/* 介詞 */ "為跟但對在於是像把" \
/* 後置詞 */ "上中下左右等間時" \
/* 及物動詞 */ "是有作做讓說" \
/* misc */ "我你妳您他她它牠祂";
( http://b2d.tnc.edu.tw/cgi-bin/viewcvs.cgi/libtabe/util/tsiguess.c?rev=1.1.1.1&content-type=text/vnd.viewcvs-markup
)

舉例 "音和" 應該也不是詞, 等 "聖誕節"(TM) 的時候會來 review 一下 ,

有興趣幫忙的朋友也可以 grep 幫忙一下

eg: "grep 和 tsi.src" ( in utf-8 shell )
.....
隨聲附和 2 ㄙㄨㄟˊ ㄕㄥ ㄈㄨˋ ㄏㄜˋ
音和 20 ㄧㄣ ㄏㄜˊ
頤和園 20 ㄧˊ ㄏㄜˊ ㄩㄢˊ
.....

Reply all
Reply to author
Forward
0 new messages