福氣 179 ㄈㄨˊ ㄑㄧˋ
福建省 626 ㄈㄨˊ ㄐㄧㄢˋ ㄕㄥˇ
福爾摩莎 402 ㄈㄨˊ ㄦˇ ㄇㄛˊ ㄕㄚ
有 "福氣" 耶 , OV 聯想詞, 是照 "長度" 排, 還是 "詞頻" 排 ?
--
Pofeng "informer" Lee, 李柏鋒, pofeng at gmail dot com
> 唔,我的表達有點問題。目前 OV 聯想字只列出前九
> 名,我只是很好奇「福氣」排不到前九名,有點意外這
> 樣。:)
hmmm, 我想那個詞頻有很大的問題, ( b6s & kcwu 應該更清楚, 我野人獻曝一下 )
首先是每個詞加進去的時間點不一樣, 原始的統計資料, 蕭百祥好像也沒有提出來 (?)
所以我想把任何一個人訓練過的 win32 uhash.dat 轉出來, 都會比現在原始的 tsi.src 的詞頻好
libchewing 的設計是, 一個詞頻(加權)很高的詞, 很久沒有用, 突然打出來, 詞頻(加權)其實應該要扣分
另外 gugod 提到那個 "的*嗶*" 的怪詞
好像是因為早期詞庫很小的時候 蕭百祥 先用斷詞, 跑出一些新詞 ( 這部分的程式碼沒有看到 )
再用人工 review , 我不確定是不是那時候留下來的
不過我確定用 tsiguess 是不會抓出 "的" 開頭的詞, 因為有濾掉一些字 ( 我好像講過很多遍 :p )
/* 連接詞 */ "且並和與及或但若" \
/* 副詞 */ "很只還皆都僅則也要就不將才" \
/* 時態詞 */ "了著" \
/* 定詞/量詞 */ "一二兩三四五六七八九十這那此本該其個杯句" \
/* 語助詞 */ "啊啦吧的得地之乎" \
/* 介詞 */ "為跟但對在於是像把" \
/* 後置詞 */ "上中下左右等間時" \
/* 及物動詞 */ "是有作做讓說" \
/* misc */ "我你妳您他她它牠祂";
( http://b2d.tnc.edu.tw/cgi-bin/viewcvs.cgi/libtabe/util/tsiguess.c?rev=1.1.1.1&content-type=text/vnd.viewcvs-markup
)
舉例 "音和" 應該也不是詞, 等 "聖誕節"(TM) 的時候會來 review 一下 ,
有興趣幫忙的朋友也可以 grep 幫忙一下
eg: "grep 和 tsi.src" ( in utf-8 shell )
.....
隨聲附和 2 ㄙㄨㄟˊ ㄕㄥ ㄈㄨˋ ㄏㄜˋ
音和 20 ㄧㄣ ㄏㄜˊ
頤和園 20 ㄧˊ ㄏㄜˊ ㄩㄢˊ
.....