連續輸入時,先前選好的字詞會亂組合

25 views
Skip to first unread message

柯家慧

unread,
Sep 9, 2025, 1:48:06 AM (11 days ago) Sep 9
to Chewing IM Development
當連續輸入時,先前選好的字詞會隨著新的輸入亂組合,導致必須不斷的往回修正錯字,或者得每輸入一個新的詞就按下enter輸入。不論以上哪一種方法,都讓中文輸入變得非常沒有效率,懇請團隊盡快修正。小妹建議自動選字判斷限制於游標前後2-4個字就好,多了就亂了!

Kan-Ru Chen

unread,
Sep 9, 2025, 3:46:03 AM (11 days ago) Sep 9
to 柯家慧, chewin...@googlegroups.com
你好

這個問題真的很難,因為有的詞長度五個字,不打完也不知道是不是正確的。

有個小技巧,在輸入 Enter 前都可以在最後面按 Tab 調整斷詞的方式,每按一下就換一種,可以減少要移動游標機會。也可以在字跟字中間按 Tab,把詞連起來或斷開。

我們會繼續調整輸入跟顯示的邏輯,讓它更有效率跟容易了解,感謝你的建議

On Tue, Sep 9, 2025, at 2:48 PM, 柯家慧 wrote:
當連續輸入時,先前選好的字詞會隨著新的輸入亂組合,導致必須不斷的往回修正錯字,或者得每輸入一個新的詞就按下enter輸入。不論以上哪一種方法,都讓中文輸入變得非常沒有效率,懇請團隊盡快修正。小妹建議自動選字判斷限制於游標前後2-4個字就好,多了就亂了!


--
這是 Google 網路論壇針對「Chewing IM Development」群組發送的訂閱通知郵件。
如要取消訂閱這個群組並停止接收來自這個群組的郵件,請傳送電子郵件到 chewing-deve...@googlegroups.com

Shelandy Ting

unread,
Sep 10, 2025, 1:06:56 PM (10 days ago) Sep 10
to chewin...@googlegroups.com, 柯家慧
現在libchewing 是用bigram 嗎?
我最近觀察到一件違反直覺的事:假如ABCD 四個中文字, 詞庫有一詞 AB , 也有一詞 BC ,而 BC 詞頻比較高,好像就會優先調整B去斷  BC。然後單獨的A 選一個最高頻單字
這樣邏輯看起來沒大問題,但是要是D 是一個通用副詞字(如:的)可以接很多前置字(好,壞,快,慢...),直覺上應該優先把AB 斷成一 詞,CD 斷成一詞,這樣可以滿足最長匹配,雖然這裡 最長匹配不是一個四字詞而是兩個並列雙字詞,
但是目前 libchewing不會處理這樣的斷詞,所以有發文小姐說的問題。
當然這要引入一丁點詞性的知識來作統合,但現在要重算字詞頻應該比當年容易,不知各位覺的如何?

Kan-Ru Chen <ka...@kanru.info> 於 2025年9月9日 週二 下午3:46寫道:

Kan-Ru Chen

unread,
Sep 10, 2025, 6:26:59 PM (10 days ago) Sep 10
to Shelandy Ting, chewin...@googlegroups.com, 柯家慧
libchewing 的 git 版以及 windows-chewing-tsf 的預覽版用的是一個比較新的演算法,移除了一些以前加的經驗法則(heuristics),我覺得結果比原本的好一點,可以試試看

最近有在想要用現有的詞庫加簡單的 n-phrase-gram, 只做 online learning ,歡迎提供想法

Shelandy Ting

unread,
Sep 10, 2025, 10:34:55 PM (9 days ago) Sep 10
to Kan-Ru Chen, chewin...@googlegroups.com, 柯家慧
您的 n-phrase-gram 可能要先定義一下 phrase-gram 才好討論。
先不談細節,我第一個想到的是很久之前用lisp寫過,早忘掉細節,而且要跟重新算詞頻兩件事一起處理。
https://zh.wikipedia.org/zh-tw/%E9%A9%AC%E5%B0%94%E5%8F%AF%E5%A4%AB%E9%93%BE

Kan-Ru Chen <ka...@kanru.info> 於 2025年9月11日 週四 上午6:26寫道:

Kan-Ru Chen

unread,
Sep 10, 2025, 11:00:08 PM (9 days ago) Sep 10
to Shelandy Ting, chewing-devel
我覺得不考慮,或是不想直接用 HMM 是因為狀態太多。目前在想的是小型的 LM, 計算每一個 P(即將出現的詞 | 所有過去出現的詞) 的機率

過去出現的詞可以用目前這個 session 曾經打過的字或詞

類似 Bayesian spam filter 的評分方法 https://gigamonkeys.com/book/practical-a-spam-filter
Reply all
Reply to author
Forward
0 new messages