連續輸入時，先前選好的字詞會亂組合

柯家慧

unread,

Sep 9, 2025, 1:48:06 AM (11 days ago) Sep 9

to Chewing IM Development

當連續輸入時，先前選好的字詞會隨著新的輸入亂組合，導致必須不斷的往回修正錯字，或者得每輸入一個新的詞就按下enter輸入。不論以上哪一種方法，都讓中文輸入變得非常沒有效率，懇請團隊盡快修正。小妹建議自動選字判斷限制於游標前後2-4個字就好，多了就亂了！

Kan-Ru Chen

unread,

Sep 9, 2025, 3:46:03 AM (11 days ago) Sep 9

to 柯家慧, chewin...@googlegroups.com

你好

這個問題真的很難，因為有的詞長度五個字，不打完也不知道是不是正確的。

有個小技巧，在輸入 Enter 前都可以在最後面按 Tab 調整斷詞的方式，每按一下就換一種，可以減少要移動游標機會。也可以在字跟字中間按 Tab，把詞連起來或斷開。

我們會繼續調整輸入跟顯示的邏輯，讓它更有效率跟容易了解，感謝你的建議

On Tue, Sep 9, 2025, at 2:48 PM, 柯家慧 wrote:

當連續輸入時，先前選好的字詞會隨著新的輸入亂組合，導致必須不斷的往回修正錯字，或者得每輸入一個新的詞就按下enter輸入。不論以上哪一種方法，都讓中文輸入變得非常沒有效率，懇請團隊盡快修正。小妹建議自動選字判斷限制於游標前後2-4個字就好，多了就亂了！

--
這是 Google 網路論壇針對「Chewing IM Development」群組發送的訂閱通知郵件。
如要取消訂閱這個群組並停止接收來自這個群組的郵件，請傳送電子郵件到 chewing-deve...@googlegroups.com。
如要查看這個討論，請前往 https://groups.google.com/d/msgid/chewing-devel/c1e8974c-5b4c-4661-94a8-52a924a6d48bn%40googlegroups.com。

Shelandy Ting

unread,

Sep 10, 2025, 1:06:56 PM (10 days ago) Sep 10

to chewin...@googlegroups.com, 柯家慧

現在libchewing 是用bigram 嗎？
我最近觀察到一件違反直覺的事：假如ABCD 四個中文字，詞庫有一詞 AB ，也有一詞 BC ，而 BC 詞頻比較高，好像就會優先調整B去斷 BC。然後單獨的A 選一個最高頻單字
這樣邏輯看起來沒大問題，但是要是D 是一個通用副詞字（如：的）可以接很多前置字(好，壞，快，慢...)，直覺上應該優先把AB 斷成一詞，CD 斷成一詞，這樣可以滿足最長匹配，雖然這裡最長匹配不是一個四字詞而是兩個並列雙字詞，
但是目前 libchewing不會處理這樣的斷詞，所以有發文小姐說的問題。
當然這要引入一丁點詞性的知識來作統合，但現在要重算字詞頻應該比當年容易，不知各位覺的如何？

Kan-Ru Chen <ka...@kanru.info> 於 2025年9月9日週二下午3:46寫道：

如要查看這個討論，請前往 https://groups.google.com/d/msgid/chewing-devel/8d73648b-4900-488f-9c8d-9e445e2aa87c%40app.fastmail.com。

Kan-Ru Chen

unread,

Sep 10, 2025, 6:26:59 PM (10 days ago) Sep 10

to Shelandy Ting, chewin...@googlegroups.com, 柯家慧

libchewing 的 git 版以及 windows-chewing-tsf 的預覽版用的是一個比較新的演算法，移除了一些以前加的經驗法則(heuristics)，我覺得結果比原本的好一點，可以試試看

最近有在想要用現有的詞庫加簡單的 n-phrase-gram, 只做 online learning ，歡迎提供想法

如要查看這個討論，請前往 https://groups.google.com/d/msgid/chewing-devel/CAMsDYz11HTJKmtm2vP4UsqaYdX24c5StSi0QLgKiBP5%3DHzVbLA%40mail.gmail.com。

Shelandy Ting

unread,

Sep 10, 2025, 10:34:55 PM (9 days ago) Sep 10

to Kan-Ru Chen, chewin...@googlegroups.com, 柯家慧

您的 n-phrase-gram 可能要先定義一下 phrase-gram 才好討論。
先不談細節，我第一個想到的是很久之前用lisp寫過，早忘掉細節，而且要跟重新算詞頻兩件事一起處理。
https://zh.wikipedia.org/zh-tw/%E9%A9%AC%E5%B0%94%E5%8F%AF%E5%A4%AB%E9%93%BE

Kan-Ru Chen <ka...@kanru.info> 於 2025年9月11日週四上午6:26寫道：

Kan-Ru Chen

unread,

Sep 10, 2025, 11:00:08 PM (9 days ago) Sep 10

to Shelandy Ting, chewing-devel

我覺得不考慮，或是不想直接用 HMM 是因為狀態太多。目前在想的是小型的 LM, 計算每一個 P(即將出現的詞 | 所有過去出現的詞) 的機率

過去出現的詞可以用目前這個 session 曾經打過的字或詞

類似 Bayesian spam filter 的評分方法 https://gigamonkeys.com/book/practical-a-spam-filter

Reply all

Reply to author

Forward