關於新酷音輸入法詞庫專案的提議

220 views
Skip to first unread message

WM

unread,
Dec 2, 2011, 4:02:22 AM12/2/11
to chewin...@googlegroups.com, cka...@gmail.com, jser...@gmail.com, lwhs...@gmail.com, pcma...@gmail.com
那個…放在Openfoundry的libchewing-data很久沒人去動了啊,
我在想要不要搬進github的chewing organization裡面,這樣比較好維護,
libchewing也不必每次都得跑script才能倒詞庫進來。

前兩天逮到機會跟kanru提了一下,只是不知道要滿足哪些條件才能解開這個成就XD

另外還有一個想法是把網站直接搬到github pages,然後請lwhsu學長把原本那邊CNAME指過來。
我想這樣在網頁維護上也比較方便。

不知道各位大哥有什麼看法?
--
If you don't stand for something, you'll fall for anything.

http://kidwm.net/

Jim Huang

unread,
Dec 2, 2011, 4:27:38 AM12/2/11
to WM, chewin...@googlegroups.com, cka...@gmail.com, lwhs...@gmail.com, pcma...@gmail.com
在 2011年12月2日下午5:02,WM <wand...@gmail.com> 寫道:
> 那個…放在Openfoundry的libchewing-data很久沒人去動了啊,
> 我在想要不要搬進github的chewing organization裡面,這樣比較好維護,
> libchewing也不必每次都得跑script才能倒詞庫進來。
>
> 前兩天逮到機會跟kanru提了一下,只是不知道要滿足哪些條件才能解開這個成就XD

hi WM,

Good idea!

不過我有以下問題:
(1) 基於實務上的考量 (輸入法平台本身對特定字集的顯示完整度 / 正確性一類的議題),libchewing-data 的詞庫
(tsi.src) 並非直接可置入 libchewing,而是略作刪減調整後,才移入 repository。也就是說,在直接針對
libchewing-data 作調整之前,libchewing 得想辦法追蹤板號
(2) 若 libchewing-data 從 SVN 改用 GIT 後,需要有個簡易的機制,能夠滿足 (1) 的需求

> 另外還有一個想法是把網站直接搬到github pages,然後請lwhsu學長把原本那邊CNAME指過來。
> 我想這樣在網頁維護上也比較方便。

+1

Thanks,
-jserv

jid...@jidanni.org

unread,
Dec 4, 2011, 7:07:40 PM12/4/11
to chewin...@googlegroups.com
> 很久沒人去動了啊
我已學會其某字特殊發音,不再送 bug report 了。

WM

unread,
Dec 16, 2011, 7:10:16 AM12/16/11
to chewin...@googlegroups.com, Jim Huang, lwhs...@gmail.com, cka...@gmail.com, pcma...@gmail.com
大家好~

向大家報告網站搬遷的工作進度:

http://kidwm.github.com/chewing/

雖然還沒有上樣式做美化,但基本的架構都弄好了。

放在https://github.com/kidwm/chewing/tree/gh-pages,是在gh-pages這個branch上

請哪位有空的話幫個忙拉回去chewing.github.com吧。我不會發pull request啦Orz

整體上改用HTML5重寫,並搭配Github Pages的Jekyll功能,以下說明改了哪些東西。

index.html
最新消息置頂並改成顯示最新一則的內容。

news.html
列表呈現,有atom.xml可以訂閱,文章都放在/_posts/,以markdown格式寫成,以後更新就照其他文章的格式,新增一個.markdown檔案就行了。P.S.
笨笨地手工轉換全部的更新公告累死人了Orz

download.html
SVN換git,另外下載連結改到github的https://github.com/chewing/chewing.github.com/downloads,請有權限的人上傳那些舊檔案吧,或是想改放Google
Code也可以,總之移出去後可以讓網頁的repo減肥。

screenshots.html
基本上沒更動。

contribute.html
把原本的Bug選單項目移進來。

faq.html
在unix-like的部份介紹ibus-chewing

requirements.html
調整了套件相依的描述,雖然不知道這樣改對不對。

license.html
沒差別。

links.html
把IIIMF的連結改指到Wikipedia,OpenI18N.org好像收掉了。

about.html
拿掉lwhsu學長的email。

各位可以對照現在的http://chewing.csie.net/看看還有沒有什麼問題或建議。不要跟我說IE相容之類的都好XD

所以下面誰要報告libchewing-data詞庫搬遷的工作進度?

在 2011年12月3日下午4:53,Li-Wen Hsu <lw...@lwhsu.org> 寫道:
> 2011/12/2 Jim Huang <jser...@gmail.com>:

> 這是個好方法, 現在好的 source code hosting 這麼多, svn.csie.net 應該退休了, 我會全力幫忙!
>
> Best regards,
> Li-Wen

WM

unread,
Dec 22, 2011, 12:25:27 AM12/22/11
to Chewing IM Development
我看了看網站裡面的dowload資料夾,應該是把檔案放到各個github repo的下載頁面上就可以了?
https://github.com/chewing/windows-chewing/downloads
https://github.com/chewing/libchewing/downloads
因為放Google Code那邊不能分類放,還是有人有其它意見?不然我就開始搬了喔。

另外關於詞庫,因為我對新酷音程式碼沒有研究,所以不懂您提出的問題點,但我想應該不是放棄Windows
98支援而已就能簡單理清的,還是學長要實現您的擘畫:http://code.google.com/p/chewing/wiki/
GSoC2011_Ideas
弄一個重新架構的libchewing-data,讓接下來的詞庫維護可以更容易。

On 12月2日, 下午5時27分, Jim Huang <jserv...@gmail.com> wrote:

Jim Huang

unread,
Dec 22, 2011, 4:03:41 AM12/22/11
to chewin...@googlegroups.com
在 2011年12月22日下午1:25,WM <wand...@gmail.com> 寫道:
> 我看了看網站裡面的dowload資料夾,應該是把檔案放到各個github repo的下載頁面上就可以了?
> https://github.com/chewing/windows-chewing/downloads
> https://github.com/chewing/libchewing/downloads
> 因為放Google Code那邊不能分類放,還是有人有其它意見?不然我就開始搬了喔。

+1

另外,download 頁面在 github 系統上應該也能補上說明吧 (加個 README 檔案)?

> 另外關於詞庫,因為我對新酷音程式碼沒有研究,所以不懂您提出的問題點,但我想應該不是放棄Windows
> 98支援而已就能簡單理清的,還是學長要實現您的擘畫:http://code.google.com/p/chewing/wiki/
> GSoC2011_Ideas
> 弄一個重新架構的libchewing-data,讓接下來的詞庫維護可以更容易。

這是下一步。

Regards,
-jserv

Jim Huang

unread,
May 12, 2012, 4:07:57 AM5/12/12
to Chewing-Dev, WM
2011/12/16 WM <wand...@gmail.com>:
> 大家好~
> 向大家報告網站搬遷的工作進度:
> http://kidwm.github.com/chewing/

hi WM,

目前 github 的 HTML5 為基礎的新網站 [1] 是否全面取代舊版本 [2]?

要不就正式將 chewing.csie.net 指過去?

Thanks,
-jserv

[1] http://chewing.github.com/
[2] http://chewing.csie.net/

WM

unread,
May 12, 2012, 4:20:47 AM5/12/12
to chewin...@googlegroups.com, WM
會取代。

等我搬完原先的那些TARBALL檔案到github後,會請lwhsu學長處理網址指向。

讓我再拖一下,大概在PyCONF結束之後吧。

jserv於 2012年5月12日星期六UTC+8下午4時07分57秒寫道:
2011/12/16 WM

Jim Huang

unread,
May 12, 2012, 4:21:58 AM5/12/12
to chewin...@googlegroups.com, WM
2012/5/12 WM <wand...@gmail.com>:

> 會取代。
> 等我搬完原先的那些TARBALL檔案到github後,會請lwhsu學長處理網址指向。
> 讓我再拖一下,大概在PyCONF結束之後吧。

Got it. Thanks.

主要是因為要寫公告時,不知道要採用哪個網址。

WM

unread,
Sep 28, 2012, 1:34:05 AM9/28/12
to chewin...@googlegroups.com, WM
既然網站已經搬遷完成,現在就把這討論串拉回原本的主題。

今天早上在ibus-zuyin開了這個issue


後來去看了看小麥注音的詞庫來源,發現也是天下武功出少林,來自於libtabe,

忽然想到既然大家都是同一個來源,那麼為何不打造一個可以讓大家一起共用的詞庫,

是純文字的來源,要使用的專案可以再依需要修改加工。

如此一來libchewing-data就只需要匯入這個共用的詞庫來源,可以專注於如何生成libchewing所需要的詞庫檔案格式。


而這個共用的詞庫可以一開始就分門別類拆好,方便多人協作與管理,也方便下游的輸入法等專案使用。

我想按照現在libchewing-data裡面那份tsi.src來分拆,這樣的格式,再加上個註解欄位應該就很夠用了。


重大的問題是人力與管理,如果repo開在github交給l10n.linux.org.tw社群來協調不知道可不可行。

更大的問題是,這個社群還沒成功組織起來XD

最大的問題是,那這樣的專案要取什麼名字Orz


如能完成如此工程便能初步實現去年計畫上所提到的開放語料庫的概念 [1]

至於雲端詞庫服務 [2] 就再說吧XD



jserv於 2012年5月12日星期六UTC-7上午1時21分58秒寫道:

Buganini

unread,
Sep 28, 2012, 1:57:18 AM9/28/12
to chewin...@googlegroups.com, WM
或許可以先收集一下網路上零散的詞庫資源,譬如說 https://github.com/godfat/cht-phrases

也可以作一個抓新聞或bbs文章來建立詞庫的service,一方面用作雲端詞庫,而local詞庫就取雲端詞庫精選集,定時更新?
不過詞頻的部份不知道怎麼處理合併比較好

2012/9/28 WM <wand...@gmail.com>:

> --
> 您已訂閱「Google 網上論壇」的「Chewing IM Development」群組,因此我們特別傳送這封郵件通知您。
> 如要在網路上查看這項討論,請造訪
> https://groups.google.com/d/msg/chewing-devel/-/VnB7AT77VycJ
>
> 如要在此群組張貼留言,請傳送電子郵件至 chewin...@googlegroups.com
> 如要取消訂閱此群組,請傳送電子郵件至 chewing-deve...@googlegroups.com
> 如需更多選項,請造訪此群組:http://groups.google.com/group/chewing-devel?hl=zh-TW

Ken Lee

unread,
Sep 28, 2012, 2:11:01 AM9/28/12
to chewin...@googlegroups.com
Dear all:

由於我的論文跟詞庫有相關, 目前已經從 ettoday.netnownews.com 以及其他網站蒐集文章的 tags, 數量在十萬左右
不過現在這些蒐集回來的詞仍需要人工下去調整與審核, 目前尚未整理完成... 不知道要怎麼貢獻這些資源呢? 謝謝~


Best regards,
Ken

2012/9/28 Buganini <buga...@gmail.com>

Kuang-che Wu

unread,
Sep 28, 2012, 4:13:41 AM9/28/12
to chewin...@googlegroups.com
整合詞庫時也要注意各詞庫的 license.
libtabe 原本的詞庫是 BSD license, libchewing-data 是 LGPL.
能不能利用其他詞庫, 或能不能反向回饋或是共同, 仍得一個個研究.
Reply all
Reply to author
Forward
0 new messages