RFC: 維基詞典與開放輸入法的交流

Han-Teng Liao (OII)

unread,

Apr 17, 2009, 7:03:21 AM4/17/09

to zh_wik...@googlegroups.com

各位,

中文/漢字輸入法靠的是基本架構和對映的資料庫, 我只是在思考, 如何讓維
基詞典的編輯模版更容易輸入及匯出相關的輸入法對映表, 以供開放輸入法如
SCIM
<http://zh.wikipedia.org/w/index.php?title=SCIM&variant=zh-tw>-chewing,
OpenVanilla使用, 其實目前的商業輸入法很多都不符合國家注/拼音標準, (不論
是台北的還是北京的標準), 若維基詞典可以成為正確多元避免地方中心的輸入法
資料集中地, 我相信對開放輸入法的發展很有正面意義, 對學習輸入法的人也有很
好的參考來源.....

丟出以下議題:

(1) [現有輸入法對映表=>維基詞典的自動/半自動機制] 可否現在就
以開放輸入法有的對映表, 直接轉換出維基可以吃的模版的內容?

(2) [現有輸入法對映表<=維基詞典的自動/半自動機制] 可否未來有
將維基詞典模版有的輸入法內容, 直接轉出到流行的開放輸入法的資料集服務?

(3) [人工貢獻/修改維基詞典的輸入法內容的幫手機制] 可否有一簡
易的模版說明, 並列出所有Unicode己有的cjkv漢字, 並指出哪些漢字還要需要輸
入法的對映碼, 哪些漢字的輸入法對映表可能存在地方差異....

這些工作, 我想對網路上的中文處理會是一個很好的多元包容的標準建立的
基礎工程, 我相信維基在處理簡繁轉換後, 可以更進一步的邁向未來開放輸入法的
新地步

[在此感謝在此討論串的各式發言, 還有維基簡繁轉換的貢獻者, 激發出我在這方
面的思考, ]

hanteng

Han-Teng Liao (OII)

unread,

Apr 17, 2009, 7:07:27 AM4/17/09

to zh_wik...@googlegroups.com

忘記給OpenVanilla的連結

http://openvanilla.org/

他們有一些台灣知名的geek及blogger 其中在以下這個投影片中, 有提到利用
Wikipedia的資料, 但沒說怎麼用的...><

lukhnos.org/talks/20080412-lukhnos-OSDCtw2008Talk.pdf

Han-Teng Liao (OII)

unread,

Apr 17, 2009, 12:38:04 PM4/17/09

to zh_wik...@googlegroups.com

Cao Yi 提供了這個帖子, 是討論中文編碼和顯示的問題,
https://groups.google.com/group/pongba/browse_frm/thread/720f14b8ffd92abf

讀了一下, 我想有幾點關於GB2312 , GB 18030, Unicode及早期ascii拉丁編碼中
心的問題需要澄清

(歡迎Cao Yi 幫我把這帖轉貼到那個group)

幾個歷史事實:

(1) 最早的ASCII code不只是拉丁中心, 還是美國中心, 連英磅符號都沒有

(2) ASCII code發展的時候, 本來就是美國人自己要用的, 礙於當時電報及科技的
限制, 傳/存資料的成本非常大

(3) 現在傳/存資料的成本已經不是那麼重要

(4) 各國電腦/資訊化時, 都常以ASCII為主外加自已本國的語言需求, 以致形成以
美國ASCII為中心的標準設計, 有利於該國編碼標準和ASCII的單向包容性, 但使跨
語言的交流格外困難, 不但非ASCII語言可能無法顯示在同一文件之內, 還得需要
各種一對一的轉換工具,

(5) Unicode就要是解決(4)的問題, 倡議要同一個編碼標準來包容所有語言

從以上可知

(a) ASCII 的發展是拉丁中心沒錯

(b) 但Unicode是否為拉丁中心? 不一定

我個人對(b)的看法很實際, 若國外的網站還是只有用ASCII或其他拉丁碼為主, 而
不願採用Unicode, 在(3)傳/存資料成本不重要的環境(個人電腦存取的網際網路),
則是有拉丁中心的問題, 但若是像手機簡訊等, 傳/存資料成本仍重要的情況下,
可能要按情況看

繼續看GB2312 / GB 18030的問題,

GB2312就和Big5一樣, 是歷史事實(4)的時代產物, 所以GB2312和 Big5不相容, 但
都包容了ASCII的東西, 所以不能同時顯, 還得要有轉換工具

而GB 18030, 說難聽一點是根據Unicode外加北京想要加的控制, 特別是將中國境
內少数民族的文字符號, 從Unicode組織的標準拉回來國家標準的手段

基於GB 18030是Unicode的一種擴張的實作來說

(1) 若Unicode 為拉丁中心, 那麼 GB 18030一定是拉丁中心

(2) 若中國境內的使用都是以GBK 或 GB2312為主, 而GB 18030只是擺著好看的,
連政府機關/媒體只用GBK 或 GB2312, 有時加一點Big5, 同我個人對Unicode是否
拉丁中心的實際應用的評判標準來說, 我會說, GB2312 / GB 18030實際上應用,
是漢字中心, 因為實際上使用是以前者為主, 後者只是點綴用的.....若中國境內
都用GB 18030, 就和國際知名網站youtube google都用Unicode為主的話, 那我就
不會批評他們是拉丁或漢字中心了

有一位美國人類學/漢學家, 在西藏拉薩待了好些年, 通漢語與藏語, 就有提過一
開始中國在拉薩的一些大學, 是有大力貢獻Unicode在藏語的處理的, 但後來因政
治因素, 都半撤出了, 轉而在GB 18030的架構下, 另起爐灶, 若他所言為真, 那麼
更加強了GB 18030, 只是想要搞一個能包容Unicode但想干涉少數民族語言標準的
國際化發展....換句話說, 將國際議題國內化

同樣的道理也可以說在Unicode 的 CJKV漢字統一計劃....基本的原則如下

(1) Unicode的運作不是以政府為主, 而是以資訊業界和語言學/電腦科學專家為主

(2) 各國語言所使用的漢字先假設完全不一樣

(3) 若大家或幾個國家間同意, 那是同一個漢字的話, 就給一那個字共享的編碼,
(但注意, 認定同一個漢字不代表寫的完全一模一樣, 其中的差異可以用不同的字
形來呈現)

(4) 若不同意志願共享那些漢字, 那麼各國使用的漢字就待在不同的各國自有的漢
字編碼區

這也是為什麼連一開始沒有加入的越南, 後來也加入了, 因為這是相對開放的專業
/業界的標準制定環境, 國家標準的干預較少......

在我最近一篇要發表的雜誌文章中, 就有說明以上的道理及歷史脈絡, 不過是英文
的....若有人有興趣參考, 煩請寫信給我索取

基於同樣的原則, 我也是希望漢字/中文的輸入法也有類似的架構及實踐, 開放參
與, 多元, 避免地方中心

Han-Teng Liao (OII) wrote:
> 各位,
>
> 中文/漢字輸入法靠的是基本架構和對映的資料庫, 我只是在思考, 如何讓維
> 基詞典的編輯模版更容易輸入及匯出相關的輸入法對映表, 以供開放輸入法如
> SCIM
> <http://zh.wikipedia.org/w/index.php?title=SCIM&variant=zh-tw>-chewing,

> OpenVanilla使用, 其實目前的商業輸入法很多都不符合國家注/拼音標準, (不
> 論是台北的還是北京的標準), 若維基詞典可以成為正確多元避免地方中心的輸

> 入法資料集中地, 我相信對開放輸入法的發展很有正面意義, 對學習輸入法的
> 人也有很好的參考來源.....
>
> 丟出以下議題:
>
> (1) [現有輸入法對映表=>維基詞典的自動/半自動機制] 可否現在就
> 以開放輸入法有的對映表, 直接轉換出維基可以吃的模版的內容?
> (2) [現有輸入法對映表<=維基詞典的自動/半自動機制] 可否未來有
> 將維基詞典模版有的輸入法內容, 直接轉出到流行的開放輸入法的資料集服務?
>
> (3) [人工貢獻/修改維基詞典的輸入法內容的幫手機制] 可否有一簡
> 易的模版說明, 並列出所有Unicode己有的cjkv漢字, 並指出哪些漢字還要需要
> 輸入法的對映碼, 哪些漢字的輸入法對映表可能存在地方差異....
>
> 這些工作, 我想對網路上的中文處理會是一個很好的多元包容的標準建立的

Han-Teng Liao (OII)

unread,

Apr 17, 2009, 1:22:44 PM4/17/09

to zh_wik...@googlegroups.com

在此回應一些對Unicode的誤解的批評...

http://blog.csdn.net/dwj_ry/archive/2007/09/28/1804449.aspx

(1) "中日韩的汉字被无规律地混杂在同一个区间中，是哪国文字以无法辨认。"
正是因為共享, 才可以交流, 試想, 若在search一個漢字keyword, 若正好是有點
書寫不一樣(所以顯示字形不一樣), 不就可以確定是同一個東西嗎?! 別忘了, 像
骨這個字是中國大陸自己和台灣香港日本越南不一樣的....是因為簡化簡寫的政策
關係改的....
至於要辦認是哪國文字的問題, 有這麼重要嗎...Unicode的目的就是要所有的語言
能混在同一個網頁上啊....這是成功不是失敗啊!!! 要區分語言...應該靠自然語
言處理啊....不然歐盟的文件法德英文都在一起的話...是壞是嗎?

(2)"一种字体无法同时表示中文、日文和韩文"
說實話, 會決定共享的漢字, 是跨國很多語言學/電腦科學專家的決定, 雖然他們
的決定不一定正確...但能放在一起, 就至少讀起來不是問題!!! 寫法不同是字
形問題, 你應該去問..是否有比較聰明的字形顯示方式, 以其上下文決定該字的正
確顯示方式....試想一個港中台共享的日片av女優討論版 (希望還沒被反俗全反
掉) 若能按上下文決定顯示正確的香港台灣日本及中國漢字, 是不是更原汁原味
更有趣....
(別開始談如何用本地化漢字為a片加字幕的問題, ...基本上大家用的漢字是不太
一樣的...是為了配合當地習慣吧...這些漢字還是別統一的好.... ;-) )

(3) 以上造成的後果就是 "日本在IT界的影响力高于中国，也许是什么原因，似乎
Arial Unicode MS之类的字体中凡是中日写法不同的字体，全都是日文写法。"
那是M$偷工減料, 和Unicode無關!! 台灣開放源碼界也發現字形是一個大問
題....但編碼和字形顯示明明就是兩碼子事!! 要嘛應該學台灣的技客, 要求政府
/學術單位開放出自由版權或無版權的字形啊!!!! 這是字形檔的智慧財產權戰,
不是編碼戰!!!!

禮失之求諸野, 若你覺得那個野還是不文明, 就要求政府做好啊...這是基礎建設
啊...香港就有做一點點, 也提供一個「香港電腦漢字宋體〔印刷體〕字形參考指
引」的字型

http://www.ogcio.gov.hk/ccli/unicode/hkscs/reference_iso10646.html

台灣人看到 "日食" 會覺得怪, 但中日港都用" 日食"
中國人看到 "強姦" 會覺得怪, 但港都日台用"強姦"

看到"社会" "国土", 就會覺得中國和日本太靠近.....怎麼都和台灣和香港寫法不一樣
看到 "憲法" "規範", 就會覺得台灣和香港和日本太靠近.....怎麼都和中國寫法
不一樣

要區分混雜的中/日語.....? 為什麼要區分呢? 就算要區分, 為何不用程式判
斷而要走和Unicode CJKV相反的道路呢????

Cao Yi

unread,

Apr 18, 2009, 5:57:44 AM4/18/09

to zh_wik...@googlegroups.com

已经转发了。

2009/4/18 Han-Teng Liao (OII) <han...@gmail.com>

Han-Teng Liao

unread,

Apr 18, 2009, 7:58:35 AM4/18/09

to zh_wik...@googlegroups.com

感謝, 在此補上中華民國(台北當局)的國家中文標準交換碼的政策方向,

http://www.cns11643.gov.tw/AIDB/encodings.do

若各位無法讀取, 還請試試proxy等讀中華民國的官方網站

一些摘要 (台灣官方說法):

(1) [hanteng 按] 台灣強調國家標準CNS 11643 貢獻給ISO10646及UNICODE, 也一併明白指出, 將以國際市場為前提, 轉換至ISO10646及UNICODE, 其中有談到兩岸

"ISO10646 及UNICODE目前共收編26,783個漢字，其中22,892個係納入CNS 11643第1、2字面及第3字面之6,073字、第4字面之2,975字、第5字面之395字、第6字面之196字、第7字面之133字及第15字面之 86字；我國的國家標準得與國際標準相容，不但能提升國內電腦業者在國際市場的競爭力，將來ISO10646及UNICODE發展成熟後，現用中文碼亦得以順利轉換。
.....
美國幾家大公司所組成的Unicode Consortium亦採納ISO 10646之BMP內容為Unicode標準，並積極進行系統的實作；中國大陸的中文訊息界專家亦在大陸積極推動ISO 10646之實作，因此ISO 10646對於中文碼標準的影響是不容忽視的。值此海峽兩岸互動關係正在改變，兩岸交流日益頻繁的時期，ISO 10646倒不失為兩岸中文碼共通標準的方案之一。海峽兩岸的中文資訊專家應可在目前ISO 10646的標準上，共同討論怎樣使ISO 10646之標準更適合兩岸之中文資訊處理，以及從資訊處理技術角度來看，如何加強雙方在這方面的合作，使得海峽兩岸的中文資訊處理技術更臻成熟。

(2) [hanteng 按] 日本, 美國, 台灣在民國六十八年(1979)參與美國自己內需處理東亞語文資料的問題....有一點美國人說, 我們要處理中文字...有什麼可以用的...沒得用就用日本的喔....結果就台灣一堆專家就投入處理 , 搞出一個依部首、筆畫序編碼的 CCCII 碼.......

"民國六十八年，因美國急需使用電腦處理東亞語文資料，故在加州史坦佛大學召開了一個籌劃東亞圖書館自動化的會議，希望訂定中文交換碼標準作為自動化之根據。我國那時尚無合適可用的碼，只有日本代表提出他們的國家標準JIS C6226；因此，美方在沒有其他標準的情況下，就有採用日本標準的想法。由於日本漢字的數目和字形和中文的相差甚多，實在不足以代表中國文字，並且此舉也深遠影響到我中華文化在電腦時代的生存問題，所以我國代表和華裔美國東亞圖書館代表都強力反對。經激烈辯論後，暫時否定了日本與美方之提案，同時我方代表亦承諾次年三月亞洲研究學會年會中，提出我們編訂的中文訊交換碼，俾與日本字碼作一比較。

我方代表返國之後，上書政務委員李國鼎及國科會、中美會等單位，集合國內一批文字學家、圖書館學家及電腦學者，組成「國字整理小組」，立即開始整理我國文字，並解決電腦處理中文資訊遇到的技術問題。「國字整理小組」由謝清俊教授主持，張仲陶教授襄輔；其他參與工作者有王振鵠、張鼎鍾、周駿富、潘重規、周何、楊建樵、黃克東等教授。

我國於次屆亞洲學會年會上，提出共4,808字之「中文資訊交換碼」；「中文資訊交換碼」的架構為美方接受，但要求擴大編碼字集。「國字整理小組」於七十年完成第二批，包括17,032個正體字、11,517個異體字(詳七十一年出版之第二冊二版，七十四年出版之第二冊三版)；七十六年再發表第三批，包括 20,583正體字。前後二次除擴編53,940個字碼外，並完成64×64，32×32機讀字形；此外，為了方便電腦上的文字處理，又編製了「中國文字資料庫」(Chinese Character Database，簡稱CCDB)，其中列出每個字屬性如部首、筆畫、讀音以及各種對應和輸入碼。"

(3) [hanteng 按] Unicode 及 ISO的早期發展, 關於中日韓認同表意文字區(CJK Unified Ideographs)

"....原本在BMP的設計中，除編入西方拼音文字及符號外，在漢字方面只蒐集日本、南韓及中國大陸三個地區使用的漢字字集，並沒有考慮到我國的字集，我國遂積極組團以民間團體－台北市電腦商業同業公會（TCA）的名義，參加ISO 10646的制定，以爭取將我國使用的正體字編入BMP中。....
基本上我國、大陸、南韓與日本所用的都是漢字，就編碼的理論而言，本不應該分開各自編碼，造成一字多碼的現象，與ISO 10646編碼之基本原則“一字一碼”相抵觸。我國及大陸的代表因此就共同提出了HCS (Han Character Set) 的構想，這個構想同時得到美國及其它國家代表的支持，進而一步步發展至今，在1993年公佈的ISO 10646-1之BMP中，已經將台灣、大陸、日本和南韓所使用之漢字整理整合成獨立的中日韓認同表意文字區(CJK Unified Ideographs)，並予以編碼，使得亞洲幾個主要使用漢字的國家，得以有圓滿的解決方案。有關BMP字集在後文將續予介紹。

2009/4/18 Cao Yi <iridi...@gmail.com>

Tom Ka Chun Chiu

unread,

May 3, 2009, 12:33:03 AM5/3/09

to zh_wik...@googlegroups.com

回覆，香港是用”日蝕"和"月蝕"的。

用"日食"和"月食"引來的歧義，請參看《小叮噹》漫畫． :-D

Sinuks Yo

unread,

May 3, 2009, 2:08:26 AM5/3/09

to zh_wik...@googlegroups.com

..............- -|||

2009/5/3 Tom Ka Chun Chiu <tomc...@gmail.com>

Tom Ka Chun Chiu

unread,

May 3, 2009, 9:17:24 AM5/3/09

to zh_wik...@googlegroups.com

沒有看過那一集嗎？

朝食、晝食、夕食 --> 日食、月食

2009/5/3 Sinuks Yo <yoi...@gmail.com>

Sutra Zhou

unread,

May 3, 2009, 10:29:46 AM5/3/09

to zh_wik...@googlegroups.com

那是日本语的说法吧。

2009/5/3 Tom Ka Chun Chiu <tomc...@gmail.com>:

--
今天要带伞吗？——雨雪天气会通过手机短信［免费］（也可以选择其它方式）在指定的时间提醒您出门别忘记带伞。 http://xiayu.info/

Sinuks Yo

unread,

May 9, 2009, 3:33:03 AM5/9/09

to zh_wik...@googlegroups.com

朝食无论是日本语的说法还是汉语的说法似乎都是早饭的意思吧

Johnny Cheung

unread,

May 9, 2009, 6:53:42 AM5/9/09

to zh_wik...@googlegroups.com

朝食、晝食、夕食 -- 早飯, 午飯, 晚飯

2009/5/9 Sinuks Yo <yoi...@gmail.com>

Reply all

Reply to author

Forward

RFC: 維基詞典 與 開放輸入法 的交流

Han-Teng Liao (OII)

Han-Teng Liao (OII)

Han-Teng Liao (OII)

Han-Teng Liao (OII)

Cao Yi

Han-Teng Liao

Tom Ka Chun Chiu

Sinuks Yo

Tom Ka Chun Chiu

Sutra Zhou

Sinuks Yo

Johnny Cheung

RFC: 維基詞典與開放輸入法的交流