中文/漢字輸入法靠的是基本架構和對映的資料庫, 我只是在思考, 如何讓維
基詞典的編輯模版更容易輸入及匯出相關的輸入法對映表, 以供開放輸入法如
SCIM
<http://zh.wikipedia.org/w/index.php?title=SCIM&variant=zh-tw>-chewing,
OpenVanilla使用, 其實目前的商業輸入法很多都不符合國家注/拼音標準, (不論
是台北的還是北京的標準), 若維基詞典可以成為正確多元避免地方中心的輸入法
資料集中地, 我相信對開放輸入法的發展很有正面意義, 對學習輸入法的人也有很
好的參考來源.....
丟出以下議題:
(1) [現有輸入法對映表=>維基詞典 的自動/半自動機制] 可否現在就
以開放輸入法有的對映表, 直接轉換出維基可以吃的模版的內容?
(2) [現有輸入法對映表<=維基詞典 的自動/半自動機制] 可否未來有
將維基詞典模版有的輸入法內容, 直接轉出到流行的開放輸入法的資料集服務?
(3) [人工貢獻/修改 維基詞典 的輸入法內容的 幫手機制] 可否有一簡
易的模版說明, 並列出所有Unicode己有的cjkv漢字, 並指出哪些漢字還要需要輸
入法的對映碼, 哪些漢字的輸入法對映表可能存在地方差異....
這些工作, 我想對網路上的中文處理會是一個很好的多元包容的標準建立的
基礎工程, 我相信維基在處理簡繁轉換後, 可以更進一步的邁向未來開放輸入法的
新地步
[在此感謝在此討論串的各式發言, 還有維基簡繁轉換的貢獻者, 激發出我在這方
面的思考, ]
hanteng
他們有一些台灣知名的geek及blogger 其中在以下這個投影片中, 有提到利用
Wikipedia的資料, 但沒說怎麼用的...><
lukhnos.org/talks/20080412-lukhnos-OSDCtw2008Talk.pdf
讀了一下, 我想有幾點關於GB2312 , GB 18030, Unicode及早期ascii拉丁編碼中
心的問題需要澄清
(歡迎Cao Yi 幫我把這帖轉貼到那個group)
幾個歷史事實:
(1) 最早的ASCII code不只是拉丁中心, 還是美國中心, 連英磅符號都沒有
(2) ASCII code發展的時候, 本來就是美國人自己要用的, 礙於當時電報及科技的
限制, 傳/存資料的成本非常大
(3) 現在傳/存資料的成本已經不是那麼重要
(4) 各國電腦/資訊化時, 都常以ASCII為主外加自已本國的語言需求, 以致形成以
美國ASCII為中心的標準設計, 有利於該國編碼標準和ASCII的單向包容性, 但使跨
語言的交流格外困難, 不但非ASCII語言可能無法顯示在同一文件之內, 還得需要
各種一對一的轉換工具,
(5) Unicode就要是解決(4)的問題, 倡議要同一個編碼標準來包容所有語言
從以上可知
(a) ASCII 的發展是拉丁中心沒錯
(b) 但Unicode是否為拉丁中心? 不一定
我個人對(b)的看法很實際, 若國外的網站還是只有用ASCII或其他拉丁碼為主, 而
不願採用Unicode, 在(3)傳/存資料成本不重要的環境(個人電腦存取的網際網路),
則是有拉丁中心的問題, 但若是像手機簡訊等, 傳/存資料成本仍重要的情況下,
可能要按情況看
繼續看GB2312 / GB 18030的問題,
GB2312就和Big5一樣, 是歷史事實(4)的時代產物, 所以GB2312和 Big5不相容, 但
都包容了ASCII的東西, 所以不能同時顯, 還得要有轉換工具
而GB 18030, 說難聽一點是根據Unicode外加北京想要加的控制, 特別是將中國境
內少数民族的文字符號, 從Unicode組織的標準拉回來國家標準的手段
基於GB 18030是Unicode的一種擴張的實作來說
(1) 若Unicode 為拉丁中心, 那麼 GB 18030一定是拉丁中心
(2) 若中國境內的使用都是以GBK 或 GB2312為主, 而GB 18030只是擺著好看的,
連政府機關/媒體只用GBK 或 GB2312, 有時加一點Big5, 同我個人對Unicode是否
拉丁中心的實際應用的評判標準來說, 我會說, GB2312 / GB 18030實際上應用,
是漢字中心, 因為實際上使用是以前者為主, 後者只是點綴用的.....若中國境內
都用GB 18030, 就和國際知名網站youtube google都用Unicode為主的話, 那我就
不會批評他們是拉丁 或 漢字中心了
有一位美國人類學/漢學家, 在西藏拉薩待了好些年, 通漢語與藏語, 就有提過一
開始中國在拉薩的一些大學, 是有大力貢獻Unicode在藏語的處理的, 但後來因政
治因素, 都半撤出了, 轉而在GB 18030的架構下, 另起爐灶, 若他所言為真, 那麼
更加強了GB 18030, 只是想要搞一個能包容Unicode但想干涉少數民族語言標準的
國際化發展....換句話說, 將國際議題國內化
同樣的道理也可以說在Unicode 的 CJKV漢字統一計劃....基本的原則如下
(1) Unicode的運作不是以政府為主, 而是以資訊業界和語言學/電腦科學專家為主
(2) 各國語言所使用的漢字先假設完全不一樣
(3) 若大家或幾個國家間同意, 那是同一個漢字的話, 就給一那個字共享的編碼,
(但注意, 認定同一個漢字不代表寫的完全一模一樣, 其中的差異可以用不同的字
形來呈現)
(4) 若不同意志願共享那些漢字, 那麼各國使用的漢字就待在不同的各國自有的漢
字編碼區
這也是為什麼連一開始沒有加入的越南, 後來也加入了, 因為這是相對開放的專業
/業界的標準制定環境, 國家標準的干預較少......
在我最近一篇要發表的雜誌文章中, 就有說明以上的道理及歷史脈絡, 不過是英文
的....若有人有興趣參考, 煩請寫信給我索取
基於同樣的原則, 我也是希望漢字/中文的輸入法也有類似的架構及實踐, 開放參
與, 多元, 避免地方中心
Han-Teng Liao (OII) wrote:
> 各位,
>
> 中文/漢字輸入法靠的是基本架構和對映的資料庫, 我只是在思考, 如何讓維
> 基詞典的編輯模版更容易輸入及匯出相關的輸入法對映表, 以供開放輸入法如
> SCIM
> <http://zh.wikipedia.org/w/index.php?title=SCIM&variant=zh-tw>-chewing,
> OpenVanilla使用, 其實目前的商業輸入法很多都不符合國家注/拼音標準, (不
> 論 是台北的還是北京的標準), 若維基詞典可以成為正確多元避免地方中心的輸
> 入法 資料集中地, 我相信對開放輸入法的發展很有正面意義, 對學習輸入法的
> 人也有很好的參考來源.....
>
> 丟出以下議題:
>
> (1) [現有輸入法對映表=>維基詞典 的自動/半自動機制] 可否現在就
> 以開放輸入法有的對映表, 直接轉換出維基可以吃的模版的內容?
> (2) [現有輸入法對映表<=維基詞典 的自動/半自動機制] 可否未來有
> 將維基詞典模版有的輸入法內容, 直接轉出到流行的開放輸入法的資料集服務?
>
> (3) [人工貢獻/修改 維基詞典 的輸入法內容的 幫手機制] 可否有一簡
> 易的模版說明, 並列出所有Unicode己有的cjkv漢字, 並指出哪些漢字還要需要
> 輸 入法的對映碼, 哪些漢字的輸入法對映表可能存在地方差異....
>
> 這些工作, 我想對網路上的中文處理會是一個很好的多元包容的標準建立的
http://blog.csdn.net/dwj_ry/archive/2007/09/28/1804449.aspx
(1) "中日韩的汉字被无规律地混杂在同一个区间中,是哪国文字以无法辨认。"
正是因為共享, 才可以交流, 試想, 若在search一個漢字keyword, 若正好是有點
書寫不一樣(所以顯示字形不一樣), 不就可以確定是同一個東西嗎?! 別忘了, 像
骨這個字是中國大陸自己和台灣香港日本越南不一樣的....是因為簡化簡寫的政策
關係改的....
至於要辦認是哪國文字的問題, 有這麼重要嗎...Unicode的目的就是要所有的語言
能混在同一個網頁上啊....這是成功不是失敗啊!!! 要區分語言...應該靠自然語
言處理啊....不然歐盟的文件法德英文都在一起的話...是壞是嗎?
(2)"一种字体无法同时表示中文、日文和韩文"
說實話, 會決定共享的漢字, 是跨國很多語言學/電腦科學專家的決定, 雖然他們
的決定不一定正確...但能放在一起, 就至少讀起來不是問題!!! 寫法不同是字
形問題, 你應該去問..是否有比較聰明的字形顯示方式, 以其上下文決定該字的正
確顯示方式....試想一個港中台共享的日片av女優討論版 (希望還沒被反俗全反
掉) 若能按上下文決定顯示正確的香港 台灣日本及中國漢字, 是不是更原汁原味
更有趣....
(別開始談如何用本地化漢字為a片加字幕的問題, ...基本上大家用的漢字是不太
一樣的...是為了配合當地習慣吧...這些漢字還是別統一的好.... ;-) )
(3) 以上造成的後果就是 "日本在IT界的影响力高于中国,也许是什么原因,似乎
Arial Unicode MS之类的字体中凡是中日写法不同的字体,全都是日文写法。"
那是M$偷工減料, 和Unicode無關!! 台灣開放源碼界也發現字形是一個大問
題....但編碼和字形顯示明明就是兩碼子事!! 要嘛應該學台灣的技客, 要求政府
/學術單位開放出自由版權或無版權的字形啊!!!! 這是字形檔的智慧財產權戰,
不是編碼戰!!!!
禮失之求諸野, 若你覺得那個野還是不文明, 就要求政府做好啊...這是基礎建設
啊...香港就有做一點點, 也提供一個「香港電腦漢字宋體〔印刷體〕字形參考指
引」的字型
http://www.ogcio.gov.hk/ccli/unicode/hkscs/reference_iso10646.html
台灣人看到 "日食" 會覺得怪, 但中日港都用" 日食"
中國人看到 "強姦" 會覺得怪, 但港都日台用"強姦"
看到"社会" "国土", 就會覺得中國和日本太靠近.....怎麼都和台灣和香港寫法不一樣
看到 "憲法" "規範", 就會覺得台灣和香港和日本太靠近.....怎麼都和中國寫法
不一樣
要區分混雜的中/日語.....? 為什麼要區分呢? 就算要區分, 為何不用程式判
斷而要走和Unicode CJKV相反的道路呢????
"民國六十八年,因美國急需使用電腦處理東亞 語文資料,故在加州史坦佛大學召開了一個籌劃東亞圖書館自動化的會議,希望訂定中文交換碼標準作為自動化之根據。 我國那時尚無合適可用的碼,只有日本代表提出他們的國家標準JIS C6226;因此,美方在沒有其他標準的情況下,就有採用日本標準的想法。由於日本漢字的數目和字形和中文的相差甚多,實在不足以代表中國文字,並且此舉 也深遠影響到我中華文化在電腦時代的生存問題,所以我國代表和華裔美國東亞圖書館代表都強力反對。經激烈辯論後,暫時否定了日本與美方之提案,同時我方代 表亦承諾次年三月亞洲研究學會年會中,提出我們編訂的中文訊交換碼,俾與日本字碼作一比較。
我方代表返國之後,上書政務委員李國鼎及國科會、中美會等單位,集合國內一批文字學家、圖書館學家及電腦學者,組成「國字整理小組」,立即開始整理我國文 字,並解決電腦處理中文資訊遇到的技術問題。「國字整理小組」由謝清俊教授主持,張仲陶教授襄輔;其他參與工作者有王振鵠、張鼎鍾、周駿富、潘重規、周 何、楊建樵、黃克東等教授。
我國於次屆亞洲學會年會上,提出共4,808字之「中文資訊交換碼」;「中文資訊交換碼」的架構為美方接受,但要求擴大編碼字集。「國字整理小組」於七十 年完成第二批,包括17,032個正體字、11,517個異體字(詳七十一年出版之第二冊二版,七十四年出版之第二冊三版);七十六年再發表第三批,包括 20,583正體字。前後二次除擴編53,940個字碼外,並完成64×64,32×32機讀字形;此外,為了方便電腦上的文字處理,又編製了「中國文字 資料庫」(Chinese Character Database,簡稱CCDB),其中列出每個字屬性如部首、筆畫、讀音以及各種對應和輸入碼。"
(3) [hanteng 按] Unicode 及 ISO的早期發展, 關於 中日韓認同表意文字區(CJK Unified Ideographs)2009/5/3 Tom Ka Chun Chiu <tomc...@gmail.com>:
--
今天要带伞吗?——雨雪天气会通过手机短信[免费](也可以选择其它方式)在指定的时间提醒您出门别忘记带伞。 http://xiayu.info/