查閱Unicode9.0規範文件遇到的瓶頸

116 views
Skip to first unread message

Ho Ian

unread,
Jan 6, 2017, 7:37:17 AM1/6/17
to chinese-l10n
我在用LO5.X Calc嘗試整理編輯unicode9.0的十二萬八千多個“字元名稱”的“正體中文”(目前的“初稿”進度是完成272blocks之中的115個,何時能全部整理完畢?可遇不可求吧?),目前查資料遇到一個瓶頸,可能無法完整描述,總之有問有機會:
http://www.unicode.org/charts/PDF/U0530.pdf 為例。我已知unicode9.0的分類規範下有個分類叫做“block name/區塊名稱”,也就是範例pdf頁面最上方的“Armenian”字樣。有個分類叫做“character name/字元名稱”,也就是範例pdf頁面最後頁“每一行”的“範例字元”“之後”的“字串”。然後在範例pdf“character name/字元名稱”所在的那頁,有幾個字級大小偏中間且粗體的“分類字串”例如:
Uppercase letters、Modifier letters、Lowercase letters、Punctuation、Religious symbols、Currency symbol。
這些字串該怎麼稱呼???中、英文各是什麼??? 我想要在unicode官網文件中找出這些字串是什麼樣的分類的“敘述”,但是我看沒有/看不懂,像是在看天書。我試過在unicode官網下載最新版unicode CLDR、UCD打包檔,解壓縮後查關鍵字,我還是看沒有。誰可以指引我在unicode官網文件、CLDR、UCD裡頭的“哪個檔案”裡頭的“哪個段落哪幾行”?有描述到範例PDF文件中的中型粗體字Uppercase letters、Modifier letters、Lowercase letters、Punctuation、Religious symbols、Currency symbol 這些字串到底是什麼類型的分類?

Ho Ian

unread,
Jan 18, 2017, 1:16:27 PM1/18/17
to chinese-l10n
或許是個蠢問題。
Alchemical Symbols
為例
文件下方的字元名稱清單,很多字元的字元名稱下方,都會有一堆的 "="和"→",
於是我想要找unicode官網文件中有關描述 "="和"→" 是怎麼一回事的文件內容段落,
我試了很多關鍵字排列組合去google,個人能力有限,我“找不到”描述 "="和"→" 是怎麼一回事的unicode官網文件內容段落。
也試過在維基百科中文和英文頁面下關鍵字,我找不出所以然來。
所以有問有機會,那份unicode官網文件中的哪個章節段落,會描述到unicode pdf字元名稱下方的 "="和"→" 這兩個符號是怎麼一回事?
或者維基百科的哪個現成已有的條目(含中文和英文)中的哪個章節段落,,有描述到unicode pdf字元名稱下方的 "="和"→" 這兩個符號是怎麼一回事?
我有下載了
我看不出所以然來。

Ho Ian於 2017年1月6日星期五 UTC+8下午8時37分17秒寫道:

Anthony Wong

unread,
Jan 19, 2017, 1:51:03 PM1/19/17
to chines...@googlegroups.com
剛好最近在看 Unicode 的東西... 關於 = 和 →,在 Unicode Standard PDF 中有解釋的,= 代表 Informative alias,→ 則代表 cross reference,詳情在 standard 的 P.862 開始介紹。

Anthony

--

---
這是 Google 網上論壇針對「chinese-l10n」群組發送的訂閱通知郵件。
如要取消訂閱這個群組並停止接收來自這個群組的郵件,請傳送電子郵件到 chinese-l10n+unsubscribe@googlegroups.com
如需更多選項,請前往:https://groups.google.com/d/optout

Ho Ian

unread,
Jan 20, 2017, 12:37:54 AM1/20/17
to chinese-l10n
感謝,需要時間消化文件。
另外,延續首篇po文的第一個問題,因為我在UnicodeStandard-9.0.pdf找到以下關鍵字:
Character Names、Block Name,
然後我找到
/CLDR3003/tools/tools/java/org/unicode/cldr/draft/picker/blocks_subblocks.html
/CLDR3003/tools/tools/java/org/unicode/cldr/draft/picker/subblocks_blocks.html
之後,想要在UnicodeStandard-9.0.pdf裡頭找出關鍵字 subgroup name、subblock,但是我“找不到”。
還是說,UnicodeStandard-9.0.pdf另外有用什麼樣的字眼在哪個段落有描述到跟 subgroup name、subblock同樣概念的東西?


Anthony於 2017年1月20日星期五 UTC+8上午2時51分03秒寫道:
如要取消訂閱這個群組並停止接收來自這個群組的郵件,請傳送電子郵件到 chinese-l10n...@googlegroups.com
如需更多選項,請前往:https://groups.google.com/d/optout

Ho Ian

unread,
Mar 26, 2017, 11:17:00 AM3/26/17
to chinese-l10n
查unicode字元名稱遇到瓶頸,有問有機會:
A876 PHAGS-PA MARK SHAD
A877 PHAGS-PA MARK DOUBLE SHAD
圖像就是“垂直的槓”。
然後我要去查“SHAD”是什麼意思?
google翻譯得到的結果是:
鰣 shad
鰳 shad
yahoo奇摩字典得到的結果是:
shad【魚】美洲西鯡

http://dictionary.cambridge.org/zht/spellcheck/英語-漢語-繁體/?q=SHAD
查不到東西。

維基百科裡頭打關鍵字也查不出所以然。

我的直覺是在“PHAGS-PA MARK SHAD”這個字串下理應跟“魚”無關?
但我就是查不出哪個網頁有寫“SHAD”在“PHAGS-PA MARK SHAD”所代表的意思是什麼?

目前整理出 126個 unicode 9.0 blocks 字元名稱的正體中文的初稿,
距離總共273個blocks還很遙遠就是了。

Cheng-Chia Tseng

unread,
Mar 26, 2017, 11:47:25 AM3/26/17
to chines...@googlegroups.com
Ho Ian <iania...@gmail.com> 於 2017年3月26日 週日 下午11:17寫道:
查unicode字元名稱遇到瓶頸,有問有機會:
A876 PHAGS-PA MARK SHAD
A877 PHAGS-PA MARK DOUBLE SHAD
圖像就是“垂直的槓”。
然後我要去查“SHAD”是什麼意思?
google翻譯得到的結果是:
鰣 shad
鰳 shad
yahoo奇摩字典得到的結果是:
shad【魚】美洲西鯡

雖然我不是語言專家,但稍微 Google 了一下。
Unicode 文件中指出這來自 Tibaten。
所以用關鍵字藏文跟 Shad 查詢,發現藏文的 shad 為豎,nyis shad 為兩豎
http://www.ss.ncu.edu.tw/~calin/textbook2008/U8.pdf 請尋找 shad 可看到。
 

查不到東西。

維基百科裡頭打關鍵字也查不出所以然。

我的直覺是在“PHAGS-PA MARK SHAD”這個字串下理應跟“魚”無關?
但我就是查不出哪個網頁有寫“SHAD”在“PHAGS-PA MARK SHAD”所代表的意思是什麼?

目前整理出 126個 unicode 9.0 blocks 字元名稱的正體中文的初稿,
距離總共273個blocks還很遙遠就是了。

Cheng-Chia Tseng

unread,
Mar 26, 2017, 11:49:14 AM3/26/17
to chines...@googlegroups.com
「shad 置於句子停頓的地方或置於句尾。」

Cheng-Chia Tseng <pswo...@gmail.com> 於 2017年3月26日 週日 下午11:47寫道:

Ho Ian

unread,
Mar 26, 2017, 11:58:39 AM3/26/17
to chinese-l10n
謝謝,我研究看看~~~

Cheng-Chia Tseng於 2017年3月26日星期日 UTC+8下午11時49分14秒寫道:

Ho Ian

unread,
Apr 12, 2017, 11:11:23 AM4/12/17
to chinese-l10n
目前的整理初搞進度是146個blocks,當然距離全部的273個blocks依舊遙遠~~~
還是遇到一組字元名稱 
1C3E ᰾ LEPCHA PUNCTUATION TSHOOK CER-WA
我真的看不懂,尤其“TSHOOK“ ”CER-WA”,我google不出所以然來(這裡主要指“中文”資料)。

Ho Ian

unread,
Apr 13, 2017, 2:42:06 PM4/13/17
to chinese-l10n
這個字元名稱的"VOWEL-CARRIER"我也google不出所以然來,
有問有機會。
1900 LIMBU VOWEL-CARRIER LETTER

Ho Ian於 2017年4月12日星期三 UTC+8下午11時11分23秒寫道:

Ho Ian

unread,
Jun 2, 2017, 7:30:26 AM6/2/17
to chinese-l10n
有問有機會:
看網路資訊,unicode10.0標準正式發行版,號稱今年會公布,我還在整理unicode9.0版,有一種“沒完沒了”的感覺~~~
目前的正體中文字元名稱整理進度初稿應該有150blocks了吧?當然跟總共273個blocks還是有距離~~~
我把有關拉丁字母的八個blocks集中在一個表格內來整理,目前遇到兩個狀況:

A7FE ꟾ LATIN EPIGRAPHIC LETTER I LONGA
然我就google查詢所謂的“LONGA”是什麼東西,然後在我所能理解的資料中,看似最接近的是:
https://zh.wikipedia.org/zh-tw/隆加島
但又覺得好像哪裡怪怪的。其他的條目也看不出所以然來。
所以網路上有沒有其他現成的資料在解釋,在這組字元名稱之中,“LONGA”是指什麼?

再來就是
https://zh.wikipedia.org/zh-tw/希臘字母
我想找齊字母清單內的“每一個”字母(包含“停用字母”)的“中文音譯字串”各是什麼?
(阿爾法、貝塔、伽瑪、德爾塔、艾普西龍 諸如此類~~~)
結果目前現階段wiki“並沒有”全都列上“中文音譯字串”,還是有幾個字母有缺。
除了維基百科之外,有沒有其他網路上現成的免費瀏覽資料,有把希臘字母的“全部字母”的“正體中文音譯字串”全都整理出來的?
我個人的google能力有限,找不出所以然來。

若這兩個問題有解的話,我就可以一次完成八個拉丁字元分類blocks了。

Ho Ian

unread,
Jun 8, 2017, 4:24:18 AM6/8/17
to chinese-l10n
一個發現,原來字形檔會有bug,真的不能完全放手信任!
Arabic Presentation Forms-A
阿拉伯字母(天方字母)變體呈現形式-A
U+FBB9
ARABIC SYMBOL THREE DOTS POINTING DOWNWARDS BELOW

因為空間比例的關係,字圖小不拉嘰的跟螞蟻一樣~~~
一般當然預設是信任的而略過了,我預設的選擇是:
Noto Naskh Arabic, Version 1.06 uh
這款字形,不經意地看過去,覺得好像怪怪的,放大字圖一看,跟本就是"UPWARDS",而“不是”字元名稱的“DOWNWARDS”。
看樣子我編輯的文件若真的生得出來的話,“免責聲明”得加註“字形檔本身可能就有bug”這類的論述內容了~~~


Ho Ian於 2017年1月6日星期五 UTC+8下午8時37分17秒寫道:

Ho Ian

unread,
Jun 8, 2017, 7:56:38 AM6/8/17
to chinese-l10n
又發現狀況了,我把字形換成
Noto Nastaliq Urdu Version 1.02 uh
之後,結果
ARABIC
阿拉伯字母(天方字母)
066D ٭ ARABIC FIVE POINTED STAR
實際上出現的字圖“不只” 五向 了,是“八向”。
怎麼狀況這麼多呢?

Ho Ian

unread,
Jun 11, 2017, 10:50:58 AM6/11/17
to chinese-l10n
有問有機會:

目前的進度剩下1/3的blocks了(還是剩下挺多的~~~)~~~
ARABIC系列有六個blocks
然後剩下這三個:
1EEF0 126704 𞻰 ARABIC MATHEMATICAL OPERATOR MEEM WITH HAH WITH TATWEEL
0640 1600 ـ ARABIC TATWEEL
FE71 65137 ARABIC TATWEEL WITH FATHATAN ABOVE
其中的關鍵字“TATWEEL”我google找到了這個
裡頭有關鍵字“TATWEEL”,我來回看了好幾遍,還是“看不懂”“TATWEEL”到底是什麼東西?

subgroup block name, Formal Alias 這兩個部分的 正體中文整理我決定先放棄了。
我能夠先把 unicode 9.0 的 block name 和 Character Name 的正體中文 全部整理出來,就已經盡力了~~~
(理想上,完美呈現的話,要把”每一個”Character Name在哪個有正體中文link可以查到一些什麼也都列出來,但我發現我消化不了、能力不及,無法全列出來~~~)


Ho Ian

unread,
Jul 1, 2017, 7:42:48 AM7/1/17
to chinese-l10n
遇到一個讓我很疑惑的資料內容~~~
碼位:1F597
字元名稱:WHITE DOWN POINTING LEFT HAND INDEX
可是那個圖示,我怎麼看我都覺得那是“右手”,不像是“LEFT HAND”,到底是我眼花了?還是到底是怎麼回事?
為什麼圖示樣子是“右手/right hand”,但是字元名稱卻是“左手/LEFT HAND”?

Ho Ian

unread,
Jul 8, 2017, 6:37:32 AM7/8/17
to chinese-l10n
個人自製編輯的資料表格分享:
UNICODE90v2.ods
Unicode 9.0版,十二萬八千多個字元與符號的全列表,包含十二萬八千多個“字元名稱”、和“字元名稱”的“正體中文”對照表總整理。
編輯環境為MacOSX LibreOffice 5.X CALC,ODS格式,一個頁籤為一個block。因為單一檔案包含有十二萬八千多個完全不同的字元和符號,所以檔案大小雖然只有7MB多一些,開啟還是會慢,可能會耗時兩分鐘。我的最後編輯輸出硬體環境是MacBook Pro 2010年款Intel c2d 2.4ghz+16GB主記憶體+傳統硬碟。
若您覺得開檔太慢,這裡會建議您把開檔的主機主記憶體增加為8GB或以上容量,檔案儲存媒體換成SSD,以及將系統軟體和LO環境再做最佳化。檔案開啟後,務請優先閱讀“請先完整讀完我”頁籤。有需要的話或許參考~~~
未來的“奢望”是,有佛心的軟體開發者,以這種類型的正體中文資料檔為基礎,編製一個圖形介面長相類似於 MacOSX內建的字元檢視器/字元面板 的 AOO/LO外掛插件,這個外掛插件僅只採用OO Basic編製而成,不包含Java、python等等任何其他程式語言在內。以做到可以真的”跨平台“。而且圖形介面內的所有”字級“要預設成“相對較大”,能有個20pt或以上是最好,這樣閱讀才會舒適。
補充:若去點選LibreOffice選單列\檔案\屬性,會遇到滑鼠游標轉換成檔案讀取中動作圖示,而且跑一段不算短的時間。

Reply all
Reply to author
Forward
0 new messages