{中文}{Unicode}为什么中文编码还在万码奔腾呢?

146 views
Skip to first unread message

Iridium

unread,
Apr 14, 2009, 4:43:58 AM4/14/09
to pon...@googlegroups.com
今天收到CPyUG的很多讨论中文网页抓取后乱码处理的问题。

标准化一直在进行,为什么偏偏中文编码还在万码奔腾呢?
  1. 中文编码多样化的优缺点在哪里?(我只看到缺点)
  2. 中文编码如果要统一,统一成什么较好?
  3. 别的语言(自然语言)的编码情况如何?那些做的比较好/失败?

小马xioama

unread,
Apr 14, 2009, 4:53:19 AM4/14/09
to pon...@googlegroups.com
utf-8

2009/4/14 Iridium <caoxia...@qq.com>

Jeffrey Zhao

unread,
Apr 14, 2009, 4:56:10 AM4/14/09
to pon...@googlegroups.com
不过其实我发现n多国外项目其实也用他们的编码,我总结下来是发现往往是开发工具默认什么编码就是什么编码。
 
 

ShilianHuang

unread,
Apr 14, 2009, 7:03:29 AM4/14/09
to pon...@googlegroups.com
看到国内做网站都用GB2312(感觉特别是新手,或是小网站);原先所在的公司也是面对地方的,所以用的是GBK;现在给香港人干活,用繁体版,所以默认用的是BIG5,后来出现乱码问题了,让我把项目整个改成UTF-8;
不过,老赵总结得对,“往往是开发工具默认什么编码就是什么编码。”,我也感觉是这样的。
“标准化一直在进行,为什么偏偏中文编码还在万码奔腾呢?”,会不会跟“为什么全世界不只有方块字或只有26个字母"一样的问题?
毕竟思想是多元化的,这样才能促进社会的进步,实践是验证真理的唯一标准,不一定是你订的标准就是对的吧?

2009/4/14 Jeffrey Zhao <je...@live.com>

LIU, Gavinen

unread,
Apr 14, 2009, 7:28:58 AM4/14/09
to pon...@googlegroups.com
其实大多数人, 对已经存在的东西有很强的适应性. 我发现很多人并不会主动的修改一个软件默认的设置. 有的时候, 即使用问题,
也不会去改动默认值. 比如颜色, 键盘快捷键等等.
开发工具的编码那个是默认的, 就是用那个, 和上面的情况相同. 只要能用就不去改动他.


>
> 2009/4/14 Jeffrey Zhao <je...@live.com>
>>
>> 不过其实我发现n多国外项目其实也用他们的编码,我总结下来是发现往往是开发工具默认什么编码就是什么编码。
>>

--
LIU, Gavinen
#end

千行代码

unread,
Apr 14, 2009, 8:14:17 AM4/14/09
to TopLanguage
希望Unicode能拯救世界,哈哈

对GB18030特别无爱的说

On 4月14日, 下午4时53分, 小马xioama <cnxia...@gmail.com> wrote:
> utf-8

千行代码

unread,
Apr 14, 2009, 8:14:18 AM4/14/09
to TopLanguage

ShiningRay

unread,
Apr 14, 2009, 11:36:46 AM4/14/09
to pon...@googlegroups.com
其实GB2312/GB18030是“国家强制标准”


2009/4/14 千行代码 <zhaohon...@gmail.com>



--
[]\ [] ShiningRay
[]\\[]
[] \[] http://shiningray.cn

Robin

unread,
Apr 14, 2009, 7:18:51 PM4/14/09
to pon...@googlegroups.com
unicode也不是完美的~
比如unicode的“直”这个字,就不是中国的直,而是日文中的直字,大家可以自己试试看~
从这种层面上来看,unicode对于中国文字的传承,未必是最佳的。

gb2312/gb18030,国家有好的想法,但是没什么但做实事。

--
Best Regards,
Robin Zhong
这世界上的天才比我们通常想象的要少得多,但凡人所能达到的成就却也比我们通常想象的要伟大得多。
这些凡人做出了令人刮目相看的事情、营造了令人向往的环境,仅仅是因为他们保持着自己向上的心。


2009/4/14 ShiningRay <shiningra...@gmail.com>

小马xioama

unread,
Apr 14, 2009, 9:11:38 PM4/14/09
to pon...@googlegroups.com
标准有两种,一种是国家强制的标准,一种是事实的标准。

TCP/IP出来就不是什么国家标准,但是要和国外联网,只能用TCP/IP.

同样,GB是国家标准,但是国际上认的还是unicode. 如果这个网站只对大陆,那没关系,继续用GB好了。

2009/4/15 Robin <hbi...@gmail.com>

xLight

unread,
Apr 14, 2009, 9:43:08 PM4/14/09
to TopLanguage
似乎有些人很鄙视GBK等国内标准啊。
但其实UNICODE其实是"Latin友好"的,却不是"汉字友好"的

你们有没有想过姓名排序的问题?
给出unicode的数组:"王xx"、"刘xx","李xx",请你写出按拼音顺序排序程序。

On Apr 14, 11:36 pm, ShiningRay <shiningray.nirv...@gmail.com> wrote:
> 其实GB2312/GB18030是"国家强制标准"
>

> 2009/4/14 千行代码 <zhaohongjian...@gmail.com>

Iridium

unread,
Apr 14, 2009, 10:04:35 PM4/14/09
to pon...@googlegroups.com
Unicode不是完美的,但是相对较好的吧。

中文和日文的“直”有什么区别?我在notepad里打了个“直”,然后保存成UTF,没有发现有什么变化。然后又在Eclipse里(编码默认为 GBK)里打了“直”,还是一样的。最后,我去日文Google检索这个字,还 是一样的。

不过同一个汉字在不同的地区存在字形差别倒是事实,虽然有文化原因,但在数码世界里造成这个事情的原因也有万码奔腾的一份。如果不用Unicode,万码 奔腾会不会让同一汉字字形更加变异?

关于GB2312/GB18030,“国家”有什么好想法?我个人看到是人为制造了麻烦,还有前面一个帖子说的,为了知识产权而知识产权。

Robin 写道:
unicode也不是完美的~
比如unicode的“直”这个字,就不是中国的直,而是日文中的直字,大家可以自己试试看~
从这种层面上来看,unicode对于中国文字的传承,未必是最佳的。

gb2312/gb18030,国家有好的想法,但是没什么但做实事。

--
Best Regards,
Robin Zhong
这世界上的天才比我们通常想象的要少得多,但凡人所能达到的成就却也比我们通常想象的要伟大得多。
这些凡人做出了令人刮目相看的事情、营造了令人向往的环境,仅仅是因为他们保持着自己向上的心。


2009/4/14 ShiningRay <shiningra...@gmail.com>
其 实GB2312/GB18030是“国家强制标准”


2009/4/14 千行代码 <zhaohon...@gmail.com>

希 望Unicode能拯救世界,哈哈


对GB18030特别无爱的说

On 4月14日, 下午4时53分, 小马xioama <cnxia...@gmail.com> wrote:
> utf-8



--
[]\ [] ShiningRay
[]\\[]
[] \[] http://shiningray.cn

小马xioama

unread,
Apr 14, 2009, 9:58:45 PM4/14/09
to pon...@googlegroups.com
按拼音排序的问题,一定要有拼音的信息才能排序。光靠字符的编码顺序是无法排序的。

原因就是中国有很多多音字。  单XX, 区XX , 即使是"汉字友好"的GB标准,能实现按拼音顺序排序程序么?

2009/4/15 xLight <xblue...@gmail.com>

Robin

unread,
Apr 14, 2009, 10:30:44 PM4/14/09
to pon...@googlegroups.com
你可以参考附件。

我的系统是macbook leopard,使用的是默认的字体。
在ubuntu 8.10下面,使用google droid 字体,“直”字也如图示。

以前看过一个文章,里面提到了unicode的一些问题:
因为CJK文字有一些是相同的、类似的,所以设计unicode的组织,将“他们定义的相同的文字”定义为同一个编码;由于当时中国没有参与unicode的设计,所以这一些字就被日本等国拿过去定义了。
所以也就导致了,使用非GB2312、GB18030规范的字体,其“直、将”等字显示的非中文汉字。

你可以换一个字体试试,比如google droid字体。



--
Best Regards,
Robin Zhong
这世界上的天才比我们通常想象的要少得多,但凡人所能达到的成就却也比我们通常想象的要伟大得多。
这些凡人做出了令人刮目相看的事情、营造了令人向往的环境,仅仅是因为他们保持着自己向上的心。


2009/4/15 Iridium <caoxia...@qq.com>
Picture 4.png

Robin

unread,
Apr 14, 2009, 10:36:09 PM4/14/09
to pon...@googlegroups.com
唉,找不到原文了,大家有空可以看看这个(图片链接不可用,大家可以自己用记事本+字体试试):

转载(中文、日文、韩文编码问题

http://blog.csdn.net/dwj_ry/archive/2007/09/28/1804449.aspx

Lyman

unread,
Apr 14, 2009, 11:52:10 PM4/14/09
to pon...@googlegroups.com
Robin 写道:
> 唉,找不到原文了,大家有空可以看看这个(图片链接不可用,大家可以自己用记
> 事本+字体试试):
>
>
> 转载(中文、日文、韩文编码问题
>
> http://blog.csdn.net/dwj_ry/archive/2007/09/28/1804449.aspx
翻了翻 wiki,我到是挺理解 CJK Unified Ideographs 的。

http://zh.wikipedia.org/wiki/%E4%B8%AD%E6%97%A5%E9%9F%93%E7%B5%B1%E4%B8%80%E8%A1%A8%E6%84%8F%E6%96%87%E5%AD%97#.E5.AD.97.E6.BA.90.E5.88.86.E9.9B.A2.E5.8E.9F.E5.89.87

但是这句没太看明白:“若有任何字集同時收了兩種以上的文字字形,則在Unicode
中日韓統一表意文字中,也同時收錄這些字。”

ShiningRay

unread,
Apr 15, 2009, 12:34:19 AM4/15/09
to pon...@googlegroups.com
GBK有个好处是对中文而言,储存起来长度比utf-8短

2009/4/15 Robin <hbi...@gmail.com>



--
[]\ [] ShiningRay
[]\\[]
[] \[] http://shiningray.cn

zhanghua

unread,
Apr 15, 2009, 5:35:16 AM4/15/09
to TopLanguage
读音是另外的逻辑了,怎么不问unicode数组“damn” "fuck" "shit" 按照音标排序呢?

zhanghua

unread,
Apr 15, 2009, 5:46:00 AM4/15/09
to TopLanguage
我感觉在编码层面上是缩减长度是糟糕的优化,multibyte 和wide char 之间的转换,为缓冲区大小的设置造成了无尽的麻烦,
windows的那么多漏洞,多少不是这个引起的。如果有的国家int 是两字字节,有的是四字节,程序估计就不用写了。

On 4月15日, 下午12时34分, ShiningRay <shiningray.nirv...@gmail.com> wrote:
> GBK有个好处是对中文而言,储存起来长度比utf-8短
>
> 2009/4/15 Robin <hbi...@gmail.com>
>
>
>
> > unicode也不是完美的~
> > 比如unicode的“直”这个字,就不是中国的直,而是日文中的直字,大家可以自己试试看~
> > 从这种层面上来看,unicode对于中国文字的传承,未必是最佳的。
>
> > gb2312/gb18030,国家有好的想法,但是没什么但做实事。
>
> > --
> > Best Regards,
> > Robin Zhong
> > 这世界上的天才比我们通常想象的要少得多,但凡人所能达到的成就却也比我们通常想象的要伟大得多。
> > 这些凡人做出了令人刮目相看的事情、营造了令人向往的环境,仅仅是因为他们保持着自己向上的心。
>

> > 2009/4/14 ShiningRay <shiningray.nirv...@gmail.com>
>
> > 其实GB2312/GB18030是“国家强制标准”
>
> >> 2009/4/14 千行代码 <zhaohongjian...@gmail.com>

Cao Yi

unread,
Apr 15, 2009, 8:47:17 AM4/15/09
to pon...@googlegroups.com
我现在用Ubuntu 8.10,用Web方式读邮件,字体是正常的。

~~可不可以认为Google droid字体有问题而不是编码的问题阿?

2009/4/15 Robin <hbi...@gmail.com>

Cao Yi

unread,
Apr 15, 2009, 9:37:18 AM4/15/09
to pon...@googlegroups.com
两个链接都看了。《中日韩编码问题》谈到两点:
1,无法利用文字的编码来区分其属于哪种语言的文字。(我认为没必要区分)
2,一种字体无法同时表示中文、日文和韩文。(主要有少量汉字的常用字型不一样,但我觉得用日文字体,中文字体都是汉字字体,用谁显示汉字都没关系,而且,作为汉字使用者,他应该能看懂本字是什么。嗯,说不定某天,字体上达成共识,形成一种新的都认可的字体。)

维基百科上的词条以前看过,值得一提的就是里边提到在制定ISO 10646时候,台湾是有参与的,文中说:
“於1990年代初ISO 10646制訂時,來自台灣的代表提出相同形式的中日韓漢字給以統一編碼(Unify, ISO術語稱為認同),可以大量節省編碼空間,獲其他代表接納”
那么,前面《中日韩编码问题》提到的:
“因为CJK文字有一些是相同的、类似的,
所以设计unicode的组织,将“他们定义的相同的文字”定义为同一个编码;由于当时中国没有参与unicode的设计,
所以这一些字就被日本等国拿过去定义了。
所以也就导致了,使用非GB2312、
GB18030规范的字体,其“直、将”等字显示的非中文汉字。”

的说法就不对了。事实上,前面Robin附件图片里的“直”的字型,就是“直”的旧字型,不能算是日文特有字型,小时候用的一本解放前印刷的成语词典,就是用那种字型印刷“直”,“真”这类汉字的。

现在这个情况应该是制定Unicode的时候,大陆简体字方面缺乏参与,导致部分简体字字型和Unicode字型有差别。这种差别又成了影响Unicode推广的理由了,要减少这些差别,更应该上Unicode,参与进去.

另外,我还看到朱邦復的说法:GB2312是抄袭日本JIS:
我最關心的是他們的「國家標準碼」,只收了六七六三個字。堂堂大中國的國家標準竟抄襲自日本的工業標準碼(JIS Code )!如果說禮尚往來,過去日本自中原吸收了部分文化以及中文,如今物歸原主倒也說得過去。可是連日本人都知道,文化用字難以規範,為了工業上的需求,收取 了七千多字只做為「工業標準」。
  中國人大概以為日本人智慧較高,再不然認為現代中國只需要工業就夠了。所以日本的工業標準,搖身一變竟成為中國的國家標準!

2009/4/15 Lyman <lym...@gmail.com>

J. T. zhu

unread,
Apr 15, 2009, 11:20:49 AM4/15/09
to pon...@googlegroups.com
3个字节 压缩到 2个字节
为中国人节省很多空间啊
2009/4/15 ShiningRay <shiningra...@gmail.com>



--
j.t zhu
Email:zhujt...@yahoo.com.cn zhuj...@gmail.com
Blog: http://blog.csdn.net/zhujt1981/

滿月

unread,
Apr 15, 2009, 9:20:26 PM4/15/09
to pon...@googlegroups.com
这方面不太懂,不过这类编码UNICODE这类,本来就是想要可以放下所有的文字吧.
中文比较特别一点,版本比较多,不提繁体以前的文字,就说现在用的文字里.
大陆部分也并存着 古时的繁体文字,后来的简体字.另外日本借鉴过去的繁体字 后来也进行了一些简化. 另外,中文系的同学们好像看的书上也有不少的繁体字,这些好像是古籍上的文字又是不一样的. 所以文字版本还挺多的.
要说是不区分我觉得有点说不过去,另外 中国相关的文献如果要在计算机上处理,想用UNICODE来处理 ,这就不得不把这些问题都考虑进去.所以UNICODE的工作,如果大陆不参与其中,很多工作我想是很难完成的.
 
关于显示的问题,那个是不是与字体有关,UNICODE中如果只指定了一个直字,我觉得还是有问题的.这就在字体上产生了问题吧.
GOOGLE的字体是按那个"日文"版的直字制作的.真的要做文字工作,UNICODE中我想应该不得不补完吧..

鲁迅先生笔下的孔乙己 还知道 四种 回 字的写法....
 
2009/4/15 J. T. zhu <zhuj...@gmail.com>

Iridium

unread,
Apr 15, 2009, 9:56:17 PM4/15/09
to pon...@googlegroups.com
那个“直”的字体,是一种汉字字体,不是日文特有,只是目前大陆不怎么用了,但
不应该称作“日文字体”。

滿月 写道:

Iridium

unread,
Apr 15, 2009, 10:18:17 PM4/15/09
to pon...@googlegroups.com
不过还没有听说过这样的案例:因为utf-8比较长,影响到系统运行,必须换成GBK。

这个理由和繁体字影响识字率有点类似,繁体字繁点是个事实(utf-8编码长点也
是个事实),其实对识字率普及没多大影响。

ShiningRay 写道:
> GBK有个好处是对中文而言,储存起来长度比utf-8短

LeeoNix

unread,
Apr 15, 2009, 10:51:08 PM4/15/09
to pon...@googlegroups.com
我说明一点,貌似日本和韩国还不怎么具备“造字”能力。
我实在奇怪楼上某人什么叫“日本”文字呢?
难道“直”的繁体大家不知道怎么写?
在说出“日本”文字的时候,请某人去网上搜索一下,日本最近造出什么“汉字”了?
他们为所用的汉字提供什么贡献了?
而且看到的“直”的样子是与字库有关的,而不是与编码相关的。

不要忘了“孔乙己”,“回”字都有四种写法。其他字一样有多种写法。
在Unicode万马奔腾的时候,先解决一下汉字自己的万马奔腾才是个大前提。

什么叫“抄袭”?技术方面现在就是半透明的,想法才是优先的,这个根本就没有抄袭的界限。
好比《编程之道》里面描述的那个“大盗”一样,他转了一圈,偷得是想法。

以前看一个电视纪录片,采访的是快译通的设计者,名字忘了……
想当初,快译通的设计者曾经很自豪的说过,他所展出的展品,能很好的画出汉字的时候,
当时日本工程师都跑过来看,要看看他怎么作出来这么好的效果。当时的日本就根本做不到。

sigh...

而这位牛人呢?现在中国人的事业消失了。而日本却在继续发展各项技术。
现在这种问题根本就不是技术问题,而是政治问题。
我话就说到这里了。


2009/4/16 Iridium <caoxia...@qq.com>

Moses

unread,
Apr 15, 2009, 11:00:44 PM4/15/09
to pon...@googlegroups.com
编码和字体是两回事, Unicode 只负责编码, 不负责字体,

另外中国虽然没有直接参与 Unicode, 但是中国是 ISO 成员, 是有参与等价的 ISO 10646 标准的, 该标准後来与
Unicode 整合了, 现在两个标准几乎是一回事. 实际上, 中文部分很大一部分的排序是按照康熙字典和汉语大字典排序的.

2009/4/15 Robin <hbi...@gmail.com>:

--
"I may not agree with what you say but I will defend to the death your
right to say it"

維 基 百 科 群 組 :
httpS://groups.google.com/group/zh_wikipedia/subscribe

滿月

unread,
Apr 16, 2009, 12:23:12 AM4/16/09
to pon...@googlegroups.com
搞技术的人是不是都不太好交流。。。
我只是想提出点观点来。如果有不对的,好好说就是了。我又不是来吵架的。
动不动就愤青可真累。爱国爱本土文化也不是这么表现的。

2009/4/16 Iridium <caoxia...@qq.com>

滿月

unread,
Apr 16, 2009, 12:24:14 AM4/16/09
to pon...@googlegroups.com
不是说引文的朋友。GOOGLE打非要引文 真烦

2009/4/16 滿月 <findfu...@gmail.com>

LeeoNix

unread,
Apr 16, 2009, 3:11:54 AM4/16/09
to pon...@googlegroups.com
跑题一下!
我有个妹妹,教外国人说汉语。最讨厌的就是说这么几件事情,大多数都涉及到中国的历史,学汉语就要学中国历史:
1、尤其汉字的多种写法。多音字还好说,他们理解,但是多种写法就涉及到历史问题。而且不仔细去深究根本就不知道。
2、中国现在的政治问题。其实教美国人反而好一些,教一些欧洲人,他们会说很多目前的政治问题,我妹妹会一次次的说:我们中国人都知道,但是我们选择沉默。分析起来,其实也是与历史有关的问题。
3、教日本人,以前教个日本大男生,太有礼貌,对于老师这个职业来说,那简直动不动就鞠躬,被拿来当茶余饭后的笑料。而且一些成语用语和日文差别太大,有时候会误解的很无奈。

我想,其他人制定的“标准”和“字库”,掺杂的不一定真的适用于汉字。
就像中国人学汉语和外国人过来学汉语一样。计算机也有一定“环境因素”。

2009/4/16 滿月 <findfu...@gmail.com>

居振梁

unread,
Apr 16, 2009, 3:44:22 AM4/16/09
to pon...@googlegroups.com
你把引文删了不就行了


2009/4/16 滿月 <findfu...@gmail.com>
不是说引文的朋友。GOOGLE打非要引文 真烦



--
自学走了不少弯路,更浪费了太多的时间,寻找良师益友。
追求黑客精神和清心寡欲的心态。
中文博客:http://wargrey.yo2.cn
英文博客:http://wargrey.blogspot.com
研究方向:基础[Unix/GNU Linux]、主观[人工智能]、客观[移动计算]、可选[虚拟化]
其他兴趣:数学、物理、心理学、武术、自然语言

xLight

unread,
Apr 16, 2009, 9:15:28 AM4/16/09
to TopLanguage
多音字的顺序问题,远没有那么突出,直接按照gbk编码排序,大家也都能知道哪个字大约在那个位置。

而数百个名字,按照Unicode编码排序后,那顺序简直让人欲哭无泪。
你还别说这种是程序员傻的问题,现实中绝大多数欧美程序员开发的程序都是直接用Unicode内码sort实现的。
比如我们公司现在用的任务管理系统:Atlassian JIRA ,每次在一大堆人名中寻找一个人是那么的痛苦,可恨的unicode排序。。。
之前用的bugfree,我就觉得很好,人名列表都是以登录名的首字母前导的,比如"王一一",在列表里就会显示"w王一一"。很容易的搞定了排序问
题。

On Apr 15, 9:58 am, 小马xioama <cnxia...@gmail.com> wrote:
> 按拼音排序的问题,一定要有拼音的信息才能排序。光靠字符的编码顺序是无法排序的。
> 原因就是中国有很多多音字。 单XX, 区XX , 即使是"汉字友好"的GB标准,能实现按拼音顺序排序程序么?
>

> 2009/4/15 xLight <xblueli...@gmail.com>

Jeffrey Zhao

unread,
Apr 16, 2009, 10:16:20 AM4/16/09
to pon...@googlegroups.com
我实在不知道……

Jeffrey Zhao
Blog: http://jeffreyzhao.cnblogs.com
Twitter: http://twitter.com/jeffz_cn

--------------------------------------------------
From: "xLight" <xblue...@gmail.com>
Sent: Thursday, April 16, 2009 9:15 PM
To: "TopLanguage" <pon...@googlegroups.com>
Subject: [TL] Re: {中文}{Unicode}为什么中文编码还在万码奔腾呢?

Jeffrey Zhao

unread,
Apr 16, 2009, 10:27:26 AM4/16/09
to pon...@googlegroups.com
忽然发现发错邮件了,Sorry

--------------------------------------------------
From: "Jeffrey Zhao" <je...@live.com>
Sent: Thursday, April 16, 2009 10:16 PM
To: <pon...@googlegroups.com>

Wenbo Yang

unread,
Apr 16, 2009, 9:15:38 PM4/16/09
to pon...@googlegroups.com
我想说的也是同样的话,之所以会出现那样的直字,完全是由于 Robin 使用的字体问题,和编码没有关系。例如我也是 Ubuntu,使用 UTF-8 编码,使用默认的中文字体(大概是文泉驿),“直”字和通常简体的“直”字在写法上没有区别。

还有一些,比如 Google Doc 中文文档保存成 PDF 就是使用“新细明体”,可以发现里面很多字和通常的写法不一样,那也是因为字体问题,而不是编码区别。

文博

2009/4/16 Moses <moses...@gmail.com>
编码和字体是两回事, Unicode 只负责编码, 不负责字体,

另外中国虽然没有直接参与 Unicode, 但是中国是 ISO 成员, 是有参与等价的 ISO 10646 标准的, 该标准後来与
Unicode 整合了, 现在两个标准几乎是一回事. 实际上, 中文部分很大一部分的排序是按照康熙字典和汉语大字典排序的.

2009/4/15 Robin <hbi...@gmail.com>:
> 你可以参考附件。
>
> 我的系统是macbook leopard,使用的是默认的字体。
> 在ubuntu 8.10下面,使用google droid 字体,“直”字也如图示。
>
> 以前看过一个文章,里面提到了unicode的一些问题:
> 因为CJK文字有一些是相同的、类似的,所以设计unicode的组织,将“他们定义的相同的文字”定义为同一个编码;由于当时中国没有参与unicode的设计,所以这一些字就被日本等国拿过去定义了。
> 所以也就导致了,使用非GB2312、GB18030规范的字体,其“直、将”等字显示的非中文汉字。
>
> 你可以换一个字体试试,比如google droid字体。
>
> >
> 2009/4/15 Iridium <caoxia...@qq.com>
>>
>> Unicode不是完美的,但是相对较好的吧。
>>
>> 中文和日文的“直”有什么区别?我在notepad里打了个“直”,然后保存成UTF,没有发现有什么变化。然后又在Eclipse里(编码默认为
>> GBK)里打了“直”,还是一样的。最后,我去日文Google检索这个字,还 是一样的。
>>
>> 不过同一个汉字在不同的地区存在字形差别倒是事实,虽然有文化原因,但在数码世界里造成这个事情的原因也有万码奔腾的一份。如果不用Unicode,万码
>> 奔腾会不会让同一汉字字形更加变异?
>>
>> 关于GB2312/GB18030,“国家”有什么好想法?我个人看到是人为制造了麻烦,还有前面一个帖子说的,为了知识产权而知识产权。
>>

--
Wenbo YANG

The State Key Laboratory Of Information Security
Graduate University of Chinese Academy of Sciences
19A Yuquan Road, Beijing, China --- Homepage: http://solrex.cn

zhudogsupe_wanglei

unread,
Apr 16, 2009, 9:38:29 PM4/16/09
to pon...@googlegroups.com
确实,我用的fedora,默认编码是utf-8,中文文件名排序确实很乱,不是按照拼音排序。

居振梁

unread,
Apr 16, 2009, 9:40:37 PM4/16/09
to pon...@googlegroups.com
没注意过这个问题,我只有音乐视频文件才有可能出现中文命名。(fedora en_US.utf-8)

2009/4/17 zhudogsupe_wanglei <zhudo...@gmail.com>


确实,我用的fedora,默认编码是utf-8,中文文件名排序确实很乱,不是按照拼音排序。

小马xioama

unread,
Apr 16, 2009, 10:08:50 PM4/16/09
to pon...@googlegroups.com
问题是为什么中文要按照拼音来排序?且不说统一编码的情况下,中日韩三国同一个中文字的读音不同,没有办法排序,就是在英文中,单词的排序也不是根据发音来排序的,比如说know这个单词,应该排在发音k的那里,还是排在发音n的那里?

事实上看看报纸上刊登的全国人大代表名单,就是按照姓氏笔画来排序的,王XX排在戴XX的前面。

2009/4/17 zhudogsupe_wanglei <zhudo...@gmail.com>

Moses

unread,
Apr 16, 2009, 10:58:58 PM4/16/09
to pon...@googlegroups.com
Unicode 的 CJKV 部分排序的规则不是乱排, 而是安装汉字造字方法的 "六书" 进行排序的, 这样各个使用汉字的国家都能方便找到需要的字.

如果按照某个国家的读音排序, 明显不中立. 中国也不会愿意使用按照韩国读音排序的汉字吧?

2009/4/17 zhudogsupe_wanglei <zhudo...@gmail.com>:

up duan

unread,
Apr 16, 2009, 11:15:28 PM4/16/09
to pon...@googlegroups.com
说到字符集的排序问题,我觉得仓颉的方式最好。

2009/4/17 Moses <moses...@gmail.com>

徐建忠

unread,
Apr 16, 2009, 10:31:49 PM4/16/09
to pon...@googlegroups.com
很多手机的电话本都可以在英文输入状态下输入拼音字母查找人名,这个不知道算不算是按照拼音排序的应用。

2009/4/17 小马xioama <cnxi...@gmail.com>

up duan

unread,
Apr 16, 2009, 11:41:13 PM4/16/09
to pon...@googlegroups.com
这个似乎是查找的一种应用,当然,查找似乎包括了排序的能力。根据人名推导出首字母缩拼,然后查找。

2009/4/17 徐建忠 <xui...@gmail.com>

居振梁

unread,
Apr 16, 2009, 11:44:24 PM4/16/09
to pon...@googlegroups.com
对了,作为姓的汉字读音是一定得吧?那这样不容易排一些了

2009/4/17 up duan <fix...@gmail.com>

这个似乎是查找的一种应用,当然,查找似乎包括了排序的能力。根据人名推导出首字母缩拼,然后查找。

up duan

unread,
Apr 16, 2009, 11:52:31 PM4/16/09
to pon...@googlegroups.com


2009/4/17 居振梁 <juzhe...@gmail.com>
对了,作为姓的汉字读音是一定得吧?那这样不容易排一些了
所以很多特定的姓的字母是不对的:)。当然,有些手机这方面做了处理,因为毕竟特殊的姓氏并不是很多。 

小马xioama

unread,
Apr 16, 2009, 11:55:34 PM4/16/09
to pon...@googlegroups.com
同一个作为姓氏的汉字,由于有两个读音,就很有可能代表了两个不同的姓,而且不一源流。如:姓,北方读音与字同,而南方读音则与字同音;姓,汉族人读者作,而傣族人则读作;原籍在中原一带的姓,读音作,而注籍两广或壮族的则读音与字同。这些同字不同音者,基本上分别表示不同的姓,不能认为是同一姓氏在不同地区、不同族属的不同读法。

另外,
万俟呙中的万字在复姓万俟中不读wan, 要读mo.

2009/4/17 居振梁 <juzhe...@gmail.com>

Chunlin Zhang

unread,
Apr 17, 2009, 12:10:55 AM4/17/09
to pon...@googlegroups.com
不是会影响到系统运行,而是存储和传输的时候比较节省,其实汉字多的情况下可以用 UTF16,但是这样对于 ascii 码比较不环保.
之前云风还捣鼓出一种"一种对汉字更环保的 Unicode 编码方案"
http://blog.codingnow.com/2008/12/utf-8_replacement.html

Agnimon

unread,
Apr 17, 2009, 1:18:15 AM4/17/09
to TopLanguage
韩国不了解,日本倒是造了不少和字,例如「峠」「辻」「込」等,虽然都不是最近造的。那些和字的创造过程是符合汉字六书的,因此可以被称为日文汉字。
直的这个问题,我觉得的确是和字库有关,因为在记事本中输入「直」字,把字体改为只有日文字形的字体如「MS Mincho」之后就会显示出日文字形,
而改为只有中文字型的字体如「宋体」就会显示中文字型。因此
此外,汉字写法中日之间有差异是历史原因,日本简化汉字的时候和大陆简化汉字的时候采用的方法和标准是不一样的。因此才有「気」和「气」(繁体均写作
氣)。我们现在使用汉字都几乎不使用它的象形含义而只利用它的表音符号的功能,因此用什么样的汉字其实都没关系,只不过根据我国语言文字法,正式场合我
们必须使用符合大陆标准的汉字。如果硬要说这样就污损了中国文化,其实对汉字的简化(尤其是大陆)本身就是在污损中国文化。「爱而无心亲而不见」的说法
应该很有名了吧,从当今的汉字我们几乎无法推断其六书本意,也就是说我们简化的汉字虽然方便了使用,但是反而丢失了区别于其他任何一种文字的最本源的东
西。
话说前段时间写了一篇关于汉字的文章,请各位指教。
http://agnimon.ycool.com/post.2119387.html

千行代码

unread,
Apr 17, 2009, 1:42:46 AM4/17/09
to TopLanguage
Unicode比GB18030更国际化,像这个问题,跟字体有关,在无韩语日语的情况下没问题,

有韩语日语的时候GB18030也不行,人家日本人韩国人不会用GB18030的。

张沈鹏

unread,
Apr 17, 2009, 1:50:37 AM4/17/09
to pon...@googlegroups.com
秦始皇
一统文字

Patrick He

unread,
Apr 17, 2009, 4:25:01 AM4/17/09
to pon...@googlegroups.com
安装 locale-pinyin 这个软件包,然后编辑 /etc/profile 或者 ~/.bash_profile,增加一条:
export LC_COLLATE="zh_CN.UTF-8"
就可以按照拼音排序了。


2009/4/17 zhudogsupe_wanglei <zhudo...@gmail.com>

Patrick He

unread,
Apr 17, 2009, 4:28:07 AM4/17/09
to pon...@googlegroups.com
我觉得字符的内码顺序不一定非要作为字符本身的排序规则,比如说汉字既可以按照普通话拼音排序也能按照笔画排序,按照粤语、闽南语、湖南话排序也未尝不可,只要用户有需要,呵呵。

2009/4/17 Moses <moses...@gmail.com>

Cao Yi

unread,
Apr 17, 2009, 9:52:31 AM4/17/09
to pon...@googlegroups.com
嗯,其实我想说的说,似乎还没有因为UTF-8编码比较长导致存储空间不够的例子。
文本信息本身占用空间并不多,我下载的TXT电子书,大的也几乎没有超过5M的。

风云那种应用场景,相对于所有的中文用来说,绝对小众,个人觉得不适合成为不使用UTF的理由。

2009/4/17 Chunlin Zhang <zhangc...@gmail.com>

Chunlin Zhang

unread,
Apr 17, 2009, 10:30:18 AM4/17/09
to pon...@googlegroups.com
那要看什么场合了,如果像你这样的情况当然可以了.特别是在 PC 上内存很宽裕,网络传输很快,但是还有不少场合有内存受限的情况,或者需要特别优化的时候.

2009/4/17 Cao Yi <iridi...@gmail.com>:


> 嗯,其实我想说的说,似乎还没有因为UTF-8编码比较长导致存储空间不够的例子。
> 文本信息本身占用空间并不多,我下载的TXT电子书,大的也几乎没有超过5M的。
>
> 风云那种应用场景,相对于所有的中文用来说,绝对小众,个人觉得不适合成为不使用UTF的理由。

很多手机系统软件内部还是用的 UTF16的.云风的这种,也说了是用在软件内部的.

Patrick He

unread,
Apr 17, 2009, 10:40:28 AM4/17/09
to pon...@googlegroups.com
对于高访问量的中文文字资讯网站而言,两字节的汉字编码会比 UTF-8 的三字节汉字要节省非常可观的流量。

Cao Yi

unread,
Apr 18, 2009, 5:45:20 AM4/18/09
to pon...@googlegroups.com
嗯,让需要的场景去优化吧。

现全文转发一个帖子(是我请Han-Teng Liao关注话题这个线索的):

from Han-Teng Liao (OII) <han...@gmail.com>
reply-to zh_wik...@googlegroups.com
to zh_wik...@googlegroups.com
date Sat, Apr 18, 2009 at 12:38 AM
subject [Wiki] Re: RFC: 維基詞典 與 開放輸入法 的交流
mailing list <zh_wikipedia.googlegroups.com> Filter messages from this mailing list
mailed-by googlegroups.com
signed-by googlegroups.com

hide details 12:38 AM (17 hours ago)
Reply

Cao Yi 提供了這個帖子, 是討論中文編碼和顯示的問題,
https://groups.google.com/group/pongba/browse_frm/thread/720f14b8ffd92abf

讀了一下, 我想有幾點關於GB2312 , GB 18030, Unicode及早期ascii拉丁編碼中
心的問題需要澄清

(歡迎Cao Yi 幫我把這帖轉貼到那個group)

幾個歷史事實:

(1) 最早的ASCII code不只是拉丁中心, 還是美國中心, 連英磅符號都沒有

(2) ASCII code發展的時候, 本來就是美國人自己要用的, 礙於當時電報及科技的
限制, 傳/存資料的成本非常大

(3) 現在傳/存資料的成本已經不是那麼重要

(4) 各國電腦/資訊化時, 都常以ASCII為主外加自已本國的語言需求, 以致形成以
美國ASCII為中心的標準設計, 有利於該國編碼標準和ASCII的單向包容性, 但使跨
語言的交流格外困難, 不但非ASCII語言可能無法顯示在同一文件之內, 還得需要
各種一對一的轉換工具,

(5) Unicode就要是解決(4)的問題, 倡議要同一個編碼標準來包容所有語言

從以上可知

(a) ASCII 的發展是拉丁中心沒錯

(b) 但Unicode是否為拉丁中心?  不一定

我個人對(b)的看法很實際, 若國外的網站還是只有用ASCII或其他拉丁碼為主, 而
不願採用Unicode, 在(3)傳/存資料成本不重要的環境(個人電腦存取的網際網路)
,
則是有拉丁中心的問題, 但若是像手機簡訊等, 傳/存資料成本仍重要的情況下,
可能要按情況看

繼續看GB2312 / GB 18030的問題,

GB2312就和Big5一樣, 是歷史事實(4)的時代產物, 所以GB2312和 Big5不相容, 但
都包容了ASCII的東西, 所以不能同時顯, 還得要有轉換工具

而GB 18030, 說難聽一點是根據Unicode外加北京想要加的控制, 特別是將中國境
內少数民族的文字符號, 從Unicode組織的標準拉回來國家標準的手段

基於GB 18030是Unicode的一種擴張的實作來說

(1) 若Unicode 為拉丁中心, 那麼 GB 18030一定是拉丁中心

(2) 若中國境內的使用都是以GBK 或 GB2312為主, 而GB 18030只是擺著好看的,
連政府機關/媒體只用GBK 或 GB2312, 有時加一點Big5, 同我個人對Unicode是否
拉丁中心的實際應用的評判標準來說, 我會說, GB2312 / GB 18030實際上應用,
是漢字中心, 因為實際上使用是以前者為主, 後者只是點綴用的.....若中國境內
都用GB 18030, 就和國際知名網站youtube google都用Unicode為主的話, 那我就
不會批評他們是拉丁 或 漢字中心了

有一位美國人類學/漢學家, 在西藏拉薩待了好些年, 通漢語與藏語, 就有提過一
開始中國在拉薩的一些大學, 是有大力貢獻Unicode在藏語的處理的, 但後來因政
治因素, 都半撤出了, 轉而在GB 18030的架構下, 另起爐灶, 若他所言為真, 那麼
更加強了GB 18030, 只是想要搞一個能包容Unicode但想干涉少數民族語言標準的
國際化發展....換句話說, 將國際議題國內化

同樣的道理也可以說在Unicode 的 CJKV漢字統一計劃....基本的原則如下

(1) Unicode的運作不是以政府為主, 而是以資訊業界和語言學/電腦科學專家為主

(2) 各國語言所使用的漢字先假設完全不一樣

(3) 若大家或幾個國家間同意, 那是同一個漢字的話, 就給一那個字共享的編碼,
(但注意, 認定同一個漢字不代表寫的完全一模一樣, 其中的差異可以用不同的字
形來呈現)

(4) 若不同意志願共享那些漢字, 那麼各國使用的漢字就待在不同的各國自有的漢
字編碼區

這也是為什麼連一開始沒有加入的越南, 後來也加入了, 因為這是相對開放的專業
/業界的標準制定環境, 國家標準的干預較少......

在我最近一篇要發表的雜誌文章中, 就有說明以上的道理及歷史脈絡, 不過是英文
的....若有人有興趣參考, 煩請寫信給我索取

基於同樣的原則, 我也是希望漢字/中文的輸入法也有類似的架構及實踐, 開放參
與, 多元, 避免地方中心


Chunlin Zhang 写道:

oldherl

unread,
Apr 18, 2009, 3:44:27 AM4/18/09
to TopLanguage
用GB系列编码完全是ZF为了“支持自主产权”和阻碍对外交流。
我认为UTF-8会是将来的趋势。
如果将来全球编码统一,那么应该就会统一到UTF-8上。UCS-4是好,可是一来太大,二来与ASCII不兼容,估计不太可能取代UTF-8。
对于网络文本传输,尤其是网页来说,采用什么编码倒不重要,只要保证双方都能解码就行了。但是需要在每个文件里面明确说明本文件采用的编码。
主要是需要统一磁盘和光盘(以及将来的主要本地媒介)上面的文件以及文件名的编码。比如现在经常出现的所谓“mp3乱码现象”,其实就是写入的标签信息
编码不明确造成的。

GB系列编码除了对汉字来说占地小以外,我实在看不出什么优点。
有人提到排序的问题,就算不说多音字,GB2312码也不是“按照拼音来排序”的。

16-55区为一级汉字,按拼音排序。
56-87区为二级汉字,按部首/笔画排序。
” ——来自wikipedia
可以看出这种编码方式相当混乱。
而Unicode的CJK Basic区(含两万多汉字)就是按照部首来排列的。

在GB18030的四字节字符中甚至还动用了ascii区,使得它已经仅仅是表面上和ascii兼容了。(from wikipedia)

“Unicode的直是日本风格”,那是因为日本直和中国直在Unicode中使用了同一个码位。至于到底显示哪种风格的直,完全取决于字体。就像字母
a有"戴帽子"和"不戴帽子"两种,显示哪一种完全取决于字体。

ZhangJieJing

unread,
Apr 19, 2009, 6:18:17 AM4/19/09
to pon...@googlegroups.com

2009/4/18 oldherl <old...@gmail.com>

用GB系列编码完全是ZF为了“支持自主产权”和阻碍对外交流。
我认为UTF-8会是将来的趋势。
如果将来全球编码统一,那么应该就会统一到UTF-8上。UCS-4是好,可是一来太大,二来与ASCII不兼容,估计不太可能取代UTF-8。
对于网络文本传输,尤其是网页来说,采用什么编码倒不重要,只要保证双方都能解码就行了。但是需要在每个文件里面明确说明本文件采用的编码。
主要是需要统一磁盘和光盘(以及将来的主要本地媒介)上面的文件以及文件名的编码。比如现在经常出现的所谓“mp3乱码现象”,其实就是写入的标签信息
编码不明确造成的。

GB系列编码除了对汉字来说占地小以外,我实在看不出什么优点。
有人提到排序的问题,就算不说多音字,GB2312码也不是“按照拼音来排序”的。

 16-55区为一级汉字,按拼音排序。
 56-87区为二级汉字,按部首/笔画排序。

灌个水, 你说按笔画排序我就想起了奥运会上的出场顺序, 呵呵。

我觉得为什么中文编码会“万马奔腾”完全是因为有些人可以定义有能力这样的标准, 只要定义出来, ZF支持就可以了, 至于好不好, 有能力管理的人是不会去关心的。

如果是很难,很高精尖, 可能就没那么多标准了。 (我没说定义编码标准难, 定义一个一般的编码标准应该不是难, 但是要定义个好的编码标准才是难)。


LeeoNix

unread,
Apr 19, 2009, 6:50:02 AM4/19/09
to pon...@googlegroups.com
我父亲作为研究汉字和书法这么多年的一位“老学究”,金石文字也研究了好久了,现在退休在家练草书。

他说:汉字到现在就是一种符号文字,就不要过多深究其来源内容,知道其具体内容就好,是一种现代文化的拓展。
现在某些常委说要恢复繁体字,那简直就是无聊,毫无意义的事情。看看新华字典就知道,繁转简的约定其实就那么点。
简化的只是一些常用的字而已,那些繁复的字毕竟还是没有触及。

特别这个“爱而无心亲而不见”这个,我过年回家,我爸爸最反对的就是这个。
难道有没有这两个部首就不让这个字表达其原来的含义了?

他还专门拿纸写了几个字给我说这个,

汉字简化,很多加入了草书简化的法则,而草书简化就是一种势在必行的趋势。

而“心”这个部首,在草书就有可能写为一横而已。

比如“为”,就是标准草书简化。

比如学,这个学子头,还有党。草书就是三点,还有兴,不管那里面是什么内容,都用三个点统一了。

可以说,简化字的目的最初的目的是:容易书写,而不是清晰表达意思。非得用那么复杂的方式去表达那些所谓的表意吗?

还有“国”这个字,简化的多好,繁体的国,比如要知道一个典故才能理解这个国的意思。

汉字的“统一”,秦始皇那时候的规则又是什么呢?小篆是他选择的,但是小篆真的更好吗?那不一定。

但是标准就是如此。

追求表意的话,那有很多问题,还有某些“历史问题”。

我在上小学的时候,我爸爸就给我说了个事情:“射”和“矮”,意义被用反了。

射,很明显,身寸,身体都一寸了,代表的是什么意思?
矮,矢,就是箭。委这个字,看篆书那就是表达一个人,矢和人一起。这表示的是什么?

难道深究起来,还要深究这个吗?矮也就矮了,射也就射了。我们知道意思就可以了。


2009/4/17 Agnimon <agn...@gmail.com>

xxmplus

unread,
Apr 19, 2009, 6:56:14 AM4/19/09
to pon...@googlegroups.com
2009/4/19 LeeoNix <leeo...@gmail.com>:

> 我父亲作为研究汉字和书法这么多年的一位“老学究”,金石文字也研究了好久了,现在退休在家练草书。
>
> 他说:汉字到现在就是一种符号文字,就不要过多深究其来源内容,知道其具体内容就好,是一种现代文化的拓展。
> 现在某些常委说要恢复繁体字,那简直就是无聊,毫无意义的事情。看看新华字典就知道,繁转简的约定其实就那么点。
> 简化的只是一些常用的字而已,那些繁复的字毕竟还是没有触及。
>
> 特别这个“爱而无心亲而不见”这个,我过年回家,我爸爸最反对的就是这个。
> 难道有没有这两个部首就不让这个字表达其原来的含义了?
>
> 他还专门拿纸写了几个字给我说这个,
>
> 汉字简化,很多加入了草书简化的法则,而草书简化就是一种势在必行的趋势。
>
> 而“心”这个部首,在草书就有可能写为一横而已。
>
> 比如“为”,就是标准草书简化。
>
> 比如学,这个学子头,还有党。草书就是三点,还有兴,不管那里面是什么内容,都用三个点统一了。
>
> 可以说,简化字的目的最初的目的是:容易书写,而不是清晰表达意思。非得用那么复杂的方式去表达那些所谓的表意吗?
>
> 还有“国”这个字,简化的多好,繁体的国,比如要知道一个典故才能理解这个国的意思。
>
> 汉字的“统一”,秦始皇那时候的规则又是什么呢?小篆是他选择的,但是小篆真的更好吗?那不一定。
>
> 但是标准就是如此。
>
> 追求表意的话,那有很多问题,还有某些“历史问题”。
>
> 我在上小学的时候,我爸爸就给我说了个事情:“射”和“矮”,意义被用反了。
>
> 射,很明显,身寸,身体都一寸了,代表的是什么意思?
> 矮,矢,就是箭。委这个字,看篆书那就是表达一个人,矢和人一起。这表示的是什么?
>
> 难道深究起来,还要深究这个吗?矮也就矮了,射也就射了。我们知道意思就可以了。

还有鸭和鳳,一个是“甲鸟”,一个是“凡鸟” orz

--
Any complex technology which doesn’t come with documentation must be the best
available.

居振梁

unread,
Apr 19, 2009, 6:58:40 AM4/19/09
to pon...@googlegroups.com
大哥,你这说几个字,引用那么一大堆,能否删掉点引文?
刚刚你在 做英文学习软件 的帖子里也是,夹在引文里,也是那么一点字,别人看起来很累的。

2009/4/19 xxmplus <xxm...@gmail.com>

--
Any complex technology which doesn’t come with documentation must be the best
available.

xxmplus

unread,
Apr 19, 2009, 7:01:22 AM4/19/09
to pon...@googlegroups.com
已经删掉很多了,下次注意再多删点-_-
那个帖子我没回复过哦

2009/4/19 居振梁 <juzhe...@gmail.com>:


> 大哥,你这说几个字,引用那么一大堆,能否删掉点引文?
> 刚刚你在 做英文学习软件 的帖子里也是,夹在引文里,也是那么一点字,别人看起来很累的。

--

Any complex technology which doesn’t come with documentation must be the best
available.

Sent from Sydney, Nsw, Australia

居振梁

unread,
Apr 19, 2009, 7:03:00 AM4/19/09
to pon...@googlegroups.com
sorry。
连续看到两个类似的现象,误以为是你了

2009/4/19 xxmplus <xxm...@gmail.com>
已经删掉很多了,下次注意再多删点-_-
那个帖子我没回复过哦

LeeoNix

unread,
Apr 19, 2009, 7:05:03 AM4/19/09
to pon...@googlegroups.com
这些统一,反对声音都会有一大片的。

我父亲曾经写过一幅字,叫:炎黄子孙。

炎黄用两个大的篆书写在中间。
在这两个大字空隙处
上面用了50个各种形式的“子”
下面用了50个各种形式的“孙”

这就是我父亲研究以前的金石文字的作品,

就“子”这个字就有那么多书写方法,
而古代文字的“孙”,那时候很多国家并不用这种“子”与“小”之间互相“组合”的形式表达这个意思。
还有独立的字,就光这两个字复杂的不得了。

以前还有中书法作品“百寿图”,那是一百个“寿”字。

这就是中国的古汉字。一个字有上百种样子。

单单从一个“六艺”去解释汉字,那只是一种而已。
所谓的六艺毕竟还是古时某些人总结的一种标准。
而最初那些发明汉字的古老的中国人,是什么具体的规则去发明汉字呢?

始皇的功劳,被人骂做暴君,却统一文字的功劳。

而汉字书写方面的进化的历史:

篆,

隶书,

草书

行书,

最后才是所谓的正书:楷书。

而魏碑作为一种特殊的非主流形式就不用多说了。

没错,草书非常的靠前,当我们用楷书表达文字的时候,不要忘了草、行,对于文字进化的重要作用。

而那些拿“六艺”去作为汉字标准的人。
不要忘了一个最基本的,文字还是用做书写的,表达一个意思只是一个层面而已。
如果需要表达意思清晰的话,何必用楷书呢?用篆书岂不是更好?更清晰?

书写要作为其中的一个重要条件。

简单、易懂、易书写!这才是简化字。

LeeoNix

unread,
Apr 19, 2009, 7:15:20 AM4/19/09
to pon...@googlegroups.com
前几天,我们公司的logo用了篆书写的,

里面有草字头,公司的MM说:这个字怎么有两只小手啊。
然后又有人说:什么小手啊,明明是两把叉子。

我叹口气说,这个是草的篆书写法。

而草的篆书写法,很早有很清晰的简化字,
就是两颗草在那里,总共也就4笔。
而现在这个“草”这个字,多少笔呢?

我附件里发了一副李树立先生的作品,注意他写的草。

写的是:独怜幽草涧边生,上有黄鹂深树鸣,春潮带雨晚来急,野渡无人舟自横。
1564595_1235101498uK2W.jpg

Cao Yi

unread,
Apr 19, 2009, 7:24:34 AM4/19/09
to pon...@googlegroups.com
LeeoNix OT得太厉害了,这个可以另外开thread。。。

关于编码的话题,
https://groups.google.com/group/zh_wikipedia/browse_frm/thread/df96c36e36e1795b
第3,4,6楼有较大的参考价值。关注这个话题的朋友不妨去看看。

LeeoNix 写道:

> ------------------------------------------------------------------------
>

xLight

unread,
Apr 19, 2009, 7:29:42 AM4/19/09
to TopLanguage
单纯从文字编码问题上来讲,我是非常支持Unicode的。
但是一旦涉及到实际应用,我真的没法不陷入矛盾中啊。
现在docs.google.com里面一个spreadsheet 表格中的排序功能也是基于unicode。对中文的排序根本就没法用。
这种例子实在太多太多。永远也不能指望说英语的programmer写出的程序会兼容中文排序啊。

也许 等到cjk能强大到影响整个C++标准组织的那一天,cjk文字排序问题才会消失吧。

所以,如果你的应用只会涉及到中文时,我还是会推荐使用gbk。
一旦有多种文字的需求,什么也别说,unicode!

LeeoNix

unread,
Apr 19, 2009, 7:34:48 AM4/19/09
to pon...@googlegroups.com
再说说那个所谓的:爱而无心!

说说“心”这个字的篆书。

http://www.youmade.com/shufa/index.asp

这里有个地方,输入以下有关“心”的字。

比如:爱这个字。

看上去就像个男人的那玩意儿似的,

如果第一眼给你看,谁知道是“心”这个字?

但是,是那个时候的人对于心脏的理解,是一种象形表达。

你看看现在的“心”,你看有那个地方像我们的心脏了?

如果按照所谓人提到的简化字的标准,那这个字也干脆不用了……

看到这个字,然后不知道这个字的前提下,
通过某些造字法去知道这个意思也就是了,如果已经知道这个字的本身含义了,
何必深究什么:爱而无心,亲而不见?

我父亲和我交流的时候说:时代在进步,每个时代都有每个时代的标准,不能做历史的倒退。

Tiny fool

unread,
Apr 19, 2009, 8:05:36 AM4/19/09
to pon...@googlegroups.com
其他无所谓,六书怎么变成六艺了,寒。。。

真不细心啊

2009/4/19 LeeoNix <leeo...@gmail.com>



--
--------------
Gmail: tiny...@gmail.com
Gtalk:   tiny...@gmail.com
Phone: 13520711089
Twitter:http://twitter.com/tinyfool

银杏泰克科技有限公司-专业的站内搜索引擎提供商
http://www.ginkgotek.com/

Tinyfool的开发日记
http://www.tinydust.net/prog/diary/diary.htm

TV的Google观察
http://www.tinydust.net/tinygoogle/

LeeoNix

unread,
Apr 19, 2009, 8:35:41 AM4/19/09
to pon...@googlegroups.com
小问题,我懒得改了。

哈哈,然后以讹传讹去吧。

2009/4/19 Tiny fool <tiny...@gmail.com>

Tiny fool

unread,
Apr 19, 2009, 8:44:27 AM4/19/09
to pon...@googlegroups.com
寒,还真够懒的

2009/4/19 LeeoNix <leeo...@gmail.com>

LeeoNix

unread,
Apr 19, 2009, 8:45:45 AM4/19/09
to pon...@googlegroups.com
你也不看看我打了多少字了。哈哈。

也正好我过年回家,我父亲专门给我说了这方面的事情。

我就在这里多说了这么多。

2009/4/19 Tiny fool <tiny...@gmail.com>

四不象

unread,
Apr 20, 2009, 8:39:59 AM4/20/09
to pon...@googlegroups.com
有些字简化得非常没水平,比如
發髮発
后後
简化没问题,胡乱合并就不好了

LeeoNix

unread,
Apr 20, 2009, 10:31:13 PM4/20/09
to pon...@googlegroups.com
我问你,你知道这几个字的简化字意思吗?不知道可以由老师教你。你知道了,还在乎什么样子呢?

“乱”就乱吧。知道什么意思就好,

简化字还有就是意思集中:

我打个比方:比如:擽

这个字叫lue,意思就是那开水烫一下的意思,比如我们做芹菜,就要这样用开水处理一下。

估计全国就我家乡那里再说这个字,做芹菜就会说擽芹菜。其他地方我不知道,

但是我听到很多相似意思的,比如说“烫”、“抄”,还有类似“拿开水过一下”,等等,类似的意思非常多,

而且估计其他地方对于这种,把蔬菜用开水过一下的方式都有其他的语言表达。

而我在外地,一些家乡的语言习惯,都不会说。

我家乡那里,很多“古字”都在说,有个老学究出了一本书,说了大概有100多个汉字,是我们当地都在保留的。

但他很明确的说明,这些字都有现代其他的字去代表其意思。比如这个擽。

而这些字,将会在以后不再语言里出现,只会在书法和历史里知道它们。

汉字简化,很多时候。大家言语里自然而然的就在简化,

大家所说的仅仅是从简化字形,易于书写一方面而已。

从表意到本意,很多字都在改变,这也是简化的一个方面。

四不象

unread,
Apr 20, 2009, 11:13:54 PM4/20/09
to pon...@googlegroups.com
我说的那几个字是发音相同,但是表意完全不同的常用字。单个字符的信息熵大大降低,对阅读带来很大妨碍。


----- Original Message -----
From: "LeeoNix" <leeo...@gmail.com>
To: <pon...@googlegroups.com>
Sent: Tuesday, April 21, 2009 10:31 AM
Subject: [TL] Re: {中文}{Unicode}为什么中文编码还在万码奔腾呢?


> 我问你,你知道这几个字的简化字意思吗?不知道可以由老师教你。你知道了,还在乎什么样子呢?
>
> “乱”就乱吧。知道什么意思就好,
>
> 简化字还有就是意思集中:
>
> 我打个比方:比如:擽
>
> 这个字叫lue,意思就是那开水烫一下的意思,比如我们做芹菜,就要这样用开水处理一下。
>
> 估计全国就我家乡那里再说这个字,做芹菜就会说擽芹菜。其他地方我不知道,
>
> 但是我听到很多相似意思的,比如说“烫”、“抄”,还有类似“拿开水过一下”,等等,类似的意思非常多,
>
> 而且估计其他地方对于这种,把蔬菜用开水过一下的方式都有其他的语言表达。
>
> 而我在外地,一些家乡的语言习惯,都不会说。
>
> 我家乡那里,很多“古字”都在说,有个老学究出了一本书,说了大概有100多个汉字,是我们当地都在保留的。
>
> 但他很明确的说明,这些字都有现代其他的字去代表其意思。比如这个擽。
>
> 而这些字,将会在以后不再语言里出现,只会在书法和历史里知道它们。
>
> 汉字简化,很多时候。大家言语里自然而然的就在简化,
>
> 大家所说的仅仅是从简化字形,易于书写一方面而已。
>
> 从表意到本意,很多字都在改变,这也是简化的一个方面。
>
>
> 2009/4/20 四不象 <tabri...@gmail.com>
>
>> 有些字简化得非常没水平,比如
>> 發髮発
>> 后後
>> 麵
>> 简化没问题,胡乱合并就不好了
>>
>> ----- Original Message -----
>> *From:* LeeoNix <leeo...@gmail.com>
>> *To:* pon...@googlegroups.com
>> *Sent:* Sunday, April 19, 2009 6:50 PM
>> *Subject:* [TL] Re: {中文}{Unicode}为什么中文编码还在万码奔腾呢?

Moses

unread,
Apr 20, 2009, 11:11:34 PM4/20/09
to pon...@googlegroups.com
合幷简化会造成歧义的, 比如:

"我下面給你吃"
到底是
  我下面給你吃
还是
  我下麵給你吃

2009/4/21 LeeoNix <leeo...@gmail.com>:


> 我问你,你知道这几个字的简化字意思吗?不知道可以由老师教你。你知道了,还在乎什么样子呢?
>
> “乱”就乱吧。知道什么意思就好,
>
> 简化字还有就是意思集中:
>
> 我打个比方:比如:擽
>
> 这个字叫lue,意思就是那开水烫一下的意思,比如我们做芹菜,就要这样用开水处理一下。
>
> 估计全国就我家乡那里再说这个字,做芹菜就会说擽芹菜。其他地方我不知道,
>
> 但是我听到很多相似意思的,比如说“烫”、“抄”,还有类似“拿开水过一下”,等等,类似的意思非常多,
>
> 而且估计其他地方对于这种,把蔬菜用开水过一下的方式都有其他的语言表达。
>
> 而我在外地,一些家乡的语言习惯,都不会说。
>
> 我家乡那里,很多“古字”都在说,有个老学究出了一本书,说了大概有100多个汉字,是我们当地都在保留的。
>
> 但他很明确的说明,这些字都有现代其他的字去代表其意思。比如这个擽。
>
> 而这些字,将会在以后不再语言里出现,只会在书法和历史里知道它们。
>
> 汉字简化,很多时候。大家言语里自然而然的就在简化,
>
> 大家所说的仅仅是从简化字形,易于书写一方面而已。
>
> 从表意到本意,很多字都在改变,这也是简化的一个方面。
>
>

> 2009/4/20 四不象 <tabri...@gmail.com>

--

Tiny fool

unread,
Apr 20, 2009, 11:16:53 PM4/20/09
to pon...@googlegroups.com
合并简化的歧义总不会比文言文大吧?我们还不是用了上千年。

简化好还是坏,现在已经不是最重要的问题了,问题在于标准变来变去,所有人都会遭受损失。

2009/4/21 Moses <moses...@gmail.com>

Googol Lee

unread,
Apr 21, 2009, 12:18:16 AM4/21/09
to TopLanguage
你在生活中真的遇到过这几个字造成的歧义么?

On 4月21日, 上午11时11分, Moses <moses.ma...@gmail.com> wrote:
> 合幷简化会造成歧义的, 比如:
>
> "我下面給你吃"
> 到底是
>   我下面給你吃
> 还是
>   我下麵給你吃
>

> 2009/4/21 LeeoNix <leeoni...@gmail.com>:


>
>
>
> > 我问你,你知道这几个字的简化字意思吗?不知道可以由老师教你。你知道了,还在乎什么样子呢?
>
> > “乱”就乱吧。知道什么意思就好,
>
> > 简化字还有就是意思集中:
>
> > 我打个比方:比如:擽
>
> > 这个字叫lue,意思就是那开水烫一下的意思,比如我们做芹菜,就要这样用开水处理一下。
>
> > 估计全国就我家乡那里再说这个字,做芹菜就会说擽芹菜。其他地方我不知道,
>
> > 但是我听到很多相似意思的,比如说“烫”、“抄”,还有类似“拿开水过一下”,等等,类似的意思非常多,
>
> > 而且估计其他地方对于这种,把蔬菜用开水过一下的方式都有其他的语言表达。
>
> > 而我在外地,一些家乡的语言习惯,都不会说。
>
> > 我家乡那里,很多“古字”都在说,有个老学究出了一本书,说了大概有100多个汉字,是我们当地都在保留的。
>
> > 但他很明确的说明,这些字都有现代其他的字去代表其意思。比如这个擽。
>
> > 而这些字,将会在以后不再语言里出现,只会在书法和历史里知道它们。
>
> > 汉字简化,很多时候。大家言语里自然而然的就在简化,
>
> > 大家所说的仅仅是从简化字形,易于书写一方面而已。
>
> > 从表意到本意,很多字都在改变,这也是简化的一个方面。
>

> > 2009/4/20 四不象 <tabris17...@gmail.com>

> >> 2009/4/17 Agnimon <agni...@gmail.com>

Jeffrey Zhao

unread,
Apr 21, 2009, 12:21:03 AM4/21/09
to pon...@googlegroups.com
我随便一说:如果不合并生活就少了一个乐趣了,呵呵。


Jeffrey Zhao
Blog: http://jeffreyzhao.cnblogs.com
Twitter: http://twitter.com/jeffz_cn

--------------------------------------------------
From: "Googol Lee" <goog...@gmail.com>
Sent: Tuesday, April 21, 2009 12:18 PM
To: "TopLanguage" <pon...@googlegroups.com>

Moses

unread,
Apr 21, 2009, 7:56:30 AM4/21/09
to pon...@googlegroups.com
只是举个例子, 这样的例子太多了

2009/4/21 Googol Lee <goog...@gmail.com>:

LeeoNix

unread,
Apr 21, 2009, 10:43:40 PM4/21/09
to pon...@googlegroups.com
你说的太多,但是妨碍阅读了没?并没有你说的那么危言耸听。

古文不还是有“通假”这个?在六书里面就有假借。就是这个意思。

你说的,差不多就符合这个假借的含义。

再说了,你举得这个例子是断章取义,我下面給你吃。你单独摘出来而已。

如果是剧情描写,夫妻之间的生活对话,女方会这么说:你饿了没?我下面给你吃?

是连续的两个疑问句。由前面带出后面的含义。我只是拿你说的这句话来解释,

如果你单独摘除这一句,当然歧义,但是现实中,谁会只说一句话去表达一个意思呢?

比如有天某人站起来大喊:哎呀,我有了。

有了?有了的意思差不多就是怀孕的代名词了。让人误解的地方多了,不是你说的简化字而已。

2009/4/21 Moses <moses...@gmail.com>

LeeoNix

unread,
Apr 21, 2009, 10:49:52 PM4/21/09
to pon...@googlegroups.com
哟,连“信息熵”都出来了……是不是试图用其他“科学”的方式去统计汉字的简化?

汉字的简化就是一个自然标准的事情。以后会越来越简化,

最多需要1000个汉字就可以表达常用的意思。

这个不是一些人能妨碍的趋势。

即便没有国家去简化,人们自己也去简化,与其民间去简化的乱七八糟,还不如国家来简化。

大家都很是“高雅”的去讨论字形的繁复所表达的意思,

貌似忘了那些不认字,或者认字少的人。

比如餐,这个字,已经有人开始再用左上角那个小部位去表达餐这个意思了。

爱而无心,亲而不见?是不是再加一个:餐而无食?

这些不是某些人呼吁不要改就不改的,民间的大众自己去简化,

国家不来管,就会向先秦那样,各种各样的字了。国家需要强制一个标准。

还比如四处可见的“仃”车。大家都接受是停车了。

不容易“饱子”?这是貌似很懂的人写的错别字。

好像看的应该是哪个意思,但是民间的名字就是包子。

不要忘了,汉字是给我们大多数民众来用的,不是高雅人士来玩什么字面游戏的。

LeeoNix

unread,
Apr 21, 2009, 11:23:30 PM4/21/09
to pon...@googlegroups.com
汉字简化,就好比一个语言的标准化。

比方说C++标准化,C++标准委员会谁敢将现有的功能删除或者修改呢?除非C++不想继续下去了。

Python3.0一出来,不兼容Python2.6。问题就非常多。

标准一旦实施下去。即便反对,也就那样了。

记得以前我买过一款电吉他拾音器,代号为:Evolution,翻译为“革命”,是一款很经典的拾音器。

其实在英语Evolution也是革命,而在中国是Revolution。或许理解不同吧。

可Revolution有推翻以前的意思,而Evolution就表达进化的意思。

但,从这个Revolution。就可以看出很多中国人的心态。

我想,接受一个现实并不太难。

Alian

unread,
Apr 22, 2009, 8:00:25 AM4/22/09
to pon...@googlegroups.com
标准改来改去,会让很多人受害……
记得在小学的时候,我们年纪较大的老师就经常会写简得厉害的字,比如“仃”,当时还小,还以为是老师写错别字呢。也不知道他们学了那些简体字后,后来是怎么学回来的。
不过,实践是检验真理的惟一标准啊,有些人就是不见黄河不落泪,看到别人订的标准不爽……

2009/4/22 LeeoNix <leeo...@gmail.com>

Cao Yi

unread,
Apr 22, 2009, 12:59:42 PM4/22/09
to pon...@googlegroups.com
你举例的几个字都是二简字,我觉得不太合适。

汉字可以适当简化,但人为(尤其是政治性)
异化就实在是不应该了,现在的简化字却在很大程度上因为后者而出现的,所以想起来还是比较郁闷。


2009/4/22 LeeoNix <leeo...@gmail.com>

DaiZW

unread,
Apr 22, 2009, 9:13:15 PM4/22/09
to pon...@googlegroups.com
转篇文章, 如果真如梁文道所说汉字简化是为了推进汉字的拉丁化,
那么不简也罢

http://news.cjn.cn/cjsp/rd/200904/t917507.htm

梁文道:毛泽东为何力推简化字


自从今年两会有人提出分批废除简体字,重新推广繁体字,一 个困扰中国人达百年以上的老争议一下子就又成了大家关心的时髦话题。比起简繁之争,更有趣的其实是它背后的思潮转变;夸张点说,这种思潮的变化甚至与近年 “普世价值”对“中国特色”的讨论有隐隐呼应的关系,是中国民族意识崛起在另一层面的表现。

今天大家在辩论汉字繁简之争时,往往忽略了当年中国政府推 动简体字,除去扫盲等种种便利考虑之外,还有一个更长远更终级的目标:那就是汉字的拉丁化。早在1951年,毛泽东就曾指出:“文字必须改革,要走世界文 字共同的拼音方向”。这也就是当局推行汉语拼音方案的理由了,它不只可以为全国上下的普通话树立标准,还能让大家逐渐适应拼音文字,令它终有一日取传统汉 字而代之。也就是说,简体字只是一个过渡阶段,汉字的拉丁化才是现代汉字改革最后的目的地。

晚清以降,从世界语运动,国语罗马字运动,一直到汉字拉丁 化运动,各种废除传统汉字的激进方案层出不穷。而且他们的推手虽然政治立场迥异,但却有志一同,所据的理由也大致相似。例如钱玄同,他认为传统汉字“和现 代世界文化格不相入”,主张“学校从教字起直到研究最高深的学术,都应该采用拼音新字,而研究固有的汉字,则只为看古书之用”。又如瞿秋白,他更嫌白话文 运动的结果不彻底,无法做到完全的“文言合一”,于是激烈地说:“要写真正的白话文,要能够建立真正的现代中国文,就一定要破除汉字采用罗马字母。我们可 以把一切用汉字写的中国文叫‘旧中国文’或者汉文,而把罗马字母写的中国文叫作‘新中国文 ’。或者简直叫作‘中国文’”。

为什么包括毛泽东在内的这批名人如此痛恨汉字,非欲除之而 后快呢(尽管他们一辈子也在使用繁体字)?用现在的说法,那是“受到了西方的毒害”。当年的语言学家受到粗俗版达尔文主义的影响,认为全人类的文字系统都 可以列进一条单线进化的轨迹,从图画文字到象形文字,再从象形文字到表意文字,最后则进化至表音文字。汉字是种表意文字,比起拼音的西方文字,实在落后太 多。在那年头,中国知识界为了寻找中国落后的原因,真可说是上穷碧落下黄泉,于是连沿用数千年的汉字也被他们拿出来当作革命的对象,似乎汉字不改就不得富 强。

如果说真有什么东西极具“中国特色”,不该轻易让步于“西 方主导的普世价值”,那一定就是传统的汉字了。由于汉语以单音节为主,同音字的数量太多,所以汉字的发展走向了表意的道路,着重字形构义,以免同音字造成 误会与不便,这种特征和语音辨义的拼音文字大异其趣,开发了拼音文字所不具备的视像世界。 欧洲学者很早就已经注意到这一点,并且据此联想推论出种种中西文化差异的玄谈,很富“东方主义”色彩。他们有的嫌中国思维方式过度联接自然现实,所以缺乏 逻辑推理能力;有的则反过来说汉字形体只需三两个具体模件,就能表达极抽象的意念,是种适合哲学的文字(例如现代普通语言学之父洪堡特,他曾赞誉汉字形体 “自有哲学工夫在其中”。无论扬抑,他们都晓得汉字是欧洲人的异己,与拼音文字完全是两种不同的语言世界。

我的老师,哲学家关子尹先生就曾在《论汉语古文字中的哲学 工夫》一文中以“幾”为例,说明汉字抽象思维的特点:“‘幾’的金文从从戍,从二幺,即两条细丝并列之形,意会一些‘细微之极’的事情或事态,《周易·系 辞上》中‘夫易,圣人所以极深而研幾’中的‘幾’,即是此意;‘戍’则解持戈防守。二者合起来,便意会吾人对‘细微之极’的事象保持警惕。”一个“幾” 字,在中国哲学里的重要,真可以“微言大义”形容。“例如《周易·系辞下》中有‘知幾其神乎 ’、‘其知幾乎,幾者動之微,吉之先見者也。君子見幾而作,不俟終日’等语,很清楚的道出了‘幾’的认识与掌握于世道人生的重要。”又如《尚书·大禹 谟》:“‘人心惟危,道心惟微,惟精惟一,允执厥中’这后世号称‘十六字心传’的经典名句,因为此中提到的‘危’和‘微’,正是‘幾’一字从从戍的要旨所 在。”为什么一个字就能表达如此精湛深微的想法呢?这正是汉字以形构义的结果。

假如真把汉字拉丁化,变成一套拼音文字,不仅会造成一字多 义等种种实际的麻烦,更有可能改变了汉语思维世界的特质。我无意在此比附汉字拉丁化和汉字简化同样会遇上的问题,因为我不想正面介入当前的繁简之争。我感 兴趣的,始终是当年中国知识界改革汉字呼声背后的动力,到底是什么使得他们宁愿中断汉语思维本色的传统,也要奋力推动一场惊天动地的语言规划呢?

与今日大谈“中国特色”的情况相反,早辈中国知识界中的“ 进步分子”以粗糙的演化论为世界观基础,把他们心目中的“西方”视为普世人类文明的最高阶段,它既高级又普世,我等不得不从。包括共产主义者在内的左派, 尤其用心于旧中国的改造甚至扬弃,尤其钟情于普世大同的国际情怀。从“全世界无产阶级联合起来”的政治口号,一直到汉字拉丁化的倡议,尽见这种心意的急 切。所以蒋介石虽也曾动过简化汉字的念头,但始终不及共产党人的坚持决绝,未能真正推行革命大计。

然而,这么说还是太过简单,很容易让人以为那些“进步分子”只是盲目追求西化,从而忽略了汉字革命里头的复杂面向。

首先,汉字拉丁化的主张和白话文运动都有一个共同的前提, 那就是语言优先于文字,声音优先于字形。之所以要读写白话文,是为了“我手写我口”。不只要让我手上的文字臣服于我口中的语言;更要一反古代文言分离的传 统,达致言文一致的境界。瞿秋白和钱玄同力主汉字拉丁化,其实是这种想法的合理延伸:既然要我手写我口,那么我使用的文字就不该是表意文字,而是能彻底地 透明地传达语音的表音文字。如果借用法国哲学家德里达的说法,这实在是一种非常西方的 “ 逻各斯中心主义 ”(logocentrism),以语音为绝对根源的玄妙形上学。

但是,如此激进的西化方案却又吊诡地服务了建国的目的。因 为要真正做到我手写我口,真正实现汉字拉丁化的长程目标,我们说的语言就不能不统一;否则大家按照各自方言不同发音拼写出来的文字又如何能通行全国?所 以,我们不能只是改变书面语,也不能只是改造汉字,还要同时推行遍及全中国的“国语”或“普通话”,使中国人先说同一种语言,再以此为基础写出同一种文 字。

以往的中国人虽有不同方言,却能凭脱离口语的文言文彼此沟 通,而且还发展出广被东亚的汉字文化圈。从日本、朝鲜一直到越南,莫不在汉字的影响范围之内。可是和这种汉字文化圈相适应的“天下观”,却与现代东传而来 的民族国家观念有矛盾。按照现代民族主义的常规,一个独立的民族国家必须有统一而标准的国语,又必须有能够准确表达这套国语的文字系统。所以除了日本保留 部分汉字,朝鲜和越南都先后放弃了汉字,按自己的国语改采一套新造的拼音文字(就连日本也曾有过完全弃绝汉字的“新国语运动”)。至于中国,白话文运动和 国语运动更是民族国家建立计划的一部分。可别忘了,自清末开始,“中国不算是一个国家”和“中国人是一盘散沙”的哀叹就已渐成共识。要让中国人团结起来, 语言统一是极其必要的;要让中国人没有内在的区隔,把本属士绅阶层的书写能力交还给大众,也是不可避免的。白话文的推行,汉字的改革,以及标准普通话的成 立,全是中国建成民族国家的核心工程。

虽然这样的叙述太过简略粗糙, 不过我们还是可以了解到现代汉字改造计划背后的种种张力。它不单单是为了扫盲(其实,即便扫除文盲也是现代民族国家建立过程中的常见步骤),更是为了建立 一个新中国,把中国从过去的“天下中心”变成现代民族国家之林的一员。问题是外来的民族主义思潮总是要求我们统一国语,并以语言驾驭文字,仿效西方民族国 家在语言上的种种规划。但这种举措却与传统中国文言分离,以文字形体为思维核心的现实差得太远。这是现代民族主义不可排解的内在紧张,一方面想要树立自 我,另一方面却不得不跟随现成的模式;每一个民族国家都要宣称自己的独特,但每一个国家宣称自己独特的方法却是一模一样的。围绕汉字汉语的种种争议正源自 这种深层的矛盾:如果它要成为一套现代的民族国家语文,它就必须放弃自己固有的特色;如果它要保持字形构义、言文分离的传统,就不得不违反现代民族主义的 惯见模式。所以语言和文字的问题总会特别敏感地引起中国人的兴趣,从媒体上的方言和口音之争,到汉字该不该回复繁体的论战,再小的涟漪下面都是汹涌矛盾的 暗流。昔日我们以改革汉字为代价,换回民族国家大舞台的入场券,于是留下了难忘的创口和难解的矛盾,与现代中国建立过程中的各种耻辱一起进入集体记忆。今 天我们自觉强盛,自然就有抹除伤口的冲动,以回复汉字原貌为崛起象征。近年有不少学者重提古人的“天下”秩序,觉得它是以民族国家为基石的“国际”秩序外 的另一选择。把“天下”的重现和汉字的复原这两种提法放在一起并观,实在是件别有兴味的事。



2009/4/22 LeeoNix <leeo...@gmail.com>

Tiny fool

unread,
Apr 22, 2009, 10:18:57 PM4/22/09
to pon...@googlegroups.com
汉字在过去确有拉丁化的思潮,这个倒不是什么谜案,很多人都知道。我们使用的现代汉语有几种来源,包括中国古代的白话文,五四时期从日语中借来的大量双字词,中国文言文,等等。如果一切都以古代的好,原来的好,我们就没有干部,杂志、哲学、真菌、证券、政策、政党、政府、政治、知识、直观、直接、直觉、植物、纸型、指标、制裁、制约、质量、终点、仲裁、主笔、主观、主食、主体、主义、注射、专卖、资本、资料、自律、自然、自由、宗教、综合、总理、组阁、组合、组织、左翼、作品等等从日文引入的词了。
这里说的不仅仅是我们使用的现代汉语,也包括了港台的现代汉语,因为这些词都是五四前后引入的。

然后大陆有了简化字,港台没有进行简化。但是拉丁化的道路应该走到极限了,不会有继续下去的动力。电脑刚出现的时候,很多人以为这是拉丁化不可避免的开始,但是事实上我们的文化惯性已经战胜了拉丁化道路,我们在电脑上还是使用中文。

我从来不比较简化字好还是繁体字好,我只是说我们已经到这里了,我们几乎没有退路。文字承载这巨大的社会财富,再来一次大的文字改革,不管是往前往后,会造成无数书籍的重新整理和印刷,无数学校的教材推倒重来,无数的教师要重新培养,无数的人要重新学习汉字。

大中华迟早要统一,就算不是国家形式的统一,也是文化的统一。所以简繁在这里确实像是一个障碍,但是正如我一直强调的,文字语言的斗争,从来都不是科学性,理性的斗争,永远都是经济的斗争。英文现在遍布世界各地,是因为它好学好用么?不是,是因为英国当年日不落,征服了世界无数的殖民地。未来的简繁统一,需要两岸的大智慧,就像台海统一需要大智慧一样,什么是大智慧呢,就是认清国家,民族,文化发展的方向。大陆经济好,台港澳就学普通话,简化字,台港澳经济好,大陆人民就模仿港台腔,这不是政令可以左右,或者应该左右的。一切交给历史和经济的滚滚车轮好了。


2009/4/23 DaiZW <shinys...@gmail.com>

LeeoNix

unread,
Apr 22, 2009, 10:38:05 PM4/22/09
to pon...@googlegroups.com
呵呵,不是你觉得不合适就不给用的。

这个是不可阻止的。

当人们接受这个现实了之后也就无所谓什么郁闷不郁闷的了。

我父亲就给我说:你想玩书法,玩写作,那就去玩繁体字,没人干涉你。繁体字以后就会逐渐转变为“艺术”表达的一种,而不是现实应用,现实应用太不方便了。

我不是盲目崇拜我父亲的话,他毕竟研究了这么久,还是有些道理的。

2009/4/23 Cao Yi <iridi...@gmail.com>

LeeoNix

unread,
Apr 22, 2009, 10:41:31 PM4/22/09
to pon...@googlegroups.com
呵呵,这个例子很好。

还有外来字词的介入。这个不是所谓汉字是繁体还是简体所能干涉的了得。

我们平时用的打的,拜拜等等习惯用语,早已经超出了表意,已经不可避免的拉丁化了。

年轻人嘴里的御姐,萝莉等等这些,又成为了年轻人间的用语。

这都是无法避免的事情。

2009/4/23 Tiny fool <tiny...@gmail.com>

DaiZW

unread,
Apr 22, 2009, 10:56:00 PM4/22/09
to pon...@googlegroups.com
我个人对御姐,萝莉之类的和日本有关的外来词是有点抵制的

但是我知道这类词的传播是种必然,
所谓经济基础决定上层建筑,
经济的强大必然决定了文化的强势,
汉字的拉丁化也是这种规律下的产物.

但是作为文化上的"弱势群体"我们就必须束手待擒吗?

现代中国人缺的不是自卑, 而是坚持自己.


2009/4/23 LeeoNix <leeo...@gmail.com>

Tiny fool

unread,
Apr 22, 2009, 11:10:33 PM4/22/09
to pon...@googlegroups.com
禁来禁去其实就是自卑的表现,真正的自尊自豪的表现是,狂放肆意的唐朝风范,胡人夷狄满街跑,甚至可以做到大唐的节度使,文化有自信了,我们就会对外来的东西完全不抵触,因为我们相信我们的文化可以接受他们,但是更可以影响别国

胡紫薇,那次疯狂的闯CCTV发布会现场的时候说了句法国人的话“中国在能够输出价值观之前,不会成为一个大国。”,其实很有道理,输出价值观的前提,第一不要畏惧别人给你输出价值观,你没有自信和价值观的话,就算别人不输出你也会自己去学的。第二,你要真的强大,不仅经济军力强大,而且政治清明,万国敬仰。

2009/4/23 DaiZW <shinys...@gmail.com>

四不象

unread,
Apr 22, 2009, 11:20:51 PM4/22/09
to pon...@googlegroups.com
近代很多从日本引进的外来词倒是深得汉语的真髓:经济、政治、组织、纪律、哲学、抽象。而且日语中汉字都保留了古汉语的含义。

反倒是五四时期中国文人对于外来词的翻译显得不伦不类:
德先生(民主)、赛先生(科学)、费厄泼赖(公平竞争)

顺便一提:日本人明治维新后想用表音的假名代替汉字,由于实在难以阅读所以放弃了

----- Original Message -----
From: "DaiZW" <shinys...@gmail.com>
To: <pon...@googlegroups.com>
Sent: Thursday, April 23, 2009 10:56 AM
Subject: [TL] Re: {中文}{Unicode}为什么中文编码还在万码奔腾呢?


Iridium

unread,
Apr 22, 2009, 11:20:28 PM4/22/09
to pon...@googlegroups.com
接收既成事实,和认为它合理否,和将来是否改变,是两回事。

LeeoNix 写道:


> 呵呵,不是你觉得不合适就不给用的。
>
> 这个是不可阻止的。
>
> 当人们接受这个现实了之后也就无所谓什么郁闷不郁闷的了。
>
> 我父亲就给我说:你想玩书法,玩写作,那就去玩繁体字,没人干涉你。繁体字
> 以后就会逐渐转变为“艺术”表达的一种,而不是现实应用,现实应用太不方便了。
>
> 我不是盲目崇拜我父亲的话,他毕竟研究了这么久,还是有些道理的。
>

> 2009/4/23 Cao Yi <iridi...@gmail.com <mailto:iridi...@gmail.com>>

DaiZW

unread,
Apr 22, 2009, 11:21:42 PM4/22/09
to pon...@googlegroups.com
唐朝可以"胡人夷狄满街跑,甚至可以做到大唐的节度使"正是因为唐朝当时经济强盛万国来朝啊,
正如现代的美国,
所以才不担心被外来文化彻底同化.(注意"彻底"两个字)

现代中国有这样的实力吗?
没有.
所以中国人要做的不是对外来价值观的欣然接受,
而是记住本来的自己,
不要在自己再次变得强大之后发现自己已经和别人没什么两样了

如果这种事真的发生了, 西方文化千秋万代一统江湖, 中国不再是一个文化概念而是一个纯地域概念
你觉得那不是很可悲吗?


2009/4/23 Tiny fool <tiny...@gmail.com>:

Tiny fool

unread,
Apr 22, 2009, 11:22:35 PM4/22/09
to pon...@googlegroups.com
日语这些词都不是音译,你举的例子以音译为主,日语现在很多词,都是音译为主,比如camera,computer,在日语中的读法就是直接读出英语读音。我其实提倡纯外来词,就是由异国产生的概念,采用音译,因为这个概念原本在本国就不存在,意译很难表达合理的逻辑,而音译的结果是我们多了一个概念而已。典型的例子是沙发,这是典型的外来词音译的结果,也没有人觉得它有多么的不方便。但是如果最早的时候,我们把沙发译为软椅,柔软太师椅,其实反而会造成沙发式的软椅子和普通椅子加个软垫的概念之间的混淆。

计算机英语中例子也很多,如果最早我们很多概念完全不翻译,或者音译,或者保留英文,那么我们在寻找英文资料的时候就会方便很多。当然我是尊重历史派的,如果很多词已经有了翻译,就算是不好,只要已经约定俗成,我还是建议保持原样。

Tiny fool

unread,
Apr 22, 2009, 11:23:50 PM4/22/09
to pon...@googlegroups.com
又开始自卑了,你担心的事情不会发生的,此处省去解释10000字。

我要工作了,此坑不再参与了,哈哈。

2009/4/23 DaiZW <shinys...@gmail.com>

四不象

unread,
Apr 23, 2009, 12:01:09 AM4/23/09
to pon...@googlegroups.com
我举的这些词并非异域才有的概念,这些概念在本土也有,只是比较笼统而已,用本地词汇组合来统一表达岂不更好。
格致(格物致知)、物理(即物穷理)这些名词的创造使得外来词的意思更容易理解,总比费兹柯斯好吧。
即便是一些具体专属事物名词音译过来也会加上一点符合本土文化的后缀,比如吉普车、T恤衫

----- Original Message -----
From: "Tiny fool" <tiny...@gmail.com>
To: <pon...@googlegroups.com>
Sent: Thursday, April 23, 2009 11:22 AM
Subject: [TL] Re: {中文}{Unicode}为什么中文编码还在万码奔腾呢?


> 日语这些词都不是音译,你举的例子以音译为主,日语现在很多词,都是音译为主,比如camera,computer,在日语中的读法就是直接读出英语读音。我其实提倡纯外来词,就是由异国产生的概念,采用音译,因为这个概念原本在本国就不存在,意译很难表达合理的逻辑,而音译的结果是我们多了一个概念而已。典型的例子是沙发,这是典型的外来词音译的结果,也没有人觉得它有多么的不方便。但是如果最早的时候,我们把沙发译为软椅,柔软太师椅,其实反而会造成沙发式的软椅子和普通椅子加个软垫的概念之间的混淆。
> 计算机英语中例子也很多,如果最早我们很多概念完全不翻译,或者音译,或者保留英文,那么我们在寻找英文资料的时候就会方便很多。当然我是尊重历史派的,如果很多词已经有了翻译,就算是不好,只要已经约定俗成,我还是建议保持原样。
>
> 2009/4/23 四不象 <tabri...@gmail.com>

wctang

unread,
Apr 23, 2009, 4:59:31 AM4/23/09
to TopLanguage
原本繁簡只是字型上的差別,換字型,字辭變換就可以轉換,
因為多了這些 "面麵" 的假借,所以就需要語義和上下文的判別了。
對人的差別可能還好,對程式而言,差別就不小了。

結論依情況而有不同,簡化施行時也不知道現在用筆寫字的人越來越少,以書寫角度和以辨識角度結論可能就不同了。

而且萬碼奔騰的原因不只簡化字,像是新造字,人名冷僻字等,問題也很大。
不過,最大的問題應該是歷史因素和政治因素吧。

On 4月22日, 上午10時43分, LeeoNix <leeoni...@gmail.com> wrote:
> 你说的太多,但是妨碍阅读了没?并没有你说的那么危言耸听。
>
> 古文不还是有“通假”这个?在六书里面就有假借。就是这个意思。
>
> 你说的,差不多就符合这个假借的含义。
>
> 再说了,你举得这个例子是断章取义,我下面給你吃。你单独摘出来而已。
>
> 如果是剧情描写,夫妻之间的生活对话,女方会这么说:你饿了没?我下面给你吃?
>
> 是连续的两个疑问句。由前面带出后面的含义。我只是拿你说的这句话来解释,
>
> 如果你单独摘除这一句,当然歧义,但是现实中,谁会只说一句话去表达一个意思呢?
>
> 比如有天某人站起来大喊:哎呀,我有了。
>
> 有了?有了的意思差不多就是怀孕的代名词了。让人误解的地方多了,不是你说的简化字而已。
>

> 2009/4/21 Moses <moses.ma...@gmail.com>
>
> > 只是举个例子, 这样的例子太多了
>
> > 2009/4/21 Googol Lee <googol...@gmail.com>:

四不象

unread,
Apr 23, 2009, 5:25:53 AM4/23/09
to pon...@googlegroups.com
现在的简化字标准根本就不标准,有些字简化了,有些字却不简,部首简化也不统一,随心所欲,毫无规律。
比如说简化字“了”,“了解”简化了,“瞭望”却不简化。
现在简化字的标准很糟糕,并不系统也不完备,不过考虑到生米煮成熟饭,也只能将错就错下去了
Reply all
Reply to author
Forward
0 new messages