{技术}{算法}{询问}中文词 转成 拼音

50 views
Skip to first unread message

lunar_lty

unread,
Jan 8, 2010, 5:01:56 AM1/8/10
to TopLanguage
课程需要,需要将已切分好的词语转化为拼音,询问:有没有这样的词典(开源的最好了)?
词语1--拼音1
词语2--拼音2
... ....
举例:
我们 women

张沈鹏

unread,
Jan 8, 2010, 5:13:31 AM1/8/10
to pon...@googlegroups.com

mosha chen

unread,
Jan 8, 2010, 5:14:10 AM1/8/10
to pon...@googlegroups.com
有 单个字 对应的拼音字典,网上可以搜的到的。
你在转化一下就可以

2010/1/8 lunar_lty <peng...@126.com>

张沈鹏

unread,
Jan 8, 2010, 5:14:23 AM1/8/10
to pon...@googlegroups.com

lunar_lty

unread,
Jan 8, 2010, 8:13:23 AM1/8/10
to TopLanguage
MS这个不是我想要的,类似的转化工具也有,大都是将句子转成拼音的,只是觉得他们做的不够好。如果要将一个句子转化为汉语拼音,首先得进行中文分词,
对吧?
我看了你介绍的拼音词典,里面只针对单个字,对一字多音的情况也没有相应的规则。比如:'长',有chang,zhang两种情况,'长'作动词
为'zhang',形容词为'chang',这点在你所述的词典里没有标明。

我使用的原始语料库,里面已经将每个句子以词语为单位切分好了,而我需要将切分好的词语转化为拼音,以进行模型的训练。
转化工作靠编写程序来完成,前提条件是有一个好的 词语->拼音 的词典。如果某开源软件直接实现了 词语->拼音 的转化而且在处理多音字时也表现的
好的话,那再好不过了。

Thank u all the same.


On Jan 8, 6:14 pm, 张沈鹏 <zsp...@gmail.com> wrote:
> 发错了
> 是这个http://code.google.com/p/pyzh/source/browse/#svn/trunk/zhutils/word/w...

gerry

unread,
Jan 10, 2010, 11:18:17 AM1/10/10
to TopLanguage
只有当你有对应的多音字语料库的时候才需要分词,然后按词语处理特殊发音
目前的大部分开源程序都没考虑多音字,所以都是单字转化

简单点是不是可以先单字转化,然后用替换纠正特殊读音

Scott Zhao

unread,
Jan 10, 2010, 9:01:06 PM1/10/10
to pon...@googlegroups.com
把中文词语转换为拼音的source太多, easy。
但是把拼音转换为中文词语的,就不容易了。

2010/1/11 gerry <henry...@gmail.com>

七夜 七连星

unread,
Jan 9, 2010, 9:21:22 AM1/9/10
to pon...@googlegroups.com
用word里面的拼音指南功能就可以了


--
七夜&七连星,你最真诚的朋友!
http://hi.baidu.com/qqwaqq

冯叶磊

unread,
Jan 10, 2010, 9:09:20 PM1/10/10
to pon...@googlegroups.com

Max Wang

unread,
Jan 11, 2010, 1:29:35 AM1/11/10
to pon...@googlegroups.com
我之前的做发,是先吧字符串转到gbk编码
gbk是按照拼音做的
所以很容易转化成拼音

2010/1/11 冯叶磊 <fen...@gmail.com>:

--
Max Wang

Beijing, China

lunar_lty

unread,
Jan 12, 2010, 12:24:33 AM1/12/10
to TopLanguage
恩,我也怎么想的。
但对于多音字的情况,需要有个多音字字典,而且多音字字典里面也必须建立相应的规则,这样才能利用程序来找到正确的拼音。

> > > 是这个http://code.google.com/p/pyzh/source/browse/#svn/trunk/zhutils/word/w...- Hide quoted text -
>
> - Show quoted text -

gerry

unread,
Jan 12, 2010, 5:38:32 AM1/12/10
to TopLanguage
举个例子:“汉语大词典2.0版共收入汉字20902个,复词 343307条,成语23649条”
词语的拼音库比单字的大太多,一般是不需要的
考虑到多音字在汉字中的比例其实很小,多音词组的数量估计不会超过万的量级
从几大输入法的表现来看应当是有现成的资源,
在搜狗,QQ 输入法中输入 yinhong(殷红) quezuo (确凿) 都会出现正确词组并提示拼音
谷歌也能给出正确词条,可惜不会纠正拼音

只是这样的处理办法在人名和古文这类单字语境中无效

> > > > 是这个http://code.google.com/p/pyzh/source/browse/#svn/trunk/zhutils/word/w...Hide quoted text -

Reply all
Reply to author
Forward
0 new messages