中科院分词系统ICTCLAS的官方网站已开通,请关注

21 views
Skip to first unread message

Sinboy Zhang

unread,
Apr 9, 2008, 5:22:37 AM4/9/08
to ictclas
张华平博士领导的ICTCLAS已开通官方网站,请大家关注,有什么问题也可以在论坛上交流

Nicky

unread,
Apr 9, 2008, 5:23:33 AM4/9/08
to ict...@googlegroups.com
能不能给出一个修改词库的说明。谢谢。

2008/4/9 Sinboy Zhang <iams...@gmail.com>:
张华平博士领导的ICTCLAS已开通官方网站,请大家关注,有什么问题也可以在论坛上交流



Sinboy Zhang

unread,
Apr 10, 2008, 2:34:26 AM4/10/08
to ict...@googlegroups.com
修改词库的前提是得有语料库,这一个很庞大的工程,不过如果分词系统应用在某些专门领域要求不高的话可以自己整理添加.
而修改词库本身是相对简单的事情,只要了解词典库的格式就可以了,关于些我的一篇文章有详细介绍,请参考:
在08-4-9,Nicky <nicky....@gmail.com> 写道:

myzjdx

unread,
Apr 23, 2008, 9:52:09 AM4/23/08
to ictclas
谢谢你的文章,分析得很详细,词典的结构有个大致的了解。
现在有一些疑问:词典WORD_ITEM结构那个nHandle有什么作用,只是当作一个词的句柄吗?如果自行添加词到词典中,调用
CDictionary::AddItem(char *sWord, int nHandle,int nFrequency)这个函数,那
nHandle如何确定,使自己自定义吗?还有那个词性如何添加,还是词性在另外的数据文件中?词性=nHandle??
谢谢!

On 4月10日, 下午2时34分, "Sinboy Zhang" <iamsin...@gmail.com> wrote:
> 修改词库的前提是得有语料库,这一个很庞大的工程,不过如果分词系统应用在某些专门领域要求不高的话可以自己整理添加.
> 而修改词库本身是相对简单的事情,只要了解词典库的格式就可以了,关于些我的一篇文章有详细介绍,请参考:http://blog.csdn.net/sinboy/archive/2006/03/15/624909.aspx
>
> 在08-4-9,Nicky <nicky.jco...@gmail.com> 写道:
>
>
>
>
>
> > 能不能给出一个修改词库的说明。谢谢。
>
> > 2008/4/9 Sinboy Zhang <iamsin...@gmail.com>:
>
> > > 张华平博士领导的ICTCLAS已开通官方网站,请大家关注,有什么问题也可以在论坛上交流
> > >www.ictclas.org或www.ictclas.cn- 隐藏被引用文字 -
>
> - 显示引用的文字 -

Sinboy Zhang

unread,
Apr 24, 2008, 5:56:25 AM4/24/08
to ict...@googlegroups.com
nHandle其实指的就是词性,添加时你也可以自己定义词性,比如:np代表名词中的公园,只需要简单转换成整数就行了nHandle='n'*256+'p'

在08-4-23,myzjdx <myz...@gmail.com> 写道:

myzjdx

unread,
Apr 24, 2008, 10:10:28 AM4/24/08
to ictclas
完全明白!
谢谢!

On 4月24日, 下午5时56分, "Sinboy Zhang" <iamsin...@gmail.com> wrote:
> nHandle其实指的就是词性,添加时你也可以自己定义词性,比如:np代表名词中的公园,只需要简单转换成整数就行了nHandle='n'*256+'p-'
> > > - 显示引用的文字 -- 隐藏被引用文字 -
>
> - 显示引用的文字 -

zhym

unread,
May 23, 2008, 3:30:58 AM5/23/08
to ict...@googlegroups.com
2年了,做了一个项目,是ICTCLAS的C++改良版本,以为就过去了。想不到,还是无法逃脱对中文分词的纠缠,只有努力做出成绩了,不然就无法毕业了,身不由己好难受。
幸好有这么个优秀的团体,感觉还挺好
 
咱们这个团队似乎很久都没有更新了
 
现在的java版本分词有什么bug吗,可否给我介绍一下,一起讨论一下吧
Reply all
Reply to author
Forward
0 new messages