关于专业名词的分词

17 views
Skip to first unread message

dbears

unread,
Apr 6, 2009, 9:34:37 PM4/6/09
to NlpBamboo
首先非常感谢det...@gmail.com的无私,清明放假3天加放假前3天的训练一直没结束呵呵,真的好慢啊,有了
det...@gmail.com提供的结果,我终于看到了理想的分词效果...超级谢谢:)

看了分词的效果后,根据公司最近的一些需求,我向在分词的词库中能加上自定义的词库,不知道如何做?例如:“东风标致307”,“东风雪铁龙”等等专业
词库,再请教高人和各位老师了,因为公司在尝试这方面的应用,全文中文检索,大约是每年100万的数据,所以能希望有些自动或者半自动的分词提示以及主
题摘要的功能。

徐仁禄

unread,
Apr 6, 2009, 10:36:39 PM4/6/09
to nlpbamboo
我清明也试了几天  :
iter=99 ....
iter=100...
iter=101...
类似这一类 可是计算了了三天了最后啥也没出来
郁闷  我的本是T5470的CPU,2G内存。
哪位有现成的keyword、crf_pos的训练结果啊? 实在算不出来了....
 
2009-04-07

            徐仁禄
            诚信 激情 敬业
            Yahoo 口碑 工程技术部 SNS应用D组 
            邮件:renl...@alibaba-inc.com
            手机:15910957151
            工位:12F-D14
            分机:+86 659 86397

发件人: dbears
发送时间: 2009-04-07  09:34:39
收件人: NlpBamboo
抄送:
主题: 关于专业名词的分词

jianingy

unread,
Apr 6, 2009, 11:26:23 PM4/6/09
to NlpBamboo
可以把这些词直接加到语料后面就行。当然最好是能按照预料规范加一些句子,这样更有利于分词。

jianingy

unread,
Apr 6, 2009, 11:28:33 PM4/6/09
to NlpBamboo
POS如果是全量的话时间相当长,我们曾经用一个8G 8Core的机器算了2个星期左右。可以考虑减少POS的属性进行计算把不需要的属性去掉。

On Apr 7, 10:36 am, "徐仁禄" <xure...@gmail.com> wrote:
> 我清明也试了几天 :
> iter=99 ....
> iter=100...
> iter=101...
> 类似这一类 可是计算了了三天了最后啥也没出来
> 郁闷 我的本是T5470的CPU,2G内存。
> 哪位有现成的keyword、crf_pos的训练结果啊? 实在算不出来了....
>
> 2009-04-07
>

> 徐仁禄
> 诚信 激情 敬业
> Yahoo 口碑 工程技术部 SNS应用D组

> 邮件:renlu...@alibaba-inc.com


> 手机:15910957151
> 工位:12F-D14
> 分机:+86 659 86397
>

> 发件人: dbears
> 发送时间: 2009-04-07 09:34:39
> 收件人: NlpBamboo
> 抄送:
> 主题: 关于专业名词的分词
>
> 首先非常感谢det...@gmail.com的无私,清明放假3天加放假前3天的训练一直没结束呵呵,真的好慢啊,有了
> det...@gmail.com提供的结果,我终于看到了理想的分词效果...超级谢谢:)
> 看了分词的效果后,根据公司最近的一些需求,我向在分词的词库中能加上自定义的词库,不知道如何做?例如:"东风标致307","东风雪铁龙"等等专业
> 词库,再请教高人和各位老师了,因为公司在尝试这方面的应用,全文中文检索,大约是每年100万的数据,所以能希望有些自动或者半自动的分词提示以及主
> 题摘要的功能。
>

> spacer.gif
> < 1KViewDownload
>
> m_bgl.jpg
> 1KViewDownload
>
> tl.jpg
> 4KViewDownload
>
> t_bg.jpg
> 1KViewDownload
>
> m_bgr.jpg
> 1KViewDownload
>
> bg.jpg
> 1KViewDownload
>
> dl.jpg
> 1KViewDownload
>
> dr.jpg
> 2KViewDownload
>
> d_bg.jpg
> 1KViewDownload
>
> t_ml.jpg
> 1KViewDownload
>
> tr.jpg
> 4KViewDownload
>
> m_tl.jpg
> 1KViewDownload
>
> m_dr.jpg
> 1KViewDownload
>
> d_mr.jpg
> 2KViewDownload

张沈鹏

unread,
Apr 6, 2009, 11:28:50 PM4/6/09
to NlpBamboo

On Apr 7, 9:34 am, dbears <dbe...@126.com> wrote:

我上次写了一个抓取搜狗拼音输入法细胞词库的脚本
其中有一些词库就是专业词库
也许有用
http://groups.google.com/group/nlpbamboo/browse_thread/thread/855f79084df6ffda?hl=en

dbears

unread,
Apr 7, 2009, 1:43:18 AM4/7/09
to NlpBamboo

jianingy兄,小弟刚接触bamboo,不知道如何在语料后加,以及按照语料加句子,有api提供吗?

> > 题摘要的功能。- 隐藏被引用文字 -
>
> - 显示引用的文字 -

Reply all
Reply to author
Forward
0 new messages