句读MM和RMM算法文件放出

40 views
Skip to first unread message

twinsant

unread,
Jun 25, 2009, 6:10:15 AM6/25/09
to 句读:开放的中文分词项目
http://code.google.com/p/judou/source/detail?r=22
同时测试hongqn同学推荐的用例:

工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作

结果如下:

-- Case 26 by atom_seg --
工 信 处 女 干 事 每 月 经 过 下 属 科 室 都 要 亲 口 交 代 24 口 交 换 机 等 技 术 性 器 件 的 安 装 工 作
-- Case 26 by mm_seg --
工 信 处女 干事 每月 经过 下属 科室 都要 亲口 交代 24 口交 换机 等 技术性 器件 的安 装 工作
-- Case 26 by rmm_seg --
工 信 处女 干事 每月 经过 下属 科室 都要 亲口 交代 24 口 交换机 等 技术性 器件 的 安装 工作

增加词条”工信处“后

-- Case 26 by atom_seg --
工 信 处 女 干 事 每 月 经 过 下 属 科 室 都 要 亲 口 交 代 24 口 交 换 机 等 技 术 性 器 件 的 安 装 工 作
-- Case 26 by mm_seg --
工信处 女干 事 每月 经过 下属 科室 都要 亲口 交代 24 口交 换机 等 技术性 器件 的安 装 工作
-- Case 26 by rmm_seg --
工 信 处女 干事 每月 经过 下属 科室 都要 亲口 交代 24 口 交换机 等 技术性 器件 的 安装 工作

有待大家改进那;-)

Qiangning Hong

unread,
Jun 25, 2009, 10:36:52 PM6/25/09
to ju...@googlegroups.com
看起来还是RMM的表现最好,只有一个“处女”弄错了 :)

2009/6/25 twinsant <twin...@gmail.com>:

--
Qiangning Hong

twinsant

unread,
Jun 25, 2009, 10:46:07 PM6/25/09
to ju...@googlegroups.com
:D,终于有hongqn兄回复了,俺还以为GoogleGroup的邮件内发也被屏蔽了那。。。

今天有空把这个句子的词图传上来。。。

2009/6/26 Qiangning Hong <hon...@gmail.com>

张沈鹏

unread,
Jun 25, 2009, 10:59:02 PM6/25/09
to ju...@googlegroups.com
>>> from mmseg import seg_txt
>>> a="""工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作"""
>>> for i in seg_txt(a):print i,
...
工信处 女 干事 每月 经过 下属 科室 都要 亲口 交代 24 口 交换机 等 技术性 器件 的 安装 工作
>>>


--- mmseg/data/words.dic (revision 21)
+++ mmseg/data/words.dic (working copy)
@@ -48092,7 +48092,6 @@
2 换掉
2 换文
2 换新
-2 换机
2 换来
2 换档
2 换毛
@@ -108815,6 +108814,8 @@
2 龟裂
2 龟鉴
2 龟鳖
+3 工信部
+3 工信处

twinsant

unread,
Jun 25, 2009, 11:06:59 PM6/25/09
to ju...@googlegroups.com
单纯的MM能得到这个效果?词典里有女干,和口交这两个词条不?

2009/6/26 张沈鹏 <zsp...@gmail.com>

张沈鹏

unread,
Jun 25, 2009, 11:09:45 PM6/25/09
to ju...@googlegroups.com
zuroc@aragorn ~/zspal/judou/tool/mmseg/mmseg/data $ svn info
Path: .
URL: https://judou.googlecode.com/svn/trunk/tool/mmseg/mmseg/data
Repository Root: https://judou.googlecode.com/svn
Repository UUID: 2b19d78c-24d0-11de-82e8-8d21a8f7b98a
Revision: 21
Node Kind: directory
Schedule: normal
Last Changed Author: zsp007
Last Changed Rev: 18
Last Changed Date: 2009-06-20 18:49:40 +0800 (Sat, 20 Jun 2009)

zuroc@aragorn ~/zspal/judou/tool/mmseg/mmseg/data $ cat words.dic |ack 女干
3 女干部

张沈鹏

unread,
Jun 25, 2009, 11:10:45 PM6/25/09
to ju...@googlegroups.com
zuroc@aragorn ~/zspal/judou/tool/mmseg/mmseg/data $ cat words.dic |ack 口交
2 口交
4 众口交赞
zuroc@aragorn

twinsant

unread,
Jun 25, 2009, 11:13:55 PM6/25/09
to ju...@googlegroups.com
那口、交换机和口交这两个词岐义算法如何处理?代码里用了何种辅助信息?

2009/6/26 张沈鹏 <zsp...@gmail.com>

张沈鹏

unread,
Jun 25, 2009, 11:24:16 PM6/25/09
to ju...@googlegroups.com
口 交换机

口交 换 机

规则1

取词少者

twinsant

unread,
Jun 26, 2009, 3:00:34 AM6/26/09
to ju...@googlegroups.com
词图已生成,可以直接到邮件组上传文件列表里看:
http://groups.google.com/group/judou/files

工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作.png

也可以直接看文件:
http://judou.googlegroups.com/web/%E5%B7%A5%E4%BF%A1%E5%A4%84%E5%A5%B3%E5%B9%B2%E4%BA%8B%E6%AF%8F%E6%9C%88%E7%BB%8F%E8%BF%87%E4%B8%8B%E5%B1%9E%E7%A7%91%E5%AE%A4%E9%83%BD%E8%A6%81%E4%BA%B2%E5%8F%A3%E4%BA%A4%E4%BB%A324%E5%8F%A3%E4%BA%A4%E6%8D%A2%E6%9C%BA%E7%AD%89%E6%8A%80%E6%9C%AF%E6%80%A7%E5%99%A8%E4%BB%B6%E7%9A%84%E5%AE%89%E8%A3%85%E5%B7%A5%E4%BD%9C.png?gda=4mZeM3MBAACFcRVYb8lpv0PKW8g2Uwjuz7lt2L4NK5hgblukrKh8zc3_pxeAa585skD-iByedeDYrjPR-FkLw6fbZ8q3R0v3xagxKOF6yGslFzMiMHkL5KSTWsSqEFeKhqHEheXvl3OrAmQEImzEE7ObC3JCaS-DPU-Q75gntlFAGMnzIKAuBLlacjmyz3pYs3PcFNY-TnR_S644nzQa_h4KZ0FM_AXkqyaM6LaNlntYmFqQ7du57A9h5oc-bTpXgGqbvkT_7tg0dP7Tn1-pZlVYMxrU_AHOKtJiivuroUeuj9dwsordng2BKk7eCfeQAfDsZhbVY1FRrIwA4liZQ00uwPNgEJQTs8GVzpXZVyBsQJzylqmAIkYa2bwiCDkUJvGp88B0TMivCNwBxHufahQlPeRAUPpPWO4B6-hDvN51s-GGmfmsXmSpeD6fEvGNw95izYb7HLN_zejRwe4UbtRZ5Rno7Ge9MrYifh3RmGHD4v9PaZfDexVi73jmlo822J6Z5KZsXFo&gsc=8cD_cQsAAAADOoIeN4Ol9IVHqGrP_1BT

简单解释下:
椭圆节点是词,^是字符串开始,$是字符串结尾。词旁边括号里的数值是词频(多数未统计学习出),节点连线上的数值是前后两个词连现的频次(利用搜索引擎统计),红实线为频次大于0的,黑虚线为频次为0的。

其实各种消歧算法不过是找到一种有向图权重标注方法,然后求解最优路径。

2009/6/26 twinsant <twin...@gmail.com>
Reply all
Reply to author
Forward
0 new messages