2009/5/26 mei...@gmail.com <mei...@gmail.com>:
> 个人观点:
> 规则分词为基础,统计方法进行判定并修正。我觉得这是一种比较好的分词方法,因为单一分词方法必然会存在某些方面的漏洞。
> 但两者的结合点在哪里?依据是什么?怎样才能保证统计方法对规则分词的结果能做出有效地判定及修正?
> >
>
--
弓长
孝文
、
王
http://zsp.javaeye.com/
虽然赵海的主页也有这类文章,但在不完全正确基础上再学习,虽然可以扩大知识领域但准确率就很难保证了。
2009/5/26 张沈鹏 <zsp...@gmail.com>:
效率问题总能解决的,CRF刚提出的时候,训练时间得多慢啊?现在呢?很多优化算法都可以用到CRF的训练上,加快训练速度。
上述只是个人观点,望大家多多参与讨论。
2009/5/26 Jimmy Ma <jimmy...@gmail.com>:
最大熵的训练速度好像比crf快不少
对于有很多训练语料时(比如几个G) 这个很重要
"""
基于有效子串标注的中文分词.pdf
"""
这个paper我看了的感觉就是 把一些词看作字 然后在用基于字符标注 分词
这样其实就是兼顾了 统计 和 规则
至于训练预料
我感觉
1.有一个基本的词库 和 有很多无标注的训练语料
2.通过统计方法等等 近可能复杂而精确的方式 在训练语料中分词
3.把这种分词出来的结果 拿去训练 一个 类似"基于有效子串标注的中文分词" 这种分词器 --> 这就是我们实际使用的分词器
而其中第二步 又可以分为
专业维度 的 领域词挖掘
和
时间维度 的 新词挖掘
可以用到一些 互信息,频繁集 统计来做
这种做法我觉得不错,因为就中文词语的组成规律来看,同一领域内的词语会拥有更多的统计规律可循
接着,在分词中,能否先对待分语句进行领域规划,就是先判断使用哪个领域的词语去分词,如果使用统计模型的话,那就是使用哪个领域的模型去分词。
是否考虑过这种分词过程?
2009/5/26 张沈鹏 <zsp...@gmail.com>:
> 再发一篇 以字分词 的pdf 以便参考
>
> >
>
恩
我的想法是
通过不同类别 的 训练语料
字符组合出现的频率差异
来统计出词库中没有的词
然后添加到词库
但是分词时还是用同一套程序
当然
针对领域的优化还是可以加入的
ICTCLAS2009版 在线演示 不就有好几个行业版本吗:)
=====================
另外可以考虑
单篇文章(或连续几篇)内 的 临时统计分词
以下面文章为演示
"""
蜘蛛流详解
只要是UD的玩家必定听说过蜘蛛流,这是一种历史悠久、流传甚广的战术,深受许多资深玩家及UD高手的喜爱,而象GOSTOP等顶级UD选手更是将蜘蛛流的优势发挥到了极至。而许多小鸟,刚刚上手的时候,可能有些朋友会对他们说,学UD要从学习蜘蛛流入手。蜘蛛流看似简单易学,因为兵种相对单一,操作起来似乎比较容易,而实则不然,蜘蛛流的精髓在于蜘蛛舞,而蜘蛛舞和爆蜘蛛根本就是两个不同的概念,小鸟们用的所谓蜘蛛流,实际上完全是单纯地在爆蜘蛛。针对蜘蛛流的基础我写了这个贴子,小鸟们可以看看想想试着去实践,不对的地方还望前辈们指出。
通常情况下,蜘蛛流具有以下优点:
1、远程穿刺攻击。意味着当你可以打得到对方的肉搏部队时,他却打不到你。在游戏的初期阶段,即二本升级完成以前,蜘蛛拥有所有初级兵种当中最远的射程(550),NE弓箭手射程升级之前为500,火枪为400,猎头者为450。蜘蛛的游丝式攻击极利于打带跑,即使你掉头跑开,已经喷出的蜘蛛丝还是会跟随对方行进很长一段距离,这样在初期追杀红血敌人就不至于贸然深入敌阵从而避免了不必要的伤亡。
2、空军自动诱捕。非常实用的技能,无魔法消耗并自动施放,一直以来此技能是许多种族空军的噩梦,有些空军被拖拽到地面以后仍然可以进行攻击,有些则不能。
3、高攻击力。可以自己去查查,蜘蛛的攻击力是不是所有初级兵种当中最高的,初级兵种,即2本之前就可以建造的兵种,狂暴猎头者不算,它的狂暴需要2本以后才可以升级。
4、单体蜘蛛具有钻地隐形技能,钻地同时迅速回血,此技能也可作为侦察用。
而蜘蛛流同时又存在以下缺点:
1、开局缓慢。开局不是一般的慢,简直是极其的慢,一旦碰上有些连门口的绿色CREEP点都懒得清就冲进你家狩猎农民的对手,蜘蛛流将打得很被动。
2、造价昂贵、木材消耗量大。一分钱一分货,具有初级兵种当中最高攻击力的蜘蛛,其造价也是所有初级兵种中最为昂贵的,215金子,40木头,3人口。所以蜘蛛流要求有3只小狗采木,2只的话也不能说完全不够,就是2本以后造建筑和升级技能的时候会十分紧张,而如果铁了心要打冰龙蜘蛛流,那么后期采木则需要4只小狗,当然在有地精实验室的地图上,买一台伐木机比多少狗都管用。
3、对阵型要求极其严格。这就是为什么许多已经脱离菜鸟阶段的高水平玩家仍然说自己用不好蜘蛛流的原因,至于具体的内容我会在下面讲。
(三)蜘蛛流的战术流程。
一、蜘蛛流的开局。
蜘蛛流开局的标志是坟场放下的时间极早,所以如果早期你在对方家里侦察到祭坛晚而坟场早,那么这个对手十有八九是要用蜘蛛流的打法。蜘蛛流的通常建筑顺序为:基地训练一侍僧,三个侍僧采集黄金,食尸鬼伐木,选中一个侍僧,先后建造地穴与坟场,第一个侍僧训练完成以后,立即开始训练第二个,中间无需停顿,第二个侍僧训练完成后2秒左右,金子即有150,木头的数量一般情况下也应该足够,如果金子不够的话那是你手太慢,立刻建造通灵塔,需要注意的是,坟场要建造在靠近树木的地方,而第一个通灵塔尽量建造在靠外围的地方,这是因为蜘蛛流开局缓慢,一旦被骚扰则十分被动,而这个塔建造完成以后要升级为冰塔,虽然升级要花钱,不过如果在这点小钱上吝啬的话很可能后期要追悔莫及——前提是你撑得到后期的话。地穴一旦建造完成,立即训练一个食尸鬼,通常,按照上面的建造顺序,地穴建造完成时,金子至少有90-100,如果没到,那还是你手太慢……资源一旦允许,尽快放下祭坛、第二个通灵塔和商店。开局时两个食尸鬼采木就可以了,这个食尸鬼训练结束时,坟场基本上建造完成,开始训练蜘蛛,一般情况下,英雄走出祭坛时,可以训练出2只蜘蛛,然后英雄可以带着两只蜘蛛出门MF,开局完成。此后,家里升级2级主基、补一个通灵塔,最好也能补一只狗伐木。
而根据首发英雄和主战英雄的不同,各种蜘蛛流的开局也存在着微小的差异:
1、DK蜘蛛流。
如前面所说,蜘蛛流开局十分缓慢。多数情况下,蜘蛛流的首发英雄为DK,主要由于蜘蛛造价昂贵(不象HU步兵,过渡期死就死了),在初期,UD是死不起蜘蛛的,所以需要DK的缠绕,中后期由于需要采用打带跑的办法,就要求蜘蛛有较高的移动速度,也需要仰仗DK的光环。DK出门之前要买一根巫术妖棍,不要吝惜这点钱,不然你真的会后悔,初期UD是死不起蜘蛛的,DK所有的魔法都需要用来给蜘蛛补血,而DK的魔法有限,UD初期又没有任何补魔力的措施,如果没有骷髅的存在,中立生物无疑会攻击蜘蛛或DK,DK可以给蜘蛛补血,而没人可以给DK补血,所以为DK购买一个巫术妖棍是十分必要的。
2、小强蜘蛛流。
由于蜘蛛流开局极其缓慢,所以初期兵力相对较弱,一旦碰上初期进攻性极强的对手,或是双方近点,很可能没等撑到成型就被压制住了,而地穴领主(俗称小强)的召唤腐尸甲虫技能可以在初期有效地弥补兵力上的不足,5只甲虫,2个蜘蛛,若干骷髅以及一个肉盾型的小强(也许该叫大强……),在初期已经算是规模还不错的部队了。不过地穴领主移动速度缓慢,而且初期万一碰上死追着你的蜘蛛打的对手,你就只能眼看着蜘蛛被杀而束手无策,不象DK可以补血,从而使对方对蜘蛛的攻击无效化,浪费对方的攻击时间。
3、LICH蜘蛛流。
极为罕见的一种以LICH作为首发英雄的蜘蛛流,通常见于同族大战,非同族战的情况下,使用这种打法的人,或是思路怪异的高手,或是不会玩的菜鸟,或是对LICH有着某种偏执喜爱的狂热分子比如在下我。LICH初期血虽少,不过由于其为远程英雄,所以不太容易被围杀。而根据LICH升级点数分配的不同又可分为两个支流,第一种是升NOVA和冰甲,中甲的蜘蛛流惧怕的是近战兵种,而冰甲如设为自动施放,则会施放在正在被攻击的目标身上,这样在理论上所有攻击蜘蛛的近战兵种都将受到减速作用,效果参考人族女巫缓慢术;第二种是升NOVA和黑暗祭礼,通常这种升级方式的LICH初期会买一个骷髅棒,没魔就吃骷髅,而骷髅如果召唤时间已经很长,与其等它自己散架不如吃了补魔,虽然LICH对于蜘蛛的血量没有支援,不过通过不断地吃骷髅可以保证多放许多个NOVA从而大大提升MF速度,而被人追击时也可以利用减速从容逃跑,到后期三英雄人手一根骷髅棍的时候LICH基本上就可以想吃就吃了,一个无限魔的LICH是极为恐怖的。
4、中立英雄蜘蛛流。
许多首发英雄之所以受到玩家青睐,是由于其具有召唤技能,可以很好地弥补初期兵力的不足,如ORC先知、HU大法师等,而1.17中酒馆的增加,许多种族则又出现了首发中立英雄的打法,而其中尤以兽王和炎魔为最。不过针对不死来说,由于不死玩家习惯了用DK的缠绕为己方英雄补血,所以经常还是选择首发本族英雄。实际上有多少个英雄就能产生多少种打法,而酒馆中具有两位不死族的中立英雄——黑暗游侠和深渊领主。黑暗游侠首发的话,第一技能可以考虑选择黑暗之箭,召唤骷髅来弥补初期兵力的不足,操作上需要注点意,当敌人只剩最后一点血量的时候,控制蜘蛛攻击其他单位,而将濒死的单位留给黑暗游侠。深渊领主首发的效果则不是很好,可以考虑作为次发及三发英雄。恐惧魔王没有提,因为使用他的情况相对较少。
"""
用
ICTCLAS2009版
在线演示分词
分为
""""
蜘蛛/n 流/v 详解/v
只要/c 是/vshi UD/x 的/ude1 玩/v 家/n 必定/d 听说/v 过/uguo 蜘蛛/n 流/ng ,/wd 这/rzv
是/vshi 一/m 种/q 历史/n 悠久/a 、/wn 流传/v 甚/dg 广/a 的/ude1 战术/n ,/wd 深受/v 许多/m
资深/b 玩/v 家/n 及/cc UD/x 高手/n 的/ude1 喜爱/vn ,/wd 而/cc 象/n GOSTOP/x
等/udeng 顶级/n UD/x 选手/n 更/d 是/vshi 将/p 蜘蛛/n 流/v 的/ude1 优势/n 发挥/v 到/v
了/ule 极/d 至/v 。/wj 而/cc 许多/m 小鸟/n ,/wd 刚刚/d 上手/vi 的/ude1 时候/n ,/wd
可能/v 有/vyou 些/q 朋友/n 会/v 对/p 他们/rr 说/v ,/wd 学/v UD/x 要/v 从/p 学习/v 蜘蛛/n
流入/v 手/n 。/wj 蜘蛛/n 流/v 看似/v 简单/a 易学/a ,/wd 因为/c 兵种/n 相对/d 单一/a ,/wd
操作/v 起来/vf 似乎/d 比较/d 容易/a ,/wd 而/cc 实/a 则/c 不然/c ,/wd 蜘蛛/n 流/v 的/ude1
精髓/n 在于/v 蜘蛛/n 舞/v ,/wd 而/cc 蜘蛛/n 舞/v 和/cc 爆/v 蜘蛛/n 根本/d 就/d 是/vshi
两/m 个/q 不同/a 的/ude1 概念/n ,/wd 小鸟/n 们/k 用/v 的/ude1 所谓/vn 蜘蛛/n 流/ng ,/wd
实际上/d 完全/ad 是/vshi 单纯/a 地/ude2 在/p 爆/v 蜘蛛/n 。/wj 针对/p 蜘蛛/n 流/v 的/ude1
基础/n 我/rr 写/v 了/ule 这个/rz 贴/v 子/ng ,/wd 小鸟/n 们/k 可以/v 看看/v 想想/v 试/v
着/uzhe 去/vf 实践/v ,/wd 不对/a 的/ude1 地方/n 还/d 望/v 前辈/n 们/k 指出/v 。/wj
通常/b 情况/n 下/f ,/wd 蜘蛛/n 流/v 具有/v 以下/f 优点/n :/wp
1/m 、/wn 远程/b 穿刺/v 攻击/vn 。/wj 意味着/v 当/p 你/rr 可以/v 打/v 得/ude3 到/v 对方/n
的/ude1 肉搏/v 部队/n 时/ng ,/wd 他/rr 却/d 打/v 不/d 到/v 你/rr 。/wj 在/p 游戏/n
的/ude1 初期/f 阶段/n ,/wd 即/v 二/m 本/q 升级/vi 完成/v 以前/f ,/wd 蜘蛛/n 拥有/v 所有/b
初级/b 兵种/n 当中/f 最/d 远/a 的/ude1 射程/n (/wkz 550/m )/wky ,/wd NE/x 弓箭/n
手/n 射程/n 升级/vi 之前/f 为/v 500/m ,/wd 火枪/n 为/p 400/m ,/wd 猎/vg 头/n 者/k
为/p 450/m 。/wj 蜘蛛/n 的/ude1 游丝/n 式/k 攻击/v 极/d 利于/v 打/v 带/v 跑/v ,/wd
即使/c 你/rr 掉头/vi 跑/v 开/v ,/wd 已经/d 喷/v 出/vf 的/ude1 蜘蛛/n 丝/n 还/d 是/vshi
会/v 跟随/v 对方/n 行进/vi 很/d 长/a 一/m 段/q 距离/n ,/wd 这样/rzv 在/p 初期/f 追/v 杀/v
红/a 血/n 敌人/n 就/d 不至于/d 贸然/d 深入/a 敌阵/n 从而/c 避免/v 了/ule 不/d 必要/a 的/ude1
伤亡/vn 。/wj
2/m 、/wn 空军/n 自动/d 诱捕/v 。/wj 非常/d 实用/a 的/ude1 技能/n ,/wd 无/v 魔法/n 消耗/vn
并/cc 自动/d 施放/v ,/wd 一直/d 以/p 来/vf 此/rzs 技能/n 是/vshi 许多/m 种族/n 空军/n
的/ude1 噩梦/n ,/wd 有些/rz 空军/n 被/pbei 拖/v 拽/v 到/v 地面/n 以后/f 仍然/d 可以/v
进行/vx 攻击/vn ,/wd 有些/rz 则/d 不/d 能/v 。/wj
3/m 、/wn 高/a 攻击力/n 。/wj 可以/v 自己/rr 去/vf 查/v 查/v ,/wd 蜘蛛/n 的/ude1 攻击力/n
是/vshi 不/d 是/vshi 所有/b 初级/b 兵种/n 当中/f 最高/a 的/ude1 ,/wd 初级/b 兵种/n ,/wd
即/v 2/m 本/q 之前/f 就/d 可以/v 建造/v 的/ude1 兵种/n ,/wd 狂暴/a 猎/vg 头/n 者/k 不/d
算/v ,/wd 它/rr 的/ude1 狂暴/a 需要/n 2/m 本/q 以后/f 才/d 可以/v 升级/vi 。/wj
4/m 、/wn 单体/n 蜘蛛/n 具有/v 钻/v 地/n 隐形/b 技能/n ,/wd 钻/v 地/ude2 同时/d 迅速/ad
回/v 血/n ,/wd 此/rzs 技能/n 也/d 可/v 作为/v 侦察/v 用/v 。/wj
而/cc 蜘蛛/n 流/v 同时/c 又/d 存在/v 以下/f 缺点/n :/wp
1/m 、/wn 开局/n 缓慢/a 。/wj 开局/n 不/d 是/vshi 一般/a 的/ude1 慢/a ,/wd 简直/d
是/vshi 极其/d 的/ude1 慢/a ,/wd 一旦/d 碰上/v 有些/rz 连/ulian 门口/s 的/ude1 绿色/n
CREEP/x 点/n 都/d 懒得/v 清/tg 就/d 冲/v 进/vf 你家/r 狩猎/vn 农民/n 的/ude1 对手/n
,/wd 蜘蛛/n 流/v 将/d 打/v 得/ude3 很/d 被动/a 。/wj
2/m 、/wn 造价/n 昂贵/a 、/wn 木材/n 消耗量/n 大/a 。/wj 一分/t 钱/n 一分/t 货/n ,/wd
具有/v 初级/b 兵种/n 当中/f 最高/a 攻击力/n 的/ude1 蜘蛛/n ,/wd 其/rz 造价/n 也/d 是/vshi
所有/b 初级/b 兵种/n 中/f 最为/d 昂贵/a 的/ude1 ,/wd 215/m 金子/n ,/wd 40/m 木头/n
,/wd 3/m 人口/n 。/wj 所以/c 蜘蛛/n 流/v 要求/v 有/vyou 3/m 只/q 小/a 狗采木/nr ,/wd
2/m 只/q 的/ude1 话/n 也/d 不/d 能/v 说/v 完全/ad 不/d 够/v ,/wd 就/d 是/vshi 2/m
本/q 以后/f 造/v 建筑/n 和/cc 升级/vn 技能/n 的/ude1 时候/n 会/v 十分/d 紧张/a ,/wd 而/cc
如果/c 铁/n 了/ule 心/n 要/v 打/v 冰/n 龙/nr1 蜘蛛/n 流/ng ,/wd 那么/c 后期/t 采/v 木/ng
则/d 需要/v 4/m 只/q 小/a 狗/n ,/wd 当然/d 在/p 有/vyou 地/n 精/a 实验室/n 的/ude1
地图/n 上/f ,/wd 买/v 一/m 台/q 伐木/vi 机/ng 比/p 多少/ry 狗/n 都/d 管用/a 。/wj
3/m 、/wn 对阵/vn 型/k 要求/v 极其/d 严格/a 。/wj 这/rzv 就/d 是/vshi 为什么/ryv 许多/m
已经/d 脱离/v 菜/n 鸟/n 阶段/n 的/ude1 高/a 水平/n 玩/v 家/n 仍然/d 说/v 自己/rr 用/p 不好/a
蜘蛛/n 流/v 的/ude1 原因/n ,/wd 至于/p 具体/a 的/ude1 内容/n 我/rr 会/v 在/p 下面/f 讲/v
。/wj
(/wkz 三/m )/wky 蜘蛛/n 流/v 的/ude1 战术/n 流程/n 。/wj
一/m 、/wn 蜘蛛/n 流/v 的/ude1 开局/n 。/wj
蜘蛛/n 流/v 开局/vi 的/ude1 标志/n 是/vshi 坟/n 场/qv 放/v 下/f 的/ude1 时间/n 极/d 早/a
,/wd 所以/c 如果/c 早期/t 你/rr 在/p 对方/n 家里/s 侦察/v 到/v 祭坛/n 晚/tg 而/cc 坟/n
场/qv 早/a ,/wd 那么/c 这个/rz 对手/n 十有八九/nl 是/vshi 要/v 用/p 蜘蛛/n 流/v 的/ude1
打法/n 。/wj 蜘蛛/n 流/v 的/ude1 通常/b 建筑/n 顺序/n 为/v :/wp 基地/n 训练/v 一/m 侍/vg
僧/ng ,/wd 三/m 个/q 侍/vg 僧/ng 采集/v 黄金/n ,/wd 食/v 尸/ng 鬼/n 伐木/vi ,/wd
选中/v 一个/mq 侍/vg 僧/ng ,/wd 先后/d 建造/v 地穴/n 与/cc 坟/n 场/qv ,/wd 第一/m 个/q
侍/vg 僧/ng 训练/v 完成/v 以后/f ,/wd 立即/d 开始/v 训练/v 第二/m 个/q ,/wd 中间/f 无需/v
停顿/vi ,/wd 第二/m 个/q 侍/vg 僧/ng 训练/v 完成/v 后/f 2秒/t 左右/f ,/wd 金子/n 即/d
有/vyou 150/m ,/wd 木头/n 的/ude1 数量/n 一般/a 情况/n 下/f 也/d 应该/v 足够/v ,/wd
如果/c 金子/n 不够/a 的/ude1 话/n 那/rzv 是/vshi 你/rr 手/n 太/d 慢/a ,/wd 立刻/d 建造/v
通/v 灵塔/n ,/wd 需要/v 注意/v 的/ude1 是/vshi ,/wd 坟/n 场/qv 要/v 建造/v 在/p 靠近/v
树木/n 的/ude1 地方/n ,/wd 而/cc 第一/m 个/q 通/a 灵塔/n 尽量/d 建造/v 在/p 靠/v 外围/f
的/ude1 地方/n ,/wd 这/rzv 是/vshi 因为/p 蜘蛛/n 流/v 开局/n 缓慢/a ,/wd 一旦/d 被/pbei
骚扰/v 则/c 十分/d 被动/a ,/wd 而/cc 这个/rz 塔/n 建造/v 完成/v 以后/f 要/v 升级/vi 为/p
冰塔/n ,/wd 虽然/c 升级/vi 要/v 花钱/vi ,/wd 不过/c 如果/c 在/p 这/rzv 点/qt 小钱/n 上/f
吝啬/a 的/ude1 话/n 很/d 可能/v 后期/f 要/v 追悔莫及/vl ——/wp 前提/n 是/vshi 你/rr 撑/v
得到/v 后期/f 的/ude1 话/n 。/wj 地穴/n 一旦/d 建造/v 完成/v ,/wd 立即/d 训练/v 一个/mq 食/v
尸/ng 鬼/n ,/wd 通常/d ,/wd 按照/p 上面/f 的/ude1 建造/vn 顺序/n ,/wd 地穴/n 建造/v
完成/v 时/ng ,/wd 金子/n 至少/d 有/vyou 90-100/m ,/wd 如果/c 没/d 到/v ,/wd 那/rzv
还/d 是/vshi 你/rr 手/n 太/d 慢/a …/ws …/ws 资源/n 一旦/d 允许/v ,/wd 尽快/d 放下/v
祭坛/n 、/wn 第二/m 个/q 通/a 灵塔/n 和/cc 商店/n 。/wj 开局/n 时/ng 两/m 个/q 食/v 尸/ng
鬼/n 采/v 木/ng 就/d 可以/v 了/y ,/wd 这个/rz 食/ng 尸/ng 鬼/n 训练/vn 结束/v 时/ng
,/wd 坟/n 场/qv 基本/a 上/f 建造/v 完成/v ,/wd 开始/v 训练/vn 蜘蛛/n ,/wd 一般/a 情况/n
下/f ,/wd 英雄/n 走/v 出/vf 祭坛/n 时/ng ,/wd 可以/v 训练/v 出/vf 2/m 只/q 蜘蛛/n ,/wd
然后/c 英雄/n 可以/v 带/v 着/uzhe 两/m 只/q 蜘蛛/n 出门/vi MF/x ,/wd 开局/vi 完成/v 。/wj
此后/t ,/wd 家里/s 升级/vi 2/m 级/q 主/ag 基/ng 、/wn 补/v 一个/mq 通/a 灵塔/n ,/wd
最/d 好/a 也/d 能/v 补/v 一/m 只/q 狗/n 伐木/vi 。/wj
而/cc 根据/p 首发/v 英雄/n 和/cc 主/n 战/vg 英雄/n 的/ude1 不同/a ,/wd 各种/rz 蜘蛛/n 流/v
的/ude1 开局/n 也/d 存在/v 着/uzhe 微小/a 的/ude1 差异/n :/wp
1/m 、/wn DK/x 蜘蛛/n 流/v 。/wj
如/v 前面/f 所/usuo 说/v ,/wd 蜘蛛/n 流/v 开局/n 十分/d 缓慢/a 。/wj 多数/m 情况/n 下/f
,/wd 蜘蛛/n 流/v 的/ude1 首发/vn 英雄/n 为/v DK/x ,/wd 主要/d 由于/p 蜘蛛/n 造价/n 昂贵/a
(/wkz 不/d 象/ng HU/x 步兵/n ,/wd 过渡期/n 死/v 就/d 死/v 了/ule )/wky ,/wd 在/p
初期/f ,/wd UD/x 是/vshi 死/v 不/d 起/vf 蜘蛛/n 的/ude1 ,/wd 所以/c 需要/v DK/x
的/ude1 缠绕/v ,/wd 中后期/t 由于/p 需要/v 采用/v 打/v 带/v 跑/v 的/ude1 办法/n ,/wd 就/d
要求/v 蜘蛛/n 有/vyou 较/d 高/a 的/ude1 移动/vn 速度/n ,/wd 也/d 需要/v 仰仗/v DK/x
的/ude1 光环/n 。/wj DK/x 出门/vi 之前/f 要/v 买/v 一/m 根/q 巫术/n 妖/n 棍/ng ,/wd
不要/d 吝惜/v 这/rzv 点/qt 钱/n ,/wd 不然/c 你/rr 真/a 的/ude1 会/v 后悔/v ,/wd 初期/f
UD/x 是/vshi 死/v 不/d 起/vf 蜘蛛/n 的/ude1 ,/wd DK/x 所有/b 的/ude1 魔法/n 都/d
需要/v 用/v 来/vf 给/v 蜘蛛/n 补血/v ,/wd 而/cc DK/x 的/ude1 魔法/n 有限/a ,/wd UD/x
初期/f 又/d 没有/v 任何/rz 补/v 魔力/n 的/ude1 措施/n ,/wd 如果/c 没有/v 骷髅/n 的/ude1
存在/vn ,/wd 中/f 立/v 生物/n 无疑/d 会/v 攻击/vn 蜘蛛/n 或/c DK/x ,/wd DK/x 可以/v
给/p 蜘蛛/n 补血/v ,/wd 而/cc 没/v 人/n 可以/v 给/v DK/x 补血/v ,/wd 所以/c 为/v DK/x
购买/v 一个/mq 巫术/n 妖/n 棍/ng 是/vshi 十分/d 必要/a 的/ude1 。/wj
2/m 、/wn 小/a 强/a 蜘蛛/n 流/v 。/wj
由于/p 蜘蛛/n 流/v 开局/n 极其/d 缓慢/a ,/wd 所以/c 初期/f 兵力/n 相对/d 较/d 弱/a ,/wd
一旦/d 碰上/v 初期/f 进攻/v 性/k 极/d 强/a 的/ude1 对手/n ,/wd 或是/c 双方/n 近/a 点/qt
,/wd 很/d 可能/v 没/v 等/udeng 撑/v 到/v 成型/vi 就/d 被/pbei 压制/v 住/vi 了/y ,/wd
而/cc 地穴/n 领主/n (/wkz 俗称/v 小/a 强/vg )/wky 的/ude1 召唤/vn 腐/vg 尸/ng 甲虫/n
技能/n 可以/v 在/p 初期/f 有效/a 地/ude2 弥补/v 兵力/n 上/f 的/ude1 不足/an ,/wd 5/m 只/q
甲虫/n ,/wd 2/m 个/q 蜘蛛/n ,/wd 若干/m 骷髅/n 以及/cc 一个/mq 肉/n 盾/q 型/k 的/ude1
小强/nr2 (/wkz 也许/d 该/v 叫/vi 大强/nr2 …/ws …/ws )/wky ,/wd 在/p 初期/f 已经/d
算是/v 规模/n 还/d 不错/a 的/ude1 部队/n 了/y 。/wj 不过/c 地穴/n 领主/n 移动/vn 速度/n 缓慢/a
,/wd 而且/c 初期/f 万一/d 碰上/v 死/v 追/v 着/uzhe 你/rr 的/ude1 蜘蛛/n 打/v 的/ude1
对手/n ,/wd 你/rr 就/d 只能/v 眼看/v 着/uzhe 蜘蛛/n 被/pbei 杀/v 而/cc 束手无策/vl ,/wd
不/d 象/ng DK/x 可以/v 补血/v ,/wd 从而/c 使/v 对方/n 对/p 蜘蛛/n 的/ude1 攻击/vn 无效/vd
化/v ,/wd 浪费/v 对方/n 的/ude1 攻击/vn 时间/n 。/wj
3/m 、/wn LICH/x 蜘蛛/n 流/v 。/wj
极为/d 罕见/a 的/ude1 一/m 种/q 以/p LICH/x 作为/v 首发/v 英雄/n 的/ude1 蜘蛛/n 流/ng
,/wd 通常/d 见于/v 同/p 族/ng 大战/n ,/wd 非/b 同/p 族/ng 战/ng 的/ude1 情况/n 下/f
,/wd 使用/v 这种/r 打法/n 的/ude1 人/n ,/wd 或是/c 思路/n 怪异/a 的/ude1 高手/n ,/wd
或是/c 不/d 会/v 玩/v 的/ude1 菜/n 鸟/n ,/wd 或是/c 对/p LICH/x 有着/v 某种/rz 偏执/a
喜爱/vn 的/ude1 狂热/an 分子/n 比如/v 在/p 下/f 我/rr 。/wj LICH/x 初期/f 血/n 虽/c 少/a
,/wd 不过/c 由于/p 其/rz 为/p 远程/b 英雄/n ,/wd 所以/c 不/d 太/d 容易/a 被/pbei 围/v
杀/v 。/wj 而/cc 根据/p LICH/x 升级/vn 点数/n 分配/vn 的/ude1 不同/a 又/d 可/v 分为/v
两/m 个/q 支流/n ,/wd 第一/m 种/q 是/vshi 升/v NOVA/x 和/cc 冰/n 甲/Mg ,/wd 中/b
甲/n 的/ude1 蜘蛛/n 流/v 惧怕/v 的/ude1 是/vshi 近战/v 兵种/n ,/wd 而/cc 冰甲如/nr 设/v
为/v 自动/d 施放/v ,/wd 则/c 会/v 施放/v 在/p 正在/d 被/pbei 攻击/v 的/ude1 目标/n 身上/s
,/wd 这样/rzv 在/p 理论/n 上/f 所有/b 攻击/vn 蜘蛛/n 的/ude1 近战/v 兵种/n 都/d 将/d 受到/v
减速/vi 作用/n ,/wd 效果/n 参考/vn 人/n 族/ng 女巫/n 缓慢/a 术/ng ;/wf 第二/m 种/q
是/vshi 升/v NOVA/x 和/cc 黑暗/a 祭礼/n ,/wd 通常/d 这种/r 升级/vn 方式/n 的/ude1
LICH/x 初期/f 会/v 买/v 一个/mq 骷髅/n 棒/ng ,/wd 没/d 魔/ag 就/d 吃/v 骷髅/n ,/wd
而/cc 骷髅/n 如果/c 召唤/v 时间/n 已经/d 很/d 长/a ,/wd 与其/c 等/v 它/rr 自己/rr 散架/vi
不如/v 吃/v 了/ule 补/v 魔/ag ,/wd 虽然/c LICH/x 对于/p 蜘蛛/n 的/ude1 血/n 量/n 没有/d
支援/v ,/wd 不过/c 通过/p 不断/d 地/ude2 吃/v 骷髅/n 可以/v 保证/v 多/ad 放/v 许多/m 个/q
NOVA/x 从而/c 大大/d 提升/v MF/x 速度/n ,/wd 而/cc 被/pbei 人/n 追击/v 时/ng 也/d
可以/v 利用/v 减速/vi 从容/ad 逃跑/v ,/wd 到/v 后期/f 三/m 英雄/n 人手/n 一/m 根/q 骷髅/n
棍/ng 的/ude1 时候/n LICH/x 基本/n 上/f 就/d 可以/v 想/v 吃/v 就/d 吃/v 了/y ,/wd
一个/mq 无限/b 魔/ag 的/ude1 LICH/x 是/vshi 极为/d 恐怖/a 的/ude1 。/wj
4/m 、/wn 中/f 立/v 英雄/n 蜘蛛/n 流/v 。/wj
许多/m 首发/vn 英雄/n 之所以/c 受到/v 玩/v 家/q 青睐/vn ,/wd 是/vshi 由于/p 其/rz 具有/v
召唤/vn 技能/n ,/wd 可以/v 很/d 好/a 地/ude2 弥补/v 初期/f 兵力/n 的/ude1 不足/an ,/wd
如/v ORC/x 先知/n 、/wn HU/x 大/a 法师/n 等/udeng ,/wd 而/cc 1.17/m 中/b 酒馆/n
的/ude1 增加/vn ,/wd 许多/m 种族/n 则/c 又/d 出现/v 了/ule 首发/vn 中立/vn 英雄/n 的/ude1
打法/n ,/wd 而/cc 其中/rz 尤/d 以/p 兽王/n 和/cc 炎/ng 魔/ag 为/v 最/d 。/wj 不过/c
针对/p 不/d 死/v 来说/uls ,/wd 由于/c 不/d 死/v 玩/v 家/q 习惯/n 了/ule 用/v DK/x
的/ude1 缠绕/v 为/p 己方/n 英雄/n 补血/v ,/wd 所以/c 经常/d 还是/d 选择/v 首发/v 本/rz 族/ng
英雄/n 。/wj 实际上/d 有/vyou 多少/ry 个/q 英雄/n 就/d 能/v 产生/v 多少/ry 种/q 打法/n ,/wd
而/cc 酒馆/n 中/f 具有/v 两/m 位/q 不/d 死/v 族/ng 的/ude1 中立/vn 英雄/n ——/wp 黑暗/a
游侠/n 和/cc 深渊/n 领主/n 。/wj 黑暗/a 游侠/n 首发/v 的话/udh ,/wd 第一/m 技能/n 可以/v
考虑/v 选择/v 黑暗/a 之/uzhi 箭/n ,/wd 召唤/v 骷髅/n 来/vf 弥补/v 初期/f 兵力/n 的/ude1
不足/an ,/wd 操作/v 上/f 需要/v 注/v 点/qt 意/ng ,/wd 当/p 敌人/n 只/d 剩/v 最后/f
一点/mq 血/n 量/n 的/ude1 时候/n ,/wd 控制/v 蜘蛛/n 攻击/v 其他/rzv 单位/n ,/wd 而/cc
将/d 濒死/vi 的/ude1 单位/n 留给/v 黑暗/a 游侠/n 。/wj 深渊/n 领主/n 首发/v 的/ude1 效果/n
则/c 不/d 是/vshi 很/d 好/a ,/wd 可以/v 考虑/v 作为/v 次/qv 发/v 及/cc 三/m 发/q 英雄/n
。/wj 恐惧/a 魔王/n 没有/d 提/v ,/wd 因为/c 使用/v 他/rr 的/ude1 情况/n 相对/d 较/d 少/a
。/wj
图例说明:斜体为各类命名实体,其中红色表示人名,淡红色为地名,粉色为机构名,紫色表示数词,灰色表示时间,淡蓝色表示字符串
下划线表示为用户定义的词表。
奥运版 is powered by ICTCLAS.org 版权所有.
"""
如果加上一些简单频繁集规则 完全可以把
"蜘蛛/n 流/v "
正确分为
蜘蛛流
求助关于最大熵的原理及源代码,是否有人看过相关的文章或开源项目?
2009/5/26 张沈鹏 <zsp...@gmail.com>:
> 蜘蛛流开局的标志是坟场放下的时间极早,所以如果早期你在对方家里侦察到祭坛晚而坟场早,那么这个对手十有八九是要用蜘蛛流的打法。蜘蛛流的通常建筑顺序为:基地训练一侍僧,三个侍僧采集黄金,食尸鬼伐木,选中一个侍僧,先后建造地穴与坟场,第一个侍僧训练完成以后,立即开始训练第二个,中间无需停顿,第二个侍僧训练完成后2秒左右,金子即有150,木头的数量一般情况下也应该足够,如果金子不够的话那是你手太慢,立刻建造通灵塔,需要注意的是,坟场要建造在靠近树木的地方,而第一个通灵塔尽量建造在靠外围的地方,这是因为蜘蛛流开局缓慢,一旦被骚扰则十分被动,而这个塔建造完成以后要升级为冰塔,虽然升级要花钱,不过如果在这点小钱上吝啬的话很可能后期要追悔莫及----前提是你撑得到后期的话。地穴一旦建造完成,立即训练一个食尸鬼,通常,按照上面的建造顺序,地穴建造完成时,金子至少有90-100,如果没到,那还是你手太慢......资源一旦允许,尽快放下祭坛、第二个通灵塔和商店。开局时两个食尸鬼采木就可以了,这个食尸鬼训练结束时,坟场基本上建造完成,开始训练蜘蛛,一般情况下,英雄走出祭坛时,可以训练出2只蜘蛛,然后英雄可以带着两只蜘蛛出门MF,开局完成。此后,家里升级2级主基、补一个通灵塔,最好也能补一只狗伐木。
>
>
> 而根据首发英雄和主战英雄的不同,各种蜘蛛流的开局也存在着微小的差异:
>
> 1、DK蜘蛛流。
>
> 如前面所说,蜘蛛流开局十分缓慢。多数情况下,蜘蛛流的首发英雄为DK,主要由于蜘蛛造价昂贵(不象HU步兵,过渡期死就死了),在初期,UD是死不起蜘蛛的,所以需要DK的缠绕,中后期由于需要采用打带跑的办法,就要求蜘蛛有较高的移动速度,也需要仰仗DK的光环。DK出门之前要买一根巫术妖棍,不要吝惜这点钱,不然你真的会后悔,初期UD是死不起蜘蛛的,DK所有的魔法都需要用来给蜘蛛补血,而DK的魔法有限,UD初期又没有任何补魔力的措施,如果没有骷髅的存在,中立生物无疑会攻击蜘蛛或DK,DK可以给蜘蛛补血,而没人可以给DK补血,所以为DK购买一个巫术妖棍是十分必要的。
>
> 2、小强蜘蛛流。
>
> 由于蜘蛛流开局极其缓慢,所以初期兵力相对较弱,一旦碰上初期进攻性极强的对手,或是双方近点,很可能没等撑到成型就被压制住了,而地穴领主(俗称小强)的召唤腐尸甲虫技能可以在初期有效地弥补兵力上的不足,5只甲虫,2个蜘蛛,若干骷髅以及一个肉盾型的小强(也许该叫大强......),在初期已经算是规模还不错的部队了。不过地穴领主移动速度缓慢,而且初期万一碰上死追着你的蜘蛛打的对手,你就只能眼看着蜘蛛被杀而束手无策,不象DK可以补血,从而使对方对蜘蛛的攻击无效化,浪费对方的攻击时间。
>
> 3、LICH蜘蛛流。
>
> 极为罕见的一种以LICH作为首发英雄的蜘蛛流,通常见于同族大战,非同族战的情况下,使用这种打法的人,或是思路怪异的高手,或是不会玩的菜鸟,或是对LICH有着某种偏执喜爱的狂热分子比如在下我。LICH初期血虽少,不过由于其为远程英雄,所以不太容易被围杀。而根据LICH升级点数分配的不同又可分为两个支流,第一种是升NOVA和冰甲,中甲的蜘蛛流惧怕的是近战兵种,而冰甲如设为自动施放,则会施放在正在被攻击的目标身上,这样在理论上所有攻击蜘蛛的近战兵种都将受到减速作用,效果参考人族女巫缓慢术;第二种是升NOVA和黑暗祭礼,通常这种升级方式的LICH初期会买一个骷髅棒,没魔就吃骷髅,而骷髅如果召唤时间已经很长,与其等它自己散架不如吃了补魔,虽然LICH对于蜘蛛的血量没有支援,不过通过不断地吃骷髅可以保证多放许多个NOVA从而大大提升MF速度,而被人追击时也可以利用减速从容逃跑,到后期三英雄人手一根骷髅棍的时候LICH基本上就可以想吃就吃了,一个无限魔的LICH是极为恐怖的。
>
> 4、中立英雄蜘蛛流。
>
> 许多首发英雄之所以受到玩家青睐,是由于其具有召唤技能,可以很好地弥补初期兵力的不足,如ORC先知、HU大法师等,而1.17中酒馆的增加,许多种族则又出现了首发中立英雄的打法,而其中尤以兽王和炎魔为最。不过针对不死来说,由于不死玩家习惯了用DK的缠绕为己方英雄补血,所以经常还是选择首发本族英雄。实际上有多少个英雄就能产生多少种打法,而酒馆中具有两位不死族的中立英雄----黑暗游侠和深渊领主。黑暗游侠首发的话,第一技能可以考虑选择黑暗之箭,召唤骷髅来弥补初期兵力的不足,操作上需要注点意,当敌人只剩最后一点血量的时候,控制蜘蛛攻击其他单位,而将濒死的单位留给黑暗游侠。深渊领主首发的效果则不是很好,可以考虑作为次发及三发英雄。恐惧魔王没有提,因为使用他的情况相对较少。
> 吝啬/a 的/ude1 话/n 很/d 可能/v 后期/f 要/v 追悔莫及/vl ----/wp 前提/n 是/vshi 你/rr 撑/v
> 得到/v 后期/f 的/ude1 话/n 。/wj 地穴/n 一旦/d 建造/v 完成/v ,/wd 立即/d 训练/v 一个/mq 食/v
> 尸/ng 鬼/n ,/wd 通常/d ,/wd 按照/p 上面/f 的/ude1 建造/vn 顺序/n ,/wd 地穴/n 建造/v
> 完成/v 时/ng ,/wd 金子/n 至少/d 有/vyou 90-100/m ,/wd 如果/c 没/d 到/v ,/wd 那/rzv
> 还/d 是/vshi 你/rr 手/n 太/d 慢/a .../ws .../ws 资源/n 一旦/d 允许/v ,/wd 尽快/d 放下/v
> 小强/nr2 (/wkz 也许/d 该/v 叫/vi 大强/nr2 .../ws .../ws )/wky ,/wd 在/p 初期/f 已经/d
> 而/cc 酒馆/n 中/f 具有/v 两/m 位/q 不/d 死/v 族/ng 的/ude1 中立/vn 英雄/n ----/wp 黑暗/a
http://www-tsujii.is.s.u-tokyo.ac.jp/~tsuruoka/maxent/
~/zspal/maxent-2.1.1 $ cat _test.cpp
#include <string>
#include <list>
#include <cstdio>
#include "maxent.h"
using namespace std;
void train_the_model_with_samples(ME_Model & model)
{
ME_Sample s1("CAR");
s1.add_feature("four wheels"); // binary feature
s1.add_feature("blue"); // binary feature
s1.add_feature("length", 4.0); // real-valued feature
// This real-valued feature is basically equivalent to the following:
// s1.add_feature("length");
// s1.add_feature("length");
// s1.add_feature("length");
// s1.add_feature("length");
ME_Sample s2("CAR");
s2.add_feature("four wheels");
s2.add_feature("red");
s2.add_feature("length", 5.0);
ME_Sample s3("BICYCLE");
s3.add_feature("two wheels");
s3.add_feature("red");
s3.add_feature("length", 1.7);
ME_Sample s4("BICYCLE");
s4.add_feature("two wheels");
s4.add_feature("yellow");
s4.add_feature("length", 1.9);
model.add_training_sample(s1);
model.add_training_sample(s2);
model.add_training_sample(s3);
model.add_training_sample(s4);
model.train();
}
int main()
{
ME_Model model;
train_the_model_with_samples(model);
// Classifying a new sample
ME_Sample s;
s.add_feature("two wheels");
s.add_feature("blue");
s.add_feature("length", 1.8);
model.classify(s);
cout << endl;
cout << "it's a " << s.label << " !" << endl << endl;
// You can get the probability distribution of a classification
vector<double> vp = model.classify(s);
for (int i = 0; i < model.num_classes(); i++) {
cout << vp[i] << "\t" << model.get_class_label(i) << endl;
}
cout << endl;
// You can save the model into a file.
model.save_to_file("model");
// You can, of course, load a model from a file.
// Try replacing train_the_model_with_samples() with
model.load_from_file("model").
// If you want to see the weights of the features,
list< pair< pair<string, string>, double > > fl;
model.get_features(fl);
for (list< pair< pair<string, string>, double> >::const_iterator i =
fl.begin(); i != fl.end(); i++) {
printf("%10.3f %-10s %s\n", i->second, i->first.first.c_str(),
i->first.second.c_str());
}
}
另外参看
http://cwseg.spaces.live.com/blog/cns!379FC86001B7891D!267.entry
http://guoxinmiao8.blog.sohu.com/68000920.html
并不是将其作为二值标注问题来处理的,而是作为4值标注问题。具体来说,就是将字在一个词中间的位置分为4类:词首B,词尾
E,词中M,单字词S。作为二值标注问题,可能最开始由Peng
Fuchun在coling-04引入。为什么会出现这样一种“退步”?原因在于计算负载上,Xue用的是最大熵(MaxEnt),而Peng用的
CRFs。显然的,CRF的计算负载一般要比MaxEnt高一个数量级,而且,CRF上用4个标注的学习代价比2个要高一倍不止。
个人观点,欢迎拍砖,呵呵
On 5月26日, 下午2时31分, 张沈鹏 <zsp...@gmail.com> wrote:
> 再发一篇 以字分词 的pdf 以便参考
>
> 以字分词.pdf
> 518K查看下载
但各个层次之间的结合点是什么?
"隐马模型选一个分词+词性标注结果最好的":分词和词性标注结合是ICTCLAS的特点
但ICTCLA训练是分层训练的,都统一到隐马模型,前一次训练输出是后一次训练的输入
但以字构词与词典结合之间没有统一的结合点,基于词典切分的输出是词,而以字构词的输入是字,当然,我们可以采用赵海的"基于有效字串的构词方法"来训练,但"基于有效字串"方法中的有效字串数量是很少的,都是训练集中不能再拆分的字串,与词语很难映射起来。
以上是我个人意见,希望大家踊跃来拍!
2009/6/2 LoveQQ <tence...@gmail.com>:
On 6月2日, 下午2时40分, 杨志宇 <mei9...@gmail.com> wrote:
> LoveQQ提到类似于中科研分词器ICTCLAS的分层模型
>
> 但各个层次之间的结合点是什么?
> "隐马模型选一个分词+词性标注结果最好的":分词和词性标注结合是ICTCLAS的特点
> 但ICTCLA训练是分层训练的,都统一到隐马模型,前一次训练输出是后一次训练的输入
>
> 但以字构词与词典结合之间没有统一的结合点,基于词典切分的输出是词,而以字构词的输入是字,当然,我们可以采用赵海的"基于有效字串的构词方法"来训练,但"-基于有效字串"方法中的有效字串数量是很少的,都是训练集中不能再拆分的字串,与词语很难映射起来。
>
> 以上是我个人意见,希望大家踊跃来拍!
>
> 2009/6/2 LoveQQ <tencentf...@gmail.com>:
>
>
>
> > 个人觉得采用以字构词+词典相结合的方式可能比较好,呵呵
> > 纯粹的以字构词方法,准确率虽然很高,但也有一些不足,比如分词的一致性不够好,即不同的上下文可能造成分词的粒度不一致;而且对于索引这一类的应用,
> > 可能需要multi-segmentation,即同时需要多种粒度的分词结果做混合索引,以字构词的方法实现这个很困难,等等
> > 我觉得主干流程可以采用n元最大概率的方法;或者取k-best结果,然后再用隐马模型选一个分词+词性标注结果最好的。对于像人名、地名这些词库很难
> > 收集全,而又很有规律性的词,用以字构词的方式来切分比较好,还有对于一些新词,最大概率方法可能会切成单字,也可以用最大熵之类的方法做一下修正,呵
> > 呵
>
> > 个人观点,欢迎拍砖,呵呵
>
> > On 5月26日, 下午2时31分, 张沈鹏 <zsp...@gmail.com> wrote:
> >> 再发一篇 以字分词 的pdf 以便参考
>
> >> 以字分词.pdf
> >> 518K查看下载- 隐藏被引用文字 -
>
> - 显示引用的文字 -
2009/6/2 LoveQQ <tence...@gmail.com>:
--
Hi,this is an email from Lincoin Ling.
Wish you every success in the future.
您好,这是来自Erlv的邮件。
祝您事事顺心,一生平安!
简单summary一下,如果有错误千万要拍我:
max entropy:
p(y|x1,x2,...) = exp( sum( lamda_i * f(xi, y) ) ) / Z
memm基本与me一致,但引入了特征的状态转移,用y'表示前一状态:
p(y|x1,x2,...) = exp( sum(lamda_i * f(xi, y', y) ) ) / Z
crf,直接将状态转移做为特征:
p(y|x,x2,...) = exp( sum(lamda * f(S_t, O_t)) + sum(u * g(S_t-1,
S_t)) ) /Z
还有赵海gg说过一种 带有状态转移约束解码的最大熵,貌似是这个意思:采用和最大熵一样的训练方法,但是在解码阶段引入状态转移约束,例如一个字标成
begin,那么它后面肯定要么是end要么是middle,这个约束可以通过统计语料信息获得。据赵海gg的说法,这种方法准确性上堪比crf,但是
训练性能只是crf的1/5-1/10。详见赵海gg的强文:http://cwseg.spaces.live.com/Blog/cns!
379FC86001B7891D!267.entry
On 6月2日, 下午3时35分, erlv <erlv5...@gmail.com> wrote:
> 附件是中科院计算所刘群研究员在计算语言学课上有关最大熵的讲义,希望能给大家的讨论带来帮助。
> 转载或引用刘老师的讲义,请署名 谢谢
>
> 2009/6/2 LoveQQ <tencentf...@gmail.com>:
>
>
>
>
>
> > 我说一点比较凌乱的想法哈,第一步原子切分完了之后,可以用单字标注的方法先标注好句子里的人名,然后再传给n元最大概率切分的模块,输出k-best
> > 结果作为candidate,然后将这些candidate里连续出现的单字用以字构词的方法重新标注,生成新的candidate,然后输入给隐马模
> > 型做词性标注并选择一个分值最佳的作为最终结果
> > 我觉得可以用以字构词法作为词典的补充,去解决传统方法表现不好的部分,这样也避免了以字构词法本身的一些局限性。毕竟对于分词这样一个很广泛的应用来
> > 说,准确性、一致性、性能、后期可维护性都很重要的说
>
> > On 6月2日, 下午2时40分, 杨志宇 <mei9...@gmail.com> wrote:
> >> LoveQQ提到类似于中科研分词器ICTCLAS的分层模型
>
> >> 但各个层次之间的结合点是什么?
> >> "隐马模型选一个分词+词性标注结果最好的":分词和词性标注结合是ICTCLAS的特点
> >> 但ICTCLA训练是分层训练的,都统一到隐马模型,前一次训练输出是后一次训练的输入
>
> >> 但以字构词与词典结合之间没有统一的结合点,基于词典切分的输出是词,而以字构词的输入是字,当然,我们可以采用赵海的"基于有效字串的构词方法"来训练,但"--基于有效字串"方法中的有效字串数量是很少的,都是训练集中不能再拆分的字串,与词语很难映射起来。
>
> >> 以上是我个人意见,希望大家踊跃来拍!
>
> >> 2009/6/2 LoveQQ <tencentf...@gmail.com>:
>
> >> > 个人觉得采用以字构词+词典相结合的方式可能比较好,呵呵
> >> > 纯粹的以字构词方法,准确率虽然很高,但也有一些不足,比如分词的一致性不够好,即不同的上下文可能造成分词的粒度不一致;而且对于索引这一类的应用,
> >> > 可能需要multi-segmentation,即同时需要多种粒度的分词结果做混合索引,以字构词的方法实现这个很困难,等等
> >> > 我觉得主干流程可以采用n元最大概率的方法;或者取k-best结果,然后再用隐马模型选一个分词+词性标注结果最好的。对于像人名、地名这些词库很难
> >> > 收集全,而又很有规律性的词,用以字构词的方式来切分比较好,还有对于一些新词,最大概率方法可能会切成单字,也可以用最大熵之类的方法做一下修正,呵
> >> > 呵
>
> >> > 个人观点,欢迎拍砖,呵呵
>
> >> > On 5月26日, 下午2时31分, 张沈鹏 <zsp...@gmail.com> wrote:
> >> >> 再发一篇 以字分词 的pdf 以便参考
>
> >> >> 以字分词.pdf
> >> >> 518K查看下载- 隐藏被引用文字 -
>
> >> - 显示引用的文字 -
>
> --
> Hi,this is an email from Lincoin Ling.
> Wish you every success in the future.
>
> 您好,这是来自Erlv的邮件。
> 祝您事事顺心,一生平安!
>
> 计算语言学讲义(06)词法分析(三).pdf
> 578K查看下载- 隐藏被引用文字 -
>
> - 显示引用的文字 -
2009/6/2 weibingzheng <weibin...@gmail.com>: