SegWord启动

1 view
Skip to first unread message

percylee

unread,
Dec 13, 2005, 7:03:52 AM12/13/05
to cs的专栏 继续讨论区

SegWord为一个分词系统,满足:

(1)分词
(2)义性分布
(3)词表自调整

三个目的。


(1)表明该系统可对汉语文本进行分词;这是这个系统的基本属性之一。但是,设计者认为不能为分词而分词,故本系统的研究重点为目的(2)和(3)。

(2)更广泛的看,分词的实质是“组合”,也就是由小结构组合为大结构并对结构的属性进行组合与变换。也就是说,分词不仅要给出词的分割,也应给出这种结构所对应的属性,例如词性,语义选项,未登录词属性等,统称为义性分布。这是后续处理的重点依据。

(3)分词依赖于一定的词表。但是,词表本身若由人来提供,总是存在一定的局限。考虑机器学习的运用,寻找词表自调整的方法与思路。这是研究的难点。


综上,本分词系统将是一个挑战,也是NLP进行突破的一种新尝试。

percylee

于 北京

Reply all
Reply to author
Forward
0 new messages