【bug】 ictclas4j分词 分“年”的时候,结果 是始##始年

17 views
Skip to first unread message

freehello

unread,
Apr 27, 2009, 9:57:59 PM4/27/09
to ictclas
想跟大家确定一下,一起探讨解决办法。

freehello

unread,
Apr 28, 2009, 11:22:39 PM4/28/09
to ictclas
大家帮忙一起探讨一下啊

On 4月28日, 上午9时57分, freehello <free...@gmail.com> wrote:
> 想跟大家确定一下,一起探讨解决办法。

freehello

unread,
Apr 29, 2009, 5:01:14 AM4/29/09
to ictclas

终于找到了。

源码在AdjustSeg.java中“对”年做了特殊判断,而单独的“年”在开头与起始符号“始##始”分在一起了解决办法:
在文件第80行左右将程序改为:
else if ("年".equals(curWord)) { if (!prevsn.getWord().equals("始##始")&&
prevsn != null && Utility.isYearTime(prevsn.getSrcWord()))
{ prevsn.setCol(sn.getCol()); prevsn.setWord(Utility.UNKNOWN_TIME);
prevsn.setSrcWord(prevsn.getSrcWord() + curWord); prevsn.setPos(-
POSTag.TIME); continue; } }
即在if的判断条件里添加语句:!prevsn.getWord().equals("始##始")


On 4月29日, 上午11时22分, freehello <free...@gmail.com> wrote:
> 大家帮忙一起探讨一下啊
>
> On 4月28日, 上午9时57分, freehello <free...@gmail.com> wrote:
>
>
>

> > 想跟大家确定一下,一起探讨解决办法。- 隐藏被引用文字 -
>
> - 显示引用的文字 -

Reply all
Reply to author
Forward
0 new messages