用 http://code.google.com/p/judou/issues/list 管理任务吧,这样可以看见谁在做什么。
P.S. twinsant把我加进这个项目吧 :)
--
Qiangning Hong
2009/10/1 twinsant <twin...@gmail.com>:
> 具体说来,我自己觉得有以下任务:用 http://code.google.com/p/judou/issues/list 管理任务吧,这样可以看见谁在做什么。
> 1、句读百万级字典更新和整理
> 2、句读基础代码重构:
> 2.1 目标一:便于安装发行,分离字典系统和算法系统
> 2.2 目标二:各种基于基础代码的小应用,让大家意识到分词的有趣
P.S. twinsant把我加进这个项目吧 :)
--
Qiangning Hong
.分词时,为了让用户更容易找到,我们使用了短小词(两字、三字词)为主的词库
.做index和搜索的效果都还不错
但是:
.用户希望用二大,搜索到二大队。。。。
我们又:
.使用单字字偶、双字字偶来进行分词
.做index时的速度下降
.搜索的负载迅速提升
.用户对搜索的效果却表现出了回升
但是:
.index时的效率需要解决
.单字字偶的引擎效率需要解决
:)
我们在十一后更改了搜索引擎,现在解决了index时的效率问题,同时也提高了引擎的查询效率。到时再看看情况了
.分词时,为了让用户更容易找到,我们使用了短小词(两字、三字词)为主的词库
分词粒度小可以提高查全率,噪音会很多吧。。。
.做index和搜索的效果都还不错
有量化标准么?
但是:.用户希望用二大,搜索到二大队。。。。
这个是否可以通过前端智能提示来做呢。。。解决方案有时候可以适当考虑往前或往后放
我们又:.使用单字字偶、双字字偶来进行分词二元分词你们如何去噪呢。。。
.做index时的速度下降
.搜索的负载迅速提升
索引大就会这样?
.用户对搜索的效果却表现出了回升
但是:
.index时的效率需要解决
.单字字偶的引擎效率需要解决
句读的意义在此那,想办法在前端智能准确些,后端会轻松些吧?。。。
:)
我们在十一后更改了搜索引擎,现在解决了index时的效率问题,同时也提高了引擎的查询效率。到时再看看情况了
其实就个别query来说,查准比查全更重要,毕竟这是个信息爆炸的社会,当然,有些query限于信息不对称,那倒是个信息收集的问题了。。。
--
====================
句读:开放的中文分词项目
====================
主要链接
=======
* 句读首页:http://judou.org
使用
====
* 讨论请发邮件到ju...@googlegroups.com
* 查看更多到http://groups.google.com/group/judou
* 想退订发邮件到judou+un...@googlegroups.com
2010/6/27 twinsant <twin...@gmail.com>:
2010/7/8 twinsant <twin...@gmail.com>: