8月目标顺延至9月

7 views
Skip to first unread message

twinsant

unread,
Aug 31, 2009, 9:26:58 PM8/31/09
to 句读:开放的中文分词项目
:P

pem

unread,
Sep 29, 2009, 10:42:22 AM9/29/09
to 句读:开放的中文分词项目
螞蟻兄試著把任務任務細分下,具體指派到人吧?
總這樣順延大家可能會失去對項目的信心。
On Sep 1, 9:26 am, twinsant <twins...@gmail.com> wrote:
> :P

twinsant

unread,
Sep 30, 2009, 11:10:21 PM9/30/09
to ju...@googlegroups.com
感谢pem的建议,参照海星模式的结论:
句读项目要不断努力建设的包括:
1、信仰:对开源模式的信仰,对开放开源的相信,和不断实际GTD的迫切情感,对分词可用性的追求,我们可以不断增强和督促自己的信心

2、媒触人物:对技术感觉不强的同学可以帮忙在email、博客、twitter、论坛等地方帮助句读宣传

3、斗士:期待更多的执行斗士出现,尽管可能不是所有人都适合,但每个人尽量贡献一小部分,哪怕是一段文字链接,一行代码,群体智慧不在乎多少

具体说来,我自己觉得有以下任务:
1、句读百万级字典更新和整理
2、句读基础代码重构:
2.1 目标一:便于安装发行,分离字典系统和算法系统
2.2 目标二:各种基于基础代码的小应用,让大家意识到分词的有趣

等等等,看大家都能补充什么?

2009/9/29 pem <pem...@gmail.com>

Qiangning Hong

unread,
Oct 1, 2009, 2:19:54 AM10/1/09
to ju...@googlegroups.com
2009/10/1 twinsant <twin...@gmail.com>:

> 具体说来,我自己觉得有以下任务:
> 1、句读百万级字典更新和整理
> 2、句读基础代码重构:
> 2.1 目标一:便于安装发行,分离字典系统和算法系统
> 2.2 目标二:各种基于基础代码的小应用,让大家意识到分词的有趣

http://code.google.com/p/judou/issues/list 管理任务吧,这样可以看见谁在做什么。

P.S. twinsant把我加进这个项目吧 :)

--
Qiangning Hong

twinsant

unread,
Oct 1, 2009, 5:42:54 AM10/1/09
to ju...@googlegroups.com


2009/10/1 Qiangning Hong <hon...@gmail.com>

2009/10/1 twinsant <twin...@gmail.com>:
> 具体说来,我自己觉得有以下任务:
> 1、句读百万级字典更新和整理
> 2、句读基础代码重构:
> 2.1 目标一:便于安装发行,分离字典系统和算法系统
> 2.2 目标二:各种基于基础代码的小应用,让大家意识到分词的有趣

http://code.google.com/p/judou/issues/list 管理任务吧,这样可以看见谁在做什么。

已更新issues list,大家可以去提意见。
 

P.S. twinsant把我加进这个项目吧 :)

已增加:)
 

--
Qiangning Hong



pem

unread,
Oct 1, 2009, 11:45:44 AM10/1/09
to 句读:开放的中文分词项目
補充我想到的幾點:
1. 做個developer's manual,方便新的開發者加入
2. 把程序中用到的概念理論什麽的,放在wiki頁面上,導讀
3. 再適度宣傳一下,吸引一些開發者過來
4. 做human computing平台
5. 制定近期目標,比如季度,半年的計劃
6. 一些不好確定的地方,近期找個聚會機會圓桌討論一下
以上。供螞蟻兄參考。

twinsant

unread,
Oct 4, 2009, 11:09:54 AM10/4/09
to ju...@googlegroups.com
可以采用代码仓库的Issues来管理目标和任务,用标签来标明时间等等信息。

http://judou.org/

感谢pem和hongqn的支持,大家都要发言那~

2009/10/1 pem <pem...@gmail.com>

HD

unread,
Oct 8, 2009, 10:49:28 PM10/8/09
to ju...@googlegroups.com
节前的一些心得在这里与大家分享一下:
.我们使用了可以提到的最大量的词库
.分词时,为了让用户更容易找到,我们使用了短小词(两字、三字词)为主的词库
.做index和搜索的效果都还不错

但是:
.用户希望用二大,搜索到二大队。。。。

我们又:
.使用单字字偶、双字字偶来进行分词
.做index时的速度下降
.搜索的负载迅速提升
.用户对搜索的效果却表现出了回升

但是:
.index时的效率需要解决
.单字字偶的引擎效率需要解决

:)

我们在十一后更改了搜索引擎,现在解决了index时的效率问题,同时也提高了引擎的查询效率。到时再看看情况了

2009/10/4 twinsant <twin...@gmail.com>



--
HD(燃烧中的火)
我工作我快乐,我勤奋我收获。请与我一起快乐,与我一起收获。

twinsant

unread,
Oct 9, 2009, 2:17:59 AM10/9/09
to ju...@googlegroups.com


2009/10/9 HD <huan...@gmail.com>
节前的一些心得在这里与大家分享一下:
.我们使用了可以提到的最大量的词库

词库的来源方便说不?
 
.分词时,为了让用户更容易找到,我们使用了短小词(两字、三字词)为主的词库

分词粒度小可以提高查全率,噪音会很多吧。。。
 
.做index和搜索的效果都还不错

有量化标准么?
 

但是:
.用户希望用二大,搜索到二大队。。。。

这个是否可以通过前端智能提示来做呢。。。解决方案有时候可以适当考虑往前或往后放
 

我们又:
.使用单字字偶、双字字偶来进行分词

二元分词你们如何去噪呢。。。
 
.做index时的速度下降
.搜索的负载迅速提升

索引大就会这样?
 
.用户对搜索的效果却表现出了回升

但是:
.index时的效率需要解决
.单字字偶的引擎效率需要解决

句读的意义在此那,想办法在前端智能准确些,后端会轻松些吧?。。。
 

:)

我们在十一后更改了搜索引擎,现在解决了index时的效率问题,同时也提高了引擎的查询效率。到时再看看情况了

其实就个别query来说,查准比查全更重要,毕竟这是个信息爆炸的社会,当然,有些query限于信息不对称,那倒是个信息收集的问题了。。。
 

HD

unread,
Oct 10, 2009, 3:01:42 AM10/10/09
to ju...@googlegroups.com


2009/10/9 twinsant <twin...@gmail.com>



2009/10/9 HD <huan...@gmail.com>
节前的一些心得在这里与大家分享一下:
.我们使用了可以提到的最大量的词库

词库的来源方便说不?
之前有过采购。
 
 
.分词时,为了让用户更容易找到,我们使用了短小词(两字、三字词)为主的词库

分词粒度小可以提高查全率,噪音会很多吧。。。
先要查到,再谈查准。如果词长了,就会查不到,这个很郁闷。
 
.做index和搜索的效果都还不错

有量化标准么?
两千万数据,半小时到一小时罢
 
 但是:
.用户希望用二大,搜索到二大队。。。。

这个是否可以通过前端智能提示来做呢。。。解决方案有时候可以适当考虑往前或往后放
坎坷很多,确实二大队不是词,大队才是。所以 二大 提示不容易提,大字当头的词有n多 :(

 
 我们又:
.使用单字字偶、双字字偶来进行分词
二元分词你们如何去噪呢。。。
数据基数不大,还好,我们现在看基本达到85%的相关性良好。
 
.做index时的速度下降
.搜索的负载迅速提升

索引大就会这样?
我们看到的同一种搜索引擎效果是这样的。
 
.用户对搜索的效果却表现出了回升

但是:
.index时的效率需要解决
.单字字偶的引擎效率需要解决

句读的意义在此那,想办法在前端智能准确些,后端会轻松些吧?。。。
 

:)

我们在十一后更改了搜索引擎,现在解决了index时的效率问题,同时也提高了引擎的查询效率。到时再看看情况了

其实就个别query来说,查准比查全更重要,毕竟这是个信息爆炸的社会,当然,有些query限于信息不对称,那倒是个信息收集的问题了。。。
行业应用,只做参考。慢慢来,搜索引擎的改进我们也是刚刚开始,一切都在摸索中。

 

twinsant

unread,
Oct 10, 2009, 3:13:44 AM10/10/09
to ju...@googlegroups.com
赞,学习了。

2009/10/10 HD <huan...@gmail.com>

Ken

unread,
Jun 17, 2010, 8:47:26 PM6/17/10
to ju...@googlegroups.com
2009/10/10 twinsant <twin...@gmail.com>
赞,学习了。

蚂蚁,这个项目正在沉没中是吧?
 
--
百才招聘(baicai.com).产品部
Email: k...@baicai.com
Gtalk: qicha...@gmail.com
twitter.com/qichangxing
blog.hi0791.com

twinsant

unread,
Jun 17, 2010, 10:23:14 PM6/17/10
to ju...@googlegroups.com
最近会重新启动的。。。

2010/6/18 Ken <qicha...@gmail.com>

--
====================

句读:开放的中文分词项目
====================
 
主要链接
=======
 
* 句读首页:http://judou.org
 
使用
====
* 讨论请发邮件到ju...@googlegroups.com
* 查看更多到http://groups.google.com/group/judou
 
* 想退订发邮件到judou+un...@googlegroups.com

pem

unread,
Jun 27, 2010, 1:13:28 PM6/27/10
to 句读:开放的中文分词项目
On Jun 18, 10:23 am, twinsant <twins...@gmail.com> wrote:
> 最近会重新启动的。。。
螞蟻兄有什麽新想法?

twinsant

unread,
Jun 27, 2010, 8:20:51 PM6/27/10
to ju...@googlegroups.com
把我之前的代码迁移到mongodb。

Hao He

unread,
Jul 8, 2010, 3:12:49 AM7/8/10
to ju...@googlegroups.com
有什么好处?

2010/6/27 twinsant <twin...@gmail.com>:

twinsant

unread,
Jul 8, 2010, 8:47:42 PM7/8/10
to ju...@googlegroups.com
逐步理顺我们的生产环境:)

2010/7/8 Hao He <hao...@gmail.com>

Hao He

unread,
Jul 8, 2010, 8:50:43 PM7/8/10
to ju...@googlegroups.com
什么意思?能说具体点么?

2010/7/8 twinsant <twin...@gmail.com>:

twinsant

unread,
Jul 8, 2010, 8:54:48 PM7/8/10
to ju...@googlegroups.com
词库我觉得应该采用中心服务器的形式,sqlite不适合做这个。

2010/7/9 Hao He <hao...@gmail.com>

Jimmy Ma

unread,
Jul 8, 2010, 9:14:13 PM7/8/10
to ju...@googlegroups.com
mongodb不错,弱弱的支持一下。
Reply all
Reply to author
Forward
0 new messages