Groups
Sign in
Groups
ictclas
Conversations
About
Send feedback
Help
ictclas
Contact owners and managers
1–30 of 203
Mark all as read
Report group
0 selected
jrckkyy
,
Li Mingqiang
5
8/29/12
【招聘】创业公司抓壮丁了,大家一起来创业。潜水多时,发现这里面有许多的技术牛人,借宝地发个招聘信息
嗯,对的,是宜搜。 在 2012年8月30日 上午11:20,Li Mingqiang <li.min...@gmail.com>写道: 是宜搜吧 在 2012年8月29日星期三,
unread,
【招聘】创业公司抓壮丁了,大家一起来创业。潜水多时,发现这里面有许多的技术牛人,借宝地发个招聘信息
嗯,对的,是宜搜。 在 2012年8月30日 上午11:20,Li Mingqiang <li.min...@gmail.com>写道: 是宜搜吧 在 2012年8月29日星期三,
8/29/12
liang zhou
9/30/11
Invitation to connect on LinkedIn
From liang zhou engineer at baidu China I'd like to add you to my professional network on
unread,
Invitation to connect on LinkedIn
From liang zhou engineer at baidu China I'd like to add you to my professional network on
9/30/11
容名 zhou
9/27/11
FreeICTCLAS 词典结构的一些理解与疑问
今天仔细阅读了 OpenCLAS 与 FreeICTCLAS 的部分头文件,对字典的结构很头疼。 一一列出来: T1、 对 *.dct 格式的字典, 我的理解是handle 即GBK编码的汉字的整数值,
unread,
FreeICTCLAS 词典结构的一些理解与疑问
今天仔细阅读了 OpenCLAS 与 FreeICTCLAS 的部分头文件,对字典的结构很头疼。 一一列出来: T1、 对 *.dct 格式的字典, 我的理解是handle 即GBK编码的汉字的整数值,
9/27/11
fish
11/9/09
求助:nutch中加入ictclas4j
有权威的文档,或者博文吗有篇文章说 :导入ICTCLAS4J的5个包com.gftech.ictclas4j.bean com.gftech.ictclas4j.run com.gftech.
unread,
求助:nutch中加入ictclas4j
有权威的文档,或者博文吗有篇文章说 :导入ICTCLAS4J的5个包com.gftech.ictclas4j.bean com.gftech.ictclas4j.run com.gftech.
11/9/09
Dancefire
, …
Jimmy Ma
14
10/13/09
我将开始清理垃圾邮件发送人,如果有误Ban的,请谅解并重新申请加入本组。谢谢合作。
辛苦楼主了。呵呵 2009/10/13 shixing <parad...@gmail.com> 辛苦楼主 2009/10/13 Jason Zou <jason.zou@
unread,
我将开始清理垃圾邮件发送人,如果有误Ban的,请谅解并重新申请加入本组。谢谢合作。
辛苦楼主了。呵呵 2009/10/13 shixing <parad...@gmail.com> 辛苦楼主 2009/10/13 Jason Zou <jason.zou@
10/13/09
luo
10/9/09
谁是斑竹啊,能不能清一些发广告的账号?
如题?
unread,
谁是斑竹啊,能不能清一些发广告的账号?
如题?
10/9/09
luo
8/20/09
这么多垃圾信息
管理员不清一下?
unread,
这么多垃圾信息
管理员不清一下?
8/20/09
coplayer
6/13/09
ICTCLAS2009共享版提供的dll是不是不支持多线程调用?
RT 我在Java程序里面用它提供的JNI接口多线程调用分词函数,结果出现“ACCESS VIOLATION”. 换了C版程序的dll,使用JNA封装,然后用多线程测试,还是会出问题。
unread,
ICTCLAS2009共享版提供的dll是不是不支持多线程调用?
RT 我在Java程序里面用它提供的JNI接口多线程调用分词函数,结果出现“ACCESS VIOLATION”. 换了C版程序的dll,使用JNA封装,然后用多线程测试,还是会出问题。
6/13/09
An Yantong
5/20/09
聚合中文分词开发者的开放项目
大家好,很冒昧在这里发信。 我是中文分词开放项目“句读”的发起人,期望能聚合国内的中文分词项目开发者,形成大家互帮互助的社区,最终能实现产品级可用的中文分词开源解决方案。 http://groups.
unread,
聚合中文分词开发者的开放项目
大家好,很冒昧在这里发信。 我是中文分词开放项目“句读”的发起人,期望能聚合国内的中文分词项目开发者,形成大家互帮互助的社区,最终能实现产品级可用的中文分词开源解决方案。 http://groups.
5/20/09
zjwang
,
liugang
3
5/20/09
人名识别问题
我看ictclas4j中sn.getPos()对应的不一定是nr.dct里的词性,人名识别前首先posTag,把nr.dct的词性加入到sn的AdjoiningPos里,然后判断coredict中是否有
unread,
人名识别问题
我看ictclas4j中sn.getPos()对应的不一定是nr.dct里的词性,人名识别前首先posTag,把nr.dct的词性加入到sn的AdjoiningPos里,然后判断coredict中是否有
5/20/09
zjwang
,
liugang
4
5/18/09
ictclas4j中地名识别
ictclas1.0比较简单,你可以试试最新的ictclas2009。如果想用到实际系统中,可以考虑同样的思路,但估计包括词典、识别模式都需要扩充 2009/5/18 zjwang <
unread,
ictclas4j中地名识别
ictclas1.0比较简单,你可以试试最新的ictclas2009。如果想用到实际系统中,可以考虑同样的思路,但估计包括词典、识别模式都需要扩充 2009/5/18 zjwang <
5/18/09
zjwang
,
liugang
2
5/18/09
人名词典问题
0表示普通词,即不在人名构成角色里的词。不知道为什么100不是0,50610的频次是和普通词表的开始是一样的 2009/5/18 zjwang <wangzhi...@yahoo.com
unread,
人名词典问题
0表示普通词,即不在人名构成角色里的词。不知道为什么100不是0,50610的频次是和普通词表的开始是一样的 2009/5/18 zjwang <wangzhi...@yahoo.com
5/18/09
pinker
, …
shixing
6
5/18/09
imdict-chinese-analyzer的开源代码已经被apache lucene收录
con~ 2009/5/17 pinker <XiaoP...@gmail.com> 经过一个多星期的讨论和修改,imdict-chinese-analyzer的开源代码已经提交至
unread,
imdict-chinese-analyzer的开源代码已经被apache lucene收录
con~ 2009/5/17 pinker <XiaoP...@gmail.com> 经过一个多星期的讨论和修改,imdict-chinese-analyzer的开源代码已经提交至
5/18/09
KArla
5/18/09
新:结识新朋友
社区更有活力的另类服饰http://alt.fast-url.info/ 获取您的免费档案以及与女孩和男孩http://love.follow-this.info/
unread,
新:结识新朋友
社区更有活力的另类服饰http://alt.fast-url.info/ 获取您的免费档案以及与女孩和男孩http://love.follow-this.info/
5/18/09
icalm
,
liugang
2
5/17/09
ictclas4j的 统计功能
最简单的方法就是在分词基础上做二次处理 2009/5/16 icalm <Alex....@gmail.com> 我现在想在分词结果的基础上统计分词的结果。 能够统计出一段话中频度最高
unread,
ictclas4j的 统计功能
最简单的方法就是在分词基础上做二次处理 2009/5/16 icalm <Alex....@gmail.com> 我现在想在分词结果的基础上统计分词的结果。 能够统计出一段话中频度最高
5/17/09
liugang
,
xuesh...@gmail.com
3
5/14/09
Re: [ICTCLAS] 选择ICTCLAS的JNI调用还是ictclas4j ?
2009版只有共享版,开源的都是n年前的代码了 2009/5/14 xuesh...@gmail.com <xuesh...@gmail.com> 你是说ICTCLAS 2009
unread,
Re: [ICTCLAS] 选择ICTCLAS的JNI调用还是ictclas4j ?
2009版只有共享版,开源的都是n年前的代码了 2009/5/14 xuesh...@gmail.com <xuesh...@gmail.com> 你是说ICTCLAS 2009
5/14/09
luo
5/13/09
ICTCALS
已有语料库,ICTCLAS如何训练?
unread,
ICTCALS
已有语料库,ICTCLAS如何训练?
5/13/09
freehello
3
4/29/09
【bug】 ictclas4j分词 分“年”的时候,结果 是始##始年
终于找到了。 源码在AdjustSeg.java中“对”年做了特殊判断,而单独的“年”在开头与起始符号“始##始”分在一起了解决办法: 在文件第80行左右将程序改为: else if ("年
unread,
【bug】 ictclas4j分词 分“年”的时候,结果 是始##始年
终于找到了。 源码在AdjustSeg.java中“对”年做了特殊判断,而单独的“年”在开头与起始符号“始##始”分在一起了解决办法: 在文件第80行左右将程序改为: else if ("年
4/29/09
GDI傳教士
4/28/09
网路无限商机
大家都知道运用网路的便利性及无国界的特性 可以带来及扩大你的商业利益 但如何寻找一个门槛低 容易经营 市场庞大的公司 是最大的关键 个人网域--每个上网的人口拥有一个个人专属的网址 将是不可抵挡的趋势
unread,
网路无限商机
大家都知道运用网路的便利性及无国界的特性 可以带来及扩大你的商业利益 但如何寻找一个门槛低 容易经营 市场庞大的公司 是最大的关键 个人网域--每个上网的人口拥有一个个人专属的网址 将是不可抵挡的趋势
4/28/09
Gao Pinker
, …
pinker
21
4/28/09
我想开放为 lucene 写的中文分词程序,请求帮助
这个测试文件太短了,只有8k,如果这个文件里的内容通过重复粘贴扩展到50M,测试的分词速度是50996256 bytes/59.884s,应该是831k/s,当然这个重复内容的文件不能说明问题。 实际上
unread,
我想开放为 lucene 写的中文分词程序,请求帮助
这个测试文件太短了,只有8k,如果这个文件里的内容通过重复粘贴扩展到50M,测试的分词速度是50996256 bytes/59.884s,应该是831k/s,当然这个重复内容的文件不能说明问题。 实际上
4/28/09
zjwang
,
Tao Wang
4
4/17/09
关于人名识别中的丢字现象
我没有测试过,可能人名识别准确度会降低,你可以对包含上千人名的文本测试一下,看看有什么差异。 至于nr字典,我印象中无论如何都需要加载的。因为调用维特比算法判断当前角色的时候,一定会需要未登录词词典来
unread,
关于人名识别中的丢字现象
我没有测试过,可能人名识别准确度会降低,你可以对包含上千人名的文本测试一下,看看有什么差异。 至于nr字典,我印象中无论如何都需要加载的。因为调用维特比算法判断当前角色的时候,一定会需要未登录词词典来
4/17/09
JimmyMa
,
dvdface
3
4/15/09
为什么中文加英文,英文会被丢掉?
不是想不想要的问题呀,丢掉就错误了呀。晕。 2009/4/15 dvdface <dvd...@gmail.com> 丢掉正好啊, 反正我也不想要E文的,呵呵 On 4月14日, 上午9时
unread,
为什么中文加英文,英文会被丢掉?
不是想不想要的问题呀,丢掉就错误了呀。晕。 2009/4/15 dvdface <dvd...@gmail.com> 丢掉正好啊, 反正我也不想要E文的,呵呵 On 4月14日, 上午9时
4/15/09
彭亮
4/13/09
回复:[ICTCLAS] Re: 我想开放为 lucene 写的中文分词程序,请求帮助
你要买么? ------------------ 原始邮件 ------------------ 发件人: "Wan Chaowei"<wanm...@gmail.com
unread,
回复:[ICTCLAS] Re: 我想开放为 lucene 写的中文分词程序,请求帮助
你要买么? ------------------ 原始邮件 ------------------ 发件人: "Wan Chaowei"<wanm...@gmail.com
4/13/09
彭亮
,
Dancefire
2
4/10/09
回复:[ICTCLAS] Re: ictclas4j 分词是 遇到 "月份牌" 三个字 就进入死循环了
我也认为不必特殊处理“月份”,应该是原作者在处理人民日报1月某些句子的时候发现月份出错了,于是干脆把他们合在一起不让它拆开了。类似的例子代码中还不少,其实都可以去掉。不过结论还得拿一个月的语料测试一下才
unread,
回复:[ICTCLAS] Re: ictclas4j 分词是 遇到 "月份牌" 三个字 就进入死循环了
我也认为不必特殊处理“月份”,应该是原作者在处理人民日报1月某些句子的时候发现月份出错了,于是干脆把他们合在一起不让它拆开了。类似的例子代码中还不少,其实都可以去掉。不过结论还得拿一个月的语料测试一下才
4/10/09
彭亮
,
Dancefire
2
4/8/09
ictclas4j 分词是 遇到 "月份牌" 三个字 就进入死循环了
在ICTCLAS中,原子切分的时候,针对“月份”进行了特殊处理,防止这两个字拆开。ICTCLAS4j是根据ICTCLAS改写的,因此应该具有相同的逻辑。那么很有可能是原子切分的时候,针对“月份”这两个字
unread,
ictclas4j 分词是 遇到 "月份牌" 三个字 就进入死循环了
在ICTCLAS中,原子切分的时候,针对“月份”进行了特殊处理,防止这两个字拆开。ICTCLAS4j是根据ICTCLAS改写的,因此应该具有相同的逻辑。那么很有可能是原子切分的时候,针对“月份”这两个字
4/8/09
彭亮
,
Dancefire
2
4/2/09
ICTCLAS4J 遇到繁体字 就挂了 怎么解决?
ICTCLAS4J是根据FreeICTCLAS改写的Java版本。继承了FreeICTCLAS的缺陷,就是只能支持GB2312编码。因此,如果是其它编码的,先转成GB2312再给ICTCLAS4J处理。
unread,
ICTCLAS4J 遇到繁体字 就挂了 怎么解决?
ICTCLAS4J是根据FreeICTCLAS改写的Java版本。继承了FreeICTCLAS的缺陷,就是只能支持GB2312编码。因此,如果是其它编码的,先转成GB2312再给ICTCLAS4J处理。
4/2/09
liugang
, …
Dancefire
7
4/2/09
关于双数组trie树实现中汉字编码的问题
问题是你写的是字典索引结构,不能出现无法表现的字。几率虽然小,但是万一出现怎么办呢?比如说人名字典、地名字典都经常出现非常奇怪的字。既然是词典索引结构,就不能说出现用户输入的词,根本无法建立索引的情况。
unread,
关于双数组trie树实现中汉字编码的问题
问题是你写的是字典索引结构,不能出现无法表现的字。几率虽然小,但是万一出现怎么办呢?比如说人名字典、地名字典都经常出现非常奇怪的字。既然是词典索引结构,就不能说出现用户输入的词,根本无法建立索引的情况。
4/2/09
liugang
,
Dancefire
4
3/24/09
Span类的作用
代码上看,PosTagger是对Span的重写。Span可能是历史遗留代码。你可以double check一下,是不是没有Span.java,一切工作正常。 2009/3/24 liugang <
unread,
Span类的作用
代码上看,PosTagger是对Span的重写。Span可能是历史遗留代码。你可以double check一下,是不是没有Span.java,一切工作正常。 2009/3/24 liugang <
3/24/09
llr
,
liugang
2
3/23/09
请问如何关闭日志的输出
ictlas4j不是用log4j的,需要修改一下程序 2009/3/21 llr <fjs...@gmail.com> 请问如何关闭日志的输出日志的输出太耗时了我在log4j.
unread,
请问如何关闭日志的输出
ictlas4j不是用log4j的,需要修改一下程序 2009/3/21 llr <fjs...@gmail.com> 请问如何关闭日志的输出日志的输出太耗时了我在log4j.
3/23/09
Dancefire
, …
Dancefire
14
3/19/09
OpenCLAS接近Milestone 1,性能有显著提高
OpenCLAS在切分过程中已经基本没有字符串拷贝了。等全部实现后再考虑更快的数据结构。或者你可以实现一个双数组Trie结构整合进OpenCLAS,测试一下与现有结构的性能差异。如果好的话可以替换现有
unread,
OpenCLAS接近Milestone 1,性能有显著提高
OpenCLAS在切分过程中已经基本没有字符串拷贝了。等全部实现后再考虑更快的数据结构。或者你可以实现一个双数组Trie结构整合进OpenCLAS,测试一下与现有结构的性能差异。如果好的话可以替换现有
3/19/09