在同一台计算机上,没有经过特别优化的前提下,老的OpenCLAS.rev37是39.35 KB/s;而新的OpenCLAS r84中,达到了
141.456 KB/s。
大家可以到下面的链接去下载测试代码。(下载代码需要Subversion客户端,浏览不需要)
http://code.google.com/p/openclas/
在这回的设计中,采用全头文件的形式,这样在C++代码中调用将会非常的方便。
Milestone 2的目标是实现未登录词识别、词性标注以及相应的单元测试。期望开发周期是2-3周。
今天在这台机器上(Core 2 2.5GHz)真正的装了一个Ubuntu 8.10,测试了一下,竟然有 314.12KB/s,同一台计算机上竟
然能有2倍的差别。
在另一台Core 2 2GHz笔记本上的Ubuntu中,也是250KB/s左右。看来Linux果然比Windows快好多啊。
可能更合适的结构是Double array trie,目前没在这个上面下经历,但是从介绍上看,感觉性能会比我现在的结构高一些。这类实现可以
google到,不过大多只是针对char的,而不是wchar_t的,需要改动。
On 3月10日, 上午10时47分, liugang <liuga...@gmail.com> wrote:
> 能否介绍一下openCLAS的词典装载到内存的索引结构?我在优化ictclas4j,原来代码的速度仅有4K/s(pentium dual
> 1.6G,包括所有功能),我想至少达到20K/s,才能实用价值。优化了一下,现在能达到8K左右,发现要进一步提升需要修改词典索引结构。
>
> 我这方面以前接触比较少,希望能听听大家的建议。
>
> 2009/3/10 Tao Wang <Dancef...@gmail.com>
2009/3/10 liugang <liug...@gmail.com>:
--
Microsoft Certified Technology Specialist
CCNA
http://www.dancefire.org/
2009/3/10 Dancefire <danc...@gmail.com>:
假设我们在cpp这个目录,
1、先去除UTF8的BOM,这个gcc不支持,VC又需要。
script/bom.py -r
2、准备cmake和编译:
mkdir build
cd build
cmake ../src/unit_test
make
3、把FreeICTCLAS中的词典拷贝过来。
mkdir data
cp /path/to/Data/* data/
4、可以执行了。
./unit_test
需要注意的是,有一组测试需要后面测试所生成的mini.{tag, unigram,
bigram}.txt,所以第一遍执行的时候,会跳过这组测试,报告mini.*.txt找不到,但是第二遍就ok了。
2009/3/11 Jason Zou <jaso...@gmail.com>:
On 3月9日, 下午9时47分, Dancefire <Dancef...@gmail.com> wrote:
另外可否考虑:在切分过程中减少甚至不要有字符串拷贝,统一用指针加偏移?
直至结果输出
On 3月9日, 下午9时47分, Dancefire <Dancef...@gmail.com> wrote: