dictionary file如何生成呢?

20 views
Skip to first unread message

javapig

unread,
Jan 5, 2009, 3:09:08 AM1/5/09
to Paoding's Knives
您好,
我第一次使用lucene,从网上搜索到paoding-analysis-2.0.4-beta,说效率很高,所以想先试试,

我迁出的版本:paoding-analysis-2.0.4-beta

然后运行个例子先看一下,

结果提示我找不到词典文件,我的paoding_dic_home已经设置了,指向E:\data\paoding\dic目录下,只是,词典文件如何
生成呢?

先谢谢了。

javapig

unread,
Jan 5, 2009, 3:49:21 AM1/5/09
to Paoding's Knives

注,我运行的例子是paoding-analysis-2.0.4-beta\examples\net\paoding\analysis
\examples\gettingstarted\ch2\Chinese.java

manhuijia_lnu

unread,
Jan 5, 2009, 4:05:31 AM1/5/09
to pao...@googlegroups.com
你把paoding解压包下面的dic文件夹拷到你设的那个目录下面,词典不是生成的,就是把已有的配置一下。有时候还要配置
paoding-analysis.properties文件。
里边的例子我没做过,我只是将他应用到了我自己的项目中。



《大话西游外传》贺岁新作,送豪宅、送你5000元压岁钱
Paoding中文分词参考手册.htm

ghostwwl .

unread,
Jan 5, 2009, 4:09:40 AM1/5/09
to pao...@googlegroups.com
这个你应该去庖丁的论坛或者什么问吧

不好意思 我是写python的 我这里用的庖丁都是java组的同时 全都弄好了 生成了jar我只是用python掉用
词典的配置什么的 你应该去lucene或者庖丁的的列表问问看 我还真没配过庖丁

2009/1/5 manhuijia_lnu <manhui...@163.com>

 

Paoding中文分词参考手册

 

本文档对应paoding-analysis 2.0.4-alpha2,目前还在草稿状态。

由于没有docbook编辑文档的经验和环境,暂时以word编辑文档。

 

目录

 

一般使用

 

使用评估

参考资料

下载

开始使用

分词策略

 

高级专题

 

配置参考

PaodingMaker的设计

庖丁架构

词典的抽象与设计

词典定制

词典动态加载

自定制分词策略

 

集成指南

 

Spring XML 配置

 

 

 


 

一般使用

使用评估

暂略

参考资料

暂略

下载

zip download:http://code.google.com/p/paoding/downloads/list

svn: http://paoding.googlecode.com/svn/trunk/paoding-analysis/

 

效果体验

使用者第一步最有可能的是想要体验了解庖丁的分词效果。考虑到这样的需求,庖丁提供了一个shell文件,使用者不必写任何代码就可以获得这样的信息。进入Paoding-Analysis分发包,在命令行模式下执行analyzer.bat(windows)analyzer.sh(linux)即可。下以windows为例:

u       显示帮助

E:\Paoding-Analysis>analyzer.bat ?

 

u       分词对话

当没有在命令行参数种输入分词内容或待分词的文章时,analyzer.bat进入分词对话模式,使用者可以多次输入或粘贴不同的文字内容,查看分词效果,如:

 

E:\Paoding-Analysis>analyzer.bat

paoding> |

此时使用者可以在光标所在所在位置(|)输入或粘贴待分词的内容(以分号结束),按下Enter键换行,analyzer.bat便可以输出分词结果。比如:

paoding> 中文分词;

1:      中文/分词/

        分词器net.paoding.analysis.analyzer.PaodingAnalyzer

        内容长度 4字符, 分 2个词

        分词耗时 0ms

--------------------------------------------------

分词完毕后,又会进入以上对话模式。

键入:e:q退出会话 (包括:符号)

键入:?显示帮助(包括:符号)

 

u       对文件进行分

analyzer.bat允许对指定的文件进行分词体验。文件以路径名给出可以使绝对地址、相对当前目录的地址,或以classpath:为前缀的类路径地址。示例如下:

paoding> :-f E:/content.txt

paoding> :-f E:/content.txt -c gbk

paoding> :-f E:/content.txt -c gbk -m max

开始使用

庖丁中文分词需要一套词典,这些词典需要统一存储在某个目录下,这个目录称为词典安装目录。词典安装目录可以是文件系统的任何目录,它不依赖于应用程序的运行目录。将词典拷贝到词典安装目录的过程称为安装词典。增加、删除、修改词典目录下的词典的过程称为自定制词典。

在linux下,我们可以考虑将词典安装在一个专门存储数据的分区下某目录,以笔者为例,笔者将/data作为系统的一个独立分区,笔者便是将词典保存在/data/paoding/dic下。

在windows下,我们可以考虑将词典安装在非系统盘的另外分区下的某个目录,以笔者为例,笔者可能将词典保存在E:/data/paoding/dic下。

使用者安装辞典后,应该设置系统环境变量PAODING_DIC_HOME指向词典安装目录。

在linux下,通过修改/etc/profile,在文件末尾加上以下2行,然后保存该文件并退出即可。

PAODING_DIC_HOME=/data/paoding/dic

export PAODING_DIC_HOME

在windows下,通过"我的电脑"属性之"高级"选项卡,然后在进入"环境变量"编辑区,新建环境变量,设置"变量名"为PAODING_DIC_HOME;"变量值"为E:/data/paoding/dic

3步,把paoding-analysis.jar拷贝到应用运行时的类路径(classpath)下。使用集成开发环境(IDE)开发应用的使用者,需要把paoding-analysis.jar拷贝到工程中,然后使用IDE向导引入该Jar包,以便开发应用时IDE能够认识它。

至此,便可以在应用代码中使用庖丁提供的中文分析器了。

提醒:以下示例代码中的IDNEX_PATH表示索引库地址,读者运行以下代码前,应该赋与一个不重要的地址,比如/data/paoding/test_index E:/paoding_test_index,以免一时疏忽将重要数据丢失。

示例代码:建立索引库,并依此查询

String IDNEX_PATH = "E:/paoding_test_index";

//获取Paoding中文分词器

Analyzer analyzer = new PaodingAnalyzer();

//建立索引

IndexWriter writer = new IndexWriter(IDNEX_PATH, analyzer, true);

Document doc = new Document();

Field field = new Field("content", "你好,世界!", Field.Store.YES,

    Field.Index.TOKENIZED, Field.TermVector.WITH_POSITIONS_OFFSETS);

doc.add(field);

writer.addDocument(doc);

writer.close();

System.out.println("Indexed success!");

 

//检索

IndexReader reader = IndexReader.open(IDNEX_PATH);

QueryParser parser = new QueryParser("content", analyzer);

Query query = parser.parse("你好");

Searcher searcher = new IndexSearcher(reader);

Hits hits = searcher.search(query);

if (hits.length() == 0) {

    System.out.println("hits.length=0");

}

Document doc2 = hits.doc(0);

//高亮处理

String text = doc2.get("content");

TermPositionVector tpv = (TermPositionVector) reader.getTermFreqVector(

                0, "content");

TokenStream ts = TokenSources.getTokenStream(tpv);

Formatter formatter = new Formatter() {

    public String highlightTerm(String srcText, TokenGroup g) {

        if (g.getTotalScore() <= 0) {

            return srcText;

        }

        return "<b>" + srcText + "</b>";

    }

};

Highlighter highlighter = new Highlighter(formatter, new QueryScorer(

        query));

String result = highlighter.getBestFragments(ts, text, 5, "...");

System.out.println("result:\n\t" + result);

reader.close();

分词策略

暂时以测试用例体现如下:

 

package net.paoding.analysis;

 

import java.io.StringReader;

 

import junit.framework.TestCase;

import net.paoding.analysis.analyzer.PaodingAnalyzer;

 

import org.apache.lucene.analysis.Token;

import org.apache.lucene.analysis.TokenStream;

 

public class AnalyzerTest extends TestCase {

 

    protected PaodingAnalyzer analyzer = new PaodingAnalyzer();

 

    protected StringBuilder sb = new StringBuilder();

 

    protected String dissect(String input) {

       try {

           TokenStream ts = analyzer.tokenStream("", new StringReader(input));

           Token token;

           sb.setLength(0);

           while ((token = ts.next()) != null) {

              sb.append(token.termText()).append('/');

           }

           if (sb.length() > 0) {

              sb.setLength(sb.length() - 1);

           }

           return sb.toString();

       } catch (Exception e) {

           e.printStackTrace();

           return "error";

       }

    }

 

    /**

     *

     */

    public void test000() {

       String result = dissect("a");

       assertEquals("", result);

    }

 

    /**

     *

     */

    public void test001() {

       String result = dissect("空格 a 空格");

       assertEquals("空格/空格", result);

    }

 

    /**

     *

     */

    public void test002() {

       String result = dissect("A");

       assertEquals("a", result);

    }

   

    /**

     *

     */

    public void test003() {

       String result = dissect("u");

       assertEquals("u", result);

    }

 

    public void test004() {

       String result = dissect("刚买的u盘的容量");

       assertEquals("/买的/u/容量", result);

    }

   

    public void test005() {

       String result = dissect("K歌之王很好听");

       assertEquals("k歌之王/很好/好听", result);

    }

    // --------------------------------------------------------------

    // 仅包含词语的句子分词策略

    // --------------------------------------------------------------

 

    /**

     * 句子全由词典词语组成,但词语之间没有包含、交叉关系

     */

    public void test100() {

       String result = dissect("台北中文国际");

       assertEquals("台北/中文/国际", result);

    }

 

    /**

     * 句子全由词典词语组成,但词语之间有包含关系

     */

    public void test101() {

       String result = dissect("北京首都机场");

       assertEquals("北京/首都/机场", result);

    }

 

    /**

     * 句子全由词典词语组成,但词语之间有交叉关系

     */

    public void test102() {

       String result = dissect("东西已经拍卖了");

       assertEquals("东西/已经/拍卖/<span style='font-family:宋体;mso-ascii-font-family:"Courier New"; mso-hansi-font-family:"Courier New";mso-bidi-font-family:



Reply all
Reply to author
Forward
0 new messages