安装Nutch

贾剑峰

unread,

Jun 17, 2006, 7:36:14 AM6/17/06

to langua...@googlegroups.com

由于有了前两天安装srilm的经验，今天终于安装好了Nutch（http://lucene.apache.org/nutch/）的搜索引擎

http://59.77.17.158:8080 大家试一下，主要搜索的是咱们实验室 http://nlp.xmu.edu.cn ，设置搜索深度为3层，还搜到了许多厦大的其它网页。

具体安装过程如下：

1、系统必备：

nutch.0.6或更高版本；

jdk1.5.0_07 + Apache Tomcat 5.5.17 Server

cygwin

2、配置java环境，添加NUTCH_HOME变量指向jdk安装目录

3、nutch解压到任意目录底下，便于自己访问就成；

4、运行cygwin，指向nutch目录，

运行：bin/nutch 如果跳出一大堆文档就说明设置没有什么问题了

5、抓取网页，我只运行了其中的Intranet crawl

在 nutch 目录中创建一个包含该网站顶级网址的文件 urls ，包含如下内容：
http://nlp.xmu.edu.cn 不用加后缀；

     然后编辑conf/crawl-urlfilter.txt 文件，设定过滤信息
      +^http://([a-z0-9]*\.)*xmu.edu.cn/([a-z0-9]*\.)*
     保存退出以后开始抓取

bin/nutch crawl urls -dir crawl.demo -depth 2 >& crawl.log

最困扰我的就是这一行了，不知道是什么原因，crawl总是把参数识别错误，总是定位不到指定的urls文件中去，折腾了好久，最后只设置一个参数就能识别了，有些诡异；

抓取之后产生了crawl.demo文件夹，里面包含了抓取的内容，自己设定，但如果文件夹已经存在会报错。

6、配置tomcat

将nutch-0.6.war拷贝到tomcat/webapps下面，改名nutch

   启动tomcat，等war解开以后，打开

    tomcat\webapps\nutch\WEB-INF\classes\nutch-site.xml

    修改如下

<nutch-conf>
<property>
    <name>searcher.dir</name>
    <value>{前面抓取的索引的完整目录}</value>
</property>
</nutch-conf>

7、解决中文显示的问题：

\tomcat\conf\server.xml 找到以下段，并修改

8、重启tomcat 即可

另外，nutch只能做root根目录，要不图片显示不出来，而且查询也无效。

试了一下，发现中文切词很简单，效果不好，不过作为一个底子，而且是apache底下、基于lucene的开源搜索引擎，改起来要方便的多了

--
Joyce

mandel

unread,

Jun 18, 2006, 5:33:59 AM6/18/06

to 语言技术中心论坛

很好。终于可以用来搜索厦大的网页了。正好厦大原来的网页搜索不见了（？还是我没看见？）。

几个链接(网页快照) (评分详解) (anchors) (more from
...)中，(网页快照)工作很好，其他的就不行了。

几个改进的地方：摘要好像不是很合适？（陈怡疆要发挥你的能力了！）分词的问题是，是按照“字”处理的，好像没有分词。其他问题我倒看不出。你可以检索“医学院”试试。我们应该要解决这个问题。可以利用我们的分词工具？

还有，你可以把整个厦大的网页都下载下来，为什么限于3层？这正是我们的目的之一。要不然我们买服务器干什么？

还有，添加一个“翻译此页“选项，可以做语言识别，自动加”翻译为英语“或”翻译为汉语“，虽然我们的翻译引擎这么差。毅东和张慧，努力哦！

Joyce, 你的工作量很大哦！

贾剑峰

unread,

Jun 18, 2006, 5:58:55 AM6/18/06

to langua...@googlegroups.com

我只是刚刚安装好，都是现成的，具体的程序改写都没有做，如果要把全厦大的网页都搞下来的话，肯定是要大机器了，几十G可能都不只了。
周一去搞搞看。

--
Joyce

Jacky

unread,

Jun 19, 2006, 4:12:46 AM6/19/06

to 语言技术中心论坛

厦门大学的网页我以前已经下载过大部分，约30G。可以先拿去做实验。
放在那台IBM大机器上面。具体目录忘了，找找看，应该不会藏得很深。
当时是用wget抓取的。

贾剑峰

unread,

Jun 19, 2006, 8:00:43 AM6/19/06

to langua...@googlegroups.com

慧哥，过得怎么样啊？还会说中国话不？呵呵

你以前下的都在，好像很多，不知30G，只是nutch还不熟，索引merge不起来，再研究研究。

在06-6-19，Jacky <jacky...@126.com> 写道：

--
Joyce

Reply all

Reply to author

Forward