安装Nutch

12 views
Skip to first unread message

贾剑峰

unread,
Jun 17, 2006, 7:36:14 AM6/17/06
to langua...@googlegroups.com
由于有了前两天安装srilm的经验,今天终于安装好了Nutch(http://lucene.apache.org/nutch/)的搜索引擎
http://59.77.17.158:8080  大家试一下,主要搜索的是咱们实验室 http://nlp.xmu.edu.cn ,设置搜索深度为3层,还搜到了许多厦大的其它网页。
具体安装过程如下:
1、系统必备:
    nutch.0.6或更高版本;
    jdk1.5.0_07 + Apache Tomcat 5.5.17 Server
    cygwin
2、配置java环境,添加NUTCH_HOME变量指向jdk安装目录
3、nutch解压到任意目录底下,便于自己访问就成;
4、运行cygwin,指向nutch目录,
     运行:bin/nutch 如果跳出一大堆文档就说明设置没有什么问题了
5、抓取网页,我只运行了其中的Intranet crawl
      在 nutch 目录中创建一个包含该网站顶级网址的文件 urls ,包含如下内容: 
     http://nlp.xmu.edu.cn 不用加后缀;
    
     然后编辑conf/crawl-urlfilter.txt 文件,设定过滤信息
      +^http://([a-z0-9]*\.)*xmu.edu.cn/([a-z0-9]*\.)*
     保存退出以后开始抓取
     bin/nutch crawl urls -dir crawl.demo -depth 2 >& crawl.log
     最困扰我的就是这一行了,不知道是什么原因,crawl总是把参数识别错误,总是定位不到指定的urls文件中去,折腾了好久,最后只设置一个参数就能识别了,有些诡异;
     抓取之后产生了crawl.demo文件夹,里面包含了抓取的内容,自己设定,但如果文件夹已经存在会报错。
6、配置tomcat
     将nutch-0.6.war拷贝到tomcat/webapps下面,改名nutch
   启动tomcat,等war解开以后,打开
    tomcat\webapps\nutch\WEB-INF\classes\nutch-site.xml
    修改如下
<nutch-conf>
<property>
    <name>searcher.dir</name>
    <value>{前面抓取的索引的完整目录}</value>
</property>
</nutch-conf>
7、解决中文显示的问题: 
    \tomcat\conf\server.xml 找到以下段,并修改
    <Connector port="8080"
               maxThreads="150" minSpareThreads="25" maxSpareThreads="75"
               enableLookups="false" redirectPort="8443" acceptCount="100"
               debug="0" connectionTimeout="20000"
               disableUploadTimeout="true"
               URIEncoding="UTF-8" useBodyEncodingForURI="true" />
 
8、重启tomcat 即可
 
另外,nutch只能做root根目录,要不图片显示不出来,而且查询也无效。
 
试了一下,发现中文切词很简单,效果不好,不过作为一个底子,而且是apache底下、基于lucene的开源搜索引擎,改起来要方便的多了

--
Joyce

mandel

unread,
Jun 18, 2006, 5:33:59 AM6/18/06
to 语言技术中心论坛
很好。终于可以用来搜索厦大的网页了。正好厦大原来的网页搜索不见了(?还是我没看见?)。

几个链接(网页快照) (评分详解) (anchors) (more from
...)中,(网页快照)工作很好,其他的就不行了。

几个改进的地方:摘要好像不是很合适?(陈怡疆要发挥你的能力了!)分词的问题是,是按照“字”处理的,好像没有分词。其他问题我倒看不出。你可以检索“医学院”试试。我们应该要解决这个问题。可以利用我们的分词工具?

还有,你可以把整个厦大的网页都下载下来,为什么限于3层?这正是我们的目的之一。要不然我们买服务器干什么?

还有,添加一个“翻译此页“选项,可以做语言识别,自动加”翻译为英语“或”翻译为汉语“,虽然我们的翻译引擎这么差。毅东和张慧,努力哦!

Joyce, 你的工作量很大哦!

贾剑峰

unread,
Jun 18, 2006, 5:58:55 AM6/18/06
to langua...@googlegroups.com
我只是刚刚安装好,都是现成的,具体的程序改写都没有做,如果要把全厦大的网页都搞下来的话,肯定是要大机器了,几十G可能都不只了。
周一去搞搞看。

--
Joyce

Jacky

unread,
Jun 19, 2006, 4:12:46 AM6/19/06
to 语言技术中心论坛
厦门大学的网页我以前已经下载过大部分,约30G。可以先拿去做实验。
放在那台IBM大机器上面。具体目录忘了,找找看,应该不会藏得很深。
当时是用wget抓取的。

贾剑峰

unread,
Jun 19, 2006, 8:00:43 AM6/19/06
to langua...@googlegroups.com
慧哥,过得怎么样啊?还会说中国话不?呵呵
你以前下的都在,好像很多,不知30G,只是nutch还不熟,索引merge不起来,再研究研究。
 
在06-6-19,Jacky <jacky...@126.com> 写道:
--
Joyce
Reply all
Reply to author
Forward
0 new messages