具体安装过程如下:
1、系统必备:
nutch.0.6或更高版本;
jdk1.5.0_07 + Apache Tomcat 5.5.17 Server
cygwin
2、配置java环境,添加NUTCH_HOME变量指向jdk安装目录
3、nutch解压到任意目录底下,便于自己访问就成;
4、运行cygwin,指向nutch目录,
运行:bin/nutch 如果跳出一大堆文档就说明设置没有什么问题了
5、抓取网页,我只运行了其中的Intranet crawl
bin/nutch crawl urls -dir crawl.demo -depth 2 >& crawl.log
最困扰我的就是这一行了,不知道是什么原因,crawl总是把参数识别错误,总是定位不到指定的urls文件中去,折腾了好久,最后只设置一个参数就能识别了,有些诡异;
抓取之后产生了crawl.demo文件夹,里面包含了抓取的内容,自己设定,但如果文件夹已经存在会报错。
6、配置tomcat
将nutch-0.6.war拷贝到tomcat/webapps下面,改名nutch
启动tomcat,等war解开以后,打开
tomcat\webapps\nutch\WEB-INF\classes\nutch-site.xml
修改如下
<nutch-conf>
<property>
<name>searcher.dir</name>
<value>{前面抓取的索引的完整目录}</value>
</property>
</nutch-conf>
7、解决中文显示的问题:
\tomcat\conf\server.xml 找到以下段,并修改
<Connector port="8080"
maxThreads="150" minSpareThreads="25" maxSpareThreads="75"
enableLookups="false" redirectPort="8443" acceptCount="100"
debug="0" connectionTimeout="20000"
disableUploadTimeout="true"
URIEncoding="UTF-8" useBodyEncodingForURI="true"
/>
8、重启tomcat 即可
另外,nutch只能做root根目录,要不图片显示不出来,而且查询也无效。
试了一下,发现中文切词很简单,效果不好,不过作为一个底子,而且是apache底下、基于lucene的开源搜索引擎,改起来要方便的多了
--
Joyce