crawl setup是否能只抓網內?

54 views
Skip to first unread message

JC

unread,
Apr 11, 2013, 4:08:55 AM4/11/13
to crawlzi...@googlegroups.com
crawl setup是否可能只抓網內?
雖有設depth, 但是就算只設 2, 還是可能抓到網外的url
如果我只需要網內的資料
有無哪裡可以設定?
感謝大家!

Jazz Yao-Tsung Wang

unread,
Apr 11, 2013, 4:51:00 AM4/11/13
to crawlzi...@googlegroups.com
Nutch 有白名單跟黑名單的擴充套件。目前 Crawlzilla 並沒有啟用。
所以如果您有特殊需求,請參閱
http://www.atlantbh.com/precise-data-extraction-with-apache-nutch/

- Jazz



--
You received this message because you are subscribed to the Google Groups "crawlzilla-user" group.
To unsubscribe from this group and stop receiving emails from it, send an email to crawlzilla-us...@googlegroups.com.
For more options, visit https://groups.google.com/groups/opt_out.



Jazz Yao-Tsung Wang

unread,
Apr 11, 2013, 4:59:32 AM4/11/13
to crawlzi...@googlegroups.com
主要應該是改 /opt/crawlzilla/nutch/conf/crawl-urlfilter.txt

改成

# 只接受什麼網址
# accept hosts in MY.DOMAIN.NAME

+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/
+^http://([a-z0-9]*\.)*.*/

# 開啟過濾掉其他的網址
# skip everything else
-.
 
# 關掉原本開放的所有網址
#accecpt anything else
# +.*

- Jazz

JC

unread,
Apr 11, 2013, 5:02:58 AM4/11/13
to crawlzi...@googlegroups.com
Jazz, 非常感謝您~ 我試看看

JC於 2013年4月11日星期四UTC+8下午4時08分55秒寫道:

Jazz Yao-Tsung Wang

unread,
Apr 11, 2013, 5:36:19 AM4/11/13
to crawlzi...@googlegroups.com
剛剛測試過將 crawl-utlfilter.txt 設定成只爬取特定網域,結果是成功的。

最後幾行為


# accept hosts in MY.DOMAIN.NAME
+^http://([a-z0-9]*\.)*nchc.org.tw/
#+^http://([a-z0-9]*\.)*.*/

# skip everything else
-.
#accecpt anything else
#+.*

爬取來源 http://www.nchc.org.tw/tw/ 深度 2

Crawl Depth 2
Create Time 20130411-17:11:26
Execution time 0:18:6
Start Links http://www.nchc.org.tw/tw/

網址排行榜:通通落在 nchc.org.tw 範圍內。

0site:www.nchc.org.tw54
1site:service.nchc.org.tw4
2 site:event.nchc.org.tw2
3site:colife.nchc.org.tw1
4site:www.floodgrid.nchc.org.tw 1
5site:humem.nchc.org.tw1
6site:elib.nchc.org.tw1
7site:pccluster.nchc.org.tw1
8site:nano.nchc.org.tw1
9site:volunteer.nchc.org.tw1
10site:ecogrid.nchc.org.tw1
11 site:bioinfo.nchc.org.tw1
12site:accta.nchc.org.tw1

- Jazz

JC

unread,
Apr 12, 2013, 12:51:52 AM4/12/13
to crawlzi...@googlegroups.com, ja...@nchc.narl.org.tw
感謝Jazz
確實可以只抓網內url

Jazz Yao-Tsung Wang於 2013年4月11日星期四UTC+8下午5時36分19秒寫道:
Reply all
Reply to author
Forward
0 new messages