Crawling--> "error:nutch crawl finished broken" ??

129 views
Skip to first unread message

zzzbixxx

unread,
Mar 25, 2013, 5:54:31 AM3/25/13
to crawlzi...@googlegroups.com
請問~
1.我在虛擬機上安裝成功後爬行網頁出現
"error:nutch crawl finished broken"...
因為才搜尋一層,不到五分鐘就出現了...想詢問是什麼問題?
2.另外~demo網頁,
http://demo.crawlzilla.info/crawlzilla/
今日也無法連線, 請問何時會修復呢?
再麻煩回覆,感謝~

Jazz Yao-Tsung Wang

unread,
Mar 25, 2013, 6:17:27 AM3/25/13
to crawlzi...@googlegroups.com
> 2.另外~demo網頁,
> http://demo.crawlzilla.info/crawlzilla/
> 今日也無法連線, 請問何時會修復呢?
> 再麻煩回覆,感謝~

demo.crawlzilla.info 已修復

- Jazz

zzzbixxx

unread,
Mar 25, 2013, 6:37:48 AM3/25/13
to crawlzi...@googlegroups.com, ja...@nchc.narl.org.tw

感謝您! 網頁可以登入了, 但是功能似乎有異常
原本爬行結束後可以的select的資料都沒反應..
新建一個crawl也是一樣的問題...

另外就是我在虛擬機上ubuntu10+jre6 ,可以正常crawl
但是一直出現error:nutch crawl finished broken 
麻煩了, 感謝~~

Jazz Yao-Tsung Wang

unread,
Mar 25, 2013, 7:55:36 AM3/25/13
to zzzbixxx, crawlzi...@googlegroups.com
嗯,剛剛嘗試連線總覺得卡卡的。
似乎有連線故意在攻擊(同時連線數有點高)

Anyway, 我發現您的索引庫有4個,是否可以先刪掉幾個?
目前每個帳號只能有3個索引庫。再請您試試看~

- Jazz

2013/3/25 zzzbixxx <yjch...@gmail.com>:

Zoey

unread,
Mar 26, 2013, 3:54:41 AM3/26/13
to crawlzi...@googlegroups.com, zzzbixxx, ja...@nchc.narl.org.tw
我在每次crawling的第9個job也出現這個error message,

fetch /user/crawler/admin/all_running/segments/20130326153818

error: nutch crawl finished broken

目前帳號裡尚未存在有索引庫,請問這是否有解呢??

zzzbixxx

unread,
Mar 26, 2013, 4:25:23 AM3/26/13
to crawlzi...@googlegroups.com, zzzbixxx, ja...@nchc.narl.org.tw
我剛才把記憶體加大就沒這個問題了!!
可以試試看喔~

Zoey

unread,
Mar 26, 2013, 5:03:27 AM3/26/13
to crawlzi...@googlegroups.com, zzzbixxx, ja...@nchc.narl.org.tw
請問是加上這段嗎??

<property>
    <name>mapred.child.java.opts</name>
    <value>-Xmx1024m</value>
    <description>
    </description>
  </property>

原本就已經加入了,是否有其他地方需要修改的??

謝謝

Jazz Yao-Tsung Wang

unread,
Mar 26, 2013, 5:09:45 AM3/26/13
to crawlzi...@googlegroups.com, zzzbixxx
我想必須看您執行 Crawlzilla 的實體機器或虛擬機器,有多少記憶體。
因為 Crawlzilla 1.1.2 沒有做 Hadoop 參數調校,所以記憶體需求應該會高於 2GB 以上。
如果在虛擬機器上跑,建議記憶體最好至少配 2GB。

http://code.google.com/p/crawlzilla/wiki/SystemInstall_hint
- 硬體規格建議:記憶體 1.5G以上

- Jazz
> --
> You received this message because you are subscribed to the Google Groups
> "crawlzilla-user" group.
> To unsubscribe from this group and stop receiving emails from it, send an
> email to crawlzilla-us...@googlegroups.com.
> For more options, visit https://groups.google.com/groups/opt_out.
>
>

Jazz Yao-Tsung Wang

unread,
Mar 27, 2013, 9:33:20 AM3/27/13
to Julia Chen, crawlzi...@googlegroups.com
> 抱歉打擾了,請問個小問題
> 我的虛擬機執行顯示怎麼少了表格?
> 是少了什麼元件嗎?

可以告知環境?瀏覽器種類( IE 6 ?! ) + 螢幕解析度
我猜想應該是因為解決解析度的關係吧~
那部份印象是用 jQuery 寫的,所以會受到螢幕解析度的影響。

> 另外~demo網站又掛了...@@

OK,let me check XD

- Jazz

JC

unread,
Nov 6, 2014, 10:32:08 PM11/6/14
to crawlzi...@googlegroups.com

使用 CentOS 6.4 64bit/4GB memory 安裝 Crawlzilla 1.1.2
也是會碰到 error: nutch crawl finished broken
不知有何建議來解決?
非常感謝

zzzbixxx於 2013年3月25日星期一UTC+8下午5時54分31秒寫道:
Reply all
Reply to author
Forward
0 new messages