爬取失敗問題

89 views
Skip to first unread message

懷文 許

unread,
Aug 22, 2013, 12:15:40 AM8/22/13
to crawlzi...@googlegroups.com
您好 想請教一下再爬取nutch的問題
error:hadoop dfs -mkdir /user/crawler/admin/canon broken 
請問是權限問題嗎?

Jazz Yao-Tsung Wang

unread,
Aug 22, 2013, 12:34:28 AM8/22/13
to crawlzi...@googlegroups.com
1. 可以請您先連線 http://主機IP:50070 看是否能連上嘛?
2. 請切換為 crawler 身份,
user@debian:~$ sudo su - crawler
然後下 /opt/crawlzilla/nutch/bin/hadoop fs -lsr /user 並回報結果
謝謝~

- Jazz


--
You received this message because you are subscribed to the Google Groups "crawlzilla-user" group.
To unsubscribe from this group and stop receiving emails from it, send an email to crawlzilla-us...@googlegroups.com.
For more options, visit https://groups.google.com/groups/opt_out.

懷文 許

unread,
Aug 22, 2013, 12:53:02 AM8/22/13
to crawlzi...@googlegroups.com
您好 50030和50070連的上去 單機版 node數為0應該是正確的吧
但是我下dfs指令會有出現這個問題 bad connection to fs. command aborted.
懷文 許於 2013年8月22日星期四UTC+8下午12時15分40秒寫道:

懷文 許

unread,
Aug 22, 2013, 1:29:12 AM8/22/13
to crawlzi...@googlegroups.com
50030,50070都可以開啓 
但是hadoop dfs 指令不能下
Bad connection to dfs. Command aborted.

Jazz Yao-Tsung Wang

unread,
Aug 22, 2013, 1:56:10 AM8/22/13
to crawlzi...@googlegroups.com
單機版 node 數應該是 1 喔。

您要不要改用我在臉書 PO 的 VM Image 試看看?

- Jazz


--

Shun-Fa Yang

unread,
Aug 22, 2013, 2:09:13 AM8/22/13
to crawlzi...@googlegroups.com, ja...@nchc.narl.org.tw
您好,
您的問題應該是在datanode沒有正常啟動,
若是您的應用是想要了解這個專案,或是透過crawlzilla做data mining,
建議您可以使用2.1版,因使用hadoop local mode方式爬取,
所以會更簡單使用哦,只是暫時還沒有搜尋的UI可以使用,
功能會陸續增加中,也歡迎您回報bug。

順發



Jazz Yao-Tsung Wang於 2013年8月22日星期四UTC+8下午1時56分10秒寫道:

懷文 許

unread,
Aug 22, 2013, 2:30:12 AM8/22/13
to crawlzi...@googlegroups.com
昨天有用jazz大給的vm可以執行 但是50030 70 進不去 localhost:8080那邊的介面功能是可以正常使用的 爬取也不會出錯
但是我用自己ubuntu 10.04 裝 crawlzilla 很多版本都會出現dfs的操作問題 都是碰到50030 70 和 localhot:8080可以進去 
但是node卻沒有實際起動的樣子 導致我不能操作dfs 因為想用nutch做一些mining的研究 但是一直卡在這裡 
等等我會嘗試安裝2.1的版本

懷文 許於 2013年8月22日星期四UTC+8下午12時15分40秒寫道:
Reply all
Reply to author
Forward
0 new messages