Re: 陳威宇先生您好

128 views
Skip to first unread message

威宇

unread,
Mar 8, 2013, 10:27:25 AM3/8/13
to 許育峰, crawlzi...@googlegroups.com
你好,crawlzilla 是一個AP層級的軟體,ip 與 mac address 都是透過下系統指令再grep 出來的,因此請確認你的 linux  os 這些資訊都正常無誤

如果都沒問題,那有可能是 fedora 對於 ip, mac 的information 用不同的naming ,這個需要與開發者回報 ,謝謝



許育峰 <yufe...@mis.nsysu.edu.tw> 於 2013年3月8日下午3:31 寫道:
陳威宇先生您好,

我是中山大學資管所博士研究生許育峰,目前正在嘗試安裝您與另外兩位同事共同發表的Crawlzilla
但目前遇到問題想向您求助。
在安裝Crawlzilla的過程中,程式抓不到我的網路卡(抓不到Ip address, mac address), 不知是否跟程式要我手動啟動ssh有關?

我的作業系統是fedora 17, 安裝在Oracle Virtual box之上, crawlzilla是 v 1.1.2

請您給我一些指點,非常感謝。

許育峰 敬上

--
All the best,

Yu-Feng Hsu 
Ph.D Candidate
President of the Ph.D students' association
Department of Information Management
National Sun Yat-sen University
No.70, Lianhai Rd., Gushan District
Kaohsiung City 804, Taiwan
TEL: 886-7-5252000ext.4760

Patrick Su (蘇介吾)

unread,
Mar 8, 2013, 2:58:37 PM3/8/13
to crawlzi...@googlegroups.com
答案應該很簡單, 不是網卡 + /etc/hosts設錯, 就是 selinux 沒關掉.

另外請叫一下, 我在 Crawlzilla 安裝 HBase (tarball), 環境是 Ubuntu 10.04 32bit, 請問 hbase 有什麼要注意的地方? 我打 /opt/hbase/bin/start-hbase.sh 是可以運作的, 但是修改 /opt/hbase/conf/hbase-site.conf 是參考 Jazz 王在 Trac 上的 HBase wiki 簡易安裝文章, 我想用網頁介面去控管, 應該要做哪些設定呢?

ps. 我的 /opt/crawlzilla/conf/nutch-core.conf 的主機設定是ip (192.168.2.100) 而不是 localhost, 
請問以下 hbase-site.conf 醬子設定對嗎?

<property>
    <name>hbase.rootdir</name>
    <value>hdfs://192.168.2.100:9000/hbase</value>
    <description>The directory shared by region servers.
    </description>
</property>
<property>
    <name>hbase.master</name>
    <value>192.168.2.100:60000</value>
    <description>The host and port that the HBase master runs at.
    </description>
</property>

可是我啟動後可以進入命令模式 bin/hbase shell
卻無法從網頁登入, 我有另外加裝 apache2 + php 5.3, 但是打 http://192.168.2.100/hbase 卻找不到網頁, 是不是要做 Alias 或是要設定 ln -s /opt/hbase/... 指到 /var/www/hbase ?

煩請有空再回覆, 謝謝 ^_^


Your Sincerely
Patrick Su  102/03/09  03:58a @ 桃園楊梅


--
You received this message because you are subscribed to the Google Groups "crawlzilla-user" group.
To unsubscribe from this group and stop receiving emails from it, send an email to crawlzilla-us...@googlegroups.com.
For more options, visit https://groups.google.com/groups/opt_out.
 
 



--

◢▄◣ 蘇介吾 / 家住楊梅市新農街
○○█ Mobile: 0921-380997 
◥○◤ Email : afg...@gmail.com
▂██ FB: http://fb.me/afgnsu
▂█◤ Website : afgn.idv.tw

Jazz Yao-Tsung Wang

unread,
Mar 8, 2013, 8:50:47 PM3/8/13
to 許育峰, crawlzi...@googlegroups.com
許同學,

如果您只是想要嘗試使用 Crawlzilla 的話,近期有製作一個 Crawlzilla 1.1.2 版本的 OVF Image。
您可以至以下網址下載,並在 VirtualBox 用匯入的方式啟用。
http://cloud.nchc.org.tw/download/crawlzilla_1.1.2.ova

礙於 Crawlzilla 設定檔中有許多涉及網路,考量每個使用者執行時會取得不同 IP 位址。
因此設定上暫設定為 localhost ,亦因此只能單機執行。
如需架設多台 VM 形成叢集式的環境,再另外協助您架設。

關於此虛擬機器的資訊:

作業系統:Debian Linux 6.0.7 (Squeeze)
Java版本:Oracle JDK/JRE 6.0
Crawlzilla:1.1.2

Linux 使用者:user / 密碼: crawlzilla
Crawlzilla 管理者可以將虛擬機器的 8080 port 通透到 NAT 之外,
或連線到 http://虛擬機器 IP : 8080
會讓您設定新的密碼跟管理者 e-mail

以上,若 VM 使用上有問題,或者希望建立叢集式的環境,
歡迎再與敝團隊討論。

- Jazz

2013/3/8 威宇 <waue...@gmail.com>:

Jazz Yao-Tsung Wang

unread,
Mar 8, 2013, 8:54:58 PM3/8/13
to crawlzi...@googlegroups.com
> ps. 我的 /opt/crawlzilla/conf/nutch-core.conf 的主機設定是ip (192.168.2.100) 而不是
> localhost,
> 請問以下 hbase-site.conf 醬子設定對嗎?

這部份看起來雖是正確,但啟動 HBase 的步驟會有影響。

> 可是我啟動後可以進入命令模式 bin/hbase shell
> 卻無法從網頁登入,

我是不知道 HBase 哪裡有「網頁登入」,
可能講一下是要連哪個 Port 的網頁會比較確定是哪個 HBase Daemon 有問題。
基本上論壇我都會要求下 jps 跟 netstat -nap 兩個指令,有這兩個結果通常就可以判斷為什麼連不上。

> 我有另外加裝 apache2 + php 5.3, 但是打 http://192.168.2.100/hbase 卻找不到網頁,
> 是不是要做 Alias 或是要設定 ln -s /opt/hbase/... 指到 /var/www/hbase ?

這又是另一段問題了,HBase 要搭配 Thrift 才有辦法與 PHP 互動。
可參考陳威宇先生寫的筆記
http://trac.nchc.org.tw/cloud/wiki/waue/2010/HbaseThrift

- Jazz

許育峰

unread,
Mar 9, 2013, 2:01:18 AM3/9/13
to crawlzi...@googlegroups.com, 許育峰, ja...@nchc.narl.org.tw
感謝各位前輩的回覆,抓不到ip address and mac address的問題已解決。小弟目前己將crawlzilla安裝完成。目前在嘗試要爬取資料時發生另一個問題,以下是錯誤訊息:

error: hadoop dfs -mkdir /user/crawler/admin/yahoo broken

我瀏覽了論壇的資料,發現這可能是namenode的問題,但之前的討論串似乎都沒有進一步的解決方法。
請教各位前輩是否有方法可以解決?

謝謝

Jazz Yao-Tsung Wang

unread,
Mar 9, 2013, 2:26:40 AM3/9/13
to 許育峰, crawlzi...@googlegroups.com
您好:

這個問題近期我有發現,因為目前開發團隊的重心在放在 2.1 版,
https://github.com/shunfa/crawlzilla
還沒有去找出是否 1.1.2 安裝程序上是否有遺漏或已經不恰當的地方。

已知解決方法:

su - crawler
先切換成 crawler 身份
然後執行以下指令

/opt/crawlzilla/nutch/bin/hadoop fs -mkdir /user/crawler

- Jazz

2013/3/9 許育峰 <yufe...@mis.nsysu.edu.tw>:

許育峰

unread,
Mar 9, 2013, 4:26:14 AM3/9/13
to crawlzi...@googlegroups.com, 許育峰, ja...@nchc.narl.org.tw


感謝Jazz前輩的回覆。我有嘗試執行您說的指令,但得到的系統回應如下:
Bad connection to FS. command aborted.

我想嘗試安裝其它版本的crawlzilla,請問您建議2.1版,或是較舊的版本?

謝謝

許育峰

unread,
Mar 10, 2013, 9:02:07 AM3/10/13
to crawlzi...@googlegroups.com, 許育峰, ja...@nchc.narl.org.tw
Jazz前輩您好

今天使用您提供的OVF image檔,想把系統改為runlevel 5時才發現沒有root權限可以改變。
可否請您告知root之登入密碼,或是其它可切換X-window的方法?(startx無法啟動)

謝謝您

Jazz Yao-Tsung Wang

unread,
Mar 10, 2013, 12:45:12 PM3/10/13
to 許育峰, crawlzi...@googlegroups.com
您好:

> 感謝Jazz前輩的回覆。我有嘗試執行您說的指令,但得到的系統回應如下:
> Bad connection to FS. command aborted.
> 我想嘗試安裝其它版本的crawlzilla,請問您建議2.1版,或是較舊的版本?

可能要看您想用 Crawlzilla 來處理什麼事情。
2.1 版回歸單機版,且還沒正式釋出。

- Jazz

Jazz Yao-Tsung Wang

unread,
Mar 10, 2013, 12:47:32 PM3/10/13
to 許育峰, crawlzi...@googlegroups.com
> 今天使用您提供的OVF image檔,想把系統改為runlevel 5時才發現沒有root權限可以改變。
> 可否請您告知root之登入密碼,或是其它可切換X-window的方法?(startx無法啟動)

1. 預設我是把 root SSH 登入設為 false,因此您可以用 user 身份,透過 sudo su - 的方式切換成 root
2. 目前 OVF Image 沒有安裝 X-Windows。若有需要,必須自行安裝,如執行 apt-get install xfce

- Jazz

Jazz Yao-Tsung Wang

unread,
Mar 11, 2013, 2:03:47 AM3/11/13
to 許育峰, crawlzi...@googlegroups.com
我的作法是把 VM 的 8080 埠轉成主機的另一個 Port。
若是 VirtualBox 匯入後,已經自動將 VM 的 8080 轉到 VirtualBox 主機上的 8080
將 VM 的 22 轉成 8022

所以您可以 ssh 主機 -p 8022 -l user 連進 VM
也可以用瀏覽器連 http://VirtualBox_Host_IP:8080 直接進行操作。

- Jazz

2013/3/11 許育峰 <yufe...@mis.nsysu.edu.tw>:
> 前輩您好
>
> 我主要想用Crawlzilla來爬取網頁資料;而目前我只知道利用x-windows下的firefox進行爬取設定
> 不知是否可利用文字介面進行爬取之操作?
>
> 謝謝
>
>
> 2013/3/11 Jazz Yao-Tsung Wang <ja...@nchc.narl.org.tw>
step_1.png
step_2.png
step_3.png
Reply all
Reply to author
Forward
0 new messages