Groups
Groups
Sign in
Groups
Groups
crawlzilla-user
Conversations
About
Send feedback
Help
crawlzilla-user
1–30 of 49
Mark all as read
Report group
0 selected
gemini1...@gmail.com
,
Jazz Yao-Tsung Wang
8
3/11/15
安装时碰到问题,识别不到ip地址,求教
已修正權限。 On Wednesday, March 11, 2015 at 9:23:46 PM UTC+8, gemini1...@gmail.com wrote: 下载时报错,提示我没有访问权限
unread,
安装时碰到问题,识别不到ip地址,求教
已修正權限。 On Wednesday, March 11, 2015 at 9:23:46 PM UTC+8, gemini1...@gmail.com wrote: 下载时报错,提示我没有访问权限
3/11/15
zzzbixxx
, …
JC
10
11/6/14
Crawling--> "error:nutch crawl finished broken" ??
使用 CentOS 6.4 64bit/4GB memory 安裝 Crawlzilla 1.1.2 也是會碰到 error: nutch crawl finished broken 不知有何建議來解決
unread,
Crawling--> "error:nutch crawl finished broken" ??
使用 CentOS 6.4 64bit/4GB memory 安裝 Crawlzilla 1.1.2 也是會碰到 error: nutch crawl finished broken 不知有何建議來解決
11/6/14
許育峰
2/22/14
請教segment read的問題
各位前輩大家早安 小弟利用nutch based on hadoop爬取了一些網頁,並用"http://trac.nchc.org.tw/cloud/wiki/waue/2009/0409#
unread,
請教segment read的問題
各位前輩大家早安 小弟利用nutch based on hadoop爬取了一些網頁,並用"http://trac.nchc.org.tw/cloud/wiki/waue/2009/0409#
2/22/14
許育峰
,
Jazz Yao-Tsung Wang
3
2/22/14
請問各位前輩,Crawlzilla是從哪一個版本開始,將Lucene包含在內呢?
了解了,非常謝謝您的指導! Jazz Yao-Tsung Wang於 2014年2月22日星期六UTC+8下午5時56分00秒寫道: Crawlzilla 從最開始就有內含 Lucene 了。主要也是替
unread,
請問各位前輩,Crawlzilla是從哪一個版本開始,將Lucene包含在內呢?
了解了,非常謝謝您的指導! Jazz Yao-Tsung Wang於 2014年2月22日星期六UTC+8下午5時56分00秒寫道: Crawlzilla 從最開始就有內含 Lucene 了。主要也是替
2/22/14
糞坑裡乘涼的屎虫
, …
許育峰
6
1/25/14
ip位置換了,該怎麼改設定?
謝謝jazz前輩的指點,小弟修改這兩個檔案後,重新啟動debian再執行crawlzilla,但仍然是顯示原本的ip位置。 所以我想如果我修改內容沒錯的話,那應該還有其它的檔案會影響crawlzilla
unread,
ip位置換了,該怎麼改設定?
謝謝jazz前輩的指點,小弟修改這兩個檔案後,重新啟動debian再執行crawlzilla,但仍然是顯示原本的ip位置。 所以我想如果我修改內容沒錯的話,那應該還有其它的檔案會影響crawlzilla
1/25/14
游文豪
,
Jazz Yao-Tsung Wang
7
1/13/14
已自行安裝java,但install過程一樣卡在java地方
我用你們製作的crawlzilla_1.1.2.ova也有同樣狀況 以ova版本出來的log只有這些內容 user@debian:/var/log/crawlzilla/shell-logs$ cat
unread,
已自行安裝java,但install過程一樣卡在java地方
我用你們製作的crawlzilla_1.1.2.ova也有同樣狀況 以ova版本出來的log只有這些內容 user@debian:/var/log/crawlzilla/shell-logs$ cat
1/13/14
bake...@gmail.com
,
Jazz Yao-Tsung Wang
2
12/30/13
red hat 4下安装crawlzilla
您好: 不好意思,目前礙於開發人力有限,所以測試的平台以原開發者習慣的 Ubuntu 為主。 Redhat 4 我們會試試看,不過可能要請您持續 push 或者歡迎提供 patch :) 謝謝~ -
unread,
red hat 4下安装crawlzilla
您好: 不好意思,目前礙於開發人力有限,所以測試的平台以原開發者習慣的 Ubuntu 為主。 Redhat 4 我們會試試看,不過可能要請您持續 push 或者歡迎提供 patch :) 謝謝~ -
12/30/13
雷逸志
, …
Jazz Yao-Tsung Wang
3
10/29/13
關於Crawlzilla-12.04 安裝
2013/10/29 雷逸志 > 謝謝老師您耐心的回覆,如您所述的確是使用者名稱的問題,托您的幫忙該問題已順利解決! > 但接著我在一台vm上安裝成功後(Single node),於是我就去
unread,
關於Crawlzilla-12.04 安裝
2013/10/29 雷逸志 > 謝謝老師您耐心的回覆,如您所述的確是使用者名稱的問題,托您的幫忙該問題已順利解決! > 但接著我在一台vm上安裝成功後(Single node),於是我就去
10/29/13
Jim T. Tang
,
Jazz Yao-Tsung Wang
3
10/15/13
關於merge index的實作方法
非常感謝老師寶貴的建議!我會試著從這些方面研究的! 感恩老師! On Monday, October 14, 2013 11:17:22 AM UTC+8, Jim T. Tang wrote: 老師您
unread,
關於merge index的實作方法
非常感謝老師寶貴的建議!我會試著從這些方面研究的! 感恩老師! On Monday, October 14, 2013 11:17:22 AM UTC+8, Jim T. Tang wrote: 老師您
10/15/13
Valen Chen
,
Jazz Yao-Tsung Wang
2
9/27/13
hadoop設定
理論上, 安裝好 Crawlzilla 之後, 可以改 /opt/crawlzilla/nutch/conf/core-site.xml 跟 mapred-site.xml 但由於 Nutch 本身有
unread,
hadoop設定
理論上, 安裝好 Crawlzilla 之後, 可以改 /opt/crawlzilla/nutch/conf/core-site.xml 跟 mapred-site.xml 但由於 Nutch 本身有
9/27/13
懷文 許
, …
Shun-Fa Yang
7
8/22/13
爬取失敗問題
昨天有用jazz大給的vm可以執行 但是50030 70 進不去 localhost:8080那邊的介面功能是可以正常使用的 爬取也不會出錯 但是我用自己ubuntu 10.04 裝
unread,
爬取失敗問題
昨天有用jazz大給的vm可以執行 但是50030 70 進不去 localhost:8080那邊的介面功能是可以正常使用的 爬取也不會出錯 但是我用自己ubuntu 10.04 裝
8/22/13
威宇
, …
C.D Shi
3
7/10/13
Fwd: 有关crawlzilla 一些问题的请教
On Sunday, October 14, 2012 2:50:57 PM UTC+8, 威宇 wrote: > 老师: > 您好! > 我最近在安装crawlzilla,使用的环境
unread,
Fwd: 有关crawlzilla 一些问题的请教
On Sunday, October 14, 2012 2:50:57 PM UTC+8, 威宇 wrote: > 老师: > 您好! > 我最近在安装crawlzilla,使用的环境
7/10/13
懷文 許
,
Jazz Yao-Tsung Wang
3
5/30/13
關于nutch的search介面
另一種方式是用 Luke API 去讀 Nutch 產生的 Index 檔 2012 年暑期我帶實習生將 Luke 的 export To XML 改成 export To SQLite 再讓實習生把
unread,
關于nutch的search介面
另一種方式是用 Luke API 去讀 Nutch 產生的 Index 檔 2012 年暑期我帶實習生將 Luke 的 export To XML 改成 export To SQLite 再讓實習生把
5/30/13
懷文 許
, …
Shun-Fa Yang
5
5/17/13
關於vm上叢集的設定
1. 選擇192.168為首的ip,因為叢集間的溝通都還是靠這組ip位址溝通 2. client_deploy.sh路徑已經更改為:/opt/crawlzilla/slave/slave_deploy.
unread,
關於vm上叢集的設定
1. 選擇192.168為首的ip,因為叢集間的溝通都還是靠這組ip位址溝通 2. client_deploy.sh路徑已經更改為:/opt/crawlzilla/slave/slave_deploy.
5/17/13
JC
, …
Jazz Yao-Tsung Wang
4
4/14/13
memberManagement.jsp problem
IDB 存放的是 Nutch 產生的 index (有點像是網址的反向索引資料庫) 跟爬取過程到的 segment (有點像是「頁面庫存」) tmp 用來存放 re-crawl 成功的舊 IDB
unread,
memberManagement.jsp problem
IDB 存放的是 Nutch 產生的 index (有點像是網址的反向索引資料庫) 跟爬取過程到的 segment (有點像是「頁面庫存」) tmp 用來存放 re-crawl 成功的舊 IDB
4/14/13
JC
, …
Jazz Yao-Tsung Wang
6
4/12/13
crawl setup是否能只抓網內?
感謝Jazz 確實可以只抓網內url Jazz Yao-Tsung Wang於 2013年4月11日星期四UTC+8下午5時36分19秒寫道: 剛剛測試過將 crawl-utlfilter.txt 設定
unread,
crawl setup是否能只抓網內?
感謝Jazz 確實可以只抓網內url Jazz Yao-Tsung Wang於 2013年4月11日星期四UTC+8下午5時36分19秒寫道: 剛剛測試過將 crawl-utlfilter.txt 設定
4/12/13
Joseph Lim
,
Jazz Yao-Tsung Wang
3
4/5/13
Change of hadoop namenode
HI, I can follow the Hadoop version but i am using Ubuntu LTS12.04 On Tuesday, 19 March 2013 23:37:02
unread,
Change of hadoop namenode
HI, I can follow the Hadoop version but i am using Ubuntu LTS12.04 On Tuesday, 19 March 2013 23:37:02
4/5/13
Jazz Yao-Tsung Wang
,
許育峰
2
4/1/13
Re: 抓抓龍_請問虛擬機搜尋結果位置...
Hi Julia 除了Jazz前輩所說的方法之外,若妳想直接在Linux裡開啟檔案,可以嘗試以下的做法 sequence file轉換為可讀文字步驟: 1. 上傳到HDFS bin/hadoop fs
unread,
Re: 抓抓龍_請問虛擬機搜尋結果位置...
Hi Julia 除了Jazz前輩所說的方法之外,若妳想直接在Linux裡開啟檔案,可以嘗試以下的做法 sequence file轉換為可讀文字步驟: 1. 上傳到HDFS bin/hadoop fs
4/1/13
Jazz Yao-Tsung Wang
3/27/13
Re: 有關Crawlzilla1.5客製化
2013/3/28 Julia Chen <yjch...@gmail.com>: > 從您的回答對我們的困境似乎露出一點曙光... > 有關網頁metadata部分是我們的
unread,
Re: 有關Crawlzilla1.5客製化
2013/3/28 Julia Chen <yjch...@gmail.com>: > 從您的回答對我們的困境似乎露出一點曙光... > 有關網頁metadata部分是我們的
3/27/13
許育峰
,
Jazz Yao-Tsung Wang
2
3/19/13
各位論壇的前輩大家好
許同學您好: 就我理解,Nutch (Crawlzilla 底層) 並沒有將網站完整內容存下來, 而是將 HTML 轉成 SequenceFile 的方式存在 segments 中。 要將內容取出,得去
unread,
各位論壇的前輩大家好
許同學您好: 就我理解,Nutch (Crawlzilla 底層) 並沒有將網站完整內容存下來, 而是將 HTML 轉成 SequenceFile 的方式存在 segments 中。 要將內容取出,得去
3/19/13
威宇
, …
Jazz Yao-Tsung Wang
11
3/11/13
Re: 陳威宇先生您好
我的作法是把 VM 的 8080 埠轉成主機的另一個 Port。 若是 VirtualBox 匯入後,已經自動將 VM 的 8080 轉到 VirtualBox 主機上的 8080 將 VM 的 22
unread,
Re: 陳威宇先生您好
我的作法是把 VM 的 8080 埠轉成主機的另一個 Port。 若是 VirtualBox 匯入後,已經自動將 VM 的 8080 轉到 VirtualBox 主機上的 8080 將 VM 的 22
3/11/13
Jazz Yao-Tsung Wang
3/8/13
Re: 轉寄: Re: 回信: Re: 回信: Re: 請教爬取問題
抱歉,過去兩天分別有兩場演講,較晚回覆。 從圖片跟描述看起來,應該是遇到一些奇怪的狀況了。 我確實也曾經遇過一次,只是還沒研究出怎麼重現這個現象。 (1) 關於按「Delete Status」按鈕也無法
unread,
Re: 轉寄: Re: 回信: Re: 回信: Re: 請教爬取問題
抱歉,過去兩天分別有兩場演講,較晚回覆。 從圖片跟描述看起來,應該是遇到一些奇怪的狀況了。 我確實也曾經遇過一次,只是還沒研究出怎麼重現這個現象。 (1) 關於按「Delete Status」按鈕也無法
3/8/13
Joseph Lim
, …
Shun-Fa Yang
8
3/6/13
Solr output
您好, 想问Crawlzilla 的 solr能够安装以下的patch吗? https://issues.apache.org/jira/browse/SOLR-1301 谢谢... On Monday
unread,
Solr output
您好, 想问Crawlzilla 的 solr能够安装以下的patch吗? https://issues.apache.org/jira/browse/SOLR-1301 谢谢... On Monday
3/6/13
Jazz Yao-Tsung Wang
3
2/20/13
Re: 排程爬取問題
可以請教您爬取的深度? 一般來說容易發生爬取錯誤的狀況主要是爬取時間大於四小時。 原因包括:(1) 深度太多 (2) 包含的連結太多,無法在四小時內爬取完畢。 - Jazz 2013/2/21 <
unread,
Re: 排程爬取問題
可以請教您爬取的深度? 一般來說容易發生爬取錯誤的狀況主要是爬取時間大於四小時。 原因包括:(1) 深度太多 (2) 包含的連結太多,無法在四小時內爬取完畢。 - Jazz 2013/2/21 <
2/20/13
Joseph Lim
,
Jazz Yao-Tsung Wang
4
2/15/13
slave_deploy.sh 不見了
已经可以运作~ 谢谢~ On Friday, 15 February 2013 10:05:56 UTC+8, Joseph Lim wrote: 是的, 我也找不到它 /home/crawler/
unread,
slave_deploy.sh 不見了
已经可以运作~ 谢谢~ On Friday, 15 February 2013 10:05:56 UTC+8, Joseph Lim wrote: 是的, 我也找不到它 /home/crawler/
2/15/13
蘇介吾
, …
Joseph Lim
3
2/13/13
ubuntu 10.04 LTS 安裝 java 失敗 >"<
尝试 $ sudo add-apt-repository "deb http://archive.canonical.com/ lucid partner" $ sudo add-
unread,
ubuntu 10.04 LTS 安裝 java 失敗 >"<
尝试 $ sudo add-apt-repository "deb http://archive.canonical.com/ lucid partner" $ sudo add-
2/13/13
蘇介吾
,
Jazz Yao-Tsung Wang
2
1/29/13
請教抓抓龍有安裝HBase 資料庫嗎? 另外客戶端裝了有什麼用?
> 請教抓抓龍有安裝HBase 資料庫嗎? 另外客戶端裝了有什麼用? 1. 抓抓龍沒有安裝 HBase 資料庫。 2. 客戶端是供架設叢集式搜尋引擎用的,若只有單機,則用不到。 > 我們想
unread,
請教抓抓龍有安裝HBase 資料庫嗎? 另外客戶端裝了有什麼用?
> 請教抓抓龍有安裝HBase 資料庫嗎? 另外客戶端裝了有什麼用? 1. 抓抓龍沒有安裝 HBase 資料庫。 2. 客戶端是供架設叢集式搜尋引擎用的,若只有單機,則用不到。 > 我們想
1/29/13
蘇介吾
,
Jazz Yao-Tsung Wang
2
1/28/13
抓抓龍1.1.2 在CentOS 6.3 64bit裝好了, 但是跑不動?!
> houseweb error: nutch crawl finished broken 66h:10m:5s > nchc crawling 0h:44m:5s <= 這個是今天才
unread,
抓抓龍1.1.2 在CentOS 6.3 64bit裝好了, 但是跑不動?!
> houseweb error: nutch crawl finished broken 66h:10m:5s > nchc crawling 0h:44m:5s <= 這個是今天才
1/28/13
蘇介吾
,
Jazz Yao-Tsung Wang
2
1/28/13
如何讓抓抓龍顯示中文?
可以試試看下 crawlzilla 指令,進文字管理介面,有個選項可以選語系。 我先前遇到這種狀況是這樣處理就可以設定成中文~ - Jazz 2013/1/28 蘇介吾 <afgnsu@gmail
unread,
如何讓抓抓龍顯示中文?
可以試試看下 crawlzilla 指令,進文字管理介面,有個選項可以選語系。 我先前遇到這種狀況是這樣處理就可以設定成中文~ - Jazz 2013/1/28 蘇介吾 <afgnsu@gmail
1/28/13
蘇介吾
,
Jazz Yao-Tsung Wang
3
1/28/13
『Error: unable to create new native thread』請問這是什麼意思?
好吧, 我去找 Ubuntu 10.04 LTS 來裝看看吧 >"< 蘇介吾於 2013年1月28日星期一UTC+8下午12時32分09秒寫道: 201301281129_0009
unread,
『Error: unable to create new native thread』請問這是什麼意思?
好吧, 我去找 Ubuntu 10.04 LTS 來裝看看吧 >"< 蘇介吾於 2013年1月28日星期一UTC+8下午12時32分09秒寫道: 201301281129_0009
1/28/13