Re: 排程爬取問題

34 views
Skip to first unread message

Jazz Yao-Tsung Wang

unread,
Jan 29, 2013, 3:57:26 AM1/29/13
to ttz0...@tzuchi.org.tw, crawlzi...@googlegroups.com, shu...@nchc.org.tw
您好:

因為開發人力減少,
目前還沒有新版本可以解決這個問題。

- Jazz

2013/1/29 <ttz0...@tzuchi.org.tw>
>
> 您好:
> 請問關於下面的問題,目前是否有新版本可以解決?
>
> 感恩
>
>
> ----- 轉呈者 李哲銘/Tzuchi 於 2013/01/23 上午 09:11 -----
>
> Jazz Yao-Tsung Wang <ja...@nchc.narl.org.tw>
>
> 2012/12/14 下午 05:15
>
> 收件人
> ttz0...@tzuchi.org.tw
> 副本抄送
> crawlzi...@googlegroups.com, shunfa 楊順發 <shu...@nchc.org.tw>
> 主旨
> Re: 排程爬取問題
>
>
>
>
>
> > 我現在正在測試排程爬取,設定為每天早上三點開始。但是,我每天發現都出現fix job的狀態。
> > 目前是兩台主機且記憶體2G,深度2、3都試過,請問這是什麼問題?
>
> 抱歉。這個問題我也常遇到,但實際發生的原因還沒有找到「規律」。
>
> > 另一個問題是我執行過fix job後,必須重啟Crawlzilla程式才能正常搜尋,不然會出現搜尋之後變會空白畫面。
>
> 這個問題我也遇過,因為檔案系統變了(目錄 file descriptor 改變),所以 Tomcat 拿不到索引庫就會發生這種現象。
> 先前威宇說已經解掉,不過我還是很常遇到,因此目前正在改整個架構,希望不要有太多這種狀況。
>
> - Jazz

Jazz Yao-Tsung Wang

unread,
Feb 20, 2013, 5:54:12 AM2/20/13
to ttz0...@tzuchi.org.tw, NCHC-YangShunFa, crawlzilla-user
> 您好:
> 您的意思是說,它只能爬取沒有設定帳號跟密碼的網頁嗎?
> 感恩

需自行手動設定,Crawlzilla 介面「目前」只支援爬取沒設帳號密碼的網頁。
(因為會涉及資料安全性的問題)

- Jazz

Jazz Yao-Tsung Wang

unread,
Feb 20, 2013, 11:12:54 PM2/20/13
to ttz0...@tzuchi.org.tw, crawlzilla-user, NCHC-YangShunFa
可以請教您爬取的深度?

一般來說容易發生爬取錯誤的狀況主要是爬取時間大於四小時。
原因包括:(1) 深度太多 (2) 包含的連結太多,無法在四小時內爬取完畢。

- Jazz

2013/2/21 <ttz0...@tzuchi.org.tw>
> 您好:
> test及test-1都是爬取失敗的狀況,但我按了Delete Status後,過了將近一天的時間
> ,畫面顯示沒有刪除,而且爬取時間還不斷的增加。
> 請問這是什麼原因?
> 感恩
Reply all
Reply to author
Forward
0 new messages