已自行安裝java,但install過程一樣卡在java地方

159 views
Skip to first unread message

游文豪

unread,
Dec 31, 2013, 12:25:08 AM12/31/13
to crawlzi...@googlegroups.com
OS:CentOS 6.5 64bit
抓抓龍版本:Crawlzilla-1.1.2.tar.gz

root@logsrv Crawlzilla_Install]# java -version
java version "1.7.0_45"
OpenJDK Runtime Environment (rhel-2.4.3.4.el6_5-x86_64 u45-b15)
OpenJDK 64-Bit Server VM (build 24.45-b08, mixed mode)

執行./install後會一直執行到
Package dialog-1.1-9.20080819.1.el6.x86_64 already installed and latest version
Nothing to do
--2013-12-31 13:22:08-- https://sourceforge.net/projects/crawlzilla/files/other/jdk-6u21-linux-x64-rpm.bin/download
正在查找主機 sourceforge.net... 216.34.181.60
正在連接 sourceforge.net|216.34.181.60|:443... 連上了。
錯誤: certificate common name `*.sourceforge.net' doesn't match requested host name `sourceforge.net'.
如果不想用安全模式連接 sourceforge.net,請使用 ‘--no-check-certificate’ 選項
錯誤:開啟 /root/Crawlzilla_Install/jdk-6u21-linux-amd64.rpm 失敗:沒有此一檔案或目錄
Please install Sun JAVA 1.6.X or above version
[root@logsrv Crawlzilla_Install]#

就停住了,並產生一個空白jdk-6u21-linux-x64-rpm.bin檔案,不知如何進行下一步,是否要修改什麼?

Jazz Yao-Tsung Wang

unread,
Jan 2, 2014, 6:39:16 AM1/2/14
to crawlzi...@googlegroups.com
您好,

這個問題應該是程式碼中 wget 要連線 SSL (HTTPS://) 造成的問題
(這算是 2013 年的新問題,DNS SSL 認証)
我查一下,請修改 install 的第 414 行,加上紅字的部份,然後重新執行 ./install 看看:

function yum_install_sun_java_x86_64 ( )
{
wget --no-check-certificate -nc 'https://sourceforge.net/projects/crawlzilla/files/other/jdk-6u21-linux-x64-rpm.bin/download' -O $Work_Path/jdk-6u21-linux-x64-rpm.bin

其次,這段程式想做的事情是到 SourceForge 下載 Oracle JDK 6
而您已經安裝 OpenJDK。

就我們的測試經驗,OpenJDK 跟 Hadoop, Nutch 會有一些相容問題,
因此即便您安裝了 OpenJDK 還是會再安裝




--
You received this message because you are subscribed to the Google Groups "crawlzilla-user" group.
To unsubscribe from this group and stop receiving emails from it, send an email to crawlzilla-us...@googlegroups.com.
For more options, visit https://groups.google.com/groups/opt_out.

游文豪

unread,
Jan 2, 2014, 10:08:20 AM1/2/14
to crawlzi...@googlegroups.com, ja...@nchc.narl.org.tw
jazz您好

加上紅字後可以順利完成安裝,若openSDK有相容問題是否建議移掉再使用你們install方式安裝較佳?

另外1.1.2版本是目前的最新穩定版本嗎?因為看到下載頁面是Looking for the latest version? Download Crawlzilla-1.1.2.tar.gz (7.4 MB)

但同頁面又有V1.5, V2.0.這樣應該要下載那一個版本會比較好?

Jazz Yao-Tsung Wang

unread,
Jan 2, 2014, 11:02:57 AM1/2/14
to crawlzi...@googlegroups.com
1. 只要 $JAVA_HOME 設定正確,不移除也沒關係。
2. V1.5 有做一些更新,
  V2.0+ 已經移到 github - http://github.com/shunfa/crawlzilla,主要是架構大升級,改用 Solr
    不過這幾個版本穩定性都沒有經過完整的驗證,1.1.2 是有拿來架設 demo.crawlzilla.info 的版本。
    當然我們也在過程中學到一些效能調校的參數。可參考 http://trac.nchc.org.tw/grid/wiki/jazz/demo.crawlzilla.info
3. 目前三位 Crawlzilla 的主力開發者都離開了,所以後續就要看還有沒有人可以接手。想挑戰的,不妨從 fork github 開始。

- Jazz



2014/1/2 游文豪 <magu...@gmail.com>

游文豪

unread,
Jan 2, 2014, 10:14:02 PM1/2/14
to crawlzi...@googlegroups.com, ja...@nchc.narl.org.tw
在測試時的爬取狀態出現 error: nutch crawl finished broken
看之前文章跟RAM是否有關係?我主機有16GB,還是說要在那個檔案作調校?
我用的版本是1.5版

系統爬取狀態

索引庫名稱
爬取狀態
爬取時間
刪除狀態
xxx_WEB
error: nutch crawl finished broken
1h:29m:40s

Jazz Yao-Tsung Wang

unread,
Jan 10, 2014, 2:22:05 PM1/10/14
to crawlzi...@googlegroups.com
抱歉,最近有點忙。
我還在找有哪裡有進一步的 Nutch Log 可以看。
可以請您提供 /var/log/crawlzilla/shell-logs 底下的 crawl_go-日期.log 嘛?

- Jazz


游文豪

unread,
Jan 13, 2014, 12:35:02 AM1/13/14
to crawlzi...@googlegroups.com
我用你們製作的crawlzilla_1.1.2.ova也有同樣狀況
以ova版本出來的log只有這些內容

user@debian:/var/log/crawlzilla/shell-logs$ cat crawl_go-140107.log

*****************************************************
* 2014/01/07-01:56:43 => crawl_go begin   *
* System Version: 1.1.111102    *
*****************************************************
< 01:56:45> -  user=admin ,name= 1 , depth= 3
< 01:56:45> -  url= http://www.xxx.edu.tw

*****************************************************
* 2014/01/07-02:37:16 => crawl_go begin   *
* System Version: 1.1.111102    *
*****************************************************
< 02:37:18> -  user=admin ,name= test2 , depth= 3
< 02:37:18> -  url= http://www.xxx.xxx.edu.tw/
< 02:50:25> - <
< 03:30:53> - <
user@debian:/var/log/crawlzilla/shell-logs$ cat crawl_go-140113.log

*****************************************************
* 2014/01/13-01:10:09 => crawl_go begin   *
* System Version: 1.1.111102    *
*****************************************************
< 01:10:11> -  user=admin ,name= test0113 , depth= 3
< 01:10:11> -  url= http://www.xxx.edu.tw
< 02:03:40> - <
user@debian:/var/log/crawlzilla/shell-logs$



Reply all
Reply to author
Forward
0 new messages