Re: 有關Crawlzilla1.5客製化

235 views
Skip to first unread message

Jazz Yao-Tsung Wang

unread,
Mar 27, 2013, 9:54:57 PM3/27/13
to Julia Chen, crawlzi...@googlegroups.com
2013/3/28 Julia Chen <yjch...@gmail.com>:
> 從您的回答對我們的困境似乎露出一點曙光...
> 有關網頁metadata部分是我們的重點!
> 我們需要能爬單純的靜態網頁,也能爬資料庫網頁..就是隱藏在web的資料庫搜尋結果,
> 那些網頁不存在,要執行查詢才能顯示的資料...

一般來說,資料庫網頁的部份得要看情境:
(1) 資料庫是自己所有 - 那使用 Solr 去幫忙建資料庫的索引,也許是比較簡單的方式
(2) 資料庫非自己所有 - 得設法了解查詢的機制,如果查詢是用 POST 在傳遞查詢字元,那 Nutch 也會比較難處理
  http://wiki.apache.org/nutch/HttpPostAuthentication

> 我們知道Crawlzilla至少能爬六層..
> 除了單純的靜態網頁,
> Crawlzilla 也能爬那些需要執行查詢動作才能動態建立結果網頁的資料嗎??

如果只是連結 search.php?q=關鍵字,就能拿到 HTML 結果,那當然最差最差就是人工產生所有關鍵字列表給它去抓

現階段更複雜的會是 AJAX Crawler .... 如果該資料庫查詢頁面已經是改用 AJAX 去產生最後的查詢結果
那 crawler 會非常難寫(這點連 Google 都沒輒),我曾經研究過可行的方法是直接用瀏覽器來當 Crawler .....
那又是另外一個層次的問題了.....

此外,若資料庫非自己所有,去搜尋別人資料庫的資料,經整理後,
是否可以據為自己所有,這一點在智慧財產權上是持續有爭議的。
要很小心~

> 非常需要您的回覆與建議~
> 感謝您~><
>
>
> Jazz Yao-Tsung Wang <ja...@nchc.narl.org.tw> 於 2013年3月27日下午9:29 寫道:
>
>> >> 請問1.5有開放可以客製嗎? 又該如何客製?
>> >> 有參考文件可提供嗎?
>>
>> 原則上我們只是在 Nutch , Lucene, Hadoop, IK-Analyzer 上加蓋了一層管理介面
>> 目標是簡化安裝流程,所以細部功能的修改,還是回歸到每個元件的本體。
>> 底下提供的就會是回歸到所屬的原專案。
>>
>> >> 我們目前的需求是需要可以從網頁上自動擷取出metadata
>>
>> 這個需求就我了解,必須自己寫 Nutch Plugin
>> http://wiki.apache.org/nutch/PluginCentral
>>
>> >> 或是可以匯入中文字詞/ 或是修改搜尋...
>>
>> 這個需求,我們有做過,但是目前只能新增詞庫檔,
>> 需要重新把 jar 檔打包,步驟比較繁瑣,還無法做到動態新增詞庫。
>> 可參考 https://www.google.com.tw/search?q=ikanalyzer+%E8%A9%9E%E5%BA%AB
>>
>> 至於修改搜尋,也許您指的是對搜尋結果做修改,
>> 這牽涉到網頁介面的部份,我只知道 Nutch 有支援
>> 一些像是 Clustering 的擴充元件。
>> http://wiki.apache.org/nutch/ClusteringPlugin
>>
>> > 目前程式碼在 https://github.com/crawlzilla
>>
>> https://github.com/shunfa/crawlzilla
>>
>> - Jazz
>
>
>
>
> --
> Have a nice day!!
> JuliaYJChen
Reply all
Reply to author
Forward
0 new messages