許同學您好:
就我理解,Nutch (Crawlzilla 底層) 並沒有將網站完整內容存下來,
而是將 HTML 轉成 SequenceFile 的方式存在 segments 中。
要將內容取出,得去查 SequenceFile 的格式。
( 若要類比 Google 搜尋,segments 中存的是「頁面庫存」)
如果您想要的是觀察 Index 索引庫(就像原文書後面的索引一樣,
差別只是 Index 索引庫存放的是關鍵字在哪些網址來源的對應)
可以用 Luke (
http://code.google.com/p/luke/ )
Crawlzilla 1.x 就是透過 Luke 的 API 從 Index 取出 Top 50 網址
與 Top 50 關鍵字。
我曾經請學生將 Index 內容,採用 Luke API 轉換成 SQLite。
只是不確定那對您有無幫助。
- Jazz
2013/3/19 許育峰 <
yufe...@mis.nsysu.edu.tw>:
> --
> You received this message because you are subscribed to the Google Groups
> "crawlzilla-user" group.
> To unsubscribe from this group and stop receiving emails from it, send an
> email to
crawlzilla-us...@googlegroups.com.
> For more options, visit
https://groups.google.com/groups/opt_out.
>
>