Re: 抓抓龍_請問虛擬機搜尋結果位置...

44 views
Skip to first unread message

Jazz Yao-Tsung Wang

unread,
Apr 1, 2013, 7:51:32 AM4/1/13
to Julia Chen, crawlzi...@googlegroups.com
Nutch 產生的是專屬 Sequence File 格式的輸出。
目前只知道可以用 Luke 觀看內容。
http://code.google.com/p/luke/

- Jazz


2013/4/1 Julia Chen <yjch...@gmail.com>
Dear Jazz,

請問在虛擬機執行抓抓龍, 搜尋出來的資料 ,
有儲存在loacal端資料夾裡嗎? 或是這些資料都存在貴單位的機器上?
我試著找了一下, 但是都出現無法開啟檔案..
附圖如下
感謝~

內置圖片 2內置圖片 2

--
Have a nice day!!
JuliaYJChen

image.png
image.png

許育峰

unread,
Apr 1, 2013, 9:46:37 PM4/1/13
to crawlzi...@googlegroups.com, Julia Chen, ja...@nchc.narl.org.tw
Hi Julia

除了Jazz前輩所說的方法之外,若妳想直接在Linux裡開啟檔案,可以嘗試以下的做法

sequence file轉換為可讀文字步驟:
1. 上傳到HDFS
bin/hadoop fs -put /home/crawler/crawlzilla/user/admin/IDB/indexdatabase'sname/segments/thenumbers/ /user/crawler/admin/segments

2. 上傳完畢後再將檔案轉換為可讀格式
bin/nutch readseg -dump admin/segments/ admin/segments/filename

3. 將文字資料轉移至一般檔案目錄下
hadoop dfs -get /user/crawler/admin/segments/readseg/dump /home/crawler/thedirectories

4. 最後可在你存放的目錄裡開啟一個名為dump的文字檔案,裡面即為妳所爬取的文字資料


Jazz Yao-Tsung Wang於 2013年4月1日星期一UTC+8下午7時51分32秒寫道:
Reply all
Reply to author
Forward
0 new messages