Hi Julia
除了Jazz前輩所說的方法之外,若妳想直接在Linux裡開啟檔案,可以嘗試以下的做法
sequence file轉換為可讀文字步驟:
1. 上傳到HDFS
bin/hadoop fs -put /home/crawler/crawlzilla/user/admin/IDB/indexdatabase'sname/segments/thenumbers/ /user/crawler/admin/segments
2. 上傳完畢後再將檔案轉換為可讀格式
bin/nutch readseg -dump admin/segments/ admin/segments/filename
3. 將文字資料轉移至一般檔案目錄下
hadoop dfs -get /user/crawler/admin/segments/readseg/dump /home/crawler/thedirectories
4. 最後可在你存放的目錄裡開啟一個名為dump的文字檔案,裡面即為妳所爬取的文字資料
Jazz Yao-Tsung Wang於 2013年4月1日星期一UTC+8下午7時51分32秒寫道: