读取的数据

2 views
Skip to first unread message

jiangtao qiu

unread,
Apr 18, 2010, 10:47:50 PM4/18/10
to cwirf
不知道大家读取了数据集中的数据没有

我用提供的TWReader_java.jar,用java读了Tianwang.raw.2009-ACL文件中的一页。
截取了部分显示内容如下。其中还有乱码

14 0 obj <<
/Length1 1647
/Length2 7958
/Length3 532
/Length 8821
/Filter /FlateDecode
>>
stream
x陧teT 軖-n羶k 4 ?? m?t7? $Hpw 溹?! ww'h??雥o躝o絕珄?籮W召U臘А?e
?蒀!p nN??匮艺E 戗 V嵝 俸*? endstream
endobj

没有理解这样内容的含义是什么。

应该不是读取程序的问题吧。我用该程序读取cwt_quark_train.0-99
可以正常的显示一篇网页的信息

--
您收到此邮件是因为您订阅了 Google 网上论坛的“cwirf”论坛。
要向此网上论坛发帖,请发送电子邮件至 cw...@googlegroups.com
要取消订阅此网上论坛,请发送电子邮件至 cwrif+un...@googlegroups.com
若有更多问题,请通过 http://groups.google.com/group/cwrif?hl=zh-CN 访问此网上论坛。

Hongfei Yan

unread,
Apr 18, 2010, 10:54:29 PM4/18/10
to cwrif
每个记录是一个pdf文件,是二进制的。要独立出来,再用pdftotext等工具转成text的才能检索用。

2010/4/19 jiangtao qiu <jiang...@gmail.com>
Reply all
Reply to author
Forward
0 new messages