ComPaper10th是天网格式(这有描述,
http://www.cwirf.org/SharedRes/DataSet/cwt.html)存储的论文集合。
每个文件对应一个proceeding(或者一个期刊的一期),
一次proceeding的包含的每篇论文的pdf文件是追加方式存储在一个文件中的。因为pdf再压缩意义不大,所以每个记录没有压缩。
刷新
http://www.cwirf.org/2010WebTrack/lt/可以看到一个utilit目录,其中放了一个工具,在linux系统下,是把上述生成的天网格式文件还原为该次会议的所有pdf论文。
应该是输出很多文件,不会只有一个文件。
每个文件可以用acroread等工具看。
后期处理,你可能会用到pdftotext等工具,我们没有提供。
我们没有提供提取元数据的程序,之前我们写了点,但是发现不能处理全部ComPaper10th包含的论文。如果发布,
可能导致有的队只使用部分元数据来构建系统参加评测,必定会影响最后的成绩。