[announcement] 2010年文献检索查询集发布

9 views
Skip to first unread message

Hongfei Yan

unread,
Apr 20, 2010, 2:43:12 AM4/20/10
to cwrif
请访问
http://www.cwirf.org/Evaluation/CWT.html
如有问题,请反馈

评测指南争取明后天给出,会写明参加评测的提交结果格式。

另外,参加评测的单位,除提交报名表给黄蕊老师外,请发一份电子版给我。

-闫宏飞

--
您收到此邮件是因为您订阅了 Google 网上论坛的“cwirf”论坛。
要向此网上论坛发帖,请发送电子邮件至 cw...@googlegroups.com
要取消订阅此网上论坛,请发送电子邮件至 cwrif+un...@googlegroups.com
若有更多问题,请通过 http://groups.google.com/group/cwrif?hl=zh-CN 访问此网上论坛。

Jian Tang

unread,
Apr 20, 2010, 8:52:46 AM4/20/10
to cw...@googlegroups.com
啥也没有啊!

2010/4/20 Hongfei Yan <yhf...@gmail.com>

Mi

unread,
Apr 20, 2010, 8:56:35 AM4/20/10
to cw...@googlegroups.com

2009年11月-2010年5月,SEWM2010中文Web信息检索评测

评测通知, 评测指南(to appear)
  1. 相关论文
  2. 领域重要文献和专家
  3. 垃圾邮件过滤
    请访问,http://www2.scut.edu.cn/antispam/


2010/4/20 Jian Tang <tangj...@gmail.com>

Jian Tang

unread,
Apr 20, 2010, 9:11:29 AM4/20/10
to cw...@googlegroups.com
读取元数据的工具是不是要修改源代码,因为我们用天网提供的工具现在只能输出一个文件,而不是一系列的pdf文件?你们的pdf文件是否经过压缩?

2010/4/20 Mi <pkus...@gmail.com>

Hongfei Yan

unread,
Apr 20, 2010, 9:37:31 AM4/20/10
to cwrif
ComPaper10th是天网格式(这有描述,http://www.cwirf.org/SharedRes/DataSet/cwt.html)存储的论文集合。
每个文件对应一个proceeding(或者一个期刊的一期),
一次proceeding的包含的每篇论文的pdf文件是追加方式存储在一个文件中的。因为pdf再压缩意义不大,所以每个记录没有压缩。

刷新 http://www.cwirf.org/2010WebTrack/lt/
可以看到一个utilit目录,其中放了一个工具,在linux系统下,是把上述生成的天网格式文件还原为该次会议的所有pdf论文。
应该是输出很多文件,不会只有一个文件。
每个文件可以用acroread等工具看。
后期处理,你可能会用到pdftotext等工具,我们没有提供。

我们没有提供提取元数据的程序,之前我们写了点,但是发现不能处理全部ComPaper10th包含的论文。如果发布,
可能导致有的队只使用部分元数据来构建系统参加评测,必定会影响最后的成绩。

2010/4/20 Jian Tang <tangj...@gmail.com>
Reply all
Reply to author
Forward
0 new messages