MSRA文继荣博士的Top 10 Challenges in IR
这是Wen博士报告中的一部分,我借花献佛,加上一点听课笔记。
注: 排名不分先后。
#1. Spamming
Victor注释:
可谓道高一尺魔高一丈,网络上的Spam和Anti-Spam之间的战
争不断的升级。所谓Spam,通俗一点说就是利用不正当(非自然的)的手段
提升网站排名,而对用户来说,这种排名的上升有误导的作用。听了他的
报告才知道,像什么互相连接、在论坛上发连接、在网页里面塞入大量的
关键词等只能算雕虫小技;居然有公司专门做Spam
Farm——其规模可能不
比小搜索引擎公司逊色——用做出来的网络连接与搜索引擎公司抗衡。至
于是否有spam-immune的算法,现在还未知。
#2. Data Acquisition
Victor注释: Web的增长速度远远高于Search
Engine的索引规模的增长速
度。现在Web上的blog, news,
bbs以及许多网上数据库(比如Amazon上的信
息),搜索引擎触及的只是冰山一角。如何在静态网页之外的广阔数据空间
驰骋,现在也是一个很有挑战性的题目。
#3. Content Quality
Victor注释:
传统IR的一个假设是,所有网页的内容是权威、可信的。现
实的发展颠覆了这个假设。在Web这个“垃圾堆”上,高质量的网页显然是
“物以稀为贵”。如何评价网页质量,也是需要解决的问题。Google只靠
PageRank这种结构上的信息就发家了,靠其他的信息是否能造就另一个
Google呢?
#4. Ranking
Victor注释:
Wen博士没有过多的解释,他的意思是,重要性毋庸置疑。IR
的模型里面,关键的部分应该算是这个吧。今年夏天MSRA组织BestRank无
疑是想在这方面做一些深入的探索。
#5. Evaluation
Victor注释:
IR的评测一直没有完美的解决方案。众多Paper上的
MAP,P@10,R-Precision等指标步步攀高,但是拿到实际中应用,总觉得改
进不大。传统的方法跟不上现在IR的发展的步伐么。动辄以million作单位
的语料库,谁敢贸然评测(标注)。而且查询也在与时俱进,今天网民关注
的“馒头”已经不是昨天的“馒头”了。总之一切在变,evaluation也在
变。
#6. Query Formulation
Victor注释:
Wen告诉我们另一种找个人主页的方法:输入他的电话号码。
面对网络上庞大的信息和人复杂的意图,搜索引擎如何能做到智能一些。
当engine还比较笨的情况下,使用者(人)只能适应它,用“猜”要搜索网
页内容的方法去迎合search engine。
#7. Personalization
Victor注释: 个性化,真的很实用么(Do you really need
personalizaion)?这不是我的疑问,这是众多学者的疑问。Wen博士写出
来的一句话:Personalized search, a long history, never one
success
story.尽管如此,许多学者还是不懈努力。也许几年以后,个性
化就像现在的上G的电子邮箱一样普及。
#8. Structure in the Web
Victor注释:
DB的学者当然最希望是Web上有结构的数据多,这样DB又有新
的用武之地了。现在研究web
data的结构有不少热点,不过我不了解,就
不写喽。
#9. Infrastructure
Victor注释:
俗话说,“栽好梧桐树,引得凤凰来”。把基础的平台建好
了,IR的研究肯定是飞速发展。现在IR的实验一般比较恐怖,做上十天半
个月的是稀疏平常——谁叫数据多。数据少了人家reviser都不屑于看。没
办法,弄上几个M、几个T的数据,准备开始跑程序吧。要不咱先出去喝喝
咖啡?
#10. The Next Big Thing?
Victor注释:
Wen很诚实,他说不知道。当然了,知道了也不说。谁要知道
了,赶紧创办公司,管他Hoohle还是Joojle,拉上风险投资就赶紧干吧,
在互联网上掀起新的风浪。