Google开始扫描RSS/Atom feeds以获取实时的新生内容

20 views
Skip to first unread message

老K实验室

unread,
Nov 1, 2009, 6:29:37 PM11/1/09
to ee

Google Webmaster Central一篇博文称,Google正在通过自动扫描RSS和Atom feeds的方法发现网站。这个新过程可以帮助Google更加迅速地发现网页,并让用户找到最新的搜索结果。虽然谈不上“即时”,但通过feeds发现网站要比Google现在使用的爬虫方法更快。Google可能很快会采用PubSubHubbub即时协议等机制来识别最近更新的网页。

对于那些支持feed的网站,这篇文章没有提到Google是否会用RSS和Atom搜索代替传统的爬虫搜索,但只要有机会,Google很可能会采用。

尽管只是一带而过,Google暗示他们可能会考虑PubSubHubbub等机制。该开放协议可以提供近乎即时的更新通知。显然Google已经明白即时网络才是未来

Twitter和其它社交网站的速度对即时网络产生了巨大的影响,用户越来越想得到更新鲜的信息,这种需求又催生了PubSubHubbub和RSSCloud等即时协议。一旦Google开始通过这些技术扫描网页,他们的搜索结果不仅是快速更新,而是可以实现即时更新。也就是说,信息在发布到网上的瞬间就可以被用户搜到。

当然这又会给搜索引擎带来一系列新的问题,比如如何对即时搜索结果进行排名。Google的搜索算法都是建立在PageRank基础上的,通过来自相关网站的链接对网站进行排名, 而最新更新的网页几乎没有相关链接。但是,Google已经开始着手解决这个问题了,现在PageRank算法已经进行了改进,会奖励那些内容更新、更匹配的网站。如果说有人可以把即时内容和静态网页混合在一起,进行合理地排名,那么非Google莫属。实际上,Google上周刚宣布在自己的搜索结果中加入来自Twitter的内容。

真正的即时搜索结果尚未到来。不过,加速后的搜索结果同样让我们感到满足。该文章建议阻止Googlebot(Google的搜索机器人软件)爬虫收录网站RSS/Atom feeds的站长们通过robots.txt文件解除爬虫限制。如果站长不确定有没有封锁googlebot,可以通过Google站长工具里的robots.txt测试器来检查自己的网站feeds。

来源:原文地址

Reply all
Reply to author
Forward
0 new messages