Google开始扫描RSS/Atom feeds以获取实时的新生内容

23 views

Skip to first unread message

老K实验室

unread,

Nov 1, 2009, 6:29:37 PM11/1/09

to ee

Google Webmaster Central一篇博文称，Google正在通过自动扫描RSS和Atom feeds的方法发现网站。这个新过程可以帮助Google更加迅速地发现网页，并让用户找到最新的搜索结果。虽然谈不上“即时”，但通过feeds发现网站要比Google现在使用的爬虫方法更快。Google可能很快会采用PubSubHubbub即时协议等机制来识别最近更新的网页。

对于那些支持feed的网站，这篇文章没有提到Google是否会用RSS和Atom搜索代替传统的爬虫搜索，但只要有机会，Google很可能会采用。

尽管只是一带而过，Google暗示他们可能会考虑PubSubHubbub等机制。该开放协议可以提供近乎即时的更新通知。显然Google已经明白即时网络才是未来。

Twitter和其它社交网站的速度对即时网络产生了巨大的影响，用户越来越想得到更新鲜的信息，这种需求又催生了PubSubHubbub和RSSCloud等即时协议。一旦Google开始通过这些技术扫描网页，他们的搜索结果不仅是快速更新，而是可以实现即时更新。也就是说，信息在发布到网上的瞬间就可以被用户搜到。

当然这又会给搜索引擎带来一系列新的问题，比如如何对即时搜索结果进行排名。Google的搜索算法都是建立在PageRank基础上的，通过来自相关网站的链接对网站进行排名, 而最新更新的网页几乎没有相关链接。但是，Google已经开始着手解决这个问题了，现在PageRank算法已经进行了改进，会奖励那些内容更新、更匹配的网站。如果说有人可以把即时内容和静态网页混合在一起，进行合理地排名，那么非Google莫属。实际上，Google上周刚宣布在自己的搜索结果中加入来自Twitter的内容。

真正的即时搜索结果尚未到来。不过，加速后的搜索结果同样让我们感到满足。该文章建议阻止Googlebot（Google的搜索机器人软件）爬虫收录网站RSS/Atom feeds的站长们通过robots.txt文件解除爬虫限制。如果站长不确定有没有封锁googlebot，可以通过Google站长工具里的robots.txt测试器来检查自己的网站feeds。