这个月光 williamlong 自作聪明,这是非常邪恶的一种心态,自以为是。参与宗教迫害的一群理工科走狗奴才都是这副德性,只不过现在把这种做派施加到了 google 这一牵涉到政治迫害的技术领域。中共对 google 的大揭批,就是和揭批法轮功用的同样的政治迫害手段。
前些天我也研究了一下 google trends 和 google insights,并针对以前网上提供的截屏内容作了搜索测试研究,已经发现更多陷害证据,并且你只要认真读一下 google trends, google insights 的说明,就可以知道,网上文章无论是持陷害论的一方,还是把陷害论信口开河诬为“谎言”的一方(月光博客 williamlong 等),都没有认真了解这两个服务的统计数据的真实含义。我在搜集资料,还没来及写出报告。
现在我倾向于认为,insights 数据的接近 15% 增长和下降曲线,更可能是刷数据陷害的证据,而不是 insights 出错的证据。
这一点我记得 bridgeduan 的帖子里也提到有人提出了解释,你去看看 google suggests 是如何提供搜索建议提示的,就明白了。
google suggests 的上线时间,和 insights, trends 中所提供的最早的数据时间接近,都是 2004 年初开始。很可能 google suggests 中提示的最热门搜索内容,就是根据 insights, trends 分析的 rising, top 结果。如果是 rising 最近趋热的搜索内容,很可能就会排列在 google suggests 的最优先位置。
top list 是长期最热关键词,很难通过短期用机器人刷搜索数据的方式达到目的,因为中共网狗的资源固然雄厚,但是要抵过全部汉语用户的搜索量,是很困难的。因此,网狗如果为了陷害 google,必须要使得他们刷的关键词出现在 google insights, trends 的最近趋热词 rising list 中。这是比较容易做到的。因此他们为了使得搜索结果出现在 rising list 中,按照评估 rising interest 的算法,就必须有递增的搜索量。这样,每天开动机器人软件固定递增搜索量,对于为了应付任务的网狗而言,是完全可以理解的行为;而这种数据表现的恰恰不可能是正常的搜索行为。
但是如何解释18日高峰以后的递减数据呢?这我暂时还没有想明白。有些朋友的解释是,可能是统计的一周范围的搜索量的移动平均值。不过,我从 google insights, google trends 的说明文档中没有看到有这种统计法的介绍。从数据图表中也可以看到是按月,按周,按日分段统计的。
虽然存有疑问,但是并不能断定 google insights, google trends 数据有误。google 是否篡改统计数据,这是可以合理怀疑,但是缺乏证据的。至少我们从常识可以知道,中共政府陷害的行为不计其数,信用败坏到根本不存在信用可言。任何有常识和理性的人,都应该首先怀疑中共陷害,而不是 google 篡改数据。google 的信用比中共黑帮好得多。反其道而行之的人,不是五毛党,就是黑帮的帮凶,非但违背常识和理性,更违背道义良知。
月光搜索的“儿子和情人”这个词,不是特征词,因为这是劳伦斯著名的小说的名字,并不是色情词汇,存在大量的正常搜索的干扰内容,不具有分析价值。
我奇怪的是,他为何只搜索“儿子”,而不是搜索 CCTV 截图中提供的那些古怪的搜索完整内容。如果你对这些搜索完整内容在 google insights, trends 做搜索测试,就会发现,两个服务虽然统计方式可能有差异,但是并不相互抵触。
月光说,google 文档说 insights 和 trends 的数据基础是同样的。这没错,但并不等于两者的统计算法是一样的。同样一组数据,经过不同的统计算法,特别是经过 normalize 相对规则化,scaling 尺度映射之后,所得到的分析结果是会迥然不同的。这恰恰也是 google insights 和 trends 的统计算法的目的所在:不是给你原始数据,而是给你 insights 看到数据中的某些细节特性。
从 google insights 的帮助文档可以看出,尽管这个搜索词绝大部分来自北京,对于在全世界范围内统计,和限定在北京地区统计这两种条件,统计结果也会截然不同。如果你了解了 google insights 是如何处理数据的,就不会奇怪。在全世界范围内分析的时候,相对规则化的基础是,全世界范围内的所有搜索量;而在北京范围内分析的时候,相对规则化的基础是,北京范围内的所有搜索量。尽管北京范围内搜索”儿子和情人“这个词的绝对数量是确定的,但是相对计算的基础变了,结果自然就会不同。
月光的理论尤其矛盾的是,如果如他所说 google trends 的分析报告更加正确,那么,在 17 日以前,”儿子和情人“的相对搜索量几乎是0,为何这样低频度搜索的词汇,会出现在 google suggests 的自动产生的列表里?!难道是 google 故意创造出这样的词汇来诱使用户去搜索这种低频度的词汇?!尤其是“儿子和母亲不正当关系”这种莫名其妙的句子,你怎么不拿这种特征性证据做分析,而拿那个受到太多正常搜索污染的“儿子”“儿子和情人”来做分析呢?这是科学分析的动机和方法吗?
2009/7/3 cici chai
没看明白
有啥不好解释的,只降不升说明5毛们另有任务没再继续刷,全国人民不搜“儿子和情人“或者google内部作出了反应。地区则说明发现地区漏洞后别的地区的5毛开始刷数据。
via
月光博客 by williamlong (williamlong) on 7/1/09
终于找到了Google Insights数据错误的证据了,匿名用户曾经在Google Docs上指控,使用Google Insights工具可以发现有人在6月18日新闻联播节目前在北京地区刷关键字,导致Google“搜索建议”出现不雅词汇,现在,这个指控中最大的漏洞已经被发现,从而使得这个指控出现完全自相矛盾的地方,难以自圆其说。
发现这个漏洞的工具依旧是Google Insights,匿名用户使用Google Insights在全球范围内搜索一些和“儿子”相关的不雅词汇,例如“儿子与情人”,得到的截图如下所示。 这张截图中显示,从10号开始到17号,有人在刷这个关键词,匿名用户指控刷这些关键词的来源地址是北京。但仔细看一下,我们会发现该曲线呈现“线性”增长和下降的趋势,并且在6月18号央视新闻之后搜索量不升反降,虽然这显然违背常理,我们姑且认为这是正确的。

Google Insights搜索“儿子与情人”(全球范围)
接着,我们使用Google Insights再次搜索这个关键词,如“儿子与情人”,但把搜索区域限制在北京地区,就会得到下面这个曲线。

Google Insights搜索“儿子与情人”(北京地区)
我们看到,这个单独在北京地区的Google Insights搜索曲线,和全球范围Google Insights搜索“儿子与情人”的数据有极大出入,北京地区的Google Insights数据呈现完整的曲线,6月17日以前的数据为0,6月18日出现大幅增长,并达到顶峰,与Google Trends的搜索曲线基本相同,北京拥有大量网络用户,并曾被匿名用户指责刷数据,但Google Insights这两个曲线,却明白无误的表明,这个指控呈现明显的自相矛盾,根本无法自圆其说,很明显,Google Insights对于该关键字搜索的全球数据真实性存在极大的疑问。
这里面的真相到底是什么,恐怕也会成为一个不解之谜。