Re: Google Insights数据错误的证据

7 views

Skip to first unread message

wanghx

unread,

Jul 3, 2009, 7:50:20 AM7/3/09

to salon-...@googlegroups.com, lihlii-g

这个月光 williamlong 自作聪明，这是非常邪恶的一种心态，自以为是。参与宗教迫害的一群理工科走狗奴才都是这副德性，只不过现在把这种做派施加到了 google 这一牵涉到政治迫害的技术领域。中共对 google 的大揭批，就是和揭批法轮功用的同样的政治迫害手段。

前些天我也研究了一下 google trends 和 google insights，并针对以前网上提供的截屏内容作了搜索测试研究，已经发现更多陷害证据，并且你只要认真读一下 google trends, google insights 的说明，就可以知道，网上文章无论是持陷害论的一方，还是把陷害论信口开河诬为“谎言”的一方（月光博客 williamlong 等），都没有认真了解这两个服务的统计数据的真实含义。我在搜集资料，还没来及写出报告。

现在我倾向于认为，insights 数据的接近 15% 增长和下降曲线，更可能是刷数据陷害的证据，而不是 insights 出错的证据。

这一点我记得 bridgeduan 的帖子里也提到有人提出了解释，你去看看 google suggests 是如何提供搜索建议提示的，就明白了。

google suggests 的上线时间，和 insights, trends 中所提供的最早的数据时间接近，都是 2004 年初开始。很可能 google suggests 中提示的最热门搜索内容，就是根据 insights, trends 分析的 rising, top 结果。如果是 rising 最近趋热的搜索内容，很可能就会排列在 google suggests 的最优先位置。

top list 是长期最热关键词，很难通过短期用机器人刷搜索数据的方式达到目的，因为中共网狗的资源固然雄厚，但是要抵过全部汉语用户的搜索量，是很困难的。因此，网狗如果为了陷害 google，必须要使得他们刷的关键词出现在 google insights, trends 的最近趋热词 rising list 中。这是比较容易做到的。因此他们为了使得搜索结果出现在 rising list 中，按照评估 rising interest 的算法，就必须有递增的搜索量。这样，每天开动机器人软件固定递增搜索量，对于为了应付任务的网狗而言，是完全可以理解的行为；而这种数据表现的恰恰不可能是正常的搜索行为。

但是如何解释18日高峰以后的递减数据呢？这我暂时还没有想明白。有些朋友的解释是，可能是统计的一周范围的搜索量的移动平均值。不过，我从 google insights, google trends 的说明文档中没有看到有这种统计法的介绍。从数据图表中也可以看到是按月，按周，按日分段统计的。

虽然存有疑问，但是并不能断定 google insights, google trends 数据有误。google 是否篡改统计数据，这是可以合理怀疑，但是缺乏证据的。至少我们从常识可以知道，中共政府陷害的行为不计其数，信用败坏到根本不存在信用可言。任何有常识和理性的人，都应该首先怀疑中共陷害，而不是 google 篡改数据。google 的信用比中共黑帮好得多。反其道而行之的人，不是五毛党，就是黑帮的帮凶，非但违背常识和理性，更违背道义良知。

月光搜索的“儿子和情人”这个词，不是特征词，因为这是劳伦斯著名的小说的名字，并不是色情词汇，存在大量的正常搜索的干扰内容，不具有分析价值。

我奇怪的是，他为何只搜索“儿子”，而不是搜索 CCTV 截图中提供的那些古怪的搜索完整内容。如果你对这些搜索完整内容在 google insights, trends 做搜索测试，就会发现，两个服务虽然统计方式可能有差异，但是并不相互抵触。

月光说，google 文档说 insights 和 trends 的数据基础是同样的。这没错，但并不等于两者的统计算法是一样的。同样一组数据，经过不同的统计算法，特别是经过 normalize 相对规则化，scaling 尺度映射之后，所得到的分析结果是会迥然不同的。这恰恰也是 google insights 和 trends 的统计算法的目的所在：不是给你原始数据，而是给你 insights 看到数据中的某些细节特性。

从 google insights 的帮助文档可以看出，尽管这个搜索词绝大部分来自北京，对于在全世界范围内统计，和限定在北京地区统计这两种条件，统计结果也会截然不同。如果你了解了 google insights 是如何处理数据的，就不会奇怪。在全世界范围内分析的时候，相对规则化的基础是，全世界范围内的所有搜索量；而在北京范围内分析的时候，相对规则化的基础是，北京范围内的所有搜索量。尽管北京范围内搜索”儿子和情人“这个词的绝对数量是确定的，但是相对计算的基础变了，结果自然就会不同。

月光的理论尤其矛盾的是，如果如他所说 google trends 的分析报告更加正确，那么，在 17 日以前，”儿子和情人“的相对搜索量几乎是0，为何这样低频度搜索的词汇，会出现在 google suggests 的自动产生的列表里？！难道是 google 故意创造出这样的词汇来诱使用户去搜索这种低频度的词汇？！尤其是“儿子和母亲不正当关系”这种莫名其妙的句子，你怎么不拿这种特征性证据做分析，而拿那个受到太多正常搜索污染的“儿子”“儿子和情人”来做分析呢？这是科学分析的动机和方法吗？

2009/7/3 cici chai

没看明白
有啥不好解释的，只降不升说明5毛们另有任务没再继续刷，全国人民不搜“儿子和情人“或者google内部作出了反应。地区则说明发现地区漏洞后别的地区的5毛开始刷数据。

Google Insights数据错误的证据

via 月光博客 by williamlong (williamlong) on 7/1/09

　　终于找到了Google Insights数据错误的证据了，匿名用户曾经在Google Docs上指控，使用Google Insights工具可以发现有人在6月18日新闻联播节目前在北京地区刷关键字，导致Google“搜索建议”出现不雅词汇，现在，这个指控中最大的漏洞已经被发现，从而使得这个指控出现完全自相矛盾的地方，难以自圆其说。

　　发现这个漏洞的工具依旧是Google Insights，匿名用户使用Google Insights在全球范围内搜索一些和“儿子”相关的不雅词汇，例如“儿子与情人”，得到的截图如下所示。这张截图中显示，从10号开始到17号，有人在刷这个关键词，匿名用户指控刷这些关键词的来源地址是北京。但仔细看一下，我们会发现该曲线呈现“线性”增长和下降的趋势，并且在6月18号央视新闻之后搜索量不升反降，虽然这显然违背常理，我们姑且认为这是正确的。

Google Insights搜索“儿子与情人”（全球范围）

　　接着，我们使用Google Insights再次搜索这个关键词，如“儿子与情人”，但把搜索区域限制在北京地区，就会得到下面这个曲线。

Google Insights搜索“儿子与情人”（北京地区）

　　我们看到，这个单独在北京地区的Google Insights搜索曲线，和全球范围Google Insights搜索“儿子与情人”的数据有极大出入，北京地区的Google Insights数据呈现完整的曲线，6月17日以前的数据为0，6月18日出现大幅增长，并达到顶峰，与Google Trends的搜索曲线基本相同，北京拥有大量网络用户，并曾被匿名用户指责刷数据，但Google Insights这两个曲线，却明白无误的表明，这个指控呈现明显的自相矛盾，根本无法自圆其说，很明显，Google Insights对于该关键字搜索的全球数据真实性存在极大的疑问。

　　这里面的真相到底是什么，恐怕也会成为一个不解之谜。

wanghx

unread,

Jul 3, 2009, 4:15:17 PM7/3/09

to salon-...@googlegroups.com, lihlii-g

williamlong: 终于找到了Google Insights数据错误的证据了

lihlii:

这证明了 williamlong 的研究动机，不是试图解释数据的异常，而是试图“找到 Google Insights 数据错误的证据”。

许多理工科学生不懂科学研究和科学理论的本质。I. Kant 康德老早就指出了这一点：理性的局限性。科学理论是科学研究的结果。

而科学研究的结果和科学研究的动机直接相关。你永远摆脱不了动机对结果的影响。那些科学教教徒最糟糕的就是不认识到这一点，

尽管他们在科学研究中分明可以感受到动机对理论的巨大影响。

比如，相信自然的对称性，简单性的科学家，相信磁单极子存在的科学家，就会努力去寻求其存在的证据，而不是相反。爱因斯坦也相信统一场理论，并为之努力。

许多人会承认，科学研究行为会受动机的左右，但是科学理论本身是“客观”的，你有动机但是不能证明，也无法被认可呀。

这是对科学本质的误解。K. Popper 的科学哲学理论指出，科学的本质，是可以证伪的学说。正如亚里士多德的“重的物体下降快”的“科学理论”，在没有找到证伪的证据以前，人们接受了为真理上千年。在没有发现量子现象以前，人们认为能量都是连续的。

科学理论本身也受动机的左右，因为归根结底，你会发现，理性迈不过“信还是不信”这个门槛。对于无穷的未知领域，人们必然依赖于信仰来做判断。科学理论也必然是如此。

所以，即便是在科学研究的领域，你相信什么，试图得到什么结果，极大地影响你对同一份原始数据的判断，以及你所能得到的“科学结论”。你能得到什么结论，很大程度上取决于你想得到什么结论。

Reply all

Reply to author

Forward

0 new messages