Google Correlate 实验室项目帮你找到真实世界流行趋势的搜索序列

72 views
Skip to first unread message

Q

unread,
May 30, 2011, 8:26:32 PM5/30/11
to ttnn
 
 

Sent to you by Q via Google Reader:

 
 

via FeedzShare on 5/30/11

来自: www.guao.hk - FeedzShare  
发布时间:2011年05月30日,  已有 5 人推荐


Google Correlate是Google Labs里的一个新的实验室项目,它可以帮你找到真实世界里流行趋势的搜索序列,有两种呈现方式:按时间和按区域(暂时只支持美国地区)。比如咱们搜索“mittens”(手套),你就可以看到每年这个词汇的搜索热度(上图蓝色),每年都在冬季的时候火一下,然后迅速降温。同时Google会列出10个(或更多)跟手套相关的搜索关键字,比如“knit hats”(针织帽),你可以对比针织帽(上图红色)和手套在各个时间段上搜索热度的比较。由于搜索的趋势(曲线)很类似,所以Google觉得针织帽和手套是同一类东西,这么判断确实很有道理。

当然这也不是绝对的,比如搜索“losing weight”(减肥),可以看到人类真的是越来越胖了,对减肥的需求逐年增加(下图蓝色)。但这个趋势居然跟“outside wedding”(室外婚礼)近似(下图红色),你就不能说减肥跟室外婚礼是同一类东西吧(也许室外举办婚礼是为了减肥?):

更厉害的是,你可以自己画一个趋势图,然后让Google给你匹配出最符合的关键字。比如我画这么一个曲线,想看看啥玩意突然在08年火了,之后又突然销声匿迹了:

结果匹配出来的结果里,原来挪鸡鸭6120突然在08年火了,然后很快又死翘翘了:

除了时间匹配可以判断出二者可能是同一类事务,地区匹配也是一个因素。还拿“mittens”(手套)来说,可以看到美国哪些地区对手套的搜索量最高,同时右边则是针织帽的搜索量,二者在时间和地区上都很匹配,那基本可以证明它们是一类货了:

Google Correlate是个挺有意思的研究工具,尤其是允许自己画趋势曲线图,大家不妨去试试看。

Via Google Labs


© musiXboy 发表于 谷奥——探寻谷歌的奥秘 ( http://www.guao.hk ), 2011. | 没有评论 | 永久链接 | 关于谷奥 | 投稿/爆料
Post tags: Google Correlate, Google Labs, Google Search, Google Trends


 
 

Things you can do from here:

 
 

George Zhang

unread,
May 30, 2011, 10:16:42 PM5/30/11
to tt...@googlegroups.com
这个是波形识别领域的新应用啊...之前搞金融的人也谈到通过识别出特殊的波形来套利
简单想来,这个是不是通过傅里叶或小波变换在频域里做相似度计算的?这个再扩展一下就是图像匹配了,似乎之前google也推出过

 

--
订阅地址:ttnn+su...@googlegroups.com
退订地址:ttnn+uns...@googlegroups.com



--
Best Regard
George Zhang

Q

unread,
May 30, 2011, 10:22:45 PM5/30/11
to tt...@googlegroups.com
应该不是图像匹配,有白皮书,如附件。

按照文中说法:

The objective of Google Correlate is to surface the queries in the database whose spatial or temporal pattern is most highly correlated with a target pattern. Google Correlate employs a novel approximate nearest neighbor (ANN) algorithm over millions of candidate queries in an online search tree to produce results similar to the batch-based approach employed by Google Flu Trends but in a fraction of a second. For additional details, please see the Methods section below.


使用一种ANN算法,谁研究一下子噻!记得给大家分享一下哦。


2011/5/31 George Zhang <birdzha...@gmail.com>
whitepaper.pdf

George Zhang

unread,
May 30, 2011, 10:44:41 PM5/30/11
to tt...@googlegroups.com
恩,简单看了下,其实趋势相似度用的好像是简单的相关系数,那个ANN的算法主要是解决了快速查找的问题。
因为如果有100万个词,每两个词间的相似矩阵会有100万 X 100万,在google correlate中显然不会遍历所有的情况。他们用了2阶哈希表,逐步找出和目标词趋势相近的关联词。这个过程还是和图片搜索引擎有关系,上周和淘宝的人聊到他们花了3年多在搞图片搜索的研发,中间碰到很大的问题就是如何有效的建立图片索引,这个应该搞搜索的人能说详细些

以下引用自whitepaper
In our Approximate Nearest Neighbor (ANN) system, we achieve a good balance of precision and speed by using a two-pass hash-based system. In the first pass, we compute an approximate distance from the target series to a hash of each series in our database. In the second pass, we compute the exact distance function on the top results returned from the first pass.
Each query is described as a series in a high-dimensional space. For instance, for us-weekly, we use normalized weekly counts from January 2003 to present to represent each query in a 400+ dimensional space. For us-states, each query is represented as a 51-dimensional vector (50 states and the District of Columbia). Since the number of queries in the database is in the tens of millions, computing the exact correlation between the target series and each database series is costly. To make search feasible at a large scale, we employ an ANN system that allows fast and efficient search in high-dimensional spaces.

Rocky CQU

unread,
May 31, 2011, 1:35:21 AM5/31/11
to tt...@googlegroups.com
算两条曲线的互信息,然后用聚类就能办到,不知道对不对

2011/5/31 George Zhang <birdzha...@gmail.com>

Sid Xing

unread,
Jun 1, 2011, 6:08:53 AM6/1/11
to tt...@googlegroups.com
今天看了篇文章
http://datamining.typepad.com/data_mining/2011/05/stocks-google-correlate-and-being-careful-with-data.html
文中引用另外一个作者的文章,说通过correlate发现微软股票升降与google搜索关键词“google interview questions”之间有相关性。文章中有个step by step来说明如何从google获取股票数据用来做分析。
我觉得,correlate的应用可能不算复杂,可想到google之前推出的public data explorer 和更早的visualization API,并且应用google analytics来做网站分析,就觉得google对数据分析还真是“热情”,提供了这么多好工具,也许未来,依托于google就能做非常复杂的数据分析了。
套用最近常见的一句话,也许google“在下一盘很大的棋”吧


2011/5/31 Rocky CQU <rock...@gmail.com>



--
Sid Xing (about.me)
twitter: @antxash
weibo: @antxash
website: http://datawarehou.se
Focus on DATA

Jerry Wu

unread,
Jun 1, 2011, 9:42:48 AM6/1/11
to tt...@googlegroups.com
复杂分析肯定还是要企业自定义分析,毕竟每个企业具体业务千差万别,而每个企业需要解决的问题、所处阶段的机遇都不相同。另外就是互联网上不可能包括所有数据,企业也不愿意把运营核心数据放网上。
 
所以GOOGLE可以是一个很好的分析样板,功力深厚的人,一看GOOGLE提供的分析功能,就知道他模型设计思想怎样的,可以复制和更深的改进加以借鉴。


 
2011/6/1 Sid Xing <shad...@gmail.com>
Reply all
Reply to author
Forward
0 new messages