自动分析的实例

13 views
Skip to first unread message

Q

unread,
Aug 22, 2012, 10:31:50 PM8/22/12
to ttnn

哇,说起自动分析,看到一个自动分析的在线服务网站,statwing

 

它的流程很简单,上传数据-给出分析结果。看了demo,可以进行一些交互,探索单个变量的分布,或者看两个变量的关联性。单个变量,如果是离散型的,看构成比例,连续型的,看直方图。如果仅仅是这些,其实还不能算是自动分析,只能说是自动数据探索吧。但在网站的主页上,它可是写明是直接出结论的。它的意思大概就是指交互式地解读每个变量的分布吧。一开始我以为会自动进行比如预测,聚类等分析,但也许这也是他们未来考虑要做的。

 

好吧,注册一个账号,试试。

 

先上传数据,第一次没多想,选择一个多维数据集,不大,1万多行,两百多kcsv文件。发现它要求的csv必须是逗号分隔,而mac excel竟然是分号分隔,需要处理一下。开始分析,发现其实上传多维数据集是不行的,没有意义。它将每行数据看做是对个体的观测,而不是总体的统计。于是,重新上传了一个宽表型数据。哎,这下倒是能够解读出一些意义了。

 

选择一个变量,观察其分布,统计描述,以及分位值等。

 

选择两个变量,观察两个变量的统计相关性,还有高级的关联和简单线性回归。当然,其解读得有一些统计知识,但看起来并不复杂。如果变量出现异常值,会有提示。

 

最多只能选择两个变量了。

 

但对于数据探索来说,基本已经足够。上个月在探讨数据需求的时候,其中有一个就是出这种数据探索结果。这种结果不光是用于数据挖掘这类工作,对于业务分析来说,观察数据的分布,是可以找到业务感觉,从而做出更好假设的。

 

这种数据探索功能,很多工具都支持,不说sasspss吧,teradata也有twm(单独的工具),它有这种功能,选定数据表,生成探索报告。然而,不得不说,它的设计是面向数据分析师,而非业务分析师。如果改善一些用户体验,类似于statwing这种不挺好的嘛,甚至还可以更简单一点。或者,这种在云端的分析工具也适合客户端的形式,单独的一个这样的工具(比如一个excel插件吧),连接不论什么类型的数据库,只要指定数据表,就能生成一对数据探索报告,并且还可以交互式地观察两两变量的相关性。

 

我想,这其实可以成为分析型数据库的标配。

Q

unread,
Aug 29, 2012, 9:49:33 PM8/29/12
to ttnn
上次说起这个statwing,后来发现关于它的讨论还在继续

有人撰文写出对这种自动分析工具的期望,大意是这样的(我的理解,如有不同理解,请看原文)。虽然statwing已经高度自动化,但仍然没有回避此类工具的基本问题。也就是用混杂变量(confounder)、小效用(small effect size)和过度拟合(overfitting),这个说的很统计,我也不明白作者说的是什么意思,不过听起来像是统人相轻的意思了。不过后来作者提出一种对这类工具的设想,称之为确定性分析机(deterministic statistical machine),理解起来,就是用确定的、固定的分析方法来回答问题。(但我不知道,这就能解决上面作者提出的问题吗?)

对这个设想,我很赞同的,上次看statwing的时候,也提到,其实还是停留在自动数据探索的阶段。换句话说,这个工具仍然是面向统计,而不是面向业务。它内嵌了很多统计的模型,然而并没有将人们用分析回答问题的流程串联起来。

面向问题的工具,可能会从一些问题作为起点,比如:
  • 流量增长的主要原因是什么?
  • 如果对客户做A类促销,他们的消费会有什么样的变化?
  • 用户流量跟他们用的终端有什么关系?
  • ...
而回答这些问题,将采用一些固定的统计、挖掘方法,但这些方法对最终用户是透明的,最终用户只是看一份报告,上面有需要的数据,对那些问题的解释。如果这些用户是具备分析能力的,可以进一步到细节,去调整数据、分析方法等等。

作者这篇文章的评论的挺有意思。哎,还是国外的讨论更有深度一些啊。

先是引出了另一个工具现身说法,AdviseStat,这也是自动分析工具,宣称其实作者说的他们已经实现了。咦,看看介绍,确实是这个思路。从问题出发,他举的几个例子是:
  • 根据体重预测身高
  • 按性别对比薪资
  • 预测销售额
不过显然,他举的例子跟我上面的例子有些细微的区别,这里的问题已经比较单纯,很贴合分析统计的问题。但主要是思路上的差异。要回答这些问题,将要做很多分析、统计和警示工作,比如离群值、异常值、缺失值的处理,以及数据处理的不当。听起来不错。很牛逼,不过我没试用。谁使用一下做个评估?

接着,引出了statwing的创立人,俩人扯起什么统计方法的事情,在是否该用参数或非参数检验...算是跑题了吧。我想,什么分析方法好,什么分析方法不好,这是其次的事情。如果建立一种问题-解答的模式,分析方法还可以不断完善不是么。

2012/8/23 Q <happ...@gmail.com>



--
ttnn
telno: 13514984944

Reply all
Reply to author
Forward
0 new messages