哇,说起自动分析,看到一个自动分析的在线服务网站,statwing。
它的流程很简单,上传数据-给出分析结果。看了demo,可以进行一些交互,探索单个变量的分布,或者看两个变量的关联性。单个变量,如果是离散型的,看构成比例,连续型的,看直方图。如果仅仅是这些,其实还不能算是自动分析,只能说是自动数据探索吧。但在网站的主页上,它可是写明是直接出结论的。它的意思大概就是指交互式地解读每个变量的分布吧。一开始我以为会自动进行比如预测,聚类等分析,但也许这也是他们未来考虑要做的。
好吧,注册一个账号,试试。
先上传数据,第一次没多想,选择一个多维数据集,不大,1万多行,两百多k的csv文件。发现它要求的csv必须是逗号分隔,而mac excel竟然是分号分隔,需要处理一下。开始分析,发现其实上传多维数据集是不行的,没有意义。它将每行数据看做是对个体的观测,而不是总体的统计。于是,重新上传了一个宽表型数据。哎,这下倒是能够解读出一些意义了。
选择一个变量,观察其分布,统计描述,以及分位值等。
选择两个变量,观察两个变量的统计相关性,还有高级的关联和简单线性回归。当然,其解读得有一些统计知识,但看起来并不复杂。如果变量出现异常值,会有提示。
最多只能选择两个变量了。
但对于数据探索来说,基本已经足够。上个月在探讨数据需求的时候,其中有一个就是出这种数据探索结果。这种结果不光是用于数据挖掘这类工作,对于业务分析来说,观察数据的分布,是可以找到业务感觉,从而做出更好假设的。
这种数据探索功能,很多工具都支持,不说sas、spss吧,teradata也有twm(单独的工具),它有这种功能,选定数据表,生成探索报告。然而,不得不说,它的设计是面向数据分析师,而非业务分析师。如果改善一些用户体验,类似于statwing这种不挺好的嘛,甚至还可以更简单一点。或者,这种在云端的分析工具也适合客户端的形式,单独的一个这样的工具(比如一个excel插件吧),连接不论什么类型的数据库,只要指定数据表,就能生成一对数据探索报告,并且还可以交互式地观察两两变量的相关性。
我想,这其实可以成为分析型数据库的标配。