静的分析动的分析

0 views

Skip to first unread message

Qing

unread,

Aug 19, 2008, 1:50:57 AM8/19/08

to tt...@googlegroups.com

分析一个现象的原因，可以假设很多因素，搜集数据去证明这些因素是或者不是该现象的原因。有些因素是不变的，是一种静态的属性，比如一个人的身份，而有些因素是反映变化的，比如一个人身份的变化。

人们看待事物也通常有不同的倾向，有的人喜欢寻找静态的原因，有人喜欢找动态的。比如杨佳袭警这个事情，对于杨佳的分析。可以说，这个人性格暴躁，北京大爷，所以他杀了人。也可以分析说，这个人在行动之前被压抑了太久，并且遭到不公待遇，所以，他动手了。前者的分析是静态的，后者是动态的。

这也并没有什么好坏之分，但从解释理解角度，静态配合动态的分析，是更加令人满意并接受。静态分析很容易触动一大类人的神经，你如果判断人的原因归结到阶级、种族等静态因素上去，你可能要倒霉（当然，也许你的分析并不是完全错误的），被人唾骂。即使不骂，也会说，这个原因归结地太简单，没有说服力。而你拿出一些动态的行为因素呢，大家稍微安静下来，哦，挺有道理（但他们也许是被忽悠了）。

在数据挖掘建模当中，我想应该区分这两种因素，并形成不同类型的变量。而在提出分析需求的时候，也得区分出这两种不同的因素。静态和动态，这听起来非常简单，确实应该如此，但从现有的案例来看，人们似乎更愿意分析静态的因素。我想，这可能是因为这种静态分析比较简单的缘故，数据更加容易获取。而变化因素，要定义这种变化本身就是困难的。比如，身份，可能只有5种，但身份的变化，变成了一个排列组合问题。可是，往往这种想法阻碍了我们去考虑变化型因素，因为一想到要枚举所有可能的组合，似乎是不大可能的。不过其实，作出合适的假设，并不需要所有的组合。也许只需要关注其中的特定变化，比如身份提高的变化、到具体某个身份的变化。

在描述需求的时候，一不小心也容易忽略静态和动态的变化。比如"分析产品对收入的影响"，其实本意是分析产品的变化对收入的影响，特别是购买了某类产品后，收入的变化情况，而不是"拥有"某类产品，其收入的变化。当然，从分析难度来看，后者容易很多。平常的olap操作甚至就能得到。

动态分析是要分析时间上的变化，一个时间点前后，或者两个时间周期间的对比，比如增长率，同比增长，变化趋势，都属于动态因素。这些因素需要进一步的表达。增长率也许是比较容易定义的，但趋势？如何定义，是只有上升下降？还是要加上一种幅度？是简单直线拟合趋势？还是曲线拟合以后再表达出来？如速增缓降、缓增缓降…等等，显然，要得到合适的动态因素，需要一些数据探索工作。

数据探索似乎是一种比较无聊的工作，很多时候是欠缺的。恐怕这也就是为什么很多分析里面缺少动态因素的原因之一。

关于静态和动态因素的区分，仍然有点模糊，但从前面看，至少已经做出初步的区分。所以，可以比以前基于假设的分析需求表达再前进一步，对这个分析方法论做些补充：
1、分析的需求要明确区分静态因素和动态因素，既用明白无歧义的语言去表达两种假设；
2、数据探索阶段，有项工作就是要确立动态因素的变量表示方式。（如，究竟有哪几种变化？）

孤独一狼

unread,

Aug 20, 2008, 12:57:49 AM8/20/08

to ttnn BI 观点

在数据挖掘建模的时候动态和静态信息都是必须考虑的，静态是一种现状，但无法表达一种因果，那就需要加上动态。另外单个因素可能是无用的，但和其他
因素放在一起可能是得到有用的结果。动态因素一般需要现有系统因素的衍生结果，比如我们看流失，可能有用的区别流失和保持的因素会在流失前的消费变
化，绝对值是无意义的，所以可以用流失前的消费额和之前的比率构成这个动态因素。但是具体的时间窗的选择，可以在消费数据在历史流失和正常客户上做
profiling进行探索。

另外，在数据挖掘建模的时候，一定要充分领用biz user的思路，他们对决定预测目标的相关因素有准确的理解和直觉，会对你选择因素和因素的构成
有很大的帮助。

Reply all

Reply to author

Forward

0 new messages

静的分析 动的分析

Qing

孤独一狼

静的分析动的分析