前些日子提出一种具操作性的分析方法论,当时提议用基于假设的证实或证伪的迭代方法来完成数据分析的过程。这不,昨天我们有个需求需要开展,因此正式实践了一下这个方法。但因为整个方法论还没有在项目组内普及,所以,我先如何用假设表达分析需求开始。
这个题目是关于消费、话务变化的分析。
开始,我先列出了所有可能的假设,没有逻辑,想到什么就是什么,类似头脑风暴,列出了一堆。我采用断言的形式来给出一个假设,比如"交往圈突变对话务有一定影响"。这个假设并不精确,因为没有对"突变"和"一定"给出明确定义,但可以在未来的数据探索过程中再给出进一步定义,将这个假设修正成"交往圈变化幅度超过20%,将会导致话务量15%的同向变化"。这些很具体的值,需要观察数据的分布才能得到,我想,在一开始没有必要给出,那样反而过于细化。当然,所有的假设都有隐含前提,比如上面这个例子里面,可能会有一个隐含前提——是个体需求引发的交往圈变化,或者是由于营销政策导致的交往圈变化?其实,假设应该构成一个体系,而不是平铺直叙的。
在列出大约十几个假设的时候,我意识到这点,它们过于凌乱。因此停了下来,考虑如何组织这些假设,以及他们的描述形式。
一条假设,基本上可以说是"如果-那么"的形式,或者是它的变形。比如,"如果用户是年轻人,那么他的话务波动会很大。"当然,在实际表达当中,我们也许并不会这样表达,直接说"年轻人的话务波动很大"。这里省略了如果那么,直接给出一个判断,是一种变形。
很多假设串在一起,就形成若干条假设链:
如果A,那么B,如果B,那么C
比如:"如果经常上网并且经常用短信,那么是年轻人。如果是年轻人,那么他的话务波动就很大"。
不过我总是觉得在开始表达需求的时候,没有必要严格遵守这些形式,那样反而可能被形式所误。至少上面这些是我在做完假设以后总结的,而不是在过程中应用的。但经过一番考虑,觉得还是应该抓住重点,重点还是在于全部假设的结构。这就像是写一篇文章的提纲挈领。
在停下来之后,发现要盯住分析目标,先给出粗放的总体假设。然后再细化,一开始的头脑风暴有必要,可以算是准备素材阶段。然而,最终我们的分析是为了达到什么目的呢?比如,需要对一个群体进行细分——对客户进行价值的细分。比如要找出话务、消费波动的原因,比如要找到针对不同群体用什么策略刺激最为合适。
这里其实有三个分析目标。直接为他们做出假设。
对于话务、消费波动的原因,可以大胆作出一些猜测,但求全面,不求能不能通过现有数据分析的出来。
一个人的消费、话务受什么影响呢?假设宏观环境改变是比较大的原因,例如社会经济、消费指数、通信资费政策、重大事件。这是一个假设了。再假设,个人环境的改变有较大影响,比如工作性质、职位变化,家庭变迁。再假设,个人消费欲望有较大影响,比如加入了集团网、主动办理某业务、手机终端升级了。再假设,运营商的营销刺激有强烈影响,比如一次优惠活动,业务体验等等。
如此四个大的方面可能是对消费有影响的,设想一下,要回答这个问题,如果能够用一个饼图,将各种因素的权重列出来,是一种非常清晰的答案(当然,要求这些权重的计算符合理解逻辑)。
同样,另外两个目标是群体细分跟策略影响,照样作出假设。细分,你就假设出最后的若干群体。假设,对客户消费的细分存在这样一些显著群体,从三个角度看待。从消费额看,有高、中、低,从消费变化模式看,可以是稳定不变的,有对价格调整有响应的(消费随着价格变化而改变),有对服务措施有响应的。如此,就能够交叉得出九个群体。当然,最后的验证,也许那个对服务措施有响应的群体微不足道,那么这将是个不成立的假设(不够显著),证伪了。
针对目标的假设很粗放,后续所有的假设都将围绕它们。对于一些还模糊的假设,可以继续作出假设。"工作性质变化,对消费影响很大",如何判断工作性质变化?可以是,"如果用户交往圈数量突变,工作性质发生变化。如果长途话务比例突变,工作性质产生变化…"
完成了以上的工作,再视察一下总体的假设是否全面,还行,让同事再参谋一下,做些补充,嘿,自我感觉还满意的。
每个假设都隐含是从某个角度来看待问题的,接下来的工作,是将这个角度细化成可量化的变量。
如果说这些假设由擅长业务而不擅长数据分析的人来完成的话,那么,将这些假设转换成变量就需要擅长数据分析的人来共同完成。分析者给出变量解释,业务者判断是否符合假设中的业务定义。比如从"如果国际长途话务比例突变,那么消费有较大变化"中,可以抽象出两个变量,一个用来衡量消费变化。一个用来衡量国际长途话务比例变化。要详细地定义它,就需要类似这样的描述,"对于变化,用连续四个月的度量,后俩月的平均值对前俩月平均值的变化率来表示。(后俩月-前俩月)/前俩月",国际长途话务比例=月国际长途话务量/月长途话务量。要这样明确地定义出来这些变量。
至此,从假设细化到变量,可以进行后续的数量分析,证实或证伪这些假设。当然,有一点我觉得还是非常必要——至少要通过数据探索之后,迭代地修正这些假设。可惜这个步骤暂时还没有尝试,所以这里暂时是空谈,等我们什么时候真的这么做了,再好好说说体会,也不会那么容易的。