眼前一个分析项目告一段落,有了结论,即将开始应用,嘘了一口气。在此,总结回顾一下。前些日子都一直都没闲工夫来沉下心来思考这件事情。本来,我以为这事儿干得还行,思路很明确,要什么结论,也有个大概。但分析结果出来之后,仍然发现一些不太令人满意的地方。
在之前,多多少少已经涉及到这事儿,比如关于动静的分析,比如简明因果分析方法等,都是从这事儿考虑出来的。
这个项目是分析电信客户价值变化的原因,目的是为了做一些价值提升的营销活动。当初设想的就有三块分析内容,第一是分析究竟哪些因素对价值波动产生影响,强烈程度。第二是能够对整体客户群的价值波动进行一些细分。第三,是分析不同的营销刺激手段都能造成什么样的波动。
看起来还算明确吧。在需求书里面,我用了基于假设的需求表达方法,从这三个分析目标开始,设想最后可能的分析结论形式,并且逐层细化假设(可惜,并没有迭代)。后来,分析人员易手,换了个同事来做分析。进度则有些迟缓。
我期望能够快点出东西,不赞成用挖掘模型来建模。其实,这个题目更多就是分析因果关系,只要得出这个结论,细分也好办了,我想,即便用业务经验去观察重要因素的分布情况,也能细分出若干群体。更重要的应该是将问题定义清楚。
比如,什么叫做波动。
客户消费产生的变化就是波动,可以是上升的,可以是下降的,也可以是平稳的。每个客户都可以计算出来这个量化值,但,需要去掉宏观波动。因此,波动的计算要不仅涉及客户自己的消费,还要考虑总体的消费。
波动是"果",而"因"的定义,也同样需要逐个来考验。变量,是挖掘的术语。而在分析层面,我尽量用因素这个词。每个因素最后都需要落到一个变量上去。在以前的一片文章中,我试图将因素分成静态和动态的。
确实是如此分了。但后来发现,即便是如此区分以后,结论仍然不好解释。
静态因素反映某个时点的状态,而动态因素反映不同时点的变化。静态因素容易定义一些,比如你的性别、消费额,比较客观。而动态因素,不太容易定义。最需要注意的是,动态变化所取的时点得讲究。他的发生应该在果之前。可惜,我们这次分析,因为这点开始没考虑细,并非如此。动态因和果是在同一个周期里面发生的,如此,你根本就无法判定究竟是这个因导致了果,还是果导致了因。
并非所有前的都是因,因果跟关联的关系很容易混淆。但对于我们平常的理解,如果不追求本质的话,关联已经能够起到很大作用,即便不是因果也无所谓。比如A和B,可能是一种因果关系,如果A那么B,但也可能根本不是,只是一种关联,A和B可能被另一个莫名的因素决定。但在实际的决策当中,完全可以不求甚解地判定,发生了A的,会发生B。
为了简化分析过程,我构想了"简化因果分析法",请参见结尾的链接。所以,只需要将对因果数据形成一种多维的视图,也就是诸如(因素1、因素2、因素3...果、客户数)这样的数据集。然后在excel里面进行分析、作图。结论是很容易解读的。除了上面所说,有些动态因素的时间点取得不是很好。因此,不能轻易得出因果关系。一定要用,那是一种虚假的结论。事已至此,只能这种动态因素解释成为关联因素。
得是
前因导致后果,这是一个教训。我很奇怪为什么在挖掘技术里面,为什么没有在变量周期选择上的一些规矩。
因果分析的结论还算凑合,也不要求完美了。接着是细分。同事一上来就说要聚类,但我很害怕,因为不知道会聚出什么,所以,宁愿通过统计数字来认为切割。不过后来证明,当变量比较少,业务含义比较清楚的时候,聚类还是蛮有效的。
只有四个因素用来细分,其中一个是价值波动,另外是对波动影响比较大的三个因素。我开始想用价值波动跟其他因素,逐个进行二维分析,做成泡泡图,看分布,通过图形来划分群体。不过效果不好,而同事在旁边看我折腾,说,就这四个变量,用聚类很快的。
我问,结论容易解释么?其实这个问题也是白问,主要我是以前给几百个变量的聚类结果给搞怕了。
他说,聚出来,也可以两两交叉看分布情况。
好,那就动手吧。
结果确实很快就出来,半小时的功夫。去看结果,那个工具可以选择两两变量看二维的群分布情况。稍微看了一下,用很早以前设想的分群图形解读方法,嘿,群体的分布还算可以,基本上可以分成三大类,稳定、上升和下滑,然后每种还可以细分成好几种。当然,大部分都是平稳型的。
细分的事情还算顺利。得感谢少变量的聚类细分,效果不错。看来,
如果用聚类的话,最好得精选一些变量。
最后还有个刺激因素分析。这事儿有点棘手。
原本,我想着运营商的刺激因素应该挺有作用才是,比如赠送了话费,应该可以让有些敏感客户的消费明显提升的。但用简明因果分析的方法并没有发现这个规律,反而发现,凡是遭受刺激的,大多都是趋于平稳。真让人恼火。本来我希望能够找到一类刺激手段,他对促进客户价值是作用明显的,那根红色的柱子一柱擎天最好。可惜找不到。
为什么呢?难道以往的营销活动都只是稳定客户消费么?这也不是不可能,也许正是如此。但毕竟,这跟我们业务上的感觉和期望不一致,如果有更多的数据来验证这个结论,也许我可以理直气壮地阐述一个出乎意料的结论。但这里,我没有那个底气。因为也许这里面我们观察的周期不够,或者是我们的波动定义,因为取得是多月平均,却消化了这种刺激因素导致的突然波动。总之,有很多疑点没有深入。
而因为找不到一个有效的刺激手段,我却又发现了一个新的问题。那就是这个项目的最初分析逻辑,其实并不完整。
这里说"分析逻辑",是一个新词,指的是如何利用分析结论,通过什么手段达成业务目的的逻辑。或者大家也可以理解成为"分析思路",但后面这个词的含义太模糊,所以我先不用它。
我们的逻辑——找到可以价值提升客户。于是,可以先找到不同波动幅度的客户,看波动是如何引起的。找到因素后,可以基于这些因素,定位目标客户,看看有什么手段可以提升他们的价值。
要针对目标客户进行营销刺激,这种刺激本身就是一种影响因素。分析结论表示,不同的波动是由一些静态因素引起的,或者是客户自己主动发生的动态因素引起。这对营销策略没有直接的用处。只能从这种结论得到一种业务知识——哦,这类客户容易波动。但容易波动并不代表他就响应你的刺激。
看吧,分析逻辑并不清晰,或者说很牵强。
一次分析,如果分析逻辑不清楚,恐怕结果并不会好。而相比之下,想想客户流失预警模型,它的逻辑倒是清楚的。目的:要避免客户流失,那就找到可能会流失的客户,挽留。虽然,挽留这种措施是一种刺激,但这里分析的不是挽留刺激是否对即将流失客户有效。更重要的是找到可能流失的。这个应用的目的是一种预防。而价值提升是一种刺激。目的不同,分析逻辑也不同。当然,离网这块也可以考虑挽留策略的刺激效果,但那是预防之后的事情。
在价值提升这个分析里面。其实也有挽留的部分,看那些可能价值降低的,可以采取一些措施来激励他。这时候,判断客户自然的上升还是下降,有意义。而对于提升,也许更加合理的是采用响应分析的方法,来预测客户是否对某种刺激手段有某种响应。
分析逻辑可以如此三段表达:
目的 - 期望的分析结论 - 你达到目的的策略
比如我们这个项目,可以如此表达分析逻辑——(要进行价值提升, 对刺激手段不同响应类型的细分,对有提升潜力的群体进行提升而对可能价值流失的群体进行挽留)
而对于这个逻辑是否通顺,可能还是得好好判断一下,即便形式上看着蛮符合逻辑的。甚至,也许更本就不是分析逻辑在先,而是分析方法在先。就是如此,其实最早就是已经确定了三个分析方向,但之间的逻辑却没有好好琢磨。如果那时候好好想想这个问题,可能会有更直接的方法。但也可能,为了方法,而制造出一串看起来蛮合理的逻辑。这可没法说,就像是为事务冠以美名一样,做婊子都可以立牌坊呢。所以,虽然我这里提出
分析逻辑的重要,但也没有说明什么才是一个合理的分析逻辑。
好了,一中午的时间,回顾地不多。这个项目好歹已经用了以往说的若干方法,基于假设的需求表达、简明因果分析法、静态动态分析还有分群图形解读的方法,也算不虚此分了。
而回顾中得出三个教训,是之前没有想到或少想到的:
1、注意前因导致后果;
2、用聚类来细分,慎选变量;
3、在数据分析之前,注重分析逻辑的合理性;
下面给出其中用到的一些方法的相关链接: