很多时候,我们都想了解一个事物的特征,比如一个客户群体的特征。前段时间想到一个简单的特征分析方法,跟大家分享一下。
比如目前在广州火车站,滞留了大量回不了家的人。移动公司为了显摆自己的感恩广东精神,想针对这些客户搞些活动。于是首先要定位这些客户群,在近10天内,连续两天但不是天天在火车站附近活动的移动客户,这就是"滞留的人群",送点话费什么的。这群客户不少,大概五六十万。他们有什么特征呢?他们基本都是外地人,这点基本用屁股也能想得到。但他们都是那些地方的人?收入水平如何?一般使用什么业务?…
问题很多,但此处只想一种比较通用的特征分析方法,思路以及如何解读。
这并不是一个新的思路——一个群体跟另一个群体的交叉程度,如果交叉比一般水平高,那么这两个群体具备共性。这样说很抽象,具体一点说——如果"滞留的人群"跟"外来人群"有很大的交叉,比如交叉度达到八成,那么就可以将外地人当作滞留人群的一个特征(这个结论是显而易见的,甚至不需要分析)。
大家可以看出这个思路是什么了吧,没错,就是关联分析,而且是最简单的关联分析。但此处,大家还是忘了关联分析这个词,换了思路。所以,我这里用"交叉"而不是"关联"。交叉的判断,可以用图形的方式来表示,用两个圆圈来表示交叉的多少。如图jiaocha.jpg所示,蓝色代表"滞留人群",红色代表"外来人群",黄色代表"全体客户",红蓝交叉,占蓝色的大半壁江山。而这个红色却全部包围在黄色区域里面,绝对不会超过一半。如此判定,滞留人群大部分是外来人群。
用圆圈交叉来对比单独两个群体是否关联很直观,可以体现群体的大小和交叉程度。不过这种交叉如果不是特别明显的话(如图这个例子),还肉眼还真的不好判断,因此,也可以用另一种表示方法。
用柱图表示特殊群体交叉程度比总体交叉程度的倍数(也就是通常说得LIFT),如图lift.jpg所示。那条纵坐标为1的虚线就是基准线,表示两个群体的交叉程度跟总体交叉程度一样,不算特征。在那条线附近徘徊的柱子,可能都不算特征,只有明显高出,或者低出的,算是特征。比如图中显示,外来人群可算显著特征,而高消费则算另一个显著特征,表示"滞留人群"中高消费的人极少。
这并不是一个新的思路——一个群体跟另一个群体的交叉程度,如果交叉比一般水平高,那么这两个群体具备共性。这样说很抽象,具体一点说——如果"滞留的人群"跟"外来人群"有很大的交叉,比如交叉度达到八成,那么就可以将外地人当作滞留人群的一个特征(这个结论是显而易见的,甚至不需要分析)。
大家可以看出这个思路是什么了吧,没错,就是关联分析,而且是最简单的关联分析。但此处,大家还是忘了关联分析这个词,换了思路。所以,我这里用"交叉"而不是"关联"。
用柱图表示特殊群体交叉程度比总体交叉程度的倍数(也就是通常说得LIFT),如图lift.jpg所示。那条纵坐标为1的虚线就是基准线,表示两个群体的交叉程度跟总体交叉程度一样,不算特征。在那条线附近徘徊的柱子,可能都不算特征,只有明显高出,或者低出的,算是特征。比如图中显示,外来人群可算显著特征,而高消费则算另一个显著特征,表示"滞留人群"中高消费的人极少。
这种表示方法很容易某个群体和其他若干群体的交叉程度,但不能显示群体的大小。而且,接着还有一个问题——究竟有那些人群可以用来交叉的。只要你想到一个划分的维度,就可以区分。
至于深入分析,当然得具体群体对待,比如要识别这些滞留人群的地域分布,他们都是哪儿的人。这得具体分析,可以从他们的历史的长途通话,特别是滞留这段期间的长途通话,看主要通向何处,基本上,他就是那儿的人。
网 易 有 道 英 汉 电 子 词 典 获 2 0 0 7 年 “ 电 脑 报 ” 免 费 软 件 最 佳 功 能 奖