简易特征分析方法

19 views
Skip to first unread message

Qing

unread,
Jan 29, 2008, 11:40:25 PM1/29/08
to tt...@googlegroups.com

很多时候,我们都想了解一个事物的特征,比如一个客户群体的特征。前段时间想到一个简单的特征分析方法,跟大家分享一下。

比如目前在广州火车站,滞留了大量回不了家的人。移动公司为了显摆自己的感恩广东精神,想针对这些客户搞些活动。于是首先要定位这些客户群,在近10天内,连续两天但不是天天在火车站附近活动的移动客户,这就是"滞留的人群",送点话费什么的。这群客户不少,大概五六十万。他们有什么特征呢?他们基本都是外地人,这点基本用屁股也能想得到。但他们都是那些地方的人?收入水平如何?一般使用什么业务?…

问题很多,但此处只想一种比较通用的特征分析方法,思路以及如何解读。

这并不是一个新的思路——一个群体跟另一个群体的交叉程度,如果交叉比一般水平高,那么这两个群体具备共性。这样说很抽象,具体一点说——如果"滞留的人群"跟"外来人群"有很大的交叉,比如交叉度达到八成,那么就可以将外地人当作滞留人群的一个特征(这个结论是显而易见的,甚至不需要分析)。

大家可以看出这个思路是什么了吧,没错,就是关联分析,而且是最简单的关联分析。但此处,大家还是忘了关联分析这个词,换了思路。所以,我这里用"交叉"而不是"关联"。交叉的判断,可以用图形的方式来表示,用两个圆圈来表示交叉的多少。如图jiaocha.jpg所示,蓝色代表"滞留人群",红色代表"外来人群",黄色代表"全体客户",红蓝交叉,占蓝色的大半壁江山。而这个红色却全部包围在黄色区域里面,绝对不会超过一半。如此判定,滞留人群大部分是外来人群。

用圆圈交叉来对比单独两个群体是否关联很直观,可以体现群体的大小和交叉程度。不过这种交叉如果不是特别明显的话(如图这个例子),还肉眼还真的不好判断,因此,也可以用另一种表示方法。

用柱图表示特殊群体交叉程度比总体交叉程度的倍数(也就是通常说得LIFT),如图lift.jpg所示。那条纵坐标为1的虚线就是基准线,表示两个群体的交叉程度跟总体交叉程度一样,不算特征。在那条线附近徘徊的柱子,可能都不算特征,只有明显高出,或者低出的,算是特征。比如图中显示,外来人群可算显著特征,而高消费则算另一个显著特征,表示"滞留人群"中高消费的人极少。

这种表示方法很容易某个群体和其他若干群体的交叉程度,但不能显示群体的大小。
 
而且,接着还有一个问题——究竟有那些人群可以用来交叉的。这就看你事先划分了那些人群。首先客户的各种分类属性都可以区别人群,比如性别,可以划分女性群体、男性群体。年龄,可以划分青少年、中年、老年群体。通过行为,可以划分喜欢新业务群体、经常漫游的群体等等。这些群体的划分,可以自下而上,不必非得规划好适合划分那些群体,只要你想到一个划分的维度,就可以区分。比如这个滞留群体,只有在今年春节前的这个机会才识别到的,保留下来,就会多一个群体。日积月累,群体就会非常丰富,用群体交叉的方法来作特征分析也就越丰富。当然,这也可能会造成一定的干扰,很多特征不明显的群体交叉也都会显示出来,反而突出不了重点交叉群体。不过这也是有办法处理的,比如在上面那个柱子图里面,将柱子高度在0.8-1.2附近的交叉群体都隐藏(或者可以交互式调节这个区间),就可以突出重点特征。
使用这种方法可以非常简单地得到某个群体的特征,并且,可以自动化、显性化地得到。大多数情况,得到这些粗略的特征已经足够。至于深入分析,当然得具体群体对待,比如要识别这些滞留人群的地域分布,他们都是哪儿的人。这得具体分析,可以从他们的历史的长途通话,特别是滞留这段期间的长途通话,看主要通向何处,基本上,他就是那儿的人。
 
这个方法目前还停留在我的大脑里面,今天写出来了。过段时间,可能我们会实现。具体实现方面,难度到不大,其实我们以前已经有很多属性的关联分析,但确实存在群体划分过细(自上而下的细分经常会造成这种状况)的毛病,造成关联分析的结果可解释性不强。
 
如果谁有兴趣实现这个特征分析方法,可以具体再交流一下,看还存在哪些问题。
jiaocha.JPG
lift.JPG

raullew

unread,
Jan 29, 2008, 11:59:47 PM1/29/08
to ttnn BI 观点
打算怎么分析多维的?
我最近想想只想到了cube拖拉(交叉透视表)和卡方检验。。。

On 1月30日, 下午12时40分, Qing <happys...@gmail.com> wrote:
> 很多时候,我们都想了解一个事物的特征,比如一个客户群体的特征。前段时间想到一个简单的特征分析方法,跟大家分享一下。
>
> 比如目前在广州火车站,滞留了大量回不了家的人。移动公司为了显摆自己的感恩广东精神,想针对这些客户搞些活动。于是首先要定位这些客户群,在近10天内,连续-两天但不是天天在火车站附近活动的移动客户,这就是"滞留的人群",送点话费什么的。这群客户不少,大概五六十万。他们有什么特征呢?他们基本都是外地人,这点-基本用屁股也能想得到。但他们都是那些地方的人?收入水平如何?一般使用什么业务?...
>
> 问题很多,但此处只想一种比较通用的特征分析方法,思路以及如何解读。
>
> 这并不是一个新的思路----一个群体跟另一个群体的交叉程度,如果交叉比一般水平高,那么这两个群体具备共性。这样说很抽象,具体一点说----如果"滞留的人群"跟-"外来人群"有很大的交叉,比如交叉度达到八成,那么就可以将外地人当作滞留人群的一个特征(这个结论是显而易见的,甚至不需要分析)。
>
> 大家可以看出这个思路是什么了吧,没错,就是关联分析,而且是最简单的关联分析。但此处,大家还是忘了关联分析这个词,换了思路。所以,我这里用"交叉"而不是-"关联"。交叉的判断,可以用图形的方式来表示,用两个圆圈来表示交叉的多少。
> 如图jiaocha.jpg所示,
> 蓝色代表"滞留人群",红色代表"外来人群",黄色代表"全体客户",红蓝交叉,占蓝色的大半壁江山。而这个红色却全部包围在黄色区域里面,绝对不会超过一半。-如此判定,滞留人群大部分是外来人群。
>
> 用圆圈交叉来对比单独两个群体是否关联很直观,可以体现群体的大小和交叉程度。不过这种交叉如果不是特别明显的话(如图这个例子),还肉眼还真的不好判断,因此-,也可以用另一种表示方法。
>
> 用柱图表示特殊群体交叉程度比总体交叉程度的倍数(也就是通常说得LIFT),如图lift.jpg所示
> 。那条纵坐标为1的虚线就是基准线,表示两个群体的交叉程度跟总体交叉程度一样,不算特征。在那条线附近徘徊的柱子,可能都不算特征,只有明显高出,或者低出的-,算是特征。比如图中显示,外来人群可算显著特征,而高消费则算另一个显著特征,表示"滞留人群"中高消费的人极少。
> 这种表示方法很容易某个群体和其他若干群体的交叉程度,但不能显示群体的大小。
>
> 而且,接着还有一个问题----究竟有那些人群可以用来交叉的。这就看你事先划分了那些人群。首先客户的各种分类属性都可以区别人群,比如性别,可以划分女性群体、-男性群体。年龄,可以划分青少年、中年、老年群体。通过行为,可以划分喜欢新业务群体、经常漫游的群体等等。这些群体的划分,可以自下而上,不必非得规划好适合-划分那些群体,只要你想到一个划分的维度,就可以区分。比如这个滞留群体,只有在今年春节前的这个机会才识别到的,保留下来,就会多一个群体。日积月累,群体就-会非常丰富,用群体交叉的方法来作特征分析也就越丰富。当然,这也可能会造成一定的干扰,很多特征不明显的群体交叉也都会显示出来,反而突出不了重点交叉群体。-不过这也是有办法处理的,比如在上面那个柱子图里面,
> 将柱子高度在0.8-1.2附近的交叉群体都隐藏(或者可以交互式调节这个区间),就可以突出重点特征。
> 使用这种方法可以非常简单地得到某个群体的特征,并且,可以自动化、显性化地得到。大多数情况,得到这些粗略的特征已经足够。至于深入分析,当然得具体群体对待-,比如要识别这些滞留人群的地域分布,他们都是哪儿的人。这得具体分析,可以从他们的历史的长途通话,特别是滞留这段期间的长途通话,看主要通向何处,基本上,-他就是那儿的人。
>
> 这个方法目前还停留在我的大脑里面,今天写出来了。过段时间,可能我们会实现。具体实现方面,难度到不大,其实我们以前已经有很多属性的关联分析,但确实存在群-体划分过细(自上而下的细分经常会造成这种状况)的毛病,造成关联分析的结果可解释性不强。
>
> 如果谁有兴趣实现这个特征分析方法,可以具体再交流一下,看还存在哪些问题。
>
> jiaocha.JPG
> 8K查看下载
>
> lift.JPG
> 7K查看下载

Qing

unread,
Jan 30, 2008, 12:25:22 AM1/30/08
to tt...@googlegroups.com
没打算分析多维的,那样太复杂,要拖来拖去。或者,能够自动检测到两个维度交叉以后的"有趣"的结果并展现,那也行。不过,我想对于大多数情况,从单个维度去看就能得到很多信息矣。

2008/1/29 raullew <rau...@hotmail.com>:
打算怎么分析多维的?
我最近想想只想到了cube拖拉(交叉透视表)和卡方检验。。。
 

猪猪

unread,
Jan 30, 2008, 4:50:00 AM1/30/08
to ttnn BI 观点
文章很实用,谢谢!学到东西了!

On 1月30日, 下午12时40分, Qing <happys...@gmail.com> wrote:
> 很多时候,我们都想了解一个事物的特征,比如一个客户群体的特征。前段时间想到一个简单的特征分析方法,跟大家分享一下。
>
> 比如目前在广州火车站,滞留了大量回不了家的人。移动公司为了显摆自己的感恩广东精神,想针对这些客户搞些活动。于是首先要定位这些客户群,在近10天内,连续两天但不是天天在火车站附近活动的移动客户,这就是"滞留的人群",送点话费什么的。这群客户不少,大概五六十万。他们有什么特征呢?他们基本都是外地人,这点基本用屁股也能想得到。但他们都是那些地方的人?收入水平如何?一般使用什么业务?...
>
> 问题很多,但此处只想一种比较通用的特征分析方法,思路以及如何解读。
>
> 这并不是一个新的思路----一个群体跟另一个群体的交叉程度,如果交叉比一般水平高,那么这两个群体具备共性。这样说很抽象,具体一点说----如果"滞留的人群"跟"外来人群"有很大的交叉,比如交叉度达到八成,那么就可以将外地人当作滞留人群的一个特征(这个结论是显而易见的,甚至不需要分析)。
>
> 大家可以看出这个思路是什么了吧,没错,就是关联分析,而且是最简单的关联分析。但此处,大家还是忘了关联分析这个词,换了思路。所以,我这里用"交叉"而不是"关联"。交叉的判断,可以用图形的方式来表示,用两个圆圈来表示交叉的多少。
> 如图jiaocha.jpg所示,
> 蓝色代表"滞留人群",红色代表"外来人群",黄色代表"全体客户",红蓝交叉,占蓝色的大半壁江山。而这个红色却全部包围在黄色区域里面,绝对不会超过一半。如此判定,滞留人群大部分是外来人群。
>
> 用圆圈交叉来对比单独两个群体是否关联很直观,可以体现群体的大小和交叉程度。不过这种交叉如果不是特别明显的话(如图这个例子),还肉眼还真的不好判断,因此,也可以用另一种表示方法。
>
> 用柱图表示特殊群体交叉程度比总体交叉程度的倍数(也就是通常说得LIFT),如图lift.jpg所示
> 。那条纵坐标为1的虚线就是基准线,表示两个群体的交叉程度跟总体交叉程度一样,不算特征。在那条线附近徘徊的柱子,可能都不算特征,只有明显高出,或者低出的,算是特征。比如图中显示,外来人群可算显著特征,而高消费则算另一个显著特征,表示"滞留人群"中高消费的人极少。
> 这种表示方法很容易某个群体和其他若干群体的交叉程度,但不能显示群体的大小。
>
> 而且,接着还有一个问题----究竟有那些人群可以用来交叉的。这就看你事先划分了那些人群。首先客户的各种分类属性都可以区别人群,比如性别,可以划分女性群体、男性群体。年龄,可以划分青少年、中年、老年群体。通过行为,可以划分喜欢新业务群体、经常漫游的群体等等。这些群体的划分,可以自下而上,不必非得规划好适合划分那些群体,只要你想到一个划分的维度,就可以区分。比如这个滞留群体,只有在今年春节前的这个机会才识别到的,保留下来,就会多一个群体。日积月累,群体就会非常丰富,用群体交叉的方法来作特征分析也就越丰富。当然,这也可能会造成一定的干扰,很多特征不明显的群体交叉也都会显示出来,反而突出不了重点交叉群体。不过这也是有办法处理的,比如在上面那个柱子图里面,
> 将柱子高度在0.8-1.2附近的交叉群体都隐藏(或者可以交互式调节这个区间),就可以突出重点特征。
> 使用这种方法可以非常简单地得到某个群体的特征,并且,可以自动化、显性化地得到。大多数情况,得到这些粗略的特征已经足够。至于深入分析,当然得具体群体对待,比如要识别这些滞留人群的地域分布,他们都是哪儿的人。这得具体分析,可以从他们的历史的长途通话,特别是滞留这段期间的长途通话,看主要通向何处,基本上,他就是那儿的人。
>
> 这个方法目前还停留在我的大脑里面,今天写出来了。过段时间,可能我们会实现。具体实现方面,难度到不大,其实我们以前已经有很多属性的关联分析,但确实存在群体划分过细(自上而下的细分经常会造成这种状况)的毛病,造成关联分析的结果可解释性不强。
>
> 如果谁有兴趣实现这个特征分析方法,可以具体再交流一下,看还存在哪些问题。
>
> jiaocha.JPG
> 8K查看下载
>
> lift.JPG
> 7K查看下载

supper

unread,
Jan 31, 2008, 2:17:49 AM1/31/08
to tt...@googlegroups.com
我把自己理解的几段可以概括中心意思的文字,已经摘录在原文的位置了,然后谈谈自己的想法.

的确,这个分析思路和传统的关联分析不同,传统的关联分析就是想知道一个群体所具备的各个属性(假设用以研究的群体具有相同的属性集合)之间有什么联系,相关的条件概率是多少,属于一种地毯式的相关性挖掘,这种体力活当然交给机器做;这里楼主提出的思路,是仅仅针对于自己感兴趣的属性研究,想了解具有自己感兴趣特征的用户群(比如已经识别的这部分滞留用户)还具有其它哪些具有市场潜力(这是我自己借用的价值定位,可能具有其它性质的潜力)的特征。

需要分析的问题定位了,下面展开思路:
首先就是需要定义这个作为前提的特征的识别规则,这一步应该很重要,毕竟是属于第一步的用户群定位,还是需要保证一下准确率;
然后需要拿出几个感兴趣的属性来于做交集,看看是否可观。这里楼主用了人数百分比这个相对值来衡量。另外也可以用交集容量/并集容量来考量两个集合的交集显著度,意思也差不多
最后对显著度判别,取阈值或者怎么样再加上些别的判别规则把定量变为定性判断。


下面说下疑问:
1.这些互相交叉的特征之间,是否需要尽量保证互相独立,也即是否不应该具有明显的相关性,否则这个后来得到的结论又是个常识了(当然,用数据来验证一下常识也没问题)
2.在确立了前提特征(比如滞留)之后,剩下的交集显著度计算的工作是否可以交给机器来做,如果有一个用户特征标志库的话,那么就可以在这个库中搜寻具有感兴趣的特征的用户集合。我技术比较撇,还只是构思一下。
3.楼主提到了深入分析,也就是发掘了一部分用户之后的扩展应用,这个应该会范围很广了,理论上业务系统里面有的都能关联出来分析一通。我觉得这是个无底洞,指标的构造可以很黄很暴力。要么就作一个原始指标库,剩下的复杂指标交给机器去构造,然后出了横表了来分析;要么就还是继续做专注的分析,业务上需要哪几类的指标,找几个有代表性的看看是否有有趣的信息

我的理解:这种方法的使用,需要相关业务背景和想象力.


2008/1/30, Qing <happ...@gmail.com>:

这并不是一个新的思路——一个群体跟另一个群体的交叉程度,如果交叉比一般水平高,那么这两个群体具备共性。这样说很抽象,具体一点说——如果"滞留的人群"跟"外来人群"有很大的交叉,比如交叉度达到八成,那么就可以将外地人当作滞留人群的一个特征(这个结论是显而易见的,甚至不需要分析)。

大家可以看出这个思路是什么了吧,没错,就是关联分析,而且是最简单的关联分析。但此处,大家还是忘了关联分析这个词,换了思路。所以,我这里用"交叉"而不是"关联"。

用柱图表示特殊群体交叉程度比总体交叉程度的倍数(也就是通常说得LIFT),如图lift.jpg所示。那条纵坐标为1的虚线就是基准线,表示两个群体的交叉程度跟总体交叉程度一样,不算特征。在那条线附近徘徊的柱子,可能都不算特征,只有明显高出,或者低出的,算是特征。比如图中显示,外来人群可算显著特征,而高消费则算另一个显著特征,表示"滞留人群"中高消费的人极少。

这种表示方法很容易某个群体和其他若干群体的交叉程度,但不能显示群体的大小。
 
而且,接着还有一个问题——究竟有那些人群可以用来交叉的。只要你想到一个划分的维度,就可以区分。
至于深入分析,当然得具体群体对待,比如要识别这些滞留人群的地域分布,他们都是哪儿的人。这得具体分析,可以从他们的历史的长途通话,特别是滞留这段期间的长途通话,看主要通向何处,基本上,他就是那儿的人。

 






--
The Glory and The Dream,Buried in The Life......

jiutiaoj...@126.com

unread,
Jan 31, 2008, 7:49:48 AM1/31/08
to tt...@googlegroups.com
看大家讨论好多天,就是不知道如何参加那些讨论,一句话都不想说,原因是觉得大家之前的讨论主要侧重在技术层面上,没有涉及业务多少。今天看到这篇《 简易特征分析方法》,忍不住想说两句,呵呵,这种分析思路是技术与业务的优秀结合案例(虽然不很成熟)!很完美!
 
我非常支持这个思路,加油!俺也在做这样的工作啊!呵呵
 
这样的工作让我想起一句话来:其实数据挖掘是一门艺术!那些有固定模式的挖掘分析模型(只能说是统计),根本不是业务需求的;而且也解决不了业务多变、灵活的需求!
 
从参加上海这次bi讨论回来后,就感觉大家现在的主要思想还是集中在技术这一点上,根本没有结合业务的需求,这个真的很失望啊!希望下次能多听到技术与业务相结合的话语!
 
 
 
 
 
 
 
 

在2008-01-31,supper <suppe...@gmail.com> 写道:
网 易 有 道 英 汉 电 子 词 典 获 2 0 0 7 年 “ 电 脑 报 ” 免 费 软 件 最 佳 功 能 奖
Reply all
Reply to author
Forward
0 new messages