最近弄的一个推广渠道质量评估模型，大家给参详参详

vincent chan

unread,

Oct 20, 2009, 5:45:09 AM10/20/09

to tt...@googlegroups.com

大家好！
业务要求我们给做一个给我们的推广渠道做定量评估的模型，就是类似于信用评分卡那样的东东，就用逻辑回归模型做了一个可以按照推广渠道在各个指标上的表现给通道打分，现在我的问题来了，逻辑clementine回归模型的结果给出是一个多元一次的方程，根据业务上的特性，某些指标可能需要二次的方程才能更好拟合，用什么工具什么方式来实现呢？2、有没有弄过信用评分卡的达人，能不能讲讲信用评分卡模型的思路？

附上文档，有点凌乱

推广渠道质量评估模型

一、目的

根据BD业务的需求，为了更好的了解我们目前的推广渠道的现状，同时也为了更好的评估各个推广渠道的质量，更加合理的分配推广费用，准确的投放优质安装渠道，我们对现有的推广渠道的各个指标变量进行数据分析以及数据挖掘，并设计一套推广渠道质量评估模型以对现有和以后新增加进来的推广渠道有一个量化的评定。

二、考量因素、分析的指标

安装量(firstinstallscale)：为评估安装量规模，不作为质量评定的标准。
安装付费转化率(changeratio)：某通道安装并付费的机器，占该通道安装所有机器的比例，考察通道用户付费意愿。
七日2次存活率(verifyratio)：某通道安装并在安装后的7日内有过两次升级行为的机器,占该通道安装所有机器的比例，考察通道用户的使用意愿。
欺诈安装量比例(cheatinstallratio)：某通道欺诈安装占该通道所有安装的比例，考察通道是否存在作弊行为及程度，惩罚性变量。
重复安装比例(repeatedinstallratio)：某渠道重复安装占该渠道所有安装的比例，考察渠道拉新的能力。
卸载比例(uninstallratio)：某通道安装后卸载的机器，占该通道安装所有机器的比例,考察渠道挽留用户的能力。

三、现状

针对线上推广的2大大类主通道48，31，09年上半年的各项指标数据，对各通道进行聚类处理，使各项指标属性上表现接近的渠道聚集标识出来，如“聚类-4”是卸载率(uninstallratio)和存活率(verifyratio)都比较高，但其他特征属性不明显的通道。以方便对现有的各种属性的渠道有一个大致的了解。现有渠道大致被归为了七类:

四、评估

为了更加客观的进行度量，引进了一个参考对象，即官网(10.10)的质量指标,使用各通道的各个指标与官网的相应指标进行比较。根据指标“好于”或“差于”官网，然后重新进行聚类，各类别如下图展示。

再根据各个指标的权重计算各个类别的综合得分，再根据最终结果对通道的分类进行评价,各指标权重分别为：

指标	权重
转化率	3/-3
欺诈安装量	1/-1.5
重复安装比例	0.5/-0.5
卸载比例	0.5/-0.5
七日存活率	5/-5

各类的综合得分如下:

类	得分	评价
Class-7	-6	差
Class-6	-9	差
Class-2	-7	差
Class-5	-2	差
Class-1	4	好
Class-3	0.5	中
Class-4	0	中

五、量化评分

采用逻辑回归挖掘模型，使用各通道如前面列出来的连续的指标，预测对该通道的评价，归纳出判断一个渠道的质量的拟合函数，最后得到评分函数

六、反馈和模型修正

对各指标变量进行皮尔逊相关性分析后发现，通道转化率、存活率和卸载之间存在着较强的相关性，如下图。存活和转化之间的强相关性易于接受也符合业务的特点，卸载率这个因素跟存活和转化呈强相关性的的原因是，用户的存活的是在安装后七内计算的，而卸载是在用户整体生命周期中计算的，如果某一用户在安装七日以后卸载的话，那么该用户就会记有一个存活，一个卸载，从而造成有卸载必有存活的现象，也就出现了卸载率跟存活和转化呈强相关性的现象。为了更好的发挥卸载率反应渠道挽留用户的能力这一功能，模型中的卸载率变更为安装后七日内卸载用户的比率，这种用户就不会再记存活。

安装	重复安装	欺诈安装	转化率	存活率	卸载率
1	-0.079746041	0.198544692	-0.031242395	0.119054635	0.014852219	安装
	1	0.115811573	0.074813347	0.11600068	-0.142891312	重复
		1	-0.00556368	0.203195084	-0.016334871	欺诈安装
			1	0.562786202	0.631515526	转化
				1	0.524848015	存活
					1	卸载

由于存活率在模型中所占的比重太大，通道的最终得分曲线基本上跟通道的存活曲线是一致，所以对模型做另外一项调整就是将转化率设置为奖励性变量，即当某渠道的转化率低于官网的时候，转化率占权重为-30%，此时存活的权重为50%；而当某渠道的转化率高于官网的时候，转化率的权重为+40%，此时存活率的权重也为40%。

重复安装，欺诈安装等在接近最小边界的时候，其他变量的得分也会很低，而这两个因素的权重不高，所以相较之下，该渠道的得分也不会高。

七、实施

实施流程如下：

预处理，按照权重给各通道进行手动打分。

将最终得分大于5的通道评估为“好”。

使用逻辑回归模型归纳评价为“好”的渠道回归方程。

vshanyiao

unread,

Oct 20, 2009, 5:51:31 AM10/20/09

to ttnn BI 观点

格式乱了，模型文档http://docs.google.com/View?id=dh4k5j9_163f92nm9c3

On Oct 20, 5:45 pm, vincent chan <vshany...@gmail.com> wrote:
> 大家好！
> 业务要求我们给做一个给我们的推广渠道做定量评估的模型，就是类似于信用评分卡那样的东东，就用逻辑回归模型做了一个可以按照推广渠道在各个指标上的表现给通道打分，现在我的问题来了，逻辑clementine回归模型的结果给出是一个多元一次的方程，根据业务上的特性，某些指标可能需要二次的方程才能更好拟合，用什么工具什么方式来实现呢？2、有没有弄过信用评分卡的达人，能不能讲讲信用评分卡模型的思路？
>
> 附上文档，有点凌乱

> *
> 推广渠道质量评估模型*
> *
> 一、目的*
>
> 根据BD业务的需求，为了更好的了解我们目前

> 的推广渠道的现状，同时也为了更好的评估各个推广渠道的质量，更加合理的分配推广费用，准确的投放优质安装渠道，我们对现有的推广渠道的各个指标变量进行数据分析以及数据挖掘，并设计一套推广渠道质量评估模型以对现有和以后新增加进来的推广渠道有一个量化的评定。
>

> *二、考量因素、分析的指标*
>
> 1. 安装量(firstinstallscale)：为评估安装量规模，不作为质量评定的标准。
> 2. 安装付费转化率(changeratio)：某通道安装并付费的机器，占该通道安装所有机器的比例，考察通道用户付费意愿。
> 3. 七日2次存活率(verifyratio)：某通道安装并在安装后的7日内有过两次升级行为的机器,占该通道安装所有机器的比例，考察通
> 道用户的使用意愿。
> 4. 欺诈安装量比例(cheatinstallratio)：某通道欺诈安装占该通道所有安装的比例，考察通道是否存在作弊行为及程度，惩罚性变量。
> 5. 重复安装比例(repeatedinstallratio)：某渠道重复安装占该渠道所有安装的比例，考察渠道拉新的能力。
> 6. 卸载比例(uninstallratio)：某通道安装后卸载的机器，占该通道安装所有机器的比例,考察渠道挽留用户的能力。
>
> *三、现状*

>
> 针对线上推广的2大大类主通道48，31，09年上半年的各项指标数据，对各通道进行聚类处理，使各项指标属性上表现接近的渠道聚集标识出来，
> 如"聚类-4"是卸载率(uninstallratio)和存活率(verifyratio)都比较高，但其他特征属性不明显的通道。
> 以方便对现有的各种属性的渠道有一个大致的了解。现有渠道大致被归为了七类:
>

> *四、评估*

>
> 为了更加客观的进行度量，引进了一个参考对象，即官网(10.10)的质量指标,使用各通道的各个指标与官网的相应指标进行比较。根据指标"好于"或"差于"官网
> ，然后重新进行聚类，各类别如下图展示。
>

> *五、量化评分*

>
> 采用逻辑回归挖掘模型，使用各通道如前面列出来的连续的指标，预测对该通道的评价，归纳出判断一个渠道的质量的拟合函数
> ，最后得到评分函数
>

> *六、反馈和模型修正*

>
> 对各指标变量进行皮尔逊相关性分析后发现，通道转化率、存活率和卸载之间存在着较强的相关性，如下图。
> 存活和转化之间的强相关性易于接受也符合业务的特点，卸载率这个因素跟存活和转化呈强相关性的的原因是，用户的存活的是在安装后七
> 内计算的，而卸载是在用户整体生命周期中计算的，如果某一用户在安装七日以后卸载的话，那么该用户就会记有一个存活，一个卸载，从而
> 造成有卸载必有存活的现象，也就出现了卸载率跟存活和转化呈强相关性的现象。为了更好的发挥卸载率反应渠道挽留用户的能力这一功能，模型中的卸载率变更为安装后七
> 日内卸载用户的比率，这种用户就不会再记存活。
>

> *安装*
>
> *重复安装*
>
> *欺诈安装*
>
> *转化率*
>
> *存活率*
>
> *卸载率*

>
> 1
>
> -0.079746041
>
> 0.198544692
>
> -0.031242395
>
> 0.119054635
>
> 0.014852219
>

> *安装*

>
> 1
>
> 0.115811573
>
> 0.074813347
>
> 0.11600068
>
> -0.142891312
>

> *重复*
>
> 1
>
> -0.00556368
>
> 0.203195084
>
> -0.016334871
>
> *欺诈安装*
>
> 1
>
> *0.562786202*
>
> *0.631515526*
>
> *转化*
>
> 1
>
> *0.524848015*
>
> *存活*
>
> 1
>
> *卸载*
>
> 由于存活率在模型中所占的比重太大，通道的最终得分曲线基本上跟通道的存活曲线是一致，所以对模型做另外一项调整就是将

> 转化率设置为奖励性变量，即当某渠道的转化率低于官网的时候，转化率占权重为-30%，此时存活的权重为50%；而当某渠道的转化率高于官网的时候，转化率的权
> 重为+40%，此时存活率的权重也为40%。
>
> 重复安装，欺诈安装等在接近最小边界的时候，其他变量的得分也会很低，而这两个因素的权重不高，所以相较之下，该渠道的得分也不会高。
>

> *七、实施*
>
> 实施流程如下：
>
> 1. 预处理，按照权重给各通道进行手动打分。
>
> 1. 将最终得分大于5的通道评估为"好"。
>
> 1. 使用逻辑回归模型归纳评价为"好"的渠道回归方程。

George Zhang

unread,

Oct 20, 2009, 5:55:47 AM10/20/09

to tt...@googlegroups.com

还没看完，两个疑问：

1、相关性不是在聚类之前就要做的吗？

2、渠道没有一个最终指标吗？比如渠道获得总收入？

感觉逻辑不通顺哦

--
Best Regard
George Zhang

www.simplemining.com

raullew

unread,

Oct 20, 2009, 9:44:00 AM10/20/09

to ttnn BI 观点

某些指标可能需要二次的方程才能更好拟合

把各个变量的平方加入到自变量列表中去

On 10月20日, 下午5时45分, vincent chan <vshany...@gmail.com> wrote:
> 大家好！

> 业务要求我们给做一个给我们的推广渠道做定量评估的模型，就是类似于信用评分卡那样的东东，就用逻辑回归模型做了一个可以按照推广渠道在各个指标上的表现给通道-打分，现在我的问题来了，逻辑clementine回归模型的结果给出是一个多元一次的方程，根据业务上的特性，某些指标可能需要二次的方程才能更好拟合，用什-么工具什么方式来实现呢？2、有没有弄过信用评分卡的达人，能不能讲讲信用评分卡模型的思路？
>
> 附上文档，有点凌乱

> *
> 推广渠道质量评估模型*
> *
> 一、目的*
>
> 根据BD业务的需求，为了更好的了解我们目前

> 的推广渠道的现状，同时也为了更好的评估各个推广渠道的质量，更加合理的分配推广费用，准确的投放优质安装渠道，我们对现有的推广渠道的各个指标变量进行数据分-析以及数据挖掘，并设计一套推广渠道质量评估模型以对现有和以后新增加进来的推广渠道有一个量化的评定。

>
> *二、考量因素、分析的指标*
>
> 1. 安装量(firstinstallscale)：为评估安装量规模，不作为质量评定的标准。
> 2. 安装付费转化率(changeratio)：某通道安装并付费的机器，占该通道安装所有机器的比例，考察通道用户付费意愿。
> 3. 七日2次存活率(verifyratio)：某通道安装并在安装后的7日内有过两次升级行为的机器,占该通道安装所有机器的比例，考察通
> 道用户的使用意愿。
> 4. 欺诈安装量比例(cheatinstallratio)：某通道欺诈安装占该通道所有安装的比例，考察通道是否存在作弊行为及程度，惩罚性变量。
> 5. 重复安装比例(repeatedinstallratio)：某渠道重复安装占该渠道所有安装的比例，考察渠道拉新的能力。
> 6. 卸载比例(uninstallratio)：某通道安装后卸载的机器，占该通道安装所有机器的比例,考察渠道挽留用户的能力。
>
> *三、现状*
>

> 针对线上推广的2大大类主通道48，31，09年上半年的各项指标数据，对各通道进行聚类处理，使各项指标属性上表现接近的渠道聚集标识出来，
> 如"聚类-4"是卸载率(uninstallratio)和存活率(verifyratio)都比较高，但其他特征属性不明显的通道。
> 以方便对现有的各种属性的渠道有一个大致的了解。现有渠道大致被归为了七类:
>

> *四、评估*
>
> 为了更加客观的进行度量，引进了一个参考对象，即官网(10.10)的质量指标,使用各通道的各个指标与官网的相应指标进行比较。根据指标"好于"或"差于"官-网
> ，然后重新进行聚类，各类别如下图展示。

> *五、量化评分*

>
> 采用逻辑回归挖掘模型，使用各通道如前面列出来的连续的指标，预测对该通道的评价，归纳出判断一个渠道的质量的拟合函数
> ，最后得到评分函数
>

> *六、反馈和模型修正*
>
> 对各指标变量进行皮尔逊相关性分析后发现，通道转化率、存活率和卸载之间存在着较强的相关性，如下图。

> 存活和转化之间的强相关性易于接受也符合业务的特点，卸载率这个因素跟存活和转化呈强相关性的的原因是，用户的存活的是在安装后七
> 内计算的，而卸载是在用户整体生命周期中计算的，如果某一用户在安装七日以后卸载的话，那么该用户就会记有一个存活，一个卸载，从而

> 造成有卸载必有存活的现象，也就出现了卸载率跟存活和转化呈强相关性的现象。为了更好的发挥卸载率反应渠道挽留用户的能力这一功能，模型中的卸载率变更为安装后-七

> 日内卸载用户的比率，这种用户就不会再记存活。
>
> *安装*
>
> *重复安装*
>
> *欺诈安装*
>
> *转化率*
>
> *存活率*
>
> *卸载率*
>

> 1
>
> -0.079746041
>
> 0.198544692
>
> -0.031242395
>
> 0.119054635
>
> 0.014852219
>

> *安装*

>
> 1
>
> 0.115811573
>
> 0.074813347
>
> 0.11600068
>
> -0.142891312
>

> *重复*
>
> 1
>
> -0.00556368
>
> 0.203195084
>
> -0.016334871
>
> *欺诈安装*
>
> 1
>
> *0.562786202*
>
> *0.631515526*
>
> *转化*
>
> 1
>
> *0.524848015*
>
> *存活*
>
> 1
>
> *卸载*
>
> 由于存活率在模型中所占的比重太大，通道的最终得分曲线基本上跟通道的存活曲线是一致，所以对模型做另外一项调整就是将

> 转化率设置为奖励性变量，即当某渠道的转化率低于官网的时候，转化率占权重为-30%，此时存活的权重为50%；而当某渠道的转化率高于官网的时候，转化率的权
> 重为+40%，此时存活率的权重也为40%。
>
> 重复安装，欺诈安装等在接近最小边界的时候，其他变量的得分也会很低，而这两个因素的权重不高，所以相较之下，该渠道的得分也不会高。
>

syfins

unread,

Oct 20, 2009, 10:54:13 AM10/20/09

to ttnn BI 观点

刚开始看了下就感觉有问题
去洗了个澡回来再看看，果然是：）

刚开始建模时训练集的数据是怎么得出来的？
能回答这个问题就解决建模的问题了

这个跟Qing在《甲方也有好多种》里描述的比较相似
这个建模的业务目的是什么都还没搞清楚
也就是下面说的“渠道的最终指标”
这是一个业务问题不是一个技术问题

我的想法：
在渠道建设初期我想我会给予渠道安装量70%以上的权重大力拓展市场
之后步入上升期我会着重考虑安装付费转化率的考核以提升业绩大力拓展付费用户
在平稳期我会着重考虑渠道的健康度也就是欺诈方面的考核情况
对于渠道端推广的考核也会遵循这个规则

呵呵
一家之言

vincent chan

unread,

Oct 20, 2009, 10:01:09 PM10/20/09

to tt...@googlegroups.com

我们现在的业务基本上是到了一个比较平稳的阶段了，所以才想对现有的渠道进行深耕。这个模型的目的就是可以综合考虑各种情况之后对渠道有个量化的评估。最后的应用可能就是说，A渠道得分是95分，B渠道是75分，那么业务人员就可以认定说A渠道的质量比B渠道好，可能在做各种营销活动的时候对渠道A就会有更大的偏重。可能这个文档为了把前前后后的探索思路都记下来造成有些误导了。其实最后正真建模的时候只使用了步骤7。训练数据就是通道各指标做输入，一个根据通道各指标表现的主观打分的评定结果做输出。然后再在此基础上作逻辑回归。

2009/10/20 syfins <syf...@gmail.com>

笨笨

unread,

Oct 20, 2009, 11:02:40 PM10/20/09

to ttnn BI 观点

粗略的看了一下，信用评分建模，目标变量一般只取bad和good两种值，不知道你这个o是什么意思？

bad和good的定义你要好好斟酌一下。信用评分根据basel协定把违约逾期90天的客户定义为bad。你这里定义好坏的依据是什么？要好好考虑一
下。

bad和good一般在整个客户群里占的比重不会太大。因为普通客户才是大多数。

一般情况下，bad客户很少，所以还要针对good客户做过采样。

真正的信用评分卡首先要对输入变量做切段，最终形成分值叠加的评分卡，从需求来看，你这步或许可以省略。

时间窗口看样子也可以省略。

另外，不太明白你做聚类是要干嘛，而且也不合理。安装量做过转换么？直接把绝对值扔给了模型？？还有，把这么多离散变量扔给模型干什么？？

On Oct 21, 10:01 am, vincent chan <vshany...@gmail.com> wrote:
> 我们现在的业务基本上是到了一个比较平稳的阶段了，所以才想对现有的渠道进行深耕。这个模型的目的就是可以综合考虑各种情况之后对渠道有个量化的评估。最后的应-用可能就是说，A渠道得分是95分，B渠道是75分，那么业务人员就可以认定说A渠道的质量比B渠道好，可能在做各种营销活动的时候对渠道A就会有更大的偏重。-可能这个文档为了把前前后后的探索思路都记下来造成有些误导了。其实最后正真建模的时候只使用了步骤7。训练数据就是通道各指标做输入，一个根据通道各指标表现-的主观打分的评定结果做输出。然后再在此基础上作逻辑回归。

>
> 2009/10/20 syfins <syf...@gmail.com>
>
>
>
> > 刚开始看了下就感觉有问题
> > 去洗了个澡回来再看看，果然是：）
>
> > 刚开始建模时训练集的数据是怎么得出来的？
> > 能回答这个问题就解决建模的问题了
>
> > 这个跟Qing在《甲方也有好多种》里描述的比较相似
> > 这个建模的业务目的是什么都还没搞清楚
> > 也就是下面说的"渠道的最终指标"
> > 这是一个业务问题不是一个技术问题
>
> > 我的想法：
> > 在渠道建设初期我想我会给予渠道安装量70%以上的权重大力拓展市场
> > 之后步入上升期我会着重考虑安装付费转化率的考核以提升业绩大力拓展付费用户
> > 在平稳期我会着重考虑渠道的健康度也就是欺诈方面的考核情况
> > 对于渠道端推广的考核也会遵循这个规则
>
> > 呵呵
> > 一家之言
>
> > On 10月20日, 下午5时55分, George Zhang <birdzhangxi...@gmail.com> wrote:
> > > 还没看完，两个疑问：1、相关性不是在聚类之前就要做的吗？
> > > 2、渠道没有一个最终指标吗？比如渠道获得总收入？
>
> > > 感觉逻辑不通顺哦
>
> > > --
> > > Best Regard
> > > George Zhang
>

> > >www.simplemining.com- Hide quoted text -
>
> - Show quoted text -

syfins

unread,

Oct 20, 2009, 11:21:57 PM10/20/09

to ttnn BI 观点

主观打分是由什么人通过什么标准进行的打分?
你现在的目的就是希望排除人的因素把这个标准确定下来
但这个问题我怎么感觉无解啊

不同的人评判渠道的标准注定不一样
对于市场部门势必会关注和业绩相关比如安装付费转化率
而成本控制部门比如财务关注的是和成本相关的，哦，variable selection里面没有渠道成本相关的变量
那么这样的情况下做回归出来的模型具有什么意义啊？
大家的评判标准都不一样怎么来谈拟合呢？

On 10月21日, 上午10时01分, vincent chan <vshany...@gmail.com> wrote:
> 我们现在的业务基本上是到了一个比较平稳的阶段了，所以才想对现有的渠道进行深耕。这个模型的目的就是可以综合考虑各种情况之后对渠道有个量化的评估。最后的应-用可能就是说，A渠道得分是95分，B渠道是75分，那么业务人员就可以认定说A渠道的质量比B渠道好，可能在做各种营销活动的时候对渠道A就会有更大的偏重。-可能这个文档为了把前前后后的探索思路都记下来造成有些误导了。其实最后正真建模的时候只使用了步骤7。训练数据就是通道各指标做输入，一个根据通道各指标表现-的主观打分的评定结果做输出。然后再在此基础上作逻辑回归。

>
> 2009/10/20 syfins <syf...@gmail.com>
>
>
>
> > 刚开始看了下就感觉有问题
> > 去洗了个澡回来再看看，果然是：）
>
> > 刚开始建模时训练集的数据是怎么得出来的？
> > 能回答这个问题就解决建模的问题了
>
> > 这个跟Qing在《甲方也有好多种》里描述的比较相似
> > 这个建模的业务目的是什么都还没搞清楚
> > 也就是下面说的"渠道的最终指标"
> > 这是一个业务问题不是一个技术问题
>
> > 我的想法：
> > 在渠道建设初期我想我会给予渠道安装量70%以上的权重大力拓展市场
> > 之后步入上升期我会着重考虑安装付费转化率的考核以提升业绩大力拓展付费用户
> > 在平稳期我会着重考虑渠道的健康度也就是欺诈方面的考核情况
> > 对于渠道端推广的考核也会遵循这个规则
>
> > 呵呵
> > 一家之言
>
> > On 10月20日, 下午5时55分, George Zhang <birdzhangxi...@gmail.com> wrote:
> > > 还没看完，两个疑问：1、相关性不是在聚类之前就要做的吗？
> > > 2、渠道没有一个最终指标吗？比如渠道获得总收入？
>
> > > 感觉逻辑不通顺哦
>
> > > --
> > > Best Regard
> > > George Zhang
>

> > >www.simplemining.com- 隐藏被引用文字 -
>
> - 显示引用的文字 -

vincent chan

unread,

Oct 21, 2009, 10:27:36 PM10/21/09

to tt...@googlegroups.com

那个打分有有依据的，并不是指全凭个人喜好，这里的主观是指我们先约定了一个各个知道的权重，然后根据这个权重去计算综合得分，最终的综合得分大于某个值（如5分）之后，则被判定为good。然后再依据这个判断去做拟合。

2009/10/21 syfins <syf...@gmail.com>

vincent chan

unread,

Oct 21, 2009, 10:35:14 PM10/21/09

to tt...@googlegroups.com

一哆嗦，打错了。
那个打分有有依据的，并不是指全凭个人喜好，

这里的主观是指我们先约定了一个各个指标的权重，然后根据各通道与一个参照系的指标做比较，得到这个通道在这个指标上“好于”或“坏于”参照系，如果好于参照系则加上权重分数，如果坏于参照系则扣除权重分数，如此计算通道的综合得分，最终的综合得分大于某个值（如5分）之后，则被判定为good。然后再依据这个判断去做拟合。那个逻辑回归模型里的O即是指这个参照系的指标。

2009/10/22 vincent chan <vsha...@gmail.com>

Q

unread,

Oct 24, 2009, 10:32:12 PM10/24/09

to tt...@googlegroups.com

这篇文章很有用。

最近我们也在搞类似的一个题目，研究客户感知度。同样需要对客户形成最后一个定量的感知度分值，也需要区分出不同的感知群体。

在探讨分析思路中，我们就遇到一些拐不过去的槛。

首先，我将可能会影响客户感知（也可以理解成为满意度）的因素包括几个方面，网络的、资费的、客服的、产品的，以及受客户自身的某些自然特征和业务特征影响。并且，这些因素有些更加是潜在影响的，有些是表现出来，相对明确反映出感知好坏的，比如投诉、业务退订等等。所以，我将这些因素区分成为影响因素和表现因素，翻译成挖掘用语，类似自变量和因变量的关系。而接着，我想这个问题就抽象成如何探索这些因素的因果关系之上。

接着探讨分析逻辑的时候，大致有两个逻辑。

第一个，是用预测法，既然因果因素已经确定，可以通过预测模型，不论是回归还是什么（比如那天说的什么结构方程），可以得到一个“分类器”，用来对每个客户进行打分，预测起可能会产生“果”的概率。这个逻辑是直接明了的。然而问题是，对表现因素的量化定义还是一个主观定义，我们可以假设客户投诉就是感知不好，不同投诉类型代表了不同的差感知，业务退订主要反应出对资费、产品功能的差感知，而业务重复订购则相反反映出好的感知。而在营业厅里面，客户在业务办理后反馈的满意评分，则反映出对客服的感知。这些表现因素反映出不同方面的感知，而如果我们将他们统一成感知”好“或”坏“，就有点牵强。甚至，还有人提出疑问，那些网络质量方面的因素，不也反映出客户感知不好吗？比如打电话老是掉线，肯定感知不好。对此，我一时觉得不应该这样理解，但也没有太好的理由反驳。但如果想想，是否经常掉线只是一种服务现象，客户自己是不能决定的，而我们研究的客户感知，需要一种他们的主动表现，投诉、退订，都是他们主动表现出来的。这个分析逻辑，我觉得很通顺，跟用过行为预测客户离网的思路有点类似，但客户是否离网是很容易定义的，离就离了，而感知好坏却不容易定义，想的多了，客户投诉真的就是感知不好？业务退订就是感知不好？

第二个逻辑，想用因子分析的方法来综合评价。既然已经将影响因素和表现因素都已经考虑到，那么可以不用区分影响还是表现，都一股脑去做因子分析，得出主要因子（预期最主要的因子恐怕还是那些表现因素）和权重。这里存在的假设是，所有的输入都是跟客户感知相关的，而且是同一个影响方向的。但要保证同一个影响方向又难了点，比如我们假设客户消费跟感知有关系，但是越高就感知越好呢？还是越差？无法得出一个简单的假设。而且，因子分析在用作宏观分析上挺有用，但用作对个体的评分，是否合适呢？这个分析逻辑始终还是有点模糊。

考虑两种逻辑，我发现其实造成逻辑不清楚的最大原因还是对分析目标的定义模糊，什么是感知的好坏。如果我们简化一下，不是分析客户感知，而是预测客户会不会投诉，那么这个分析目标就清晰得多了，但可能是不同的目标。

2009/10/22 vincent chan <vsha...@gmail.com>

--
TEL: 13514984944(HF)
MSN: happ...@hotmail.com
ttnn: http://ttnn.appspot.com

Reply all

Reply to author

Forward