根据BD业务的需求,为了更好的了解我们目前的推广渠道的现状,同时也为了更好的评估各个推广渠道的质量,更加合理的分配推广费用,准确的投放优质安装渠道,我们对现有的推广渠道的各个指标变量进行数据分析以及数据挖掘,并设计一套推广渠道质量评估模型以对现有和以后新增加进来的推广渠道有一个量化的评定。
二、考量因素、分析的指标
三、现状
针对线上推广的2大大类主通道48,31,09年上半年的各项指标数据,对各通道进行聚类处理,使各项指标属性上表现接近的渠道聚集标识出来,如“聚类-4”是卸载率(uninstallratio)和存活率(verifyratio)都比较高,但其他特征属性不明显的通道。以方便对现有的各种属性的渠道有一个大致的了解。现有渠道大致被归为了七类:
四、评估
为了更加客观的进行度量,引进了一个参考对象,即官网(10.10)的质量指标,使用各通道的各个指标与官网的相应指标进行比较。根据指标“好于”或“差于”官网,然后重新进行聚类,各类别如下图展示。
再根据各个指标的权重计算各个类别的综合得分,再根据最终结果对通道的分类进行评价,各指标权重分别为:
指标 | 权重 |
转化率 |
3/-3 |
欺诈安装量 | 1/-1.5 |
重复安装比例 |
0.5/-0.5 |
卸载比例 | 0.5/-0.5 |
七日存活率 |
5/-5 |
各类的综合得分如下:
类 | 得分 | 评价 |
Class-7 | -6 |
差 |
Class-6 | -9 | 差 |
|
Class-2 | -7 | 差 |
Class-5 |
-2 | 差 |
Class-1 | 4 |
好 |
|
Class-3 | 0.5 | 中 |
Class-4 | 0 |
中 |
五、量化评分
采用逻辑回归挖掘模型,使用各通道如前面列出来的连续的指标,预测对该通道的评价,归纳出判断一个渠道的质量的拟合函数,最后得到评分函数
六、反馈和模型修正
对各指标变量进行皮尔逊相关性分析后发现,通道转化率、存活率和卸载之间存在着较强的相关性,如下图。存活和转化之间的强相关性易于接受也符合业务的特点,卸载率这个因素跟存活和转化呈强相关性的的原因是,用户的存活的是在安装后七内计算的,而卸载是在用户整体生命周期中计算的,如果某一用户在安装七日以后卸载的话,那么该用户就会记有一个存活,一个卸载,从而造成有卸载必有存活的现象,也就出现了卸载率跟存活和转化呈强相关性的现象。为了更好的发挥卸载率反应渠道挽留用户的能力这一功能,模型中的卸载率变更为安装后七日内卸载用户的比率,这种用户就不会再记存活。
|
安装 |
重复安装 |
欺诈安装 |
转化率 |
存活率 |
卸载率 |
|
1 | -0.079746041 | 0.198544692 | -0.031242395 | 0.119054635 | 0.014852219 | 安装 |
| 1 | 0.115811573 | 0.074813347 | 0.11600068 | -0.142891312 | 重复 |
|
| 1 | -0.00556368 | 0.203195084 | -0.016334871 | 欺诈安装 |
|
|
| 1 | 0.562786202 | 0.631515526 | 转化 |
|
|
|
|
1 | 0.524848015 | 存活 |
|
|
|
|
|
1 |
卸载 |
由于存活率在模型中所占的比重太大,通道的最终得分曲线基本上跟通道的存活曲线是一致,所以对模型做另外一项调整就是将转化率设置为奖励性变量,即当某渠道的转化率低于官网的时候,转化率占权重为-30%,此时存活的权重为50%;而当某渠道的转化率高于官网的时候,转化率的权 重为+40%,此时存活率的权重也为40%。
重复安装,欺诈安装等在接近最小边界的时候,其他变量的得分也会很低,而这两个因素的权重不高,所以相较之下,该渠道的得分也不会高。
七、实施
实施流程如下:
On Oct 20, 5:45 pm, vincent chan <vshany...@gmail.com> wrote:
> 大家好!
> 业务要求我们给做一个给我们的推广渠道做定量评估的模型,就是类似于信用评分卡那样的东东,就用逻辑回归模型做了一个可以按照推广渠道在各个指标上的表现给通道打分,现在我的问题来了,逻辑clementine回归模型的结果给出是一个多元一次的方程,根据业务上的特性,某些指标可能需要二次的方程才能更好拟合,用什么工具什么方式来实现呢?2、有没有弄过信用评分卡的达人,能不能讲讲信用评分卡模型的思路?
>
> 附上文档,有点凌乱
> *
> 推广渠道质量评估模型*
> *
> 一、目的*
>
> 根据BD业务的需求,为了更好的了解我们目前
> 的推广渠道的现状,同时也为了更好的评估各个推广渠道的质量,更加合理的分配推广费用,准确的投放优质安装渠道,我们对现有的推广渠道的各个指标变量进行数据分析以及数据挖掘,并设计一套推广渠道质量评估模型以对现有和以后新增加进来的推广渠道有一个量化的评定。
>
> *二、考量因素、分析的指标*
>
> 1. 安装量(firstinstallscale):为评估安装量规模,不作为质量评定的标准。
> 2. 安装付费转化率(changeratio):某通道安装并付费的机器,占该通道安装所有机器的比例,考察通道用户付费意愿。
> 3. 七日2次存活率(verifyratio):某通道安装并在安装后的7日内有过两次升级行为的机器,占该通道安装所有机器的比例,考察通
> 道用户的使用意愿。
> 4. 欺诈安装量比例(cheatinstallratio):某通道欺诈安装占该通道所有安装的比例,考察通道是否存在作弊行为及程度,惩罚性变量。
> 5. 重复安装比例(repeatedinstallratio):某渠道重复安装占该渠道所有安装的比例,考察渠道拉新的能力。
> 6. 卸载比例(uninstallratio):某通道安装后卸载的机器,占该通道安装所有机器的比例,考察渠道挽留用户的能力。
>
> *三、现状*
>
> 针对线上推广的2大大类主通道48,31,09年上半年的各项指标数据,对各通道进行聚类处理,使各项指标属性上表现接近的渠道聚集标识出来,
> 如"聚类-4"是卸载率(uninstallratio)和存活率(verifyratio)都比较高,但其他特征属性不明显的通道。
> 以方便对现有的各种属性的渠道有一个大致的了解。现有渠道大致被归为了七类:
>
> *四、评估*
>
> 为了更加客观的进行度量,引进了一个参考对象,即官网(10.10)的质量指标,使用各通道的各个指标与官网的相应指标进行比较。根据指标"好于"或"差于"官网
> ,然后重新进行聚类,各类别如下图展示。
>
> *五、量化评分*
>
> 采用逻辑回归挖掘模型,使用各通道如前面列出来的连续的指标,预测对该通道的评价,归纳出判断一个渠道的质量的拟合函数
> ,最后得到评分函数
>
> *六、反馈和模型修正*
>
> 对各指标变量进行皮尔逊相关性分析后发现,通道转化率、存活率和卸载之间存在着较强的相关性,如下图。
> 存活和转化之间的强相关性易于接受也符合业务的特点,卸载率这个因素跟存活和转化呈强相关性的的原因是,用户的存活的是在安装后七
> 内计算的,而卸载是在用户整体生命周期中计算的,如果某一用户在安装七日以后卸载的话,那么该用户就会记有一个存活,一个卸载,从而
> 造成有卸载必有存活的现象,也就出现了卸载率跟存活和转化呈强相关性的现象。为了更好的发挥卸载率反应渠道挽留用户的能力这一功能,模型中的卸载率变更为安装后七
> 日内卸载用户的比率,这种用户就不会再记存活。
>
> *安装*
>
> *重复安装*
>
> *欺诈安装*
>
> *转化率*
>
> *存活率*
>
> *卸载率*
>
> 1
>
> -0.079746041
>
> 0.198544692
>
> -0.031242395
>
> 0.119054635
>
> 0.014852219
>
> *安装*
>
> 1
>
> 0.115811573
>
> 0.074813347
>
> 0.11600068
>
> -0.142891312
>
> *重复*
>
> 1
>
> -0.00556368
>
> 0.203195084
>
> -0.016334871
>
> *欺诈安装*
>
> 1
>
> *0.562786202*
>
> *0.631515526*
>
> *转化*
>
> 1
>
> *0.524848015*
>
> *存活*
>
> 1
>
> *卸载*
>
> 由于存活率在模型中所占的比重太大,通道的最终得分曲线基本上跟通道的存活曲线是一致,所以对模型做另外一项调整就是将
> 转化率设置为奖励性变量,即当某渠道的转化率低于官网的时候,转化率占权重为-30%,此时存活的权重为50%;而当某渠道的转化率高于官网的时候,转化率的权
> 重为+40%,此时存活率的权重也为40%。
>
> 重复安装,欺诈安装等在接近最小边界的时候,其他变量的得分也会很低,而这两个因素的权重不高,所以相较之下,该渠道的得分也不会高。
>
> *七、实施*
>
> 实施流程如下:
>
> 1. 预处理,按照权重给各通道进行手动打分。
>
> 1. 将最终得分大于5的通道评估为"好"。
>
> 1. 使用逻辑回归模型归纳评价为"好"的渠道回归方程。
把各个变量的平方加入到自变量列表中去
On 10月20日, 下午5时45分, vincent chan <vshany...@gmail.com> wrote:
> 大家好!
> 业务要求我们给做一个给我们的推广渠道做定量评估的模型,就是类似于信用评分卡那样的东东,就用逻辑回归模型做了一个可以按照推广渠道在各个指标上的表现给通道-打分,现在我的问题来了,逻辑clementine回归模型的结果给出是一个多元一次的方程,根据业务上的特性,某些指标可能需要二次的方程才能更好拟合,用什-么工具什么方式来实现呢?2、有没有弄过信用评分卡的达人,能不能讲讲信用评分卡模型的思路?
>
> 附上文档,有点凌乱
> *
> 推广渠道质量评估模型*
> *
> 一、目的*
>
> 根据BD业务的需求,为了更好的了解我们目前
> 的推广渠道的现状,同时也为了更好的评估各个推广渠道的质量,更加合理的分配推广费用,准确的投放优质安装渠道,我们对现有的推广渠道的各个指标变量进行数据分-析以及数据挖掘,并设计一套推广渠道质量评估模型以对现有和以后新增加进来的推广渠道有一个量化的评定。
>
> *二、考量因素、分析的指标*
>
> 1. 安装量(firstinstallscale):为评估安装量规模,不作为质量评定的标准。
> 2. 安装付费转化率(changeratio):某通道安装并付费的机器,占该通道安装所有机器的比例,考察通道用户付费意愿。
> 3. 七日2次存活率(verifyratio):某通道安装并在安装后的7日内有过两次升级行为的机器,占该通道安装所有机器的比例,考察通
> 道用户的使用意愿。
> 4. 欺诈安装量比例(cheatinstallratio):某通道欺诈安装占该通道所有安装的比例,考察通道是否存在作弊行为及程度,惩罚性变量。
> 5. 重复安装比例(repeatedinstallratio):某渠道重复安装占该渠道所有安装的比例,考察渠道拉新的能力。
> 6. 卸载比例(uninstallratio):某通道安装后卸载的机器,占该通道安装所有机器的比例,考察渠道挽留用户的能力。
>
> *三、现状*
>
> 针对线上推广的2大大类主通道48,31,09年上半年的各项指标数据,对各通道进行聚类处理,使各项指标属性上表现接近的渠道聚集标识出来,
> 如"聚类-4"是卸载率(uninstallratio)和存活率(verifyratio)都比较高,但其他特征属性不明显的通道。
> 以方便对现有的各种属性的渠道有一个大致的了解。现有渠道大致被归为了七类:
>
> *四、评估*
>
> 为了更加客观的进行度量,引进了一个参考对象,即官网(10.10)的质量指标,使用各通道的各个指标与官网的相应指标进行比较。根据指标"好于"或"差于"官-网
> ,然后重新进行聚类,各类别如下图展示。
> *五、量化评分*
>
> 采用逻辑回归挖掘模型,使用各通道如前面列出来的连续的指标,预测对该通道的评价,归纳出判断一个渠道的质量的拟合函数
> ,最后得到评分函数
>
> *六、反馈和模型修正*
>
> 对各指标变量进行皮尔逊相关性分析后发现,通道转化率、存活率和卸载之间存在着较强的相关性,如下图。
> 存活和转化之间的强相关性易于接受也符合业务的特点,卸载率这个因素跟存活和转化呈强相关性的的原因是,用户的存活的是在安装后七
> 内计算的,而卸载是在用户整体生命周期中计算的,如果某一用户在安装七日以后卸载的话,那么该用户就会记有一个存活,一个卸载,从而
> 造成有卸载必有存活的现象,也就出现了卸载率跟存活和转化呈强相关性的现象。为了更好的发挥卸载率反应渠道挽留用户的能力这一功能,模型中的卸载率变更为安装后-七
> 日内卸载用户的比率,这种用户就不会再记存活。
>
> *安装*
>
> *重复安装*
>
> *欺诈安装*
>
> *转化率*
>
> *存活率*
>
> *卸载率*
>
> 1
>
> -0.079746041
>
> 0.198544692
>
> -0.031242395
>
> 0.119054635
>
> 0.014852219
>
> *安装*
>
> 1
>
> 0.115811573
>
> 0.074813347
>
> 0.11600068
>
> -0.142891312
>
> *重复*
>
> 1
>
> -0.00556368
>
> 0.203195084
>
> -0.016334871
>
> *欺诈安装*
>
> 1
>
> *0.562786202*
>
> *0.631515526*
>
> *转化*
>
> 1
>
> *0.524848015*
>
> *存活*
>
> 1
>
> *卸载*
>
> 由于存活率在模型中所占的比重太大,通道的最终得分曲线基本上跟通道的存活曲线是一致,所以对模型做另外一项调整就是将
> 转化率设置为奖励性变量,即当某渠道的转化率低于官网的时候,转化率占权重为-30%,此时存活的权重为50%;而当某渠道的转化率高于官网的时候,转化率的权
> 重为+40%,此时存活率的权重也为40%。
>
> 重复安装,欺诈安装等在接近最小边界的时候,其他变量的得分也会很低,而这两个因素的权重不高,所以相较之下,该渠道的得分也不会高。
>
刚开始建模时训练集的数据是怎么得出来的?
能回答这个问题就解决建模的问题了
这个跟Qing在《甲方也有好多种》里描述的比较相似
这个建模的业务目的是什么都还没搞清楚
也就是下面说的“渠道的最终指标”
这是一个业务问题不是一个技术问题
我的想法:
在渠道建设初期我想我会给予渠道安装量70%以上的权重大力拓展市场
之后步入上升期我会着重考虑安装付费转化率的考核以提升业绩大力拓展付费用户
在平稳期我会着重考虑渠道的健康度也就是欺诈方面的考核情况
对于渠道端推广的考核也会遵循这个规则
呵呵
一家之言
bad和good的定义你要好好斟酌一下。信用评分根据basel协定把违约逾期90天的客户定义为bad。你这里定义好坏的依据是什么?要好好考虑一
下。
bad和good一般在整个客户群里占的比重不会太大。因为普通客户才是大多数。
一般情况下,bad客户很少,所以还要针对good客户做过采样。
真正的信用评分卡首先要对输入变量做切段,最终形成分值叠加的评分卡,从需求来看,你这步或许可以省略。
时间窗口看样子也可以省略。
另外,不太明白你做聚类是要干嘛,而且也不合理。安装量做过转换么?直接把绝对值扔给了模型??还有,把这么多离散变量扔给模型干什么??
On Oct 21, 10:01 am, vincent chan <vshany...@gmail.com> wrote:
> 我们现在的业务基本上是到了一个比较平稳的阶段了,所以才想对现有的渠道进行深耕。这个模型的目的就是可以综合考虑各种情况之后对渠道有个量化的评估。最后的应-用可能就是说,A渠道得分是95分,B渠道是75分,那么业务人员就可以认定说A渠道的质量比B渠道好,可能在做各种营销活动的时候对渠道A就会有更大的偏重。-可能这个文档为了把前前后后的探索思路都记下来造成有些误导了。其实最后正真建模的时候只使用了步骤7。训练数据就是通道各指标做输入,一个根据通道各指标表现-的主观打分的评定结果做输出。然后再在此基础上作逻辑回归。
>
> 2009/10/20 syfins <syf...@gmail.com>
>
>
>
> > 刚开始看了下就感觉有问题
> > 去洗了个澡回来再看看,果然是:)
>
> > 刚开始建模时训练集的数据是怎么得出来的?
> > 能回答这个问题就解决建模的问题了
>
> > 这个跟Qing在《甲方也有好多种》里描述的比较相似
> > 这个建模的业务目的是什么都还没搞清楚
> > 也就是下面说的"渠道的最终指标"
> > 这是一个业务问题不是一个技术问题
>
> > 我的想法:
> > 在渠道建设初期我想我会给予渠道安装量70%以上的权重大力拓展市场
> > 之后步入上升期我会着重考虑安装付费转化率的考核以提升业绩大力拓展付费用户
> > 在平稳期我会着重考虑渠道的健康度也就是欺诈方面的考核情况
> > 对于渠道端推广的考核也会遵循这个规则
>
> > 呵呵
> > 一家之言
>
> > On 10月20日, 下午5时55分, George Zhang <birdzhangxi...@gmail.com> wrote:
> > > 还没看完,两个疑问:1、相关性不是在聚类之前就要做的吗?
> > > 2、渠道没有一个最终指标吗?比如渠道获得总收入?
>
> > > 感觉逻辑不通顺哦
>
> > > --
> > > Best Regard
> > > George Zhang
>
> > >www.simplemining.com- Hide quoted text -
>
> - Show quoted text -
不同的人评判渠道的标准注定不一样
对于市场部门势必会关注和业绩相关比如安装付费转化率
而成本控制部门比如财务关注的是和成本相关的,哦,variable selection里面没有渠道成本相关的变量
那么这样的情况下做回归出来的模型具有什么意义啊?
大家的评判标准都不一样怎么来谈拟合呢?
On 10月21日, 上午10时01分, vincent chan <vshany...@gmail.com> wrote:
> 我们现在的业务基本上是到了一个比较平稳的阶段了,所以才想对现有的渠道进行深耕。这个模型的目的就是可以综合考虑各种情况之后对渠道有个量化的评估。最后的应-用可能就是说,A渠道得分是95分,B渠道是75分,那么业务人员就可以认定说A渠道的质量比B渠道好,可能在做各种营销活动的时候对渠道A就会有更大的偏重。-可能这个文档为了把前前后后的探索思路都记下来造成有些误导了。其实最后正真建模的时候只使用了步骤7。训练数据就是通道各指标做输入,一个根据通道各指标表现-的主观打分的评定结果做输出。然后再在此基础上作逻辑回归。
>
> 2009/10/20 syfins <syf...@gmail.com>
>
>
>
> > 刚开始看了下就感觉有问题
> > 去洗了个澡回来再看看,果然是:)
>
> > 刚开始建模时训练集的数据是怎么得出来的?
> > 能回答这个问题就解决建模的问题了
>
> > 这个跟Qing在《甲方也有好多种》里描述的比较相似
> > 这个建模的业务目的是什么都还没搞清楚
> > 也就是下面说的"渠道的最终指标"
> > 这是一个业务问题不是一个技术问题
>
> > 我的想法:
> > 在渠道建设初期我想我会给予渠道安装量70%以上的权重大力拓展市场
> > 之后步入上升期我会着重考虑安装付费转化率的考核以提升业绩大力拓展付费用户
> > 在平稳期我会着重考虑渠道的健康度也就是欺诈方面的考核情况
> > 对于渠道端推广的考核也会遵循这个规则
>
> > 呵呵
> > 一家之言
>
> > On 10月20日, 下午5时55分, George Zhang <birdzhangxi...@gmail.com> wrote:
> > > 还没看完,两个疑问:1、相关性不是在聚类之前就要做的吗?
> > > 2、渠道没有一个最终指标吗?比如渠道获得总收入?
>
> > > 感觉逻辑不通顺哦
>
> > > --
> > > Best Regard
> > > George Zhang
>
> > >www.simplemining.com- 隐藏被引用文字 -
>
> - 显示引用的文字 -