用户流失预警模型

121 views
Skip to first unread message

Franc Fu

unread,
May 27, 2010, 2:11:51 AM5/27/10
to ttnn
对于任何企业来说,都会一定程度上面对用户流失问题,特别是盈利型的企业,减少用户流失或者减少忠诚用户的流失对可以大幅提高利润,而且一般而言,维持老用户的成本是要低于争取新用户的成本的。那么建立用户流失预警机制就比较重要了。
在通信行业,这一块应该做的比较成熟了,但据我观察,通用的做法一般是用传统的分类方法,即将标有是否流失标签的用户数据分为两个部分,一部分为训练集数据一部分为测试集数据,选择某种分类算法(决策树、神经网络,svn等等),建立黑盒或者相对白盒的模型,然后拿新用户的数据扔进去跑出来一个是否有流失征兆的结果,并且一般可以给出流失的置信区间。
这种做法一般在可以明确判断用户是否已经流失的企业中比较适用,比方说通信行业,你不在线的就是流失了。然而,对于电子商务网站,这可能有点难度了,并不能明确判断用户是否已经流失,即不能打标签。那么如何做流失预警呢?目前我知道的有以下三种方法:
1、最拍脑袋的方法,即认为设定多少时间没来购买了或多少时间没来登录了就定义为有流失倾向了。这个方法简单粗糙,太经验了,而对于不同用户出现流失征兆的时间应该是不一样。
2、可以对已经购买过的用户的购买数据和登录数据进行分析,得出已经完成x次购买的用户是在上次购买(即第x-1次购买)后的y(y可以取分位数)天内完成第x次购买的,而对于已经完成x-1次购买的用户,如果在y天内还没完成购买的,那就定义为有流失倾向,如果更进一步的,可以把登录行为数据也以同样的方法加进来一起
3、第三种方法是Pareto/NBD模型或者及其变形模型,这个我还没研究透,主要思想是基于五个概率假设,运用用户购买次数数据、用户上次购买距今天数、上次购买时间等数据来建立概率模型进行预测,有其局限性,但是也是一种方向。附件提供一篇相关硕士论文供参考。
 
流失预警之后的挽留营销暂不在本帖子内讨论吧 那是另外一个话题了 呵呵
 
大伙对用户流失预警特别针对电子商务网站的用户流失后任何见解尽管拍出来吧,是金子都得拿出来晒晒才会更亮。
 

--
--~--~---------~--~----~------------~-------~--~----~ 要在此论坛发帖,请
发电子邮件到 tt...@googlegroups.com 要退订此论坛,请发邮件至
ttnn-uns...@googlegroups.com 更多选项,请通过
http://groups.google.com/group/ttnn访问本论坛
-~----------~----~----~----~------~----~------~--~---

Franc Fu

unread,
May 27, 2010, 2:19:53 AM5/27/10
to ttnn
忘了添加附件了,附件需要用cajviewer打开。

基于Pareto_NBD_朴素贝叶斯组合模型的电子商务客户流失预测研究.nh

祝迎春

unread,
May 27, 2010, 5:16:54 AM5/27/10
to tt...@googlegroups.com

奇怪怎么用原始的贝叶斯?用MCMC啊,大致看了下,这个可以用MCMC实现

YY H

unread,
May 27, 2010, 10:06:53 PM5/27/10
to tt...@googlegroups.com
对于第一个拍脑袋的方法,可以改进一下:对每个用户,按照没来登陆的时间给个权重,使得天数越多的权重越大,在模型训练的时候把权重的影响也加进去。

在 2010年5月27日 下午2:11,Franc Fu <happy...@gmail.com> 写道:

> --
> 要在此论坛发帖,请发电子邮件到 tt...@googlegroups.com

Q

unread,
May 27, 2010, 11:25:30 PM5/27/10
to tt...@googlegroups.com
很显然,你的问题是“在互联网行业,用户流失是如何定义的?”

在这个问题没有解决前,谈如何建模,用贝叶斯还是mcmc,还是rfm,白搭。

其实你谈到这个问题,但这个问题还没有解决之前,就突然峰回路转,说起如何进行流失预警了。(什么是“流失”和“流失预警”是两个不同的概念)。

既然在互联网行业流失的定义不明确(其实通信行业的流失也并非那么明确),那就明确他,可以用数据分析来帮忙。

你们是否已经存在一批用户?已经界定他们是“已经流失了的”,如果有,就再明确他们算是什么时间点流失的。如果没有,得找出来这批用户。

2010/5/28 YY H <gxg...@gmail.com>
Message has been deleted

Franc Fu

unread,
May 28, 2010, 2:50:53 AM5/28/10
to tt...@googlegroups.com
to YY H:加权重的话,涉及到怎么加权重,怎么说明或者验证加权是合理的呢?
 
to guang lin:数据量还可以,现在倒还没用这个模型或者方法去实施,就算实施了,这里涉及到怎么评价的问题,预测流失准确的标准或评价方法,这个倒还真不知道怎么评价
 
就像Q说的 其实首先要解决的是确定互联网行业中 怎么定义流失的问题,就是什么叫做用户流失,而在我前面的表述中确实把流失的定义和之后的流失预警有些混淆,我前面提到的两个方法都是用上次登录或者购买距今的时间长度或者某种变形来衡量是否有流失征兆,如果按照这种定义,那就不需要再做什么模型了,直接用这个定义来衡量是否有流失征兆即可。但是按照这个定义来衡量的话如何评价这种方法好坏呢,好到什么程度坏到什么程度呢?因为要去说服别人来使用这个方法来实施。
 
第三种方法,是把用户流失这个事件看做是一个随机事件来处理,并不需要去定义什么叫流失,和前面两种好像是不一样的方法。
 
还是有些迷糊,不知道其他互联网公司或者电子商务网站是如何来处理这件事的。

在 2010年5月28日 上午11:35,guang lin <lingua...@gmail.com>写道:
不知道你们的数据量或者用户数有多少?
 
你用了模型后和用了你说的拍脑袋的方法相比,如何?
有时,拍脑袋的方法虽然得到的结果不是最优,但可能是次优,而且是最省时间,最省人力办法。


 
--
要在此论坛发帖,请发电子邮件到 tt...@googlegroups.com
要退订此论坛,请发邮件至 ttnn-uns...@googlegroups.com
更多选项,请通过 http://groups.google.com/group/ttnn 访问本论坛

--
要在此论坛发帖,请发电子邮件到 tt...@googlegroups.com
要退订此论坛,请发邮件至 ttnn-uns...@googlegroups.com
更多选项,请通过 http://groups.google.com/group/ttnn 访问本论坛

LP Wang

unread,
May 28, 2010, 3:23:36 AM5/28/10
to tt...@googlegroups.com
可以统计客户的访问周期(小时/日/周/月/季/年),访问时长等习惯,
访问频率越来越小的用户,或者访问时长越来越短的用户都有流失的可能。

Franc Fu

unread,
May 28, 2010, 3:28:12 AM5/28/10
to tt...@googlegroups.com
to LP Wang :嗯 这个思路其实就是定义什么叫流失,不需要建模,只需要从历史购买或者登录数据中找出点规律,然后弄个公式判断一下是否大于某个临界值,大于那就定义其有流失可能性。那如何评价这种方法的好坏呢?

LP Wang

unread,
May 28, 2010, 3:39:47 AM5/28/10
to tt...@googlegroups.com
方法的好坏,要从实际应用中得到验证,然后修改方法,然后再验证。
从客户入手,哪类客户的哪些行为可以认为是流失,单纯看访问习惯,可能会得出不准确的结论

LP Wang

unread,
May 28, 2010, 3:45:31 AM5/28/10
to tt...@googlegroups.com
我觉得庆说的很对,首先想明白什么叫网站客户流失。我也没想明白。
没有绝对的流失,只有相对的流失。

Franc Fu

unread,
May 28, 2010, 3:59:40 AM5/28/10
to tt...@googlegroups.com
“没有绝对的流失 只有相对的流失 ”这个确实应该是这样的。刚刚提到的评价好坏,我是知道要从实际应用得到验证,我的原意是 假设弄到一个模型能够比较准确的预测流失征兆了,之后拿到这些有流失征兆的用户拿去挽留营销,营销的结果可能是有些用户被拉回来了,有些用户依然如旧,然后怎么样验证预测流失准确性呢?
 
或者突然想到,要验证预测流失准确性,在进行预测后,拿出可能流失的用户名单,静观其变,之后确实没回来了,说明流失预测的很准???

Q

unread,
May 28, 2010, 5:08:36 AM5/28/10
to tt...@googlegroups.com
你纠结在评价的问题正是因为流失的定义不清,否则,评估预测模型的准确率就可以了。

> --
> --~--~---------~--~----~------------~-------~--~----~ 要在此论坛发帖,请
> 发电子邮件到 tt...@googlegroups.com 要退订此论坛,请发邮件至
> ttnn-uns...@googlegroups.com 更多选项,请通过
> http://groups.google.com/group/ttnn访问本论坛
> -~----------~----~----~----~------~----~------~--~---
>
>
> --
> 要在此论坛发帖,请发电子邮件到 tt...@googlegroups.com
> 要退订此论坛,请发邮件至 ttnn-uns...@googlegroups.com
> 更多选项,请通过 http://groups.google.com/group/ttnn 访问本论坛
>

--
telno: 13514984944(HF)
https://groups.google.com/group/ttnn

Franc Fu

unread,
May 28, 2010, 5:45:06 AM5/28/10
to tt...@googlegroups.com
貌似评价和流失定义不清的关系不大吧,假设定义好了流失,即符合X条件的用户叫做流失用户,然后剩下的问题就是如何评价这个“符合X条件”的准确性了。如果要验证,那就过一定时间看看,被预测或定义为有流失征兆的用户是否真的没回来,如果真的没回来 那就真的预测对了,如果又回来了 那就预测错误,是否是这样的逻辑?就像是 我预测明天下雨,明天一到果然下雨了,那就预测正确?

raullew

unread,
May 28, 2010, 7:06:54 AM5/28/10
to ttnn BI 观点
对于没有客观定义的问题,挖掘的过程也是挖掘定义的过程
否则,按照现在流行的discriminative算法,算出来的只是定义与定义上的相似,这种相似在数学上是最好的,但缺乏实际价值
所以我认为,为了挖掘达到最神奇的效果,labeled data不可以是定义出来的,而应该是黑箱操作一个一个标定的,这种黑箱操作最好是用户自然行
为的记录
也即是说,如果没有用户自然声明流失的记录,那么流失的定义就是挖掘出这个定义,而并非有了确切的定义以后去挖掘

On 5月28日, 上午2时08分, Q <happys...@gmail.com> wrote:
> 你纠结在评价的问题正是因为流失的定义不清,否则,评估预测模型的准确率就可以了。
>
>
>
>
>

> On Friday, May 28, 2010, Franc Fu <happyfr...@gmail.com> wrote:
> > "没有绝对的流失 只有相对的流失 "这个确实应该是这样的。刚刚提到的评价好坏,我是知道要从实际应用得到验证,我的原意是 假设弄到一个模型能够比较准确的预测流失征兆了,之后拿到这些有流失征兆的用户拿去挽留营销,营销的结果可能是有些用户被拉回来了,有些用户依然如旧,然后怎么-样验证预测流失准确性呢?


>
> > 或者突然想到,要验证预测流失准确性,在进行预测后,拿出可能流失的用户名单,静观其变,之后确实没回来了,说明流失预测的很准???
>

> > 在 2010年5月28日 下午3:45,LP Wang <wlpdr...@gmail.com>写道:
>
> > 我觉得庆说的很对,首先想明白什么叫网站客户流失。我也没想明白。
> > 没有绝对的流失,只有相对的流失。
>

> > 在 2010年5月28日 下午3:39,LP Wang <wlpdr...@gmail.com>写道:
>
> > 方法的好坏,要从实际应用中得到验证,然后修改方法,然后再验证。
> > 从客户入手,哪类客户的哪些行为可以认为是流失,单纯看访问习惯,可能会得出不准确的结论
>

> > 在 2010年5月28日 下午3:28,Franc Fu <happyfr...@gmail.com>写道:
>
> > to LP Wang :嗯 这个思路其实就是定义什么叫流失,不需要建模,只需要从历史购买或者登录数据中找出点规律,然后弄个公式判断一下是否大于某个临界值,大于那就定义其有流失可能-性。那如何评价这种方法的好坏呢?


>
> > 在 2010年5月28日 下午3:23,LP Wang <wlpdr...@gmail.com>写道:
>
> > 可以统计客户的访问周期(小时/日/周/月/季/年),访问时长等习惯,
> > 访问频率越来越小的用户,或者访问时长越来越短的用户都有流失的可能。
>

> > 在 2010年5月28日 下午2:50,Franc Fu <happyfr...@gmail.com>写道:
>
> > to YY H:加权重的话,涉及到怎么加权重,怎么说明或者验证加权是合理的呢?
>
> > to guang lin:数据量还可以,现在倒还没用这个模型或者方法去实施,就算实施了,这里涉及到怎么评价的问题,预测流失准确的标准或评价方法,这个倒还真不知道怎么评价
>

> > 就像Q说的 其实首先要解决的是确定互联网行业中 怎么定义流失的问题,就是什么叫做用户流失,而在我前面的表述中确实把流失的定义和之后的流失预警有些混淆,我前面提到的两个方法都是用上次登录或者购买距今的-时间长度或者某种变形来衡量是否有流失征兆,如果按照这种定义,那就不需要再做什么模型了,直接用这个定义来衡量是否有流失征兆即可。但是按照这个定义来衡量的-话如何评价这种方法好坏呢,好到什么程度坏到什么程度呢?因为要去说服别人来使用这个方法来实施。


>
> > 第三种方法,是把用户流失这个事件看做是一个随机事件来处理,并不需要去定义什么叫流失,和前面两种好像是不一样的方法。
>
> > 还是有些迷糊,不知道其他互联网公司或者电子商务网站是如何来处理这件事的。
>

> > 在 2010年5月28日 上午11:35,guang lin <linguang1...@gmail.com>写道:
>
> > 不知道你们的数据量或者用户数有多少?
>
> > 你用了模型后和用了你说的拍脑袋的方法相比,如何?
> > 有时,拍脑袋的方法虽然得到的结果不是最优,但可能是次优,而且是最省时间,最省人力办法。
>

> > 在 2010年5月28日 上午11:25,Q <happys...@gmail.com>写道:
>
> > 很显然,你的问题是"在互联网行业,用户流失是如何定义的?"
>
> > 在这个问题没有解决前,谈如何建模,用贝叶斯还是mcmc,还是rfm,白搭。
>
> > 其实你谈到这个问题,但这个问题还没有解决之前,就突然峰回路转,说起如何进行流失预警了。(什么是"流失"和"流失预警"是两个不同的概念)。
>
> > 既然在互联网行业流失的定义不明确(其实通信行业的流失也并非那么明确),那就明确他,可以用数据分析来帮忙。
>
> > 你们是否已经存在一批用户?已经界定他们是"已经流失了的",如果有,就再明确他们算是什么时间点流失的。如果没有,得找出来这批用户。
>

> > 2010/5/28 YY H <gxgl...@gmail.com>


>
> > 对于第一个拍脑袋的方法,可以改进一下:对每个用户,按照没来登陆的时间给个权重,使得天数越多的权重越大,在模型训练的时候把权重的影响也加进去。
>

> > 在 2010年5月27日 下午2:11,Franc Fu <happyfr...@gmail.com> 写道:
>
> >> 对于任何企业来说,都会一定程度上面对用户流失问题,特别是盈利型的企业,减少用户流失或者减少忠诚用户的流失对可以大幅提高利润,而且一般而言,维持老用户的-成本是要低于争取新用户的成本的。那么建立用户流失预警机制就比较重要了。
> >> 在通信行业,这一块应该做的比较成熟了,但据我观察,通用的做法一般是用传统的分类方法,即将标有是否流失标签的用户数据分为两个部分,一部分为训练集数据一部-分为测试集数据,选择某种分类算法(决策树、神经网络,svn等等),建立黑盒或者相对白盒的模型,然后拿新用户的数据扔进去跑出来一个是否有流失征兆的结果,-并且一般可以给出流失的置信区间。
> >> 这种做法一般在可以明确判断用户是否已经流失的企业中比较适用,比方说通信行业,你不在线的就是流失了。然而,对于电子商务网站,这可能有点难度了,并不能明确-判断用户是否已经流失,即不能打标签。那么如何做流失预警呢?目前我知道的有以下三种方法:
> >> 1、最拍脑袋的方法,即认为设定多少时间没来购买了或多少时间没来登录了就定义为有流失倾向了。这个方法简单粗糙,太经验了,而对于不同用户出现流失征兆的时间-应该是不一样。
> >> 2、可以对已经购买过的用户的购买数据和登录数据进行分析,得出已经完成x次购买的用户是在上次购买(即第x-1次购买)后的y(y可以取分位数)天内完成第x-次购买的,而对于已经完成x-1次购


>
> > --
> > --~--~---------~--~----~------------~-------~--~----~ 要在此论坛发帖,请
> > 发电子邮件到 tt...@googlegroups.com 要退订此论坛,请发邮件至
> > ttnn-uns...@googlegroups.com 更多选项,请通过
> >http://groups.google.com/group/ttnn访问本论坛
> > -~----------~----~----~----~------~----~------~--~---
>
> > --
> > 要在此论坛发帖,请发电子邮件到 tt...@googlegroups.com
> > 要退订此论坛,请发邮件至 ttnn-uns...@googlegroups.com
> > 更多选项,请通过http://groups.google.com/group/ttnn访问本论坛
>
> --

> telno: 13514984944(HF)https://groups.google.com/group/ttnn- 隐藏被引用文字 -
>
> - 显示引用的文字 -

raullew

unread,
May 28, 2010, 7:10:27 AM5/28/10
to ttnn BI 观点
你就用个拍脑袋的定义,再把你能想到的变量搞个几百个,扔进去训练,必然有助于你对"流失"的理解

On 5月28日, 上午2时45分, Franc Fu <happyfr...@gmail.com> wrote:
> 貌似评价和流失定义不清的关系不大吧,假设定义好了流失,即符合X条件的用户叫做流失用户,然后剩下的问题就是如何评价这个"符合X条件"的准确性了。如果要验-证,那就过一定时间看看,被预测或定义为有流失征兆的用户是否真的没回来,如果真的没回来


> 那就真的预测对了,如果又回来了 那就预测错误,是否是这样的逻辑?就像是 我预测明天下雨,明天一到果然下雨了,那就预测正确?
>

> 在 2010年5月28日 下午5:08,Q <happys...@gmail.com>写道:
>
>
>
>
>
> > 你纠结在评价的问题正是因为流失的定义不清,否则,评估预测模型的准确率就可以了。
>

> > On Friday, May 28, 2010, Franc Fu <happyfr...@gmail.com> wrote:
> > > "没有绝对的流失 只有相对的流失 "这个确实应该是这样的。刚刚提到的评价好坏,我是知道要从实际应用得到验证,我的原意是

> > 假设弄到一个模型能够比较准确的预测流失征兆了,之后拿到这些有流失征兆的用户拿去挽留营销,营销的结果可能是有些用户被拉回来了,有些用户依然如旧,然后怎么-样验证预测流失准确性呢?


>
> > > 或者突然想到,要验证预测流失准确性,在进行预测后,拿出可能流失的用户名单,静观其变,之后确实没回来了,说明流失预测的很准???
>

> > > 在 2010年5月28日 下午3:45,LP Wang <wlpdr...@gmail.com>写道:
>
> > > 我觉得庆说的很对,首先想明白什么叫网站客户流失。我也没想明白。
> > > 没有绝对的流失,只有相对的流失。
>

> > > 在 2010年5月28日 下午3:39,LP Wang <wlpdr...@gmail.com>写道:
>
> > > 方法的好坏,要从实际应用中得到验证,然后修改方法,然后再验证。
> > > 从客户入手,哪类客户的哪些行为可以认为是流失,单纯看访问习惯,可能会得出不准确的结论
>

> > > 在 2010年5月28日 下午3:28,Franc Fu <happyfr...@gmail.com>写道:
>
> > > to LP Wang :嗯

> > 这个思路其实就是定义什么叫流失,不需要建模,只需要从历史购买或者登录数据中找出点规律,然后弄个公式判断一下是否大于某个临界值,大于那就定义其有流失可能-性。那如何评价这种方法的好坏呢?


>
> > > 在 2010年5月28日 下午3:23,LP Wang <wlpdr...@gmail.com>写道:
>
> > > 可以统计客户的访问周期(小时/日/周/月/季/年),访问时长等习惯,
> > > 访问频率越来越小的用户,或者访问时长越来越短的用户都有流失的可能。
>

> > > 在 2010年5月28日 下午2:50,Franc Fu <happyfr...@gmail.com>写道:
>
> > > to YY H:加权重的话,涉及到怎么加权重,怎么说明或者验证加权是合理的呢?
>
> > > to guang
> > lin:数据量还可以,现在倒还没用这个模型或者方法去实施,就算实施了,这里涉及到怎么评价的问题,预测流失准确的标准或评价方法,这个倒还真不知道怎么评价
>
> > > 就像Q说的 其实首先要解决的是确定互联网行业中

> > 怎么定义流失的问题,就是什么叫做用户流失,而在我前面的表述中确实把流失的定义和之后的流失预警有些混淆,我前面提到的两个方法都是用上次登录或者购买距今的-时间长度或者某种变形来衡量是否有流失征兆,如果按照这种定义,那就不需要再做什么模型了,直接用这个定义来衡量是否有流失征兆即可。但是按照这个定义来衡量的-话如何评价这种方法好坏呢,好到什么程度坏到什么程度呢?因为要去说服别人来使用这个方法来实施。


>
> > > 第三种方法,是把用户流失这个事件看做是一个随机事件来处理,并不需要去定义什么叫流失,和前面两种好像是不一样的方法。
>
> > > 还是有些迷糊,不知道其他互联网公司或者电子商务网站是如何来处理这件事的。
>

> > > 在 2010年5月28日 上午11:35,guang lin <linguang1...@gmail.com>写道:
>
> > > 不知道你们的数据量或者用户数有多少?
>
> > > 你用了模型后和用了你说的拍脑袋的方法相比,如何?
> > > 有时,拍脑袋的方法虽然得到的结果不是最优,但可能是次优,而且是最省时间,最省人力办法。
>

> > > 在 2010年5月28日 上午11:25,Q <happys...@gmail.com>写道:
>
> > > 很显然,你的问题是"在互联网行业,用户流失是如何定义的?"
>
> > > 在这个问题没有解决前,谈如何建模,用贝叶斯还是mcmc,还是rfm,白搭。
>
> > > 其实你谈到这个问题,但这个问题还没有解决之前,就突然峰回路转,说起如何进行流失预警了。(什么是"流失"和"流失预警"是两个不同的概念)。
>
> > > 既然在互联网行业流失的定义不明确(其实通信行业的流失也并非那么明确),那就明确他,可以用数据分析来帮忙。
>
> > > 你们是否已经存在一批用户?已经界定他们是"已经流失了的",如果有,就再明确他们算是什么时间点流失的。如果没有,得找出来这批用户。
>

> > > 2010/5/28 YY H <gxgl...@gmail.com>


>
> > > 对于第一个拍脑袋的方法,可以改进一下:对每个用户,按照没来登陆的时间给个权重,使得天数越多的权重越大,在模型训练的时候把权重的影响也加进去。
>

> > > 在 2010年5月27日 下午2:11,Franc Fu <happyfr...@gmail.com> 写道:
>
> > 对于任何企业来说,都会一定程度上面对用户流失问题,特别是盈利型的企业,减少用户流失或者减少忠诚用户的流失对可以大幅提高利润,而且一般而言,维持老用户的-成本是要低于争取新用户的成本的。那么建立用户流失预警机制就比较重要了。
>
> > 在通信行业,这一块应该做的比较成熟了,但据我观察,通用的做法一般是用传统的分类方法,即将标有是否流失标签的用户数据分为两个部分,一部分为训练集数据一部-分为测试集数据,选择某种分类算法(决策树、神经网络,svn等等),建立黑盒或者相对白盒的模型,然后拿新用户的数据扔进去跑出来一个是否有流失征兆的结果,-并且一般可以给出流失的置信区间。
>
> > 这种做法一般在可以明确判断用户是否已经流失的企业中比较适用,比方说通信行业,你不在线的就是流失了。然而,对于电子商务网站,这可能有点难度了,并不能明确-判断用户是否已经流失,即不能打标签。那么如何做流失预警呢?目前我知道的有以下三种方法:
>
> > 1、最拍脑袋的方法,即认为设定多少时间没来购买了或多少时间没来登录了就定义为有流失倾向了。这个方法简单粗糙,太经验了,而对于不同用户出现流失征兆的时间-应该是不一样。
>
> > 2、可以对已经购买过的用户的购买数据和登录数据进行分析,得出已经完成x次购买的用户是在上次购买(即第x-1次购买)后的y(y可以取分位数)天内完成第x-次购买的,而对于已经完成x-1次购


>
> > > --
> > > --~--~---------~--~----~------------~-------~--~----~ 要在此论坛发帖,请
> > > 发电子邮件到 tt...@googlegroups.com 要退订此论坛,请发邮件至
> > > ttnn-uns...@googlegroups.com 更多选项,请通过
> > >http://groups.google.com/group/ttnn访问本论坛
> > > -~----------~----~----~----~------~----~------~--~---
>
> > > --
> > > 要在此论坛发帖,请发电子邮件到 tt...@googlegroups.com
> > > 要退订此论坛,请发邮件至 ttnn-uns...@googlegroups.com
> > > 更多选项,请通过http://groups.google.com/group/ttnn访问本论坛
>
> > --
> > telno: 13514984944(HF)
> >https://groups.google.com/group/ttnn
>
> > --
> > 要在此论坛发帖,请发电子邮件到 tt...@googlegroups.com
> > 要退订此论坛,请发邮件至 ttnn-uns...@googlegroups.com
> > 更多选项,请通过http://groups.google.com/group/ttnn访问本论坛
>
> --
> --~--~---------~--~----~------------~-------~--~----~ 要在此论坛发帖,请
> 发电子邮件到 tt...@googlegroups.com 要退订此论坛,请发邮件至
> ttnn-uns...@googlegroups.com 更多选项,请通过http://groups.google.com/group/ttnn访问本论坛

> -~----------~----~----~----~------~----~------~--~---- 隐藏被引用文字 -
>
> - 显示引用的文字 -

Q

unread,
May 28, 2010, 7:23:27 AM5/28/10
to tt...@googlegroups.com
不对吧,你这不叫流失的定义,是直接给出"可能流失"的经验定义。概念上不一样。

流失,所谓定义就是业务上要避免的一种现象,只有是或不是两种可能。也许纯粹谈概念是很难让人理解的,咱们就举例子吧。

互联网的流失,咱们先来做业务分析,还原最初的业务动机(我并不太熟悉互联网的业务,如果不太切合实际,请见谅)。

很多互联网用户上了我的网站以后,就不再上了,有些人是永远不会上了,有些呢,过了一段时间以后还会重新上。那些永远不会再来的用户,我能不能提前预知呢?在他最后一次登陆我网站的时候,他的行为是否有一些特征呢?也许有,那么,请你帮我找出那些特征。

在这个业务动机下,作为分析人员。首先你已经将问题转换成“流失预警”问题,那么什么是流失呢?业务人员是希望找到那些永远不会再来的用户了,但你无法判断“永远”,因为就算是一个三年再也不登陆的用户,也有可能在下个月登陆,没关系。业务人员会告诉你,如果一个用户一年都不回来,我对他也死心了,他已经算“流失”了。于是,你做了一个登陆间隔时长的分布,两次登陆时间之间,一天的有多少,一周的有多少,一个月的有多少,一个年的有多少,还有一些是一年以上的...结果,你发现,在三个月以上重复登陆的用户已经很少,也就是说,一个用户如果超过三个月不登陆的话,那么,基本上他就再也不来了,那么,他就是一个“流失”用户。

于是,“流失”的业务定义出台:用户超过三个月未登陆网站,叫做“用户流失”。

这叫业务定义。

那么,你分析的目的就是——预测一个用户即将三个月内不再登陆网站。

然后,你可以做出一些假设,如果一个用户最近一次登陆超过一个月,那么下次可能就三个月不再登陆。如果是页面停留时间减少了50%,那么也可能流失,如果是连续两周不再有交易行为,也可能...这些假设,你需要用模型去证实或者证伪。

如果业务定义明确,评估准确性有什么难事么?随机抽一批用户,在最近三个月里不再登陆的用户,占2%。你模型预测的用户,在最近三个月不再登陆的用户能够占到30%,这就说明你模型能够更精确地捕捉到可能流失的用户,按照挖掘的说法,lift=15,太牛逼了。

所以,请注意一点,”流失“的定义,根本是一个业务问题,跟预测无关。如果你们要在业务定义的时候,将预测牵扯进来,那是概念混淆。

Ken Zhao

unread,
May 28, 2010, 7:46:44 AM5/28/10
to tt...@googlegroups.com
受教了

2010/5/28 Q <happ...@gmail.com>:

raullew

unread,
May 28, 2010, 8:46:03 AM5/28/10
to ttnn BI 观点
什么用户即将三个月内不再登陆网站?
什么用户即将三个月内不再登陆网站?
什么用户即将三个月内不再登陆网站?

不用做模型就知道了

89天没有登陆网站的最有可能
88天没有登陆网站的其次有可能
87天没有登陆网站的再次有可能


这个条件太强了,这一个条件就可以盖过其他所有条件判定能力的总和
那么,这个挖掘模型究竟挖出了什么?

On 5月28日, 上午4时23分, Q <happys...@gmail.com> wrote:
> 不对吧,你这不叫流失的定义,是直接给出"可能流失"的经验定义。概念上不一样。
>
> 流失,所谓定义就是业务上要避免的一种现象,只有是或不是两种可能。也许纯粹谈概念是很难让人理解的,咱们就举例子吧。
>
> 互联网的流失,咱们先来做业务分析,还原最初的业务动机(我并不太熟悉互联网的业务,如果不太切合实际,请见谅)。
>

> 很多互联网用户上了我的网站以后,就不再上了,有些人是永远不会上了,有些呢,过了一段时间以后还会重新上。那些永远不会再来的用户,我能不能提前预知呢?在他-最后一次登陆我网站的时候,他的行为是否有一些特征呢?也许有,那么,请你帮我找出那些特征。
>
> 在这个业务动机下,作为分析人员。首先你已经将问题转换成"流失预警"问题,那么什么是流失呢?业务人员是希望找到那些永远不会再来的用户了,但你无法判断"永-远",因为就算是一个三年再也不登陆的用户,也有可能在下个月登陆,没关系。业务人员会告诉你,如果一个用户一年都不回来,我对他也死心了,他已经算"流失"了-。于是,你做了一个登陆间隔时长的分布,两次登陆时间之间,一天的有多少,一周的有多少,一个月的有多少,一个年的有多少,还有一些是一年以上的...结果,你-发现,在三个月以上重复登陆的用户已经很少,也就是说,一个用户如果超过三个月不登陆的话,那么,基本上他就再也不来了,那么,他就是一个"流失"用户。


>
> 于是,"流失"的业务定义出台:用户超过三个月未登陆网站,叫做"用户流失"。
>
> 这叫业务定义。
>

> 那么,你分析的目的就是----预测一个用户即将三个月内不再登陆网站。
>
> 然后,你可以做出一些假设,如果一个用户最近一次登陆超过一个月,那么下次可能就三个月不再登陆。如果是页面停留时间减少了50%,那么也可能流失,如果是连续-两周不再有交易行为,也可能...这些假设,你需要用模型去证实或者证伪。
>
> 如果业务定义明确,评估准确性有什么难事么?随机抽一批用户,在最近三个月里不再登陆的用户,占2%。你模型预测的用户,在最近三个月不再登陆的用户能够占到3-0%,这就说明你模型能够更精确地捕捉到可能流失的用户,按照挖掘的说法,lift=15,太牛逼了。


>
> 所以,请注意一点,"流失"的定义,根本是一个业务问题,跟预测无关。如果你们要在业务定义的时候,将预测牵扯进来,那是概念混淆。
>
>
>

> On Friday, May 28, 2010, Franc Fu <happyfr...@gmail.com> wrote:
> > 貌似评价和流失定义不清的关系不大吧,假设定义好了流失,即符合X条件的用户叫做流失用户,然后剩下的问题就是如何评价这个"符合X条件"的准确性了。如果要验-证,那就过一定时间看看,被预测或定义为有流失征兆的用户是否真的没回来,如果真的没回来 那就真的预测对了,如果又回来了 那就预测错误,是否是这样的逻辑?就像是 我预测明天下雨,明天一到果然下雨了,那就预测正确?- 隐藏被引用文字 -
>
> - 显示引用的文字 -

innovate511

unread,
May 28, 2010, 11:21:25 AM5/28/10
to ttnn BI 观点
正如我前面自己的主题贴说到的,BI任务分析得基于业务目的,我现在就刚接触到电子商务,自然会考虑用户流失问题。

所谓用户流失,得看业务目的,如果是为了保证用户访问量,和为了增强公司利益最大化,其目的还是不同的。如果为了增强公司利益最大化,不妨先回到Q常说
的客户细分、精确营销上来。

就网络营销而言,不同客户买不同的东西,其爱好、购物目的和习惯都不同的。比如网络购电脑,这人买了后别说3个月,就是1年半载 不购买,也不能算客户
流失了,因为这个不是耗用品。那么你发给了客户邮件广告、短信广告,1年半载还是没来登陆,又怎么看呢?这个也得细分,如果该客户只访问过一次网站,就
买了电脑(比如本人),但1、2年都没登陆过,能算客户流失了么?我觉得这种情况应该叫待定,因为这类客户是目的性客户,有需要时才会动,没需要时就没
兴趣到处看。

再比如日常耗用商品,或季节性耗用商品,客户流失分析又不同。季节性商品,如果客户买了一次,他很可能下一季才买,但也可能一季买多次,或者买过季打折
商品,那么不同消费习惯的客户,算流失的方法也要区分的。

再则,客户流失除了网站访问、网站消费历史分析外,还要看他们的投诉、是否服务不到位(如未按时到货)、网上留言、看评论贴等等,因为在有广告提醒的情
况下,还长时间未访问网站,且有投诉等案例的情况,你可以基本定位为客户流失了,但如果仅仅是长时间未访问,可能还难下定论。

另外,从公司利益出发,不是所有客户流失都是坏处,比如电子商务这种竞争激烈的行业,客户中自然混杂着对公司有偏见的伪客户,但更多的是来自竞争对手的
伪客户。这些客户要识别出来,非但不要担心他们的流失,还要小心应付。

以上是我基于企业根本利益的角度思考的客户流失,欢迎大家继续讨论、拍砖。

raullew

unread,
May 28, 2010, 11:34:50 AM5/28/10
to ttnn BI 观点
然,完全赞同

Franc Fu

unread,
May 31, 2010, 3:34:29 AM5/31/10
to tt...@googlegroups.com
to Q:不愧是老大,Q的详细解释还是让我们豁然开朗。首先,说到从业务出发寻找流失的定义,可以结合历史数据中和业务人员的实际描述中找出流失定义。其次,要找出根据流失定义下已经流失的用户,寻找这些用户在还没流失的时候的一些特征(这里可以建模) 再者 拿这些特征或者模型去对还没流失的用户进行预测,看他们会不会流失,就可以流失预警了。
应该是这样的逻辑吧。
 
to raullew :
 
“什么用户即将三个月内不再登陆网站?
什么用户即将三个月内不再登陆网站?
什么用户即将三个月内不再登陆网站?
不用做模型就知道了
89天没有登陆网站的最有可能
88天没有登陆网站的其次有可能
87天没有登陆网站的再次有可能

。”----------------这个不应该这样理解吧,如果只是用户一维时间来预测的话,依据在哪里?难道距今89天的没登录的就一定比20太难没登录的就更容易流失,也许89天的这个用户就在90天登录了,而20天的用户确实没来了。这个流失定义只能判断用户是否已经流失,而不能预测用户是否会流失即便这个用户已经89天没登录了。预测的话只能通过模型来吧。
 
 
to   innovate511: 嗯 很对!

徐梁君

unread,
May 31, 2010, 4:54:11 AM5/31/10
to ttnn

问题在于, 没有实际流失的定义. 任何人都无法完全确定一个用户是否永远不会回来了 , 不可能给出一个绝对流失的概念. 提这个概念是没有意义的. 因此, 任何流失的定义都是业务的定义
你可以从数据上看, 3个月不登陆网站的用户, 在3个月后至最长时间段内不登陆的概率是99%, 因此定义三个月不登陆为流失. 这是对流失的一个解释, 也是一个比较普遍而且容易接受的解释. 


---------------------------
http://www.etsir.com/



2010/5/28 Q <happ...@gmail.com>

徐梁君

unread,
May 31, 2010, 4:58:28 AM5/31/10
to ttnn
lz提到的第三个模型是基于朴素贝叶斯的.. 没有安装软件所以打不开附件. 但是可以知道, 所有基于朴素贝叶斯的模型, 其实就是统计所有属性交叉表的频率, 以此为经验, 加上各属性的两两独立性假设. 从逻辑上来说也是很容易理解的. 其实也就是lz说的前两种方法的简单深化. 如果需要更加深入研究, 就需要更多的用户行为关联性的假设
---------------------------
http://www.etsir.com/

徐俊军

unread,
May 31, 2010, 9:08:18 AM5/31/10
to tt...@googlegroups.com
本来说是上周六要回的贴,一直到现在;



Q哥说得挺对的,不要一开始就跳进模型,用什么样的模型来解决这个业务问题,不要
说不谈流失后的营销策略,这虽然不是建模层面的东西,但是这对你业务上如何定义流
失却是必不可少的;



电子商务行业其实做流失这个专题倒是真做得不多,原因多方面,其一,目前而言,互
联网行业的用户获取相对比较简单,用户忠诚度较低,用户使用了京东,也完全可以试
用当当,所以互联网公司目前做的更多的是开源,而非截流,这一点是从做流失的必要
性而言;第二,从我经验的角度来说,电信做流失有个特点,电信其实属于一种用户接
触点比较集中,但是接触程度深的行业,在这个接触过程中,产生大量的数据,可以用
户作为客户的行为分析,而互联网行业有个特点,接触点很多,但是很浅,很难通过路
径来判断用户准确的状态,所以就这点来说,流失也不是很容易做;



当然针对高价值用户,是否流失就可以不管呢?当然不是,比如京东上,我订购了一台
冰箱,结果迟迟没有到货,我那个急呀,就去上面拼命得点 订单状态。。。这就是你
让我不满意的一个特征;这是否是这个高价值客户前的一个特点;针对这种事件性的方
式来做客户的维系;



所以,在做专题前,先确定问题出在什么地方,我有什么办法解决这个问题;



Ok,如果做流失,先确定流失的定义;到底我的目标客户是哪群人,有什么样的特征,
他们不来我们这儿是咋回事,是其他有更爽的地儿了,还是最近生理周期,不方便;这
些都是涉及如何定义流失的业务定义;



总之,流失的定义应该是由业务出发,到数据来定义;衡量是否合适有反弹率这类的指
标来衡量;如果说电子商务网站的特点的话,那可能是不同行业、不同类型的客户,在
流失的定义上面,差异会比较大;



在流失的定义确定下来后,我就需要进一步寻找导致用户流失的原因,以及流失原因在
网站上面的表现,用户不流失的原因等等等等;通过这些特征的分析,找出表现的指标
数据;至于你用什么方法,是决策树,还是拍脑袋,还是RFM,那完全可以根据什么样
的效果更好,实施方便性来确定了;



发件人: ttnn+bnccpfu4j-oe...@googlegroups.com
[mailto:ttnn+bnccpfu4j-oe...@googlegroups.com] 代表 Franc Fu
发送时间: 2010年5月28日 14:51
收件人: tt...@googlegroups.com
主题: Re: 用户流失预警模型
winmail.dat

darcy

unread,
May 31, 2010, 10:38:37 AM5/31/10
to tt...@googlegroups.com
CRISP-DM其实总结的够好了,商业理解开始,业务解释结束。。不过很多时候容易被忽


_____

发件人: ttnn+bnccjvurj2hd...@googlegroups.com
[mailto:ttnn+bnccjvurj2hd...@googlegroups.com] 代表 徐俊军
发送时间: 2010年5月31日 21:08
收件人: tt...@googlegroups.com
主题: 答复: 用户流失预警模型
winmail.dat
Reply all
Reply to author
Forward
0 new messages