

..个人认为这种模型应该是不具备普遍适用性的:毕竟不同地区运营商的结构和组成不同,话单记录包含的信息内容也是千差万别的。且关于影响力的定义也值得商榷,因为对于CDR这种无尺度网络而言,中心节点才是关键...
On Oct 12, 4:37 am, Q <happys...@gmail.com> wrote:
> 在电信领域,客户流失一直是个重要领域,客户流失的原因可能是很多种原因,但不管是什么原因,运营商通常都会做客户流失预警工作,预警完了进行挽留,差不多这成-为一种日常工作。早在几年前,很多BI集成商就开始大范围搞这种预测模型,预测那些客户会在下个月流失。可以是一些经验模型,比如通过通话下降、电话呼转、协议-到期来进行预测;或者建立预测模型,不管是回归还是决策树,输入很多客户行为变量,这里存在一个假设----"当客户即将流失前,其通话行为是会发生某些变化的。"-预测模型就是找到这些变化。当然,这些变化(变量)是模型建立前考虑的,如果你没有设想到某一种因素对流失影响很大,恐怕你也不会将这个因素设计成为一个变量。-通常的变量比如通话时长变化率,话费变化率等等。
>
> 方法如此,有没有找到到合适的变量有可能是导致模型质量好坏的关键。
>
> 有一家公司,叫做sonamine
> <http://www.sonamine.com>,看名字就知道是跟挖掘有关系的,前不久他们发布了一种产品,叫做电信客户流失预测器,churn
> predictor。大家可以将它看作一个黑盒子,输入指定的数据,比如三个月通话话单,然后它就输出一些存在流失风险的客户名单。这个模式跟我们通常的流失预-警模型一样,只不过它更加产品化了。通过这个黑盒子,它号称可以在10%的客户里面,找到50%真正可能会流失的客户。
>
> 而且,更特别的是他强调利用社交网络的变化来预测个体的流失。这家公司本身就是搞社交网络分析的,其口号是insight from
> network。但这个理论不是他们提出的,他们基于一篇论文<http://portal.acm.org/citation.cfm?id=1353424&dl=GUIDE&coll=GUIDE&CFI...>
> ,作者大多来自ibm印度研究院,这篇论文需要注册才能看到,还不知道是否收费。
>
> 如果你是一名客户(用户),要预测你会流失,大致的结论是:
> 1、你的流失率是跟你交往圈的流失率有关系,下面这个图可以看看。这意思就是说,如果你平常总是跟50个人通电话,当上个月这50个人里面有5个人离网了,那么-你可能也即将走掉。有点群体效应的意思。
> 2、你的流失率跟你未流失交往圈他们的流失交往圈有关系,流失是传染的。
> [image: churn neighbors]
> 于是,考察三种变量,一种是常规的,如通话频次、时长之类的,叫做DT1;第二种是连通性变量,DT2,从流失交往圈和未流失交往圈拆分一些变量,如流失交往圈-个数。第三种就更加复杂了,DT3,将通信交往看作一个网络,有节点,有边,涉及到诸如"最短路径"这样的词语,对于文中描述的变量,俺不太明白,所以不知道如-何翻译。但不管如何,最后用提升曲线验证的结果当然是众望所归,DT3获胜,如下图。
On 10月13日, 下午8时38分, "darcy" <darcy007...@163.com> wrote:
> syfins,请问你说的:
>
> 最后也就验证了几个结论
> 领 袖或者中心节点的流失会对其所在的整个客户群造成流失影响
>
> 请问这个中心节点一般的网络规模是多大呢?影响是怎么计算的?
> 呵呵,我一直在做这方面研究,有机会可以探讨一下的
>
> -----邮件原件-----
> 发件人:
> grbounce-znzgnwuaaadgdkscude6f9zvtgzmsbin=darcy007007=163....@googlegroups.c
> om
> [mailto:grbounce-znzgnwuaaadgdkscude6f9zvtgzmsbin=darcy007007=163.com@googl-e
个人认为这种模型应该是不具备普遍适用性的:毕竟不同地区运营商的结构和组成不同,话单记录包含的信息内容也是千差万别的。且关于影响力的定义也值得商榷,因为对于CDR这种无尺度网络而言,中心节点才是关键
发件人: grbounce-znzgnwuaaadgdkscude6f9zvtgzmsbin=darcy007007=163.com@googlegroups.com [mailto:grbounce-znzgnwuaaadgdkscude6f9zvtgzmsbin=darcy007007=163.com@googlegroups.com] 代表 Q
发送时间: 2009年10月12日 10:37
看来ttnn的读者群不算小,昨天刚说到sonamine,今天收到这家公司的一封邮件,是他们老板。认识中国字啊!都看ttnn的帖子了,后来一问,果然是华人。当然,未必是订阅者,有可能是经过web分析发现从这篇帖子成为他们主页的访问源,才过来瞅瞅的。这就是web analytics的力量。我没问他这个,用英文交流总是不顺畅,还是写中文顺溜啊,键盘在指尖噼里啪啦的。你看看,这最后一句话要我用英文肯定憋不出来。
我对他说希望能够有些实际应用案例,看看到底执行效果如何。因为大家知道,模型的评估还是用历史数据的,而这种评估比实际情况要好。但这个预测器还是个新产品,目前只有几家运营商在试用,还不能成为案例。这只好等着看了。
思路不错,但要真正产生好的效果还是要花费一番功夫。darcy其实是我的同事,我一打听,结果他告诉我,其实他按照论文上那么做的,但效果也就是麻麻地。嗯,也许还有些关键点。
其实,类似这种思路我以前也曾经遇到过一个,思路相似,不过肯定没有论文研究的那么细致。
事情是这样子的。
那应该是2006年的时候了,快进入07年。从我的工作日志可以看到。当时几个运营商都在搞策反,你挖我的墙角,我就挖你的。因此,在我们帮客户预测哪些竞争对手可以挖掘过来的同时,业务部门也反映有竞争对手客户经理在挖我方客户,一方面已经通过情报以及员工搜集等手段,搜集了几十个,但又发现其实真正搞策反工作的客户经理号码,并没什么规律。后来打电话过去试探,结果发现对方可能将策反任务下发给代理商,甚至是用我方的某个号码进行此项工作,层层伪装。通过一个号码一个号码地搜集,总归是慢人一拍。于是,想有一种方法识别这些策反号码。
当初的想法是先过滤出疑似的策反号码,然后再外呼去试探对方真是凶手,如果果然是,那就将此号码加入策反号码库,对这些号码"关注"的我方中高端号码,有必要进行安抚,无间道对无间道。一开始,是用直觉经验判断,哦,这类号码平常的接触量肯定很大,接触时段肯定在某个时间段里面...于是设立几条取数规则。但这样的出的名单很长,好几千好几万,没法去验证。
那就建模型吧,取概率大的前若干名单。
将已经搜集的策反号码当作目标集,然后搜集一些通话行为变量,比如主叫次数、时段等等,准备用很常规的做法来训练模型。但后来我觉得不应该这样搞,这些常规变量并没有体现一个"策反"号码的特点,要说主叫次数,那搞保险的,搞销售的肯定都是同样的特征,既然我们关注的是一个号码对我方号码流失的影响,换个思路。
从结果回推----如果一个号码跟我方号码联系之后,有很多号码都流失了,那么这个号码就是一个危~险~号~码。
不用去管这里面有什么原因,或者是某种偶然现象,如果一个号码的我方交往圈总是流失,已经是统计现象,必定有问题。要不,这个号码就是我们要好的策反号码。要不,他是个瘟神号码(当然,对于竞争对手来说,应该称作福星号码)。
按照这个思路,先是建了决策树模型,但每次都不稳定,我不会解读,于是同事换成回归模型。这事儿应该在ttnn提到过。后来筛选出来一批疑似的,每周输出一批,记得有一次在100个名单里面确认了7个策反号码,这是最高纪录,平常没有这么高。但是效果并不是非常稳定。而且由于是项目嘛,我们也不会深入去研究,当效果达到一定程度,看上去还不错的时候,事情就告一段落了。
我想,其实这个课题还有很大的研究空间,只是产出一个模型,而没有形成结论化的业务规则,况且模型的稳定性也没有被证明,当然还有很大空间。也许在未来还有机会被完善吧,甚至还有可能有类似的产品出来----策反号码预警器,当当当当当。