客户流失预测器

Q

unread,

Oct 11, 2009, 10:37:09 PM10/11/09

to ttnn

在电信领域，客户流失一直是个重要领域，客户流失的原因可能是很多种原因，但不管是什么原因，运营商通常都会做客户流失预警工作，预警完了进行挽留，差不多这成为一种日常工作。早在几年前，很多BI集成商就开始大范围搞这种预测模型，预测那些客户会在下个月流失。可以是一些经验模型，比如通过通话下降、电话呼转、协议到期来进行预测；或者建立预测模型，不管是回归还是决策树，输入很多客户行为变量，这里存在一个假设——“当客户即将流失前，其通话行为是会发生某些变化的。”预测模型就是找到这些变化。当然，这些变化（变量）是模型建立前考虑的，如果你没有设想到某一种因素对流失影响很大，恐怕你也不会将这个因素设计成为一个变量。通常的变量比如通话时长变化率，话费变化率等等。

方法如此，有没有找到到合适的变量有可能是导致模型质量好坏的关键。

有一家公司，叫做sonamine，看名字就知道是跟挖掘有关系的，前不久他们发布了一种产品，叫做电信客户流失预测器，churn predictor。大家可以将它看作一个黑盒子，输入指定的数据，比如三个月通话话单，然后它就输出一些存在流失风险的客户名单。这个模式跟我们通常的流失预警模型一样，只不过它更加产品化了。通过这个黑盒子，它号称可以在10%的客户里面，找到50%真正可能会流失的客户。

而且，更特别的是他强调利用社交网络的变化来预测个体的流失。这家公司本身就是搞社交网络分析的，其口号是insight from network。但这个理论不是他们提出的，他们基于一篇论文，作者大多来自ibm印度研究院，这篇论文需要注册才能看到，还不知道是否收费。

如果你是一名客户（用户），要预测你会流失，大致的结论是：

1、你的流失率是跟你交往圈的流失率有关系，下面这个图可以看看。这意思就是说，如果你平常总是跟50个人通电话，当上个月这50个人里面有5个人离网了，那么你可能也即将走掉。有点群体效应的意思。

2、你的流失率跟你未流失交往圈他们的流失交往圈有关系，流失是传染的。

于是，考察三种变量，一种是常规的，如通话频次、时长之类的，叫做DT1；第二种是连通性变量，DT2，从流失交往圈和未流失交往圈拆分一些变量，如流失交往圈个数。第三种就更加复杂了，DT3，将通信交往看作一个网络，有节点，有边，涉及到诸如“最短路径”这样的词语，对于文中描述的变量，俺不太明白，所以不知道如何翻译。但不管如何，最后用提升曲线验证的结果当然是众望所归，DT3获胜，如下图。

将现成的理论，封装成一个模型，是个好主意。特别是，这种运算还需要对海量数据进行计算，也让数据仓库体现出价值了。

darcy

unread,

Oct 11, 2009, 11:33:43 PM10/11/09

to tt...@googlegroups.com

恩，这篇文章看过了，写的不错，没想到还封装成一个产品了。

文章的精髓在于：基于Qing说的的几条规律，作者提出了基于Spreading Activation(SPA) techniques的扩散模型(diffusion model)

这个模型算法中提到了几个指标： Node Activation（节点活力）；Spreading Factor（传播分布指数）-影响的广度；Energy Distribution（能量分布指数）-影响的强度；通过三个指标可以判断客户是否离网：Termination Condition（结束条件）’。实际上你所说的这几个指标是这个模型算法中的核心概念。作者用此模型建立预测模型，主要是节点终止的条件。

另外，作者提到模型还有改进的空间，就是加入更多的通话属性(网间通话，SMS等)和图论性质（如cliques, hubs, and authorities等）来改进模型的表现，并且认为如果采用链挖掘技术(link mining techniques)可能会更好的改进模型，作者把此作为下一步的研究计划。

个人认为这种模型应该是不具备普遍适用性的：毕竟不同地区运营商的结构和组成不同，话单记录包含的信息内容也是千差万别的。且关于影响力的定义也值得商榷，因为对于CDR这种无尺度网络而言，中心节点才是关键

发件人: grbounce-znzgnwuaaadgdkscude6f9zvtgzmsbin=darcy007007=163...@googlegroups.com [mailto:grbounce-znzgnwuaaadgdkscude6f9zvtgzmsbin=darcy007007=163...@googlegroups.com] 代表 Q
发送时间: 2009年10月12日 10:37
收件人: ttnn
主题: 客户流失预测器

在电信领域，客户流失一直是个重要领域，客户流失的原因可能是很多种原因，但不管是什么原因，运营商通常都会做客户流失预警工作，预警完了进行挽留，差不多这成为一种日常工作。早在几年前，很多BI集成商就开始大范围搞这种预测模型，预测那些客户会在下个月流失。可以是一些经验模型，比如通过通话下降、电话呼转、协议到期来进行预测；或者建立预测模型，不管是回归还是决策树，输入很多客户行为变量，这里存在一个假设----"当客户即将流失前，其通话行为是会发生某些变化的。"预测模型就是找到这些变化。当然，这些变化（变量）是模型建立前考虑的，如果你没有设想到某一种因素对流失影响很大，恐怕你也不会将这个因素设计成为一个变量。通常的变量比如通话时长变化率，话费变化率等等。

Qi Cici

unread,

Oct 11, 2009, 11:59:34 PM10/11/09

to tt...@googlegroups.com

一直做流失预警模型，都是受限于企业内部数据，无非话务量趋势、话务流向结构变化、来去话比率变化、特别流向的话务和网间话务监测等，然后也有一些客户背景数据，比如客户参加套餐协议期等，确实模型的效果总是麻麻，提交预警名单的时候，总是提心吊胆，效果好那是运气，效果不好也心知肚明情理中的。

尤其做真正的流失预警模型，而不是用流失判断模型来简单替代预警模型的时候。大家也看到，毕竟，以上放进模型的变量，其实更多的是流失结果变量，而非导致流失结果的因素变量。所以，要用这些变量来做预警，确实有些牵强。

而真正想用一些流失原因作为模型的变量，却又经常要跳出内部数据的范畴，对于海量客户来说，数据获取根本不可行。所以总是为难。折衷的办法经常是内部数据做了模型，再抽样做些外部调查，对模型结果做些验证，提供一些感性认识。

交往圈确实是导致流失行为的重要因素，营销中的口碑营销相信也能为此提供有力依据吧，将交往圈的有关变量放到模型，相信确实能对流失行为结果作出一定解释。

但是如何利用内部数据对每个用户的交往圈作界定呢？界定好了每个用户的交往圈，才好判断其交往圈中的流失用户数，每个用户交往圈的界定是一个非常关键界定。突然想起前一段大家讨论的RFM了，我想，用户间通话频次和最近通话时间，都应该是确定用户交往圈的重要变量吧。

谢谢Qing，看到上期TTNN简讯，对客户流失预测器的名字，就勾起很大兴趣，但是英文的缘故还没静下心来仔细看，没想今天Qing已经将其翻译过来，真是个好人啊！

DT3的问题，也没看明白，希望TTNN在这方面继续有探讨，谢啦！

Qi Cici

unread,

Oct 12, 2009, 12:06:32 AM10/12/09

to tt...@googlegroups.com

对了，还想补充一句，如果一个挖掘模型，变量设计已经完善到常规化，然后对工作流做一定的封装，我想，变成一个常规模板也就没问题了。这不就又是一个Qing一直在思考着的“分析模板化”的典型案例嘛。

说实话，这种数据挖掘模型的黑匣子我们在06年也做了好些个，只是还没完全推广应用就由于种种原因搁下了，至今心痛啊！

2009/10/12 Qi Cici <cic...@gmail.com>

Q

unread,

Oct 12, 2009, 2:41:16 AM10/12/09

to tt...@googlegroups.com

这个模型不应该是静态的吧，不知道是否对于不同地区不同运营商需要重新训练模型，不过如果sonamine已经将模型抽象成不许训练的，仍可保证稳定的提升率，那也挺好的。

客户流失肯定有各种原因，比如在国内如今这个时期，正值3g三国演义时期，比原来的格局复杂多了，但这是微观分析。这篇论文给出的结论的稳定性不知道怎么样，但主要结论类似一种社会学规则，也许这种规则会稳定一些（只是猜测）。以前看过一本关于决策的书，其中从研究蚂蚁的决策，到人的决策，发现，其实虽然影响人们决策有很多因素，决策是一种价值取向的结果，可谈到价值，每个人都有自己独特的价值观，有的人认为钱重要，有的人认为理想重要。但不管如何，最终主流的决策路线还是大众决策，简单一句话是“别人怎么做他就怎么做”，个人决策跟群体决策是紧密联系的。

用社交网络理论来预测流失到蛮符合这个理论的，但究竟如何，还得用事实证明。

另，darcy，你有全文吗，贴上来pls。

2009/10/12 darcy <darcy...@163.com>

..

个人认为这种模型应该是不具备普遍适用性的：毕竟不同地区运营商的结构和组成不同，话单记录包含的信息内容也是千差万别的。且关于影响力的定义也值得商榷，因为对于CDR这种无尺度网络而言，中心节点才是关键...

darcy

unread,

Oct 12, 2009, 3:33:57 AM10/12/09

to tt...@googlegroups.com

对，你说得很对。这种取向其实也是人类的天性

不是圣经-马太福音里面有一句：凡有的，还要加给他叫他多余；没有的，连他所有的也要夺过-马太效应。

人类的关系网其实就是最经典的无尺度网络（scale-free network），中心节点永远是决定整个网络的最重要因素（领导、领袖之类的）

好像人云亦云真的是天性一样。之前做离网用户赢回调查，有一位哥们的回答就是：其实C网还不错，但因为身边其他人都用移动，我也就用移动了。

我觉得这篇文章起码开了一个好头，对指标的定义也我读过所有文章比较合理的一篇。一般这类模型，基本上我都会在自己项目的数据中做一番验证的。

文章我有，直接贴给大家把~！

发件人: grbounce-znzgnwuaaadgdkscude6f9zvtgzmsbin=darcy007007=163...@googlegroups.com [mailto:grbounce-znzgnwuaaadgdkscude6f9zvtgzmsbin=darcy007007=163...@googlegroups.com] 代表 Q

发送时间: 2009年10月12日 14:41
收件人: tt...@googlegroups.com
主题: Re: 答复: 客户流失预测器

Social ties and their relevance to churn in mobile telecom networks.rar

George Zhang

unread,

Oct 12, 2009, 3:41:50 AM10/12/09

to tt...@googlegroups.com

从学术角度讲，这个模型其实不是很复杂，推荐这篇论文

Modeling social influence through network autocorrelation: constructing the weight matrix

从网络(network)自相关的角度，加上外部因素的影响，可以得出上述的这种预测模型
外部因素的选择大家都比较熟悉，而网络的自相关矩阵(论文中的weight matrix)就是主要突破的地方

论文中已经指出常见的weight matrix构建方法，包括考虑到相邻节点，跨邻节点，相同处境节点等等

简单说来，同时加入所有w矩阵到回归模型中，通过相关系数进行选择即可

Q说的这个不用训练集的产品，莫非已经得出了可靠的自相关矩阵和回归参数？

我觉得这样不是很靠普哦，最好还是根据不同数据定制一下

2009/10/12 Q <happ...@gmail.com>

--
Best Regard
George Zhang

www.simplemining.com

XL

unread,

Oct 12, 2009, 9:17:18 AM10/12/09

to ttnn BI 观点

Two or three variables are really not enough, I' m using about 200
varaiables for the churn prediction (both internal data and external)
at the first step
and then select most important 20 variables based on their score and
rebuild the model.

On Oct 12, 4:37 am, Q <happys...@gmail.com> wrote:
> 在电信领域，客户流失一直是个重要领域，客户流失的原因可能是很多种原因，但不管是什么原因，运营商通常都会做客户流失预警工作，预警完了进行挽留，差不多这成-为一种日常工作。早在几年前，很多BI集成商就开始大范围搞这种预测模型，预测那些客户会在下个月流失。可以是一些经验模型，比如通过通话下降、电话呼转、协议-到期来进行预测；或者建立预测模型，不管是回归还是决策树，输入很多客户行为变量，这里存在一个假设----"当客户即将流失前，其通话行为是会发生某些变化的。"-预测模型就是找到这些变化。当然，这些变化（变量）是模型建立前考虑的，如果你没有设想到某一种因素对流失影响很大，恐怕你也不会将这个因素设计成为一个变量。-通常的变量比如通话时长变化率，话费变化率等等。
>
> 方法如此，有没有找到到合适的变量有可能是导致模型质量好坏的关键。
>
> 有一家公司，叫做sonamine
> <http://www.sonamine.com>，看名字就知道是跟挖掘有关系的，前不久他们发布了一种产品，叫做电信客户流失预测器，churn
> predictor。大家可以将它看作一个黑盒子，输入指定的数据，比如三个月通话话单，然后它就输出一些存在流失风险的客户名单。这个模式跟我们通常的流失预-警模型一样，只不过它更加产品化了。通过这个黑盒子，它号称可以在10%的客户里面，找到50%真正可能会流失的客户。

>
> 而且，更特别的是他强调利用社交网络的变化来预测个体的流失。这家公司本身就是搞社交网络分析的，其口号是insight from

> network。但这个理论不是他们提出的，他们基于一篇论文<http://portal.acm.org/citation.cfm?id=1353424&dl=GUIDE&coll=GUIDE&CFI...>

> ，作者大多来自ibm印度研究院，这篇论文需要注册才能看到，还不知道是否收费。
>
> 如果你是一名客户（用户），要预测你会流失，大致的结论是：

> 1、你的流失率是跟你交往圈的流失率有关系，下面这个图可以看看。这意思就是说，如果你平常总是跟50个人通电话，当上个月这50个人里面有5个人离网了，那么-你可能也即将走掉。有点群体效应的意思。

> 2、你的流失率跟你未流失交往圈他们的流失交往圈有关系，流失是传染的。
> [image: churn neighbors]

> 于是，考察三种变量，一种是常规的，如通话频次、时长之类的，叫做DT1；第二种是连通性变量，DT2，从流失交往圈和未流失交往圈拆分一些变量，如流失交往圈-个数。第三种就更加复杂了，DT3，将通信交往看作一个网络，有节点，有边，涉及到诸如"最短路径"这样的词语，对于文中描述的变量，俺不太明白，所以不知道如-何翻译。但不管如何，最后用提升曲线验证的结果当然是众望所归，DT3获胜，如下图。

YY H

unread,

Oct 12, 2009, 9:49:15 PM10/12/09

to tt...@googlegroups.com

做了好几次流失了，觉得做流失预测首先要对流失的原因分类，比如城市变化造成的流失，竞争对手造成的流失。但是做的时候经常不加区分，都是按照工作流程直接把数据丢进去跑。觉得要是从流失原因类的变量来看，这两类的变量应该不是一样才对

dong_wu

unread,

Oct 13, 2009, 3:32:40 AM10/13/09

to tt...@googlegroups.com

作为BI新人，平时一直都是在后台默默地品味学习着TTNN的各位大虾们精彩的发言。今天又看到了Q的很好的文章，当看到社交网络时感觉既陌生又好像在哪里见过，于是GO了一下，呵，搜出来的东东，还真的很有意思。所以，贴出来大家分享一下。最后再次感谢Q以及各位大虾们一直以来的无私奉献。

---转载自中国社会观察网 [ http://www.lookinto.cn/ ]

社交网络理论和缘起
    社交网络理论是由“曼彻斯特学派”（也称“自由贸易学派”），在城市化研究过程中提出的。之后，社会人际学领域的学者进行了继续探索，试图把人际关系量化。接下来，一些学者把这个理论进行了进一步的延伸，用来解释社会学中的一些现象。例如，研究发现，在一个组织里，一个人在社交网络中的中心地位，比他/她的职务头衔更有力。社交网络在招聘、商务运作的成功、工作表现等方面，也都发挥着核心作用。
    社交网络在学术界一直是非常活跃的领域，社交网络分析国际联盟，就是一个由分析社交网络的学术界分析家成立的一个组织，许多社交网络分析工具都放在了互联网上，供下载，这些工具都有很强的图形化能力，而且好用，"UCINet"就是其中的一个。
    在社交网络研究中还产生了一些分支的研究，如，“创新扩散”是研究社交网络及其在新思路和创造传播过程中的影响；“变革代表”和“意见领袖”在促进新思路被接受的过程中，起着主要的作用，当然，研究者们也认识到，创新本身的内在因素也在发挥着作用。

下面列出的是SNS应用中一些主要的方向和有关定义

150规则
这个规则说的是，一个实际的社交网络规模是有限的，不会超过150人。这个规则，是由社会学中“跨文化研究”，尤其是“人类学”领域学者提出的，是基于对一个“村庄”（在现代社会，应该称“经济利益共同体”）的最大规模的研究形成的认识。这个规则的理论依据来自于“进化心理学”的研究成果，就是说，人能够记住和有感情交流的人数是有限的。而更大的网络，由经济利益驱使，会产生欺瞒和撒谎。

分离度和全球社交网络
“小世界现象”是这样一个假设，通过熟人一个个传递的帮助，任何一个人想联络到另一个人，并不需要很长的“距离”。这个假设，在1967年社会心理学家米尔格伦进行了著名的“小世界试验”后，被命名为“六度分离”理论，他从试验中发现，任何两个美国人，通过熟人找熟人的办法，平均经过6个人就能联系上。最近，人们在互联网上也在探索“小世界”现象，比较著名的是哥伦比亚大学的“小世界研究”和俄亥俄大学的“电子小世界研究”。截止至2005年，分析结果表明，经由互联网，两个人互相联系上，需要通过5-7个人。在2005年10月中下旬，第一个中英双语的“小世界”假设试验网站推出，名为“SIM6D六度分离试验”。

互联网社交网络

    互联网社交网络最早产生于1997年，到2003年，社交网络在互联网这个“虚拟世界”里变得非常广为人知了。目前已经有超过200个社交网络服务网站，由于Friendster 取得的成功，这些网站大多采用的是同样的“朋友圈”技术。这类网站增长迅速，GOOGLE和YAHOO这样的互联网“巨人”，也增加了社交网络服务的项目。
    互联网社交网络服务的主要运作方式是，发起人象自己社交圈朋友发送邀请，然后这些朋友，朋友的朋友重复做这件事，是的网络不断扩大。注册登记到社交服务网络的成员，可以享受网上提供的服务，比如，地址簿自动更新、查阅社交圈朋友的信息、认识新的人和建立新的网络，比如，以商务联系为目的的网络等。
    这些网络大多是靠线上和线下共同联系的，互联网社交网络服务会经常组织一些活动，让社交网成员能够见面交往。

六度分离理论：
　　1967年美国社会心理学家米尔格伦（Stanley Milgram）提出了一个“六度分离”理论。简单地说，该理论认为在人际交往的脉络中，任意两个陌生人都可以通过“亲友的亲友”建立联系，这中间最多只要通过五个朋友就能达到目的。这个看似非常简单，却又很玄妙的理论引起了数学家、物理学家，以及电脑科学家们的关注。他们研究发现世界上许多其它的网络也有极相似的“六度分离”结构，例如经济活动中的商业联系网络结构、生态系统中的食物链结构，甚至人类脑神经元结构，以及细胞内的分子交互作用网络结构。 2001年哥伦比亚大学社会学系的一个研究小组开始在互联网上进行了这个实验。他们建立了一个实验网站，终点是分布在不同国家的18个人（包括纽约的一位作家、澳大利亚的一名警察以及巴黎的一位图书管理员等等），志愿者通过这个网站把电子邮件发给最可能实现任务的亲友。结果一共有384个志愿者的邮件抵达了目的地，电子邮件大约只花了五到七步就传递到了目标。这个活动现在还在继续。
　　美国的一个脱口秀节目有一次请了三个大学生来参加，主题是证明好莱坞的任何其他明星与演技派男星凯文·贝肯之间都能通过五个人联系起来。他们甚至成功的把已经去世了的卓别林与凯文·贝肯之间通过三个人建立了联系。节目引起了巨大反响。

1.六度分离理论告诉我们，有时候小数字，却蕴含着巨大的威力。就像我问你，如果你想象一下把一张足够大的纸对折50次，会有多高？如果你告诉我100米，这并不是你的错。有些东西是想象不出来的。真正答案可能更趋近于次，它的高度能把你送到太阳的肚子里。
2.有人把世界65亿人开了7次方根，结果是25.2257，从不科学方式说，我们每个人只要认识20几个人就可以满足此理论。
3.那么六度分离理论能给我们带来什么？首先，SN的发展是与其密不可分的。其次，它告诉我们每一个人要充分相信和利用自己的人脉。因为，只需要小小的六步，它可以让你认识这个地球的每一个人。
4.而我正在希望能通过此理论为自己谋求一份更适合的工作。
5.当然此理论其实还没有经过充分的试验证明，如果你兴趣参与实验，不妨看看这里：）。

2009-10-13

大狼

发件人： Q

发送时间： 2009-10-12 10:37:09

收件人： ttnn

抄送：

主题： 客户流失预测器

在电信领域，客户流失一直是个重要领域，客户流失的原因可能是很多种原因，但不管是什么原因，运营商通常都会做客户流失预警工作，预警完了进行挽留，差不多这成为一种日常工作。早在几年前，很多BI集成商就开始大范围搞这种预测模型，预测那些客户会在下个月流失。可以是一些经验模型，比如通过通话下降、电话呼转、协议到期来进行预测；或者建立预测模型，不管是回归还是决策树，输入很多客户行为变量，这里存在一个假设----"当客户即将流失前，其通话行为是会发生某些变化的。"预测模型就是找到这些变化。当然，这些变化（变量）是模型建立前考虑的，如果你没有设想到某一种因素对流失影响很大，恐怕你也不会将这个因素设计成为一个变量。通常的变量比如通话时长变化率，话费变化率等等。

Q

unread,

Oct 13, 2009, 3:42:40 AM10/13/09

to tt...@googlegroups.com

看来ttnn的读者群不算小，昨天刚说到sonamine，今天收到这家公司的一封邮件，是他们老板。认识中国字啊！都看ttnn的帖子了，后来一问，果然是华人。当然，未必是订阅者，有可能是经过web分析发现从这篇帖子成为他们主页的访问源，才过来瞅瞅的。这就是web analytics的力量。我没问他这个，用英文交流总是不顺畅，还是写中文顺溜啊，键盘在指尖噼里啪啦的。你看看，这最后一句话要我用英文肯定憋不出来。

我对他说希望能够有些实际应用案例，看看到底执行效果如何。因为大家知道，模型的评估还是用历史数据的，而这种评估比实际情况要好。但这个预测器还是个新产品，目前只有几家运营商在试用，还不能成为案例。这只好等着看了。

思路不错，但要真正产生好的效果还是要花费一番功夫。darcy其实是我的同事，我一打听，结果他告诉我，其实他按照论文上那么做的，但效果也就是麻麻地。嗯，也许还有些关键点。

其实，类似这种思路我以前也曾经遇到过一个，思路相似，不过肯定没有论文研究的那么细致。

事情是这样子的。

那应该是2006年的时候了，快进入07年。从我的工作日志可以看到。当时几个运营商都在搞策反，你挖我的墙角，我就挖你的。因此，在我们帮客户预测哪些竞争对手可以挖掘过来的同时，业务部门也反映有竞争对手客户经理在挖我方客户，一方面已经通过情报以及员工搜集等手段，搜集了几十个，但又发现其实真正搞策反工作的客户经理号码，并没什么规律。后来打电话过去试探，结果发现对方可能将策反任务下发给代理商，甚至是用我方的某个号码进行此项工作，层层伪装。通过一个号码一个号码地搜集，总归是慢人一拍。于是，想有一种方法识别这些策反号码。

当初的想法是先过滤出疑似的策反号码，然后再外呼去试探对方真是凶手，如果果然是，那就将此号码加入策反号码库，对这些号码“关注”的我方中高端号码，有必要进行安抚，无间道对无间道。一开始，是用直觉经验判断，哦，这类号码平常的接触量肯定很大，接触时段肯定在某个时间段里面...于是设立几条取数规则。但这样的出的名单很长，好几千好几万，没法去验证。

那就建模型吧，取概率大的前若干名单。

将已经搜集的策反号码当作目标集，然后搜集一些通话行为变量，比如主叫次数、时段等等，准备用很常规的做法来训练模型。但后来我觉得不应该这样搞，这些常规变量并没有体现一个“策反”号码的特点，要说主叫次数，那搞保险的，搞销售的肯定都是同样的特征，既然我们关注的是一个号码对我方号码流失的影响，换个思路。

从结果回推——如果一个号码跟我方号码联系之后，有很多号码都流失了，那么这个号码就是一个危～险～号～码。

不用去管这里面有什么原因，或者是某种偶然现象，如果一个号码的我方交往圈总是流失，已经是统计现象，必定有问题。要不，这个号码就是我们要好的策反号码。要不，他是个瘟神号码（当然，对于竞争对手来说，应该称作福星号码）。

按照这个思路，先是建了决策树模型，但每次都不稳定，我不会解读，于是同事换成回归模型。这事儿应该在ttnn提到过。后来筛选出来一批疑似的，每周输出一批，记得有一次在100个名单里面确认了7个策反号码，这是最高纪录，平常没有这么高。但是效果并不是非常稳定。而且由于是项目嘛，我们也不会深入去研究，当效果达到一定程度，看上去还不错的时候，事情就告一段落了。

我想，其实这个课题还有很大的研究空间，只是产出一个模型，而没有形成结论化的业务规则，况且模型的稳定性也没有被证明，当然还有很大空间。也许在未来还有机会被完善吧，甚至还有可能有类似的产品出来——策反号码预警器，当当当当当。

但不管如何，对于这个思路，我是得意地很，从我津津乐道的样子就可以看出了，哈哈。

syfins

unread,

Oct 13, 2009, 7:56:58 AM10/13/09

to ttnn BI 观点

汗
这个玩意能不能把算法搞出来
我们去年做过基于SNA的离网预警以及病毒营销（口碑营销）的模型
但这个东西也就是创新探索一下
效果不一定好
关键消耗很大，三度空间的计算量和消耗的存储就可以秒杀掉国内99%的dw
最后也就验证了几个结论
领袖或者中心节点的流失会对其所在的整个客户群造成流失影响

darcy

unread,

Oct 13, 2009, 8:38:21 AM10/13/09

to tt...@googlegroups.com

syfins，请问你说的：

最后也就验证了几个结论
领袖或者中心节点的流失会对其所在的整个客户群造成流失影响

请问这个中心节点一般的网络规模是多大呢？影响是怎么计算的？
呵呵，我一直在做这方面研究，有机会可以探讨一下的

-----邮件原件-----
发件人:
grbounce-znzgnwuaaadgdkscude6f9zvtgzmsbin=darcy007007=163.com@googlegroups.c
om
[mailto:grbounce-znzgnwuaaadgdkscude6f9zvtgzmsbin=darcy007007=163.com@google
groups.com] 代表 syfins
发送时间: 2009年10月13日 19:57
收件人: ttnn BI 观点
主题: Re: 客户流失预测器

syfins

unread,

Oct 13, 2009, 10:10:25 AM10/13/09

to ttnn BI 观点

网络规模要看之前对节点间联系的定义
之前我们对联系的定义是短信、通话等行为在不同时间段、时长和条数的分布赋以不同的权值
对于分离出的群体也要看具体的联系情况
在图中遍历出子图
现在SAS 9.2里面已经有成熟的对于的图的相关proc
可以参考一下

On 10月13日, 下午8时38分, "darcy" <darcy007...@163.com> wrote:
> syfins，请问你说的：
>
> 最后也就验证了几个结论
> 领袖或者中心节点的流失会对其所在的整个客户群造成流失影响
>
> 请问这个中心节点一般的网络规模是多大呢？影响是怎么计算的？
> 呵呵，我一直在做这方面研究，有机会可以探讨一下的
>
> -----邮件原件-----
> 发件人:

> grbounce-znzgnwuaaadgdkscude6f9zvtgzmsbin=darcy007007=163....@googlegroups.c
> om
> [mailto:grbounce-znzgnwuaaadgdkscude6f9zvtgzmsbin=darcy007007=163.com@googl-e

darcy

unread,

Oct 13, 2009, 11:25:39 AM10/13/09

to tt...@googlegroups.com

恩，多谢，看来是做了不少工作的，TTNN上面高人很多
之前一直在用pajek做一些预研，自己感觉用起来很不方便

还有关于你说的：之前我们对联系的定义是短信、通话等行为在不同时间段、时长和条
数的分布赋以不同的权值
感觉这样定义起来是非常复杂的，不知道有没有相关的文献作为基础呢？
我觉得你们应该有做分析对比证明这种定义的有效性，呵呵，是不是？
之前我在做CDR呼叫圈距离分析时是找到了一些很好的外文文献，后面的应用实施也证
明了其有效性

-----邮件原件-----
发件人:
grbounce-znzgnwuaaadgdkscude6f9zvtgzmsbin=darcy007007=163.com@googlegroups.c
om
[mailto:grbounce-znzgnwuaaadgdkscude6f9zvtgzmsbin=darcy007007=163.com@google

groups.com] 代表 syfins
发送时间: 2009年10月13日 22:10
收件人: ttnn BI 观点
主题: Re: 答复: 客户流失预测器

网络规模要看之前对节点间联系的定义
之前我们对联系的定义是短信、通话等行为在不同时间段、时长和条数的分布赋以不同
的权值

Nick

unread,

Oct 14, 2009, 1:27:29 AM10/14/09

to tt...@googlegroups.com

看来研究SNA的人挺多的啊，大家都是高人，学习了

2009/10/13 darcy <darcy...@163.com>

--
Phinex Zhao
MSN: crick...@hotmail.com

祝迎春

unread,

Nov 19, 2009, 6:09:09 AM11/19/09

to tt...@googlegroups.com

本来是想自己留着的，既然大家都看到了，那就分享下吧，其实这个课题我已经做过一些了，一直是个人兴趣。我遇到的最大的问题是：

数据转化的问题，社会网络分析对数据要求是比较严格的，1模还是2模，要分析这类数据对机器的配置要求很高，毕竟转化矩阵是需要很大内存和运算能力的。我只能在小范围做，这对我的外延效度有很大制约。

工具问题，这个分析软件估计很难搞，我试了很多种，但是一直不理想。

算法问题，要做这个研究必须对社会网络的动态预测有很深的造诣，国内估计有2个人有这样的能力，其他的都是乱来的，但他们都没有算法创新和编程的能力。后悔大学没好好学计算机了，特别是图论。

我之后得到的一些成果：可以在指定的数据库中，描述静态网络结构，但不能描述动态那个太难了。世界牛人也就那么几个。

可以对每个人评分，就是一些常用描述社会网络指标，并且根据具体业务要求，比如用于流失，套餐设计来做分析，这个我很满意。

祝迎春

unread,

Nov 19, 2009, 6:47:33 AM11/19/09

to tt...@googlegroups.com

回darcy007007：这个是有普遍适用性的，初步分析的资料其实需要得很少，除非你们的数据库本身就可以提供关系数据，但未必是我需要的那种类似，呵呵。

2009/10/12 darcy <darcy...@163.com>

个人认为这种模型应该是不具备普遍适用性的：毕竟不同地区运营商的结构和组成不同，话单记录包含的信息内容也是千差万别的。且关于影响力的定义也值得商榷，因为对于CDR这种无尺度网络而言，中心节点才是关键

发件人: grbounce-znzgnwuaaadgdkscude6f9zvtgzmsbin=darcy007007=163.com@googlegroups.com [mailto:grbounce-znzgnwuaaadgdkscude6f9zvtgzmsbin=darcy007007=163.com@googlegroups.com] 代表 Q
发送时间: 2009年10月12日 10:37

祝迎春

unread,

Nov 19, 2009, 7:14:14 AM11/19/09

to tt...@googlegroups.com

可以使用的工具：

http://www.kdnuggets.com/software/social-network-analysis.html

估计国内没有自己编程序做吧？有的话一定要告之我一下，谢谢

陈磊

unread,

Nov 19, 2009, 7:50:21 PM11/19/09

to tt...@googlegroups.com

呵呵，那不一定，国内还是有人做这个的。

我本科毕业论文就是相关方向，当时是基于jung做的展示，在大数据量下效果的确不是很好，但是途径毕竟还是有的。

jung是一个java的开源项目，它是很多社会网络分析算法的实现。当然，如果要想开发程序，还需要别的包，我这儿还有当时的存档，应该能够支持结果的实现。

http://jung.sourceforge.net/

不知道国内有没有自己做的SNA软件，但是基于上面的算法实现，包装出一个新的软件也应该不算是很麻烦。

07年那会，国外会议发的相关方向的论文还是以无语义连接为主，现在再看，已经都是基于语义的了，发展的真是很快。

在09-11-19，祝迎春 <mrzy...@gmail.com> 写道：

陈磊

unread,

Nov 19, 2009, 8:03:10 PM11/19/09

to tt...@googlegroups.com

这个问题应该好办，应该是中介度问题吧，这是社会网络分析的基础。其实做策反的人很好找：参考安然的分析结果就可以了。以人物（这儿可能是电话号码）为节点，以两者之间的联系次数为紧密度，形成数据，然后放给Jung展现，如果能将被策反的用户的节点标上别的颜色，很好办，几乎一下就可以看出是那几个节点出问题了。

这个办法是我毕设时候用的，当时结果非常明显。当然，这也是自己根据自己做的东西想当然的结果，但愿能对大家的思路有所帮助。

在09-10-13，Q <happ...@gmail.com> 写道：

看来ttnn的读者群不算小，昨天刚说到sonamine，今天收到这家公司的一封邮件，是他们老板。认识中国字啊！都看ttnn的帖子了，后来一问，果然是华人。当然，未必是订阅者，有可能是经过web分析发现从这篇帖子成为他们主页的访问源，才过来瞅瞅的。这就是web analytics的力量。我没问他这个，用英文交流总是不顺畅，还是写中文顺溜啊，键盘在指尖噼里啪啦的。你看看，这最后一句话要我用英文肯定憋不出来。

我对他说希望能够有些实际应用案例，看看到底执行效果如何。因为大家知道，模型的评估还是用历史数据的，而这种评估比实际情况要好。但这个预测器还是个新产品，目前只有几家运营商在试用，还不能成为案例。这只好等着看了。

思路不错，但要真正产生好的效果还是要花费一番功夫。darcy其实是我的同事，我一打听，结果他告诉我，其实他按照论文上那么做的，但效果也就是麻麻地。嗯，也许还有些关键点。

其实，类似这种思路我以前也曾经遇到过一个，思路相似，不过肯定没有论文研究的那么细致。

事情是这样子的。

那应该是2006年的时候了，快进入07年。从我的工作日志可以看到。当时几个运营商都在搞策反，你挖我的墙角，我就挖你的。因此，在我们帮客户预测哪些竞争对手可以挖掘过来的同时，业务部门也反映有竞争对手客户经理在挖我方客户，一方面已经通过情报以及员工搜集等手段，搜集了几十个，但又发现其实真正搞策反工作的客户经理号码，并没什么规律。后来打电话过去试探，结果发现对方可能将策反任务下发给代理商，甚至是用我方的某个号码进行此项工作，层层伪装。通过一个号码一个号码地搜集，总归是慢人一拍。于是，想有一种方法识别这些策反号码。

当初的想法是先过滤出疑似的策反号码，然后再外呼去试探对方真是凶手，如果果然是，那就将此号码加入策反号码库，对这些号码"关注"的我方中高端号码，有必要进行安抚，无间道对无间道。一开始，是用直觉经验判断，哦，这类号码平常的接触量肯定很大，接触时段肯定在某个时间段里面...于是设立几条取数规则。但这样的出的名单很长，好几千好几万，没法去验证。

那就建模型吧，取概率大的前若干名单。

将已经搜集的策反号码当作目标集，然后搜集一些通话行为变量，比如主叫次数、时段等等，准备用很常规的做法来训练模型。但后来我觉得不应该这样搞，这些常规变量并没有体现一个"策反"号码的特点，要说主叫次数，那搞保险的，搞销售的肯定都是同样的特征，既然我们关注的是一个号码对我方号码流失的影响，换个思路。

从结果回推----如果一个号码跟我方号码联系之后，有很多号码都流失了，那么这个号码就是一个危～险～号～码。

不用去管这里面有什么原因，或者是某种偶然现象，如果一个号码的我方交往圈总是流失，已经是统计现象，必定有问题。要不，这个号码就是我们要好的策反号码。要不，他是个瘟神号码（当然，对于竞争对手来说，应该称作福星号码）。

按照这个思路，先是建了决策树模型，但每次都不稳定，我不会解读，于是同事换成回归模型。这事儿应该在ttnn提到过。后来筛选出来一批疑似的，每周输出一批，记得有一次在100个名单里面确认了7个策反号码，这是最高纪录，平常没有这么高。但是效果并不是非常稳定。而且由于是项目嘛，我们也不会深入去研究，当效果达到一定程度，看上去还不错的时候，事情就告一段落了。

我想，其实这个课题还有很大的研究空间，只是产出一个模型，而没有形成结论化的业务规则，况且模型的稳定性也没有被证明，当然还有很大空间。也许在未来还有机会被完善吧，甚至还有可能有类似的产品出来----策反号码预警器，当当当当当。

Reply all

Reply to author

Forward