如何将连续值分段

18 views
Skip to first unread message

Qing

unread,
Jun 12, 2007, 9:42:48 AM6/12/07
to tt...@googlegroups.com

将连续的数值离散化成为分级,这是经常会遇到的一个分析动作。因为连续的数值不太容易让人理解,能够掰着指头数出来的级别数则容易让人懂一些。比如在做OLAP的时候,想看看不同消费水平的人数量几何。这里的消费水平,便是将连续的数值离散化了。原来是1到2000,皆有可能的取值,甚至还有小数,变成10个以内的级别,如50块以下一段,50-200一段,200-500一段…如此。显然,这种离散的段将成为一个维度,可以从这个角度观察其他度量。

关于如何将连续的值分成离散的段,没见着有什么约定俗成的方式。

有人喜欢从数学角度,似乎确实有人在研究如何从一串数值里面切成几段的。不过很多让人能够接受的分段,是业务上容易理解的。这种分段都可以凭经验划分。例如对于月消费,50块钱一段应该没有问题,如果是月收入呢,可以用500块钱分成一段,考虑到在3000以内人数众多,可以一直用这个数来分,到了3000以上,人数上了,便可以用1000块钱作为一段。

这都是凭感觉,那么有没有可以量化的东西呢,我想应该有所依据。比如上面的例子里面,虽然是凭经验,但已经结合了一个考虑,大概在3000的时候,人数的分布有个讲究。比如,80%的人在3000以下——用到了二八原则。

近来遇到一个需要将信用评分划分成信用级别的事情,属于这类问题。

其实在分级之前,我已经初步有了一个想法,分成5级。为什么呢?因为这是客户容易接受的,在金融行业里面不也是有五级吗,因此,这里借鉴一下。于是,问题便演变成为如何将0到1之间的浮点数划分阈值,区分成可以解释的,比较清晰的五个等级。

级别从A到E,信用逐步降低,分值从0到1,逐步提升。当然,有个明显的前提,信用好的是占据了大多数,只有少数害群之马是被认为信用差的。因此,我想,他们应当被冠以E级,或者D级。中间不好不坏的,当然就是C级。那么,D、E级大概占多少比例呢?5%应该可以接受。

于是,对信用模型打分结果首先进行等分分值的频次观察。将分值分成每0.01一个段,观察人数。结果发现,前两个段,0.01和0.02占据了80%,真是不好意思,怎么正好跟二八原则挂上构呢。于是,初步决定将这两个段分别作为A和B级的分值。接着还有20%,如果按照前5%作为D、E级,那么中间着15%的人,当然就算作C级。

凭什么就是5%呢?要知道,这仅仅是之前的猜测。于是,在对人数进行等分观察分值的变化,将所有客户按信用评分排序,均分成100组,每组的客户数量大致相同。发现,分值在一直到96组之前,都是平平坦坦,平稳增长,但是到了96组的时候,不得了,有个明显的观点,从0.049左右,猛增到0.4,然后增加到0.7,再到1。OK,找到了,就是在0.05这道槛。它就是区分C和D级的界限。和当初的设想很接近,信用最差的两个等级占了4%。

在做完这次分级之后,试图总结两点:
1、通过等分数值的频次分布来,结合二八原则,决定主要(频次多)的级别;
2、通过等分人数的数值分布,观察显著变化的点,决定边缘级别(频次少)的级别;

剩下的就是其他级别。当然,也可能就上面这两个已经重叠了,例如发生显著变化的分值,在60%的客户就开始了。这样,我想可以选一个策略,要不以二八原则优先,要不以分值变化拐点为优先。这根本不重要,重要的是如何让级别的划分看起来像那么回事,确实不是乱盖的。

不知道总结的这两点适用范围多广,但应该能够适用大多数情况,这也就够了。

Mr.Somebody

unread,
Jun 13, 2007, 6:31:25 AM6/13/07
to ttnn BI 观点
庆兄没有在文章里面说信用评估应用在哪里,我假设一下是为了信用卡或者是贷款的发放决策(0,1),而不是信用或者是贷款的额度决策。

为什么会与二八原则挂上钩呢?庆兄或许重新看看数据,看看是不是本来目标值(0和1)的分布就是大概20/80呢?

为什么要划分五个等级呢?从信用评估的角度上看,决策的结果有两种,给和不给。如果单纯以模型预测的值来做决策的话,两个等级就够了。如果以模型+决策
树的方法的话则或许有必要多划分几个等级。

为什么要给最后的4%再分两个等级呢?分完之后能够在D和E之间找出显著的区别并据此加入不同的决策规则吗?最终能被应用上这些规则并有不同的决策结果
的(潜在)客户有多少呢?相同的问题也可以问在等级A B C 上。

供探讨。

On 6月12日, 下午2时42分, Qing <happys...@gmail.com> wrote:
> 将连续的数值离散化成为分级,这是经常会遇到的一个分析动作。因为连续的数值不太容易让人理解,能够掰着指头数出来的级别数则容易让人懂一些。比如在做OLAP的时候,想看看不同消费水平的人数量几何。这里的消费水平,便是将连续的数值离散化了。原来是1到2000,皆有可能的取值,甚至还有小数,变成10个以内的级别,如50块以下一段,50-200一段,200-500一段...如此。显然,这种离散的段将成为一个维度,可以从这个角度观察其他度量。


>
> 关于如何将连续的值分成离散的段,没见着有什么约定俗成的方式。
>
> 有人喜欢从数学角度,似乎确实有人在研究如何从一串数值里面切成几段的。不过很多让人能够接受的分段,是业务上容易理解的。这种分段都可以凭经验划分。例如对于月消费,50块钱一段应该没有问题,如果是月收入呢,可以用500块钱分成一段,考虑到在3000以内人数众多,可以一直用这个数来分,到了3000以上,人数上了,便可以用1000块钱作为一段。
>

> 这都是凭感觉,那么有没有可以量化的东西呢,我想应该有所依据。比如上面的例子里面,虽然是凭经验,但已经结合了一个考虑,大概在3000的时候,人数的分布有个讲究。比如,80%的人在3000以下--用到了二八原则。

Qing

unread,
Jun 13, 2007, 9:34:32 AM6/13/07
to tt...@googlegroups.com
这个问题切中要害,我试着回答一下。
 
这个模型并非用于信用卡或贷款是否发放,是在电信行业用的,用以决策话费透支的额度。如果深入探讨这个问题,很有意思。究竟该不该用一个信用度或者信用等级来决定透支额度?我现在不敢说,但使用信用等级来决定这个额度显然是比较简洁明了的。A级可以透支1000,E级不允许透支。。。
 
至于为什么要分成5个等级,为什么跟二八原则挂上勾,主要是处于让这个等级划分容易理解。但又不单是,如果说理解,当然就是信用好、差两个等级最明白了。但仅仅两个等级又太少,不够细化。要作出这个选择,必然在1-9之间选择,甚至是1-7之间,因为人最容易一下子接受的就是不超过7、9个概念。另外,结合业务上的策略操作,五是一个适中的数字。想想,如果对七中不同类型客户制定差异策略,还是多了些。而使用二八原则,个人认为是划分等级的理想原则,等级一般都是金字塔型的,头小屁股大,大多数都是属于基础的等级,少数派占据顶尖的等级。
 
那为什么是5种,而不是4种呢?为什么要给最后的4%再分成两个等级?当初步看了Somebody的提问,我想,可能是没什么必要,确实,从策略上,对于这4%的客户不会又太大的差异。
 
也许就是个人喜好吧,一开始选择了5这个数字,因为他是奇数,有中间值保持对称,符合中庸之道。

如果客户能够接受5级的评定,就没有问题,如果不接受,就劝服接受。大家应该不会在是5级合理还是4级合理的问题上纠缠。

hunter

unread,
Jun 13, 2007, 11:48:43 AM6/13/07
to ttnn BI 观点
思路清晰,问答也很有启发,谢过了。。

"如果不接受,就劝服接受",猛烈核子爆炸寒一个。

On 6月13日, 下午2时34分, Qing <happys...@gmail.com> wrote:
> 这个问题切中要害,我试着回答一下。
>

> 这个模型并非用于信用卡或贷款是否发放,是在电信行业用的,用以决策话费透支的额度。如果深入探讨这个问题,很有意思。究竟该不该用一个信用度或者信用等级来决 定透支额度?我现在不敢说,但使用信用等级来决定这个额度显然是比较简洁明了的。A级可以透支1000,E级不允许透支。。。
>
> 至于为什么要分成5个等级,为什么跟二八原则挂上勾,主要是处于让这个等级划分容易理解。但又不单是,如果说理解,当然就是信用好、差两个等级最明白了。但仅仅 两个等级又太少,不够细化。要作出这个选择,必然在1-9之间选择,甚至是1-7之间,因为人最容易一下子接受的就是不超过7、9个概念。另外,结合业务上的策 略操作,五是一个适中的数字。想想,如果对七中不同类型客户制定差异策略,还是多了些。而使用二八原则,个人认为是划分等级的理想原则,等级一般都是金字塔型的 ,头小屁股大,大多数都是属于基础的等级,少数派占据顶尖的等级。


>
> 那为什么是5种,而不是4种呢?为什么要给最后的4%再分成两个等级?当初步看了Somebody的提问,我想,可能是没什么必要,确实,从策略上,对于这4% 的客户不会又太大的差异。
>
> 也许就是个人喜好吧,一开始选择了5这个数字,因为他是奇数,有中间值保持对称,符合中庸之道。
>
> 如果客户能够接受5级的评定,就没有问题,如果不接受,就劝服接受。大家应该不会在是5级合理还是4级合理的问题上纠缠。
>

> On 6/13/07, Mr.Somebody <Mr.Someb...@gmail.com> wrote:
>
>
>
>
>
> > 庆兄没有在文章里面说信用评估应用在哪里,我假设一下是为了信用卡或者是贷款的发放决策(0,1),而不是信用或者是贷款的额度决策。- 隐藏被引用文字 -
>
> - 显示引用的文字 -

Mr.Somebody

unread,
Jun 14, 2007, 5:52:18 AM6/14/07
to ttnn BI 观点
根据qing兄的在这帖子的回答和在"确定分析目标"的帖子,现在我对问题有了更深一点的认识,同时也有了更多的疑问。

用"用户是否欠费"来作为目标变量建立模型,预测的自然是用户会否欠费。
用"用户是否欠费且不还"来作为目标变量建立模型,预测的就是用户会否欠费且不还。
模型的结果和目标的定义是应该一致的。同时,在定义目标是还应该加上时限。因为预测的目标应该是用户在未来一段时间(N天、N个月还是N年)内会否欠
费,而不是简单的yes 和no。

当然,用户会否欠费与用户信用是肯定相关的,但是是如何相关呢?正比线性还是其他非线性关系?这个问题用目前这个模型是不能够回答的。所以,以用户是否
欠费来作为目标变量建立的模型是不足以用来衡量用户信用的。

要解决透支额度的问题,最好还是借鉴一下金融行业信用评估的方法。


On 6月13日, 下午2时34分, Qing <happys...@gmail.com> wrote:

> 这个问题切中要害,我试着回答一下。
>
> 这个模型并非用于信用卡或贷款是否发放,是在电信行业用的,用以决策话费透支的额度。如果深入探讨这个问题,很有意思。究竟该不该用一个信用度或者信用等级来决定透支额度?我现在不敢说,但使用信用等级来决定这个额度显然是比较简洁明了的。A级可以透支1000,E级不允许透支。。。
>
> 至于为什么要分成5个等级,为什么跟二八原则挂上勾,主要是处于让这个等级划分容易理解。但又不单是,如果说理解,当然就是信用好、差两个等级最明白了。但仅仅两个等级又太少,不够细化。要作出这个选择,必然在1-9之间选择,甚至是1-7之间,因为人最容易一下子接受的就是不超过7、9个概念。另外,结合业务上的策略操作,五是一个适中的数字。想想,如果对七中不同类型客户制定差异策略,还是多了些。而使用二八原则,个人认为是划分等级的理想原则,等级一般都是金字塔型的,头小屁股大,大多数都是属于基础的等级,少数派占据顶尖的等级。
>
> 那为什么是5种,而不是4种呢?为什么要给最后的4%再分成两个等级?当初步看了Somebody的提问,我想,可能是没什么必要,确实,从策略上,对于这4%的客户不会又太大的差异。
>
> 也许就是个人喜好吧,一开始选择了5这个数字,因为他是奇数,有中间值保持对称,符合中庸之道。
>
> 如果客户能够接受5级的评定,就没有问题,如果不接受,就劝服接受。大家应该不会在是5级合理还是4级合理的问题上纠缠。
>

Qing

unread,
Jun 14, 2007, 12:16:08 PM6/14/07
to tt...@googlegroups.com
我也非常怀疑用这个欠费可能性模型是否能够说明信用的好坏。其实这个模型的目标是是否欠费(当然会有时间限制),如果我们将预测的结果当作是信用差的,应该是可以理解的。然后,对于哪些欠费可能性不大的客户就是信用好的吗?似乎不能这么说。
 
今天下午,将这个结论跟客户说,正是提出了这个问题。
 
因为我们现在的五个等级是金字塔型的,A、B占去80%,D、E只有很少的一部分,从欠费可能性来说,非常符合现实。但客户的一个疑问是——信用好的应当也是很少的,所以这个等级不应该是金字塔型,而是符合正态分布,差不多是纺锤形。这个质疑让我觉得似乎有什么地方不对劲,但从业务角度这是让人觉得有道理的。从分析角度来说,信用好和信用差应该是两个分析目标,如果要得到理想的纺锤形,那么也应当分成两个步骤,一个是识别信用差的群体,一是识别信用好的群体。但又蹦出一个问题——什么叫做信用好。如果说信用差,可以说曾经发生欠费并且不还的,就是信用差的。但信用好的不能说未曾欠过费就是好。
 
有人说,男人不出轨,是因为诱惑不够。同样,那些未曾欠费的,并不是完全因为诚实,恐怕也有诱惑不够大的原因吧。因为本身现在的欠费率不算太高,运营商已经做了很大的控制,很多信用问题已经被隐藏在控制之后。
 
信用度跟这个模型的目标并非严格匹配,就是这样的。当探讨到这里的时候,客户已经认同现有模型。因为他们也意识到没有一个标准来定义"信用好"。
 
按照我开始的预期,果然客户并没有将注意力放在为什么分成五级(而不是三级)。更受关注的,是每个级别的数量构成(最终还是接受了金字塔形的构成),另外确实还有每个级别的区别。A级跟B级如果都是信用好的,但他们的区别是什么,难道只是0.01和0.02分值的差别吗?这不容易让人理解。如果你能发现A级主要客户是中高端,而B级主要客户是中低端,那么这也是个不错的结论(当然,我们还尚未发现这个结论)。

 
On 6/14/07, Mr.Somebody <Mr.So...@gmail.com> wrote:
...所以,以用户是否欠费来作为目标变量建立的模型是不足以用来衡量用户信用的。

Mr.Somebody

unread,
Jun 14, 2007, 12:27:46 PM6/14/07
to ttnn BI 观点
关于评分结果可以用二八原则来解释,Qing兄的解释很合常理。但是我还有另外一种猜测,那就是因为建模时使用的数据本身就是服从二八原则的。能请
Qing兄验证一下么?

Qing

unread,
Jun 14, 2007, 12:44:03 PM6/14/07
to tt...@googlegroups.com
你说本身数据服从二八原则是从那个方面来看?如果每个月的欠费客户和非欠费客户比例,不符合二八原则,欠费率大概只有2%,很少。从最后验证看,如果有实际有1万个欠费的,那么模型预测出来,D、E两级大概两万人,命中(确实欠费)大概8千人,命中率40%,查全率80%,结果还算可以了吧。
 
不过后来想想,恐怕还是因为2%这个基数太小,对分析并不是好事。

 
On 6/15/07, Mr.Somebody <Mr.So...@gmail.com> wrote:
关于评分结果可以用二八原则来解释,Qing兄的解释很合常理。但是我还有另外一种猜测,那就是因为建模时使用的数据本身就是服从二八原则的。能请Qing兄验证一下么?

严国友

unread,
Jun 14, 2007, 10:02:01 PM6/14/07
to tt...@googlegroups.com
Qing,您好!
不知这个模型的等级划分,最终如何在实际中去应用。
早先的手机用户多是后付费用户,先消费,在付钱。曾出现过有人那别人或假身份证办手机号,一下就消费个十万、百万的,当然是不会给移动/联通缴手机费的。
因此出现了很多黑名单,即这个身份证不能入网;到现在多数都是预付费了,你得先缴钱,然后才能打电话,一旦余额不多就限制你使用。

此前有过信用度控制系统、黑名单管理系统等。在移动/联通都要求大伙先付钱了,信用度控制还有多大需求呢?
不过总还是有点后付费的用户,多数省份比例已经很小了,不过北京移动好像还不少:入网要北京本地身份证担保,或者预交500块。头几个月消费总额几乎都控制在200元以内,否则就限制使用;不过用了半载、一年后,就可以不太受控制,一般都可以消费个千儿八百的。

其实这样的控制还是蛮实用的,配上缴费提醒系统,基本就能应付欠费问题。 不管用户实际信用度高不高,新来的就得受限,等成了老用户了,基本上一个月的消费额度就可以用来作为欠费额度了。
而用模型去预测打分,给用户分成5类,在最终应用上 和 以上的信用控制公式比,手机用户的可理解性相比可就要难了。


======= 2007-06-15 00:44:03 您在来信中写道:=======
= = = = = = = = = = = = = = = = = = = =


        致
礼!


        严国友
        ya...@asiainfo.com
          2007-06-15

fox.gif

Qing

unread,
Jun 18, 2007, 1:53:46 AM6/18/07
to tt...@googlegroups.com
上面提到了,虽然这叫作信用度模型,但其实是预测客户欠费的可能性。本身,欠费问题在国内的电信行业已经不太显著,很多都变成预付费,欠费就停你机。除了几个大城市还存在很多后付费的客户,他们更关注欠费问题吧。
 
也许,运营商是期望构建一个能够预期客户"信用"好坏的模型,这种好坏得是相对的。比如,你给他1万块透支,他岿然不动,你给他10万透支,他心动了,于是用完就跑了。但也有人,给10万不动心,给100万才动心。如此,这被100万打动的就比那10万的信用好。可惜,我们的模型无法预测这个,只能通过客户历史行为来分析。可是大多数客户根本就没有机会展示其信用好坏的机会,你说咋整。
 
所以说,如今我们的模型只能拿哪些被预测出来信用不好的客户(D/E级,4%左右)来说事。
 
欠费问题应该不光是避免欠费导致的坏账,应当是提高客户服务和降低欠费欺诈的平衡。如果给你足够的透支额度,你会感到收到信任,满意度提高,而且因为没有余额的限制,你的消费也是不知不觉涨了上去。这就看这个度怎么把握了,这是个策略问题。如果能仿真一下,给足够多的客户予以宽松的透支额度,然后观察收入增长和欠费率,如果收入增长远大于欠费坏账,自然可以给予客户更大的消费空间。

 
On 6/15/07, 严国友 <ya...@asiainfo.com> wrote:
。。。不知这个模型的等级划分,最终如何在实际中去应用。

兰德里尼

unread,
Jun 18, 2007, 1:57:09 AM6/18/07
to ttnn BI 观点
---我也做了个类似的模型,命中率50%,查全率60%,好像还不如你这个呢,你这个从效果来看可以了。不过实际情况是客户一般会要求命中率越高越
好,对于查全率似乎不是很关心,可能是因为客户对于差样本审核的成本太高了吧,而且如果命中率很低,客户上报的时候也会很没面子的。

Mr.Somebody

unread,
Jun 21, 2007, 5:47:57 AM6/21/07
to ttnn BI 观点
这个问题还可以继续深入讨论下去,不过我最近在收拾包袱回国,就没有时间好好组织语言了。有哪些同志7月初在深圳或者是珠海有空的?聚一聚聊一聊?


On 18 Jun, 06:53, Qing <happys...@gmail.com> wrote:
> 上面提到了,虽然这叫作信用度模型,但其实是预测客户欠费的可能性。本身,欠费问题在国内的电信行业已经不太显著,很多都变成预付费,欠费就停你机。除了几个大城市还存在很多后付费的客户,他们更关注欠费问题吧。
>
> 也许,运营商是期望构建一个能够预期客户"信用"好坏的模型,这种好坏得是相对的。比如,你给他1万块透支,他岿然不动,你给他10万透支,他心动了,于是用完就跑了。但也有人,给10万不动心,给100万才动心。如此,这被100万打动的就比那10万的信用好。可惜,我们的模型无法预测这个,只能通过客户历史行为来分析。可是大多数客户根本就没有机会展示其信用好坏的机会,你说咋整。
>
> 所以说,如今我们的模型只能拿哪些被预测出来信用不好的客户(D/E级,4%左右)来说事。
>
> 欠费问题应该不光是避免欠费导致的坏账,应当是提高客户服务和降低欠费欺诈的平衡。如果给你足够的透支额度,你会感到收到信任,满意度提高,而且因为没有余额的限制,你的消费也是不知不觉涨了上去。这就看这个度怎么把握了,这是个策略问题。如果能仿真一下,给足够多的客户予以宽松的透支额度,然后观察收入增长和欠费率,如果收入增长远大于欠费坏账,自然可以给予客户更大的消费空间。
>

Qing

unread,
Jun 21, 2007, 6:34:23 AM6/21/07
to tt...@googlegroups.com
我会在广州,有机会坐坐。
Reply all
Reply to author
Forward
0 new messages