将连续的数值离散化成为分级,这是经常会遇到的一个分析动作。因为连续的数值不太容易让人理解,能够掰着指头数出来的级别数则容易让人懂一些。比如在做OLAP的时候,想看看不同消费水平的人数量几何。这里的消费水平,便是将连续的数值离散化了。原来是1到2000,皆有可能的取值,甚至还有小数,变成10个以内的级别,如50块以下一段,50-200一段,200-500一段…如此。显然,这种离散的段将成为一个维度,可以从这个角度观察其他度量。
关于如何将连续的值分成离散的段,没见着有什么约定俗成的方式。
有人喜欢从数学角度,似乎确实有人在研究如何从一串数值里面切成几段的。不过很多让人能够接受的分段,是业务上容易理解的。这种分段都可以凭经验划分。例如对于月消费,50块钱一段应该没有问题,如果是月收入呢,可以用500块钱分成一段,考虑到在3000以内人数众多,可以一直用这个数来分,到了3000以上,人数上了,便可以用1000块钱作为一段。
这都是凭感觉,那么有没有可以量化的东西呢,我想应该有所依据。比如上面的例子里面,虽然是凭经验,但已经结合了一个考虑,大概在3000的时候,人数的分布有个讲究。比如,80%的人在3000以下——用到了二八原则。
近来遇到一个需要将信用评分划分成信用级别的事情,属于这类问题。
其实在分级之前,我已经初步有了一个想法,分成5级。为什么呢?因为这是客户容易接受的,在金融行业里面不也是有五级吗,因此,这里借鉴一下。于是,问题便演变成为如何将0到1之间的浮点数划分阈值,区分成可以解释的,比较清晰的五个等级。
级别从A到E,信用逐步降低,分值从0到1,逐步提升。当然,有个明显的前提,信用好的是占据了大多数,只有少数害群之马是被认为信用差的。因此,我想,他们应当被冠以E级,或者D级。中间不好不坏的,当然就是C级。那么,D、E级大概占多少比例呢?5%应该可以接受。
于是,对信用模型打分结果首先进行等分分值的频次观察。将分值分成每0.01一个段,观察人数。结果发现,前两个段,0.01和0.02占据了80%,真是不好意思,怎么正好跟二八原则挂上构呢。于是,初步决定将这两个段分别作为A和B级的分值。接着还有20%,如果按照前5%作为D、E级,那么中间着15%的人,当然就算作C级。
凭什么就是5%呢?要知道,这仅仅是之前的猜测。于是,在对人数进行等分观察分值的变化,将所有客户按信用评分排序,均分成100组,每组的客户数量大致相同。发现,分值在一直到96组之前,都是平平坦坦,平稳增长,但是到了96组的时候,不得了,有个明显的观点,从0.049左右,猛增到0.4,然后增加到0.7,再到1。OK,找到了,就是在0.05这道槛。它就是区分C和D级的界限。和当初的设想很接近,信用最差的两个等级占了4%。
在做完这次分级之后,试图总结两点:
1、通过等分数值的频次分布来,结合二八原则,决定主要(频次多)的级别;
2、通过等分人数的数值分布,观察显著变化的点,决定边缘级别(频次少)的级别;
剩下的就是其他级别。当然,也可能就上面这两个已经重叠了,例如发生显著变化的分值,在60%的客户就开始了。这样,我想可以选一个策略,要不以二八原则优先,要不以分值变化拐点为优先。这根本不重要,重要的是如何让级别的划分看起来像那么回事,确实不是乱盖的。
不知道总结的这两点适用范围多广,但应该能够适用大多数情况,这也就够了。
为什么会与二八原则挂上钩呢?庆兄或许重新看看数据,看看是不是本来目标值(0和1)的分布就是大概20/80呢?
为什么要划分五个等级呢?从信用评估的角度上看,决策的结果有两种,给和不给。如果单纯以模型预测的值来做决策的话,两个等级就够了。如果以模型+决策
树的方法的话则或许有必要多划分几个等级。
为什么要给最后的4%再分两个等级呢?分完之后能够在D和E之间找出显著的区别并据此加入不同的决策规则吗?最终能被应用上这些规则并有不同的决策结果
的(潜在)客户有多少呢?相同的问题也可以问在等级A B C 上。
供探讨。
On 6月12日, 下午2时42分, Qing <happys...@gmail.com> wrote:
> 将连续的数值离散化成为分级,这是经常会遇到的一个分析动作。因为连续的数值不太容易让人理解,能够掰着指头数出来的级别数则容易让人懂一些。比如在做OLAP的时候,想看看不同消费水平的人数量几何。这里的消费水平,便是将连续的数值离散化了。原来是1到2000,皆有可能的取值,甚至还有小数,变成10个以内的级别,如50块以下一段,50-200一段,200-500一段...如此。显然,这种离散的段将成为一个维度,可以从这个角度观察其他度量。
>
> 关于如何将连续的值分成离散的段,没见着有什么约定俗成的方式。
>
> 有人喜欢从数学角度,似乎确实有人在研究如何从一串数值里面切成几段的。不过很多让人能够接受的分段,是业务上容易理解的。这种分段都可以凭经验划分。例如对于月消费,50块钱一段应该没有问题,如果是月收入呢,可以用500块钱分成一段,考虑到在3000以内人数众多,可以一直用这个数来分,到了3000以上,人数上了,便可以用1000块钱作为一段。
>
> 这都是凭感觉,那么有没有可以量化的东西呢,我想应该有所依据。比如上面的例子里面,虽然是凭经验,但已经结合了一个考虑,大概在3000的时候,人数的分布有个讲究。比如,80%的人在3000以下--用到了二八原则。
"如果不接受,就劝服接受",猛烈核子爆炸寒一个。
On 6月13日, 下午2时34分, Qing <happys...@gmail.com> wrote:
> 这个问题切中要害,我试着回答一下。
>
> 这个模型并非用于信用卡或贷款是否发放,是在电信行业用的,用以决策话费透支的额度。如果深入探讨这个问题,很有意思。究竟该不该用一个信用度或者信用等级来决 定透支额度?我现在不敢说,但使用信用等级来决定这个额度显然是比较简洁明了的。A级可以透支1000,E级不允许透支。。。
>
> 至于为什么要分成5个等级,为什么跟二八原则挂上勾,主要是处于让这个等级划分容易理解。但又不单是,如果说理解,当然就是信用好、差两个等级最明白了。但仅仅 两个等级又太少,不够细化。要作出这个选择,必然在1-9之间选择,甚至是1-7之间,因为人最容易一下子接受的就是不超过7、9个概念。另外,结合业务上的策 略操作,五是一个适中的数字。想想,如果对七中不同类型客户制定差异策略,还是多了些。而使用二八原则,个人认为是划分等级的理想原则,等级一般都是金字塔型的 ,头小屁股大,大多数都是属于基础的等级,少数派占据顶尖的等级。
>
> 那为什么是5种,而不是4种呢?为什么要给最后的4%再分成两个等级?当初步看了Somebody的提问,我想,可能是没什么必要,确实,从策略上,对于这4% 的客户不会又太大的差异。
>
> 也许就是个人喜好吧,一开始选择了5这个数字,因为他是奇数,有中间值保持对称,符合中庸之道。
>
> 如果客户能够接受5级的评定,就没有问题,如果不接受,就劝服接受。大家应该不会在是5级合理还是4级合理的问题上纠缠。
>
> On 6/13/07, Mr.Somebody <Mr.Someb...@gmail.com> wrote:
>
>
>
>
>
> > 庆兄没有在文章里面说信用评估应用在哪里,我假设一下是为了信用卡或者是贷款的发放决策(0,1),而不是信用或者是贷款的额度决策。- 隐藏被引用文字 -
>
> - 显示引用的文字 -
用"用户是否欠费"来作为目标变量建立模型,预测的自然是用户会否欠费。
用"用户是否欠费且不还"来作为目标变量建立模型,预测的就是用户会否欠费且不还。
模型的结果和目标的定义是应该一致的。同时,在定义目标是还应该加上时限。因为预测的目标应该是用户在未来一段时间(N天、N个月还是N年)内会否欠
费,而不是简单的yes 和no。
当然,用户会否欠费与用户信用是肯定相关的,但是是如何相关呢?正比线性还是其他非线性关系?这个问题用目前这个模型是不能够回答的。所以,以用户是否
欠费来作为目标变量建立的模型是不足以用来衡量用户信用的。
要解决透支额度的问题,最好还是借鉴一下金融行业信用评估的方法。
On 6月13日, 下午2时34分, Qing <happys...@gmail.com> wrote:
> 这个问题切中要害,我试着回答一下。
>
> 这个模型并非用于信用卡或贷款是否发放,是在电信行业用的,用以决策话费透支的额度。如果深入探讨这个问题,很有意思。究竟该不该用一个信用度或者信用等级来决定透支额度?我现在不敢说,但使用信用等级来决定这个额度显然是比较简洁明了的。A级可以透支1000,E级不允许透支。。。
>
> 至于为什么要分成5个等级,为什么跟二八原则挂上勾,主要是处于让这个等级划分容易理解。但又不单是,如果说理解,当然就是信用好、差两个等级最明白了。但仅仅两个等级又太少,不够细化。要作出这个选择,必然在1-9之间选择,甚至是1-7之间,因为人最容易一下子接受的就是不超过7、9个概念。另外,结合业务上的策略操作,五是一个适中的数字。想想,如果对七中不同类型客户制定差异策略,还是多了些。而使用二八原则,个人认为是划分等级的理想原则,等级一般都是金字塔型的,头小屁股大,大多数都是属于基础的等级,少数派占据顶尖的等级。
>
> 那为什么是5种,而不是4种呢?为什么要给最后的4%再分成两个等级?当初步看了Somebody的提问,我想,可能是没什么必要,确实,从策略上,对于这4%的客户不会又太大的差异。
>
> 也许就是个人喜好吧,一开始选择了5这个数字,因为他是奇数,有中间值保持对称,符合中庸之道。
>
> 如果客户能够接受5级的评定,就没有问题,如果不接受,就劝服接受。大家应该不会在是5级合理还是4级合理的问题上纠缠。
>
...所以,以用户是否欠费来作为目标变量建立的模型是不足以用来衡量用户信用的。
关于评分结果可以用二八原则来解释,Qing兄的解释很合常理。但是我还有另外一种猜测,那就是因为建模时使用的数据本身就是服从二八原则的。能请Qing兄验证一下么?
。。。不知这个模型的等级划分,最终如何在实际中去应用。
On 18 Jun, 06:53, Qing <happys...@gmail.com> wrote:
> 上面提到了,虽然这叫作信用度模型,但其实是预测客户欠费的可能性。本身,欠费问题在国内的电信行业已经不太显著,很多都变成预付费,欠费就停你机。除了几个大城市还存在很多后付费的客户,他们更关注欠费问题吧。
>
> 也许,运营商是期望构建一个能够预期客户"信用"好坏的模型,这种好坏得是相对的。比如,你给他1万块透支,他岿然不动,你给他10万透支,他心动了,于是用完就跑了。但也有人,给10万不动心,给100万才动心。如此,这被100万打动的就比那10万的信用好。可惜,我们的模型无法预测这个,只能通过客户历史行为来分析。可是大多数客户根本就没有机会展示其信用好坏的机会,你说咋整。
>
> 所以说,如今我们的模型只能拿哪些被预测出来信用不好的客户(D/E级,4%左右)来说事。
>
> 欠费问题应该不光是避免欠费导致的坏账,应当是提高客户服务和降低欠费欺诈的平衡。如果给你足够的透支额度,你会感到收到信任,满意度提高,而且因为没有余额的限制,你的消费也是不知不觉涨了上去。这就看这个度怎么把握了,这是个策略问题。如果能仿真一下,给足够多的客户予以宽松的透支额度,然后观察收入增长和欠费率,如果收入增长远大于欠费坏账,自然可以给予客户更大的消费空间。
>