如何向客户证明你的聚类结果?

1 view
Skip to first unread message

笨笨

unread,
Oct 31, 2008, 1:57:42 AM10/31/08
to ttnn BI 观点
前些日子做了个聚类的POC。一切都很顺利,客户方的业务专家很配合,给了很多提示。选取若干重要指标之后,做了相应数据处理,采用K-
Means,生成了8个类别。应该说,结果还是十分理想,各个类别各有特色,可以对每个类别取出十分有趣的名字。对方的技术总监看了之后同样十分满意,
甚至结合自身的业务规律产生了很多联想。
总监一高兴,把他的大老板也叫了过来。BOSS无意中问了个问题,虽然后来打哈哈过了,但我事后一想有些启发,想和大家分享一下:
BOSS问道:你怎么来证明你的这些类别的名字是正确的呢?
按照常理,相信大部分DMer会回答,通过这些指标在各个类别中的分布状况得出来的结果。是啊,的确,类别名字的出处肯定是这些指标。但问题
是,这些名字只是你的推测而已。这也就回到了标题“如何向客户证明你的聚类结果?” 起先,我想用“结论”这个词,但细细品味BOSS的问题,又改成
了“结果”。因为,我们为每个类别取的名字都只是我们的推测而已。
那么,问题就来了,你如何向你的客户证明你的推测是正确的呢?我想很多人,会说“进一步地针对这些类别做一些统计”,可能是人口统计学数据,也
可能是行为数据。但问题是,如果没有这些数据呢?即使有,你能保证数据的准确性么?试想:银行的客户数据都不可全信(例如,客户的收入状况),那还有什
么数据是可信的呢?
我并不否认用统计的方法来证明聚类结果,但我相信这肯定不是唯一的证明方法,也未必是最好的方法,请大家多多拍砖~~~

raullew

unread,
Oct 31, 2008, 2:15:07 AM10/31/08
to ttnn BI 观点
你要欠费用户,就把欠费用户名单拉出来,你要欺诈用户,就把有欺诈历史的名单拉出来,你要手机消费者,就把买手机的名单拉出来
这就是最科学最有说服力的数据挖掘
虽然很老土,但是它准呀(太tm的准了,你还有更准的方法么),而且它是业务人员唯一能理解和赞同的方法呀----我要的就是这个

shzxqdj

unread,
Oct 31, 2008, 2:18:37 AM10/31/08
to ttnn BI 观点
这是项目实践中最普通的问题,基本上按照各个类别的数据含义取名字是挖掘者自己的一厢情愿, 的确没有什么非常严谨的道理,所以我们现在的具体实践就是
对每一个类别都不取什么名字,直接称呼为第一类,第二类,第三类,等等,但是对每一类的具体特征,根据聚类后的具体指标还是可以用数据详细描述的,这样
客户就挑不出毛病,至于第一类,第二类,第三类,到底是重点市场,还是潜力市场,在业务上不同的人有不同的看法,. 所以,根本没有必要取名字,
名字取得再好,总会有人有不同意见的,让他们自己去看数据就行了,这是最科学严谨的做法,呵呵
On 10月31日, 下午1时57分, 笨笨 <caozhen...@gmail.com> wrote:

笨笨

unread,
Oct 31, 2008, 2:26:05 AM10/31/08
to ttnn BI 观点
如果真有这么简单就好了~
> > 我并不否认用统计的方法来证明聚类结果,但我相信这肯定不是唯一的证明方法,也未必是最好的方法,请大家多多拍砖~~~- 隐藏被引用文字 -
>
> - 显示引用的文字 -

笨笨

unread,
Oct 31, 2008, 2:33:59 AM10/31/08
to ttnn BI 观点
平淡的"第一类、第二类"会将你原本非常有价值的成果贬值,对于营销也没什么好处,我们是在做POC,不是签了合同的项目。
反过来,不去证明你的结果,而把类别定义的工作推给客户,对自己的技术又有什么提高呢?你的聚类结果和竞争对手的聚类结果有什么区别吗?算法都是相同
的。如果是不同厂商的工具,还可能做些比对性能对比,如果是用同一个工具厂商的不同集成商,你的优势何在?单靠销售去做营销么?

Qing

unread,
Oct 31, 2008, 2:39:03 AM10/31/08
to tt...@googlegroups.com
我们也被问到过这个问题,当时是怎么回答来着?也许并没有正面回答。也面临跟你同样的困惑。

但如果是现在,我会坚持不必去证明命名是否合理。

分群的命名毫无疑问是推测出来的,比如"白领"、"时尚"诸如此类。要去证明这个名称是正确的?疯了。这只是一种便于理解的概念描述而已。分群本身是一种粗略的划分,你没有办法去称呼一个具备一堆共有因素的群体。

而另外,分群的目的是为什么?并不是要弄清楚每个客户的身份。分群一般不会分太多,为什么?因为分完以后,得有策略应对。如果分出100个群,那就是100种策略,100种策略肯定是一种愚蠢的策略。

所以,我觉得关键不是命名,而是针对这个群体,你是否有区别性的才是。

2008/10/31 笨笨 <caozh...@gmail.com>
...
   BOSS问道:你怎么来证明你的这些类别的名字是正确的呢?
     ...
Message has been deleted

raullew

unread,
Oct 31, 2008, 4:15:23 AM10/31/08
to ttnn BI 观点
真这么干你就要失业了。。。娃哈哈
> > - 显示引用的文字 -- 隐藏被引用文字 -
>
> - 显示引用的文字 -

XL

unread,
Nov 2, 2008, 1:24:15 PM11/2/08
to ttnn BI 观点
聚类的结果只是机器学习出来的,把统计学上具有相似性的数据归类,至于每一类具有什么样的属性,定性上来说,机器怎么知道,这得要具有行业背景和经验的
marketer或者业务人员来解释它了,其实不是老总的错,老总又不懂什么叫clustering的,又不懂DM的,他以为你叫的名字是有道理的呢。
其实你可以叫A,B,C,D,。。类啊,A类客户行为上和其他类客户行为上有差别,通过socio demo,或者segmentation,digg
深入一点,可能你就能取个比较能描述A类特性的好名字,但是,其实你叫什么名字都没关系呀,只是用来描述罢了。

pink...@gmail.com

unread,
Nov 3, 2008, 4:02:50 AM11/3/08
to ttnn BI 观点
我觉得这样解释比较好:
1. 给不同的类别起名字是一种对数据进行"理性化"、"概化"的行为。是一种主观的行为。而所谓Boss的"证明"是一种验证过程,这种要求"验
证"的过程其实隐含了"客观"的确存在的假设,而这种假设并不切实际,或者说,存在与否都值得怀疑。这点是boss的问题。
2. 给不同的类别起名字既然是一种主观行为,就没有终点,是一种不断修正,不断抛弃重建的过程。你可以和boss说这是我们根据数据特征和业务理解
能够提出的最好模型,欢迎指正云云,呵呵。

其实这个问题就是BI受到质疑的核心问题之一:我们发现的都是我们已经知道的,不能发现战略的重大的新的东西。类似于计算机能发现真正有创造性的数学定
理么?呵呵,值得怀疑。




On 10月31日, 下午1时57分, 笨笨 <caozhen...@gmail.com> wrote:
Reply all
Reply to author
Forward
0 new messages