关于“啤酒与尿布”(BI)的潜意识分析
“啤酒与尿布”这个案例耐人寻味。它是数据挖掘的经典之作,可以说正是它建立了很多人对BI的最初信心。可在网上一查,关于它也有许多版本。本论
坛也多次议论过这个题目,正如朋友们指出的,BI与心理分析其实有异曲同工之妙,这里就“煮豆燃豆萁”吧,或许有一天,BI也会应用到心理分析上。
潜意识之一:复杂算法能得到更多的结果。
BI提供了许多算法工具,在数学上足够复杂巧妙,令人眼花缭乱。正所谓“今日长缨在手”,必定缚住苍龙。啤酒与尿布的联系不可直观,正是靠大规
模复杂计算才得到。
这其实是一种数学迷信,推而广之是技术迷信。比如永动机的制造就属于这种思维:只要机械设计足够巧妙复杂,就可以超越功能守衡原理。天气预报行
业也有过类似的思考:我们可以预测三天之内的天气,为什么不能通过复杂精密的运算,预测出全年的天气预报呢?反思的结果,他们提出了信息守衡定律的假
设:在初始信息一定的情况下,信息不可能仅仅通过增加计算的复杂性得到更多的信息,所以只能算出三天之内的预报了。
潜意识之二:算出来的结果比直观的更可靠。
数理逻辑大师哥德尔传记有这样一个情节:哥德尔证出了著名的“不完全定理”,可证明过程太技巧化了,让他放心不下。难道这么必然的真理依赖于一
个偶然的技巧?直到后来图灵(图灵奖是计算机界的最高奖?)用最笨的方法从另一途径也证明这个结论,哥德尔才真正放心下来。
真理是朴素直观的。在二维世界像迷宫一样巧妙的东西,比如从啤酒到尿布好象风马牛不相及,其实我们在三维世界就可以直观到,比如知道了球赛或者
周末这个特定的语境。
潜意识之三:无意得到结果更漂亮。
数据挖掘与聚类分析的一个区别就在于:前者为无意,后者为有意。并不是我们主动去对啤酒与尿布这两个变量做关联分析,而是无意中(通过计算工具
自动)发现了它们存在的关联性,正所谓“无心插柳柳成荫”。从无意得到有意义的结果,这是非常高的境界。我的拙作《表达的探究》有一章“无意之意”,就
是探讨这一问题的。(详细信息可参见表达的探究网页:
yushan58.bokee.com)
在那里问了一个尖锐的问题:人是一切意义产生的源泉吗?原以为这等玄论只在文学评论、心理分析、佛学禅学等领域才涉及,没想到居然在BI工程中
也碰到了。
为什么要无意得到呢?这样才妙不可言呀。但是它成功的几率有多少呢?一个不太好的比喻:数学史上有多少关键(有意义)的数学定理是纯粹通过自动
推理方式得到的呢?这也是数学机械证明的局限之处吧。
今天的数据采集实在是太容易了,甚至有些泛滥了。记得十多年前搞自动化仪表监测,那时候仪表价格很贵,企业买一个不容易,自然不会提出无意识得
到信息的要求。而是要充分研究整个工艺过程,设置一个最能反映问题又最便于测量的点来采集信息。现在的MIS、ERP、BI等功能与仪表测量有类似之
处,却没有达到计量科学的理论水平。我们应该深刻认识(是有意的)被测对象,精心筹划(当然也是有意的)测量点,并且选择适合的语言来表达,才能以少胜
多,系统地表达出对象来。就目前水平而言,似乎更应该强调有意为之。
潜意识之四:信息就在数据中,可以像花生榨油那样挖掘出来。
从数据到信息,从信息到知识,它们可以通过“去伪存真,去粗取精”分析得到的。
这个潜意识是关于BI的,但它却是最大的迷雾。如果这一条真的成立,就等于说所有的信息意义都是内在于事物的属性之中。可是问题恰恰在于:信息
的提取并不仅仅是内在属性的。比如企业那么多的事务性数据,如何能把它与企业战略的目标联系起来呢?这决不仅仅是从事务数据本身可以挖掘出来的。从数据
到信义框架才能完成,正是这个框架引入了解释信息,实现了对事务性数据新的排序。这里所谓的“先在的语义框架”就是不可能从事务数据得到的语义信息。这
也是为什么算法工具有其限度的原因之一,因为它基本上是在原有语义框架下的量的计算,而意义分析的突破恰恰要求在新的语义框架下才能完成。
王婆卖瓜再提一句,《表达的探究》一书给出了几种典型的排序模型,为意义分析建立了一般的数学模型,也是有点意思的部分。
潜意识之五:什么都可以计算(挖掘)出来。
从上面分析可知,计算(挖掘)不是万能的,的确有不可计算的情况。计算止步的地方,并不就是无所作为的。它却能让我们更深刻地理解观测,理解统
计学的真正含义,理解引入语义框架的重要作用。也许如能量守衡一样,信息也不会凭空产生,我们必须通过直观(测量)和建立排序解释框架来引入信息,这样
才能进行有效的意义分析和数据挖掘。如果把引入解释框架视为计算的一部分,那么计算就成为无所不能的了,意义也就是可以“无中生有”。而一但如此,它的
科学性就值得怀疑了,这正是我们所矛盾和不甘心的地方。