bi是什么?我的理解!

3 views
Skip to first unread message

ewen321

unread,
Nov 13, 2005, 11:50:55 PM11/13/05
to tt...@googlegroups.com


bi是啥?
一提到bi(数据仓库)的概念(虽然不是一码事,但我们在现实中很多时候还是把他俩当作一回事在提),很多人都愿以b.Immon的定义做开场白,这也难怪,恐怕我们从接触这玩意开始,看到的第一本比较系统的书就是这本了!我记得三四年前,我去一家公司面试,面试官开场便问我这个问题(当然他是问数据仓库),当时我有些懵了,其实这本书我早看过,也安放在床头,有事无事翻翻。但有人突然让你给出个明确答案来,还不是很容易说的很清楚。
那bi到底是个啥玩意呢?好吧,我们不偷换概念,先说数据仓库是个啥玩意吧!
数据仓库首先是个数据库,这没错吧!因为它容量大,所以我们叫他“仓库”。还有一层意思:仓库中的东西就是因为其多,所以要码放整齐,该放哪的就放哪,最好还有一个清单记录一下,以方便你使用时查找。所以我给数据仓库下的定义就是:存放整齐数据的有清单索引的数据库。也就是说,它是有三部分组成的:数据库(dbms)、数据(data)、索引(index)。前两项都不难理解,第三项“索引”我们更常把它叫做“元数据”。有了这三样宝贝,就成就了我们“前景广阔”的数据仓库。
可是,在现实的工程项目建设中,我们往往把注意力放在前面两个部分的构架上,而对于元数据部分不太重视,或者说根本就当作是聋子的耳朵。但恰恰是这个聋子的耳朵,在工程中成了制约我们系统推广应用的一个绊脚石。且不说对使用者,面对庞大的仓库不知如何下手,我敢说在开发人员中,能对系统数据100%的了解的也不多,更多的情况是:你现在要查某个数据,却不知从哪里查,于是问问这个,问问那个,然后自己再select * from XXXX表看一下到底有没有我们需要的字段。反映到使用者的现实情况是,这么多报表、cube、kpi、专题等等东西,到底我要的数据在哪里?晕!心里早早打退堂鼓,哪里还有兴趣搞什么分析。到最后开发人员说我们花了大力气做的东西没人用,使用者说我们不知如何用。究其原因还是缺少对系统数据给出索引的元数据管理。有了元数据,我们再基于它做一个界面友好的查询工具——不知道大家用过go2map没有,输入起点和终点,系统会给出几条备选的行车路线,对,我说的查询工具就是这个玩意——啊,这个世界清晰了。
bi呢,是基于数据仓库的统计分析系统。
为啥非要是以数据仓库为基础呢?很简单,因为数据仓库够大、够清楚、够全面,对统计分析需要的数据源支持的够好!
统计、分析,没错,两个方面。一说bi,大家都爱往分析上靠,觉得这样比较高深,同时分析需要的中间结果往往没有一个可参照的标准结果,因此常常看不出有何不妥。一说到统计,完了,不就是报表吗(因为bi系统后建的缘故,很多原来的业务系统有的报表还要在bi系统中再集中做一遍),还要对数据,——人世间最痛苦的事莫过于此——真是头疼呀。头疼也没办法,我个人认为很长一段时间内,统计还是bi的重点,象有些人说的这和业务习惯呀、人员水平呀都是分不开的。那是不是需要数据都精准到和业务系统报表一样呢,这里争议很多,大多数的观点是允许有误差,说白了就是允许有差错,只要维持在小范围(这个范围就看你怎么和甲方交涉了)内,都是可以接受的。虽然我很不情愿,但还是要说,这种差别不应该存在,在条件、规则一致的情况下,bi系统的统计结果是要和业务系统的无二样的(只有一种可以例外,那就是“时点数”的情况)。说什么经过数据清洗、转换难免不准,这些都是托词,不管数据在系统内经过的步骤有多少,最终结果的不一致说明你在中间的某个环节出了问题。同时bi系统还有一个很神圣的使命,规范统计口径,保证系统里的两个地方出现的结果都正确统一。而现实中,恰恰是上面两个问题成了bi的致命伤:数据不准、结果不统一,这种情况导致的后果就是使用者对系统的准确性抱怀疑态度而远之。
说到分析,我想还是需要给他再划个范围:我所说的分析是以事实为依据的决策辅助分析,而不是直接呈现分析结果的决策过程。大家都喜欢拿啤酒和尿布来做经典案例,这总给人一种误区,似乎bi就是算命先生,预知未来,能取代人的思维,直接给你答案。其实不用我解释大家都知道这是不可能的。

说了这么多,bi其实就是:以数据仓库为基础的业务和决策支持系统。
-----------------------------------
写的脑子都晕了,越写越象是在上课,吼吼!









想 要 一 个 快 n 倍 的 免 费 邮 箱 吗 ?
126 专 业 电 子 邮 局 —— 全 球 领 先 的 中 文 邮 箱 带 你 进 入 极 速 之 旅

goldenfish3

unread,
Nov 14, 2005, 1:54:07 AM11/14/05
to tt...@googlegroups.com

我认为BI比数据仓库的范围要广一些,或者说角度不同。BI是数据仓库,数据挖掘,统计分析等等

手段的综合,是目的为导向的。数据仓库是基础设施,OLAP,数据挖掘,专业模型应用(如CRM中

的客户细分,金融行业的现金流分析等)等是基于仓库的应用。

bolow

unread,
Nov 14, 2005, 6:13:20 AM11/14/05
to tt...@googlegroups.com
数据仓库是实现bi的手段或者说是技术
个人认为不能等同

fox

unread,
Nov 16, 2005, 12:02:00 AM11/16/05
to 头头脑脑(92成员)

bolow wrote:
> 数据仓库是实现bi的手段或者说是技术
> 个人认为不能等同
我认为数据仓库是实现BI的基础平台
Reply all
Reply to author
Forward
0 new messages