数据质量之矫正引擎

Solo Zhu

unread,

Jul 8, 2008, 10:43:47 PM7/8/08

to ttnn BI 观点

我们经常会遇到这样的情况：客户希望我们实施DW/BI，等我们调研完了之后发现问题如下
1：全部有8个国家（A1,A2,A3,A4,A5A,A6,A7,A8），有5中系统(S1,S2,S3,S4,S5)，每个国家的每种系统不完全一
样。
2：系统是按照业务来划分的，只有销售体系和财务体系是每个地区都可以提供一些基本数据的。而销售和财务数据，每个地方都存在一些差异，这些差异又是允
许存在的，而且是一定存在的。
3：未来2-4年内，可能所有地区和系统都会整合进入DW中。
4：企业没有将地区业务系统统一的计划
5：现在迫切需要上销售模块的BI，而韩国需要上HR方面的BI，日本需要上供应链方面的，中国需要HR,供应链还有客户分析等等
6：企业内部，不同国家的同一系统，比如所有国家的销售系统，他们的计算方式或者说处理逻辑不一样，而且对于DWBI而且的维度数据，也不净相同，比如
同一产品的描述，或者产品的内型等等
7：很多源系统都是采用的EXCEL的形式或者access的形式。

我们遇到这样的问题，首先是数据如何保证质量，然后是如果以后分部分批的上线DW，该如何操作。
按照我们以前的方式，构架如下

各地区的源系统 -- 统一的ODS ---- 统一的DW  统一的BI操作

这样的构架，我们对于源系统不规则或者差异很大的情况，就显得比较麻烦，首先我们在整合维度数据的时候是要在ODS中的，但是如果系统逐步的改善和上线
的话，这样的操作就显得很麻烦和笨拙

如果我们在source data和ODS间建立一个矫正引擎针对不同数据源的mapping的table和view的话，问题就比较简单了

1：首先我们可以通过这个mapping来维护source的数据和DW中的数据的一致性，同时加强数据的修正机制，讲从source过来的数据，通过
这个矫正引擎来清洗和补充数据。这样一来，将来我们在source做了很大的改动的时候，我们只是需要在矫正引擎上做一点点修改，或者改变一下
mapping的关系。
2：其次我们可以统一数据规则，比如对于订单号的一些处理，每个国家都不一样，我们可以再加一下标记，比如，在中国的订单号前加CN, 防止发生数据重
复
3：在这个矫正引擎上做一些针对source的业务逻辑不一样的进行计算，使得在数据上看到的逻辑关系是一致的，如果实在没有办法统一，可以在相应表中
加上type字段，加以区分，这样方便以后进行统一的处理。

在这个数据矫正引擎上，尽量用试图，少用数据存储。

本文在本人blog ：http://bidwhome.itpub.net/进行同步更新

关注BI，关注企业未来。

Solo Zhu

unread,

Jul 10, 2008, 2:29:24 AM7/10/08

to ttnn BI 观点

没人来关注一下数据质量控制的吗

其实不管是数据本身的质量还是业务使用质量，我觉得都有必要讨论一下，这个是和企业系统现状和业务模式有很大的关系。

Qing

unread,

Jul 10, 2008, 4:52:04 AM7/10/08

to tt...@googlegroups.com

你说的这个问题不应当属于数据质量范畴，而是数据整合范畴吧。

2008/7/10 Solo Zhu <solo...@gmail.com>:

没人来关注一下数据质量控制的吗
....

Solo Zhu

unread,

Jul 10, 2008, 9:30:07 AM7/10/08

to ttnn BI 观点

呵呵，其实我的题目是矫正引擎，数据的矫正，其实数据质量管理中的实施过程，数据的矫正其实是很重要的一个环节，而这一步也和ETL的清洗、整合是相辅
相成的

On Jul 10, 4:52 pm, Qing <happys...@gmail.com> wrote:
> 你说的这个问题不应当属于数据质量范畴，而是数据整合范畴吧。
>

> 2008/7/10 Solo Zhu <solof...@gmail.com>:
>
>
>
> > 没人来关注一下数据质量控制的吗
> > ....- Hide quoted text -
>
> - Show quoted text -

Reply all

Reply to author

Forward