数据剖析(Data Profiling)

119 views
Skip to first unread message

Liu Qing

unread,
Jun 20, 2005, 6:35:21 AM6/20/05
to tt...@googlegroups.com

在上周正在写数据质量体系的时候,就有朋友指出Data Profiling和数据质量的联系。但凡提到数据质量,似乎总会涉及到data profiling。kimball的38个ETL子系统中,其中就包含了这个Data Profiling子系统。不过没有发现有对应的中文名称,这里俺给他起了个名字--"数据剖析"。 这里有一篇关于数据质量和数据剖析的定义。

数据剖析的功能已经有一些工具专门支持了,例如informatica的Powercenter就包含此插件,另外DataFlux Trillium等公司的产品都有类似的功能。在前面提到的数据质量框架(DQFW)中,并没有太多提及它的功能,因为DQFW主要关注的是过程质量,对于数据源的质量,使用数据剖析工具来检验是个不错的选择。它能够对数据进行字段属性分析、结构分析、外键、主键、数据逻辑分析,可以将它看作是一种数据结构质量保证手段 ,以区别DQFW的数据过程质量。
 
在以往项目中,真正作数据剖析的很少,一般只是在从数据源到ODS的过程中,进行代码转换是,如果检测到数据非法,但这也仅仅能够对字段级的数据错误,诸如空值、外键不一致、字段值非法等,对于主键重复、数据包含的业务逻辑等缺少手段。而且即便对于定位出这些数据错误,也没有明确的纠正方法,要不不处理,要不拒绝整条记录。这是融在ETL过程的,而数据剖析的提出,是将对数据的分析当作一个比较独立的模块,相信从趋势看,数据质量保证将基于一个整体的架构进行的。例如DataFlux,他们作为提供数据管理产品的专业公司,他们从分析、提高和控制数据质量三个方面,将数据管理分成profiling、quality、integration、enrichment和monitoring五个步骤。
 
DataFlux Methodology
Reply all
Reply to author
Forward
0 new messages