数据质量评估模型--一起来探讨探讨哦

128 views
Skip to first unread message

严国友

unread,
Oct 26, 2009, 6:12:22 AM10/26/09
to ttnn
仓库构建历程,数据质量问题一直就是陪客。
 
如:
业务人员a:这个报表和生产系统的不一致呀,仓库数据有问题!--(早先)
集团下发检查:一经上报的接口数据统计的指标,和mis日报、集团定报的指标出入较大(一经、mis日报、集团定报是省级给集团上传的数据,但分属不同部门管辖)--(近期)
数据分析人员:为了建模,清洗数据(尤其是一些明显不符合的异常特征数据)工作量很大--(近期)
业务人员:都是你们经分出的数据,日kpi的订购用户合计是100万,月报表却是120万。--(当前)
...
 
 
模型目标:
建立数据质量的度量标准,并给出数据质量“健康”状况指示
 
欢迎大家讨论:
1)从哪些方面构建度量体系呢? 就是质量体系的一个个的指标值、维度值
2)如何确定一个综合值就是“健康”?
    周期性的给出整体质量的值,和健康标准对比,给出指示:健康程度
3)最好,模型还能够应用多维分析的思想,给出质量的几个层面或几个方面的分析结果,给出质量提升的建议。
 
 
----
收集了些资料:
如:质量评估要分层、分级别
分层:将数据分成对象层(ods/接口等)、仓库层(dw)、应用层(报表、kpi等、专题分析结果)
分级别:
Catch4.jpg
Catch3.jpg

土包子

unread,
Oct 26, 2009, 8:51:18 PM10/26/09
to ttnn BI 观点
个人认为
一个是强化过程管理,这点在ETL工具中基本上都具备了,那些数据通过了,哪些数据有问题
一个是数据仓库本身ETL特性的缺陷,只能进行增量数据的更新,导致部分数据的丢失或冗余(丢失和冗余均可能出现)
再一个是从业务逻辑问题,即源数据本身的数据质量问题,导致很多关键值的缺失。

xichen...@gmail.com

unread,
Oct 26, 2009, 11:01:14 PM10/26/09
to tt...@googlegroups.com
你的问题太大了,还没什么头绪,模型就出来了,很学术化。我觉得主要还是在建设数据仓库之前,对源数据做深入的数据调查,专业名词就是数据剖析。只有对源数据有了深入的了解,对于源数据无论是从技术角度还是从业务角度对其数据质量有了深入认识,对于数据的准确性,一致性,即时性和完整性等等做到心中有数,后面的工作才有了坚实基础。但是在目前很多项目没有做到这一点,即时有心要做,也不是一件容易的事情。

2009/10/27 土包子 <baoqia...@hotmail.com>

土包子

unread,
Oct 26, 2009, 11:29:50 PM10/26/09
to ttnn BI 观点
呵呵,我曾经为了第二个问题,分析了几个月,当然模型本身很难建立的,只能是就事论事的;往往数据分歧就出现在这个增量上

Q

unread,
Oct 27, 2009, 12:07:40 AM10/27/09
to tt...@googlegroups.com
再重提一下以前dqfw的设想,看有无帮助——《数据质量指标》,更多内容,还有

研究数据质量要趁热打铁,正好有这个机会,可以继续深入思考一下。目前已经建立到度量统计的方法,可后面质量分级却是麻烦事,先从质量指标入手。
 
用V表示度量值,M表示度量,T表示度量时期,D表示ETL过程中的数据集。一个具体值Vm通过度量、度量时期和它所在数据集决定。理论上,一组不同数据集的Vm是相等的,除了记录数这样没有严格业务含义的度量。这样,就应该有个指标表示这种"不同数据集Vm的误差",叫"同期误差率"。而对于类似记录数这样的度量,不同数据集的Vm一般都是不同的,但是数据集记录数之间的比率遵循一定的比率,如果波动比较明显,那么数据是可疑的,可以使用"同期波动率"来表示这种表象。而同一个数据集的度量,在不同度量时期,它的变化范围应该在一定范围之内,管这个叫"历史波动率"。然而,我不能确定,如果确定同期误差率过大以后,是否还有必要理会同期波动率(不管是否波动,都表明数据质量不合格)。这也就隐含着,波动率是对误差率更进一步的验证方法。
上面这三种指标都是"数值波动"的质量表象,曾经还提到一种"违背逻辑"的表象,它是指度量值之间满足一种运算逻辑,例如俩度量值相加之和大于等于另一度量值。这叫什么?"逻辑误差率",=逻辑验证成功次数/总逻辑验证次数×100%。这项指标反映了数据必须要遵循的业务逻辑,如果不符,可能是ETL处理的原因,也可能是数据源接口的原因,结合同期误差率、波动率等指标进一步定位原因。

第三种表象是"偏离标准",所谓标准是各方认定的权威统计值,它也是某种度量,其值由度量名称和度量时期决定。标准量通过从数据源中统计或者手工输入产生,一般情况下,要对接口和最终的数据集市进行标准量稽核,产生"标准量误差率",这个指标真实反映数据源和目标数据的误差,对数据质量分级的影响系数较大。

除了上面的这些指标,还需要考虑数据拒绝情况,考虑接口完整情况。如果数据在进入ods(在etl流程之初被拒绝和流程靠后时被拒绝显然对质量分级有不同程度的影响,为简单考虑,统一看待)时就被拒绝一大部分,就没有必要对随后的数据进行稽核,必定质量不合格,甚至ETL就终止了。咦,这也是啊,很多情况下ETL是会异常终止的。当然,假设正常完成流程后,上面的五项指标倒是可以用上。那么对于ETL终止的情况,就可以直接为数据质量打上不合格标签。

这就引入一个"记录拒绝率",因为转换或某种原因不能将数据装载入目标数据的,该指标=拒绝记录数/总记录数×100%。数据被拒绝当然不是"质量表象"的范畴,那么它应该属于什么?突然发现它是一个孤零零的概念。拒绝记录是在ETL程序控制范围内的行为,还存在一种不在控制范围内的记录丢弃,使用"记录丢弃率"来衡量。

关于接口数据,这部分应当属于数据剖析(data profiling)的范畴,要对质量分级显然也需要考虑它的因素。对其数据内容,每条记录的合法性进行校验。检验诸如主键重复、外键参照缺失、非法空值、非法值、逻辑错误等。需要通过一个"记录合法率"来衡量这种非法记录的多少,该指标=合法记录/总记录数×100%。它反映了接口数据在规格上的合法性,但不能反映其数据的准确性,这需要通过标准量误差率来衡量。
 
这样,就出来了八项指标——同期误差、同期波动、历史误差、逻辑误差、标准误差、记录拒绝、记录丢弃和记录合法这八个率。



2009/10/26 严国友 <ya...@asiainfo.com>

xichen...@gmail.com

unread,
Oct 27, 2009, 3:06:08 AM10/27/09
to tt...@googlegroups.com
可不可以分享一下你关于数据增量的研究成果?

2009/10/27 土包子 <baoqia...@hotmail.com>

Solo Zhu

unread,
Oct 29, 2009, 2:08:00 AM10/29/09
to ttnn BI 观点
关于数据质量的问题我最近也研究了几个月,我来谈谈我自己的体会吧
首先出现报表数据在不同版本出现较大的问题这是很多原因,不管谁先谁后我们假设有两张报表,A和B,A和B报表上出现的总销售额不一样,由一下几种情

1: 销售额的统计范围不一,如时间,区域或者产品
2: 定义不一致,比如是否扣税,汇率,结算方式(如应付款和收货款),或者财务的款项统计,常见的有自然年月日的统计和财务计算年月的统计
3:数据的维度统计不一致,如订单的状态,是否有取消的,是否计算冲账的
4:数据来源不一致,如从市场部门获得的数据源和交易系统获得的数据源。
5:各地区对于统计数据本身的定义就不明确,比如销售额的销售调整部分,是否也应计入销售额,或者将此类划入日常开销成本中。

以上我要说的就是
<H1>数据的业务定义是数据质量评估的第一步</H1>

关于数据的质量部分,不同的标准,评估的结果也不一样,数据有四大特性,准确性,一致性,完整性和及时性

至于很多朋友说还有可靠性,有效性,等等,我想都可以算作是准确性的一部分

准确性表现为能正确的反应事实

不言而喻,四大特性的优先级是准确性,一致性,完整性以及及时性
准确性首先需要标准,就想法律和打官司一样,标准的界定是一个主要的环节,我们可以用When,Where,Who,which来清楚的界定,这样我们
统计的时候就有依据,如果都安装这样的范围来统计,就是做100张报表,对于总数的统计也不会有问题

一致性的表现其实就是对数据在不同阶段,不同时间,不同部门和区域的定义是否一致,举一个简单的例子,对于客户的性别,有的用男&女,有的用1&0,又
有的F&M,但是突然出现空,2,D,P等等,这能说数据不准确吗,这只能算作是数据不够一致,我们整合起来也不是太复杂,映射清楚就可以了,而没有约
束,出现额外值的情况,能改我们就改,不能改的,我们可以讲数据的意外值分为意外值和空值两种,意外值表示填错了,空值表示没有填

完整性是对企业数据实体的完整说明,比如客户的附带属性是性别,姓名,年龄,地址,规模,平均年消费次数等等等,这同样可以用数据统计的方法说明数据是
否完整。

及时性及不言而喻了

对此我的意思是做数据评估,如果数据的准确性不能i达到要求,数据质量就直接不合格,数据的准确性的判断和修正时最不需要技术含量的,相对而言。
对于完整性和一致性,可以讲实体的不同附属信息设置为不同的指标,并且按照应用频率设置权重

最常用和权威的方式可以使用6Sigma的方法做评估

我将设置另外一个议题来讨论,希望大家发言

> 分级别:
>
> Catch4.jpg
> 91K查看下载
>
> Catch3.jpg
> 72K查看下载

Reply all
Reply to author
Forward
0 new messages