

研究数据质量要趁热打铁,正好有这个机会,可以继续深入思考一下。目前已经建立到度量统计的方法,可后面质量分级却是麻烦事,先从质量指标入手。
用V表示度量值,M表示度量,T表示度量时期,D表示ETL过程中的数据集。一个具体值Vm通过度量、度量时期和它所在数据集决定。理论上,一组不同数据集的Vm是相等的,除了记录数这样没有严格业务含义的度量。这样,就应该有个指标表示这种"不同数据集Vm的误差",叫"同期误差率"。而对于类似记录数这样的度量,不同数据集的Vm一般都是不同的,但是数据集记录数之间的比率遵循一定的比率,如果波动比较明显,那么数据是可疑的,可以使用"同期波动率"来表示这种表象。而同一个数据集的度量,在不同度量时期,它的变化范围应该在一定范围之内,管这个叫"历史波动率"。然而,我不能确定,如果确定同期误差率过大以后,是否还有必要理会同期波动率(不管是否波动,都表明数据质量不合格)。这也就隐含着,波动率是对误差率更进一步的验证方法。
上面这三种指标都是"数值波动"的质量表象,曾经还提到一种"违背逻辑"的表象,它是指度量值之间满足一种运算逻辑,例如俩度量值相加之和大于等于另一度量值。这叫什么?"逻辑误差率",=逻辑验证成功次数/总逻辑验证次数×100%。这项指标反映了数据必须要遵循的业务逻辑,如果不符,可能是ETL处理的原因,也可能是数据源接口的原因,结合同期误差率、波动率等指标进一步定位原因。
第三种表象是"偏离标准",所谓标准是各方认定的权威统计值,它也是某种度量,其值由度量名称和度量时期决定。标准量通过从数据源中统计或者手工输入产生,一般情况下,要对接口和最终的数据集市进行标准量稽核,产生"标准量误差率",这个指标真实反映数据源和目标数据的误差,对数据质量分级的影响系数较大。
除了上面的这些指标,还需要考虑数据拒绝情况,考虑接口完整情况。如果数据在进入ods(在etl流程之初被拒绝和流程靠后时被拒绝显然对质量分级有不同程度的影响,为简单考虑,统一看待)时就被拒绝一大部分,就没有必要对随后的数据进行稽核,必定质量不合格,甚至ETL就终止了。咦,这也是啊,很多情况下ETL是会异常终止的。当然,假设正常完成流程后,上面的五项指标倒是可以用上。那么对于ETL终止的情况,就可以直接为数据质量打上不合格标签。
这就引入一个"记录拒绝率",因为转换或某种原因不能将数据装载入目标数据的,该指标=拒绝记录数/总记录数×100%。数据被拒绝当然不是"质量表象"的范畴,那么它应该属于什么?突然发现它是一个孤零零的概念。拒绝记录是在ETL程序控制范围内的行为,还存在一种不在控制范围内的记录丢弃,使用"记录丢弃率"来衡量。
关于接口数据,这部分应当属于数据剖析(data profiling)的范畴,要对质量分级显然也需要考虑它的因素。对其数据内容,每条记录的合法性进行校验。检验诸如主键重复、外键参照缺失、非法空值、非法值、逻辑错误等。需要通过一个"记录合法率"来衡量这种非法记录的多少,该指标=合法记录/总记录数×100%。它反映了接口数据在规格上的合法性,但不能反映其数据的准确性,这需要通过标准量误差率来衡量。
这样,就出来了八项指标——同期误差、同期波动、历史误差、逻辑误差、标准误差、记录拒绝、记录丢弃和记录合法这八个率。
以上我要说的就是
<H1>数据的业务定义是数据质量评估的第一步</H1>
关于数据的质量部分,不同的标准,评估的结果也不一样,数据有四大特性,准确性,一致性,完整性和及时性
至于很多朋友说还有可靠性,有效性,等等,我想都可以算作是准确性的一部分
准确性表现为能正确的反应事实
不言而喻,四大特性的优先级是准确性,一致性,完整性以及及时性
准确性首先需要标准,就想法律和打官司一样,标准的界定是一个主要的环节,我们可以用When,Where,Who,which来清楚的界定,这样我们
统计的时候就有依据,如果都安装这样的范围来统计,就是做100张报表,对于总数的统计也不会有问题
一致性的表现其实就是对数据在不同阶段,不同时间,不同部门和区域的定义是否一致,举一个简单的例子,对于客户的性别,有的用男&女,有的用1&0,又
有的F&M,但是突然出现空,2,D,P等等,这能说数据不准确吗,这只能算作是数据不够一致,我们整合起来也不是太复杂,映射清楚就可以了,而没有约
束,出现额外值的情况,能改我们就改,不能改的,我们可以讲数据的意外值分为意外值和空值两种,意外值表示填错了,空值表示没有填
完整性是对企业数据实体的完整说明,比如客户的附带属性是性别,姓名,年龄,地址,规模,平均年消费次数等等等,这同样可以用数据统计的方法说明数据是
否完整。
及时性及不言而喻了
对此我的意思是做数据评估,如果数据的准确性不能i达到要求,数据质量就直接不合格,数据的准确性的判断和修正时最不需要技术含量的,相对而言。
对于完整性和一致性,可以讲实体的不同附属信息设置为不同的指标,并且按照应用频率设置权重
最常用和权威的方式可以使用6Sigma的方法做评估
我将设置另外一个议题来讨论,希望大家发言
> 分级别:
>
> Catch4.jpg
> 91K查看下载
>
> Catch3.jpg
> 72K查看下载