数据治理-技术篇:数据质量管理

爱数据精选
爱数据精选
爱数据精选
449
文章
0
评论
2021-05-0315:53:13 评论 117 1859字
摘要

按照同样的业务规则产出的数据,对于不同行业、不同规模、甚至处于不同发展阶段的企业来说,数据质量是不一样的,这要看这些数据是否能够满足企业业务方的实际需求。

今天我们来说一下数据质量。一般情况下说到数据质量,大家第一反应肯定是数据的准确性、一致性、完整性之类的,比如指标的数值在不同的系统中应该是相同的、没有缺失值、数据格式准确等等。

 

随着业务系统不断发展,数据的来源越来越丰富、数据量爆炸性增长、数据格式种类繁杂,数据质量的定义范围也逐渐从数据本身扩大到数据的使用过程。

 

人们慢慢发现,其实对于数据质量高与低的评判,和这些数据是否能够满足使用者的需求息息相关。比如按照同样的业务规则产出的数据,对于不同行业、不同规模、甚至处于不同发展阶段的企业来说,数据质量是不一样的,这要看这些数据是否能够满足企业业务方的实际需求。

 

所以,数据质量的高低本质上代表了这些数据使用者的满意程度,记住这一点对我们评判数据质量有很大的帮助。

 

数据治理-技术篇:数据质量管理

 

数据质量包含两个方面:数据自身的质量和数据的过程质量;数据自身的质量很好理解,比如数据必须真实准确地反映实际发生的业务,任何业务操作的数据都没有被遗漏,数据存在各种约束条件,这种约束条件不能自相矛盾等等

 

那什么是数据的过程质量呢?其实说白了就是数据的使用过程符合标准规范,比如数据存储:数据是否被安全的存储到了合适的介质上,能够保证数据不受外来因素的破坏。当然数据存储只是数据使用过程的一个环节,除此之外还包括获取、传输、应用和删除等一系列的使用过程,这其实就是上面说的数据生命周期的各个阶段。

 

数据治理-技术篇:数据质量管理

 

所以,通过对数据生命周期各个阶段进行标准化控制的这个过程,就是数据质量控制的过程,是数据质量的核心组成。

 

如何去评估这个过程是好是坏呢?在这里我们引入数据质量评估维度的概念,几乎所有的数据和信息质量专家在制定数据质量评估维度的时候,都会包含以下五个维度:完整性、准确性、有效性、一致性和及时性。

 

这五个维度的定义如下:

完整性:描述信息的完整程度,如电话号码是否有空值

准确性:描述数据和客观实体的特征是否相一致,如数据库中记录的电话和实际电话不一致

有效性:数据是否满足用户定义条件、内容规范约束等,如年龄为-32岁,违反常理

一致性:描述同一个信息主体在不同数据集中的属性是否相同,如岗位名称在CRM系统中和人力系统中不一致

及时性:描述从业务发生到相关数据能够被使用的及时程度,如实时查看用户行为相关数据

 

五个维度共同构成了数据质量评估的基本框架,每个维度都可以通过设置评估问卷随机抽取一些问题然后收集相应的数据;注意收集数据的时候可以采用不同的方式,访谈、发放链接、随机抽检等等,

 

数据收集上来之后,就要开始对数据进行整理加工,从定性的问题转换到定量的得分,从而到最终的数据质量评估结果。

 

问题一般设置成是否题,这样在计算得分的时候,可以通过计算某道题目中选"是"的个数,然后通过占比总人数得到分值,这是一种问卷得分计算方法。

 

当然也可以将问题设置成单选,然后每个选项赋予一个得分,比如如果是4个的选项,则依次为5分、3分、1分、0分,以此类推。

 

以下是一些问卷的问题,供各位同学参考:

 

1.数据所有权

  • 没有定义流程、系统和数据的所有者

  • 在小范围内定义流程、系统和数据的所有者

  • 流程、系统和数据所有者在大范围内定义,但不是所有情况,而且职责不总是很清晰

  • 流程、系统和数据所有者都被很好的定义并且形成文件

  • 在管理回顾中对流程、系统和数据所有者的职责进行考虑和阐述

 

2.规程

  • 没有建立管理数据完整性相关活动的规程

  • 针对数据完整性的某些情况制定了有限的规程

  • 有一些规程,但是没有覆盖所有的数据完整性相关活动

  • 将所有关键领域的规程充分纳入质量管理体系并反映既定的政策和标准

  • 根据实践定期回顾和改进规程

 

3.质量管理体系

  • 几乎没有规程关注患者安全,产品质量和数据的完整性

  • 有一些规程和质量控制流程,但不能始终如一地实现质量目标

  • 建立了质量管理体系,但合规性和数据完整性活动并不完全有效

  • 建立有效的质量管理体系,始终如一地实现数据完整性目标,以保证病人安全和产品质量质量体系定期管理回顾和持续改善

 

感兴趣的同学可以从网上多收集一些数据质量评估的问题作为储备,按照评估框架梳理出各个维度的评估问题,通过不同渠道在企业内部或外部进行数据收集来评估数据质量水平。

 

好了,数据质量的基本定义、评估框架、实施思路给大家简单的介绍了一下;希望大家在数据的道路上持续精进,踏实前行。

 

End.

作者:一方老师

个人公号:数据产品葵花宝典

本文为爱数据网站专栏作者原创文章,未经允许禁止转载,需要转载请微信联系授权(微信号:lovedata0520)

更多文章前往首页浏览http://www.itongji.cn/

 

  • 我的微信公众号
  • 微信扫一扫
  • weinxin
  • 我的微信公众号
  • 微信扫一扫
  • weinxin
匿名

发表评论

匿名网友 填写信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: