【大数据的生命线之数据质量】数据质量是数据人永恒的话题

数据海洋
数据海洋
数据海洋
10
文章
0
评论
2020-04-1802:05:00 评论 265 1350字
摘要

不管是从事数据或者用数据的人,应该实时把数据质量放到第一位,数据质量是生命线,怎么强调都不过分。本篇文章【应该是系列】是很久之前就答应一个朋友要写成文章的,一直没有去梳理。

一谈到数据相关话题,必扯大数据,但是我还是想谈谈数据,对于大数据我的理解后续再分享给大家。其实我一直理解的大数据,首先是数据,然后才是"大"。回到正题:数据质量

01 数据流长导致数据质量问题

如下图所示:常规数据流:从业务发生->系统记录->数据处理->使用,整个数据流程是非常长。所以任何一个环节如果出问题,都会对最终数据质量有问题。

【大数据的生命线之数据质量】数据质量是数据人永恒的话题

所以很多公司业务团队如果有数据人员,都希望可以直接访问后台数据,自己写代码去取。

02 数据质量需要持续迭代的资源投入

曾经在上消费者行为学的时候,我记得曾经有这样的一个案例:

问: 你觉得做飞机,最重要的是什么?

99%的回答是:安全。但是当大家实际做出购买飞机票选择的时候,可能安全这个因素,都没有进入很好多人购票决策流程中,或者是根本不考虑这个因素。

问: 你问从事数据工作的人,在数据仓库建设、数据分析、数据挖掘等过程中什么最重要?

如果有数据质量选项,我想也许90%会选择这个选项。就像你如果问一个要乘做飞机的人,但实际工作中,却是没有多少人愿意投入资源和精力持续去提升数据质量!回答的与实际行动可能完全不一样。

为什么呢?你们公司或者你自己有花多少时间在思考数据质量的问题?

03 数据质量产生的问题

1、在一个会议上,来自不同部门的同事,对着同一个指标【指标名称相同】。例如:网站转化率。但各部门统计出来的结果不同,从趋势来看,甚至有可能是相反的。都说自己的统计口径是对的,"争吵"了半天,开始确定各自统计的口径与逻辑,然后对对方的统计的逻辑"讨论"一番,讨论好后会议时间也差不多到了,大家很不愉快结束了本次会议。

2、业务方反馈数据部门统计的数据不对,然后做数据同学查了半天,发现是原始数据记录有问题。

3、业务部门上线了一个产品,感觉效果很好,来找数据部门要相关数据,结果"傻眼"了,因为当初产品上线,没有埋点,结果没有办法相关数据记录。

数据质量问题,可能归纳为有以下几种:

1、原始数据记录有误;例如:用户访问的页面类型是促销页,但数据记录成为:搜索页。

2、原始数据缺失;例如:像一些日志数据因为没有埋点而没有收集。

3、指标定义错误;例如:对于指标定义,业务描述错误。

4、统计指标过程中代码写错;一般是指数据分析师或者数据提取人员在取数据的时候没有把代码写清楚。

5、同一指标统计口径不一样;对于同一指标,不同人理解不一样,有的网站转化率是按订单/UV;还是订单/会话;还是会员数/UV等。

6、数据不足;在分析的时候,发现数据只有最近几天的,历史数据没有记录或者删除了。

7、.......

04 数据质量永远都存在

数据质量是数据人要面对的一个永恒的课题,如果谁和你说他们公司没有任何数据质量的问题或者说数据质量问题得到彻底的解决,我很负责责任的说一句,要么他不懂,要么他在"扯蛋",要么他们公司的业务已经"消失"。

一个还在生在的公司,还在发展的公司,如果这家公司需要看数据,那一定都或多或少存在质量问题。

对数据人来说,永远记住一句话:"garbage in garbage out"。

今天先写到这边,这周继续分享我对于如何治理数据质量的一些经验和想法。欢迎大家留言一起讨论。

End.

作者:数据海洋

本文为中国统计网原创文章,未经允许禁止转载,需要转载请微信联系授权(微信号:ishujiang)

  • 我的微信公众号
  • 微信扫一扫
  • weinxin
  • 我的微信公众号
  • 微信扫一扫
  • weinxin
匿名

发表评论

匿名网友 填写信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: