数据清洗很神秘?其实你每天都在重复做,学会这十招帮你摆脱重复

JaryYuan
JaryYuan
JaryYuan
40
文章
0
评论
2020-08-2513:08:00 评论 216 1297字
摘要

数据清洗听起来很神秘,其实每一个职场人在用 Excel 的时候几乎都会重复的在做。在数据真正能为我们所用之前,对数据删除空行空列、清除空格打印字符、分列、替换等都是数据清洗过程。

数据清洗听起来很神秘,其实每一个职场人在用 Excel 的时候几乎都会重复的在做。在数据真正能为我们所用之前,对数据删除空行空列、清除空格打印字符、分列、替换等都是数据清洗过程。

将杂乱无章的数据整理成有规则的、可供分析的过程,可以称之为「数据清洗」

导入 Power Query 查询编辑器的数据如下,我们通过菜单中的 10 个功能进行数据清洗。

数据清洗很神秘?其实你每天都在重复做,学会这十招帮你摆脱重复

01、删除行

导入数据的前10行都是无用的标题行,可以使用 Power Query 主页提供的「删除行」功能进行删除。

数据清洗很神秘?其实你每天都在重复做,学会这十招帮你摆脱重复

PQ提供了丰富的删除行操作,这里我们选择:删除最前面的几行 > 10 > 确定。

02、修整和清除

现在数据看起来规整多了,但是我们仔细观察可以看到列的两边有多余的空格,同时还有一些打印字符需要将其清除。

数据清洗很神秘?其实你每天都在重复做,学会这十招帮你摆脱重复

选中列,在转换选项卡下,格式功能中可以找到「修整」和「清除」。

数据清洗很神秘?其实你每天都在重复做,学会这十招帮你摆脱重复

在 Excel 中有 Trim() 及 Clean() 函数可以将前导、尾随及中间多余的空白单元格删除(字符中间仅保留一个单元格)。不同的是,PQ的「修整」功能并不能删除字符中间多余的空格。

03、按字符数拆分列

和 Excel 的拆分列功能相似,我们可以看到 PQ 将数据识别成了单独的一列。需要我们自己手动拆分列。

主页 > 拆分列 > 按字符数 > 15

数据清洗很神秘?其实你每天都在重复做,学会这十招帮你摆脱重复

这里拆分的字符数可以根据日期列的字符数进行确定初始值,然后进行调试,找到最佳的拆分字符数。

数据清洗很神秘?其实你每天都在重复做,学会这十招帮你摆脱重复

04、提升标题

这时我们需要给每列一个有意义的名称,可以看到第一行就是列的标题。因此可以直接使用「将第一列用作标题」提升标题行。

数据清洗很神秘?其实你每天都在重复做,学会这十招帮你摆脱重复

05、更改数据类型

PQ 默认会根据列的数据特征自动更改列的数据类型,然而它并不能每次都准确识别,所以有时我们需要自己更改数据类型。

数据清洗很神秘?其实你每天都在重复做,学会这十招帮你摆脱重复

06、删除错误值

转换数据类型操作后,可以看到列的下方出现了红色的标记,这是 PQ 提醒我们数据列存在错误值,往下拉到第 44 行可以发现错误值。

数据清洗很神秘?其实你每天都在重复做,学会这十招帮你摆脱重复

当确认了这些属于无用字符导致的转换失败以后,可以删除错误行。

主页 > 删除行 > 删除错误

数据清洗很神秘?其实你每天都在重复做,学会这十招帮你摆脱重复

07、筛选剔除行

删除错误以后,第一列还有灰色的提示,说明该列还有无用的空行。

数据清洗很神秘?其实你每天都在重复做,学会这十招帮你摆脱重复

可以通过列的筛选功能,剔除空行,选中第一列,筛选取消勾选 (null)。

数据清洗很神秘?其实你每天都在重复做,学会这十招帮你摆脱重复

08、删除列

删除数据中的空列。选中空列,右击鼠标删除列。

数据清洗很神秘?其实你每天都在重复做,学会这十招帮你摆脱重复

09、合并列

处理到这一步数据已经基本清洗干净了。往后看,可以发现有两列在开始按字符数拆分时,被错误的拆开了。

数据清洗很神秘?其实你每天都在重复做,学会这十招帮你摆脱重复

数据清洗很神秘?其实你每天都在重复做,学会这十招帮你摆脱重复

数据清洗很神秘?其实你每天都在重复做,学会这十招帮你摆脱重复

10、按分隔符拆分列

合并的 Reference Information 列包含双重信息,并且可以按照分隔符「 - 」进行拆分。

选中该列,点击转换拆分列 > 按分隔符 > -

数据清洗很神秘?其实你每天都在重复做,学会这十招帮你摆脱重复

数据清洗很神秘?其实你每天都在重复做,学会这十招帮你摆脱重复

学会以上十招,基本也就掌握了PQ 常用的数据清洗功能,只要认真跟着操作一番,相信对 PQ 会有不一样的理解,同时对于文章没有出现的其它数据转换功能也会具备一定的自我探索能力。

也许你会问这些都能在 Excel 中实现,为什么要一定要在 PQ 中处理 ?在 Excel 中当你面临同样的需求时,所有的导入文本、删除行、合并拆分列,你都需要重新操作一遍。

而在 PQ 中,以上操作都已经被录制下来(类似宏),当你面临同样需求时,只要更改数据源就可以一键执行整个清洗工作。

End.

爱数据网专栏作者:张俊红

作者介绍:一个数据科学路上的学习者、实践者、传播者

个人公众号:俊红的数据分析之路

  • 我的微信公众号
  • 微信扫一扫
  • weinxin
  • 我的微信公众号
  • 微信扫一扫
  • weinxin
匿名

发表评论

匿名网友 填写信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: