数据清洗之如何处理重复值

爱数据精选
爱数据精选
爱数据精选
609
文章
0
评论
2021-02-0413:02:00 评论 1,071 1290字
摘要

做大量的数据清洗工作,有时候真的很头大,觉得难的不是分析,而是数据。

我们在日常工作中,经常会遇到一些让人头疼的数据,公司的日用品发放记录,日常出勤记录等等人为记录的数据,往往存在着很多的重复数据,进行分析之前要做大量的数据清洗工作,有时候真的很头大,觉得难的不是分析,而是数据。

那如何处理重复值,接下来我以下面几种情况给大家分享一下我的一点小经验。

一.找出重复数据

1.把商品ID有重复的给我标注出来

操作:

  • 选中A列
  • 选择【开始选项卡】--【条件格式】
  • 选择【突出显示单元格规则】-- 【重复值】
  • 设置背景颜色,或者选择默认的也可以,点击【确定】
  • 对A列进行排序
  • 筛选-【按颜色进行筛选】

这样找出重复值的这些行数据,就可以分析到底是记录数据重复了,但是数据记录错了,进行相应的修改和删除。

有的人会说我添加了这个突出显示之后怎么去除啊,这个简单

  • 点击【条件格式】
  • 【清除规则】可选【清除所选单元格规则】或【清除整个工作表的规则】

2.给我统计一下那一列有多少条重复

可以借助数据透视表来实现,数据透视是一个非常好的分析工具

  • 鼠标定位到数据区域
  • 点击【插入】选项卡--【数据透视表】
  • 【现有工作表】-- 【指定一个单元格位置】
  • 【ID】拖至【行】
  • 【ID】拖至【值】-- 选择计数
  • 对计数结果进行,排序

二.删除重复数据

找出重复值之后该怎么删除呀,有以下几种情况

1.这一列只要有重复直接删除,随便保留其中一条就可以

题目中直接删除ID这一列

  • 选中数据区域
  • 点击【数据】选项卡
  • 选择【删除重复项】
  • 若弹出【删除重复项警告】--选择【扩展到选定区域】
  • 取消全选--选择需要删除的那一列
  • 点击【确定】

2.对比其中列,这几列同时重复时,才删除保留其中一条

商品ID和店铺ID都重复时才删除

步骤跟上面差不多,就是在

选择列的时候,同时选择商品ID和店铺ID

3.根据给定条件,删除重复项

要求:保留商品ID每日最后一条更新记录,其余的删除

分析:一个商品有可能在一天中有多次更新时间,保留最新的那条,也就是时间最晚的那条,其余的删除,这个就有一定难度了,需要借助排序实现。

思路:

1.从更新时间中提取日期一列,因为只保留商品ID在一天中的一条记录,所以要提取日期

2.先把更新时间修改成标准的日期格式,利用自定义格式实现

3.对商品ID 更新时间进行自定义排序,商品ID作为主要关键字,更新时间为次要关键字,更新时间必须为降序,多列排序的主次功能如下:

先按照商品ID进行排序,如果商品ID重复,则按照更新时间进行排序

4.通过对商品ID和日期的进行删除重复项操作

5.通过观察测试,删除重复项的操作默认是保留第一题数据,若发现跟上一条有重复会删除,因此,利用降序排序可以把当天中的最晚的那条数据保留,实现想要的效果。

好啦,今天的分享就先到这里啦,如果大家在工作中遇到Excel难以处理的问题加入爱数据交流群,为大家解决问题,这样不仅仅能够帮助你们,同样对于我也是一种提升,当然如果大家对于我的方法存在质疑也可以沟通交流哦,一起进步,加油!

End.

作者:Ailsa

作者介绍:爱数据讲师,5年教育行业高级数据分析师。

来源:知乎(alisa)

本文为转载分享,如果涉及作品、版权和其他问题,请联系我们第一时间删除(微信号:lovedata0520)

  • 我的微信公众号
  • 微信扫一扫
  • weinxin
  • 我的微信公众号
  • 微信扫一扫
  • weinxin
匿名

发表评论

匿名网友 填写信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: