我们在日常工作中,经常会遇到一些让人头疼的数据,公司的日用品发放记录,日常出勤记录等等人为记录的数据,往往存在着很多的重复数据,进行分析之前要做大量的数据清洗工作,有时候真的很头大,觉得难的不是分析,而是数据。
那如何处理重复值,接下来我以下面几种情况给大家分享一下我的一点小经验。
一.找出重复数据
1.把商品ID有重复的给我标注出来
操作:
- 选中A列
- 选择【开始选项卡】--【条件格式】
- 选择【突出显示单元格规则】-- 【重复值】
- 设置背景颜色,或者选择默认的也可以,点击【确定】
- 对A列进行排序
- 筛选-【按颜色进行筛选】
这样找出重复值的这些行数据,就可以分析到底是记录数据重复了,但是数据记录错了,进行相应的修改和删除。
有的人会说我添加了这个突出显示之后怎么去除啊,这个简单
- 点击【条件格式】
- 【清除规则】可选【清除所选单元格规则】或【清除整个工作表的规则】
2.给我统计一下那一列有多少条重复
可以借助数据透视表来实现,数据透视是一个非常好的分析工具
- 鼠标定位到数据区域
- 点击【插入】选项卡--【数据透视表】
- 【现有工作表】-- 【指定一个单元格位置】
- 【ID】拖至【行】
- 【ID】拖至【值】-- 选择计数
- 对计数结果进行,排序
二.删除重复数据
找出重复值之后该怎么删除呀,有以下几种情况
1.这一列只要有重复直接删除,随便保留其中一条就可以
题目中直接删除ID这一列
- 选中数据区域
- 点击【数据】选项卡
- 选择【删除重复项】
- 若弹出【删除重复项警告】--选择【扩展到选定区域】
- 取消全选--选择需要删除的那一列
- 点击【确定】
2.对比其中列,这几列同时重复时,才删除保留其中一条
商品ID和店铺ID都重复时才删除
步骤跟上面差不多,就是在
选择列的时候,同时选择商品ID和店铺ID
3.根据给定条件,删除重复项
要求:保留商品ID每日最后一条更新记录,其余的删除
分析:一个商品有可能在一天中有多次更新时间,保留最新的那条,也就是时间最晚的那条,其余的删除,这个就有一定难度了,需要借助排序实现。
思路:
1.从更新时间中提取日期一列,因为只保留商品ID在一天中的一条记录,所以要提取日期
2.先把更新时间修改成标准的日期格式,利用自定义格式实现
3.对商品ID 更新时间进行自定义排序,商品ID作为主要关键字,更新时间为次要关键字,更新时间必须为降序,多列排序的主次功能如下:
先按照商品ID进行排序,如果商品ID重复,则按照更新时间进行排序
4.通过对商品ID和日期的进行删除重复项操作
5.通过观察测试,删除重复项的操作默认是保留第一题数据,若发现跟上一条有重复会删除,因此,利用降序排序可以把当天中的最晚的那条数据保留,实现想要的效果。
好啦,今天的分享就先到这里啦,如果大家在工作中遇到Excel难以处理的问题加入爱数据交流群,为大家解决问题,这样不仅仅能够帮助你们,同样对于我也是一种提升,当然如果大家对于我的方法存在质疑也可以沟通交流哦,一起进步,加油!
End.
作者:Ailsa
作者介绍:爱数据讲师,5年教育行业高级数据分析师。
来源:知乎(alisa)
本文为转载分享,如果涉及作品、版权和其他问题,请联系我们第一时间删除(微信号:lovedata0520)
- 我的微信公众号
- 微信扫一扫
- 我的微信公众号
- 微信扫一扫
评论