最高薪资的数据分析师在哪个城市?用Excel数据分析实战告诉你!

挖数网精选
挖数网精选
挖数网精选
444
文章
0
评论
2020-04-2902:05:00 评论 642 2398字
摘要

Excel是数据分析岗位的重要工具之一,熟练掌握Excel,是数据分析师不可缺少的一项技能。本文通过实战案例,来讲解如何使用Excel进行数据分析。

一.案例介绍

用Python对某求职网站上数据分析职位的数据进行爬取后,再通过excel对这些数据,针对以下问题进行数据分析:

  • 我希望知道数据分析是个怎样的职位?
  • 它的工资和薪酬是多少?
  • 它有哪些特点,需要掌握哪些能力?
  • 哪些公司会招聘这样一个岗位?

1.数据有无缺失值

数据的缺失值很大程度上影响分析结果。引起缺失的原因很多,例如技术原因,爬虫没有完全抓取,例如本身的缺失,该岗位的HR没有填写。

如果某一字段缺失数据较多(超过50%),分析过程中要考虑是否删除该字段,因为缺失过多就没有业务意义了。

2.数据是否一致化

一致化指的是数据是否有统一的标准或命名。

3.数据是否有脏数据

脏数据是分析过程中很讨厌的环节。例如乱码,错位,重复值,未匹配数据,加密数据等。能影响到分析的都算脏数据,没有一致化也可以算。

使用Excel的删除重复项功能,快速定位是否有重复数据。

4.数据标准结构

数据标准结构,就是将特殊结构的数据进行转换和规整。

表格中,companyLableList就是以数组形式保存(JSON中的数组),我们后续得将这类格式拆分开来

最高薪资的数据分析师在哪个城市?用Excel数据分析实战告诉你!

薪水用了几K表示,这是文本,并不能直接用于计算,而且是一个范围,后续得按照最高薪水和最低薪水拆成两列。

最高薪资的数据分析师在哪个城市?用Excel数据分析实战告诉你!

二.数据清洗

1.将salary拆成最高薪水和最低薪水有二种办法

一是直接分列,以"-"为拆分符,得到两列数据,然后利用替换功能删除 k这个字符串,得到结果。

二是利用文本查找的思想,重点讲一下这个。先用 =FIND("k",O2,1)。查找第一个K(最低薪酬)出现的位置。

这里FIND函数对大小写敏感,数据中的k是小写。

两列分别命名为bottomSalary和topSalary,下面找出bottomSalary:

最高薪资的数据分析师在哪个城市?用Excel数据分析实战告诉你!

输入=LEFT(O2,FIND("k",O2,1))得到的结果就是 7K,要去除掉k,FIND("k",O2,1)再减去1即可。

最高薪水也是同样的思路,但不能使用第一个K的位置,因为第二个薪水位置不固定。需要利用find查找"-"位置,然后截取 从"-" 到最后第二个位置的字符串。

=MID(O2,FIND("-",O2,1)+1,LEN(O2)-FIND("-",O2,1)-1)

最高薪资的数据分析师在哪个城市?用Excel数据分析实战告诉你!

上面的公式输入成功后,要想对每一行都套用,可以利用单元格的右下角,向下拖拽即可。

因为薪水是一个范围,我们不可能拿范围计算平均工资。那怎么办呢?我们只能取最高薪水和最低薪水的平均数作为该岗位薪资。这是数据来源的缺陷,因为我们并不能知道应聘者实际能拿多少。这是薪水计算的误差。

最高薪资的数据分析师在哪个城市?用Excel数据分析实战告诉你!

因为R2,S2为文本,所以要写成R2*1,把它转换成数值。

文本格式里输入数字,显示仍然会是数字,只是对齐方式不一样。

文本格式靠左对齐,数字格式靠右对齐。

还有就是用函数计算的时候不同:文本格式不参与函数里数值的计算。

另一个误差就是 工资范围写成6k以上,我们取最高薪水和最低薪水相等。

2.companyLabelList 分列

companyLabelList是公司标签,诸如技能培训啊、五险一金啊等等。直接用分列即可。大家需要注意,分列会覆盖掉右列单元格,所以记得复制到最后一列再分。

最高薪资的数据分析师在哪个城市?用Excel数据分析实战告诉你!

3.清洗positionLables职位标签。某一个职位最多的标签有13个

[‘实习生’, ‘主管’, ‘经理’, ‘顾问’, ‘销售’, ‘客户代表’, ‘分析师’, ‘职业培训’, ‘教育’, ‘培训’, ‘金融’, ‘证券’, ‘讲师’]

4.针对positionName用数据透视表,统计各名称出现的次数

最高薪资的数据分析师在哪个城市?用Excel数据分析实战告诉你!

=COUNTIF(B4:B2166,"<3")

出现次数为3次以下的职位,有约一千,都是各类特别称谓。那就用关键词查找的思路,找出包含有数据分析、分析师、数据运营等关键词的岗位。用find和数组函数结合,shift+ctrl+enter输入。就得到了多条件查找后的结果。

=IF(COUNT(FIND({"数据分析","数据运营","分析师"},N3)),"1","0")

单纯的find 只会查找数据分析这个词,必须嵌套count才会变成真数组。

最高薪资的数据分析师在哪个城市?用Excel数据分析实战告诉你!

将ISDA值为1 的数据过滤出来,即为我们要分析的数据。

三.分析过程

因为主要数据均是文本格式,所以偏向汇总统计的计算。如果数值型的数据比较多,就会涉及到统计、比例等概念。如果有时间类数据,那么还会有趋势、变化的概念。

1.城市分布

最高薪资的数据分析师在哪个城市?用Excel数据分析实战告诉你!

看来北京的数据分析岗位机会远较其他城市多。1-3年和3-5年两个时间段的缺口更大。应届毕业生似乎比1年以下经验的更吃香。爬取时间为11月,这时候校招陆续开始,大公司会有线下校招,实际岗位应该更多,小公司则倾向发布,这是招聘网站的限制。

2.公司规模

最高薪资的数据分析师在哪个城市?用Excel数据分析实战告诉你!

公司越大,对数据分析的需求越多。但这样分析并不准确,应该用比例,计算不同类型的企业人均招聘数。还有一种情况是,企业刚好招满数据分析师,就不发布岗位了,数据包含的只是正在招聘数据分析师的企业,这些都是限制分析的因素。

3.看一下各城市招聘Top5公司

最高薪资的数据分析师在哪个城市?用Excel数据分析实战告诉你!

先筛选出各城市,然后分别做数据透视表

北京的美团以78个数据分析职位招聘力压群雄,甚至一定程度上拉高了北京的数据。

比较奇怪的是阿里巴巴并没有在杭州上榜,看来是该阶段招聘需求不大,或者数据分析师有其他招聘渠道。

4.我们看一下数据分析师的薪水

筛选出ISDA=1的数据,复制到另一张表中,再用数据透视表。

最高薪资的数据分析师在哪个城市?用Excel数据分析实战告诉你!

南京、西安在应届生中的平均薪资最高,是因为招聘职位不多,单独一两个企业的高薪影响了平均数,其余互联网二线城市同理。当工作年限达到3年以上,北上深杭的数据分析师薪资则明显高于其他城市。

数据会有误差性么?会的,因为存在薪资极值影响。而数据透视表没有中位数选项。我们也可以单独用分位数进行计算,降低误差。

最高薪资的数据分析师在哪个城市?用Excel数据分析实战告诉你!

分析师、数据、数据分析是最多的标签。除此以外,需求分析,BI,数据挖掘也出现在前列,看来不少数据分析师的要求掌握数据挖掘。

End.

作者:Distrlili

来源:CSDN

本文为转载分享,如有侵权请联系后台删除

  • 我的微信公众号
  • 微信扫一扫
  • weinxin
  • 我的微信公众号
  • 微信扫一扫
  • weinxin
匿名

发表评论

匿名网友 填写信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: