数据分析究竟在分析什么?

张俊红
张俊红
张俊红
54
文章
0
评论
2021-01-1913:01:00 评论 171 1848字
摘要

很多时候我们走的走的就会忘记当初为什么而出发。就像数据分析一样,现在被炒的很热,但是数据分析究竟在分析些什么呢?

前言

很多时候我们走的走的就会忘记当初为什么而出发。就像数据分析一样,现在被炒的很热,但是数据分析究竟在分析些什么呢?很多新人可能被唬住了,其实这些在我们以前的统计学中都学过。

不管是用Python还是R,其实和用Excel一样,只不过现在之所以用Python、R是因为大数据时代么,数据太多,Excel的处理能力跟不上,但是这些都只是一个工具而已,核心还是围绕统计学不变的。

今天就来聊聊我们该从哪些方向去分析(描述)数据。

总体概览指标:

总体概览指标又称统计绝对数,是反映某一数据指标的整体规模大小,总量多少的指标。

比如当日销售额60万,当日订单量2万,购买人数1.5万,这些都是一些概览指标,用来反映某个时间段内某项业务的某些指标的绝对量。

我们把经常关注的总体概览指标称为关键性指标,这些指标的数值将会直接决定公司的盈利情况。

对比性指标:

对比指标是说明现象之间数量对比关系的指标,常见的就是同比、环比、差这几个指标。

同比是相邻时间段内某一共同时间点内指标的对比,环比就是相邻时间段内指标的对比;差就是两个时间段内的指标直接做差即可,差的绝对值就是两个时间段内指标的变化量。

数据分析究竟在分析什么?

比如说当日与昨天比较、本周与上周、本月与上月比较都是环比;当日与上周同期、本周与上月同期、本月与去年同月比较都是同比。

集中趋势指标:

集中趋势指标是用来反映某一现象在一定时间段内所达到的一般水平。用平均指标来表示,比如平均工资水平、平均年龄、平均房价等。平均指标分为数值平均和位置平均。

数值平均是统计数列中所有变量值平均的结果。有普通平均数和加权平均数两种。

位置平均时基于某种特殊位置上或者是普遍出现的标志值作为整体一般水平的代表值。有众数、中位数两种。

众数是被研究总体中出现次数最多的变量值,他是总体中最普遍的值,因此可以用来代表一般水平。如果数据可以分为多组,则为每组找出一个众数。注意:众数只有在总体内单位充分多时才有意义。

中位数是将总体中各单位标志值按大小顺序排列,处于中间位置的变量值就是中位数。因为处于中间位置,有一半变量值大于该值,一半小于该值,所以可以用这样的中等水平来表示整体的一般水平。

离散程度指标:

离散程度指标是用来表示总体分布的离散(波动)情况的指标,如果这个指标较大,说明数据波动比较大,反之则说明数据相对比较稳定。

全距(又称极差)、方差、标准差等几个指标是用来衡量数值的离散情况。

全距(极差):平均数让我们知道了某一指标的集中趋势,但是无法知道数据的变动情况。比如网上报道说XX公司员工的平均月薪为7万,这个7万是什么意思呢?是大多数人的工资都是7万左右还是少数几个高管的工资特别高,导致均值特别高呢?如果单从均值是无法获取更多信息的。所以引入了全距,全距的计算方法是用数据集中最大数(上界)减去数据集中最小数(下界)。

全距存在的问题:

  • 容易受异常值影响。
  • 全距只表示了数据的宽度,但是没有描述清楚数据上下界之间的分布形态。

对于问题1我们引入四分位距的概念。四分位数将一些数值从小到大排列,然后一分为四,最小的四分位数为下四分位数,最大的四分位数为上四分位数,中间的四分位数为中位数。

对于问题2我们引入了方差和标准差两个概念来度量数据的分散性。

方差是每个数值与均值距离的平方的平均值,方差越小说明各数值与均值之间的差距越小,数值越稳定。

数据分析究竟在分析什么?

X为变量,μ为总体均值,N为数据个数。

标准差是方差的开方。表示数值与均值距离的平均值。你可能会说有方差了为啥还要标准差呢?因为标准差与实际指标的单位是一致的。更具有实际意义。

相关性指标:

上面提到的几个维度是对数据整体的情况进行描述,但是我们有的时候想看一下数据整体内的变量之间存在什么关系,一个变化时会引起另一个怎么样的变化,我们把用来反映这种关系的指标叫做相关系数,常用r来表示。

其中,Cov(X,Y)为X与Y的协方差,Var[X]为X的方差,Var[Y]为Y的方差。

关于相关系数需要注意几点:

  • 相关系数r的范围为:[-1,1]。
  • r的绝对值越大,表示相关性越强。
  • r的正负代表相关性方向,正代表正相关,负代表负相关。

相关与因果

相关关系不等于因果关系,相关只能说明两件事情有关联,而因果关系的话,是说明一件事情导致了另一件事情的发生。不要把这两个关系混淆使用。

比如啤酒和尿布是具有相关关系的,但是不具有因果关系。但是流感疾病和关键词检索量上涨是具有因果关系的。

End.爱数据网专栏作者:张俊红作者介绍:一个数据科学路上的学习者、实践者、传播者个人公众号:俊红的数据分析之路

  • 我的微信公众号
  • 微信扫一扫
  • weinxin
  • 我的微信公众号
  • 微信扫一扫
  • weinxin
匿名

发表评论

匿名网友 填写信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: