100种分析思维模型(011号)

林骥
林骥
林骥
44
文章
0
评论
2021-08-2810:12:05 评论 623 1992字
摘要

你好,我是林骥。今天介绍的第 011 号分析思维模型:相关分析模型,是寻找变量之间的「相互」关系,并没有主次之分,侧重于解释变量之间的关联。

 

1. 模型介绍

相关分析,其实就是寻找变量之间相互关联的程度。

如果一个变量改变的时候,另一个变量也朝着相同的方向发生变化,那么我们就说这两个变量之间存在正相关性。

反之,我们就说这两个变量之间存在负相关性。

如果一个变量无论怎么改变,另一个变量都不会跟着变,那么我们就说这两个变量之间没有相关性。

比如说,个子高的人,通常体重会重一些,个子矮的人,通常体重也会轻一些,所以说身高和体重存在正相关性。

当然,也会有例外的情况,因为有些人是又高又廋,但总体而言,大多数人是符合相关规律的。

相关分析通常包括以下几个步骤:

第一步,收集相关数据

首先,收集相关数据,一般是成对出现的数据,从而为后面的相关分析做好准备。

第二步,绘制散点图形。

把一个变量作为横轴,另一个变量作为纵轴,画出散点图形,观察数据的分布,大致判断相关性。

100种分析思维模型(011号)

一般情况下,我们所说的相关,都是指线性相关。

第三步,计算相关系数。

相关系数有两大特点:

(1)是介于 -1 到 1 之间的常数

相关系数等于 -1 表示完全负相关,等于 0 表示完全不相关,等于 1 表示完全正相关。

在实际应用中,我们通常把相关系数的取值,分成几个不同的区间,来表示不同的相关程度:

  • 0.0 ≤ |相关系数| < 0.3,表示不相关
  • 0.3 ≤ |相关系数| < 0.5,表示弱相关
  • 0.5 ≤ |相关系数| < 0.8,表示中度相关
  • 0.8 ≤ |相关系数| < 1.0,表示强相关

(2)它不受变量单位的限制

相关系数可以将单位不统一的数据,加工成一个简洁的描述性数据。

比如说,身高的单位是厘米,体重的单位是千克,我们也能计算出它们的相关系数。

需要注意的是,相关系数与显著性检验的 p 值不同,相关系数用来反映相关性的强弱,而 p 值用来检验是否存在相关关系,一般情况下,当 p 值小于 0.05 时,才可以判断存在相关关系。

 

2. 应用举例

以 Tableau 自带的超市数据为例,我们应用相关分析模型,分析技术类产品的子类别之间是否有相关关系。

第一步,收集相关数据

(1)打开 Tableau Desktop 2021.1 版本,在已保存的数据源中,点击【示例 - 超市】。

(2)导航到【数据源】选项卡,把左边的【订单】表,拖动到右边的画布区域。

(3)编辑关系选择【订单 Id = 订单 Id(订单1)】,如下图所示:

100种分析思维模型(011号)

第二步,绘制散点图形。

(1)双击【工作表 1】,重命名为【散点图】。

(2)把【子类别】和【销售额】拖到【列】功能区。

(3)把【子类别(订单1)】和【销售额(订单1)】拖到【行】功能区。

(4)把【订单 Id】拖到【标记】卡的【详细信息】。

(5)把【类别】拖到【筛选器】功能区,选中【技术】后,点击【确定】。

(6)把【类别(订单1)】拖到【筛选器】功能区,选中【技术】后,点击【确定】。

(7)依次点击菜单:【分析(A)】→【趋势线(T)】→【显示趋势线(T)】。

100种分析思维模型(011号)

把鼠标放在趋势线的上方,可以看到其中的 p 值都大于 0.05,基本可以判断不存在相关关系。

从散点图的分布中也可以看出,产品的子类别之间基本都没有相关性。

第三步,计算相关系数。

(1)复制【散点图】工作表,并重命名为【相关系数】。

(2)依次点击菜单:【分析(A)】→【创建计算字段(C)...】。

(3)将字段命名为【相关系数】,输入以下公式并点击【确定】:

CORR( { INCLUDE [订单 Id] : SUM([销售额 (订单1)])}, { INCLUDE [订单 Id] : SUM([销售额])})

(4)分别将【相关系数】拖到【标记】卡的【颜色】和【标签】。

(5)移除【列】中的【销售额】和【行】中的【销售额 (订单1)】。

(6)将【标记类型】改为【方形】,移除【标记】卡的【订单 Id】。

(7)编辑颜色,选择【绿色-蓝色-白色发散】,点击【确定】,调整字体大小之后,如下图所示:

100种分析思维模型(011号)

从上面的相关系数矩阵中,可以看出,除了对角线相同子类别的相关系数为 1 以外,其他相关系数的绝对值都小于 0.3,事实上,其中相关系数的平方,就等于散点图趋势线中的 R 平方值。

综上进行业务判断,我们可以得出相关分析的结论:从订单层面的销售额指标来看,技术类产品的子类别之间没有相关性。

 

最后的话

即使两个变量之间有相关关系,也不代表其中一个变量的改变,是由另一个变量的变化引起的。

比如说,国家的诺贝尔奖数量,与巧克力消费量之间呈现正相关关系,但这并不是说,多吃巧克力有助于获得更多的诺贝尔奖。

100种分析思维模型(011号)

一种合理的解释是,诺贝尔奖的数量与巧克力的消费量,很可能都是由其他变量导致的,例如国民的受教育程度和富裕程度。

最后,请一定要牢牢记住,相关关系不等于因果关系

 

 

End.

爱数据网专栏作者:林骥

作者介绍:数据赋能者,专注数据分析 10 多年。

个人公众号:林骥(linjiwx)

本文为挖数网专栏作者原创文章,未经允许禁止转载,需要转载请微信联系授权(微信号:lovedata0520)

更多文章前往爱数据社区网站首页浏览http://www.itongji.cn/

  • 我的微信公众号
  • 微信扫一扫
  • weinxin
  • 我的微信公众号
  • 微信扫一扫
  • weinxin
匿名

发表评论

匿名网友 填写信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: