统计学 | 5步操作+1个例子,轻松掌握对应分析!

挖数网精选
挖数网精选
挖数网精选
352
文章
0
评论
2020-06-1613:06:00 评论 179 2514字
摘要

对应分析:对应分析也称关联分析、R-Q型因子分析,是近年新发展起来的一种多元相依变量统计分析技术,通过分析由定性变量构成的交互汇总表来揭示变量间的联系。可以揭示同一变量的各个类别之间的差异,以及不同变量各个类别之间的对应关系。

对应分析:对应分析也称关联分析、R-Q型因子分析,是近年新发展起来的一种多元相依变量统计分析技术,通过分析由定性变量构成的交互汇总表来揭示变量间的联系。可以揭示同一变量的各个类别之间的差异,以及不同变量各个类别之间的对应关系。

对应分析是解决分类变量间关系这个复杂问题的有力武器。也称为相应分析,是一种多元统计分析方法,目的是在同时描述各变量分类间关系时,在一个低维度空间中对对应表中的两个分类变量进行关系的描述。

常见应用领域如市场研究分析、竞争分析等。

一.问题与数据

对于观影体验来说,不同人群对于自身喜好的电影类型是不同的,假设某个电影院运营方收集了以下数据。

统计学 | 5步操作+1个例子,轻松掌握对应分析!

数字表示人数,仅从交叉表内数据大小按照热度区分的话,效果大概是这个样子,红色越深的格子表示人数越多:

统计学 | 5步操作+1个例子,轻松掌握对应分析!

通过热力图可以进行初步分析,不同年龄段对于不同的电影类别的喜好是不同的,貌似都主要喜欢动作片和悬疑片,其他的并没有什么其他的发现。

统计学 | 5步操作+1个例子,轻松掌握对应分析!

统计学 | 5步操作+1个例子,轻松掌握对应分析!

可视化的效果要比前面热图好很多,给人的直观感觉是,各个年龄段好像对悬疑片感兴趣,对爱情片好像不怎么感兴趣。其他类型的片子差别不是太明显。

经过以上两种图示化方法的预处理,我们能从其中总结各个年龄段对于不同类型的电影喜好不同,但其他的信息提供的不多。

二.对问题的分析

我们观察该部分的数据,不同年龄的人群对于每个电影类型的喜好不是单一的,有人喜欢单一类型的电影,有人喜欢多种类型的电影,有人但凡是电影都喜欢,所以,我们用单一的数图和百分比分析可能会损失较多的信息。

想要进一步了解不同年龄和电影喜好之间的关系,对应分析是不错的选择。

三.SPSS操作

步骤1:案例数据导入SPSS软件

SPSS对应分析对数据的要求是按变量存储,一般包括3个变量,2个名义变量和1个频数变量,如果原始数据在Excel文件中是一个二维表,需要首先将其转换为一维表格,再导入SPSS软件。

统计学 | 5步操作+1个例子,轻松掌握对应分析!

步骤2:数据加权

我们的分析任务是搞清楚不同年龄段和电影类别喜好两个名义变量的关系,要对他们进行量化考察,需要用频数数据加权,SPSS数据视图下,依次点击菜单【数据】→【个案加权】,将频数数据移入右侧【频率变量】框内,对年龄段和电影类别两个变量进行加权。

统计学 | 5步操作+1个例子,轻松掌握对应分析!

步骤3:对应分析主面板参数设置

菜单栏中依次点击【分析】→【降维】→【对应分析】,打开对应分析主面板,依次将【age】【type】两个名义变量移入行和列框内。

统计学 | 5步操作+1个例子,轻松掌握对应分析!

点击下方【定义范围】按钮,以定义行范围为例,行变量【age】有4个分类水平,标签值从小到到依次为1-4,所以最小值输入数字"1",最大值输入数字"4",然后点击右侧【更新】按钮,此时下方的【类别约束】框内自动出现1-5一个序列,类似操作,完成对列变量范围的定义。点击【继续】返回主面板。

统计学 | 5步操作+1个例子,轻松掌握对应分析!

统计学 | 5步操作+1个例子,轻松掌握对应分析!

步骤4:对应分析模型参数设置

在主面板上点击【模型】按钮,打开模型对话框。

一般默认采取2维,距离测量勾选【卡方】。对应分析也是一种降维技术,通常选择在一个二维表和二维图形中考察分类变量间的关系。

行和列变量间的距离测度软件默认选择【卡方】,当用卡方测量距离时,SPSS软件只默认选择【除去行列平均值】作为标准化方法。

最底部的【正态化方法】相对比较复杂,理解起来有一定难度,建议选择软件默认选项【对称】,检查两个变量分类间的差异或相似。

点击【继续】按钮,返回主面板。

统计学 | 5步操作+1个例子,轻松掌握对应分析!

步骤5:对应分析统计参数设置

软件默认勾选【对应表】【行点概述】【列点概述】,点击【继续】按钮,返回主面板。

统计学 | 5步操作+1个例子,轻松掌握对应分析!

步骤6:对应分析图参数设置

对应分析最重要的结果之一,就是对应图,主面板上点击【图】按钮,打开图对话框,散点图选项中默认勾选【双标图】,也就是我们最终想要的对应图了。其他默认设置,点击【继续】按钮,返回主面板。

最后在主面板中点击【确定】按钮,SPSS软件开始执行对应分析。

四.结果解释

结果1 对应表

统计学 | 5步操作+1个例子,轻松掌握对应分析!

对应表实际上就是交叉表,行与列交叉的单元格显示为频数,行与列的活动边际,具体为对应行和列的和。对应表看看即可,了解一下,不用深究。

结果2 模型摘要表

模型摘要表是关键结果之一,重点考察。

统计学 | 5步操作+1个例子,轻松掌握对应分析!

此表类似于因子分析的总方差表,第一列【维】较抽象,可以理解为因子分析的因子,第2-5列分别为奇异值、惯量、卡方值及sig值,随后给出各个维度所能解释两个变量关系的百分比。

首先来看卡方检验的结果,卡方值=125.567,显著性Sig值=0.000<0.01,表明此次分析的两个名义变量,不同年龄和电影类别不完全独立,存在一定关系,这和前面交叉表卡方检验结果一致。

卡方检验通过之后,再来解读对应分析的其他结果更有意义。

摘要表数据表明,前两个维度累积惯量可解释92.5%的信息,效果非常不错,此次分析较成功。

结果3 行/列点总览

这两个表格,主要输出各类别在各维度上的得分,后续最重要的对应图,将依据这两组维度得分进行绘制。

统计学 | 5步操作+1个例子,轻松掌握对应分析!

统计学 | 5步操作+1个例子,轻松掌握对应分析!

结果4 对应图

对应分析关键结果之一,重点考察。

统计学 | 5步操作+1个例子,轻松掌握对应分析!

模型摘要表中,我们已经确认前两个维度解释能力很棒,那么SPSS软件默认将采用这两个维度的得分制作二维散点图,也就是现在的对应图。

此时我们可以看到,不同年龄的4个类别和电影类别的5个类别被标记为不同的颜色进行区分,年龄点和电影点间距离有远有近,距离的远近包含了它们之间的关系。(这里涉及了数学中的马氏距离等概念,不深究)

五.撰写结论

总体观察来看,容易发现50岁年龄段和动作片较近,可以理解为该年龄段更倾向于动作片;而30岁年龄段和悬疑片的距离比较近,说明该年龄段更喜欢悬疑类型的电影。爱情片在30岁和18岁年龄段均有涉及,说明爱情片在低年龄段更加受欢迎。40岁和喜剧片和更为接近,说明40岁年龄段更需要喜剧片进行解压。18岁年龄段和恐怖片和爱情片都接近,更倾向于这两种类型电影。

六.更多阅读

这里分析的是比较简单的对应分析,但是现实的市场调查和实验研究中,考虑的因素会非常多,会涉及到多维统计,我们试想,如果在本例的数据中再添加一个变量-不同职业,分析的难度和图形解释会变得复杂许多。——多因素的对应分析

End.

作者:赵否羲

作者介绍:中国统计网特邀作者,卫生行业的数据分析工作者,对统计理论和实验研究设计者有着丰富的实战经验

公众号:数图之间

本文为中国统计网作者原创文章,转载请在公众号后台联系小编

  • 我的微信公众号
  • 微信扫一扫
  • weinxin
  • 我的微信公众号
  • 微信扫一扫
  • weinxin
匿名

发表评论

匿名网友 填写信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: