别错过,卡方检验实用总结!

数据分析学习社
数据分析学习社
数据分析学习社
206
文章
0
评论
2021-05-2812:22:05 评论 60 2783字
摘要

本文为卡方检验的总结

 

通常情况下,卡方检验是研究分类数据与分类数据之间关系的分析方法,如性别和是否戴隐形眼镜之间的关系。卡方检验通常会涉及卡方值和P值两个名词术语。卡方值与P值有对应关系,P值小于0.05则说明有差异存在,即性别与是否戴隐形眼镜之间有联系。在具体差异分析的基础上,进一步分析不同性别样本戴隐形眼镜的百分比,例如,男性戴隐形眼镜的百分比为30%,而女性戴隐形眼镜的百分比为50%,说明女性样本戴隐形眼镜的比例要明显高于男性样本。

 

除此之外,卡方检验(准确说是卡方拟合优度检验)还可以检验定类数据的分布特征是否与预期保持一致。比如本来预计男性和女性的比例各占一半(50%),但收集回来的数据却是45%和55%,那么收集回来的数据是否就明显的偏差预期(50%)呢?此时也可以使用卡方检验。

 

卡方检验在实际使用过程中,还可用于问卷多选题的分析(也称作多重响应分析),比如多选题的选择比例是否均匀,也或者单选题和多选题之间的差异关系情况如何呢,均可使用卡方检验进行分析。下表格为卡方检验的实际使用类型说明:

 

别错过,卡方检验实用总结!
卡方检验实际应用

 

一. 卡方检验理论说明

通常理解的卡方检验,其检验目的在于定类和定类数据的差异。比如性别和是否戴眼镜的关系,性别和是否戴眼镜都是定类数据,因此可以研究性别和是否戴眼镜的比例是否有明显的差异性。

除此之外,还有一种卡方检验(准确说是卡方拟合优度检验),其目的是研究定类数据各选项的分布比例上是否有着差异性,比如性别男和女预期是50%和50%,那事实上的样本是否明显的偏离这一比例呢,这种即卡方拟合优度检验。

在问卷研究里面,有很多的多选题,多选题各项的比例是否均匀呢?那么就可以利用卡方拟合优度检验进行分析(SPSSAU默认提供);如果想研究单选题和多选题的选择差异关系,那么这种是研究定类数据和定类数据的差异性,SPSSAU默认也提供卡方检验结果。

 

二. 如何使用SPSSAU进行卡方检验

别错过,卡方检验实用总结!
卡方检验SPSSAU操作

 

1. 绝大多数情况下,均是直接研究定类和定类数据差异,SPSSAU共有两个地方可实现,分别是通用方法里面的"交叉(卡方)"和医学研究里面的卡方检验。如果是汇总数据,即加权数据,此时只能使用【医学研究->卡方检验】,同时,如果希望提供更多详细的数据指标,比如自由度,列联系数,Cramer V等,均需要使用医学研究里面的卡方检验。

2.如果是进行卡方拟合优度检验,即研究定类数据选项占比差异,此时应该使用医学研究里面的卡方拟合优度检验。操作如下图所示:

 

别错过,卡方检验实用总结!

 

默认SPSSAU会假定选项的选择比例完全一致,即男和女的比例是50%和50%。如果预期是40%和60%,那么可对"期望值设置(默认相等)"这个按钮进行设置,如下图:

 

别错过,卡方检验实用总结!

 

3.如果是问卷研究里面的多选题操作,直接使用SPSSAU问卷研究里面对应多选题的按钮即可,比如下图:

 

别错过,卡方检验实用总结!

如果是希望研究多选题的选择比例和选择差异情况,那么直接使用‘多选题’

如果是研究单选题和多选题的差异情况,使用‘单选-多选’

如果是研究多选题和单选题的差异情况,使用‘多选-单选’

如果是研究多选题和多选题的差异情况,使用‘多选-多选’

 

特别说明一点:多选题的数据格式非常特殊,一个选项一个标题,比如5个选项就有5个标题,而且需要使用数字标识‘选中’还是‘没有选中’,一般情况下数字1表示‘选中’,数字0表示‘没有选中’。

如果原始数据使用数字表示选中,null值表示没有选中,那么需要把null值全部替换成数字0,可使用SPSSAU【数据处理->异常值功能】进行批量处理,把null值即缺失值填补成数字0即可。

 

别错过,卡方检验实用总结!

 

三. 卡方检验相关问题?

使用卡方检验时,数据格式非常重要,因为SPSSAU支付加权和非加权两种格式,而且有时想利用卡方检验查看相关关系情况,此时还需要看一些新的指标,比如列联系数、Cramer V或Lambda指标等。当然还会有一些其它问题,汇总如下图:

 

别错过,卡方检验实用总结!

 

1.卡方检验数据格式问题?

SPSSAU共支持2种数据格式,分别是常规数据格式(非加权格式)和加权格式,如下说明:

 

别错过,卡方检验实用总结!

 

上图为常规格式(即非加权格式),一行代表一个样本,一列代表一个属性,将全部的原始数据信息列出即可,比如有100个样本,那么就有100行数据。

 

在医学/实验研究时,很多时候只有汇总数据,即带加权项的数据,比如下图中X有2种情况,Y有3个情况,一种有2*3=6种组合,数据信息只有6种组别的汇总项(即加权项),分别是40,10,20,30,20,50;相当于总共有170个样本,如果是使用常规格式(即非加权格式),此时应该有170行;但加权格式则只需要6行即可表示,如下图:

 

别错过,卡方检验实用总结!

 

在使用SPSSAU【医学研究->卡方检验】,也或者【医学研究->卡方拟合优度检验】时,SPSSAU均支持加权数据格式。一旦数据是加权格式,那么分析时需要把‘加权项’放到对应的框中即可。

 

2.fisher卡方值问题?

在SPSSAU的【医学研究->卡方检验】里面,如果数据是2*2格式,比如性别为男和女2个选项,学历分为本科以下和本科以上共2个选项。那么此时为2*2的组合,此时spssau默认会提供fisher卡方检验值。

 

当然,SPSSAU还会提供一些其它的卡方指标值,包括pearson卡方,连续校正卡方,各选择单元格的期望值和比例值等中间过程值等等(当然具体应该使用那一个,SPSSAU会自动进行判断和选择),下图仅为中间过程值等。

 

别错过,卡方检验实用总结!

 

3.相关关系问题?

如果希望看出差异的幅度,而不仅仅是看是否有差异。除了使用肉眼进行分析,即对比选择百分比的具体值情况进行分析外。还可以使用效应量(effect size),effect size值通常包括Phi、列联系数、校正列联系数、Cramer V和Lambda等。此五个系数的意义都是查看差异幅度,但使用的前提并不一样,通常只需要使用其中一个即可,具体使用的标准和说明如下:

 

别错过,卡方检验实用总结!

 

4.到底用卡方,还是方差,也或者非参数检验?

有时候会出现一种疑问,比如看下面的例子。

当前想研究性别和满意度的差异关系,满意度分为"非常不满意、比较不满意、一般、满意和非常满意"共五项。满意度看上去更像是定量数据,而非定类数据,但看成是定类数据也可以。

那么此时到底用卡方呢,还是使用方差(也或者非参数检验呢?)。其实这里的满意度是一种有序的定类数据,一般这种数据可能看成是定量更多,即使用方差分析更适合(当然也可使用卡方检验)。

但比如医学里面有这样的数据"未见疗效,好转和治愈",这个也是有序的定类数据,这个仅3项,看成是定类数据就更适合了,所以使用卡方检验较好。

End.

作者:SPSSAU

转载如果涉及作品、版权其他问题请联系我们第一时间删除微信号:lovedata0520)

更多文章前往首页浏览http://www.itongji.cn/

 

  • 我的微信公众号
  • 微信扫一扫
  • weinxin
  • 我的微信公众号
  • 微信扫一扫
  • weinxin
匿名

发表评论

匿名网友 填写信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: