常用数据分析方法汇总(数据分析师必备)

爱数据精选
爱数据精选
爱数据精选
609
文章
0
评论
2021-02-2211:23:34 评论 1,305 6184字
摘要

聚类分析将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。其目的在于使类内对象的同质性最大化和类与类间对象的异质性最大化。

一、描述性统计

定义:描述性统计是一类统计方法的汇总,揭示了调查总体的数据分布特性。描述性统计分析要对调查总体所有变量的有关数据进行统计性描述,主要包括数据的频数分析、集中趋势分析、离散程度分析、分布以及一些基本的统计图形。

应用:

①数据的频数分析。在数据的预处理部分,利用频数分析和交叉频数分析可以检验异常值和缺失值。

②数据的集中趋势分析。用来反映数据的一般水平,常用的指标有平均值、中位数和众数等。

③数据的离散程度分析。主要是用来反映数据之间的差异程度,常用的指标有方差和标准差。

④数据的分布。在统计分析中,通常要假设样本所属总体的分布属于正态分布,因此需要用偏度和峰度两个指标来检查样本数据是否符合正态分布。

⑤绘制统计图。用图形的形式来表达数据,比用文字表达更清晰、更简明。在SPSS软件里,可以很容易地绘制各个变量的统计图形,包括条形图、饼图和折线图等。

常用数据分析方法汇总(数据分析师必备)

图1 描述性统计分析图例

二、回归分析

定义:回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。回归分析按照涉及的自变量的多少,分为回归和多重回归分析;按照自变量的多少,可分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。

应用:

①一元线性分析

如果在回归分析中,只包括一个自变量X和一个因变量Y,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。一个经济指标的数值往往受许多因素影响,若其中只有一个因素是主要的,起决定性作用,则可用一元线性回归进行预测分析。一元线性回归用途广泛,可处理科学技术的实验数据,也能用于经济现象:统计数据的分析预测。

常用数据分析方法汇总(数据分析师必备)

图2 用身高预测体重的散点图以及回归线

②多元线性回归分析

如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。事实上,一种现象常常是与多个因素相联系的,由多个自变量的最优组合共同来预测或估计因变量,比只用一个自变量进行预测或估计更有效,更符合实际。因此多元线性回归比一元线性回归的实用意义更大。

使用条件:分析多个自变量X与因变量Y的关系,X与Y都必须是连续型变量,因变量Y或其残差必须服从正态分布。

常用数据分析方法汇总(数据分析师必备)

图3 州府数据中因变量谋杀率与自变量人口、文化水平、收入水平以及结霜天数的散点图矩阵(包含线性和平滑拟合曲线,以及相应的边际分布)

③Logistic回归分析

线性回归模型要求因变量是连续的正态分布变量,且自变量和因变量呈线性关系,而Logistic回归模型对因变量的分布没有要求,一般用于因变量是离散时的情况。常用于预测分类变量,其中主要是二分类变量。

例如,探讨影响用户复购的关键因素,并根据关键因素预测用户复购行为发生的概率等。选择两组人群,一组是复购组,一组是非复购组,两组人群必定具有不同的特征与购买行为等。因此因变量就为是否复购,值为"是"或"否",自变量就可以包括很多了,如年龄、性别、购买频率、客单价、平均下单周期、购买品类占比情况等。自变量既可以是连续的,也可以是分类的。然后通过logistic回归分析,可以得到自变量的权重,从而可以大致了解到底哪些因素是产生复购行为的关键因素。同时可以根据关键因素预测用户复购的的可能性。从而可以通过运营策略去加大复购的可能性,提升店铺销量。

常用数据分析方法汇总(数据分析师必备)

图4 模型拟合图

④其他回归方法:非线性回归、有序回归、Probit回归、加权回归等。

三、方差分析

定义:方差分析用于两个及两个以上样本均数差别的显著性检验。 由于各种因素的影响,研究所得的数据呈现波动状。造成波动的原因可分成两类,一是不可控的随机因素,另一是研究中施加的对结果形成影响的可控因素。方差分析是从观测变量的方差入手,研究诸多控制变量中哪些变量是对观测变量有显著影响的变量。

使用条件:各样本须是相互独立的随机样本;各样本来自正态分布总体;各总体方差相等。

例如,在饲料养鸡增肥的研究中,某研究所提出的三种饲料配方A、B、C。应该选择哪种饲料,对鸡增肥效果好且便宜?目的是为了比较三种饲料配方下鸡的平均重量是否相等。特选24只相似的雏鸡随机均分为三组,每组各喂一种饲料,60天定期观测它们的重量并记录。得到三组雏鸡重量数据,比较这三组数据之间是否存在显著性差异。若相等,可任选一种饲料,特别是可以选廉价饲料;若不等,应选增肥效果好的饲料。同理,可运用到相似场景中。

应用

①单因素方差分析:

单因素方差分析是用来研究一个控制变量的不同水平是否对观测变量产生了显著影响。这里,由于仅研究单个因素对观测变量的影响,因此称为单因素方差分析。

例如,分析不同施肥量是否给农作物产量带来显著影响,考察地区差异是否影响妇女的生育率,研究学历对工资收入的影响等。这些问题都可以通过单因素方差分析得到答案。

②多因素方差分析:

多因素方差分析用来研究两个及两个以上控制变量是否对观测变量产生显著影响。这里,由于研究多个因素对观测变量的影响,因此称为多因素方差分析。多因素方差分析不仅能够分析多个因素对观测变量的独立影响,更能够分析多个控制因素的交互作用能否对观测变量的分布产生显著影响,进而最终找到利于观测变量的最优组合。

例如,分析不同品种、不同施肥量对农作物产量的影响时,可将农作物产量作为观测变量,品种和施肥量作为控制变量。利用多因素方差分析方法,研究不同品种、不同施肥量是如何影响农作物产量的,并进一步研究哪种品种与哪种水平的施肥量是提高农作物产量的最优组合。

③协方差分祈:

通过上述的分析可以看到,不论是单因素方差分析还是多因素方差分析,控制因素都是可控的,其各个水平可以通过人为的努力得到控制和确定。但在许多实际问题中,有些控制因素很难人为控制,但它们的不同水平确实对观测变量产生了较为显著的影响。

例如,在研究农作物产量问题时,如果仅考察不同施肥量、品种对农作物产量的影响,不考虑不同地块等因素而进行方差分析,显然是不全面的。因为事实上有些地块可能有利于农作物的生长,而另一些却不利于农作物的生长。不考虑这些因素进行分析可能会导致:即使不同的施肥量、不同品种农作物产量没有产生显著影响,但分析的结论却可能相反。这个时候就用到协方差分析。

四、假设检验

定义:假设检验(Hypothesis Testing)是数理统计学中根据一定假设条件由样本推断总体的一种方法。具体作法是:根据问题的需要对所研究的总体作某种假设,记作H0;选取合适的统计量,这个统计量的选取要使得在假设H0成立时,其分布为已知;由实测的样本,计算出统计量的值,并根据预先给定的显著性水平进行检验,作出拒绝或接受假设H0的判断。常用的假设检验方法有u-检验法、t检验法、χ2检验法(卡方检验)、F-检验法,秩和检验等。

应用:

①参数检验

参数检验对参数平均值、方差进行的统计检验,参数检验是推断统计的重要组成部分。

②非参数检验

非参数检验是统计分析方法的重要组成部分,它与参数检验共同构成统计推断的基本内容。参数检验是在总体分布形式已知的情况下,对总体分布的参数如均值、方差等进行推断的方法。但是,在数据分析过程中,由于种种原因,人们往往无法对总体分布形态作简单假定,此时参数检验的方法就不再适用了。非参数检验正是一类基于这种考虑,在总体方差未知或知道甚少的情况下,利用样本数据对总体分布形态等进行推断的方法。由于非参数检验方法在推断过程中不涉及有关总体分布的参数,因而得名为"非参数"检验。

非参数检验不考虑总体分布是否已知,常常也不是针对总体参数,而是针对总体的某些一般性假设(如总体分布的位罝是否相同,总体分布是否正态)进行检验。

主要方法包括:卡方检验、秩和检验、二项检验、游程检验、K-量检验等。

五、相关分析

定义

相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法。

相关关系是一种非确定性的关系,例如,以X和Y分别记一个人的身高和体重,或分别记每公顷施肥量与每公顷小麦产量,则X与Y显然有关系,而又没有确切到可由其中的一个去精确地决定另一个的程度,这就是相关关系。

应用

①确定现象之间有无相关关系以及相关关系的类型。对不熟悉的现象,则需收集变量之间大量的对应资料,用绘制相关图的方法做初步判断。从变量之间相互关系的方向看,变量之间有时存在着同增同减的同方向变动,是正相关关系;有时变量之间存在着一增一减的反方向变动,是负相关关系。从变量之间相关的表现形式看有直线关系和曲线相关,从相关关系涉及到的变量的个数看,有一元相关或简单相关关系和多元相关或复相关关系。

②判定现象之间相关关系的密切程度。通常是计算相关系数R及绝对值在0.8以上表明高度相关,必要时应对R进行显著性检验。

③拟合回归方程。如果现象间相关关系密切,就根据其关系的类型,建立数学模型用相应的数学表达式-----回归方程来反映这种数量关系,这就是回归分析。

④判断回归分析的可靠性。要用数理统计的方法对回归方程进行检验。只有通过检验的回归方程才能用于预测和控制。

⑤根据回归方程进行内插外推预测和控制。

常用数据分析方法汇总(数据分析师必备)图5 相关性分析图例

六、聚类分析

定义:聚类分析将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。其目的在于使类内对象的同质性最大化和类与类间对象的异质性最大化。

聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、K-均值聚类法、模糊聚类法、有序样品聚类法、分解法、加入法、动态聚类法和有重叠聚类等。

应用

①在商业上,聚类分析被用来发现不同的客户群,并且通过购买模式刻画不同的客户群的特征,常与用户画像相结合。聚类分析是细分市场的有效工具,同时也可用于研究消费者行为,寻找新的潜在市场、选择实验的市场,并作为多元分析的预处理。

②聚类分析在电子商务中网站建设数据挖掘中也是很重要的一个方面,通过分组聚类出具有相似浏览行为的客户,并分析客户的共同特征,可以更好的帮助电子商务的用户了解自己的客户,向客户提供更合适的服务。

③ 在保险行业上,聚类分析通过一个高的平均消费来鉴定汽车保险单持有者的分组,同时根据住宅类型,价值,地理位置来鉴定一个城市的房产分组。

④在生物上,聚类分析被用来动植物分类和对基因进行分类,获取对种群固有结构的认识。

常用数据分析方法汇总(数据分析师必备) 图6 聚类分析谱系图示例

七、判别分析

定义:判别分析又称"分辨法",是在分类确定的条件下,根据某一研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。

其基本原理是按照一定的判别准则,建立一个或多个判别函数,用研究对象的大量资料确定判别函数中的待定系数,并计算判别指标。据此即可确定某一样本属于何类。

当得到一个新的样品数据,要确定该样品属于已知类型中哪一类,这类问题属于判别分析问题。

应用

①给新用户打标签。在对已有用户分群归类的情况下,对于新进来的用户贴标签,便于后续对于新用户的运营。

②信息丢失。对于丢失的数据,可以依据整体的去判断填充。

②直接的信息得不到。

③预报。

常用数据分析方法汇总(数据分析师必备)

图7 判别分析的逻辑步骤框图

八、因子分析

定义:因子分析是指研究从变量群中提取共性因子的统计技术。最早由英国心理学家C.E.斯皮尔曼提出。他发现学生的各科成绩之间存在着一定的相关性,一科成绩好的学生,往往其他各科成绩也比较好,从而推想是否存在某些潜在的共性因子,或称某些一般智力条件影响着学生的学习成绩。因子分析可在许多变量中找出隐藏的具有代表性的因子。将相同本质的变量归入一个因子,可减少变量的数目,还可检验变量间关系的假设。

应用

①通过因子得分可以得出不同因子的重要性指标,而管理者则可根据这些指标的重要性来决定首先要解决的市场问题或产品问题。

②在对数据进行处理时,可对数据进行降维处理。

九、主成分分析

定义:主成分分析将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法。又称主分量分析。

通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。其主要思想是降维,将n维特征映射到k维上(k<n),k维是全新的正交特征。这个k维特征称为主元,是重新构造出来的k维特征,而不是简单地从n维特征中去除其余n-k维特征。

主成分分析和因子分析的区别:

因子分析法与主成分分析法都属于因素分析法,都基于统计分析方法,但两者有较大的区别:主成分分析是通过坐标变换提取主成分,也就是将一组具有相关性的变量变换为一组独立的变量,将主成分表示为原始观察变量的线性组合;而因子分析法是要构造因子模型,将原始观察变量分解为因子的线性组合。通过对上述内容的学习,可以看出因子分析法和主成分分析法的主要区别为:

①主成分分析是将主要成分表示为原始观察变量的线性组合,而因子分析是将原始观察变量表示为新因子的线性组合,原始观察变量在两种情况下所处的位置不同。

②主成分分析中,新变量Z的坐标维数j(或主成分的维数)与原始变量维数相同,它只是将一组具有相关性的变量通过正交变换转换成一组维数相同的独立变量,再按总方差误差的允许值大小,来选定q个(q<p)主成分;而因子分析法是要构造一个模型,将问题的为数众多的变量减少为几个新因子,新因子变量数m小于原始变量数P,从而构造成一个结构简单的模型。可以认为,因子分析法是主成分分析法的发展。

应用

①主成分分析能降低所研究的数据空间的维数。即用研究m维的Y空间代替p维的X空间(m<p),而低维的Y空间代替 高维的x空间所损失的信息很少。即:使只有一个主成分Yl(即 m=1)时,这个Yl仍是使用全部X变量(p个)得到的。例如要计算Yl的均值也得使用全部x的均值。在所选的前m个主成分中,如果某个Xi的系数全部近似于零的话,就可以把这个Xi删除,这也是一种删除多余变量的方法。

②有时可通过因子负荷aij的结论,弄清X变量间的某些关系。

③多维数据的一种图形表示方法。我们知道当维数大于3时便不能画出几何图形,多元统计研究的问题大都多于3个变量。要把研究的问题用图形表示出来是不可能的。然而,经过主成分分析后,我们可以选取前两个主成分或其中某两个主成分,根据主成分的得分,画出n个样品在二维平面上的分布况,由图形可直观地看出各样品在主分量中的地位,进而还可以对样本进行分类处理,可以由图形发现远离大多数样本点的离群点。

④由主成分分析法构造回归模型。即把各主成分作为新自变量代替原来自变量x做回归分析。

⑤用主成分分析筛选回归变量。回归变量的选择有着重的实际意义,为了使模型本身易于做结构分析、控制和预报,好从原始变量所构成的子集合中选择最佳变量,构成最佳变量集合。用主成分分析筛选变量,可以用较少的计算量来选择量,获得选择最佳变量子集合的效果。

End

作者:数据宝典(微信公号:数据宝典)

公号介绍:数据分析知识分享,以及案例总结分享。在数据分析道路上,学无止境,终身成长

本文为整理转载分享,如果涉及作品、版权和其他问题,请联系我们第一时间删除(微信号:lovedata0520)

  • 我的微信公众号
  • 微信扫一扫
  • weinxin
  • 我的微信公众号
  • 微信扫一扫
  • weinxin
匿名

发表评论

匿名网友 填写信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: