统计学新手必知必会:1文带你走进数据分析!(下)

挖数网精选
挖数网精选
挖数网精选
446
文章
0
评论
2020-07-0813:07:00 评论 1,415 3845字
摘要

本文将从结合实际工作的案例来介绍在日常工作中的哪些数据分析方法、概念应该在什么时候使用,通过直白的语言来带领大家走入数据分析领域。

第四节:回归分析

1.什么是回归分析?

在统计学中,回归分析(regression analysis)指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。回归分析按照涉及的变量的多少,分为一元回归和多元回归分析;按照因变量的多少,可分为简单回归分析和多重回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。

转化为通俗易懂的文字,你可以这样理解:回归分析就是通过一个已知的现象来找到未知的原因,它可以通过严格的数学分析复原出每种原因对结果的贡献比例。

伦敦大学公共卫生学院曾经组织过一项著名的"白厅研究",医学家们发现英国政府里低级别的公务员患上心脏病的概率比他们的上司更高。白厅研究就是要找出这背后的真实原因,这个研究显然不能用随机抽样的方法来实现,因为我们不可能把各个志愿者强行分配到各个工作岗位工作几年,然后再看哪些人因公殉职了。研究人员只能在很长一段时间里对数千名公务员进行详细的数据采集,来对比各类导致心脏病的可能因素。

回归分析的数学过程比较复杂,幸好我们现在有了成熟的多元线性回归方程模型可以套用,我们要做的就是将多个变量的取样结果带入回归方程式,计算结果就会显示出我们关注的变量和心脏病发病率的线性关系(回归分析软件:SAS、SPSS、BMDP等)。

事实上当前科学界绝大多数的研究结论都是以回归分析作为基础的。尤其是回归分析软件的普及,让建立模型和解析方程变得很简单,但同时也要注意电脑永远不能代替人的工作,如果我们在进行回归分析时遗漏的变量或者忽视反面因素,回归分析就会得出危险的结论。

下面我们使用IBM公司开发的"统计产品与服务解决方案"软件SPSS(Statistical Product and Service Solutions)做一个简单的实例,给大家介绍如何使用SPSS做回归分析的方法。回归分析的方法包括:线性回归、逻辑回归、多项式回归、逐步回归等很多种,本次我们就拿就常用的线性回归结合案例来给大家讲解:年龄和血压的关系。

开始之前,我们先了解一下线性回归到底是怎么回事?它能做什么?

2.线性回归的意义

线性回归包含:一元线性回归和多元线性回归。一元线性回归又叫做简单线性回归,主要用于判断是否能通过回归模型找到一个"线性组合",从而证明一组变量(因变量和自变量)的关系。如果能的话,这种关系的强度有多大,也就是利用自变量的线性组合来预测因变量的能力有多强?整体解释能力是否具有统计上的显著性意义?在整体解释能力显著的情况下,哪些自变量有显著的意义?

3.回归分析的步骤

  • 确定回归方程中的解释变量(自变量)和被解释变量(因变量)
  • 确定回归模型——选择合适的数学模型概括回归线
  • 确定回归方程——根据样本数据及确定的回归模型,在一定的统计拟合准则下估计模型的参数,得到确定的回归方程
  • 对回归方程进行各种检验——基于样本得到的回归方程是否真实反映了总体间的统计关系?回归方程能否用于预测?
  • 利用回归方程进行预测

一元线性回归模型:

统计学新手必知必会:1文带你走进数据分析!(下)

模型说明:

统计学新手必知必会:1文带你走进数据分析!(下)

  • X为自变量
  • Y为因变量
  • Y的截距,即常量
  • 斜率为回归系数,表明自变量对因变量的影响程度

对一元线性回归有所了解以后,我们就拿就用它结合一个简单的案例:年龄和血压的关系,创建一个具体的实例。

第一步:导入数据

打开SPSS导入需要分析的表格

统计学新手必知必会:1文带你走进数据分析!(下)

第二步:生成散点图

统计学新手必知必会:1文带你走进数据分析!(下)

选择"简单散点图",得到以下图形:

统计学新手必知必会:1文带你走进数据分析!(下)

通过散点图观察变量间的趋势。如果有多个变量则做出散点图矩阵、重叠散点图和三维散点图。

第三步:分析结果

统计学新手必知必会:1文带你走进数据分析!(下)

统计学新手必知必会:1文带你走进数据分析!(下)

因变量是结果,自变量是原因。在这个实例中我们可以理解为年龄影响血压。当然这里要加个疑问,因为我们是分析嘛,在得到最终的结果之前这只是一个假设。

右侧点击【统计】按钮,在弹出的界面做如下勾选

统计学新手必知必会:1文带你走进数据分析!(下)

点击右侧【图】按钮,有些版本叫【绘制】,做如下配置

统计学新手必知必会:1文带你走进数据分析!(下)

这两项配置完成后点击主界面的【确定】按钮就可以得到输出结果,我们只截取部分比较重要的图标来做讲解。

统计学新手必知必会:1文带你走进数据分析!(下)

注:软件原因"德宾-沃森"英文实际为:Durbin-Watson

调整R方就是反映这个模型的拟合度的,简单说就是我们拟合的两个变量之间的线性方程与两个变量真实之间关系的一个拟合度。拟合度通常是在0-1之间的数字。

统计学新手必知必会:1文带你走进数据分析!(下)

anova也叫方差分析,主要目的是衡量年龄是否能够显著的影响血压

统计学新手必知必会:1文带你走进数据分析!(下)

以上图标说明年龄对血压的影响是正向的(0.881),也就是说年龄越大血压越高。年龄每增加1分,血压总分就会增加0.881分,这就是自变量和因变量之间的一个定量的影响关系。

当然判断的依据和数据维度以及最后结果的几个关键值都有密切关系,加入分析的自变量是否正确、数量多少等因素对结果也会产生影响。网上有很多专门介绍线性回归的资料教程,在这里不再详细描述,建议大家多看多动手多思考,统计学虽然入门比较简单,但是要真正应用到实际工作中还是需要一定的实际分析经验的。

统计学看似简单,但不是每个人都可以成为数据分析师。统计学既可以给结论或想法提供支持,更可以给错误的结论披上外衣,这就是下一节要说的:常犯的概率学错误。

第五节:常犯的概率学错误

1."黑天鹅"事件

统计学新手必知必会:1文带你走进数据分析!(下)

17世纪之前的欧洲人认为天鹅都是白色的,甚至经常用"世界上没有黑色的天鹅"这句谚语去讽刺那些无中生有的人。但随着第一只黑天鹅在澳大利亚被发现,这句谚语就变成了笑谈,现在"黑天鹅"一般用来指那些影响很大但难以预测的小概率事件。通过这个例子我们可以了解,忽略那些小概率事件,会造成多么严重的后果。

统计学新手必知必会:1文带你走进数据分析!(下)

2008年美国次贷危机爆发之前,整个北美金融行业都在使用同一个风险价值模型来预测投资风险。这个模型的强大之处在于它非常精确,它能把华尔街每家公司的资产都进行严格的概率学分析,给出预期收益和损失值。并且还能给这些海量的市场信息整合成一个简洁的风险指标提供给美联储和财政部参考,比如分析了以往市场变动数据后,金融家会根据这个模型给出某项投资在特定周期内可能让公司蒙受的损失,而这种预测可以覆盖高达99%的市场风险。

然而这个模型有一个被忽略的致命问题,它的概率学模型参照的是过去20年的市场行为,不能对未知以外情况作出预测,所以它预测不了黑天鹅的出现。

这只黑天鹅就是2007年美国商业银行放贷业务的崩溃,虽然它发生的概率只有不到1%,但悲剧确实发生了。直接导致了一次全球大范围的金融危机,失业率达到了10%,很多国家和政府都陷入了债务危机,这就是小概率重大事件的破坏力。

难道这是概率学本身出问题了吗?显然不是,模型已经告诉了我们有1%的风险无法预测,客人们仍然选择了无视。所以,最大的风险永远都不是那些我们能看得见算得出的,而是那些看上去似乎概率很小,我们认为一辈子都不可能发生的风险,但它的确发生了,而且比我们想象的要频繁的多。

案例小结:忽略小概率事件,有时会造成严重的后果

除了黑天鹅还有一个我们容易忽视的问题:统计误差,统计学虽然有着严谨的数学计算,但它并不是完美无缺的。我们通过分析数据推断出的结论永远不会是100%正确的,只要数据分析建立在抽样调查之上,样本的统计结果和正式情况之间就会存在误差。虽然随着样本数量的增大,实验次数的增多,这样的误差会接近于零,但即使误差再小,也不能忽视它的存在。

比如第2节介绍的中心极限定理:警察通过计算车内乘客的体重分布,有99%的把握估计那些体重较大的乘客不是铁人三项选手,但这个推理还有1%的概率是错的,原因就在于铁人三项运动员体重样本的平均值虽然会接近整体的平均值,但并不能说二者完全相等。就好像从一棵树上摘的苹果,如果进行精确的化学分析他们的成分和甜度总会有细微的不同。这就是统计误差的含义,我们不可能通过数据得出完全确凿的真相,只能通过合理控制误差来无限接近真相。

2.检方谬误

另外举一个有趣的例子:检方谬误。假设你是一名法官,听到公诉人陈述这样的事实"犯罪现场遗留的DNA样本和被告的DNA相吻合,除了被告以外这个样本和其他人吻合的概率只有百万分之一,在这个证据的基础上你能为被告人定罪吗?

这时候如果你忽略百万分之一的误差就可能会让无辜的人锒铛入狱,这是因为误差看似很小,但警方的DNA样本库数量非常庞大,通过样本比对找到两个DNA特征相似的人并不是不可能的,所以给犯罪分子定罪时,不能死守着概率这种破案工具而忽略了性别、年龄、社会关系等其它线索。

在现实中其实也是一样的,对那些意义重大的可研结论,人们往往对概率计算有精确的要求,比如物理学家在探测引力波是否真实存在的时候,总计花费了数十亿美元用20多年时间来建造探测器,目的就是必须要把实验误差控制在一个极其微小的数量级。事实上这个探测器能探测到小数点后21位,10的负21次幂这个尺度上的引力波变化,爱因斯坦一个多世纪前的预言才最终得到了有说服力的证明。

案例小结:通过统计数据推断出的结论,必定存在误差,不会100%正确。即使误差再小,也不能忽视它的存在。

黑天鹅事件和检方谬误充分说明人们对小概率事件和微小误差的错误认识,会让看似精确的概率计算误入歧途。精确有时候并不意味着准确,客观事实和我们对概率的直观感受往往是有差异的。概率学本身不会犯错,错误的是使用它的人。

其实在近代历史中还存在很多与黑天鹅事件类似的事情,比如:9.11事件,泰坦尼克号、日本地震、中国雪灾、光大乌龙等,这些事件的发生大多都是因为忽略小概率事件而引起的,有兴趣的朋友可以去详细了解。好了,本章内容到这里就全部讲完了,感谢大家阅读。

End.

作者:Mykite

来源:人人都是产品经理

本文为转载分享,如侵权请联系后台删除

  • 我的微信公众号
  • 微信扫一扫
  • weinxin
  • 我的微信公众号
  • 微信扫一扫
  • weinxin
匿名

发表评论

匿名网友 填写信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: