什么是数据标准化、中心化、归一化?SPSS又如何实现?

数据小兵
数据小兵
数据小兵
64
文章
0
评论
2020-04-1803:05:00 评论 2,353 774字
摘要

在统计分析、数据挖掘过程中,经常性的接触到数据的标准化处理、数据中心化处理,还有数据归一化处理,那么它们各自是什么意思?如何通过SPSS软件实现呢?

一.标准化

大型数据分析项目中,数据来源不同,量纲及量纲单位不同,为了让它们具备可比性,需要采用标准化方法消除由此带来的偏差。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。这就是数据标准化。 基本原理:数值减去平均值,再除以其标准差,得到均值为0,标准差为1的服从标准正态分布的数据。 在SPSS中,使用最多的就是Z-score标准化(0-1标准化)方法,这种方法给予原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。经过处理的数据符合标准正态分布,即均值为0,标准差为1。 SPSS具体操作是在【描述统计】菜单中完成,此时必须要勾选下方的【将标准化值另存为变量】,标准化后的新变量将保存在数据视图下原始数据最后一列,变量名称以大写字母Z开头。

什么是数据标准化、中心化、归一化?SPSS又如何实现?
什么是数据标准化、中心化、归一化?SPSS又如何实现?

二.中心化

数据的中心化是指原数据减去改组数据的平均值,经过中心化处理后,原数据的坐标平移至中心点(0,0),该组数据的均值变为0,以此也被称为零均值化。 简单举例:譬如某小公司老板员工共5人,5人的工资,分别为12000、5000、8000、3000、4000元,这5个数据作为一个独立的数据集,平均值为6400元,每个人的工资依次减去平均水平6400,得到5600、-1400、1600、-3400、-2400,新的5个数据其平均值等于0,这个过程就是数据的中心化。 在SPSS中,使用【计算变量】菜单,可衍生出一个新变量,输入表达式即可完成,新变量可以在数据视图下看到。

什么是数据标准化、中心化、归一化?SPSS又如何实现?
什么是数据标准化、中心化、归一化?SPSS又如何实现?

三.归一化

归一化,也算是数据标准化方法之一。常见的计算公式如下,得到新数据范围在[0,1]之间,归一化由此得名。

什么是数据标准化、中心化、归一化?SPSS又如何实现?

归一化处理,在SPSS中可以通过【计算变量】菜单来实现,在表达式中输入相应的计算公式即可。

什么是数据标准化、中心化、归一化?SPSS又如何实现?

End.作者:数据小兵来源:博客本文均已和作者授权,如转载请与作者联系。

  • 我的微信公众号
  • 微信扫一扫
  • weinxin
  • 我的微信公众号
  • 微信扫一扫
  • weinxin
匿名

发表评论

匿名网友 填写信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: