数据分析基础—分组分析法

挖数网精选
挖数网精选
挖数网精选
446
文章
0
评论
2020-04-1710:05:00 评论 1,269 1466字
摘要

分组分析法是根据目标数据的性质、特征,按照一定指标,将数据总体划分成几个部分,分析其的内部结构和相互关系,从而了解事物的发展规律。

一.分组分析法的分类

根据指标的性质,分组分析法分为属性指标分组和数量指标分组。

数据分析基础—分组分析法

属性指标所代表的数据不能进行运算,只是说明事物的性质、特征。如人的姓名、部门、性别、文化程度等指标。

数量指标所代表的数据能够进行加减乘除运算,说明事物的数量特征,如人的年龄、工资水平、企业的资产等指标。

1.属性指标分组分析法

按属性指标分组一般较简单,分组指标一旦确定,组数、组名、组与组之间的界限也就确定。例如,人口按性别分为男、女两组,具体到每一个人应该分在哪一组是一目了然的。

对一些复杂问题的分组,称为统计分类。统计分类是相对复杂的属性指标分组方法,需要根据数据分析的目的,统一规定分类标准和分类目录。例如:反映国民经济结构的国家工业部门分类,它是先把工业分为采掘业和制造业两大部分,然后再分为大类、中类、小类三个层次。

2.数量指标分组分析法

数量指标分组分析法是指选择数量指标作为分组依据,将数据总体划分为若干个性质不同的部分,分析数据的分布特征和内部联系。

它分为单项式分组和组距式分组。

二.单项式分组

单项式分组一般适用于离散型数据*,而且数据值不多、变动范围较小的情况。每个指标值就是一个组,有多少个指标值就分成多少个组。如按产品产量、技术级别、员工工龄等指标分组。

例如:某企业成立三年,现有员工300人,以员工工龄指标作为分组依据,可以分成三组,工龄一年的员工75人,工龄二年的员工135人,工龄为三年的员工90人。

三.组距式分组

组距式分组是指数据的变化幅度较大的条件下,将数据总体划分为若干个区间,每个区间作为一组,组内数据性质相同,组与组之间的性质相异。

组距式分组需要确定几个关键的分组要素:组数、组距、组限、组中值。

例如:某企业有员工300人,通过年龄指标进行分组,统计员工年龄分布情况,分析员工年龄结构是否合理,结果如图所示:

1.组数

组数即分组个数。通过总体数据的多少来分析确定,组数既不能太少,也不宜太多,应该保证各组都能有足够的单位数据。如组数太少,数据分布就会过于集中,组数太多,数据的分布就会过于分散,不能正确反映数据的分布特征。

结合上面案例:组数为4组

2.组限

组限是用来表示各组之间界限的数据值。其中,在每一组中最小的数据值为下限;最大的数据值为上限。

结合上面案例:组限为每一组的两端值,这里有一个"上组限不在内"原则,即每一组的上限不算在本组内,而算在下一组内,例如;员工年龄30~40这一组,其中40岁的员工人数不算在该组,而是算在40~50这一组。

3.组距

组距是指每一组的上限与下限之间的距离,即:组距 =上限 -下限

组距式分组中,各组组距都相等的分组称为等距分组,各组组距不相等的分组则称为不等距组。

结合上面案例:组距为10

4.组中值

组中值即每组上下限的中点值,它是各组数据值的代表值。在假定各组数据在本组内呈均匀分布的情况下,组中值 = ( 上限 +下限 ) ÷ 2

结合上面案例:组中值分别是25、35、45、55。

综上所述,分组的目的并不是单纯确定各组在数量上的差别,而是要通过数量上的变化来区分各组的不同类型和性质,运用对比等分析方法研究事物的数量表现和数量关系,从而正确地认识事物的本质及其规律。

四.注释

离散型数据:也称不连续数据或计数数据,在一定区间内的取值是固定的,不能无限细分的数据,一般用自然数或整数单位表示。

例如:员工人数、机器台数等数据。

连续型数据:在一定区间内可以任意取值的数据,也就是说可以无限细分到任意小数位,

例如尺寸、重量、高度等数据。

End.

作者:小明学数据

来源:简书本文均已和作者授权,如转载请与作者联系。

  • 我的微信公众号
  • 微信扫一扫
  • weinxin
  • 我的微信公众号
  • 微信扫一扫
  • weinxin
匿名

发表评论

匿名网友 填写信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: