「数据分析报告」越级提升指南 Part1 ——数据部分

挖数网精选
挖数网精选
挖数网精选
446
文章
0
评论
2020-08-2713:08:00 评论 1,252 2408字
摘要

一份好的数据分析报告离不开两部分:数据部分和分析部分。巧妇难为无米之炊,数据之于数据分析师就好像食材之于巧妇,数据的重要性可见一斑,分析部分是数据分析师将数据做成报告的最重要一步。

一份好的数据分析报告离不开两部分:数据部分和分析部分。巧妇难为无米之炊,数据之于数据分析师就好像食材之于巧妇,数据的重要性可见一斑,分析部分是数据分析师将数据做成报告的最重要一步,是最体现一个数据分析师功底的部分,也是拉开差距的部分,今天先为大家讲一下如何撰写数据报告中的数据部分,分析部分将在明日二条中为大家分享!记得蹲好明天文章哦~

一.数据部分

数据部分最重要的就是数据质量,数据质量的好坏直接决定一份数据分析报告的好坏,如果报告中某一个数据被质疑,会直接影响这份数据分析报告的可信度,今天说一说跟数据有关的一些内容。

1. 数据的质量

(1)数据类型

数据类型比较好理解,就是数据以什么样的类型存储的,不同的数据类型有不同的使用方法,因此在处理数据之前,必须要先了解数据类型,常见的数据类型有(这里只说一些常见的数据类型):

整数型

  • int:用于存储整数,存储从-2的31次方到2的31次方之间的所有正负整数,每个INT类型的数据按4 个字节存储
  • bigint:用于存储大整数,存储从-2的63次方到2的63次方之间的所有正负整数,每个BIGINT 类型的数据占用8个字节的存储空间
  • smallint:用于存储小整数,存储从-2的15次方到2的15次方之间的所有正负整数。每个SMALLINT 类型的数据占用2 个字节的存储空间

浮点型

  • real:存储的数据可精确到第7 位小数,其范围为从-3.40E -38 到3.40E +38。每个REAL类型的数据占用4 个字节的存储空间
  • float:存储的数据可精确到第15 位小数,其范围为从-1.79E -308 到1.79E +308。每个FLOAT 类型的数据占用8 个字节的存储空间。FLOAT数据类型可写为FLOAT[ n ]的形式。n 指定FLOAT 数据的精度。n 为1到15 之间的整数值。当n 取1 到7 时,实际上是定义了一个REAL 类型的数据,系统用4 个字节存储它;当n 取8 到15 时,系统认为其是FLOAT 类型,用8 个字节存储它

字符型

  • char:数据类型的定义形式为CHAR[ (n) ],n 表示所有字符所占的存储空间,n 的取值为1 到8000, 即可容纳8000 个ANSI 字符。若不指定n 值,则系统默认值为1。若输入数据的字符数小于n,则系统自动在其后添加空格来填满设定好的空间。若输入的数据过长,将会截掉其超出部分
  • nchar:它与CHAR 类型相似。不同的是NCHAR数据类型n 的取值为1到4000。因为NCHAR 类型采用UNICODE 标准字符集(CharacterSet)。UNICODE 标准规定每个字符占用两个字节的存储空间,所以它比非UNICODE 标准的数据类型多占用一倍的存储空间。使用UNICODE 标准的好处是因其使用两个字节做存储单位,其一个存储单位的容纳量就大大增加了,可以将全世界的语言文字都囊括在内,在一个数据列中就可以同时出现中文、英文、法文、德文等,而不会出现编码冲突
  • varchar:VARCHAR数据类型的定义形式为VARCHAR [ (n) ]。它与CHAR 类型相似,n 的取值也为1到8000, 若输入的数据过长,将会截掉其超出部分。不同的是,VARCHAR数据类型具有变动长度的特性,因为VARCHAR数据类型的存储长度为实际数值长度,若输入数据的字符数小于n ,则系统不会在其后添加空格来填满设定好的空间。一般情况下,由于CHAR 数据类型长度固定,因此它比VARCHAR 类型的处理速度快

时间和日期型

  • date:‘2018-01-17’
  • time:‘10:14:00’
  • timestamp:‘2018-01-17 10:14:00.45’

以上就是常用的数据类型,如果有其他的数据类型没有说到,可以去网上搜一下,都比较好理解

(2)噪音数据

因为网上有非常多的关于噪音数据的解释,都非常专业,我就不在这里做过多的详细解释了,我们只探讨从sql取出数据的时候有一些异常值的处理办法:

null

一般跑过sql的朋友肯定会发现,在跑出来的数据中会有null的情况,这个时候需要对null进行替换,如果是计算用,就把null替换成0,这个步骤可以在sql里面完成,也可以在excel里面完成

极大值

极大值会影响数据的计算结果,一般会进行处理,要么替换成除极大值以外的最大值,要么直接弃用

作为分母的0

如果0作为分母,在excel里会出现#DIV/0,这个时候可以直接把结果替换,或者在sql里面直接进行替换,用case……when……就可以替换

(3)数据的口径

数据的口径很重要,根据经验看,大部分的数据出现问题是口径造成的,数据的口径一定要跟业务的口径一致,拿留存率举例:

留存率是周期比率型指标,一般在计算留存率的时候需要确定留存周期和活跃判定的口径。

  • 留存周期:留存周期通俗来讲就是指用户在多长时间范围内活跃,并在下一个周期内仍然活跃,这里的多长时间就是指留存周期
  • 活跃判定:指怎么判定一个用户活跃,可以是启动App,可以是登陆,也可以是完成了一次其他特定行为,这个主要依照业务需求而定
  • 实际计算:
  • 周留存率的计算
  • 分子:本周活跃 且 上周也活跃的用户数
  • 分母:上周活跃的用户数

2. 可能会用到的工具

在处理数据的过程中可以用很多工具,在这里就介绍一些比较常见的工具,大家耳熟能详,学起来也不是特变难

(1)提取数据

  • mysql
  • hivesql

两者的查询语句有相似的地方也有不同的地方,主要看自己所在公司的数据存储情况

(2)数据处理

  • python:一般写个脚本做一些机械的操作(我目前是这么用),也可以用来做计算
  • mysql:在查询的时候可以进行处理
  • excel:数据量比较小的时候,可以在excel上简单处理

(3)数据可视化

  • python:可以用来做一些词云图
  • Tableau:可视化一些图表,可以和sql结合着用
  • excel:做一些简单的图表,实际上数据处理的好的话,一般用excel就足够了

End.

作者:勇敢乌龟

来源:知乎专栏

本文为转载分享,如侵权请联系后台删除

  • 我的微信公众号
  • 微信扫一扫
  • weinxin
  • 我的微信公众号
  • 微信扫一扫
  • weinxin
匿名

发表评论

匿名网友 填写信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: