「数据分析报告」越级提升指南 Part1 ——数据部分

挖数网精选

446
文章

0
评论

2020-08-2713:08:00 评论 1,218 2408字

摘要

一份好的数据分析报告离不开两部分：数据部分和分析部分。巧妇难为无米之炊，数据之于数据分析师就好像食材之于巧妇，数据的重要性可见一斑，分析部分是数据分析师将数据做成报告的最重要一步。

一份好的数据分析报告离不开两部分：数据部分和分析部分。巧妇难为无米之炊，数据之于数据分析师就好像食材之于巧妇，数据的重要性可见一斑，分析部分是数据分析师将数据做成报告的最重要一步，是最体现一个数据分析师功底的部分，也是拉开差距的部分，今天先为大家讲一下如何撰写数据报告中的数据部分，分析部分将在明日二条中为大家分享！记得蹲好明天文章哦~

一.数据部分

数据部分最重要的就是数据质量，数据质量的好坏直接决定一份数据分析报告的好坏，如果报告中某一个数据被质疑，会直接影响这份数据分析报告的可信度，今天说一说跟数据有关的一些内容。

1. 数据的质量

（1）数据类型

数据类型比较好理解，就是数据以什么样的类型存储的，不同的数据类型有不同的使用方法，因此在处理数据之前，必须要先了解数据类型，常见的数据类型有（这里只说一些常见的数据类型）：

整数型

int：用于存储整数，存储从-2的31次方到2的31次方之间的所有正负整数，每个INT类型的数据按4 个字节存储
bigint：用于存储大整数，存储从-2的63次方到2的63次方之间的所有正负整数，每个BIGINT 类型的数据占用8个字节的存储空间
smallint：用于存储小整数，存储从-2的15次方到2的15次方之间的所有正负整数。每个SMALLINT 类型的数据占用2 个字节的存储空间

浮点型

real：存储的数据可精确到第7 位小数，其范围为从-3.40E -38 到3.40E +38。每个REAL类型的数据占用4 个字节的存储空间
float：存储的数据可精确到第15 位小数，其范围为从-1.79E -308 到1.79E +308。每个FLOAT 类型的数据占用8 个字节的存储空间。FLOAT数据类型可写为FLOAT[ n ]的形式。n 指定FLOAT 数据的精度。n 为1到15 之间的整数值。当n 取1 到7 时，实际上是定义了一个REAL 类型的数据，系统用4 个字节存储它；当n 取8 到15 时，系统认为其是FLOAT 类型，用8 个字节存储它

字符型

char：数据类型的定义形式为CHAR[ （n） ]，n 表示所有字符所占的存储空间，n 的取值为1 到8000，即可容纳8000 个ANSI 字符。若不指定n 值，则系统默认值为1。若输入数据的字符数小于n，则系统自动在其后添加空格来填满设定好的空间。若输入的数据过长，将会截掉其超出部分
nchar：它与CHAR 类型相似。不同的是NCHAR数据类型n 的取值为1到4000。因为NCHAR 类型采用UNICODE 标准字符集（CharacterSet）。UNICODE 标准规定每个字符占用两个字节的存储空间，所以它比非UNICODE 标准的数据类型多占用一倍的存储空间。使用UNICODE 标准的好处是因其使用两个字节做存储单位，其一个存储单位的容纳量就大大增加了，可以将全世界的语言文字都囊括在内，在一个数据列中就可以同时出现中文、英文、法文、德文等，而不会出现编码冲突
varchar：VARCHAR数据类型的定义形式为VARCHAR [ （n） ]。它与CHAR 类型相似，n 的取值也为1到8000，若输入的数据过长，将会截掉其超出部分。不同的是，VARCHAR数据类型具有变动长度的特性，因为VARCHAR数据类型的存储长度为实际数值长度，若输入数据的字符数小于n ，则系统不会在其后添加空格来填满设定好的空间。一般情况下，由于CHAR 数据类型长度固定，因此它比VARCHAR 类型的处理速度快

时间和日期型

date：‘2018-01-17’
time：‘10:14:00’
timestamp：‘2018-01-17 10:14:00.45’

以上就是常用的数据类型，如果有其他的数据类型没有说到，可以去网上搜一下，都比较好理解

（2）噪音数据

因为网上有非常多的关于噪音数据的解释，都非常专业，我就不在这里做过多的详细解释了，我们只探讨从sql取出数据的时候有一些异常值的处理办法：

null

一般跑过sql的朋友肯定会发现，在跑出来的数据中会有null的情况，这个时候需要对null进行替换，如果是计算用，就把null替换成0，这个步骤可以在sql里面完成，也可以在excel里面完成

极大值

极大值会影响数据的计算结果，一般会进行处理，要么替换成除极大值以外的最大值，要么直接弃用

作为分母的0

如果0作为分母，在excel里会出现#DIV/0，这个时候可以直接把结果替换，或者在sql里面直接进行替换，用case……when……就可以替换

（3）数据的口径

数据的口径很重要，根据经验看，大部分的数据出现问题是口径造成的，数据的口径一定要跟业务的口径一致，拿留存率举例：

留存率是周期比率型指标，一般在计算留存率的时候需要确定留存周期和活跃判定的口径。

留存周期：留存周期通俗来讲就是指用户在多长时间范围内活跃，并在下一个周期内仍然活跃，这里的多长时间就是指留存周期
活跃判定：指怎么判定一个用户活跃，可以是启动App，可以是登陆，也可以是完成了一次其他特定行为，这个主要依照业务需求而定
实际计算：
周留存率的计算
分子：本周活跃且上周也活跃的用户数
分母：上周活跃的用户数

2. 可能会用到的工具

在处理数据的过程中可以用很多工具，在这里就介绍一些比较常见的工具，大家耳熟能详，学起来也不是特变难

（1）提取数据

mysql
hivesql

两者的查询语句有相似的地方也有不同的地方，主要看自己所在公司的数据存储情况

（2）数据处理

python：一般写个脚本做一些机械的操作（我目前是这么用），也可以用来做计算
mysql：在查询的时候可以进行处理
excel：数据量比较小的时候，可以在excel上简单处理

（3）数据可视化

python：可以用来做一些词云图
Tableau：可视化一些图表，可以和sql结合着用
excel：做一些简单的图表，实际上数据处理的好的话，一般用excel就足够了

End.

作者：勇敢乌龟

来源：知乎专栏

本文为转载分享，如侵权请联系后台删除

历史上的今天

8 月

我的微信公众号
微信扫一扫

我的微信公众号
微信扫一扫

2024 年 7 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

历史上的今天

您可以选择一种方式赞助本站

支付宝扫一扫赞助

微信钱包扫描赞助

发表评论 取消回复

登录 注册 找回密码

发表评论取消回复

登录注册找回密码