1、聊聊什么是数据仓库?
1.1、数据仓库定义:
数据仓库是一种思维
1.2、数据仓库主要做哪些事?
收纳、管理、输出数据
1.3、数据仓库和数据库,数据湖和数据中台的差异?
1.3.1、数据仓库:
是一种概念、理论,并且告诉我们怎么搭建的仓库,但是它从来没有告诉我们去使用、或数据在里面怎么去流转
1.3.2、数据库:
是实实在在的属性和工具,可以对数据的存储,并且数据库的信息变动性比较频繁,我们可以对数据库进行数据的实例化
(1)以依赖经销渠道的服装业为例
(2)数据流动没有打通
1.3.3、数据湖:
文件结构可以多样化、可以修改、流批一体
1.3.4、数据中台:
定义:
(1)通过一系列技术手段,对海量数据进行采集、计算、存储、加工的数据平台
(2)根据企业需求不同,数据中台结构各异,目标是为企业的前台业务和后台系统提供数据支持
分类:
数据中台:
(1)数据集中化管理
(2)构建数据体系服务业务部门
业务中台【根据业务场景设计】
数据中台能解决哪些难题?
(1)通过打通多源异构数据,统一治理、管理企业数据,数据中台可以让数据高效可用,为企业业务提供支持、为客户提供高效服务
(2)融合企业全部数据、打通隔阂,在技术上就要求数据中台拥有稳定、高效的数据存储和治理能力
数据中台核心三方面:
数据存储、数据治理、数据共享
1.3.5、数据仓库、数据湖和数据中台的差异?
1.3.6、数据仓库需要哪些组件?
传统数据仓库
oracle-->ods-->dw--dwd-->dmd
组件
工具:
Info、水壶
调度--->抽取--->计算--->清洗(ETL)
2、离线数仓和实时数仓的介绍
2.1、最大差异
数据时效性、数据的准确性
2.2、流程
2.3、如何保证离线与实时数据是一样?数据如果出问题,恢复数据的代价?解决方案?
80%还是做到10分钟1次
20%重要场景 毫秒级别
有些场景无法做到流批一体
2.4、数据产品有哪些?
说明:
其中用户行为分析包含【用户打点分析、用户产品功能分析、漏斗分析】
自主分析平台(属于报表体系)包含【a/b实验平台】
三、大数据建设体系【上半场】
1、数据模型设计遵循哪些原则,有哪些坑需要避免?
2、数据仓库基础的规范有哪些?
说明介绍:1到2规范阶段(推翻、重构、整合)、2到3上层服务阶段
说明:数据基础赋能
3、之前在别的行业比如金融,进入到新的行业比如美团,抖音,面对新的业务场景,规划数仓,从何处快速入手?
当下问题痛点是:当下问题+规划未来方向(数据使用和业务痛点+上层建筑+产品化)
4、阿里经典数仓分层4层架构,还有的公司5层,哪种分层体系更优,为啥划分5层?
做数据分层,为了减少数据量膨胀/快速查询数据
xx-Ods-dw_dm
Ods-dw_dmd_dms_app+(dim)
Dmd+Dms-app+dim
5、在数据资产目录,元数据,数据地图产品化之前,都有哪些维护方式?
2种方式:文档、做成报表
用途:
便于业务了解数据情况业务
厉害的人+业务+数据
一般人:只要结果/我只要结果正确
6、在没有数据质量系统产品化前,入仓前,跑批中,跑批后都需要监控哪些指标,保证数据质量实现方式都有哪些?
实现方式
通过sql+方法论/数据质量任务/配置/组装接口调用
7、前期业务扩张,烟筒式开发,如何去优化数仓,减少存储浪费和资源?
8、当前公司离线数仓和实时数仓作业哪个占比更多,实时数仓常见的应用场景和实现技术?
离线数仓和实时数仓作业:2/8分
实时的资源消耗比较高,成本较大,数据质量都难保证/需求不要/sla么有办法保证/离线兜底
spark+flink
9、用户画像的行为画像一般怎么做比较好,使用工具定义规则生成还是手动sql统计指标做为行为标签?
End.
来源:数据之其然(微信公账号)
本文为转载分享,如果涉及作品、版权和其他问题,请联系我们第一时间删除(微信号:lovedata0520)
- 我的微信公众号
- 微信扫一扫
- 我的微信公众号
- 微信扫一扫
评论