浅谈大数据数仓实时与离线问题为企业打造怎样的商业价值?

爱数据精选
爱数据精选
爱数据精选
219
文章
0
评论
2021-02-2610:28:28 评论 53 1568字
摘要

数据中台能解决哪些难题:通过打通多源异构数据,统一治理、管理企业数据,数据中台可以让数据高效可用,为企业业务提供支持、为客户提供高效服务。

1、聊聊什么是数据仓库?

1.1、数据仓库定义:

数据仓库是一种思维

1.2、数据仓库主要做哪些事?

收纳、管理、输出数据

1.3、数据仓库和数据库,数据湖和数据中台的差异?

1.3.1、数据仓库:

是一种概念、理论,并且告诉我们怎么搭建的仓库,但是它从来没有告诉我们去使用、或数据在里面怎么去流转

1.3.2、数据库:

是实实在在的属性和工具,可以对数据的存储,并且数据库的信息变动性比较频繁,我们可以对数据库进行数据的实例化

(1)以依赖经销渠道的服装业为例

(2)数据流动没有打通

1.3.3、数据湖:

文件结构可以多样化、可以修改、流批一体

1.3.4、数据中台:

定义:

(1)通过一系列技术手段,对海量数据进行采集、计算、存储、加工的数据平台

(2)根据企业需求不同,数据中台结构各异,目标是为企业的前台业务和后台系统提供数据支持

分类:

数据中台:

(1)数据集中化管理

(2)构建数据体系服务业务部门

业务中台【根据业务场景设计】

数据中台能解决哪些难题?

(1)通过打通多源异构数据,统一治理、管理企业数据,数据中台可以让数据高效可用,为企业业务提供支持、为客户提供高效服务

(2)融合企业全部数据、打通隔阂,在技术上就要求数据中台拥有稳定、高效的数据存储和治理能力

数据中台核心三方面:

数据存储、数据治理、数据共享

1.3.5、数据仓库、数据湖和数据中台的差异?

浅谈大数据数仓实时与离线问题为企业打造怎样的商业价值?

1.3.6、数据仓库需要哪些组件?

传统数据仓库

oracle-->ods-->dw--dwd-->dmd

组件

浅谈大数据数仓实时与离线问题为企业打造怎样的商业价值?

工具:

Info、水壶

调度--->抽取--->计算--->清洗(ETL)

2、离线数仓和实时数仓的介绍

2.1、最大差异

数据时效性、数据的准确性

2.2、流程

浅谈大数据数仓实时与离线问题为企业打造怎样的商业价值?

2.3、如何保证离线与实时数据是一样?数据如果出问题,恢复数据的代价?解决方案?

80%还是做到10分钟1次

20%重要场景 毫秒级别

有些场景无法做到流批一体

2.4、数据产品有哪些?

浅谈大数据数仓实时与离线问题为企业打造怎样的商业价值?

说明:

其中用户行为分析包含【用户打点分析、用户产品功能分析、漏斗分析】

自主分析平台(属于报表体系)包含【a/b实验平台】

三、大数据建设体系【上半场】

1、数据模型设计遵循哪些原则,有哪些坑需要避免?

浅谈大数据数仓实时与离线问题为企业打造怎样的商业价值?

2、数据仓库基础的规范有哪些?

浅谈大数据数仓实时与离线问题为企业打造怎样的商业价值?

说明介绍:1到2规范阶段(推翻、重构、整合)、2到3上层服务阶段

浅谈大数据数仓实时与离线问题为企业打造怎样的商业价值?

说明:数据基础赋能

浅谈大数据数仓实时与离线问题为企业打造怎样的商业价值?

3、之前在别的行业比如金融,进入到新的行业比如美团,抖音,面对新的业务场景,规划数仓,从何处快速入手?

当下问题痛点是:当下问题+规划未来方向(数据使用和业务痛点+上层建筑+产品化)

4、阿里经典数仓分层4层架构,还有的公司5层,哪种分层体系更优,为啥划分5层?

做数据分层,为了减少数据量膨胀/快速查询数据

xx-Ods-dw_dm

Ods-dw_dmd_dms_app+(dim)

Dmd+Dms-app+dim

5、在数据资产目录,元数据,数据地图产品化之前,都有哪些维护方式?

2种方式:文档、做成报表

用途:

便于业务了解数据情况业务

厉害的人+业务+数据

一般人:只要结果/我只要结果正确

6、在没有数据质量系统产品化前,入仓前,跑批中,跑批后都需要监控哪些指标,保证数据质量实现方式都有哪些?

实现方式

浅谈大数据数仓实时与离线问题为企业打造怎样的商业价值?

通过sql+方法论/数据质量任务/配置/组装接口调用

7、前期业务扩张,烟筒式开发,如何去优化数仓,减少存储浪费和资源?

浅谈大数据数仓实时与离线问题为企业打造怎样的商业价值?

8、当前公司离线数仓和实时数仓作业哪个占比更多,实时数仓常见的应用场景和实现技术?

离线数仓和实时数仓作业:2/8分

实时的资源消耗比较高,成本较大,数据质量都难保证/需求不要/sla么有办法保证/离线兜底

spark+flink

9、用户画像的行为画像一般怎么做比较好,使用工具定义规则生成还是手动sql统计指标做为行为标签?

浅谈大数据数仓实时与离线问题为企业打造怎样的商业价值?

End.

来源:数据之其然(微信公账号)

本文为转载分享,如果涉及作品、版权和其他问题,请联系我们第一时间删除(微信号:lovedata0520)

  • 我的微信公众号
  • 微信扫一扫
  • weinxin
  • 我的微信公众号
  • 微信扫一扫
  • weinxin
匿名

发表评论

匿名网友 填写信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: