数据仓库哪家强?低调上档次的神器居然是TA?!

极应数据
极应数据
极应数据
4
文章
0
评论
2020-06-0613:06:00 评论 963 2131字
摘要

现在某个做到家业务的生鲜电商做了一个版本迭代后,发现成交额有所下滑,但并不清楚用户是在哪个环节流失的,他们操作了什么?停留了多少时间?是产品Bug还是用户不会用?

大家好,我是一家连锁商超的小白数据分析师。今天老板突然和我说,我们要搞数字化转型,所有数据都要打通,都要活用起来!真是个令人头大英明的决定!老板下的需求,硬着头皮也得做呀?于是,我咨询了一位数据行业大佬。

数据仓库哪家强?低调上档次的神器居然是TA?!

一个故事

秦始皇的故事相信大家很熟悉。秦始皇为统一人们思想,采取一系列文化措施,形成大一统的壮观局面。首先,先后灭韩、楚、魏、赵、燕、齐,统一六国,完成了土地疆域的统一;其次,统一六国后,开创皇帝制度与三公九卿制,全国范围的实行郡县制便于集权;

经济上,统一度量衡,集市货物买卖必须明码标价;

文化上,废除原来六国的文字,推行秦国的小篆;

最后统一车轨,以便于交通出行。

再看看数仓建设:整体架构分层分主题,逆规范化、维度建模,同时统一模型规范,开发规范,数据类型等……集合数据之后,就能打通企业的各个业务线。

类比一下,就会发现:历史总是惊奇的相似!

数据仓库哪家强?低调上档次的神器居然是TA?!

什么是数据仓库?

数据仓库顾名思义,是一个很大的数据存储集合,基于企业的分析性报告和决策支持目的而创建,对多样的业务数据进行筛选与整合。它为企业提供一定的BI(商业智能)能力,指导业务流程改进、监视时间、成本、质量以及控制。

数据仓库的输入方是各种各样的数据源,最终的输出用于企业的数据分析、数据挖掘、数据报表等方向。

为什么需要数据模型?

无数据仓库的数据存储方案往往存在以下这些痛点。

1.数据不一致

取数逻辑和数据源差异,导致数据统计结果有差异。

2.维护成本高

重复的数据建设、报表重复开发,带来维护成本高与一定的重复投资。

3.计算源效率低

各应用各自开发模型或者宽表,数据指标重复计算,消耗大量计算资源。

4.数据指标统一难

"烟囱式"开发导致数据指标被拆散在不同系统中,数据指标之间打通成本高。

数据仓库哪家强?低调上档次的神器居然是TA?!

那么,数据仓库都有什么特点呢?

1.主题性

不同于传统数据库对应于某一个或多个项目,数据仓库根据使用者实际需求,将不同数据源的数据整合到一个较高的抽象层次上,所有数据都围绕某一主题来组织。

这里的主题怎么来理解呢?比如对于零售企业,"客流分析"就是一个主题;对于滴滴出行,"司机行为分析"就是一个主题。

2.集成性

数据仓库中存储的数据是来源于多个数据源的集成,原始数据来自不同的数据源,存储方式各不相同。要整合成为最终的数据集合,需要从数据源经过一系列抽取、清洗、转换的过程。

比如,两个外卖平台被收购,想知道这两个平台的总销售额数据。两个订单系统相似,但数据口径不一,怎么办呢?这时候就能用数据仓库把数据统一起来。

再比如,零售企业的采购系统、物流系统、销售系统往往都采用不同的ERP,这时候想看不同的数据就要到不同的系统查看,体验很不好。这时候数据仓库又能派上用场了。

3.稳定性

数据仓库中保存的数据是一系列历史快照,不允许被修改。用户只能通过分析工具进行查询和分析。

4.时变性

数据仓库会定期接收新的集成数据,反应出最新的数据变化。

数据仓库哪家强?低调上档次的神器居然是TA?!

极应数据仓库能解决什么问题?

1.数据打通提升数据价值

试想,现在某个做到家业务的生鲜电商做了一个版本迭代后,发现成交额有所下滑,但并不清楚用户是在哪个环节流失的,他们操作了什么?停留了多少时间?是产品Bug还是用户不会用?在这种场景下如果没有行为数据做支撑,则很难定位到原因进行精准优化。

有了数据仓库之后,就能为特定场景下的行为提供数据支撑,真正实现数据价值。

2.数据分层和维度建模,提升数据使用效率

如果我们不进行数据分层的情况下,加工某一张报表,需要取一组数据,是极其复杂,繁琐的。取一组数据需要关联N多表,并且还要了解清楚字段的意思,这种复杂的操作一般只能依赖BI开发,业务人员很难有能力提取。如果我们进行数仓分层的情况下,加工一张应用层的表或者临时取一组数,仅仅是对两张报表进行关联;几乎不需要开发进行操作,直接在BI工具层即可实现。

3.降低运营成本

不搭建数仓的情况下,数据报表的加工,临时数据的提取,数据接口封装对外输出都是需要不断的重复开发,并且耦合严重,这就导致了人力成本的上升。

比如,数据报表的加工,每次类似需求都需要涉及业务人员,BI开发,测试,产品等,产品需要了解业务的数据需求目的,使用的场景,产生的价值,衡量的指标等针对这些问题与业务展开讨论,开发需要梳理数据来自哪些表,怎么取,怎么加工等。一个报表的开发随便也要4个角色参与,7天+的工时。

而这些在数仓里可能只是根据业务通过BI进行表关联或者数仓开发根据业务应用数据从汇总层大宽表进行加工即可,人数缩减为2人参与,时间缩短为10分钟至1天。

数据仓库哪家强?低调上档次的神器居然是TA?!

极应数据仓库技术优势

1.数据冗余小

比传统的开发基本节约空间60%左右。

2.数据计算逻辑统一

基础逻辑大部分封装到IDW中。也提高了数据今后开发效率。

3.性能更优

总体数据流优化,缩短数据计算路径。代码开发人员需要有资深开发经验的人,还加上详细测试。这使得性能将从总体到细节都有提高。

4.SAAS服务

极应能提供SAAS服务,可以快速部署落地,解决零售企业经营活动中的大部分需求。

数据仓库哪家强?低调上档次的神器居然是TA?!

那么,极应数据仓库适合哪些企业呢?

1.有信息化基础、有数据沉淀

2.业务复杂,多业态集团型企业

3.有数字化转型、精细化运营需求

数据仓库哪家强?低调上档次的神器居然是TA?!

End.挖数网专栏作者:极应数据个人微信公众号:极应数据(ID:jaaint)jaaint

  • 我的微信公众号
  • 微信扫一扫
  • weinxin
  • 我的微信公众号
  • 微信扫一扫
  • weinxin
匿名

发表评论

匿名网友 填写信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: