数据湖、大数据、数据中台概念浅析

爱数据精选
爱数据精选
爱数据精选
464
文章
0
评论
2021-02-2510:41:34 评论 197 2561字
摘要

大数据技术蓬勃发展,相关概念层出不穷,如何辨析不同的概念,选择符合自身需求的解决方案?本文是详细介绍数据湖、大数据和数据中台解决方案各自的特点、交付内容以及为企业带来的价值。

一、数据湖、大数据、数据中台概念浅析

数据湖

数据湖(Data Lake)是指使用大型二进制对象或文件这种自然格式储存数据的系统。它通常把所有的企业数据统一存储,既包括源系统中的原始副本,也包括转换后的数据,比如那些用于报表、可视化、数据分析和机器学习的数据。数据湖可以包括关系数据库的结构化数据(行与列),半结构化的数据(CSV、日志、XML、JSON),非结构化数据(电子邮件、文件、PDF)以及二进制数据(图像、音频、视频)。

自2010年Pentaho创始人首次提出"数据湖"概念后,数据湖的定义不断演变,AWS、Azure、阿里云、腾讯云、华为云等主流云厂商纷纷抛出了各自的定义。目前,国际、国内仍没有形成数据湖的最终定义。

大数据

大数据(Big Data)是指无法在一定时间范围内通过常规软件工具进行捕捉、管理和处理的数据集合,它是通过新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。经过多年沉淀,国际、国内对大数据有了明确的定义。行业普遍认为,大数据是企业重要的信息资产,可以通过大数据处理、分析、挖掘、预测等,帮助企业洞察客户需求,辅助企业决策,拓展商机,并最终创造更大的商业价值。

数据中台

2015年底,阿里巴巴集团对外宣布全面启动2018年中台战略,构建符合DT时代的更具创新性、灵活性的"大中台、小前台"组织机制和业务机制,即作为前台的一线业务会更敏捷、更快速适应瞬息万变的市场,而中台将集合整个集团的运营数据能力、产品技术能力,对各前台业务形成强力支撑。(来源:《企业IT架构转型之道:阿里巴巴中台战略思想与架构实战》)

数据中台技术堆栈里包含了CDP(Customer Data Platform客户数据平台)、MAT(Marketing Automation Tools营销自动化工具)、DAP(Data Analysis Platform数据分析平台)等相关技术,由此可见,数据中台并非凭空创造,而是基于原有平台基础上的资源深度整合。

二、数据湖、大数据、数据中台解决方案对比

从解决方案角度来看,数据湖、大数据、数据中台解决方案都要求具备极强的数据集成能力,但在数据分析、数据挖掘、数据可视化、与业务的结合度上则有不同要求,相应地,人员投入和建设周期也不尽相同。

数据湖、大数据、数据中台解决方案对比如下

  • 数据湖解决方案:要求极强的数据集成能力,人员投入少,建设周期短,成本最优;
  • 大数据解决方案:要求极强的数据集成、数据分析、数据挖掘、数据可视化能力,人员投入高,建设周期长;
  • 数据中台解决方案:要求极强的数据集成、数据分析、数据挖掘、数据可视化能力,与业务结合度高,人员投入高,建设周期长。

数据湖、大数据、数据中台概念浅析

三、数据湖、大数据、数据中台的价值

数据湖的价值:

  • 将企业内各种类型的数据汇聚到一起,进行集中存储,打通数据孤岛;
  • 作为企业数据体系的基础,提供大数据处理、数据分析、机器学习等各种数据服务。

大数据的价值:

  • 通过基于大数据的商业洞察提高效率,辅助决策,从而优化企业运营;
  • 通过用户画像和营销自动化洞察客户,进行精准营销,拓展更多商机;
  • 通过数据探索和数据生态进行业务创新,建立数据文化,创造更大的商业价值。

数据中台的价值:

  • 在业务层面,与企业业务深度融合,将海量数据转化为高质量的数据资产,通过提供数据API,实现企业内部数据资源的共享,支持大规模商业模式创新;
  • 在技术层面,帮助企业快速应对多种数据处理需求,聚合内外部数据,支撑高效的数据服务,提升开发和运营效率。

四、贝斯平的最佳实践

数据湖案例:

客户需求:

有大量的历史数据和非结构化数据,希望通过数索式分析来挖掘和实现数据价值。

客户团队:

DBA团队5人、算法团队3-4人。

客户收益:

通过构建数据湖服务模拟出数据沙箱环境,并在沙箱环境中进行数据挖掘,最终发现了很多历史数据之间的关联关系,为预测模型的精准度打下了良好的基石。

小结:

如果想在总体投入成本不高的前提下,尝试数据探索式分析,数据湖可以为数据探索式分析提供足量的数据样本;如果想为将来数据分析、数据可视化类项目做好前期铺垫,数据湖也可以作为首选;它的技术组成可以是(OSS+DLA+BI)或者(S3+Tableau),小而美。

大数据案例:

客户需求:

随着数据量的持续高速增长,传统的数据仓库架构会面临扩容慢、扩容成本高的挑战,客户希望:

  • 在本次升级过程中,支持流式数据处理方法;
  • 在升级完成后,大数据平台可以拥有机器学习的功能;
  • 大数据平台可以支撑未来3-5年的数据增长,拥有一定时间上的可持续性。

客户团队:

DBA团队3人、数据工程师10人、BI工程师3人、机器学习5人、业务分析师5人。

客户收益:

升级原有数据仓库架构,支持海量数据分析,并加入了流式数据分析,可以针对动态数据进行实时数据分析。

小结:

大数据技术是传统数据仓库升级改造的最佳选择,如何才能通过这个最佳选择实现价值最大化呢?

  • 不要因为升级大数据架构就放弃传统数仓架构,要尽可能地将两种架构融合起来;
  • 要考虑将数据存放在两个架构中,做到一套数据多种处理方法,不要过多的数据冗余;
  • 对大数据技术有一定的了解,非常清楚哪些业务适合跑在大数据架构上,推广大数据技术的应用创新;
  • 引入大数据技术后,需要特别注意平台安全、平台运维、数据治理等工作。

数据中台案例:

客户需求:

  • 企业进行数字化转型,需要把线下数据和线上数据整合在一个平台上,为企业的销售、市场、客服等部门提供数据分析支持;
  • 改造后的系统需要快速上线;
  • 要在3-6个月内看到成效。

客户团队:

DBA团队2人、数据工程师8人、BI工程师8人、业务分析师5人。

客户收益:

营销系统升级,与电商平台数据打通,实现了全域数据分析。

小结:

企业正在进行数字化转型,可以采用数据中台的方式,实现线下和线上数据的融合。

贝斯平的价值:

贝斯平是中立的提供端到端解决方案的多云及混合云管理服务提供商,具备极强的数据集成能力、数据可视化能力、完备的数据上云方法论以及丰富的迁移实施和运维经验,是中国最早一批完成阿里云Go China数据中台项目的MSP服务提供商。

End.

作者:Bespin Global

微信公号:Bespin Global

本文为爱数据转载分享,如果涉及作品、版权和其他问题,请联系我们第一时间删除(微信号:lovedata0520)

  • 我的微信公众号
  • 微信扫一扫
  • weinxin
  • 我的微信公众号
  • 微信扫一扫
  • weinxin
匿名

发表评论

匿名网友 填写信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: