如何更深刻的理解 “Gartner2020年数据与分析技术十大趋势”的内涵?

爱数据精选
爱数据精选
爱数据精选
20
文章
0
评论
2021-02-0513:02:00 评论 71 6807字
摘要

Gartner 2020年发布了””数据与分析领域的十大技术趋势”,2020年过去了,这些趋势判断到底靠谱吗?

笔者没有足够的数据,没法做出权威的判断,但考虑到身处数字化水平比较高的通信行业,接触的数据技术还是比较多的,如果这些趋势靠谱,那或多或少会对我的工作产生影响,这里就来谈谈我对这些趋势的具体看法。

趋势1:更智能、更高速、更负责的AI

到2024年底,75%的企业机构将从 人工智能 (AI)试点转为AI运营,基于流数据的分析基础架构的数量将因此增加5倍。而强化学习和分布式学习等其他更智能的AI技术正在创建更具适应性和灵活性的系统,用于处理复杂的业务情况。

公司刚刚开过工作会,我突然发现AI的应用已经在公司遍地开花了,无论是早期的比较成熟的人脸识别,还是现在的AI+RPA的"数字员工"、5G基站智能验收、行业视频监控、满意度预测或是互联网反诈,AI的应用普及速度的确比我想的快,原来以为缺乏场景,但实际上,也许是我们缺乏发现场景的眼睛。

AI中台现在也提出来了,比如中国移动的九天,以应对越来越多的应用需求,这代表了一种服务化的趋势。

虽然我们已经将离线数据中台升级为实时数据中台,支撑的应用超过了100个,但基于流数据的AI应用似乎还比较遥远,也许互联网会先飞一会儿。

趋势2:仪表板的衰落

具备更多自动化和消费化体验的动态数据故事将取代视觉化、点击式的数据创建和探索。因此,用户使用预定义仪表板的时间也将会减少。向支持增强分析或NLP等技术的动态数据故事转变,这意味着:最相关的洞察将基于用户的场景、角色或用途,流式传输给每个用户。

"增强分析"的概念早在2017年就被Gartner提出了,被誉为数据与分析市场内的下一波颠覆性技术,是数据分析的未来。简言之,就是将人工智能技术(AI)赋能商务智能(BI),更简单的理解就是采用机器学习(ML)、自然语言处理(NLP)、数据挖掘等技术应用到数据分析流程中,使数据分析更加自动化、智能化。

移动互联网的发展、越来越个性化的场景需求,需要为业务人员提供个性的、灵活的、所见即所得的分析支撑能力,自己写过一篇文章《BI(商业智能)的未来?》,谈到过类似的趋势。

我们的实时中台上线后,实时应用爆发式的增长,比如在市场营销方面,大家都需要基于场景的实时预警能力来提升一线的市场响应能力,又比如在反欺诈方面,大家都需要基于实时模型来实现欺诈的事中干预。

我觉得这体现了分析的实时化、智能化和云化的趋势,以静态报表和指标为核心的仪表盘显然难以满足一线生产的要求。

即使是数据管理本身,无论是数据采集、数据处理、数据建模还是数据质量,都需要更为智能化、自动化的数据清洗和处理手段,比如线上数据采集和处理方面,我们已经较多采用NLP技术对非结构化、半结构化数据进行文本识别和分类,自动转为结构化数据。

趋势3:决策智能

到2023年,33%以上的大型企业机构将聘用分析师实现包括决策建模在内的决策智能。决策智能汇集了决策管理和决策支持等多项技术。它提供了一个框架,帮助数据和分析领导者针对业务成果和行为,设计、建立、协调、执行、监控和调整决策模型及流程。

我一直认为数据分析只能为决策提供一点参考,有经验的人类大脑还需要结合自身的管理学、社会学、决策学、心理学等知识,才能成为最好的决策机器,毕竟数据还没有到能穷举所有变量的程度。

决策智能其实就在说这个东西,这里先给个定义:

决策智能是一门通过运用社会科学,决策理论和管理科学中的理论知识来扩展数据科学的一门工程类学科,是关于做选择的(有点废话),它融合了数据科学,社会科学和管理科学。

这里举个例子:

比如运营商需要为某个小区提供宽带接入能力,这会涉及到传输网络的扩容,以前的做法可能是一线人工排摸管道资源使用情况,然后层层向上汇报申请扩容,这样的决策效率就比较低。

通过构建传输管道扩容决策管理系统,就可以结合人类决策和机器决策,提高决策效率和决策效果,比如管理人员输入新增小区的信息和用户数,系统就会根据小区的户数、位置、周边已经铺设的管道资源,通过机器学习算法自动计算需要扩容的各类管道资源,从而为管理人员提供扩容的决策依据。

决策智能与人工智能或机器学习还是有显著的区别,决策智能的核心在于它是需要行动的,你通过人工智能可以获得一个知识,但在生产中要使用这个知识意味着你需要承担后果,这是更为复杂而有风险的事情。

AI和ML关注"如果我看到/听到/闻到X,那么我能得出什么结论?",这是知识,然而,决策智能回答的问题是,"如果我采取了行动A,会有什么结果",这体现了智慧。

决策智能可分为定性和定量,从定性的角度看,更多从人性本身出发,比如有经验的人士,运用自己多年的行业经验(这些就是他/她的数据)做出决策。但是人性本身的弱点会对决策有很多影响,另外每个人不可能掌握完美的信息。

因此我们也需要定量的方法去看。定量来说,就是运用数据科学的力量去做决策。我们常提到一个词叫"数据驱动(data-driven)",其实也是运用数据的力量去帮助我们做决策。

比如前面提到的运营商管道资源的扩容,虽然理论上可以完全用数据驱动的方式来解决,但实际地点是否能铺设管道,还是需要有经验的一线人士进行综合判断,这体现了决策的复杂性。人工智能固然能给出很多决策依据,但它往往无法走完决策的最后一公里,现在定性和定量融合决策的趋势越来越明显,人工智能在决策中发挥的作用也越来越大。

再举自动驾驶和滴滴派单的例子。

人工智能已经把自动驾驶的事故率降低到了很低的程度,但要不要将自动驾驶投入实用还需要政府的决策,但政府究竟需要考虑多少因素才能按下这个绿色按钮?这不仅仅是人工智能的事情。

滴滴在决策是否要派单的时候,除了要考虑经济效益,也要考虑风险和社会效益,比如晚上单身女子的派单策略,这个时候的决策智能肯定是社会学+人工智能的产物。

可以肯定的是,决策智能会随着企业数字化的发展突飞猛进,因为数字化的本质除了信息化,更多在于智能化,这在我的企业尤为明显。

趋势4:X分析

" X分析"由Gartner创造的一个总称术语,其中的X指代各种结构化和非结构化内容(如文本分析、视频分析、音频分析等)的数据变量。

在结构化数据的价值被挖掘殆尽的时候,我们的确开始考虑针对更多的非结构数据来打造更丰富的标签,无论是图片、语音、视频还是文本,这些工作也已经纳入了我的工作日程。考虑到非结构化数据的价值密度很低,因此对传统企业的技术挑战非常大,无论是处理还是算法,X分析其实是很难做的。

还好,互联网大厂为我们做出了表率,比如抖音的技术就是X分析的代言人,据说光是过滤违规内容就需要上万人的技术人员支持,我们可以向他们学习X分析。

趋势5:增强型数据管理

增强型数据管理利用ML和AI技术优化并改进运营。它还促进了元数据角色的转变,从协助数据审计、沿袭和汇报转为支持动态系统。 增强型数据管理产品能够审查大量的运营数据样本,包括实际查询、性能数据和方案。利用现有的使用情况和工作负载数据,增强型引擎能够对运营进行调整,并优化配置、安全性和性能。

近几年随着数据量的快速增长,我们的数据管理复杂度也大幅提升,比如笔者团队管理的表有几十万张,每天的脚本几万个,标签有上百万个,数据管理走向自动化、智能化是必然的。

现在很火的AIOps跟这个增强数据管理有千丝万缕的关系,我能否说,增强数据管理是数据管理领域的AIOps?

不少数据产品提供商也在其产品中在添加机器学习和人工智能(AI)的功能,以使数据管理过程能够自我配置和自我调整,这样可以让技术人员专注于更高价值的工作。

这里举两个元数据增强型数据管理的例子。

一个是关于元数据的生成自动化,通过人工智能进行大规模的自动化数据标记及分类。另一个是关于元数据的智能应用,去年年中跟麒麟交流时,麒麟就提到它现在可以基于用户使用麒麟的操作日志(比如发现频繁的维度)来自动优化CUBE的生成效率。

Gartner关于增强型数据管理的定义还是偏窄了一点,其实无论是阿里的Dataphin(里面一堆的智能化数据管理工具),还是我们自己研发了的DM,其实落地增强数据管理的杀手级应用。

话说回来,增强型数据管理是每个有志气的数据运维团队都该干的事情,增强型数据管理也是每个企业提升数据管理的必然要求,Gartner给了高大上的名字,挺好。

趋势6:云成为必然

到2022年,公有云服务将对90%的数据和分析创新起到至关重要的作用。随着数据和分析的上云 ,数据和分析领导者仍然很难实现服务与用例的协调一致,这就增加了不必要的治理和集成开支。数据和分析问题的关键,已经从某项服务的成本转为如何在定价之外满足工作负载的性能要求。上云时,数据和分析领导者需要优先处理能够利用云能力和专注于成本优化的工作负载。

云数融合演进的最大优点是用户不用再操心如何维护底层的硬件和网络,能够更专注于数据和业务逻辑,在很大程度上降低了大数据技术的学习成本和使用门槛。比如阿里云的数加产品就是生于云上的,这对于中小企业有很大的意义,它们不再需要构建数据仓库等基础设施。

信通院2019年发布的《大数据白皮书》也提到了云数融合:"大数据基础设施向云上迁移是一个重要的趋势。各大云厂商均开始提供各类大数据产品以满足用户需求,纷纷构建自己的云上数据产品。比如国内阿里云的MaxCompute、腾讯云的弹性MapReduce 等,大规模可扩展的数据库服务也纷纷上云......越来越多的大数据产品从设计之初就遵循了云原生的概念进行开发,生于云长于云,更适合云上生态。"

由于安全等诸多原因,自己没有数据上公有云的经验,因此不清楚公有云提供数据分析的挑战具体在哪里,按照Gartner的说法,似乎现在数据分析上云碰到了适配的问题。

也许问题可以转换下,为什么在私有云领域,我们没有采用互联网公司提供的数据产品解决方案?

道理也简单,数据自带行业属性,比如阿里的数据产品肯定更适用于零售行业,因为有电商的基因,但假如要做成各个行业都适用的,就会碰到水土不服的问题。

比如很多企业主数据是个核心问题,但对于电商也许就不是,因此其在相关数据分析能力的提供上就会有所不足,另外对内的产品一旦要转为对外销售,改造的代价是很大的,因为外部客户的要求更苛刻,远没有内部客户那么好将就。

趋势7:数据和分析的碰撞

数据管理能力和分析能力在传统上被视为不同的领域,需要分别进行管理。利用增强分析提供端到端工作流的供应商使这两个市场之间的界线变得模糊了。数据和分析的碰撞将增加这两个传统上相对独立的领域之间的交互和协作。这不仅会影响到所提供的技术和能力,还会使支持和使用它们的人员和流程受到影响。相关角色也将从传统的数据和分析扩展到信息探索人员和公民开发人员等。

增强分析通过机器学习、人工智能、可视化等技术的应用,能够帮助普通用户在没有数据科学专家或 IT人员协助的情况下,访问有效数据,并对理论和假设情况展开测试与验证,从而为分析计划带来更多自动化功能以及创新洞察力。

我们在10年前就鼓励业务人员能够自力更生,提供了各种取数的环境和自助BI的功能,努力降低业务和IT的之间的协作成本,现在数据中台可以说是增强分析的催化剂,数据湖使得数据管理和数据分析融合的趋势越加明显。

广义的讲,所有帮助非专业人士直接操控数据从而进行高效分析的手段,都可以叫做增强分析,正如机器学习的平民化一样,数据技术正千方百计的降低数据分析的门槛。当然增强分析要成功,取决于企业的发展阶段和拥有的数据文化,传统业务人员不太愿意改变,增强分析也就打了大的折扣。

趋势8:数据市场和交易平台

到2022年,35%的大型企业机构将通过正式的在线数据市场参与数据交易,而这一比例在2020年为25%。数据市场和交易平台为整合第三方数据产品和降低第三方数据成本提供了统一平台。

数据市场和交易平台不是新东西,也谈不上趋势,这几年更没看到突破性的进展,即使是企业与企业间的数据交易也是举步维艰,2022年35%的比例更是扯谈吧,需要先解决相关法律法规问题。

但多方安全计算和联邦学习为打破数据孤岛提供了一种更为现实的解决方案,我们也在积极推进,这个显然比商业化的数据交易现实多了。

趋势9:区块链技术在数据和分析中的应用

区块链技术解决了数据和分析领域中的两项挑战。首先,区块链提供了资产和交易的完整沿袭。其次,区块链为复杂的参与者网络提供透明度。除了有限的比特币和智能合约用例之外,分类账目数据库管理系统(DBMS)将为单个企业审计数据来源提供了更具吸引力的选择。Gartner预计,到2021年,分类账目DBMS产品将取代多数许可区块链的使用。

区块链能对数据追根溯源,并且对所有人透明开放,有了区块链的加持数据的流转更有安全保障,这是不言而喻的。

下面解释下分类账目。

分类账通常用于记录组织中的经济和金融活动历史,例如,跟踪银行交易中的信贷和借记历史,验证保险索赔的数据沿袭,或跟踪供应链网络中的项目移动。分类账应用程序的实现通常使用关系数据库中创建的审计跟踪来完成。然而,使用关系数据库构建审计功能较为耗时,而且容易出现人为错误。它需要自定义开发,并且由于关系数据库本身并非不可变,因此难以跟踪和验证对数据的任何意外更改。

区块链是一个分类账,按时间顺序或"链"记录发生在称为"块"的数据集合中的所有事件,其不可篡改等特性可以解决传统分类账的安全问题,但是,这会增加复杂性,因为需要建立一个包含多个节点的完整区块链网络,管理其基础设施,以及在将每项事务添加到分类账之前,要求节点对其进行验证。

因此分类账目DBMS产品被提出来了。

比如Amazon QLDB 就是一种完全托管的分类账数据库,其提供了一个透明、不可变、可以加密方式验证的事务日志,无需构建类似分类账应用程序的复杂开发工作。有了 QLDB,数据的更改历史记录就是不可变的(无法更改或删除),并且还可以使用加密技术,轻松保证应用程序的数据不会遭到意外修改。

我的理解是分类账目DBMS产品是一种不可更改的高性能事务日志数据库,采用更为安全的手段来管理风险较高的金融和经济活动。

趋势10:关系奠定了数据和分析价值的基础

到2023年,图谱技术将促进全球30%的企业机构决策过程的快速情景化。图谱分析是指一系列用于探索不同感兴趣的实体(如组织、人员和交易)之间关系的技术。它帮助数据和分析领导者找到数据中未知的关系,并查看传统分析技术不易分析的数据。

《华为数据之道》这本书提到了信息架构建设核心要素,即按业务对象进行架构设计,业务对象是指业务领域中重要的人、事、物对象。业务对象承载了业务运作和管理涉及的重要信息,是信息架构中最重要的管理要素。

自己最近有个关于数据仓库建模的感悟,就是以前无论是维度建模还是关系建模,我们建模的视角始终是以某个域的实体或流程为核心的,也就是更多是部门级的建模,但对于企业来讲,这种建模的集约化能力是有限的,它无法产生企业级的生产力,比如它解决不了企业级长流程的效率问题。

未来,数据管理团队需要具备企业级的长流程建模能力,建模首先要明确企业级的业务对象到底有哪些,这些核心对象贯穿了哪些企业核心流程,然后才能针对性的分析,从而提升整个企业的经营运作效率。

比如供应链涉及了规划、投资、采购、合同、工程、存储、物流等流程,里面的核心业务对象包括物料、合同等等,而要建好这些跨流程的模型,用对象数据库(比如图数据库)分析对象和关系是合适的,有了对象数据库,我们不再需要人为的去打造宽表。

以运营商的宽带分析为例,以前B域只管宽带受理,M域管采购合同,O域负责资源管理,你会发现这三个域的分析可能是割裂的,比如采购了100万的分管器端口,但宽带带受理只有50万,也许采购的东西还在闲置,或者用在了其它地方,但这些业务、资源和投资的联动分析谁来做呢?

如果我们无法以宽带为对象进行端到端的分析,站在全局的角度来看问题,就难以保证企业投资的效益。

因此,针对对象和关系的分析能力至关重要,笔者的文章也多次提到,包括《业务为王,这两年我们采用的那些数据产品和技术引擎》《图数据库:一种解决元数据管理"两张皮"的方法!》等等。

最后我要说,声望是个好东西,你看Gartner一发表趋势,大家不明觉厉纷纷转载,而且冒出了一堆的新词,无论是增强分析、增强管理、决策智能、X分析等等,其实它说的东西并不是最新的,很多我们也早在实践了,但的确需要有组织来总结、提炼和分享,自己研读了之后也受益匪浅。

当然英语翻译过来的东西容易变了形,不明觉厉甚至会不知所谓,这次解读了一下,希望大家能理解其要义,也希望没让大家误入歧途。

End

作者:傅一平

作者介绍:浙江移动大数据中心数据管理部经理,中国移动经营分析专家,中国信息通信大数据产业联盟专家委员

来源:与数据同行(ID:ysjtx_fyp)

本文为转载分享,如果涉及作品、版权和其他问题,请联系我们第一时间删除(微信号:lovedata0520)

  • 我的微信公众号
  • 微信扫一扫
  • weinxin
  • 我的微信公众号
  • 微信扫一扫
  • weinxin
匿名

发表评论

匿名网友 填写信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: