大数据实践的困境

爱职场

358
文章

0
评论

2020-04-1803:05:00 评论 1,348 8931字

摘要

近些年大数据实践当中最突出的问题是基础数据的缺失。其原因一方面是没有统一的数据标准，因而很多数据无法直接利用，需要转化或者清洗；另一方面是数据开放、共享机制不明确，无法有效地让已有的信息流通起来，供多方使用。

对于公共部门而言，独占数据能够保证自身的商业利益、信息安全，并且形成信息的不对称优势；对于私人部门，自身产生的数据往往涉及隐私，进而牵扯到个人隐私权的保护问题，但又希望得到个性化的定制商品和服务——那么何种程度对自己信息的开放才是双赢的尺度？

所以大数据需要面对的不仅仅是统一数据格式等技术问题，还包括数据质量、商业模式、社会论理等一系列的问题，更包括如何更好地利用社会资源而不是陷入泡沫化的炒作。唯有突破多方面的限制，大数据才会有长足的发展。

1.大数据实践之近忧

大数据的理念近年来虽然很受追捧，但实际上还远未达到实用的程度。市场咨询公司Gartner在其著名的《技术成熟度曲线》（也许叫"新概念炒作周期图"更为贴切）中，"大数据"概念也是在2011年第一次上榜。当时位于技术萌芽期的爬坡阶段，还被和其他概念整合在一起统称为"‘Big Data’ and Extreme Information Processing and Management"（"大数据"和极端信息处理和管理）。随后就连续两年向泡沫期的高峰进发。但在2014年其位置就从泡沫期（Peak of Inflated Expectation）滑落，开始进入幻灭期（Trough of Disillusion），并在2015年被彻底剔除出该曲线范畴。有趣的是，2011年Gartner在图上标明大数据还需要2～5年到达其稳定期，但是在2014年的曲线中，该时间则变成了5～10年。

那么，究竟是哪些因素在阻碍着大数据迅速实用化呢？

数据基础严重缺失

目前大数据发展最核心的一个问题就是数据基础的严重缺失。丰富的数据源是大数据产业发展的前提，但是不同领域信息的数据化程度相差很大。对于制造业、通信业、IT业等行业，一般来讲信息的数据化程度较高。虽然仍缺乏数据的共享和交换机制，但至少在各个企业内部已经开始进行一些大数据的探索和尝试。

但是在诸如医疗、教育等行业，则进度远远落后于大数据时代的需求。以医疗为例，这方面的大数据来源主要是电子健康档案，包括门诊治疗、住院治疗、健康体检、儿童保健、妇女保健、慢性病管理等数据。从单个患者角度来看，自身的医疗数据包括储存在各医院的电子病历数据、公共卫生数据和居家自我监测的医学数据。但是如果真正想将这些数据利用起来，就会遇到医院数据源不全、各信息源数据格式不统一、区域数据集中存储进展缓慢、数据安全问题和隐私保护等诸多问题。

中国医院协会信息化管理专业委员会的调研结果显示，三级医院信息化最高的部分是药库的管理，达到近79%，但客户管理信息化程度只有13%。而相当一部分医院连电子病历系统都没有，有的医院甚至于还在使用手工缴费的方式，对这些医院的医疗数据进行整合相当令人头疼。数据标准化的问题也不容乐观，2015-2016年医院采用统一信息编码体系的使用情况显示，使用度最高的ICD10也只有83.6%，影像传输的文件标准只有60%。标准不一也造成信息"孤岛"之间整合数据障碍重重，更使得大多数的数据成为沉睡的电子档案，开发利用无从谈起。

过度关注炒作带来的短期利益

大数据时代并不是瞬间诞生，而是信息社会发展到一定阶段必然会出现的结果。从长远来看，大数据确实会给整个人类社会带来天翻地覆的改变，而这种改变需要通过多年的技术积累和社会实践来达到。但是每当一个新概念或者新技术出现的时候，炒作总是会比实干来得更加容易，获利也更为迅速，大数据当然也不例外。

自2011年6月麦肯锡报告捧热大数据概念之后，几乎所有的商业领域都被大数据的狂热所诱惑，企业纷纷陷入了"如果不赶紧搭上大数据的车，就可能成为当代恐龙而最终灭绝"的恐慌之中。相应的商业和投资行为更多的是源于炒作而不是真正的需求所导致。当企业过了恐慌期之后，发现大笔的投资并未带来真正的回报，其最终的结果只会是动摇其对大数据的信心，并最终对大数据的实践带来伤害。

相关的IT软件、硬件企业和服务商纷纷加入炒作大军中争抢相应的订单。几乎所有和统计分析、数据采集、数据管理有关的企业，虽然所提供的服务内容并无任何变化，却在一夜之间全都成了大数据供应商，开始热情地向客户推销其经过重新包装之后的产品和服务。而在大数据的标签之下，真正实现的仍然只是很基础的数据仓库、动态报表展示、外部数据抓取等功能。

不甘落于人后的还有统计服务提供商，似乎所有的数据分析报告必须以大数据分析报告的面目示人，以至于一个只是采集了几百例样本的传统数据分析项目，在报告中也要冠以大数据报告的名称，并最终在媒体中以大数据的最新发现加以大肆宣扬。

当然除了包装和炒作，也是有企业在尝试基于大数据提供新的价值。但问题在于他们对大数据的理解（或者说愿意做出的努力）本身就非常有限，以至于能够实现的大多只是对社交网络或者指定网站的数据进行抓取、切词，最终以词云的形式加以展示，或者再进一步做出关键词提及频数变化曲线，就可以形成一个全新的大数据分析平台——但其实这些东西顶多只能算是数据采集和数据呈现而已，连大数据的初级阶段都算不上。更有甚者，这几年出现的很多基于大数据的聚合平台，也是采用类似的抓取操作，将网络上的相关信息整合成一个新的信息源，然后以APP推送或者网站订阅的方式提供给用户——真正做到了"不是信息的生产者，只是信息的搬运工"。这类张冠李戴的所谓的"大数据"服务，本质上也是一种搭车炒作，又能给用户带来多少真正的价值呢？能真正推动大数据行业发展吗？

盲目崇拜大数据干扰了正常的发展路径

这两年，炒作的盛行将大数据的魔力无限放大。大数据变得"一语胜万言"，只要是大数据分析得到的结果，就无可质疑；即使是传统分析方法能得到的分析结果，也一定要用大数据方式再滚一遍，否则就打上一个大大的问号。但大数据有其自身的边界，对大数据的盲目崇拜只会有害于这一新事物的发展。

大数据更多的是辅助工具而不是决定性的工具，传统的数据分析方法虽然相对更低效，但由于强调对因果关系的反复确认，使得分析结论的准确性更高。而大数据由于更强调相关性而不是因果推断，使得结果为假象的可能性明显上升。比如，某种大数据分析可以告诉我们从2006年到2011年，美国谋杀案比例与IE浏览器的市场份额极度相关，都呈急速下降的趋势。另外的大数据分析也可以告诉我们儿童挨打的次数和儿童身高呈高度的正相关——但是显然两者之间并没有什么因果关系。

虽然从商业实践出发，当无法明确判断相关关系是否有实际意义时，基于这些相关分析的结论进行商业操作上的试探未尝不可。但真正的因果关系不仅需要严谨的逻辑论证，往往还需要在理论上找到相应的证据支持，甚至于需要在相应学科的理论体系上做系统性地创新，这些显然都远远超出了大数据的能力范畴。因此，由大数据获得的很多结果是需要返回来重新采用传统的分析方法论加以进一步验证的，不可简单采信。

由于大数据本质上应当用来做出辅助性、探索性的结论，因此直接通过大数据来给出分析结论是有风险的，这也导致大数据分析实际上并不如看上去的那么有效。谷歌预测流感的案例曾经是大数据的经典，2009年谷歌声称它可以通过分析与流感相关的搜索来预测流感爆发的趋势，这种准确性和即时性甚至超过了疾病控制和预防中心等官方机构。但是随后的几年，谷歌的流感预测都没有得到好的结果，所做的更多的是不准的预测。事后的分析认为，谷歌流感预测的失败很大程度上是因为它是基于谷歌用户的搜索行为进行分析，而用户的网络搜索行为本身就处于不断的动态变化之中，因此谷歌搜索引擎自己也需要不断地更新，最终导致基于原先用户行为（以及相应数据）所建立的预测模型未必适用于下一个时期的用户行为及数据。

推而广之，大数据分析的内核仍然是统计分析，而统计分析的基本假设是历史数据中所蕴含的规律在未来仍然有效，因此可以基于历史数据的分析结果来预测未来。但在用户行为变化速度很快的网络世界，这一准则很可能并不成立，因此所有依赖于网站用户数据的大数据分析都存在失效风险。

实际上，比谷歌流感预测失败更有说服力的可能是股票数据。股票市场的数据从股票上市以来就被完整、精确地加以记录，但是从来没有出现过能够精确预测未来个股走向的模型。绝大多数的模型，包括近年来兴起的各种量化投资模型，用于拟合历史数据时其效果都非常好，但是投入实际运行之后往往迅速褪去光环，甚至给投资者带来惨重的损失。其实反过来思考一下就很容易理解，假如大数据真的有那么大的魔力，那大数据分析专家们直接去精确预测股市的未来走向就可以衣食无忧了，何必还到其他商业领域去挣辛苦钱呢？

对大数据的盲目崇拜可能导致一个严重的恶果，就是大数据导致大错误。由于大数据的结果应用经常很强调时效性，而所使用的变量维度又很多，导致人力极难发现其中的虚假关联；而虚假关联的相互连接、相互影响有可能造成连锁效应，并在大数据的庞大量级之下扩大这些错误，最终导致严重的问题。最典型的例子仍然出现在证券市场，出于防范突发风险的需求，所有大的证券机构都设定了复杂的交易模型，以便市场出现突发情况时能够及时抛售证券来规避风险。这些交易模型尽可能地考虑到了各种突发情形，也基于历史数据做了很好的模拟，但是最终导致的结果却是一次又一次的乌龙指事件。例如在美国当地时间2010年5月6日下午2时47分左右，一名交易员在卖出股票时敲错了一个字母，将百万误打成10亿，结果引发所有交易模型的平仓行为，导致道•琼斯指数突然出现千点的暴跌，创下了道•琼斯指数历史上第二大单日波幅。显然，在大数据驱动的系统里，任何一个小的事物都可能被无限放大造成严重后果，这在以前是不可想象的。

小结

由于数据基础的缺失，相应技术尚不成熟，以及对大数据理念的认识不深入，企业管理方式也无法迅速向适应大数据需求的方式去转换等多种原因，造成了当前大数据应用中解决方案很难和业务深度结合。往往是有需求但无法获取相应的基础数据，有部分数据但很难和业务需求做到深度结合，有分析结果但很难在现有的业务流程中得到有效应用。

客观地讲，现在仍然处于大数据人才的培育期，大数据标准也尚处于构建期，需要有规模的大数据企业形成行业龙头，企业间建立统一的数据标准，打破数据孤岛，大量培养复合型人才，为大数据技术打下基础，这样我国的大数据行业才能健康良性的发展——而这显然不是短期内能够做到的。

过度地关注大数据概念的炒作，或者满足于大数据泡沫化带来的短期效益，对大数据行业来讲是没有任何益处的。泡沫并不会解决大数据行业发展过程中的任何问题，而只会带来一地鸡毛。

1.3.2大数据实践之远虑

上一节所述的各种问题，只是在短期内对大数据的发展会造成阻碍，随着理念的深入、软硬件逐步发展，长远来看这些问题都会逐步得到解决。但是还有一些更深层次的问题将会在较长时期内一直存在，最明显的就是如何实现数据的真正共享。

"数据孤岛"之踵

只有当不同的数据源开放共享，才能最终达成"社会化大数据"这一目标，否则独立存在、互不共享的数据源只是形成了一个个的数据孤岛而已。但是，数据开放共享所面临的阻碍可能远远超过想象。

制约数据资源开放和共享的因素有很多。首先对于政府部门而言，其本身就缺乏数据开放的动力。这并不能简单地归结为政府行政垄断、故意不作为或者理念落后等原因，政府在数据开放方面的保守态度是有其合理性的——因为政府所掌握的数据信息往往有一定的敏感性，例如税务部门的个人纳税信息显然会涉及到个人隐私，而公安部门掌握的城市监控摄像头信息不仅会涉及到个人隐私，更有可能涉及到人身安全。至于政府部门手中的数据，即使是人口信息等基础数据，如果不加限制地共享也可能给国家安全带来严重威胁，这一问题在以911事件开场的21世纪就更是不能视而不见了。

除政府部门之外，大数据时代的另一个主要数据持有者就是各大企业。但是正因为数据中蕴含着宝贵的商业利益，甚至可能因此决定自身的生死存亡，因此各大企业也不会随便开放其自身拥有的有价值的数据。以搜索引擎为例，众所周知谷歌的搜索效果要比其他的更好，但实际上他们的技术相差无几，真正造成效果差异的是谷歌的用户更多，因此积累的数据量更大，从而各种用户特殊的搜索需求都能在大数据中找到最佳的应对策略。而其他搜索引擎在这一点上就要差很多，进一步造成了其用户量始终上不去的恶性循环。基于大数据开放共享的理念，不同的搜索引擎应该彼此开放基础数据，从而为用户都能提供更好的搜索体验，但是显然至少对谷歌而言，这样的要求不会得到积极响应。

对于不存在企业间竞争的大数据场景，企业也会基于商业需求尽可能地将数据独占而不是开放。例如对于各个航班的晚点信息，所有的航空公司都不会提前披露，经常是乘客登机结束之后，才会在机场广播中告知航班将会晚点。从航空运输整体的角度，如果能够提前公开航班晚点信息并做出预警，显然会更有效地分流乘客，使得航空客运的效率更高，也更节省乘客的时间。但是从航空公司的角度，公开这些信息将会造成有晚点风险的客源大量流失（比如改乘高铁），造成公司自身的经济损失。因此除非有强制性的行政命令要求，所有的航空公司都将永远对晚点信息讳莫如深，甚至于连历史数据都尽量隐藏起来，以最大化公司自身的利益。

破除数据资源开放和共享的障碍，首先需要在数据保护和隐私保护方面构建完整的技术与制度体系，建立数据共享的基础；其次，各国应当有国家级大数据战略的宏观统筹，并在此基础上制定一系列的强制政策和法规，移除基于利益垄断需求而出现的各种障碍，以便最终能建立一个良性发展的数据共享生态系统。能否打破数据孤岛，成功形成一个开放的数据共享生态系统，可以说是未来大数据成败的关键。

低质量数据引发"劣币驱逐良币"

在小数据时代，统计分析圈里有一句格言：garbage in,garbage out，意思是说如果采集到的原始数据是垃圾的话，那么分析结果也只能是垃圾。虽然在大数据时代，由于数据采集来源的极度丰富，使得不同维度的数据可以相互验证，因此对不精确甚至于错误的数据有了越来越大的容忍度。但如果大部分数据源的质量都较差的话，最终仍然会使得有效信息被淹没在无效的噪声背景之中。不幸的是，大数据时代由于数据生产、数据存储的成本飞速地降低，使得低质量数据的泛滥已经成为了一种常态。可以这样说，小数据时代的常态是缺乏信息，而大数据时代的常态则是信息极度丰富，但有效信息却被淹没在大量的噪声信息之中。

简而言之，大数据时代噪声数据泛滥的原因除了全方位的多数据源所采集的信息本身其价值含量就非常低（但至少还是有价值可以发掘的）之外，还有一大类是几乎完全没有任何价值含量的，纯粹扮演噪声角色的低质量数据，这些低质量数据主要有以下来源：

1、信息转发与复制：在门户网站刚刚兴起时，高度同质的文字会在短时间内泛滥于网络。而随着技术的进步，网络爬虫会24小时自动监控并抓取有用的信息，然后将其重新排列组合成全新的媒体内容并展示出来，这也就是近年来兴起的聚合类媒体所做的事情。在整个加工过程中，有效信息并未增加（当然相应用户的点击、评论等操作仍然会增加有用的信息），但所需要分析的数据量和数据源却几十倍、上百倍地增加了。网络爬虫的历史至少和搜索引擎一样久远，也是谷歌等搜索引擎能够存在的技术支持。原本网络爬虫并不会造成太大的负面影响，但是在大数据时代，用户的每一次访问、每一次点击都会被作为数据资源记录下来供后续分析，此时网络爬虫的负面影响就变得不可忽视。现在的很多互联网页面，每天都要被数以十万百万计的网络爬虫搜索一次，而这些爬虫又会屏蔽真实来源IP，模拟人工浏览的各种行为，也使得每个页面的点击量中究竟有多少来自于真人、多少来自于程序已经很难说得清楚了。

2、强制性的营销直投信息群发：这在全世界都是一个大产业，而其中则以垃圾邮件为代表。相信每一位读者都已经是垃圾邮件（SPAM）的受害者，它使得大量的无效数据充斥人们的邮箱。而充满讽刺意味的是，垃圾邮件之所以能够兴起，恰恰是因为大数据分析技术攻克了精确营销的难关所致，而大数据技术也进一步在帮助垃圾邮件（或者类似的营销直投信息）变得越来越难以识别。

3、网络水军：在购物网站兴起的时候，以刷帖为代表的网络水军就已经非常活跃。而自从社交媒体出现之后，水军在互联网世界中的影响力更是大大超出了普通人的想象。目前绝大多数的网络热点背后都有水军炒作的影子。笔者曾经做过相应的研究，发现在国内某社交网络中，新注册的用户至少90%可能都是僵尸粉。

在某种程度上，上面这些数据源都是数据垃圾的生产者，而且其生产速度显然会随着技术进步而飞速上升，并大大冲淡真实有效的数据在网络中的出现频度，最终导致数据源整体质量的下降。

实际上，与垃圾信息识别有关的大数据分析技术会被攻防两方同时使用。一方面，这些技术能协助分析人员更准确地识别垃圾信息，但同时也可以使得转发信息越来越像人工写作的作品。近几年，美联社、新华社等都已经开始用软件进行新闻的自动化写作，而技术进步也可以用来使得僵尸粉的行为越来越拟人化，而且其进化速度远超想象。

这一问题对大数据的发展虽然不是致命的，但是如果不引起足够的重视，可能会严重阻碍其发展。

难以突破的创新瓶颈

大数据理念提倡的是数据开放和数据共享，但却难以解决数据被越来越集中在少数几家巨型企业/机构这一现实。不但传统的大企业会垄断相应的行业数据，如通信数据在国内就完全控制在电信、联通、移动等少数几家有通信牌照的企业手中，即使最具活力的互联网数据，其数据源的垄断特性也几乎是与生俱来，例如中国网民的网络行为数据大部分就掌控在"BAT"手中，社交网络数据可能稍微好一点，但也无非就是固定的那几家企业而已。

对于已形成垄断的企业而言，利用其垄断地位阻碍创新，以使其垄断地位更加巩固是很自然的事情，前文所述搜索引擎的竞争就是典型的案例。国内的情况也是如此，某大型互联网公司多年前就利用其已有的资源优势，采用跟随战略模仿潜在竞争对手的创新产品，并最终挤垮对手。而某购物平台作为中国C2C市场的绝对霸主，使得其实质上具备了对相关数据制定规则和随意解释的特权。

从长远来看，由于数据所有权高度集中的问题无法简单解决，因此数据垄断扼杀创新这一问题也将长期存在，如何在所有权和数据共享之间找到合适的平衡点，将是大数据生态能否健康发展的核心问题之一。

1.3.3无法回避的个人隐私问题

每个人都正在成为数据洪流中的一部分，持续地使用、生产和分享着数据，共享已经成为新的数据道德。在大数据时代，数据素养开始成为公民的基本素养——对数据敏感，有一定的数据收集能力和分析、处理能力，有利用数据进行决策的能力，对数据具有批判性思维。

身份技术是大数据应用的核心技术之一。1993年的《纽约客》发表了著名的漫画，主题是"在互联网上，没人知道你是坐在电脑前的一条狗"。时至今日，这个题目要改成："在互联网上，所有人都知道你是一条狗"。早期互联网的虚拟身份与现实身份之间有巨大的隔离，随着互联网深入渗透到生活的方方面面，虚拟身份与现实身份之间再也无法彻底地分割。各种账号系统、电脑中各种应用所放置的Cookie、设备指纹技术、生物隐性行为识别技术（比如Biocatch）、图像识别技术等等，都有助于应用来识别出每个具体的个人。尤其是当我们把社交关系搬到网上的时候，现实身份与虚拟身份实现了空前的统一。而广泛使用的社会化登陆，填平了跨屏的身份鸿沟，在网上留下了身份更为统一的"足迹"。于是，我们的身份背后出现了长长的"数字背影"。

场景分析是大数据应用的重要工具。场景分析就是研究个体的行为特征、心理特点和行动预测。场景化的产品应用，就是基于不同的假设来试图了解和理解每个用户，从而设计出个性化的服务规则。基于场景化进行大数据分析运用，系统可以深入洞察个体行为的能力，让具体的分析具有实际的商业价值。因而，大数据通过场景化分析实现了产品化，这些产品化了的大数据，可以对大数据进行高效地消费。于是，每个"数字背影"都变成了可以无限复制、具有高度流动性的、等待进入各类数字工厂进行加工的原材料。

之前的所有技术革新，从未像大数据这样与个人隐私密切的相关。《黑箱社会：掌控信息和金钱的数据法则》的作者弗兰克·帕斯奎尔认为，我们每天都要面对这样的问题：就是个人信息越来越多地被别人掌握，而每个人本身既不能阻止这一情况的发生，也不知道会产生怎样的后果——一方面各种终端、传感器和记录设备无处不在地记录着我们的虚拟世界和现实生活中的应用数据和生活轨迹，基于大数据技术可以深刻的洞察我们的一切，甚至可以预测我们的行为；另一方面，作为这些数据归属权的主人，却不知道哪些数据如何被收集记录了，这些数据未来会出于什么目的、流向哪里、会被谁如何使用，这个过程对我们个人来讲就是一个神秘的黑箱。

共享数据、先予后取正在成为越来越多应用的必要条件。如果不允许地图导航应用使用所处的位置，你将无法获得准确的导航服务；如果不告知家庭住址和收货人信息，你将无法进行网上购物；如果你不告知自己的个人兴趣信息，即使拥有社交媒体账号，系统将无法给你展示相关的各种信息流；如果不允许可穿戴设备上传量化数据，设备本身就等同于废物。

大数据技术必将对个人隐私产生深刻的冲突，并将对社会产生深远的影响：比如更广泛的身份攻击和盗用、不准确的数据与模型、不公平地使用敏感信息、算法影响个人行为、政府对公民控制能力的大幅增加等等。早有预言说我们在网络时代将毫无隐私可言，但是谁也没有想到，我们的个人隐私在大数据还只是初露锋芒之时，就已经在广度和深度两个维度遭受到巨大的冲击，以至于荡然无存，并且大部分人却对此缺乏必要的认知。

大数据的发展必须解决个人隐私保护的问题，一方面个人隐私不能够被无限制地滥用，每个人需要对自己的隐私使用有知情权，也有拒绝的权力——而这种权力需要有可靠的手段，而不能仅仅建立在第三方信用背书和道德自律上（大量的电商和公共数据被盗事件早就证明了第三方的承诺并不靠谱）；另一方面包含部分个人隐私信息的数据又需要找到安全、可靠、高效的途径和方法来做共享，唯有这样，社会化大数据才能真正发展起来。

End

来源：井通科技

我的微信公众号
微信扫一扫

我的微信公众号
微信扫一扫

2024 年 7 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

1.大数据实践之近忧

数据基础严重缺失

过度关注炒作带来的短期利益

盲目崇拜大数据干扰了正常的发展路径

1.3.2大数据实践之远虑

"数据孤岛"之踵

低质量数据引发"劣币驱逐良币"

难以突破的创新瓶颈

1.3.3无法回避的个人隐私问题

您可以选择一种方式赞助本站

支付宝扫一扫赞助

微信钱包扫描赞助

发表评论 取消回复

登录 注册 找回密码

发表评论取消回复

登录注册找回密码