怎么才有数据分析思路?

挖数网精选
挖数网精选
挖数网精选
446
文章
0
评论
2020-07-0713:07:00 评论 1,080 2260字
摘要

提问中数据分析的路径,是”先数据,后问题”。在不清楚要回答什么问题的情况下,就先收集数据、收集方法;之后进行数据分析,也并没有明确的目标,而是指望通过高大上的方法来点石成金。

怎么才有数据分析思路?这个提问的现象是个本末倒置的典型。

提问中数据分析的路径,是"先数据,后问题"。在不清楚要回答什么问题的情况下,就先收集数据、收集方法;之后进行数据分析,也并没有明确的目标,而是指望通过高大上的方法来点石成金。

问题是,数据是企业过往行为的反馈。如果把商业决策比方成开车,那指望着基于数据去分析出对企业未来决策有用的结论,无异于看着后视镜开车,本质上就是不效率的。这种思路导致数据分析师看起来做了很多工作,却很难得到真正有价值的结论。而这时如果怀疑自己"想法枯竭"而去追求"更好的方法",其实是在错误的路径上越走越远。

但与此同时,美国互联网企业,或者国内高技术的互联网企业,已经完全养成了商业决策依赖数据分析的文化。我之前在亚马逊做经济学家,现在脸书做资深数据科学家。这两个公司每天产生的数据都以PB计;而维度之多、复杂程度之高,更是让数据丰富程度堪称"海量"。

他们招聘了来自各行各业的顶尖数据分析师来建立世界一流的数据库、数据架构、分析工具、数据模型等等。但是,每当做起数据分析,我们常常深感手中数据不是太多,而是太少了。因为数据再多,也多不过问题。接下来,我详解一下题目中路径的问题在那里,正确的路径是什么样,以及数据分析师在其中能做的具体工作。

一.数据分析的正确路径

拿开车作比方:真正的商业环境中,驾驶员是没有全知全能的GPS的,而是面对着一片迷雾:终点在哪个方向?前面的路有没有人走过?团队有没有能力走?是走阳关大道还是华容小道?解决这些问题,有时候依赖创始人的直觉,有时候依赖精干的团队逢山开道遇水搭桥。

但如何长久地提高决策的效率、如何衡量决策的效果、如何在多条路径中选出最性价比最高的路径?这时,数据科学家的角色就像一个知识丰富的向导:通过把过往经验总结清楚,在决策的时候提供最值得信赖的参谋。如果一个企业想系统、长远地发展,数据分析必不可少。

提问是拿着数据去寻找问题,而正确的做法永远是要拿着问题去数据中寻找答案。对应的路径应该是:

  • 理解你所面对的商业模式
  • 寻找商业模式中的关键问题和假设
  • 用数据分析来验证假设和解决问题

有些读者可能已经发现,拿掉"数据分析"四字定语,这流程和所有的商业决策流程没有任何区别。这样看来,岂不是从创始人到一线员工,每个人都应该做数据分析,从而进行更好的决策吗?当然没错!这不是我自己说的,是Jeff Bezos和Mark Zuckerberg说的。因为直觉、经验、道听途说,都会带着偏见,而数据是真实的,自然应该在决策中占最重要的地位。

二.数据分析师的职责

数据分析师作为处理数据能力最专业,对数据最了解的人,在这过程中的重要性不言而喻。从数据行程决策的过程中,数据分析师应该做好如下四件事:

1.记录数据

有用的数据要经过有心的设计,才能有效率地存储下来。按照"拿着问题去数据中寻找答案的思路",不妨想一想,当你做一个决策时,有什么信息是对决策有用的?这里面哪些是现有数据覆盖的,哪些还需要进一步收集?再进一步,好的数据分析师,不但了解每种数据的信息量,还了解不同数据收集时的难易程度,以及如何设计机制来保证信息收集的准确。

比如,若一个电商平台想知道所售商品是否为假货,那应该尽可能全面地了解产品信息、卖家信息,以及消费者反馈。当收集卖家信息时,什么信息容易作假?对法律法规了解的数据分析师可能会着重审核卖家的法律资质,而对机器学习擅长的数据分析师可能会从图像识别入手。哪个路径精确更高,更容易落地,很大程度上可以决定一个商业模式的生死。

对商业模式了解以外,好的数据分析师也会对数据工程有深刻理解。这样才知道,在收集到数据之后,哪些放在数据库,哪些扔进数据湖?如何让最有价值的数据能最快被读取和展示,TB、PB级的数据应该如何存储才能在成本与效率之间优化?

2. 处理数据

商业复杂后,数据会产生于不同部门。从其他部门高效地整合数据,并对数据质量有把控,也是数据分析师的重要素质。当整合了有用的数据后,把数据清理好、保证质量,做到结构完整、条理清晰,会让基于此的数据分析事半功倍。这一步看起来很轻松,当企业越大、部门越多、数据越复杂的时候,越重要。在亚马逊和脸书,专职于记录数据和处理数据的"数据工程师(data engineer)"与负责分析数据的"数据科学家(data scientist)"大概人数是1:2。

3. 分析数据

这一步涵盖了太多内容,包括实验、预测、归因、制定关键指标、行研、深挖、仪表盘,等等等等,每一个环节都能单独出一本书来讲解。点到为止,不赘述了。

4. 决策自动化

这里是机器学习大放异彩的地方了,无论是专家系统、监督学习或者无监督学习,归根结底,都是基于数据总结出来规律,将商业决策自动化。好的数据分析师,除了根据商业问题选择适用模型,提高模型表现和提高数据质量之外,还应该知道什么决策适合被机器学习解决;知道机器学习的长处与短板;知道如何收集/制造标签来赋能机器学习模型;知道如何建立机器学习的优化目标和损失函数;等等。

三.小结

其实,大数据的概念虽然提了很久,但是真正意义上的多维度、大规模的数据,是近几年才真正发展起来的。很多公司连处理大数据的能力都没有,更别提有效应用了。别的不说,微信这种超级app上,几乎有关于个人的所有维度的信息了,但是连一个广告推荐都还没做好。

所以,数据分析在国内是一个刚起步的行业,希望对这行业有兴趣的同学,可以及早摆正思路,让数据分析发挥潜力,得到自己应有的地位。

End.

作者:孙煜征

来源:知乎

本文为转载分享,如侵权请联系后台删除

  • 我的微信公众号
  • 微信扫一扫
  • weinxin
  • 我的微信公众号
  • 微信扫一扫
  • weinxin
匿名

发表评论

匿名网友 填写信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: