数据分析时的3个注意点

挖数网精选
挖数网精选
挖数网精选
446
文章
0
评论
2020-04-1803:05:00 评论 839 1598字
摘要

数据分析员处于巨大的需求中,麦肯锡预测仅在美国未来就有150万数据分析员的需求。当公司中分析员越来越多地存在时,亦应关注以下3个问题。

一.如何收集数据

数据分析得出这样一个结果:"观看广告两次的客户比起没看过广告的更倾向于购买产品,由于广告费用比期望利润低,所以我们应该向更多顾客投放广告。"这似乎是个好消息,接着便会快速实施这个建议。但在实施结论之前,需要去了解分析结论是透过什么数据来得到的。而不进行深层次的探究可能会导致高成本失误的产生。

如果客户只是随机观看广告,那么这就是一个随机对照实验,则结论便是合理的。然而,如果目标顾客并不是随机观看到广告,则结论就不会如此合理。举个例子,如果广告在纽约,而不是在波士顿投放,城市就成为了混淆因素(Confounding Factor):即,产品脱离广告的影响,其本身就是在纽约受到欢迎。如果事实确实如此,那么在波士顿投放更多的广告,便不会引发更多消费。

随机挑选数据来源是研究的基础,而研究亦需要通过一个高置信的,可操作性高的且无可辩驳的结果来推断因果。就是说,如果数据来源并非随机,例如通过城市来筛选,那么这就只是个观察实验(Observational Study)。"观察实验"依靠事后的汇总统计,而不是在事前的预测,同时亦容易受到"相关性并非因果性"的影响。同时,如果在研究中进行重复实验会导致不同的结果,那其结论也会不清晰。

当然,这种(观察实验与对照实验的)简单二分法在大多分析中都存在细微差别。有时样本的差异不易被人察觉,让人把观察实验误以为是对照实验。比如,样本是否基于高收入进行挑选?如果如此,低收入的样本可能会有不同的选择。而即使是随机性选择,若实验已经进行了一段时间,那之前的样本和现在的样本也可能做出不同的反馈,这亦将产生出隐形的样本差异。同时,工具变量(Instrumental Variables)的使用也会使观察实验误以为是对照实验,以此来非真实地加强结论的可信度。

观察实验和对照实验都可称为数据分析,因为两者都着眼于数据。而分析结论的强化来源于正确的分析过程以及对分析方法的了解,但这并无意味着忽略观察研究的结论。

故,建议不去教条地回顾数据来源以及分析过程中的薄弱环节。而是从结论倒推,将分析结论作为核查的出发点,即将结论与行业经验作比较,并且对潜在风险和相关利益做出评估。

二.如何限制误差

假设得出结论:"看过广告的消费者倾向于比没有看过的顾客会多购买20%的商品"。根据样本容量以及分析过程,可能会对此结论信任或不信任。而其中一个增信方式是标准差。

在上面的例子中,若标准误是30%,那么广告很大程度上并没有实际起到提升销量的作用,之前的结论亦会被认为是统计不显著(Statistically Insignificant)。即使标准误是10%,那么在很小的程度上,广告对于销量也不会有正面效果。优秀的数据分析总会采用增信措施,诸如使用误差线图(Error Bars)来反应标准差,以便谨慎地判断不确定性对实务的影响。

事实上,在数据处理前,并不需要,并且也不可能获得完全正确的数据。在实例中,人们并不只需关心广告促进消费的可能性,还要关注顾客消费增长30%、增长10%的可能性,等等。所以在乏味的分析过程中,误差所伴随的不确定性会让你了解所做出的"结论与决定"的风险是客观存在的。

没人可以百分百地确定分析的结论与最终的决定,但判断误差并进行增信可使统计分析量化并限制实务中做出的决定的风险。但是,永远不要仅仅只关注表面数字上的结论。

三.选择合适工具

我们知道数据分析工作的最大难度在于数据处理,但是即使再精确的数据分析结果,如果选择了不友好的可视化也是无济于事。

在选择数据工具时可以从图表样式、可视化界面,动态交互等几方面来考虑。工具可大胆选择,但要考虑数据信息的安全性,尤其是随着一批云数据处理产品的出现。简易的使用感也是要考虑的,有些工具可能还带着原始的SQL取数;有些都集成在功能块中,自助分析。

End.

作者:帆软

来源:简书

本文均已和作者授权,如转载请与作者联系。

  • 我的微信公众号
  • 微信扫一扫
  • weinxin
  • 我的微信公众号
  • 微信扫一扫
  • weinxin
匿名

发表评论

匿名网友 填写信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: