马太效应
马太效应,来自圣经《新约·马太福音》中的一则寓言:一个国王要出门远行,临行前,交给3个仆人每人一锭银子,吩咐道:"你们去做生意,等我回来时,再来见我。"
国王回来时,第一个仆人说:"主人,你交给我的一锭银子,我已赚了10锭。"于是,国王奖励他10座城邑。
第二个仆人报告:"主人,你给我的一锭银子,我已赚了5锭。"于是,国王奖励他5座城邑。
第三仆人报告说:"主人,你给我的1锭银子,我一直包在手帕里,怕丢失,一直没有拿出来。于是,国王命令将第三个仆人的1锭银子赏给第一个仆人,说"凡有的,还要加倍给他叫他多余;没有的,连他所有的也要夺过来"。
马太效应通常用于推荐算法中。例如头条的推荐规则,作品通过初审后进入冷启动阶段,即系统根据作品的内容推荐给可能会对作品产生兴趣的用户,根据这部分用户的行为获得基础推荐效果,比如作品获得了较多的点赞、分享或者评论,就会判定为有潜质的作品,随即会扩量推荐给更多的读者;反之则会减少推荐量。
通俗解释即为"强的越强,弱的越弱"。
虹吸效应
2
虹吸效应讲的是物理现象,是指由于液态分子间存在引力与位能差能,液体会由压力大的一边流向压力小的一边。虽然水两边大气压强相同,但由于水位差,水压大的一边由于重力下流,水压小的一边由于大气压上流,直到两边的大气压力加水压相等,容器内的水面变成相同的高度,水就会停止流动。
在做渠道投放时,共有A、B、C、D四个渠道,渠道投放总体预算固定,假如增加渠道A的预算,使得渠道A的ECPM值上涨,进而导致渠道A的成本下降,那么,渠道投放人员就可能把渠道B、渠道C和渠道D的预算转移到渠道A上,久而久之,渠道A的占比就会越来越高,其他渠道占比越来越低,甚至可能会停止其他渠道的投放。
通俗解释即为"大树地下不长草"——虹吸效应就是把周边的资源吸干,导致周边没有资源可用。
幸存者偏差
3
幸存者偏差源于二战期间,美国哥伦比亚大学统计学沃德教授应军方要求,利用其在统计方面的专业知识来提供关于《飞机应该如何加强防护,才能降低被炮火击落的几率》的相关建议。沃德教授针对联军的轰炸机遭受攻击后返回营地的轰炸机数据,进行研究后发现:机翼是最容易被击中的位置,机尾则是最少被击中的位置。沃德教授的结论是"我们应该强化机尾的防护",而军方指挥官认为"应该加强机翼的防护,因为这是最容易被击中的位置"。军方采用了教授的建议,并且后来证实该决策是正确的,看不见的弹痕却最致命。
在进行数据分析时,往往聚焦于"幸存下来"的群体具备的某些特质,而失败者身上的数据,甚至连展现的机会都没有。—未幸存者已无法发声。
这里的"幸存",更合理的说法是"筛选"。
辛普森悖论
4
辛普森悖论是1951年英国统计学家 E.H.辛普森 提出的悖论:即在某个条件下的两组数据,在分别讨论时都会满足某种性质,可是一旦合并起来进行考虑,却可能导致相反的结论。
举个例子:100场球赛,以总胜率评价好坏。A选手专找高手挑战20场,胜1场,另外80场则找平手挑战,胜40场,总胜率41%;B选手专挑高手挑战80场,胜8场,剩下20场平手打个全胜,总胜率为28%。结果为A选手胜出。但仔细观察挑战对象,选手B明显更有实力。
在A/B测试时很容易就会跳进"辛普森悖论 "的坑。要避免"辛普森悖论"给我们带来的误区,就要对不同的分组赋予相应的权重,以一定的系数消除分组资料基数差异所造成的的影响。
本福特定律
5
本福特定律,指一堆从实际生活得出的数据中,以1为首位数字的数的出现概率约为总数的三成,接近直觉得出之期望值1/9的3倍。推广来说,越大的数,以它为首几位的数出现的概率就越低。它可用于检查各种数据是否有造假。
帕累托定律
6
帕累托定律,又称二八法则,即约80%的结果是由20%的变量产生的。在任何一组东西中,最重要的只占其中一小部分,约20%,其余80%尽管是多数,却是次要的。
在运营中可以发现,80%的贡献度来自于20%的用户。
帕累托定律本质就是 "在因和果、努力和收获之间,普遍存在着不平衡关系",即不平衡关系存在的确定性和可预测性。因此,要把精力放在更本质的事情上。
因此,在做数据分析时,要将关注点放在20%的头部业务。比如购买数量前20%的用户、日访问次数前20%的用户等等。
End.
作者:威风数据科技有限公司
本文为转载分享,如果涉及作品、版权和其他问题,请联系我们第一时间删除(微信号:lovedata0520)
更多文章前往首页浏览http://www.itongji.cn/
- 我的微信公众号
- 微信扫一扫
- 我的微信公众号
- 微信扫一扫
评论