如何用本福特分析模型发现问题?

林骥
林骥
林骥
44
文章
0
评论
2021-08-2810:35:53 评论 850 1755字
摘要

你好,我是林骥。今天介绍第 014 号分析思维模型:本福特分析模型。

 

1. 模型介绍

20 世纪 20 年代,物理学家弗兰克·本福特发现,科学研究和工程设计中遇到的数据,有 30% 左右都以 1 为首位数。

此后 10 年,本福特坚持不懈地探索这个现象,通过举一反三,发现更多符合该规律的数据,比如网球得分、股票价格、河流长度、原子量、电费单等等,全都有着相同的模式。

本福特这种孜孜不倦的精神,值得我们学习。

1938 年,他推导出一套精确的计算公式:

如何用本福特分析模型发现问题?

其中如何用本福特分析模型发现问题?,根据这个公式,就能计算出每个首位数的比例如下:

如何用本福特分析模型发现问题?

本福特是以非零数字为首位数,所以 0 不包括在内,例如 126 和 0.0126 的第一个数字都是 1。

需要注意的是,有些数据并不适用于本福特定律,例如:电话号码、邮政编码、年龄、体重、智商,等等。

 

2. 应用举例

下面以 Tableau 自带的世界指标数据为例,验证世界各地区的 GDP 首位数是否符合本福特分析模型。

(1)打开 Tableau 自带的【世界发展指标】数据

如何用本福特分析模型发现问题?

(2)创建计算字段【GDP首位数】,输入公式:LEFT(STR([GDP]),1)

如何用本福特分析模型发现问题?

(3)把【GDP首位数】拖至【列】,把【记录数】拖至【行】,下拉选择【快速表计算】--【合计百分比】,在【筛选器】中排除 Null 值之后,得到 GDP 首位数的比例分布如下:

如何用本福特分析模型发现问题?

可以看出,世界各地区的 GDP 数据基本符合本福特分析模型。

(4)为了更加直观地进行验证,我们创建一个计算字段【本福特参考比例】,输入公式:LOG(1+1/INT([GDP首位数]))

(5)把【本福特参考比例】拖到【详细信息】标记中,更改度量为【平均值】。

如何用本福特分析模型发现问题?

(6)切换到【分析】窗格,把【分布区间】拖到画布的【单元格】中。

如何用本福特分析模型发现问题?

(7)把【计算-值】中的百分比改成 80,100,120,并选择【平均值(本福特参考比例)】。

如何用本福特分析模型发现问题?

(8)设置参考区间的格式,标签和线设置为【无】,向下填充为【蓝色】。

如何用本福特分析模型发现问题?

(9)点击确定后,可以看出,GDP 首位数的比例,均介于本福特参考比例的 80% ~ 120% 之间。

如何用本福特分析模型发现问题?

本福特分析模型可以用来发现问题,但并不能以此作为确凿的证据,因为本福特分析模型只是统计上的一种规律,并没有经过严格的证明,而且有其适用的范围。

比如说,跨度较小的数据一般不符合本福特分析模型。

在世界指标数据中有一列:开业天数,最大值不超过 700 天,按照上面的步骤,首位数分布如下:

如何用本福特分析模型发现问题?

可以看出,其中数字 3、5、6 都不符合本福特分析模型

利用本福特分析模型,我们可以发现可疑的数据,通过大胆假设,小心求证,探究数据背后隐藏的信息,从而帮助我们更好地解决问题。

虽然本福特分析模型目前无法确凿地证明,但是先发现一些数据的规律,然后再来找到数据背后可能的原因,而这正是模型的力量和魅力所在。

比如说,对于上市公司的财务数据,我们可以应用本福特分析模型去验证一下,如果发现首位数的比例严重偏离模型,那么就有理由去怀疑财务数据造假,再通过调查取证等方法,去验证我们的假设。

 

最后的话

分析思维模型,是对现实世界的抽象和简化,它的价值是能够重新定义问题,从而找到更高效的解决方案。

统计学家乔治·博克斯有一句名言:所有的模型都是错误的,但有些是有用的。

应用分析思维模型的时候,我们要保持警惕,不要被数据或模型所误导。

如果数据或模型应用不当,那么就像开车时看一个不准的仪表盘,对司机来说,错误的速度数据,比没有数据更危险,后果不堪设想。

如果数据和模型应用得当,那么就像看病时配备先进的仪器,利用正确的数据和经验,能帮助我们找到真正的病因。

犯错并不在于数据或模型本身,而在于使用数据和模型的人。

数据和模型的意义,并不是进行无数次高深的数学计算,而是在于更好地洞察现象背后的成因。

看完《人生算法》的序言之后,我相信:只要是能够量化的事物,就能用算法和分析思维模型去优化它。

用分析的视角、概率的思维、模型的算法,去解决工作和生活中的各种难题,这是我正在探索的一条路。

努力去做那些大概率对人生有益的事,比如读书、写作、利他。

避开那些小概率但致命的风险,比如赌博、飙车、害人。

 

 

End.

爱数据网专栏作者:林骥

作者介绍:数据赋能者,专注数据分析 10 多年。

个人公众号:林骥(linjiwx)

本文为挖数网专栏作者原创文章,未经允许禁止转载,需要转载请微信联系授权(微信号:lovedata0520)

更多文章前往爱数据社区网站首页浏览http://www.itongji.cn/

 

  • 我的微信公众号
  • 微信扫一扫
  • weinxin
  • 我的微信公众号
  • 微信扫一扫
  • weinxin
匿名

发表评论

匿名网友 填写信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: