机器学习的五大流派

Candice
Candice
Candice
96
文章
0
评论
2020-04-1803:05:00 评论 1,807 2011字
摘要

所有知识,无论是过去的、现在的还是未来的,都有可能通过单个通用学习算法来从数据中获得。

在寻找终极算法的过程中,他对历史上的其他学习算法进行了梳理,划分到五个流派中,五个流派互相有斗争有融合,堪称一个别样江湖。这五个流派分别是:

符号学派

联结学派

进化学派

贝叶斯学派

类推学派

这五种教派都从不同的角度指向了通往终极算法的可能的道路。

机器学习的五大流派

一、符号学派

符号学派的核心理念就是一切智力有关的工作都可以归结为对符号的操作。数学家解方程和逻辑学家进行推论都是一样的,不管这些符号是用什么表示,可能是晶体管,可能是神经元的放电。

通俗的说,符号学派表现为我们能理解的"专家规则""知识工程"。符号学派要把专家们学习到的知识数字化,让学习算法记住并加以利用。这样一想,我们现在互联网公司很多号称AI的应用场景,都可以归属到符号学派了。产品经理总结很多规则,程序员coding下来,上线去服务千万用户。

符号学派不去假设什么,也不去模拟大脑,就是将人类自己的学习结果编码,实现了"人替机器学习"。

二、联结学派

联结学派,最近几年已经是机器学习的宠儿了,就是大家熟知的深度学习,亦即是神经网络。互相联结的神经元,存储了许多概念,这些概念散步在联结的神经元网络里,联结的神经元网络互相传播着信息。

联结学派模拟的神经网络中,神经元之间的存在"放电和不放电"两种状态。如何用数学来表达这种状态呢?有一个非常重要的曲线,叫S曲线。其实了解机器学习的人都知道,S曲线是sigmoid function。

联结学派是符号学派的死对头。符号学派的知识是孤立的,知识之间不存在联动,只是规则的固化。

三、进化学派

进化学派认为智能是进化选择出来的,适者生存原则。进化的基础是"性",只有交配才会产生新的可能,才会有进化。

著名的遗传算法,就是进化学派的。维基百科如下描述:

在遗传算法里,优化问题的解被称为个体,它表示为一个变量序列,叫做染色体或者基因串。染色体一般被表达为简单的字符串或数字串,不过也有其他的依赖于特殊问题的表示方法适用,这一过程称为编码。首先,算法随机生成一定数量的个体,有时候操作者也可以干预这个随机产生过程,以提高初始种群的质量。在每一代中,都会评价每一个体,并通过计算适应度函数得到适应度数值。按照适应度排序种群个体,适应度高的在前面。这里的"高"是相对于初始的种群的低适应度而言。

"性"是技术进步的最原始动力。百万年前火的发明就是就是为了约会用的,如今机器人领域,走在最前沿的也是"你懂的"机器人。

进化学派是机器学习领域的一股清流,它是基于最自然的假设和模拟。

四、贝叶斯学派

贝叶斯定理可以表述为:

机器学习的五大流派

"原因"是算法要推断的一些东西,是一些预先的假设,"结果"就是我们观察到现实世界现象。根据观察的结果去推测是什么原因引起,就是贝叶斯定理最本质的要义。随着观察到的结果增多,每个原因天然出现可能性就会发生变化,也叫做"先验概率"。

贝叶斯定理可以这样解释:我有一个知识(称为先验概率),我现在在现实世界中观察到一些现象,我要用这些现象去修正我原有的知识,只要我观察的次数越来越多,我的知识就越来越准。是一个周而复始的轮回。

一个贝叶斯定理解答的问题举例:

假设100%的恐怖分子都相信A宗教,而某人相信A宗教,并不代表此人100%是恐怖分子,还需要考虑先验概率,假设全球有6万恐怖分子,在人类中的概率是十万分之一(假设人类有60亿人),假设全球有1/3的人口相信A宗教(20亿人信A宗教),则此人是恐怖分子的概率只有十万分之三。

用贝叶斯定理表达这个例子:

P(恐怖分子| 信A宗教) = P(信A宗教|恐怖分子)P(恐怖分子)/P(信A宗教)

其中:

P(信A宗教|恐怖分子)就是说"恐怖分子信A宗教的概率",是100%;

P(恐怖分子)就是"人类中是恐怖分子的概率",是十万分之一;

P(信A宗教)就是说"人类中信A宗教的概率",是1/3。

贝叶斯学派看待世界永远是不确定的,但是永远可以减小不确定。由贝叶斯定理发展的更高级的模型有:马尔可夫链,贝叶斯网络。

我自己是贝叶斯学派的忠实信徒,我相信世界是永远变化不确定的。贝叶斯学派也对符号学派有敌意的,毕竟符号学派是确定的。

五、类推学派

类推学派,也有一个朴素的假设:如果一个东西走起来像鸭子,叫起来像鸭子,那么它就是鸭子。

类推学派有两个著名的算法:近邻算法和支持向量机。近邻算法的原理就是去找和当前这个实例最相似的K个样本,他们中多数是什么类别,那么当前这个实例就是什么类别。近邻算法最常的应用场景就是推荐系统。"买了又买"就是近邻算法。

支持向量机相对来说做得更精妙一些,它不是和所有的向量(向量可以理解为就是样本)去比,而是去和边界上附近那些关键的向量去比较,也就是所谓的支持向量。

这五大流派各领风骚数十年,都是风光过的,现在通常见到的机器学习平台或框架,也都是不敢怠慢他们,各种流派的算法都会有一席之地,生怕哪位将来就是终极算法的候选人。那么到底存在终极算法吗?你可以自己去读这本书,引发你的思考。

End.

来源:数据森林

  • 我的微信公众号
  • 微信扫一扫
  • weinxin
  • 我的微信公众号
  • 微信扫一扫
  • weinxin
匿名

发表评论

匿名网友 填写信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: