如果你对这篇文章感兴趣,可以点击「【访客必读 - 指引页】一文囊括主页内所有高质量博客」,查看完整博客分类与对应链接。
在机器学习领域中,算法数量可谓是数不胜数,若只关注每个算法本身,将各个算法独立地进行看待,则将眼花缭乱,难以把握算法背后的核心思想。
事实上,虽然机器学习领域中算法数量十分庞大,但其背后的核心思想,即隐藏的世界观认知是有限的。因此在学习机器学习的过程中,我们首先需要了解该领域中各学派之间的关系,随后在学习算法时分析其涉及了哪些流派的思想,并在之后自己设计算法时,将这些思想有机地结合起来。
具体来说,若从最顶层开始细分,那么我们首先需要考虑的是「这个世界究竟应该从离散的角度来看待,还是从连续的角度来看待」,若使用离散的角度来看待,则对应「符号主义」;若从连续的角度来看待,则分别对应「连接主义」、「频率主义」与「贝叶斯主义」,其中后两者同时是统计学中的两大主流学派。
整体关系如下所示,后文再分别对其进行详细介绍:
符号主义
」
频率主义
」
贝叶斯主义
」
连接主义
」
在人工智能领域早期发展阶段,「符号主义」受大多数研究人员认可,其核心思想为:
因此当时「符号主义」的研究人员主要目的为:明确地向计算机教授世界知识。他们认为知识可以由一组规则表示,计算机程序可以使用逻辑来操纵这些知识,即「将知识表示为符号,然后使用逻辑推理和规则来处理这些符号以获得新的知识」。例如「符号主义」先驱纽厄尔和赫伯特西蒙认为:如果一个符号系统有足够的结构化事实和前提,那么聚合的结果最终会产生通用的智能。
基于「符号主义」,产生了大量代表性算法:
专家系统:专家系统是一种基于规则的符号主义算法,它使用一组 “如果…那么…” 规则来推断出结论。这些规则通常由领域专家编写,可以用于解决特定领域中的问题;
基于逻辑的学习:基于逻辑的学习是一种使用逻辑规则来表示知识和学习的方法。它将知识表示为逻辑表达式,并使用逻辑推理来学习和推断新知识;
决策树:决策树是一种基于树形结构的分类算法,它使用一系列规则和决策节点来判断输入数据的类别。每个节点表示一个决策,它将输入数据分成两个或多个子集,并在子集之间递归执行相同的过程,直到叶节点被标记为一个类别。
归纳逻辑编程:归纳逻辑编程是一种将逻辑规则和机器学习技术结合起来的方法。它使用归纳逻辑编程(ILP)来自动推导逻辑规则,并使用这些规则来解决特定领域中的问题。
「符号主义」发挥了重要作用,但也存在一些限制,例如:其需要先定义一组符号和规则,这可能会导致无法处理复杂和模糊的情况。此外,符号主义还需要大量的人工知识工程,这使得符号主义在某些领域中变得不可行。
近年来,「连接主义」所代表的神经网络模型得到广泛推崇,但在上个世纪「符号主义」大行其道之时,「连接主义」还处于无人问津的阶段,多少有些「三十年河东,三十年河西」的意味。
具体来说,「连接主义」的核心思想是「模仿神经系统中的信息处理方式,通过构建一些简单的神经元模型来实现智能的学习和决策」。
在「连接主义」中,通常使用人工神经网络(Artificial Neural Network,ANN)来建模,其中 ANN 由许多神经元组成,每个神经元都具有输入、输出和激活函数。神经元之间通过权重连接,这些权重可以通过训练来调整。
在统计学中,有两大主义,即「频率主义 (Frequentism)」与「贝叶斯主义 (Bayesianism)」,亦称为两大学派,即「频率学派」与「贝叶斯学派」。两个学派在统计推断的方法上各有不同,而这些表明上的不同主要来自其背后的不同的世界观认知。
从表面上看,「频率主义」将模型参数看成「未知的常量」,通常用极大似然估计(MLE)的方法求解具体参数:
MLE: θ = arg max θ P ( x ∣ θ ) . \text{MLE:}\quad \theta=\mathop{\arg\max}\limits_{\theta} P(\boldsymbol{x}\mid \theta). MLE:θ=θargmaxP(x∣θ).
与之对应的「贝叶斯主义」则将模型参数看成「未知的变量,其本身有一个分布」,因此通常先假定参数服从一个先验分布,再用观测到的数据来计算参数的后验分布,并使用最大化后验概率(MAP)的方法求解参数(通过贝叶斯公式进行展开):
MAP: θ = arg max θ P ( θ ∣ x ) = arg max θ P ( x ∣ θ ) P ( θ ) . \text{MAP:}\quad \theta=\mathop{\arg\max}\limits_{\theta}P(\theta\mid \boldsymbol{x})=\mathop{\arg\max}\limits_{\theta}P(\boldsymbol{x}\mid \theta)P(\theta). MAP:θ=θargmaxP(θ∣x)=θargmaxP(x∣θ)P(θ).
贝叶斯公式如下所示:
P ( θ ∣ x ) = P ( x ∣ θ ) P ( θ ) P ( x ) P(\theta\mid \boldsymbol{x})=\frac{P(\boldsymbol{x}\mid \theta)P(\theta)}{P(\boldsymbol{x})} P(θ∣x)=P(x)P(x∣θ)P(θ)
深究算法背后的世界观认知,我们可以发现「频率主义」认为模型参数是客观存在的,它就在那里,如果存在一个上帝,我们就可以得到那个精准无误的参数值,且随着数据量的不断增加,我们可以不断地去逼近那个参数。
与之对比,「贝叶斯主义」认为一切概率都是主观的(需要主观确定参数的先验分布,即 P ( θ ) P(\theta) P(θ)),因此将参数看成是一个带有概率分布的变量,不存在客观存在的概率。
「频率主义」将先验分布视为一种偏见,他们只相信自己所见的,而无视先验分布,或先验知识。因此他们经常攻击「贝叶斯主义」中的先验分布,即「先验分布难以获取,过于主观」。
与此同时,「贝叶斯主义」则认为如何先验分布来自于我之前的经验,其本身有很大的意义,且先验分布正确与否并没有那么重要,我们可以不断对先验分布进行假设,当现实状态与已有先验知识不相符时(根据收集到的数据估计的参数后验概率与先验概率差距过大),则可以对目前的信念(参数先验)进行怀疑,进而对先验知识进行修正。