人工智能理论基础学习(一)

人工智能理论基础学习(一)

目录:

  1. 人工智能的三大学派
  2. 人工神经网络和符号逻辑的区别
  3. 群体智能算法与进化计算算法的区别与联系
  4. 机器学习的定义
  5. 机器学习的五大学派
  6. 机器学习的应用领域
  7. 机器学习的分类
  8. 强化学习和监督学习的区别
  9. 浅层结构算法和深度学习算法区别
  10. 深度学习网络深度越深越好吗

1、人工智能的三大学派:

(1)符号主义学派:基于数理逻辑,认为人类思维的过程可以用符号操作来描述,在给定由公理和规则组成的集合后,所有智能行为都能归结为对特定命题的判定问题。

  • 精确逻辑:采用数理逻辑方法,对于命题可以用精确的规则进行划分。
    • 典型应用:专家系统,专家系统分为两个子系统:
      • 知识库:存储结构化信息。
      • 推理引擎:自动推理系统,用于评估知识库的当前状态,并应用相关规则进行逻辑推理,然后将新结论添加到知识库中。
      • 缺点:
        • 需要人为定义和补充规则,决定了专家系统的智能水平不会高于人类,无法解决复杂问题;
        • 基于逻辑推理,无法解决非逻辑性问题。
  • 模糊逻辑:元素可以属于多个不同的集合,元素和不同集合的关联性强弱由隶属度决定。
    • 模糊控制系统:
      • 模糊化:利用隶属函数完成输入变量的模糊化,得到模糊变量。
      • 模糊推理:通过规则器对输入进行推理,得到模糊控制变量。
      • 逆模糊:利用隶属函数去模糊化处理为精确的控制变量。
    • 一些定义:
      • 隶属度:用于表示不确定性的强弱,在概率随机性基础上加入了信息的意义和定性,是一种比随机性更加深刻的不确定性质。如35岁的人属于年轻人和中年人集合的隶属度可能为0.6和0.4。

(2)联结主义学派:基于神经网络,认为人类大脑的思维体系具有复杂的并行结构,从神经元开始,进而研究神经网络模型和脑模型。

  • 感知器(出现于20世纪60至70年代):解决线性分类问题。
    • M-P模型(阈值加权和模型):
      • 一个神经元接受的信号可以是起刺激作用的,也可以是起抑制作用的,其累积效果决定该神经元的状态,同时神经元的突触信号的输出是“全或无”的,即仅当神经元接受的信号强度超过某个阈值时,才会由突触进行信号输出。
    • 学习算法:感知器学习算法
      • 原理:输入连接的所有输出信号值和存储在处理单元局部内存中的参数值相互作用后得到求和累计值,输出通过激活函数进行处理。
      • 学习过程:调整其中存储的参数值的过程。
      • 分类:
        • 无监督学习:学习过程中,数据中输入样本的信息,但不知道输入与输出之间的关系,感知器通过学习抽取输入样本的特征或同级规律。如Hebb算法(赫布)。
        • 监督学习:学习过程中,数据是成对出现的,除了感知器的输入外,与输入对应的输出是已知的。通过逐步将集中的样本输入到网络中,根据输出结果和理想输出之间的差别来调整和学习感知器中存储的参数,从而使感知器的输出逐渐接近理想输出。如Delta法则(德尔塔,梯度下降)。
    • 计算平台:晶体管。
    • 应用:几乎没有,因为需要收集大量的专门知识并定义庞杂的推理方案,成本高。
  • 人工神经网络(出现于20世纪80-90年代):对生物神经网络的模仿,无法解决抑或问题。
    • 结构:
      • 输入层:接收来自网络外部的信号输入。
      • 隐藏层:对输入信号进行变换和学习,是人工神经网络强大学习和表达能力的来源。
      • 输出层:输出网络的计算结果。
    • 特点:
      • 信息是分布式存储和表示的。每个人工神经元中保存的参数值称为神经网络的长时记忆。人工神经网络的学习过程,就是调整每个人工神经元中保存的参数值的过程。
      • 全局并行 + 局部操作。每个神经元的输入-输出映射具有局部性,全局并行使得可以高速并行地处理大量数据。
    • 学习算法:反向传播算法
      • 反向传播算法两个过程(反复执行这两个过程,直到一定的迭代次数或者损失函数不再下降为止):
        • 前向传播:
          • 从输入层经隐藏层逐层处理后,传至输出层。
          • 通常网络输出与理想输出存在误差,用损失函数L(O,L)来计算实际输出和理想输出之间的误差,网络的训练目标是最小化损失函数。
        • 反向传播:
          • 利用损失函数计算输出层和理想输出之间的误差,并利用此误差计算输出层的直接前导层的误差,再用输出层前导层误差估计更前一层的误差。如此重复获得所有其他各层的误差估计。
          • 通过最小化每层的误差(梯度下降法)来修改每层的参数值,从而达到学习的目的。
    • 计算平台:图形处理器。
    • 应用:语音识别、图像识别、自动驾驶等。
  • 深度学习(21世纪初-至今):复杂函数
    • 特点:
      • 相比传统人工神经网络最大的特点是网络层数更多,利用了卷积神经网络和循环神经网络等更为复杂的结构,参数量成倍增长,使模型的表示和学习能力进一步提升。
    • 学习算法:预训练 + 微调
      • 通过一个“预训练”的过程对神经网络进行逐层学习,再通过反向传播算法对整个网络进行“微调”。
    • 计算平台:分布图形处理器平台。
    • 应用:如图像、语音、自然语言处理等几乎所有人工智能领域。

(3)行为主义学派:基于进化论,认为必须赋予机器自主感知和行动的能力,将重点放在语言、行为等外部信号的建模上。

  • 进化计算算法:模拟生物种群在进化过程中的自然选择和自然遗传机制。
    • 遗传算法:模拟生物在自然环境中的遗传和进化过程而形成的一种自适应全局优化概率搜索算法,按照与个体适应度成正比的概率决定当前群体中每个个体遗传到下一代群体中的机会。
      • 三种遗传算子:
        • 选择算子:根据各个个体的适应度,按照一定的概率规则,从当前群体中选择出一些优良的个体遗传到下一代群体中。
        • 交叉算子:将群体内的各个个体随机搭配成对,对每一个个体,根据交叉概率交换它们之间的部分染色体。
        • 变异算子:对群体中的各个个体,以变异概率改变染色体上的基因值为其他的等位基因。
      • 遗传算法对群体反复执行选择、交叉、变异步骤,直到搜索群体找到目标函数的最优值或者满足收敛条件
      • 特点:
        • 自适应概率搜索技术,增加搜索过程的随机性和灵活性。
        • 解空间的多点搜索,可并行处理,提高性能。
        • 以目标函数值作为搜索信息,不需要目标函数的导数等其他信息。
      • 一些定义:
        • 适应度函数:对问题中每个个体都能进行度量的函数。
        • 染色体:遗传算法使用固定长度的二进制符号串来表示群体中的个体。
  • 群体智能算法:对生物群体在协作和交互过程中涌现出的复杂智能行为进行建模。
    • 定义:指一群功能简单的、具有信息处理能力、自组织能力的个体通过通信、交互、协作等手段所涌现出简单个体所不具备的复杂问题求解能力。
    • 特征:
      • 个体同质,没有中心控制节点,适用于并行计算模型;
      • 种群具有可扩展性,种群内个体数目可变;
      • 种群内部具有协作性,个体之间存在相互协作机制;
      • 种群具有临近性,个体之间交互机制的作用范围有限;
      • 种群具有自适应性,能够根据环境变化自动调整;
      • 种群具有稳定性,某些个体故障不会影响到系统的正常工作。
    • 常见算法:
      • 蚁群算法:基于蚁群觅食行为的建模。
        • 特点:
          • 种群多样性:以随机概率选择路径。
          • 信息素更新的正反馈机制:某条路径更短,则往返时间越短,路径上信息素被更新的频率更高,路径上的信息素浓度更高。
        • 应用场景:组合优化问题,如任务调度问题、图着色问题、旅行商问题。
      • 粒子群算法:基于鸟群觅食行为的建模。
        • 可行解(鸟类)朝全局最优解(食物)移动和收敛的过程。
        • 一些定义:
          • 个体学习能力:个体记忆自身历史信息的能力
          • 社会认知能力:感知临近个体飞行状态的能力
        • 应用场景:对连续空间的优化问题求解。

2、人工神经网络和符号逻辑的区别:

  • 实现方式:
    • 人工神经网络:并行处理;对样本数据进行多目标学习;通过人工神经元之间的相互作用实现控制。
    • 符号逻辑:串行处理;由程序实现控制。
  • 开发方法:
    • 人工神经网络:定义人工神经元的结构原型,通过样本数据,依据基本的学习算法完成学习,自动从样本数据中抽取内涵,自动适应环境。
    • 符号逻辑:设计规则、框架、程序;用样本数据进行调试,是人根据已知的环境去构造一个模型。
  • 适应领域:
    • 人工神经网络:非精确计算;模拟处理;大规模数据并行处理。
    • 符号逻辑:精确计算;符号处理;数值计算。
  • 模拟对象:
    • 人工神经网络:右脑(形象思维,利用感受、情感、主观认识等,进行感性认识)。
    • 符号逻辑:左脑(逻辑思维/抽象思维,利用概念、判断、推理,进行理性认识)。

3、群体智能算法与进化计算算法的区别与联系:

  • 相同点:
    • 维护一个种群进行启发式计算。
  • 不同点:
    • 研究对象不同。群体智能算法主要是对群体中由于交互机制的存在使得群体涌现出个体不具有的问题求解能力这一过程进行建模。进化计算算法主要是基于达尔文定律对生物进化过程的模拟。
    • 关注点不同。群体智能算法侧重于群体中个体的协作。进化计算算法关注于群体中个体间的竞争,以获得胜出。

4、机器学习的定义:

  • 系统通过获取经验提高自身性能的过程,即系统自我改进过程。机器学习是人工智能的核心研究领域之一。
  • 机器学习研究的是如何使计算机能够模拟或实现人类的学习功能,从大量数据中发现规律、提取知识,并在实践中不断完善和增强自我。
  • 机器学习的过程就是一个对包含可能假设的空间进行搜索的过程,使得到的假设在满足先验知识和其他约束的前提下,与给定训练样本是最吻合的。
  • 机器学习就是一类能够让计算机从大量已知的以特征向量表示的训练样本中,学习到一个泛化能力强的分类器的方法。
    • 分类器好坏的衡量标准:损失函数
      • 分类问题中,损失函数定义为机器学习得到的分类器对样本的分类结果和样本真实类别的差异。
      • 回归问题中,损失函数定义为学习得到的分布与样本的真实分布之间的差别。
    • 目标:最小化损失函数。
      • 优化方法:
        • 启发式的方法:
          • 遗传算法
          • 粒子群算法
        • 基于梯度方向的算法:
          • 批量梯度下降法
          • 随机梯度下降法
          • 小批量梯度下降法
    • 一些定义:
      • 梯度:是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大(为该梯度的模)。
      • 过拟合问题:简单的最小化损失函数在训练样本上的值,容易造成分类器对没有见过的样本的分类正确率降低,即分类器的泛化能力不够。
      • 惩罚项:在损失函数里添加的一个衡量分类器复杂度的标准。
        • 惩罚项通常由分类器参数的各种形式表征,当分类器形式太复杂时,使得损失函数的值也会比较大。
        • 作用:使得降低分类器错误率的同时,也能将分类器的形式限制得比较简单,保证它的泛化能力。

5、机器学习的五大学派:

  • 符号主义学派:
    • 物理符号系统假设和有限合理性原理
    • 主要代表:逆演绎算法
  • 联结主义学派:
    • 神经网络以及神经网络间的联结机制与学习算法
    • 主要代表:反向传播算法
  • 进化主义学派:
    • 生物的进化机制和进化生物学
    • 主要代表:基因编程
  • 贝叶斯学派:
    • 以统计学相关理论为基础
    • 主要代表:概率推理和概率分布学习
  • 行为类比主义学派:
    • 从心理学的角度来研究机器的学习能力
    • 主要代表:基于核理论的相关算法,如支撑向量机算法

6、机器学习的应用领域:

  • 数据挖掘问题:利用人工智能、机器学习、统计学和数据库的交叉方法,在相对较大型的数据中挖掘出有价值的规则的计算模式。
    • 如沃尔玛超市的啤酒与尿布的故事、医疗专家系统等
  • 模式识别问题:利用计算机对物理对象进行分类,在错误概率最小的条件下,使识别结果尽量与客观物体相符。
    • 如海量图形中精准识别某个人脸
  • 精准推送问题:计算机程序自适应地应对所处环境的变化。
    • 如广告推送,能够根据每一个人的浏览记录和行为习惯,准确推送符合这个人需求的广告。

7、机器学习的分类:

(1)按照训练样本的具体情况分类:

  • 监督学习:用来训练分类器的训练样本由样本的特征向量和类别标号构成。
    • 常见监督学习算法:
      • 回归分析和统计分类
        • 线性回归
        • 决策树
        • 神经网络
  • 无监督学习:训练样本只有特征向量,而不包括每个向量对应的类别。
    • 常见无监督学习算法:
      • 聚类分析
        • k-均值聚类
        • 模糊k-均值聚类
  • 半监督学习:介于监督学习和无监督学习之间,指在大量无类别标签的样本的帮助下,训练少量已有类别标签的样本,获得比仅仅利用这些很少的标注样本训练得到的分类器的分类能力更强的分类器,以弥补有类别标签的样本不足的缺点。
  • 强化学习:在某个环境中,存在各种不同的状态,机器可以采取几种不同的动作使得自己在几种不同状态之间以一定的概率切换,不同的状态对应不同的结果,这个结果用回报来衡量,通过强化学习找到策略,使得机器在面对不同的状态时采取合适的动作,使得获得的回报最大。

(2)按照算法的功能分类:

  • 回归算法(预测连续目标变量):通过最小化预测值与真实值之间差距,而拟合出输入特征之间的最佳组合的一类算法(用一条线来拟合一些离散的点)
    • 线性回归:利用最小二乘法建模因变量和一个或多个解释变量(或称为独立变量)之间对应关系的一种回归分析
      • 学习方法:最小化基于预测值与真实值的均方误差所构成的损失函数
      • 最小二乘法(又称最小平方法):是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。最小二乘法还可用于曲线拟合。其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达。
      • 应用场景:
        • 通过拟合函数根据自变量预测出一个因变量值
        • 用来量化因变量与自变量之间相关性的强度,评估出某些与自变量不相关的因变量
    • 非线性回归:
      • 学习方法:最小化基于预测值与真实值的均方误差所构成的损失函数
      • 非线性的,模型可以是如对数、指数、高次方程等等
  • 分类算法(预测离散目标变量):通过训练样本学习到每个类别的样本特征,利用这些特征构建分类线或分类面,将各种不同的样本分隔开,并且最小化错分样本数量的一类算法。
    • 贝叶斯分类算法(监督):基于贝叶斯公式,逆概问题
      • 利用现有的信息,计算出某些相关事件的先验概率,然后利用贝叶斯公式根据已有的经验计算得到需要的后验概率。
    • 决策树算法(监督):某项活动开展与否,取决于一系列前提条件,并且我们已经有了在这些条件下活动是否进行的训练数据,我们可以根据这些数据,按照是否满足某个特定的条件,逐步缩小活动是否开展所要考虑的条件范围,最终给出是否开展活动的确定性答案。
      • 决策树是一个预测模型,代表的是对象属性和对象值之间的一种映射关系
      • 每个结点表示某个对象,每个分叉路径代表某个可能的属性值,每个叶节点对应从根节点到该叶节点所经历的路径所表示的对象的值
      • 决策树构建过程是一个自顶向下的贪心递归过程。
      • 缺陷:
        • 容易陷入过拟合,解决方法:预剪枝以及剪掉树中那些样本数非常少的结点,去除特例样本带来的冗余信息
    • 支持向量机(SVM,Support Vector Machine)(监督):不仅考虑将训练样本正确区分开,而且考虑分类线(面)的位置,使得它能将各类样本尽可能分隔得足够远
      • 可以解决线性不可分问题,通过核函数映射,使得在低维空间表示不可分的样本,通过投影到更高维的空间就可以变成线性可分的了。
      • 一些定义:
        • 核函数:核函数就是低维空间中的内积的某个函数,通过核函数可以计算出高维空间中两个数据点之间的距离和角度
    • 近邻算法(监督):
      • k-近邻算法:基于实例的学习算法
        • 算法在对未知样本进行分类时,需要先计算它与所有一致类别标签的样本的欧式距离,然后找出与它距离最近的k个样本,这k个样本中哪个类别样本数最多,就将这个未知的样本分类为对应的类别
        • k通常取不能被类别整除的值
    • 聚类算法(无监督):基于距离的聚类算法(迭代求解)
      • 预将数据分为K组,则随机选取K个对象作为初始的类别中心,然后计算每个对象与类别中心之间的距离,把每个对象分配给距离它最近的类别中心。类别中心以及分配给它们的对象就代表一个聚类。每分配一个样本,聚类的类别中心点会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类,没有(或最小数目)聚类中心再发生变化,误差平方和局部最小。
  • 深度学习算法(深度神经网络):相比人工神经网络,其拓扑结构上节点层数比较多。
    • 定义:
      • 一种多层描述的表示学习,通过组合简单、非线性模块来实现,每个模块都会将最简单的描述(从原始输入开始)转变为较高层、较为抽象的描述。
      • 深度学习善于在高维度的数据中摸索出错综复杂的结构
    • 举例子:图片识别:
      • 第一特征层:机器学到的特征主要是图像中特定方位、位置边缘的信息
      • 第二特征层:机器通过发现特定边缘的组合来检测图案,此时机器并不考虑边缘位置的微小变化
      • 第三特征层:机器将局部图像与物体相应部分匹配
      • 后续层级:将局部组合起来从而识别出整个物体
      • 局部轮廓边缘组合形成基本图案,基本图案形成物体的局部,局部物体再组成物体。
    • 常用网络结构:
      • 卷积神经网络(CNN,Convolutional Neural Networks)(监督):
        • 人工智能理论基础学习(一)_第1张图片
        • 一些定义:
          • 离线的卷积计算:由一个特征图执行的过滤操作
          • 通道:一个通道是对某个特征的检测,通道中某一处数值的强弱就是对当前特征强弱的反应。
        • 卷积层:通道与通道之间进行交互,探测前一层中特征之间的局部连接,之后在下一层生成新的通道
          • 一个卷积层单元通过一组滤波器权值连接到前一层的特征图的局部数据块;接下来,得到的局部加权和会传递至一个非线性函数进行变换计算激励值
        • 池化层:对语义相似的特征进行合并。
          • 一个池化层单元通常会计算一个或几个特征图中一个局部块的最大值,相邻的池化单元则会移动一列或一行从小块读取输入
        • 常见应用:
          • 人脸识别
          • 语音识别
          • 文本识别
          • 生物信息分割
      • 循环神经网络(RNN,Recurrent Neural Network,也称为递归神经网络):通常用于需要序列连续输入的任务,如语音和语言
        • 循环神经网络一次处理一个输入序列元素,同时维护的隐藏层单元中隐含着该序列过去所有元素的历史信息。
          • 编码器:一种在最后隐藏层将像素转换为活动向量的深度卷积网络
          • 解码器:一种类似机器翻译和神经网络语言模型的循环神经网络
        • 特殊隐藏层单元的长短期记忆网络:能够长期保存输入信息
        • 一些定义:
          • 隐藏层:把输入数据的特征,抽象到另一个维度空间,来展现其更抽象化的特征,这些特征能更好的进行线性划分。
      • 对抗神经网络(GAN,Generative Adversarial Networks ):由判别模型和生成模型组成,可以利用对抗过程估计生成模型。
        • 一个网络生成模拟数据,另一个网络判断生成的数据是真实的还是模拟的。生成模拟数据的网络要不断优化自己让判别的网络判断不出来,判别的网络也要不断优化自己让判断更加精确。两者的关系形成对抗,因此叫对抗神经网络。
      • 自编码机(Auto Encoder)(无监督):基于多层神经元,主要用于数据的降维或者特征的抽取。
      • 玻尔兹曼机:受统计力学启发的多层学习机,它是一类典型的随机神经网络,属于反馈神经网络类型 。
        • 离散Hopfield神经网络+模拟退火+隐单元=Boltzman机
  • 强化学习(深度增强学习):一种试错的学习方式,解决决策制定问题,学会根据自身所处环境自动做出相应决策
    • 定义:一个序列决策制定问题,它需要连续选择一些动作,从而使得机器在执行这些动作之后获得最大的收益、最好的结果。
    • 四个主要元素:
      • 环境状态集合S
      • 动作集合A
      • 状态之间的转换规则P
      • 特定动作导致的状态转移之后带来的回报R
    • 学习过程:
      • 探索:放弃一些已知的回报信息,而去尝试一些新的选择。
      • 利用:根据已知的信息使回报最大化,充分利用现有的对于环境的认识。
  • 演化学习:一个受益于自然演化的大型启发式随机优化算法
    • 演化算法在模拟自然演化的过程过主要考虑了两个关键因素:
      • 变分再生产:从当前的解集中通过某种方法产生新的解集。
      • 优选:不断的通过优胜劣汰的策略去剔除当前表现不达标的解集。
    • 常见演化算法:
      • 遗传算法(GA)
      • 遗传规划(GP)
      • 演化策略(ES)

8、强化学习和监督学习的区别:

  • 有无类标。
    • 监督学习中训练样本对应着类标,这个类标告诉算法什么样的输入应该对应着什么样的输出;
    • 强化学习没有类标,只有一个做出一系列动作后最终反馈回来的回报信号,这个信号能够判断当前选择的行为是好是坏。
  • 反馈时间不同。
    • 监督学习做了比较坏的选择后立刻反馈给算法;
    • 强化学习的结果反馈有延时,有时候可能需要走了很多步后才知道以前的某一步的选择是好还是坏。
  • 输入不同。
    • 监督学习的输入是独立同分布的;
    • 强化学习的输入总在变化,每当算法做出一个行为,它就会影响下一次决策的输入。

9、浅层结构算法和深度学习算法区别:

  • 分类、回归等浅层结构算法局限性在于:
    • 有限样本和计算单元情况下,对复杂函数的表示能力有限。
    • 针对复杂分类问题其泛化能力受到一定制约。
  • 深度学习:
    • 学习一种深层非线性网络结构,实现复杂函数逼近,表征输入数据分布式表示,并展现了强大的从少数样本集中学习数据集本质特征的能力。

10、深度学习网络深度越深越好吗

  • 优点:
    • 更好的拟合特征。深度学习网络结构的主要模块是卷积,池化,激活,这是一个标准的非线性变换模块。更深的模型,意味着更好的非线性表达能力,可以学习更加复杂的变换,从而可以拟合更加复杂的特征输入。
    • 逐层的特征学习。网络更深,每一层要做的事情也更加简单了,可以进行逐层的特征学习。
  • 缺点:
    • 梯度不稳定。深层网络带来的梯度不稳定,网络退化的问题始终都是存在的,可以缓解,没法消除。这就有可能出现网络加深,性能反而开始下降。
    • 训练算法能力不足。理论上来说网络越深表达能力越强,能处理的训练数据也更多,但是训练算法未必支持。
    • 影响浅层学习能力。可能导致某些浅层的学习能力下降,限制了深层的学习。

参考文献:

[1]谭营. 人工智能知识讲座. [M]北京:人民出版社,2018.04;
[2]孙志军、薛磊、许阳明、王正. 深度学习研究综述. 期刊文献:计算机应用研究,2012年8月;

你可能感兴趣的:(人工智能)