神经网络与深度学习(邱锡鹏)-学习笔记

神经网络与深度学习

第一章 绪论

第二章 机器学习概述

第三章 线性模型

  1. 深度学习是机器学习的一个分支,是指一类问题以及解决这类问题的方法。人工神经网络,也简称神经网络,是一种受人脑神经系统的工作方式启发而构造的一种数学模型。在机器学习领域,神经网络是指由很多人工神经元构成的网络结构模型,这些人工神经元之间的连接强度是可学习的参数。
  2. 深度学习所要解决的问题是贡献度分配问题,而神经网络恰好是解决这个问题的有效模型。
  3. 损失函数是一个非负实数函数,用来量化模型预测和真实标签之间的差异。
  4. 线性回归是机器学习和统计学中最基础和广泛应用的模型,是一种对自变量和因变量之间关系进行建模的回归分析。
  5. 计算学习理论是关于机器学习的理论基础,其中最基础的理论就是可能近似正确学习理论。
  6. 机器学习算法虽然种类繁多,但其中三个基本的要素为:模型、学习准则、优化算法。目前机器学习中最主流的一类方法是统计学习方法,将机器学习问题看作是统计推断问题,并且又可以进一步分为频率学派和贝叶斯学派。
  7. 线性模型是机器学习中应用最广泛的模型,指通过样本特征的线性组合来进行预测的模型。一个线性分类模型或线性分类器,是由一个(或多个)线性的判别函数 f(x; w) =wTx + b和非线性的决策函数g(·)组成。
  8. Logistic回归是一种概率模型,其通过使用Logistic函数来将一个实数值映射到 [0, 1] 之间。Softmax 回归,也称为多项或多类的Logistic回归,是Logistic回归在多类分类问题上的推广。
  9. 感知器是最简单的人工神经网络,只有一个神经元。
  10. 支持向量机是一个经典两类分类算法,其找到的分割超平面具有更好的鲁棒性,因此广泛使用在很多任务上,并表现出了很强优势。

注意力机制与外部记忆

  1. 通过注意力机制可以实现一种“软性”的寻址方式,即计算一个在所有记忆片段上的分布,而不是一个单一的绝对地址。类比于计算机的存储器读取,计算注意力分布的过程相当于是计算机的“寻址”过程,信息加权平均的过程相当于计算机的“内容读取”过程。注意力机制可以看做是一个接口,将信息的存储与计算分离。
  1. 神经网络中可以存储的信息量称为网络容量(Network Capacity)。
  2. 注意力一般分为两种:一种是自上而下的有意识的注意力,称为聚焦式注意力(Focus Attention)也常称为选择性注意力(Selective Attention)。聚焦式注意力是指有预定目的、依赖任务的、主动有意识地聚焦于某一对象的注 意力。另一种是自下而上的无意识的注意力,称为基于显著性注意力(SaliencyBased Attention)。基于显著性的注意力是由外界刺激驱动的注意,不需要主动干预,也和任务无关。
  3. 计算在给定一个和任务相关的查询向量q和输入向量X 下,选择第i个输入向量的概率,其中称为注意力分布(Attention Distribution), s(xi,q)为注意力打分函数, 可以使用以下几种方式来计算:
  4. 硬性注意力需要通过强化学习来进行训练。
  5. 指针网络(Pointer Network)[Vinyals et al., 2015]是一种序列到序列模型,输入是长度为 n 的向量序列,输出是下标序列c1:m =
  6. 自注意力模型可以作为神经网络中的一层来使用,既可以用来替换卷积层 和循环层[Vaswani et al., 2017],也可以和它们一起交替使用[Shen et al., 2018](比如X 可以是卷积层或循环层的输出)。在单独使用时,自注意力模型一般需要加入位置编码信息来进行修正[Vaswani et al., 2017]。
  7. 和之前介绍的LSTM中的记忆单元相比,外部记忆可以存储更多的信息,并 且不直接参与计算,通过读写接口来进行操作。外部记忆的实现途径有两种:一种是结构化的记忆,这种记忆和计算机中的信息存储方法比较类似,可以分为多个记忆片段,并按照一定的结构来存储;另一种是基于神经动力学的联想记忆,这种记忆方式具有更好的生物学解释性。
  8. 端到端记忆网络(End-To-End Memory Network,MemN2N) [Sukhbaatar et al., 2015]采用一种可微的网络结构,可以多次从外部记忆中读取信息。在端到端记忆网络中,外部记忆单元是只读的。
  9. 联想记忆模型可以看做是一种循环神经网络,基于神经动力学来实现按内 容寻址的信息存储和检索。
  10. 除了作为机器学习模型外,神经网络还可以作为一种记忆的存储和检索模型。
  11. Hopfield网络(Hopfield Network)是一种循环神经网络模型,由一组互相连接的神经元组成。Hopfield 的检索是基于内容寻址的检索,具有联想记忆能力。
  12. 目前人工神经网络中的外部记忆模型结构还比较简单,需要借鉴神经科学的研究成果,提出更有效的记忆模型,增加网络容量。

你可能感兴趣的:(自然语言处理学习,自然语言处理,深度学习)