深度学习概念笔记

多层感知器

多层感知器(MLP,Multilayer Perceptron)是一种前馈人工神经网络模型,其将输入的多个数据集映射到单一的输出的数据集上。
深度学习概念笔记_第1张图片

马尔科夫

马尔科夫过程

马尔可夫过程是满足无后效性的随机过程。

马尔可夫链

时间和状态的取值都是离散的马尔可夫过程称之为马可夫链。
几乎所有的强化学习问题(简而言之就是通过最终结果,找到最优)都可以构造成马尔可夫决策过程。如,最优化控制主要是处理连续的马尔可夫过程;部分可观测问题也可以转换成马尔可夫决策问题。
马尔可夫链是一种非确定性模式,状态之间的迁移不是确定的。
确定性模式:红绿灯,一直是稳定的红黄蓝红黄蓝变化。
深度学习概念笔记_第2张图片

参考链接:马尔可夫链

马尔可夫模型

马尔可夫链的一种,描述了一类重要的随机过程。

隐马尔可夫模型

马尔可夫链的一种,描述一个含有隐含未知参数的马尔可夫过程(随机过程)

条件随机场(CRF)

预测算法
CRF层可以对最终标签添加一些约束条件,从而保证预测标签的有效性。

条件随机场结合了最大熵模型和隐马尔可夫模型的特点,是一种判别式概率模型,是随机场的一种。
一种无向图模型。
常用于标注或分析序列资料,如自然语言文字或是生物序列。
条件随机场是条件概率分布模型 P(Y|X) ,表示的是给定一组输入随机变量 X 的条件下另一组输出随机变量 Y 的马尔可夫随机场。
条件随机场适合预测任务的判别模型,其中相邻的上下文信息或状态会影响当前预测。
在命名实体识别、词性标注、基因预测、降噪和对象检测问题等方面都有应用,并取得了很好的效果。
过程参考

领域迁移(domain adaptation)

域迁移(domain adaptation)旨在解决数据采样于不同的概率分布的机器学习问题。通常来说,源域(source domain)包含大量的有标签数据,目标域(target domain)包含少量的或不包含有标签数据,加一些无标签数据。领域迁移的目标是利用已知的源域和目标域数据训练一个在目标域上的模型。

表示学习

表示学习旨在将研究对象的语义信息表示为稠密、低维、实值向量。

知识表示学习

知识表示学习是面向知识库中实体和关系的表示学习。通过将实体或关系投影到低维向量空间,我们能够实现对实体和关系的语义信息的表示,可以高效地计算实体、关系及其之间的复杂语义关联。这对知识库的构建、推理与应用均有重要意义。

分布式向量表示

分布式向量表示相当于不同分词对结果的贡献程度。

N-gram 模式

当前词只与它前面n − 1个词相关。
参数的选取,可以从以下两个角度进行考虑:
(1) 计算复杂度:n越大,计算复杂度越大(指数级增长)。
(2) 模型效果:理论上n越大越好,但n越大,模型效果的提升幅度越小。
因此,实际常选用n = 3。

Transformer

Position Embedding

理论参考
用途参考
词向量的问题在于它只记录了每一个单词的词信息,而没有记录这些单词在句子中出现的位置信息,我们知道相同的单词在句子中出现的先后位置不同表示的意思可能是完全不同的。所以我们也应该记录单词在句子中的位置信息,这就是位置编码的意义。经过如此处理过后的词向量便具有了位置信息,可以在网络中做进一步运算,在加入了位置信息再进行卷积后,得到的结果正确率有很大的提升。

scaled dotproduct attention

理论参考
缩放点积会有更稳的梯度。

残差网络

理论参考
容易优化,并且能够通过增加相当的深度来提高准确率。其内部的残差块使用了跳跃连接,缓解了在深度神经网络中增加深度带来的梯度消失问题。
在统计学中,残差和误差是非常容易混淆的两个概念。误差是衡量观测值和真实值之间的差距,残差是指预测值和观测值之间的差距。对于残差网络的命名原因,作者给出的解释是,网络的一层通常可以看做 y = H(x),而残差网络的一个残差块可以表示为 H(x) = F(x) + x,也就是 F(x) = H(x) - x,在单位映射中, y = x 便是观测值,而 H(x) 是预测值,所以 F(x) 便对应着残差,因此叫做残差网络。

多任务与多模态

多任务

把多个/单个输入送到一个大模型里(参数如何共享根据场景进行设计),预测输出送个多个不同的目标,最后放一起(比如直接相加)进行统一优化。
其中有一部分共享参数也有一部分独有参数。
深度学习概念笔记_第3张图片
理论参考

MTL的目标loss设计和优化改进

既然多个任务放在一起,往往不同任务的数据分布、重要性也都不一样,大多数情况下,直接把所有任务的loss按权重不同进行求和,然后反向梯度传播进行优化。

通常多任务学习的loss function可以写为:
在这里插入图片描述
那么对于共享参数 Wsh 在梯度下降优化时:
在这里插入图片描述
这里根据权重wi不同进行求和。

多模态

多模态指的是多种模态的信息,包括:文本、图像、视频、音频等。
顾名思义,多模态研究的就是这些不同类型的数据的融合的问题。
理论参考

你可能感兴趣的:(自然语言处理,人工智能)