深度学习课程知识点漏洞总结二

欠拟合原因

欠拟合是模型在训练集没有学习到很好的特征,在训练集测试集表现都很差



其中原因可能是
1.数据集的特征表示过于简单,不能表示复杂的对应关系;
2.模型的复杂性也过于简单,没有较强的学习能力
3.为了避免过拟合,正则项系统过大,从而产生欠拟合

普通卷积前后尺寸计算公式

OutputSize = ( InputSize - ConvSize + 2 x Padding ) / Stride + 1

GRU

GRU存在重置门、更新门以及候选隐藏状态三个额外模块
重置门有助于捕捉短序列关系,更新门有助于捕捉长序列关系
每个模块有9个学习参数,每个模块的输出2个参数,第0时刻隐状态1个参数


LSTM

LSTM包括遗忘门、输入门、候选记忆细胞、输出门
在输入部分除了x和隐状态,还包含记忆细胞的输入


.

实现双向循环神经网络 需要将前向Ht与后向Ht进行concat拼接

Encoder-Decoder模型


编码、解码两个部分每个都是一个完整的循环神经网络,
在训练时,采用label作为decoder的每个输入,而测试时采用贪心算法。

注: torch.bmm为批次矩阵乘法

NLP注意力机制

常用的有点积注意力和MLP注意力

Transformer

[Vaswani et al., 2017] 创新性地使用注意力机制设计了Transformer模型。该模型利用attention机制实现了并行化捕捉序列依赖,并且同时处理序列的每个位置的tokens,上述优势使得Transformer模型在性能优异的同时大大减少了训练时间

你可能感兴趣的:(深度学习课程知识点漏洞总结二)