深度学习 | 关于RNN你必须知道的20个知识点

1. RNN是什么?
RNN代表循环神经网络(Recurrent Neural Network)。它是一类用于序列学习的神经网络,可以使用序列中的历史信息来影响当前的输出。

2. RNN的工作方式是什么?
RNN的工作方式是:在每个时间步输入一个元素,并输出一个元素。隐藏状态根据当前输入和上一时刻的隐藏状态来更新,并用于产生当前的输出。

3. RNN常用的激活函数有哪些?
RNN常用的激活函数是tanh和ReLU。tanh的范围是-1到1,比较适合输出序列。ReLU的范围是0到无穷大,可以缓解梯度消失问题。

4. RNN的训练算法是什么?
RNN常使用BPTT算法和 Truncated BPTT算法进行训练。

5. RNN有哪两大问题?
RNN有梯度消失问题和梯度爆炸问题。

6. 梯度消失/爆炸问题的原因是什么?
梯度消失/爆炸问题的原因在于,梯度在长序列中会指数衰减或增长,最终会"消失"或"爆炸"。这是因为RNN的循环结构。

7. 如何解决RNN的梯度消失问题?
常用的方法有:选用合适的激活函数,如ReLU;使用残差连接;梯度裁剪;更快的梯度下降算法等。

8. LSTM是什么?
LSTM是一种特殊的RNN,称为长短期记忆网络。它使用门机制来控制信息的流动,可以有效地缓解梯度消失问题,更好地学习长序列。

9. GRU是什么? 与LSTM的区别是什么?
GRU是另一种特殊的RNN,称为门控循环单元。它也使用门机制,但结构比LSTM简单,没有记忆细胞,只有更新门和重置门。所以GRU可以简化模型并减少参数。

10. 编码器-解码器模型是什么?
编码器-解码器模型是一种Seq2Seq模型,包含两个RNN:编码器RNN用于学习输入序列的表征,解码器RNN生成输出序列。这种模型用于机器翻译等序列生成任务。

11. Attention机制是什么? 它的作用是什么?
Attention机制是一种注意力模型,它可以衡量输入序列中的每一个元素对产生某个输出元素的重要性。它的作用是帮助模型"聚焦"在最相关的输入元素上,从而生成更好的输出。

12. Attention机制如何应用在编码器-解码器模型中?
在编码器-解码器模型中,Attention机制允许解码器根据编码器的输出生成一个"注意力向量",该向量包含每个输入元素的注意力权重,解码器可以根据这些权重选择性地聚焦在相关输入元素上。

13. Bahdanau Attention是什么?
Bahdanau Attention是一种用于编码器-解码器模型的Attention机制。它使用一个对齐模型根据编码器输出和当前解码器输出计算注意力权重,可以建模输入和输出序列之间的对齐关系。

14. Luong Attention是什么? 它和Bahdanau Attention的区别是什么?
Luong Attention也是一种用于编码器-解码器模型的Attention机制。它直接使用编码器输出和当前解码器输出计算注意力权重。Luong Attention简单但是效果很好。与Bahdanau Attention相比,它消除了对齐模型,简化了计算。

15. Beam Search是什么? 它在神经机器翻译中的作用是什么?
Beam Search是一种启发式搜索算法。它在神经机器翻译中用来产生更好的翻译输出。它会在解码阶段同时保留K个最优输出序列,称为"beam",最终从"beam"中选择得分最高的序列作为输出。

16. 机器翻译系统的评价指标是什么?
常用的评价指标有BLEU、ROUGE、METEOR等。BLEU是最常用的指标,它衡量翻译输出和人工参考翻译之间的词汇重叠度。

17. 教师forcing是什么?它的作用是什么?
教师forcing是在训练阶段提供实际的目标输出而不是模型产生的输出作为下一次输入的技术。它的作用是防止模型产生的错误输出误导训练过程。

18. Scheduled Sampling是什么? 它如何解决Teacher Forcing的问题?
Scheduled Sampling是一种渐进的教师强迫技术。它会从完全的教师forcing开始,然后根据训练步骤的增加逐渐采用模型的预测作为输入。这种方法可以平滑地从教师forcing过渡到自回归生成,解决Teacher Forcing可能带来的问题。

19. 什么是双向RNN?
双向RNN能够同时处理序列的历史信息和将来信息。它包含两个RNN,一个以原始顺序处理输入序列,一个以反序处理输入序列。最终的输出是这两个RNN输出的拼接。

20. 堆叠RNN是什么?它的作用是什么?
堆叠RNN是将多个RNN层叠加,前一层的输出作为下一层的输入。这可以增强模型的表达能力,学习更复杂的模式和关系。堆叠RNN已经被应用于许多序列学习任务中,并取得很好的效果。

你可能感兴趣的:(rnn,深度学习,lstm,人工智能,神经网络)