第四周:卷积神经网络Part3

1. 绪论

  • 循环神经网络的应用

语音问答、机器翻译、股票预测、作词机、模仿写论文、模仿写代码、图像理解、视觉问答

  • 循环神经网络与卷积神经网络的不同是什么?

  • 传统神经网络,卷积神经网络,输入和输出之间是相互独立的。

  • RNN可以更好的处理具有时序关系的任务。

  • RNN通过其循环结构引入“记忆”的概念。

  1. 输出不仅依赖于输入,还依赖于“记忆”

  2. 将同一个结构循环利用

2.RNN的基本结构

  • 隐层的数据被存入到一个“记忆”单元中。

  • 存在“记忆”中的数据会被另外一个输入与原始输入一起输入到神经网络中。

第四周:卷积神经网络Part3_第1张图片

  • 基本结构:两种输入、两种输出、一种函数

第四周:卷积神经网络Part3_第2张图片

  • f被不断重复利用

  • 模型所需要学习的参数是固定的

  • 无论我们的输入长度是多少,我们只需要一个函数f

  • 深度RNN

第四周:卷积神经网络Part3_第3张图片

  • 双向RNN

第四周:卷积神经网络Part3_第4张图片

小结

  • 隐藏层状态h可以被看作是“记忆”,因为它包含了之前时间点上的相关信息

  • 输出y不仅由当前的输入所决定,还会考虑到之前的“记忆”,有两者共同决定

  • RNN在不同时刻共享同一组参数( U,W,V ),极大的减小了需要训练和预估的参数量

  • BPTT算法

第四周:卷积神经网络Part3_第5张图片

第四周:卷积神经网络Part3_第6张图片

3.循环神经网络的变种

  • 传统RNN的问题

第四周:卷积神经网络Part3_第7张图片

  • 当循环神经网络在时间维度上非常深的时候,会导致梯度消失或者梯度爆炸的问题

  • 梯度爆炸导致的问题:模型训练不稳定,梯度变为Nan(无效数字),lnf(无穷大)。

第四周:卷积神经网络Part3_第8张图片

  • 梯度消失问题的改进:改进模型;LSTM,GPU

  • Long Short-term Memory-LSTM(长短期记忆模型)

第四周:卷积神经网络Part3_第9张图片

  • 遗忘门:决定丢弃信息

  • 输入门:确定需要更新的信息

  • 输出门:输出信息

RNN和LSTM的区别

  • RNN和LSTM对记忆的处理方式不同

  • RNN 的“记忆”在每个时间点都会被新的输入覆盖,但 LSTM 中“记忆”是与新的输入相加

  • LSTM:如果前边的输入对 Ct 产生了影响,那这个影响会一直存在,除非遗忘门的权重为0

  • 小技巧:LSTM中learning rate可以被尽量的设置小

小结

  • LSTM实现了三个门计算:遗忘门,输入门,输出门

  • LSTM的一个初始化技巧就是将输入门的 bias 置为正数(例如1或5,这点可以查看各大框架代码),这样模型刚开始训练时 forget gate 的值接近于 1 ,不会发生梯度消失

  • 但LSTM有三个门,运算复杂,如何解决?->GRU

  • Gated Recurrent Unit-GPU(门控循环单元)

第四周:卷积神经网络Part3_第10张图片

差异:

  • GRU 只有两个门,分别为重置门和更新门

  • 混合了细胞状态和隐藏状态

  • 重置门:控制忽略前一时刻的状态信息的程度,重置门越小说明忽略的越多

  • 更新门:控制前一时刻的状态信息被带入到当前状态的程度,更新门值越大表示前一时刻的状态信息带入越多;

相似:

  • 从t-1到t的时刻的记忆的更新都引入加法;

  • 可以防止梯度消失;

4.扩展

  • 解决RNN梯度消失的其他方法

  • Clockwise RNN

第四周:卷积神经网络Part3_第11张图片

  • Clockwise RNN:普通RNN都是隐层从前一个时间步连接到当前时间步。而CW-RNN把隐层分成很多组,每组有不同的循环周期,有的周期是1 (和普通RNN一样),有的周期更长(例如从前两个时间步连接到当前时间步,不同周期的cell之间也有一些连接。这样一来,距离较远的某个依赖关系就可以通过周期较长的cell少数几次循环访问到,从而网络层数不太深,更容易学到。

  • 什么是attention?

  • 是受到人类注意力机制的启发。人们在进行观察图像的时候,其实并不是一次就把整幅图像的每个位置像素都看过,大多是根据需求将注意力集中到图像的特定部分。而且人类会根据之前观察的图像学习到未来要观察图像注意力应该集中的位置。

你可能感兴趣的:(第四周:卷积神经网络Part3)