Meta Learning Gradient Descent as LSTM 李宏毅机器学习笔记

Meta Learning Gradient Descent as LSTM 李宏毅机器学习笔记_第1张图片

以上结构类似于RNN(LSTM)结构,其中θ类似于隐向量,training data就是输入X以下具体说明。

 

一、LSTM review

Ct-1和Ct改变会很小,所以保持了长期依赖,ht-1和ht变化大代表了短期依赖。

Meta Learning Gradient Descent as LSTM 李宏毅机器学习笔记_第2张图片

 

zi输入门,zf遗忘门,zo输出门

Meta Learning Gradient Descent as LSTM 李宏毅机器学习笔记_第3张图片

ct=z和zi做点乘+zf和ct-1点乘(选择选择ct-1还是遗忘)

ht=zo和tanh(ct)

yt=激活(W’ht)

Meta Learning Gradient Descent as LSTM 李宏毅机器学习笔记_第4张图片

 

二、LSTM与Gradient descent的联系

1.另ct-1换成θt-1

2.X和ht-1换成 负梯度

3.zf永远设成1

4.zi永远设成η

这样就可以传统的GD和lstm对应,zf和zi是人设的,但是在LSTM上可以用来学习这个参数,就是可调学习率和衰减率(对θt-1),从而进行动态学习。

Meta Learning Gradient Descent as LSTM 李宏毅机器学习笔记_第5张图片

 

三、Gradient Descent的LSTM

GD的LSTM中,θ会影响负梯度(输入),而LSTM中的C和X是无关的。这点是和LSTM不一样的。

目前文献上的做法都是假设θ对负梯度影响不存在的,方便训练和搭建。

Meta Learning Gradient Descent as LSTM 李宏毅机器学习笔记_第6张图片

 

四、Real implementation

在实际场景中θ的参数会有几万个,无法将lstm里面的cell单元开到那么大,在实际应用中是只对一个参数做为cell

其他参数都会用这套LSTM。因为他们的初始参数不一样,gradient不一样,所以就算lstm的参数是一样的,也可以得到不一样的θ。

Meta Learning Gradient Descent as LSTM 李宏毅机器学习笔记_第7张图片

 

MAML只能用同一个model,但是用这种方法可以使用不同的model。

 

五、experiment result

可以学出来遗忘门都是1,这是符合GD人工定义的。但是学习率是不太一样的。

Meta Learning Gradient Descent as LSTM 李宏毅机器学习笔记_第8张图片

 

learning to learn by gradient descent by gradient descent

Meta Learning Gradient Descent as LSTM 李宏毅机器学习笔记_第9张图片

六、更多想法

对GD加入动量的想法,下面的LSTM积累动量(感觉和合理)

Meta Learning Gradient Descent as LSTM 李宏毅机器学习笔记_第10张图片

你可能感兴趣的:(机器学习)