OPTIMIZATION AS A MODEL FOR FEW-SHOT LEARNING

文章提出,在小样本数据下,基于梯度的优化算法失败的原因:

1、梯度优化算法无法在几步之内完成优化,特别是非凸问题,各种超参的选取无法保证收敛的速度。

2、不同任务随机初始化会影响任务收敛到好的解上。尽管迁移学习能缓解这个问题,但新数据与原始数据偏差较大时,迁移学习的性能就会大大降低。

LSTM内部的更新非常类似于梯度下降的更新,因此利用LSTM的结构训练一个meta-learner模型,用于学习另一个神经网络的参数,既学习优化参数规则,也学习权重初始化。

[译] 理解 LSTM 网络 -

LSTM-based Meta-Learning 随笔 - 知乎

GitHub - twitter/meta-learning-lstm: This repo contains the source code accompanying a scientific paper with the same name.

你可能感兴趣的:(OPTIMIZATION AS A MODEL FOR FEW-SHOT LEARNING)