- 篇幅所限,本篇只整理了文章的前两部分,最后一部分作者的贡献稍后更新
- 由于是综述性质文章,所以大部分是直接翻译,不通顺内容大多按照我的理解重写过,但是可能仍存在一些小的翻译问题,建议对照原文学习
- 原论文链接
- 参考文献取自原文
该论文包括:
Memory-augmented networks Santoro等人(2016)[2]认为,通过使用存储的关于以前图像分类的信息,可以对来自以前未见过的类的新图像进行分类。他们的模型使用了一种循环神经网络,学习如何存储和检索过去数据中的相关信息。其他方法则利用外部存储器[3][4]扩展神经网络的思想。
Metric learning Koch等人(2015)[5]提出了暹罗神经网络来解决少镜头图像分类。他们的模型由两个具有共享权值(腿)的卷积神经网络和一个头组成,前者计算输入图像的嵌入(即特征向量),后者比较每个腿各自的输出。在训练时(在大的基础数据集上),网络接收成对的图像作为输入,预测它们是否属于同一类,并根据这种预测的准确性进行训练。最终,当在一个少数镜头分类类上进行评估时(参见图1),每个查询图像将与支持集中的每个图像进行比较,并分配给被认为最接近的类(例如使用k-Nearest neighbors)。
该算法在小镜头图像分类中取得了很好的效果。然而,训练它的任务(两幅图像的比较)与评估它的任务(分类)不同。Vinyals等人(2016)[6]认为这是一个缺点,并在元学习框架内部提出了该算法的一个略有不同的版本(见2.2节对该框架的定义)。他们的匹配网络也通过比较查询图像的嵌入和从支持集图像计算得到的嵌入来对查询图像进行分类,但不同的是,他们的训练目标也是图像分类。它们的表现优于暹罗网络,从而验证了他们的假设。
Gradient-based meta-learners 元学习框架内的其他算法学习一种有效的方法,对支持集上的卷积神经网络进行微调,以便准确分类查询集。Finn et al.(2017)[9]开发了一种模型无关元学习器(MAML),它试图学习CNN初始化的最佳参数,以便在支持集上只进行少量梯度下降后,在查询集上获得良好的准确性。Li et al.(2017)[10]开发的Meta-SGD更进一步:除了初始化参数外,该算法为每个参数学习一个学习速率和一个更新方向。Ravi & Larochelle(2016)[11]提出了一种长短期记忆网络,其中细胞状态(即在LSTM中应该携带长期记忆的变量)是CNN的参数。这允许执行一个学习梯度下降,其中CNN训练的所有超参数实际上是LSTM的训练参数。Mishra等人仍在元学习框架内,他们认为这是一个序列到序列的问题(2018[12]将时间卷积与因果注意结合起来,创建他们的简单神经注意学习者(SNAIL)。最后,加西亚,Bruna[13]提出使用图神经网络作为所有元学习算法的扩展,用于少镜头学习。
Data generation 解决示例太少的问题的另一种方法是生成额外的数据。Hariharan,Girshick(2017)[14]增强度量学习算法,将幻觉特征向量添加到从真实图像提取的特征向量中。Antoniou et al.(2017)[15]将生成对抗网络应用于Few- Shot数据增强:他们的GAN能够将以前未见过的类的图像作为输入,生成属于同一类的新图像。Wang等人(2018)[16]提出了一种元学习的虚拟数据生成器,可以使用元学习分类算法以端到端方式训练它。
杜伦,Pratt(1998)[17]指出,给定一个任务,算法是在学习它在任务中的表现是否随着经验的增加而提高,而给定一系列任务,算法是在学习它在每个任务中的表现是否随着经验和任务数量的增加而提高。我们将最后一个称为元学习算法。形式上,如果我们要解决一个task T t e s t \mathcal{\Tau}_{test} Ttest,元学习算法将在一批训练任务{ T i \mathcal{\Tau}_{i} Ti}上进行训练。算法通过尝试解决这些任务而获得的训练经验将被用于解决最终的 T t e s t \mathcal{\Tau}_{test} Ttest任务。
为了解决名为 T t e s t \mathcal{\Tau}_{test} Ttest的N-way K-shot分类问题,我们有一个大的元训练集 D \mathcal D D。元训练过程将包含有限数量的插曲。一个插曲由一个分类任务 T i \mathcal{\Tau}_{i} Ti组成,它类似于我们最终想要解决的分类任务 T t e s t \mathcal{\Tau}_{test} Ttest:从 D \mathcal D D中,我们采样N个类并且每个类K个支持集图像,以及Q个查询图像。注意, T i \mathcal{\Tau}_{i} Ti的类与 T t e s t \mathcal{\Tau}_{test} Ttest的类是完全分离的(即 T t e s t \mathcal{\Tau}_{test} Ttest的类不出现在元训练集 D \mathcal D D中,尽管它们必须相似才能使算法有效)。在每一个插曲结束时,我们的模型参数将被训练来最大限度地提高Q查询图像分类的准确性(通常通过反向传播分类损失,如负对数概率)。因此,我们的模型跨任务学习解决一个看不见的分类任务的能力。
正式的,一个标准的学习分类算法将学习一个图像 → \to →标签的映射,元学习算法通常学习支持集 → \to →(查询 → \to →标签)的映射。我们的元学习算法的效率最终是由它在目标分类任务 T t e s t \mathcal{\Tau}_{test} Ttest上的准确性来衡量的。
近年来,国内外每年都有针对少镜头图像分类的元学习算法问世。这些算法中的大多数可以被标记为度量学习算法或基于梯度的元学习器。这两种情况都将在本节中介绍。
让我们考虑一个元训练集,其中一个分类任务 T d \mathcal{\Tau}_{d} Td由 N × K N \times K N×K个有标记图像的支持集和Q图像的查询集定义。基础学习模型(通常是一个CNN分类器)将被初始化,然后在支持集(例如基础训练集)上训练。元学习模型定义了训练基础学习模型的算法。然后应用基础学习模型对Q查询图像进行分类预测。元学习器的参数是在事件结束时从分类错误所造成的损失中训练出来的。
Meta-LSTM(2016) Ravi & Larochelle[11]决定使用长期-短期记忆网络[18]:基础学习器 f θ f_{\theta} fθ的参数 θ \theta θ是由LSTM的cell状态表示的,更新规则是 θ t = f t ⊙ θ t − 1 + i t ⊙ c t ~ \theta_t = f_t \odot \theta_{t-1} + i_t \odot \widetilde{c_t} θt=ft⊙θt−1+it⊙ct ,其中 f t f_t ft和 i t i_t it分别是LSTM的遗忘门和输入门, c t ~ \widetilde{c_t} ct 代表输入。我们可以看到更新规则是反向传播的扩展,因为当 f t = 1 f_t = 1 ft=1, i t i_t it表示学习率,$\widetilde{c_t} = -\bigtriangledown_{\theta_{t-1}}{\mathcal{L}_t} $时,我们就得到了标准的反向传播函数。因此,该模型学习了如何在支持集的基础模型上有效地进行梯度下降操作,以使基础模型在查询集上更加精确。
Model-Agnostic Meta-Learning (MAML, 2017) Finn et al.[9]提出了一种算法,该算法学习如何初始化基模型的参数,但不干预基础模型的参数更新。在这里,元学习者在每一个插曲的开始创建一个自己的副本,这个副本(基本模型)在支持集上进行微调,然后对查询集做出预测。从这些预测中计算出来的损失用于更新元模型的参数(因此,下一个插曲的初始化参数将不同)。Finn等人描述的算法如图所示。
这种方法的主要特点是,它被认为是基本模型的不可知论者,这意味着它几乎可以应用于任何机器学习算法。Finn等人在监督回归和分类以及强化学习任务上对其进行了测试,但它也可以用于解决许多其他需要深度神经网络快速适应的问题,例如少镜头目标检测(见3.3节)。
Siamese Networks算法[5]是使用度量学习来解决少镜头分类的第一次尝试,即学习物体上的距离函数(有些算法实际上学习了相似函数,但它们仍然被称为度量学习算法)。
因此,度量学习算法学习比较数据实例。在小样本分类的情况下,他们根据查询实例与支持集实例的相似性对查询实例进行分类。在处理图像时,大多数算法训练卷积神经网络为每幅图像输出一个嵌入向量。然后将这种嵌入与其他图像的嵌入进行比较,以预测分类。
Matching Networks (2016) 正如在2.1节中所解释的,Siamese Networks在一个辨别任务中训练他们的CNN(这两个实例来自同一个类吗?),但是算法在一个分类任务中测试(这个实例属于哪个类?)Vinyals等人[6]解决了训练和测试之间的任务转换问题。他们提出了匹配网络,这是元学习框架中度量学习算法的第一个例子。
为了解决一个少镜头的图像分类任务,他们使用了一个大的元训练集,从中抽取插曲。对于每个插曲,他们采用以下步骤:
通过这种方式,匹配网络学会了计算图像的表示,这种表示允许在没有特定的先验知识的情况下对它们进行分类,只需将它们与这些类的几个实例进行比较。由于每一个插曲的分类不同,匹配网络需要计算与区分类有关的图像特征,而标准的分类学习算法需要学习针对每个类的特定特征。
值得注意的是,Vinyals等人也提出了一个全上下文嵌入过程来扩充他们的算法:由于双向LSTM的存在,每幅图像的嵌入取决于其他图像的嵌入。他们希望这能更好地利用这一插曲的所有可用知识。这个过程稍微提高了他们算法在miniImageNet基准上的性能,但也需要更长的计算时间。
Prototypical Networks (2017) Snell等人[7]在匹配网络的基础上提出了原型网络。这个过程本质上是相同的(虽然没有使用Full Context Embeddings),但是查询图像并不与支持集的每个图像的嵌入进行比较。相反,来自同一个类的支持集图像的嵌入被平均起来形成一个类原型。然后只将查询图像与这些原型进行比较。需要注意的是,当我们在支持集(一次性学习设置)中每个类只有一个示例时,原型网络等价于匹配网络。在miniImageNet基准测试中,他们获得了比匹配网络更好的结果,并暴露出这种改进的一部分必须归功于他们对距离度量的选择:他们注意到,他们的算法和匹配网络在使用欧几里德距离时都比使用余弦距离时表现得更好。
Relation Network (2018) Sung等人[8]在原型网络的基础上开发了关系网络。不同之处在于,嵌入上的距离函数不再是预先任意定义的,而是通过算法学习得到的(见图):在嵌入模块(即从输入图像中计算嵌入和类原型的部分)之上放置一个关系模块。这个关系模块将查询图像的嵌入连接到每个类原型上,并为每一对输出一个关系分数。将softmax应用于关联分数,我们得到一个预测。
Omniglot Lake等人(2011)[19]引入了Omniglot数据集。它由来自50个不同字母的1623个字符组成。这些字符中的每一个都是一个类,包含由不同的人绘制的20个样本。每个数据实例不仅是一个28x28x1的图像,而且还包含了它是如何绘制的信息 :笔触有多少,每个行程的起点和终点(如图)。虽然Lake等人主要使用Omniglot的一部分进行视觉概念小样本学习[20],该数据集被用作像MNIST一样的小样本图像分类的基准。在大多数用例[8]上,大多数算法现在在这个数据集上达到98%或更好的精度。
miniImageNet Vinyals et al.[6]提出使用ImageNet的一部分作为一个新的、更具挑战性的基准来进行少镜头图像分类。他们的数据集由100个类组成,每个类包含600张3通道图像。该数据集[11]的常用训练/验证/评估分割将其分为三个子集,分别为64、16和20个类。通过这种方式,我们确保算法是在训练期间没有看到的类上进行评估的。
据我所知,第一个小样本检测器是由Kang等人[28]在2018年底提出的。他们的算法将一个标准的单阶段检测器与另一个辅助网络相结合。第二个模型负责调整模型的特征提取器输出的特征的权重(在YOLOv3中,这将是Darknet53的输出)。这种调整的目标是赋予与正在解决的特定小样本检测任务相关的特征更多的重要性(直觉是,用于检测的相关特征取决于要检测的对象的类型)。重新加权模型是在元学习设置中训练的:在每个元训练集,采样一个少量的检测任务(例如:检测狗和猫,用一些注释的狗和猫的例子),训练目标是检测器的精度。
最近,Fu等人提出了元ssd[29]。他们将Li等人的Meta-SGD[10]应用于Liu等人的单发探测器。他们最终得到了一个完全可元训练的对象检测器。
同时,Wang et al.[30]围绕Faster R-CNN开发了一个新颖的框架。结果表明,该算法能够适应具有少量标记示例的新任务。
之前的工作已经解决了小样本目标问题[31] [32],尽管他们考虑了一个稍微不同的问题:他们定义了少拍物体为每个类别只有少量标记的图像,但也使用了大量未标记的数据。
[1] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for
image recognition. In Proceedings of the IEEE conference on computer vision and pattern
recognition, pages 770–778, 2016.
[2] Adam Santoro, Sergey Bartunov, Matthew Botvinick, Daan Wierstra, and Timothy Lillicrap.
Meta-learning with memory-augmented neural networks. In International conference
on machine learning, pages 1842–1850, 2016.
[3] Tsendsuren Munkhdalai and Hong Yu. Meta networks. In Proceedings of the 34th International
Conference on Machine Learning-Volume 70, pages 2554–2563. JMLR. org,
2017.
[4] Pablo Sprechmann, Siddhant M Jayakumar, Jack W Rae, Alexander Pritzel, Adria Puigdomenech
Badia, Benigno Uria, Oriol Vinyals, Demis Hassabis, Razvan Pascanu, and
Charles Blundell. Memory-based parameter adaptation. arXiv preprint arXiv:1802.10542,
2018.
[5] Gregory Koch, Richard Zemel, and Ruslan Salakhutdinov. Siamese neural networks for
one-shot image recognition. In ICML deep learning workshop, volume 2, 2015.
[6] Oriol Vinyals, Charles Blundell, Timothy Lillicrap, koray kavukcuoglu, and Daan Wierstra.
Matching networks for one shot learning. In D. D. Lee, M. Sugiyama, U. V. Luxburg,
I. Guyon, and R. Garnett, editors, Advances in Neural Information Processing Systems
29, pages 3630–3638. Curran Associates, Inc., 2016.
[7] Jake Snell, Kevin Swersky, and Richard Zemel. Prototypical networks for few-shot learning.
In I. Guyon, U. V. Luxburg, S. Bengio, H. Wallach, R. Fergus, S. Vishwanathan, and R. Garnett, editors, Advances in Neural Information Processing Systems 30, pages 4077–Curran Associates, Inc., 2017.
[8] Flood Sung, Yongxin Yang, Li Zhang, Tao Xiang, Philip H.S. Torr, and Timothy M.
Hospedales. Learning to compare: Relation network for few-shot learning. In The IEEE
Conference on Computer Vision and Pattern Recognition (CVPR), June 2018.
[9] Chelsea Finn, Pieter Abbeel, and Sergey Levine. Model-agnostic meta-learning for fast
adaptation of deep networks. In Doina Precup and Yee Whye Teh, editors, Proceedings
of the 34th International Conference on Machine Learning, volume 70 of Proceedings of
Machine Learning Research, pages 1126–1135, International Convention Centre, Sydney,
Australia, 06–11 Aug 2017. PMLR.
[10] Zhenguo Li, Fengwei Zhou, Fei Chen, and Hang Li. Meta-sgd: Learning to learn quickly
for few-shot learning. arXiv preprint arXiv:1707.09835, 2017.
[11] Sachin Ravi and Hugo Larochelle. Optimization as a model for few-shot learning. 2016.
[12] Nikhil Mishra, Mostafa Rohaninejad, Xi Chen, and Pieter Abbeel. A simple neural attentive
meta-learner. In International Conference on Learning Representations, 2018.
[13] Victor Garcia Satorras and Joan Bruna Estrach. Few-shot learning with graph neural
networks. In International Conference on Learning Representations, 2018.
[14] Bharath Hariharan and Ross Girshick. Low-shot visual recognition by shrinking and hallucinating
features. In Proceedings of the IEEE International Conference on Computer
Vision, pages 3018–3027, 2017.
[15] Antreas Antoniou, Amos Storkey, and Harrison Edwards. Data augmentation generative
adversarial networks. arXiv preprint arXiv:1711.04340, 2017.
[16] Yu-XiongWang, Ross Girshick, Martial Hebert, and Bharath Hariharan. Low-shot learning
from imaginary data. In Proceedings of the IEEE Conference on Computer Vision and
Pattern Recognition, pages 7278–7286, 2018.
[17] Sebastian Thrun and Lorien Pratt. Learning to learn. 1998.
[18] Sepp Hochreiter and Jürgen Schmidhuber. Long short-term memory. Neural computation,
9(8):1735–1780, 1997.
[19] Brenden Lake, Ruslan Salakhutdinov, Jason Gross, and Joshua Tenenbaum. One shot
learning of simple visual concepts. In Proceedings of the annual meeting of the cognitive
science society, volume 33, 2011.
[20] Brenden M Lake, Ruslan Salakhutdinov, and Joshua B Tenenbaum. Human-level concept
learning through probabilistic program induction. Science, 350(6266):1332–1338, 2015.
[21] R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies for accurate
object detection and semantic segmentation. In 2014 IEEE Conference on Computer
Vision and Pattern Recognition, pages 580–587, June 2014.
[22] Ross Girshick. Fast r-cnn. In Proceedings of the IEEE international conference on computer
vision, pages 1440–1448, 2015.
[23] Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. Faster r-cnn: Towards realtime
object detection with region proposal networks. In Advances in neural information
processing systems, pages 91–99, 2015.
[24] Kaiming He, Georgia Gkioxari, Piotr Dollár, and Ross Girshick. Mask r-cnn. In Proceedings
of the IEEE international conference on computer vision, pages 2961–2969, 2017.
[25] Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang
Fu, and Alexander C Berg. Ssd: Single shot multibox detector. In European conference
on computer vision, pages 21–37. Springer, 2016.
[26] Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, and Piotr Dollár. Focal loss for
dense object detection. In Proceedings of the IEEE international conference on computer
vision, pages 2980–2988, 2017.
[27] Joseph Redmon, Santosh Divvala, Ross Girshick, and Ali Farhadi. You only look once:
Unified, real-time object detection. In Proceedings of the IEEE conference on computer
vision and pattern recognition, pages 779–788, 2016.
[28] Bingyi Kang, Zhuang Liu, Xin Wang, Fisher Yu, Jiashi Feng, and Trevor Darrell. Few-shot
object detection via feature reweighting. arXiv preprint arXiv:1812.01866, 2018.
[29] Kun Fu, Tengfei Zhang, Yue Zhang, Menglong Yan, Zhonghan Chang, Zhengyuan Zhang,
and Xian Sun. Meta-ssd: Towards fast adaptation for few-shot object detection with
meta-learning. IEEE Access, 7:77597–77606, 2019.
[30] Tao Wang, Xiaopeng Zhang, Li Yuan, and Jiashi Feng. Few-shot adaptive faster R-CNN.
CoRR, abs/1903.09372, 2019.
[31] Hao Chen, Yali Wang, Guoyou Wang, and Yu Qiao. Lstd: A low-shot transfer detector
for object detection. In Thirty-Second AAAI Conference on Artificial Intelligence, 2018.
[32] Xuanyi Dong, Liang Zheng, Fan Ma, Yi Yang, and Deyu Meng. Few-shot object detection.
ArXiv, abs/1706.08249, 2017.
[33] P. Welinder, S. Branson, T. Mita, C. Wah, F. Schroff, S. Belongie, and P. Perona. Caltech-
UCSD Birds 200. Technical Report CNS-TR-2010-001, California Institute of Technology,
2010.
[34] Wei-Yu Chen, Yen-Cheng Liu, Zsolt Kira, Yu-Chiang Frank Wang, and Jia-Bin Huang. A
closer look at few-shot classification. arXiv preprint arXiv:1904.04232, 2019.
[35] Gregory Cohen, Saeed Afshar, Jonathan Tapson, and André van Schaik. Emnist: an
extension of mnist to handwritten letters. arXiv preprint arXiv:1702.05373, 2017.
[36] Luca Bertinetto, Joao F Henriques, Philip HS Torr, and Andrea Vedaldi. Meta-learning
with differentiable closed-form solvers. arXiv preprint arXiv:1805.08136, 2018.
[37] Joseph Redmon and Ali Farhadi. Yolov3: An incremental improvement. arXiv preprint
arXiv:1804.02767, 2018.
[38] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan,
Piotr Dollár, and C Lawrence Zitnick. Microsoft coco: Common objects in context. In
04.02767, 2018.
[38] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan,
Piotr Dollár, and C Lawrence Zitnick. Microsoft coco: Common objects in context. In
European conference on computer vision, pages 740–755. Springer, 2014.