2020-07-08 CVPR2020 表示学习论文讨论(3) 笔记

目录

  • [1] X-Linear Attention Networks for Image Captioning
  • [2] Select to Better Learn Fast and Accurate Deep Learning using Data Selection from Nonlinear Manifolds
  • [3] AdderNet: Do We Really Need Multiplications in Deep Learning?
  • [4] Optimizing Rank-based Metrics with Blackbox Differentiation
  • [5] Circle Loss: A Unified Perspective of Pair Similarity Optimization
  • [6] Learning to Learn Single Domain Generalization
  • 总结

[1] X-Linear Attention Networks for Image Captioning

  • motivation:X表示阶数,带来未知和无限可能。现有的attention是一阶的。
  • method:通过对K和Q(或Q和V)使用local bilinear pooling,得到高阶信息,使用Squeeze Excitation得到channel attention。堆叠这个block,得到高阶信息。
    2020-07-08 CVPR2020 表示学习论文讨论(3) 笔记_第1张图片

[2] Select to Better Learn Fast and Accurate Deep Learning using Data Selection from Nonlinear Manifolds

  • task:选择数据集中具有代表性的数据。
  • challenge:让选取的数据张成的空间,和源数据张成的空间,尽可能接近。eg:M代表源数据,K代表要选取的数据(K=0.1M),从M中选K是个NP hard问题。
  • contribution1:对原目标函数进行分解,先进行矩阵分解,并添加约束。但是,U中每列必须是选择的样本,约束太强了,故继续改进,使其变为逐列更新(文中公式4a、4b),有些类似K-SVD算法。这部分统称为SP算法
  • contribution2:将SP算法应用在流形空间上。希望训练集中某一个样本,是由选取的样本中其邻居重构出来的(文中公式5)。类比公式1,得出公式6,优化公式6的步骤为KSP方法,本质是,先用kernel得到L,然后应用SP算法。

[3] AdderNet: Do We Really Need Multiplications in Deep Learning?

  • oral,华为诺亚实验室和北大合作的一篇文章,这篇我记得看过。
  • method:用L1距离代替卷积操作,由于其结果均为负值,引入BN操作(BN内的乘法操作没有那么expensive)。
  • AdderNet的方差比较大,梯度较小,故使用大学习率。
  • 本文由于只用加法操作,在CPU上就能跑,没有和CNN对比速度,因为CNN是在GPU上跑的。
    2020-07-08 CVPR2020 表示学习论文讨论(3) 笔记_第2张图片

[4] Optimizing Rank-based Metrics with Blackbox Differentiation

  • motivation:由于这些指标的不可区分性和不可分解性,对Rank-based Metrics的优化仍然是一个挑战。
  • method:将排序函数建模为组合优化问题,并通过ICLR2020的一篇文章进行求解。

[5] Circle Loss: A Unified Perspective of Pair Similarity Optimization

  • oral,旷世、北航
  • 类内相似度 s p s_p sp,类间相似度 s n s_n sn,一般任务都要最小化 s n − s p s_n-s_p snsp。用 m = s p − s n m=s_p-s_n m=spsn代表margin,margin是预设的阈值。当差值小于margin时,才有loss,否则loss为0。
  • contribution1: s p s_p sp s n s_n sn的梯度不应该是固定的,应是自适应的,本文添加了参数 α p \alpha_p αp α n \alpha_n αn,并通过一个策略进行更新。
  • contribution2:直线收敛边界,改为圆形收敛边界。 s p s_p sp s n s_n sn的margin不应该相同,本文引入 Δ p \Delta_p Δp Δ n \Delta_n Δn.

[6] Learning to Learn Single Domain Generalization

  • task:从一个源域,生成多个目标域的数据。eg:训练数据和测试数据的分布不同,需要进行数据泛化。
  • related work:对抗方法,生成样本。
  • challenge:①. 创造与源域不同的虚拟的域。②. 尽可能多的生成样本,这会消耗大量的计算资源。
  • method:使用meta-learning,提出adversarial domain augmentation、relaxing the widely used worst-case constraint,最大化 L A D A L_{ADA} LADA损失。
  • pipeline:使用公式4生成数据,使用数据对auto encoder进行更新,使用已有数据优化模型,使用生成的数据进行测试,使用多个loss再进行update,提升泛化能力。

    2020-07-08 CVPR2020 表示学习论文讨论(3) 笔记_第3张图片
    2020-07-08 CVPR2020 表示学习论文讨论(3) 笔记_第4张图片

总结

  • [1] 提出高阶attention,文中只针对image caption,其他领域呢?
  • [2] 这种data select领域,我从没接触过,但是这篇文章听着真的非常舒服,金豆讲的也特别好,什么问题,怎么解决,都听得很明白。
  • [3] AdderNet这种思路好像以前有人做过类似的,两种特征分布,真的a就比b好么?
  • [6] meta-learning是啥,我以前一直不清楚,听了这次报告后,去大概了解了一下。首先 meta-learning 想法的来源:人类学习某个新的事物会利用之前学到的东西,比如你会玩 LOL,那你学王者荣耀会很快。但是现在的深度学习模型在遇到新的问题,即使很类似的情况下需要从 0 开始重新学习!这一人类智能和 AI 的差异就导致了 meta-learning 的产生。meta-learning 也叫 learning to learn,就是学会学习。(参考自知乎)

你可能感兴趣的:(论文分享)