Knowledge Distillation and Student-Teacher Learning for Visual Intelligence

本文是蒸馏学习综述系列的第四篇文章,Knowledge Distillation and Student-Teacher Learning for Visual Intelligence: A Review and New Outlooks的一个翻译。

视觉智能的知识蒸馏与学生-老师学习:回顾与新展望

  • 摘要
  • 1 引言
  • 2 KD是什么?为什么要关注它?
  • 3 KD的理论分析
  • 4 基于教师数量的KD
    • 4.1 从一个老师进行蒸馏
      • 4.1.1 来自logits的知识
      • 4.1.2 来自中间层的知识
    • 4.2 从多个教师进行蒸馏
      • 4.2.1 从logits集合中进行蒸馏
      • 4.2.2 从特征集合中进行蒸馏
      • 4.2.3 通过统一数据源进行蒸馏
      • 4.2.4 从单教师到多个子教师
      • 4.2.5 从异构的老师中定制学生
      • 4.2.6 与同伴共同学习
  • 5 基于数据格式的蒸馏
    • 5.1 无数据蒸馏
      • 5.1.1 基于元数据的蒸馏
      • 5.1.2 基于类相似性的蒸馏
      • 5.1.3 使用生成器进行蒸馏
      • 5.1.4 无数据蒸馏面临的开放挑战
    • 5.2 使用少量数据样本进行蒸馏
      • 5.2.1 通过伪实例进行蒸馏
      • 5.2.2 通过分层估计蒸馏
      • 5.2.3 挑战和潜力
    • 5.3 跨模态蒸馏
      • 5.3.1 监督的跨模态蒸馏
      • 5.3.2 无监督的跨模态蒸馏
      • 5.3.3 从一个教师学习
      • 5.3.4 从多个教师学习
      • 5.3.5 潜力和公开挑战
  • 6 在线和无教师蒸馏
    • 6.1 在线蒸馏
      • 6.1.1 个别学生同行
      • 6.1.2 学生之间共享块
      • 6.1.3 同学组合
      • 6.1.4 总结和公开挑战
    • 6.2 无教师蒸馏
      • 6.2.1 再生蒸馏
      • 6.2.2 通过深度监督蒸馏
      • 6.2.3 基于数据增强蒸馏
      • 6.2.4 框架改变的蒸馏
      • 6.2.5 总结与公开挑战
  • 7 标签需要或无标签蒸馏
    • 7.1 标签需要的蒸馏
      • 7.1.1 原始标签的KD
      • 7.1.2 伪标签的KD
    • 7.2 无标签蒸馏
      • 7.2.1 知识渊博的KD
      • 7.2.2 创造元知识
    • 7.3 潜力与挑战
  • 8 具有新学习度量的KD
    • 8.1 通过对抗学习进行蒸馏
      • 8.1.1 KD中的GAN的基本公式
      • 8.1.2 GAN如何帮助KD?
      • 8.1.3 总结和公开挑战
    • 8.2 图表示的蒸馏
      • 8.2.1 符号与定义
      • 8.2.2 基于图的蒸馏
    • 8.3 半监督、自监督学习的蒸馏
      • 8.3.1 半监督学习
      • 8.3.2 自监督学习
      • 8.3.3 潜力与公开挑战
    • 8.4 小样本学习
      • 8.4.1 挑战是什么?
    • 8.5 增量学习
      • 8.5.1 从单教师蒸馏
      • 8.5.2 从多教师蒸馏
      • 8.5.3 公开挑战
    • 8.6 增强学习
      • 8.6.1 协作蒸馏
      • 8.6.2 基于RL蒸馏的模型压缩
      • 8.6.3 随机网络蒸馏
      • 8.6.4 基于RL蒸馏的潜力
  • 9 视觉智能的应用
    • 9.1 语义和运动分割
    • 9.2 KD用于视觉检测与追踪
      • 9.2.1 通用目标检测
      • 9.2.2 行人检测
      • 9.2.3 人脸检测
      • 9.2.4 车辆检测与驾驶学习
      • 9.2.5 姿态检测
    • 9.3 领域自适应
      • 9.3.1 半监督DA
      • 9.3.2 无监督DA
    • 9.4 深度与场景流量检测
    • 9.5 图像翻译
    • 9.6 KD用于视频理解
      • 9.6.1 视频分类与识别
      • 9.6.2 视频标注
  • 10 讨论
    • 10.1 更大的模型就是更好的老师吗?
    • 10.2 预训练老师的重要性?
    • 10.3 再生自蒸馏会更好吗?
    • 10.4 单教师与多教师
    • 10.5 无数据蒸馏是否足够有效?
    • 10.6 Logits与特征
    • 10.7 KD的可解释性
    • 10.8 网络结构与KD的有效性
  • 11 新角度与观点
    • 11.1 NAS的潜力
    • 11.2 GNN的潜力
    • 11.3 非欧蒸馏度量
    • 11.4 更好特征表示
    • 11.5 更具建设性的理论分析
    • 11.6 特殊视觉问题的潜力
    • 11.7 视觉,语音和NLP的集成
  • 12 结论

摘要

1 引言

2 KD是什么?为什么要关注它?

3 KD的理论分析

4 基于教师数量的KD

4.1 从一个老师进行蒸馏

4.1.1 来自logits的知识

4.1.2 来自中间层的知识

4.2 从多个教师进行蒸馏

4.2.1 从logits集合中进行蒸馏

4.2.2 从特征集合中进行蒸馏

4.2.3 通过统一数据源进行蒸馏

4.2.4 从单教师到多个子教师

4.2.5 从异构的老师中定制学生

4.2.6 与同伴共同学习

5 基于数据格式的蒸馏

5.1 无数据蒸馏

5.1.1 基于元数据的蒸馏

5.1.2 基于类相似性的蒸馏

5.1.3 使用生成器进行蒸馏

5.1.4 无数据蒸馏面临的开放挑战

5.2 使用少量数据样本进行蒸馏

5.2.1 通过伪实例进行蒸馏

5.2.2 通过分层估计蒸馏

5.2.3 挑战和潜力

5.3 跨模态蒸馏

5.3.1 监督的跨模态蒸馏

5.3.2 无监督的跨模态蒸馏

5.3.3 从一个教师学习

5.3.4 从多个教师学习

5.3.5 潜力和公开挑战

6 在线和无教师蒸馏

6.1 在线蒸馏

6.1.1 个别学生同行

6.1.2 学生之间共享块

6.1.3 同学组合

6.1.4 总结和公开挑战

6.2 无教师蒸馏

6.2.1 再生蒸馏

6.2.2 通过深度监督蒸馏

6.2.3 基于数据增强蒸馏

6.2.4 框架改变的蒸馏

6.2.5 总结与公开挑战

7 标签需要或无标签蒸馏

7.1 标签需要的蒸馏

7.1.1 原始标签的KD

7.1.2 伪标签的KD

7.2 无标签蒸馏

7.2.1 知识渊博的KD

7.2.2 创造元知识

7.3 潜力与挑战

8 具有新学习度量的KD

8.1 通过对抗学习进行蒸馏

8.1.1 KD中的GAN的基本公式

8.1.2 GAN如何帮助KD?

8.1.3 总结和公开挑战

8.2 图表示的蒸馏

8.2.1 符号与定义

8.2.2 基于图的蒸馏

8.3 半监督、自监督学习的蒸馏

8.3.1 半监督学习

8.3.2 自监督学习

8.3.3 潜力与公开挑战

8.4 小样本学习

8.4.1 挑战是什么?

8.5 增量学习

8.5.1 从单教师蒸馏

8.5.2 从多教师蒸馏

8.5.3 公开挑战

8.6 增强学习

8.6.1 协作蒸馏

8.6.2 基于RL蒸馏的模型压缩

8.6.3 随机网络蒸馏

8.6.4 基于RL蒸馏的潜力

9 视觉智能的应用

9.1 语义和运动分割

9.2 KD用于视觉检测与追踪

9.2.1 通用目标检测

9.2.2 行人检测

9.2.3 人脸检测

9.2.4 车辆检测与驾驶学习

9.2.5 姿态检测

9.3 领域自适应

9.3.1 半监督DA

9.3.2 无监督DA

9.4 深度与场景流量检测

9.5 图像翻译

9.6 KD用于视频理解

9.6.1 视频分类与识别

9.6.2 视频标注

10 讨论

10.1 更大的模型就是更好的老师吗?

10.2 预训练老师的重要性?

10.3 再生自蒸馏会更好吗?

10.4 单教师与多教师

10.5 无数据蒸馏是否足够有效?

10.6 Logits与特征

10.7 KD的可解释性

10.8 网络结构与KD的有效性

11 新角度与观点

11.1 NAS的潜力

11.2 GNN的潜力

11.3 非欧蒸馏度量

11.4 更好特征表示

11.5 更具建设性的理论分析

11.6 特殊视觉问题的潜力

11.7 视觉,语音和NLP的集成

12 结论

你可能感兴趣的:(数据蒸馏,综述文章,人工智能,深度学习)