深度学习经典论文汇总

CV-CNN

  • AlexNet(2012):深度学习热潮的奠基作
  • VGG(2014):使用 3x3 卷积构造更深的网络
  • GoogleNet(2014):使用并行架构构造更深的网络
  • ResNet(2015):构建深层网络的残差连接
  • MobileNet(2017):适合终端设备的小CNN
  • EfficientNet(2019):通过架构搜索得到的CNN
  • Non-deep networks(2021):让不深的网络也能在ImageNet刷到SOTA

CV-Object Detection

  • R-CNN(2014):Two-stage
  • Fast R-CNN(2015)
  • Faster R-CNN(2015)
  • SSD(2016):Single stage
  • YOLO(2016)
  • Mask R-CNN(2017)
  • YOLOv2(2017)
  • YOLOv3(2018)
  • CenterNet(2019):Anchor free
  • DETR(2020):Transformer

CV-Comparative Learning

  • InstDisc(2018):提出实例判别和memory bank做对比学习
  • CPC(2018):对比预测编码,图像语音文本强化学习全都能做
  • InvaSpread(2019):一个编码器的端到端对比学习
  • CMC(2019):多视角下的对比学习
  • MoCov1(2020):无监督训练
  • SimCLRv1(2020):简单的对比学习 (数据增强 + MLP head + 大batch训练久)
  • MoCov2(2020):MoCov1 + improvements from SimCLRv1
  • SimCLRv2(2020):大的自监督预训练模型很适合做半监督学习
  • BYOL(2020):不需要负样本的对比学习
  • SWaV(2020):聚类对比学习
  • SimSiam(2020):化繁为简的孪生表征学习
  • MoCov3(2021):如何更稳定的自监督训练ViT
  • DINO(2021):transformer加自监督在视觉

CV-Transformer

  • ViT(2020):Transformer杀入CV界
  • Swin Transformer(2021):多层次的Vision Transformer
  • MLP-Mixer(2021):使用MLP替换self-attention
  • MAE(2021):BERT的CV版

CV-Video Understanding

  • DeepVideo(2014):提出sports1M数据集,用深度学习做视频理解
  • Two-stream(2014):引入光流做时序建模,神经网络首次超越手工特征
  • C3D(2014):比较深的3D-CNN做视频理解
  • Beyond-short-snippets(2015):尝试使用LSTM
  • Convolutional fusion(2016):early fusion来加强时空间建模
  • TSN(2017):视频分段建模,bag of tricks in video
  • I3D(2017):提出Kinetics数据集,膨胀2D网络到3D,开启3D-CNN时代
  • R2+1D(2017):拆分3D卷积核,使3D网络容易优化
  • Non-local(2017):引入自注意力做视觉问题
  • SlowFast(2018):快慢两支提升效率
  • TimeSformer(2021):视频中第一个引入transformer,开启video transformer时代

NLP-Transform

  • Transformer:继MLP、CNN、RNN后的第四大类构架
  • GPT:使用Transformer解码器做预训练
  • BERT:Transformer一统NLP的开始
  • GPT-2:更大的 GPT 模型,朝着zero-shot learning迈了一大步
  • GPT-3:100倍更大的 GPT-2,few-shot learning效果显著

GAN

  • GAN(2014):生成模型的开创工作
  • DCGAN(2015):使用CNN的GAN
  • pix2pix(2016)
  • SRGAN(2016):图片超分辨率
  • WGAN(2017):训练更加容易
  • CycleGAN(2017)
  • StyleGAN(2018)
  • StyleGAN2(2019)
  • DDPM(2020):Diffusion Models
  • Improved DDPM(2021):改进的 DDPM
  • Guided Diffusion Models(2021):号称超越 GAN
  • StyleGAN3(2021)
  • DALL.E 2(2022):CLIP + Diffusion models,文本生成图像新高度

多模态

  • CLIP(2021):图片和文本之间的对比学习
  • ViLT(2021):第一个摆脱了目标检测的视觉文本模型
  • ViLD(2021):CLIP蒸馏帮助开集目标检测
  • GLIP(2021):联合目标检测和文本定位
  • CLIP4Clip(2021):拿CLIP直接做视频文本retrieval
  • ActionCLIP(2021):用多模态对比学习有监督的做视频动作分类
  • PointCLIP(2021):3D变2D,巧妙利用CLIP做点云
  • LSeg(2022):有监督的开集分割
  • GroupViT(2022):只用图像文本对也能无监督做分割
  • CLIPasso(2022):CLIP跨界生成简笔画
  • DepthCLIP(2022):用文本跨界估计深度

Reference:GitHub - mli/paper-reading: 深度学习经典、新论文逐段精读

你可能感兴趣的:(Deep,Learning,深度学习,人工智能,神经网络)