先写两个最近火热我比较看好的方向Transformer和Self-Supervised,我这里举的例子倾向于计算机视觉方向。最后再补充Zero-Shot和多模态两个方向。
自从去年DETR和ViT出来之后,计算机视觉领域掀起了Transformer狂潮。目前可以做的主要有两个路径,一个是魔改DETR和ViT,另一个是不同task迁移算法。
魔改DETR和ViT的方法,无非是引入local和hierarchical,或者魔改算子。
不同task迁移算法主要是探究如何针对不同的task做适配设计。
其中魔改DETR的可以参考以下工作:
[Deformable DETR] [TSP-FCOS/TSP-RCNN] [UP-DETR] [SMCA] [Meta-DETR] [DA-DETR]
其中魔改ViT的可以参考以下工作:
魔改算子:
[LambdaResNets] [DeiT] [VTs] [So-ViT] [LeViT] [CrossViT] [DeepViT] [TNT] [T2T-ViT]
[BoTNet] [Visformer]
引入local或者hierarchical:
[PVT] [FPT] [PiT] [LocalViT] [SwinT] [MViT] [Twins]
Swin Transformer对CNN的降维打击
引入卷积:
[CPVT] [CvT] [ConViT] [CeiT] [CoaT] [ConTNet]
不同task迁移算法的可以参考以下工作:
ViT+Seg [SETR] [TransUNet] [DPT] [U-Transformer]
ViT+Det [ViT-FRCNN] [ACT]
ViT+SOT [TransT] [TMT]
ViT+MOT [TransTrack] [TrackFormer] [TransCenter]
ViT+Video [STTN] [VisTR] [VidTr] [ViViT] [TimeSformer] [VTN]
ViT+GAN [TransGAN] [AOT-GAN] [GANsformer]
ViT+3D [Group-Free] [Pointformer] [PCT] [PointTransformer] [DTNet] [MLMSPT]
以上几个task是重灾区(重灾区的意思是听我一句劝,你把握不住)
ViT+Multimodal [Fast and Slow] [VATT]
ViT+Pose [TransPose] [TFPose]
ViT+SR [TTSR]
ViT+Crowd [TransCrowd]
ViT+NAS [BossNAS]
ViT+ReID [TransReID]
ViT+Face [FaceT]
想一想算子怎么魔改,或者还有什么task没有做的
Self-Supervised自从何恺明做出MoCo以来再度火热,目前仍然是最为火热的方向之一。目前可以做的主要有三个路径,一个是探索退化解的充要条件,一个是Self-Supervised+Transformer探索上限,还有一个是探索非对比学习的方法。
探索退化解的充要条件主要是探索无negative pair的时候,避免退化解的最优方案是什么。
[SimCLR] [BYOL] [SwAV] [SimSiam] [Twins]
Self-Supervised: 如何避免退化解
Self-Supervised+Transformer是MoCov3首次提出的,NLP领域强大的预训练模型(BERT和GPT-3)都是Transformer架构的,CV可以尝试去复制NLP的路径,探究Self-Supervised+Transformer的上限。
[MoCov1] [MoCov2] [MoCov3] [SiT]
MoCo三部曲
探索非对比学习的方法就是要设计合适的proxy task。
基于上下文 [Unsupervised Visual Representation Learning by Context Prediction] [Unsupervised Representation Learning by Predicting Image Rotations] [Self-supervised Label Augmentation via Input Transformations]
基于时序 [Time-Contrastive Networks: Self-Supervised Learning from Video] [Unsupervised Learning of Visual Representations using Videos]
刚写了基于时序,何恺明和Ross Girshick就搞了个时序的
A Large-Scale Study on Unsupervised Spatiotemporal Representation Learning
何恺明+Ross Girshick:深入探究无监督时空表征学习
最近因为CLIP的出现,Zero-Shot可能会引起一波热潮,ViLD将CLIP成功应用于目标检测领域,相信未来会有越来越多的基于CLIP的Zero-Shot方法。
ViLD:超越Supervised的Zero-Shot检测器
最近的ViLT结合了BERT和ViT来做多模态,并且通过增加标志位来巧妙的区分不同模态,感觉是一个非常好的做多模态的思路,相信未来会有更强大的多模态出现。
ViLT:最简单的多模态Transformer
至于最近火热的MLP架构,极其不推荐,很沙雕
最后,适当灌水,有能力还是要做有影响力的工作。
往期精彩回顾
适合初学者入门人工智能的路线及资料下载机器学习及深度学习笔记等资料打印机器学习在线手册深度学习笔记专辑《统计学习方法》的代码复现专辑
AI基础下载机器学习的数学基础专辑温州大学《机器学习课程》视频
本站qq群851320808,加入微信群请扫码: