学习视频:
阶段 | 代表工作 | ||||
---|---|---|---|---|---|
百花齐放(18-19中) | Inst Disc: memory Bank, 每张图都是一个类别(个体判别) | Inva Spread: end-to-end, 在同一mini-batch中选正负样本 | CPC V1:用预测未来的代理任务做对比学习 | CMC:增大同一物体不同视角的互信息 | Deep cluster |
CV双雄(19-20中) | MoCo V1: queue + momentum encoder | SimCLR V1: MLP(projection head) + 数据增强 | CPC V2 | Infomin | |
不用负样本 | MoCo V2: V1 + MLP + aug + 增大epoch | SimCLR V2: large, 2层MLP, momentum encoder | Swav: multi-crop, 图片一个视角预测另一个视角,和聚类中心比 | ||
Transformer | MoCo V3: V2 + SimSiam | BYOL(匹配->预测) =》BN Blog =》BYOL V2 BYOL =》Sim Siam(stop gradient) =》DINO |
学习视频:
领域 | 代表工作 |
---|---|
语义分割 | Lseg: Language Driven Semantic Segnatation: zero-shot CLIP, dense feature, image encoder: DPT (ViT + decoder), supervise learning(依赖mask手工标注)目标函数非对比学习 |
GroupVit: Semantic Segmentation Energes from Text Supervision: ViT + group block + group tokens(hpy聚类中心) | |
目标检测 | Open-Vocabulary ViLD: CLIP的预训练image encoder作为teacher学习image embedding对比 |
GLIP:Grounded Language-Image Pre-traing: 伪标签, phrase grounding | |
图形学 | CLIPasso: saliency initial, semantic loss + geometric loss |
视频 | 图文检索 CLIP4Clip: 时序图像文本融合:mean pooling效果最好; Transformer/LSTM; early fusion(tight)效果差 |
动作识别 ActionCLIP:temporal shift module | |
图像文本 | CLIP-ViL 用回图像文本下游任务 |
语音 | AudioCLIP |
三维 | PointCLIP depthCLIP |
CLIP改进工作可以总结为三类: 1. 直接使用CLIP预训练模型得到更好的特征和现有框架得到特征进行融合(改动最小) 2. CLIP当做teacher,将其训练得到的特征用来蒸馏,加速现有模型训练(中间) 3. 借鉴多模态对比学习思想,定义自己任务的正负样本计算对比loss,实现zero-shot |
学习视频:
传统手工特征方法:
(image) SIFT -> (Video) STIP -> (光流) DT/IDT -> (全局特征) IDT + FV
深度学习方法:
方法 | 代表工作 | |
---|---|---|
CNN | DeepVideo(CVPR2014): Sports 1M Datasets, 失败的尝试 | |
Two-Stream | Two-Stream(nureons2014): Spatial stream + Temporal stream late fusion | |
TDD(CVPR2015): 手工IDT+沿轨迹堆叠光流 | ||
Beyond Short Snippet(CVPR2015): 使用LSTM增强特征,实际上最后一层+LSTM没那么有用(帧短抽到的特征差不多) | ||
Conv Two-Stream(CVPR2016): early fusion, Spatial fusion(max/concat/stack Conv(效果最好)/sum/bilinear), Temporal fusion(3D Pooling/3D Conv + 3D Pooling) | ||
王利民TSN(ECCV2016): 长时间视频理解, 给视频分段后结果求共识 tips1: 使用ImageNet预训练光流, 复制参数为目标channel来初始化 tips2: partial BN, 第一层使用BN, 其余层freeze BN tips3: 数据增强, conner cropping = scale jittering |
||
TSN+全局建模 | ||
DOVF(CVPR2017): face rencting encoding | ||
TLE(CVPR2017): end-to-end, bi-linearing encoding | ||
ActionVLAN: VLAN | ||
3D Conv | C3D(ICCV2015): 3D版VGG, 网络深, 提供一个好特征可以做下游任务 | |
I3D(CVPR2017): 利用2D预训练模型, 同时使用光流刷爆UCF101, 证明2D向3D迁移的有效性 | ||
Non-local NN: 使用plug and play(即插即用)的non-local block(self-attention)长时间建模,验证了多block效果更好/td> | ||
R(2+1)D(CVPR2018): 3D拆成空间2D+时间1D(二者利用特征投射融合), 训练简单效果好 | ||
SlowFast: Slow(标准I3D)少帧小输入大网络 + Fast多帧大输入小网络 later connection, Fast时间维度不下采样 | ||
Hidden Two-Stream: 将光流学习融入网络,不需要抽光流 | ||
TSM(ICCV2019): shift 2D网络 | ||
总结: 由于抽光流耗时且占内存,兴起了3D Conv, 从C3D到I3D, 之后的演变主要为四方面: 1. 改进2D网络: R3D, MFNet, STC 2. 2D结合3D:S3D, R(2+1)D, ECO, D3D 3. 长时序处理:LTC, T3D, non-local, V4D 4. 高效率:CSN, SlowFast, X3D |
||
Vision Transformer | Timesformer: Space-Time Attention降低复杂度: Divided ST A; Sparse Local Global A; Axial A(T+W+H) | |
ViViT, VidTr, MViT... |