Towhee 每周模型

周报出品人:Towhee 技术团队

本周我们分享 5 个视频相关的 AI 模型:

轻便好用的视频动作识别模型系列 MoViNets、实现文本与视频跨模态搜索的 CLIP4Clip、比 CLIP4Clip 更好的视频检索模型 DRL、挣脱视频数据局限的 Frozen in Time、对冠军模型 MMT 再次升级的 MDMMT

如果你觉得我们分享的内容还不错,请不要吝啬给我们一些免费的鼓励:点赞、喜欢、或者分享给你的小伙伴。


MoViNets系列模型,手机端实时分类视频的好帮手

需要视频理解,但是嫌模型太重、耗时太久?轻量动作识别模型再次升级,由谷歌研究院在2021年提出的 MoViNets 系列能够更加高效地在现推理流媒体视频,并支持实施分类移动设备端捕获的视频流。MoViNets 在视频动作识别的通用数据集 Kinetics、Moments in Tme 和 Charades 上均获得了先进的精度和效率,证明了其高效性和广泛适用性。

MoViNets: Streaming Evaluation vs. Multi-Clip Evaluation

MoViNets 是一个卷积神经网络系列,对 2D 视频分类器和 3D 视频分类器取长补短,兼容它们的关键优势,并减轻各自的局限性。该系列模型通过神经结构搜索获得丰富的高效视频网络结构,引用流缓冲技术使得3D卷积能够接受任意长度的流视频序列,再简单地集成多个模型用于提高精度,最终有效地平衡计算量、内存开销、精度。

相关资料:

多模态模型 CLIP4Clip 带你实现文本与视频互搜

CLIP4Clip 以跨模态图文模型 CLIP 为基础,成功地实现了文字/视频检索任务。无论是由文字寻找相关内容视频,还是自动为视频匹配最合适的描述,CLIP4Clip 都能帮你做到。通过大量的消融实验,CLIP4Clip 证明了自己的有效性,并在 MSR-VTT、MSVC、LSMDC、ActivityNet 和 DiDeMo 等文本-视频数据集上实现了 SoTA 结果。

CLIP4Clip: Main Structure

CLIP4Clip 基于预训练好的图文模型,通过迁移学习或者微调完成视频检索的任务。它使用预训练的 CLIP 模型作为主干网络,解决了从帧级输入的视频片段检索任务,并使用了无参数类型 、序列类型和紧密类型相似性计算器来获得最终结果。

相关资料:

拥有更好的文本视频交互,DRL 分离框架改进 CLIP4Clip

尽管 CLIP4Clip 实现了跨模态文本/视频检索,但该网络结构依然存在一些局限性或改进空间。于是2022年初,便有 DRL(Disentangled Representation Learning)跨模态匹配不同粒度的内容。 在视频检索任务中,改良后的模型大幅提升了在各大文本视频数据集上的精度。

Overview of DRL for Text-Video Retrieval

CLIP4Clip 在计算文本和视频的相似度时,只考虑了两个模态的总体表征,缺少细粒度的交互。比如,当文字描述只对应了视频的一部分帧时,如果抽取视频的整体特征,那么模型可能会被其它视频帧的信息干扰与误导。DRL对 CLIP4Clip 提出两个重要改进,一个是 Weighted Token-wise Interaction,进行相似度的稠密预测,通过 max 操作找到潜在的激活的 token。另一个是Channel Decorrelation Regularization,通道去相关正则可以减少通道间信息的冗余和竞争,使用协方差矩阵度量通道上的冗余。

相关资料:

将图像视作视频快照,Frozen in Time 挣脱多模态视频检索的数据局限

牛津大学在 ICCV2021 发表了 Frozen in Time,灵活地利用文本/图像和文本/视频数据集,提供了端到端的视频图像联合编码器。该模型是对最近的 ViT 和 Timesformer 结构的修改和扩展,并且包括在空间和时间上的注意力。

Frozen in Time: Joint Image and Video Training

Frozen in Time 可以单独或者结合使用文本图像和文本视频数据集进行训练。使用图像训练时,模型将其视为视频的冻结快照,在训练中逐渐学习到时间层面的上下文。此外,作者还提供了一个新的视频文本预训练数据集 WebVid-2M ,包含200万多个视频。尽管训练量相比其他通用数据集要小一个数量级,但实验表明,使用该数据集预训练的模型在标准的下游视频检索基准 (包括 MSR-VTT、MSVD、DiDeMo、LSMDC) 上均能产生SOTA的结果。

相关资料:

从 MMT 到 MDMMT,全面优化文本视频检索

MDMMT 发表于 2021 年,是对前年 cvpr 视频五项全能挑战赛冠军 MMT (发表于 ECCV 2020) 的一项扩展研究。该研究在训练数据集上进行了尝试和优化,持续领跑文本视频检索赛道。

MMT: Cross-modal Framework

MMT 用于提取、融合视频特征,包括图像特征、语音特征和语音对应的文字特征等。首先对于三个模态的处理分别采用了预训练的专家网络提取特征,之后对于每一个模态特征,还会使用 maxpool 生成一个整合特征。将整合特征和对应的模态特征序列拼接,再把不同模态组特征拼接。还会对每个模态学习一个对应的模态标志特征插入,以及对应的不同帧特征插入。即对每个特征附加上属于的模态信息和帧序号信息。MDMMT 使用与 MMT 相同的损失函数以及相近的结构,但在超参上有所优化。

相关资料:


更多项目更新及详细内容请关注我们的项目( https://github.com/towhee-io/...) ,您的关注是我们用爱发电的强大动力,欢迎 star, fork, slack 三连 :)

你可能感兴趣的:(人工智能机器学习深度学习)