Semantic2Graph: Graph-based Multi-modal Feature Fusion for Action Segmentation in Videos阅读笔记

文章链接:https://arxiv.org/ftp/arxiv/papers/2209/2209.05653.pdf
主要贡献:该文章是目前动作分割领域50salads和gtea数据集上的sota方法,可惜代码未开源。

摘要:

视频动作分割和识别任务已经在许多领域得到了广泛的应用。以往的研究大多采用大规模、高计算量的视觉模型来全面理解视频。然而,很少有研究直接使用图模型来对视频进行推理。图模型具有更少的参数、较低的计算成本、较大的接受域和灵活的邻域信息聚合等优点。本文提出了一种基于图的方法,即Semantic2Graph,将视频动作分割和识别问题转化为图的节点分类问题。为了保持视频中的细粒度关系,我们构造了视频的图结构,并设计了三种类型的边。我们将视觉性特征、结构性特征和语义性特征作为节点属性相结合。语义边缘用于对长期时空关系的建模,而语义特征是基于文本提示的标签-文本的嵌入。采用图神经网络(GNNs)模型来学习多模态特征融合。结果表明该模型在50salads和gtea数据集上性能都有所提升。

方法:

Semantic2Graph: Graph-based Multi-modal Feature Fusion for Action Segmentation in Videos阅读笔记_第1张图片
模型总览图如上图所示,(a)模块表示从视频帧中提取视觉特征。(b)模块表示基于视频的图形的一个实例。©模块表示将节点邻域信息编码为结构特征。(d)模块表示编码标签文本,以获得语义特征。(e)模块表示训练一个gnn融合多模态特征来预测节点标签。
本研究旨在解决利用图模型进行视频动作分割和识别的挑战。为此,我们提出了一种基于图的方法,称为Semantic2Graph。
A.符号(符号太多,直接截图了orz)
Semantic2Graph: Graph-based Multi-modal Feature Fusion for Action Segmentation in Videos阅读笔记_第2张图片
Semantic2Graph: Graph-based Multi-modal Feature Fusion for Action Segmentation in Videos阅读笔记_第3张图片
B.我们的方法
上图展示了该模型的框架,它被分为以下步骤(a)到(e)。
步骤(a)为可视化特征提取,如上图(a)所示,视频被分成几帧。Semantic2Graph利用三维卷积网络从每一帧的视频帧中提取视觉特征。
步骤(b)为图构造,如上图(b)所示,它的输入是帧集和来自步骤(a)的视觉特征和详细的视频标签。每一帧代表一个节点。节点的属性和标签分别是帧的视觉特征和动作标签。具有不同标签的节点通过其颜色来区分。有三种类型的边来最大限度地保存视频帧中的关系。
步骤©是结构嵌入,将节点的邻域信息编码为结构特征,上图©所示邻域信息由步骤(b)中的有向图提供。
步骤(d)为语义嵌入,上图(d)所示视频帧的标签文本通过基于提示的CLIP扩展为句子。句子由文本编码器进行编码,以获得语义特征。
步骤(e)为多模态特征融合,如上图(e)所示。它的输入包括步骤(a)的视觉特征、步骤©的结构特征、步骤(d)的语义特征,以及步骤(b)的由有向图生成一个加权邻接矩阵。矩阵是通过连接视觉特征、结构特征和语义特征而得到的。选择gnn作为骨干模型,学习多模态特征融合。输出是节点的预测操作标签。多模态特征矩阵是通过连接视觉特征、结构特征和语义特征而得到的。选择gnn作为骨干模型,学习多模态特征融合。输出是节点的预测动作标签。
C. 视频的图构建
本节将描述如何将视频转换为我们所定义的图。定义的图是由一组节点和ℰ组成的有向图(一组边ℰ)。
1)节点
输入是一组未修剪的视频。帧ft是视频中时间t处的帧。视频v是由一组帧ft组成,其中该集合包含T帧。如上图 (b)所示,视频v用有向图(,ℰ)表示。视频中的帧f由有向图中的节点表示。换句话说,带有T个节点的有向图表示带有T个帧的视频。对于每个节点,都有一个从所表示的帧的标签转换而来的标签y。不丧失一般性,我们假设视频通过一些方法预先获得了帧级动作注释,如基于帧的方法、基于分割的方法,或基于提案的方法。此外,每个节点有三个属性,它们是从帧中提取的多模态特征。
2) 边
视频不仅包含帧之间丰富的顺序依赖关系,而且还包含潜在的语义关系,如标题、上下文、动作交互、对象类别等。这些依赖关系对于全面理解视频至关重要。为了增强视频的图表示学习,在有向图中有两种类型的边,即时间边和语义边。此外,为了提高图的复杂性并保留节点本身的特征,在有向图中添加了另一种边自环。每条边都有一个由边的类型决定的权重值。
时间边:它是有向图的基线边来表示帧的顺序。直观地说,它反映了两个相邻节点之间的时间邻接关系。一般情况下,时间边的权值设为1。时间边被表示为:
在这里插入图片描述
语义边。它是为了对视频的潜在语义关系进行建模。语义边可分为正语义边和负语义边两类。正语义边是对具有相同标签的节点进行分组,负语义边是区分具有不同标签的节点。构造语义边的一个简单规则是根据任意两个节点之间的标签添加正边或负边。然而,边缘的大小是O(2),导致了内存空间和计算时间的消耗。本文提出了一种语义边构造方法来优化具有最小边的有向图.
每个节点都有一个与代表帧的ID相同的序列标识符。ID号越小,视频中的帧就越早。对于每个节点,i向以下节点j添加一条正边,该节点的j > i直到j的标签与i的标签不同,并向j.添加一条负边正语义边和负语义边,定义为:
Semantic2Graph: Graph-based Multi-modal Feature Fusion for Action Segmentation in Videos阅读笔记_第4张图片
自循环边。它指的是MIGCN模型的设置,即每个节点添加一个权重为1的自循环边。在消息聚合过程中,自循环边维护节点的信息。自环边被表示为:
在这里插入图片描述
D. 多模态特征
视频内容被提取为特征,并添加到图中的节点中。它们分别是视觉特征、结构特征和语义特征,分别属于低级特征,中级特征,高级特征,如上图所示。
视觉特征。它是视频中每帧RGB和光流信息的图像嵌入,如上图 (a).所示目前已经开发了许多视觉特征提取器,如I3D、C3D、ViT等。在本研究中,我们使用I3D来提取视觉特征。I3D特征提取器采用一个视频vi输入,并输出两个具有10个24维特征的张量:用于RGB和光流流。视觉特征连接了RGB和光流特征张量。
结构特征。它是将节点以邻域节点信息损失最小的方式将特征嵌入到低维空间中。一般的结构特征是一个图的结构。本文的结构特征反映了一个图的结构性质。结构属性是视频的关系属性,包括内在的序列结构属性和语义属性。它们被我们设计的时间边和语义边所保留。
在计算机视觉中,现有的方法大多使用递归神经网络(RNN)序列模型,如GRU、BiGRU、LSTM或变压器来捕捉视频固有的序列结构属性,然后推理视频与动作之间的映射关系。但是,上述方法并不适用于图形。原因是它们不擅长处理非欧几里得形式的图。对于一个图,采用节点嵌入算法获得结构特征。有许多节点嵌入算法,如DeepWalk用于学习邻居的相似性,LINE 用于学习一阶和二阶邻居的相似性,node2vec用于学习邻边的相似性和结构的相似性。
本文使用node2vec来得到结构特征。其中,图(,ℰ)的节点属性只是视觉特征。
语义特征。它是视频中每一帧的语言嵌入,如文本提示或标签-文本的语义信息,如上图(d)所示。CLIP 和ActionCLIP是获取语义特征的常用方法。在本研究中,我们使用了ActionCLIP。根据Wang等人提出的动作剪辑模型,填充函数T有以下三个类别:
·前缀提示:label, a video of action;
·Cloze提示: this is label, a video of action;
·后缀提示:human action of label。
ActionCLIP使用标签-文本,用填充函数填充句子模板Z = {z1,…,zk},以获得提示的文本。与仅使用标签的词相比,文本提示符扩展了标签-文本。文本编码器编码是为了获得语义特征,作为语言监督信息,以提高视觉任务的性能。
如上图(e)所示,节点的多模态特征为在这里插入图片描述其中||表示一个串联操作。
E. 图构造算法
这里是描述如何创建从视频的有向图的算法伪代码。在算法1中,输入是一个视频v及其一组动作标签,输出是一个有向图。它被分为以下7个步骤:步骤1。初始化(请参见第1-2行)。创建一个由节点集和边集ℰ组成的空有向图(,ℰ)。将视频v分成一组帧{f1,…,fT}。步骤2。创建节点(请参见第3-5行)。基于帧级创建节点୧。节点୧表示视频帧fi,因此节点的标签是视频帧fi的标签yi。然后将节点୧添加到节点集中。步骤3。创建时间边(请参阅第6-10行)。遍历节点集.如果当前节点的标签yi与前一个节点的标签yi-1相同,则将从节点到节点的权重为1的时间边添加到边集ℰ中。
Semantic2Graph: Graph-based Multi-modal Feature Fusion for Action Segmentation in Videos阅读笔记_第5张图片
步骤4。创建正的语义边(请参见第11-23行)。首先,创建一个初始值为节点的节点组node_group。然后,遍历节点集、.如果当前节点的标签yi与前一个节点的标签yi-1相同,则进一步遍历该节点组。如果node_group中的节点不是节点(即j = i-1)的邻居,则将边集ℰ加上一个正的语义边。
步骤5。创建负语义边(请参见第24-33行)。负语义边和正语义边具有相似的执行过程。区别如下:在第26行中,只有当当前节点的标签yi与前一个节点的标签yi-1不同时,才进一步遍历节点组。node_group中的所有节点分别用节点构造一条负语义边。参见第28行,边集ℰ从节点到节添加了一个负的语义边,权重为-1。然后node_group被清空。
步骤6。创建自循环边缘(请参见第34-36行)。遍历节点集,并为每个节点、添加一个权重为1的自循环边。
最后,保存有向图(、ℰ)的节点、节点属性、节点标签、边和边的边权值。根据算法1的实例如图2所示。值得注意的是,对于相邻节点,根据对时间边和语义边的定义,如果它们的标签相同,则应在它们之间添加一条时间边和一条正语义边。但在算法1中(见第7行和第8行),只添加了用于保存视频的时间序列信息的时间边。参见第15行,设置条件j < i-1的目的是为了避免添加正的语义边。如图2所示,节点1、节点2、节点2、节点3、节点3、节点4、节点5、节点6只有时间边。
如果它们的标签不相同,那么应该在它们之间添加一条时间边和一个负的语义边。但是在算法1中(参见第26至第28行),只添加了负的语义边。如图2所示,节点4、节点5和节点。
Semantic2Graph: Graph-based Multi-modal Feature Fusion for Action Segmentation in Videos阅读笔记_第6张图片
图2。有向图中的一条边的实例。节点的颜色表示不同的标签。正的语义边(粉红色虚线)和消极的语义边(蓝色虚线)是语义边的例子。该边的值表示其权重。
对于人工标注的视频,两个连续的帧可能有不同的标签,尽管它们的视觉特征相似。为了增强图中语义标签的边界,将正语义边的权值设为1,将负语义边的权值设为-1。在图2中,正语义边增强了节点4与节点1、2、3属于同一标签的语义关系。负语义边增强了节点5与属于不同标签的节点1、2、3之间的语义关系。总之,语义边也有助于对两个真实标签不相同的相邻节点进行标签类预测。
在只有时间边的图中,一个节点只有两个邻居,因此在1跳内的消息聚合是有限的。此外,如果节点想要聚合来自更多节点或更远的节点的消息,那么该模型需要进行多跳和昂贵的计算。相反,语义边允许模型在1跳内实现。因此,语义边显著降低了gnn中消息聚合的计算成本。
F. 基于图的融合模型
本文将视频动作分割和识别视为图上的一个节点分类问题。在某种意义上说,我们的目标是学习以下映射函数F。
在这里插入图片描述

为此,我们使用图神经网络(GNN)模型网络关联网络ℱ=(X,)作为主干模型来融合节点的多模态特征。具体来说,它是一个两层图卷积神经网络(GCN),这是一个基于空间的模型,适用于处理有向图。正向模型的形式:在这里插入图片描述在这里插入图片描述
这里,X是节点属性的多模态特征矩阵。是一个加权对称邻接矩阵。是节点的度矩阵。W (0)和W (1)为网络层的权值矩阵。σ1是一个 Leaky ReLU激活函数。σ2是一个logsoftmax激活函数。在第一层网络中,使用了一维批处理归一化函数和dropout函数。在第二层网络中,使用了由线性单位、dropout单位和线性单位组成的MLP函数。我们需要定义,它依赖于提出的三种类型的边和它们的权值,计算如下:
Semantic2Graph: Graph-based Multi-modal Feature Fusion for Action Segmentation in Videos阅读笔记_第7张图片
通过节点分类损失lcls和边缘对齐损失边缘对模型进行了优化。Lcls是一个交叉熵损失,计算预测动作y和和GT yi之间的差异。公式是:
在这里插入图片描述
其中,Batch_T为每批图中的节点数。Ledge是(KL)散度,它计算预测的邻接矩阵和目标的散度。它的表述如下:
Semantic2Graph: Graph-based Multi-modal Feature Fusion for Action Segmentation in Videos阅读笔记_第8张图片

实验结果

Semantic2Graph: Graph-based Multi-modal Feature Fusion for Action Segmentation in Videos阅读笔记_第9张图片

你可能感兴趣的:(神经网络,深度学习,人工智能,实时互动,视频编解码)