近期,上海交通大学卢策吾团队在《自然 - 机器智能》上发表视觉序列理解的研究成果,通过模仿人类的认知机制,提出了可应用于高维度信息的半耦合结构模型(SCS)。此外,他们还开源了视频理解工具箱 AlphaVideo。
近期,上海交通大学卢策吾团队在《自然 - 机器智能》子刊上发表了关于高维度视觉序列理解的研究成果《Complex sequential understanding through the awareness of spatial and temporal concepts》。
与此同时,该团队将论文代码与近两年在视频理解领域的先进成果开源为视频理解工具箱 AlphaVideo。
开源地址:https://alpha-video.github.io/
AlphaVideo 在物体跟踪任务(MOT)和行为理解(AVA 单模型)上都达到最高准确率,相比 SlowFast [4](AVA 单模型)有 12.6% 的性能提升。
图 1:动作理解任务的时空信息特征图。左:输入序列;右:空间特征更关注物体形状,时间特征更关注物体运动趋势。
00:00/00:00倍速
图 2:AlphaVideo 中的行为理解(Alphaction)
图 3:时空概念提取展示
人类视觉理解机理
在人类的视觉认知过程中,时间和空间概念是解耦的。神经科学领域的研究发现在人类的记忆形成过程中,时间信息与空间上下文信息通过两个相对独立的信息通路到达海马体,进而形成完整的记忆 [1]。
新技能:自主学习时空概念
通过模仿人类的认知机制,卢策吾团队提出了应用于高维度信息的半耦合结构模型(SCS)。
SCS 自主发掘(awareness)时间 - 空间概念,并让他们耦合协作以理解序列信息。这种能力代表着机器学习模型自主掌握了时空的概念,这是一种更高层的智能。更进一步,时空信息概念的分离也让「概念编辑」成为可能。
半耦合结构模型(SCS)
半耦合结构首先解耦时空信息(模仿人脑中的两条信息通路),并在分别处理时间和空间信息之后将二者耦合(模仿海马体):
该研究通过堆叠这种半耦合的元结构来构建深度模型,其中时空信息始终以先解耦再融合的模式向后流动。
为了让 h_s 和 h_t 各司其职,研究者将 h_s 和 h_t 设计为不对称的结构,同时,使用两个特殊的监督目标 r_s、r_t 来进一步约束二者关注各自的工作。
该研究进一步提出了一种训练注意力机制。这种注意力机制控制模型在优化过程中学习哪种信息。例如在视频信息中,模型可以优先将注意力集中在空间信息上,待空间信息有效且稳定时,再逐步将模型训练的注意力转换到时间信息上。
SCS 的表现如何?
该研究展示了 SCS 在多项任务中与传统 LSTM 的性能对比结果:
SCS 在视频动作分类、自动驾驶、天气预报等 4 个任务上的性能均超越传统的序列模型。
相关代码参见:https://doi.org/10.5281/zenodo.3679134
概念编辑
有了时空分离的能力,SCS 就可以初步做到「概念编辑」。比如,通过编辑空间概念且保留时间概念,我们可以让一个原本用于预测狗运动轨迹的模型来预测猫的轨迹。这样就能以较小的代价实现模型的泛化,同时也拓宽了模型的使用场景,降低了部署难度。如图 6 所示:
图 6:概念编辑 demo
研究者让计算机看 Flappy Bird 的视频,然后看一张静态的 Mario 图片(外观形象)。在这个过程中,模型并没有接触到任何 Mario 在管道中穿梭的运动信息。但通过「概念编辑」,在测试时 SCS 可以准确地预测 Mario 的运动轨迹。
视频理解工具箱 AlphaVideo
在视频理解工具箱 AlphaVideo 中,除了上述 SCS 时空概念分解,研究者还提供了单阶段端对端训练的多目标跟踪模型 TubeTK 和视频动作检测模型 AlphAction。使用一行代码,即可调用预训好的各类模型。
AlphAction
AlphAction 是面向行为理解的开源系统,基于 MVIG 提出的交互理解与异步训练策略 [5] 在 AVA 数据集上达到最优准确率,速度达到 10 帧每秒。其中包含的 15 个开源常见行为基本模型的 mAP 达到约 70%,接近可以商用的水平。
TubeTK
TubeTK 是上海交大 MVIG 组提出的基于 Bounding-Tube 的单阶段训练模型(CVPR2020-oral),是首个单阶段端对端训练的多目标跟踪模型。它在 MOT-16 数据集上达到了 66.9 MOTA 的精度,是目前 online 模型仅在 MOT 训练数据下达到的最高精度 [3]。
图 7:TubeTK 可视化结果
图 8:Bounding-Tube 示意图。使用 bounding-tube 可以轻松跟踪到 bounding-box 无法检测到的被遮挡目标(图中黄色框)。
参考文献
[1] Kitamura, T. et al. Entorhinal cortical ocean cells encode specific contexts and drive context-specific fear memory. Neuron 87, 1317–1331 (2015).
[2] Simonyan, K. & Zisserman, A. Two-stream convolutional networks for action recognition in videos. In Proceedings of the 27th International Conference on Neural Information Processing Systems 568–576 (ACM, 2014).
[3] https://motchallenge.net/tracker/3184&chl=5
[4] Feichtenhofer, C., Fan, H., Malik, J., & He, K. (2019). Slowfast networks for video recognition. In Proceedings of the IEEE International Conference on Computer Vision (pp. 6202-6211).
[5] Tang, J., Xia, J., Mu, X., Pang, B., & Lu, C. (2020). Asynchronous Interaction Aggregation for Action Detection. arXiv preprint arXiv: 2004.07485.