Semantic2Graph: Graph-based Multi-modal Feature Fusion for Action Segmentation in Videos阅读笔记
文章链接:https://arxiv.org/ftp/arxiv/papers/2209/2209.05653.pdf主要贡献:该文章是目前动作分割领域50salads和gtea数据集上的sota方法,可惜代码未开源。摘要:视频动作分割和识别任务已经在许多领域得到了广泛的应用。以往的研究大多采用大规模、高计算量的视觉模型来全面理解视频。然而,很少有研究直接使用图模型来对视频进行推理。图模型具有更少