Jina文章转载:多模态AI的范式变革&多模态AI总结(2022年COLING会议)

文章目录

    • 一、多模态AI的范式(Paradigm)变革
      • 1.1 前言
      • 1.2 AI行业已经向多模态AI时代
      • 1.3 单模态人工智能
        • 1.3.1 自然语言处理
        • 1.3.2 计算机视觉
        • 1.3.3 语音和音频(Speech & Audio)
      • 1.4 迈向多模态人工智能
      • 1.5 搜索和生成的二元性(The Duality of Search & Creation)
        • 1.5.1 多模态两大支柱:搜索和创作
        • 1.5.2 搜索与创作的二元性
      • 1.6 总结
    • 二、 COLING2022 多模态AI总结
      • 2.1 前言
      • 2.2 视觉语言模型是基于常识性知识吗(Commonsense Knowledge)?
        • 2.2.1 什么是常识?常识知识的维度有哪些?
        • 2.2.2 视觉语言模型是基于常识性知识吗
      • 2.3 DCAMN
      • 2.4 野外视频问答
        • 2.4.1 摘要
        • 2.4.2 论文解读
      • 2.5 具有I3D特征的T5模型的多任务学习
      • 2.6 其他有趣的多模态研究
        • 2.6.1 多模态社交媒体(Multimodal Social Media)
        • 2.6.2 文本-手势多模态(Text-Gestures Multimodal)
        • 2.6.3 多模态主题模型
      • 2.7 总结

  Jina AI是领先的多模态人工智能( multimodal AI)MLOps平台。我们的领域包括 multimodal AI及其在神经搜索(neural search)和人工智能创作(neural search)作方面的基础设施和应用。我们正处于人工智能新时代的风口浪尖,正从单模态大步迈向多模态 AI 时代。在 Jina AI,我们的 MLOps 平台帮助企业和开发者加速整个应用开发的过程,在这一范式变革中抢占先机,构建起着眼于未来的应用程序。

一、多模态AI的范式(Paradigm)变革

1.1 前言

1. 什么是多模态AI?
  “模态”(modal)是指人类的感官:视觉、听觉、触觉、味觉、嗅觉。我们在这里使用它来表示数据模式,例如文本、图像、视频等。真实世界的数据是多模态的。

“多模态”(Multimodal)和“跨模态”(cross-modal)是另外两个经常相互混淆的术语,但意思不一样:

  • 多模态深度学习(Multimodal deep learning)是一个相对较新的领域,涉及从多种模态数据中学习的算法。例如,人类可以使用视觉和听觉来识别人或物体,而多模态深度学习关注的是开发计算机的类似能力。
  • 跨模态深度学习(Cross-modal deep learning)是一种多模态深度学习的方法,其中来自一种模态的信息用于提高另一种模态的性能。例如,如果您看到一只鸟的图片,当您听到它时,您也许可以通过它的歌声来识别它。

  旨在与多种模式一起工作的人工智能系统被称为“多模态”。当狭义地指集成不同模式并将它们一起使用的人工智能系统时,术语“跨模态”更为准确。

2. 范式(Paradigm)是什么?

  Paradigm (范式) 是一个领域中主流的行事套路,它包括 philosophy (理念) 和 methods (方法)两部分。Philosophy (理念) 这个概念很好理解。比如:

  • 购物理念就是什么该买,什么不该买,怎么买。
  • 环保理念就是什么还保护,什么不该保护,以及怎么保护。
  • 时尚理念就是什么是时尚,什么不是,如何时尚。

  所以,某事的 philosophy (理念) 就是,做某事,什么该做,什么不该做,以及方式。
  Methods (方法)就是继方式之后的具体的操作。总结起来就是: paradigm (范式) = philosophy (理念) + methods (方法)

1.2 AI行业已经向多模态AI时代

  本节主要来自Jina 官网上Articles板块的一篇insights的文章:《The Paradigm Shift Towards Multimodal AI》,2022.11.30,Jina AI微信公众号将其译为中文《Jina AI创始人肖涵博士解读多模态AI的范式变革》
Jina文章转载:多模态AI的范式变革&多模态AI总结(2022年COLING会议)_第1张图片

如果别人问到我们 Jina AI 是做什么的,我会有以下两种回答。

    1. 面对 AI 研究员时,我会说:Jina AI 是一个跨模态和多模态数据的 MLOps 平台;
    1. 面向从业者和合作伙伴时,我会说:Jina AI 是用于神经搜索和生成式 AI 应用的 MLOps 平台。

你可能听说过”非结构化数据“,但什么是“多模态数据”呢?你可能也听说过“语义搜索”,那“神经搜索”是什么新鲜玩意儿呢?可能更加令你困惑的是,Jina AI 为什么要将这四个概念混在一起,开发一个 MLOps 框架来囊括所有这些概念呢?

  这篇文章就是为了帮助大家更好地理解 Jina AI 到底是做什么的,以及我们为什么要做这些。 首先,“人工智能已从单模态 AI 转向了多模态 AI”,这一点已成为行业共识,如下图所示:
Jina文章转载:多模态AI的范式变革&多模态AI总结(2022年COLING会议)_第2张图片
  在 Jina AI,我们的产品囊括了跨模态(cross-modal)、多模态((cross-modal)、神经搜索(neural search)和生成式 AI(creative AI),涵盖了未来 AI 应用的很大一部分。我们的 MLOps 平台帮助企业和开发者加速整个应用开发的过程,在这一范式转变中抢占先机,构建起着眼于未来的应用程序。

  在接下来的文章里,我们将回顾单模态 AI 的发展历程,看看这种范式转变是如何在我们眼下悄然发生的。

1.3 单模态人工智能

  在计算机科学中,“模态”大致意思是“数据类型”。所谓的单模态 AI,就是将 AI 应用于一种特定类型的数据。这在早期的机器学习领域非常普遍。直至今日,你在看机器学习相关的论文时,单模态 AI 依然占据着半壁江山。

1.3.1 自然语言处理

早在2010年,我就发表了一篇关于 Latent Dirichlet Allocation(LDA)模型的改进 Gibbs sampling(吉布斯抽样)算法的论文:
Jina文章转载:多模态AI的范式变革&多模态AI总结(2022年COLING会议)_第3张图片
一些资深的机器学习研究人员可能还记得 LDA,这是一种用于建模文本语料库的参数贝叶斯模型。它将单词“聚类”成主题,并将每个文档表示为主题的组合。因此有人称其为“主题模型”
Jina文章转载:多模态AI的范式变革&多模态AI总结(2022年COLING会议)_第4张图片

  从 2008 年到 2012 年,主题模型一直是 NLP 社区中最有效和最受欢迎的模型之一——它的火热程度相当于当时的 BERT/Transformer。每年在顶级 ML/NLP 会议上,许多论文都会扩展或改进原始模型。但今天回过头来看,它是一个相当 "浅层学习"的模型,采用的是一次性的语言建模方法。它假定单词是由多项式分布的混合物生成的。这对某些特定的任务来说是有意义的,但对其他任务、领域或模式来说却不够通用。

  早在 2010-2020 年,像这样的一次性方法是 NLP 研究的常态。研究人员和工程师开发了专门的算法,每种算法虽然都擅长解决一项任务,但是也仅仅只能解决一项任务:

Jina文章转载:多模态AI的范式变革&多模态AI总结(2022年COLING会议)_第5张图片

最常见的20个 NLP 任务


1.3.2 计算机视觉

  相较于 NLP 领域,我进入计算机视觉 (CV) 领域要晚一些。2017 年在 Zalando 时,我发表了一篇关于 Fashion-MNIST 数据集 的论文。该数据集是 Yann LeCun 1990 年原始 MNIST 数据集(一组简单的手写数字,用于对计算机视觉算法进行基准测试)的直接替代品。原始 MNIST 数据集对于许多算法来说过于简单 —— 逻辑回归、决策树等浅层学习算法树和支持向量机可以轻松达到 90% 的准确率,留给深度学习算法发挥的空间很小。

  Fashion-MNIST 提供了一个更具挑战性的数据集,使研究人员能够探索、测试和衡量其算法。时至今日,超过 5,000 篇学术论文在分类、回归、去噪、生成等方面的研究中都还引用了 Fashion-MNIST,可见其价值所在。

  但正如主题模型只适用于 NLP,Fashion-MNIST 也只适用于计算机视觉。它的缺陷在于,数据集中几乎没有任何信息可以用来研究其他模式。如果梳理2010-2020年间最常见的20个CV任务,你会发现,几乎所有任务都是单一模式的。同样的,它们每一个都涵盖了一个特定的任务,但也仅仅涉及一项任务:
Jina文章转载:多模态AI的范式变革&多模态AI总结(2022年COLING会议)_第6张图片

最常见的20个 CV 任务


1.3.3 语音和音频(Speech & Audio)

  针对语音和音频机器学习遵循相同的模式:算法是为围绕音频模态的临时任务而设计的。他们各自执行一项任务,而且只执行一项任务,但现在都在一起执行:
Jina文章转载:多模态AI的范式变革&多模态AI总结(2022年COLING会议)_第7张图片

最常见的20个 音频 任务

我对多模态 AI 方面最早的尝试之一是我在 2010 年发表的一篇论文,当时我建立了一个贝叶斯模型,对视觉、文本和声音 3 种模态进行联合建模。经过训练后,它就能完成两项跨模式的检索任务:从声音片段中找到最匹配的图像,反之亦然。我给这两个任务起了一个很赛博朋克的名字:“Artificial Synesthesia,人机联觉”。

Jina文章转载:多模态AI的范式变革&多模态AI总结(2022年COLING会议)_第8张图片

Jina文章转载:多模态AI的范式变革&多模态AI总结(2022年COLING会议)_第9张图片
Jina文章转载:多模态AI的范式变革&多模态AI总结(2022年COLING会议)_第10张图片

1.4 迈向多模态人工智能

从上面的例子中,我们可以看到所有的单模态 AI 算法都有两个共同的弊端:

  • 任务只针对一种模态(例如文本、图像、音频等)。
  • 知识只能从一种模态中学习,并应用在这一模式中(即视觉算法只能从图像中学习,并应用于图像)。

在上文中,我已经讨论了文本、图像、音频。还有其他模式,例如 3D、视频、时间序列,也应该被考虑在内。如果我们把来自不同模态的所有任务可视化,我们会得到一个下面立方体,其中各模态正交排列:

Jina文章转载:多模态AI的范式变革&多模态AI总结(2022年COLING会议)_第11张图片

以一个立方体来表示单模态之间的关系,可以假定每个面代表一个单独模态的任务

另一方面,多模态人工智能就像将这个立方体重新粘合成一个球体,重要的不同点在于它抹去了不同模态之间的界限,其中:

  • 任务在多种模态之间共享和传输(因此一种算法可以处理图像和发短信和音频)。
  • 知识是从多种模式中学习并应用于多种模式的(因此算法可以从中学习文本数据并将其应用于视觉数据)。

Jina文章转载:多模态AI的范式变革&多模态AI总结(2022年COLING会议)_第12张图片

多模式人工智能

多模态AI的兴起可归因于两种机器学习技术的进步:表征学习(Representation learning)和迁移学习(transfer learning)。

  • 表征学习:让模型为所有模态创建通用的表征。
  • 迁移学习:让模型首先学习基础知识,然后在特定领域进行微调。

  如果没有表征学习和迁移学习的进步,想在通用数据类型(generic data types)上实行多模态是非常难以落地的,就像我 2010 年的那篇关于声音-图像的论文一样,一切都是纸上谈兵。
  2021 年 CLIP发表了,这是一种将图片和文本配对训练的模型,将配对图片-文本对设为正样本,不配对的设为负样本,通过对比学习能够让图片和其对应的语义信息(文字信息)紧密的联系在一起。2022年,DALL·E2Stable Diffusion发布了,两者都是根据 prompts 文本生成对应高质量的图像。

  • CLIP可以参考我的帖子《李沐论文精读系列四:CLIP和改进工作串讲(LSeg、GroupViT、VLiD、 GLIPv1、 GLIPv2、CLIPasso)》
  • DALL·E2可以参考我的帖子 《李沐论文精读系列五:DALL·E2(生成模型串讲,从GANs、VE/VAE/VQ-VAE/DALL·E到扩散模型DDPM/ADM)》

  由此可见,范式的转变已然开启:未来我们必将看到越来越多的AI应用将超越单个模态,发展为多模态,并巧妙利用不同模态之间的关系。随着模态之间的界限变得模糊,一次性的方法也不再适用了。
Jina文章转载:多模态AI的范式变革&多模态AI总结(2022年COLING会议)_第13张图片

从单模态 AI 到多模式 AI 的范式转变

1.5 搜索和生成的二元性(The Duality of Search & Creation)

  在Jina官网《Search is Overfitted Create; Create is Underfitted Search》一文中曾提到:神经搜索(neural search)的最大竞争力来自于,这是一种不需要embeddings作为中间表示的技术,一种直接返回所需结果的端到端技术。关于神经搜索更多内容可参考《Neural Search: The Definitive Guide to Building a Neural Search Engine with Jina》

1.5.1 多模态两大支柱:搜索和创作

多模态深度学习具有广泛的潜在用途,例如:

  • 自动生成图片描述
  • 根据文本提示搜索图片
  • 艺术创作,比如文生图

所有这些应用都依赖于两大支柱技术:搜索和创作(search and creation),这里搜索指的是神经搜索。

  Neural search(神经搜索):即使用深度神经网络进行搜索。神经搜索擅长处理多模态数据,因为它可以学习将多种模态(例如文本和图像)映射到相同的嵌入空间。这使神经搜索引擎能够使用文本查询搜索图像,并使用图像查询搜索文本文档。

Jina文章转载:多模态AI的范式变革&多模态AI总结(2022年COLING会议)_第14张图片

神经搜索识别语义相似的单词

  Creative AI(创造AI):使用神经网络模型生成新内容,例如图像、视频或文本。例如,OpenAI的GPT-3可以从提示中创作新的文本,OpenAI的DALL·E 根据文本提示创建新颖的图像。代码示例如下:

server_url = 'grpc://dalle-flow.jina.ai:51005'
prompt = 'an oil painting of a humanoid robot playing chess in the style of Matisse'

from docarray import Document

doc = Document(text=prompt).post(server_url, parameters={'num_images': 8})
da = doc.matches

da.plot_image_sprites(fig_size=(10, 10), show_index=True)

创意人工智能具有巨大的潜力。它可以通过创建以下内容来彻底改变我们与机器的交互方式:

  • 在计算机与人类交互期间提供更个性化的体验。
  • 人物和物体的逼真 3D 图像和视频,可用于电影、视频游戏和其他视觉媒体。
  • 视频游戏或其他互动媒体的自然对话。
  • 产品的新设计,可用于制造业和其他行业。
  • 更具新颖性和创造性的营销材料。

1.5.2 搜索与创作的二元性

  Searchcreation是多模态 AI 中的两项基本任务。对于大多数人来说,这两项任务是完全孤立的,并且已经独立研究了很多年。但其实, 搜索和生成是紧密相连的,并且具有共同的二元性 。下面是一些例子:

  1. 搜索:多模态AI使用文本或图像来搜索图像数据集(文搜图和以图搜图)。
    Jina文章转载:多模态AI的范式变革&多模态AI总结(2022年COLING会议)_第15张图片

    Search : find what you need

  2. 创作:文生图或者丰富/修复指定的图片
    Jina文章转载:多模态AI的范式变革&多模态AI总结(2022年COLING会议)_第16张图片

    Create : make what you need

当把这两个任务组合在一起并屏蔽掉它们的函数名时,你可以看到这两个任务没有区别。两者都接收和输出相同的数据类型。唯一的区别是,搜索是找到你需要的东西,而生成是制造你需要的东西。
Jina文章转载:多模态AI的范式变革&多模态AI总结(2022年COLING会议)_第17张图片
  当把这两个任务组合在一起并屏蔽掉它们的函数名时,你可以看到这两个任务没有区别。两者都接收和输出相同的数据类型。唯一的区别是,搜索是找到你需要的东西,而生成是制造你需要的东西。
Jina文章转载:多模态AI的范式变革&多模态AI总结(2022年COLING会议)_第18张图片

多模态AI框架下搜索和创建的二元性。电影海报来自”异形:契约"

  类似于哆啦A梦和瑞克,他们都拥有令人羡慕的超能力。但他们的不同在于哆啦A梦在他的口袋里寻找现有的物品,而瑞克则从他的车间创造了新东西。

Jina文章转载:多模态AI的范式变革&多模态AI总结(2022年COLING会议)_第19张图片

哆啦A梦代表神经搜索,而瑞克代表AI创作

  Searchcreation的二元性也提出了一个有趣的思想实验。想象一下,当生活在一个所有图像都由人工智能生成,而不是由人类构建的世界里。我们还需要(神经)搜索吗?或者说,我们还需要将图像嵌入到向量中,再使用向量数据库对其进行索引和排序吗?

  答案是 NO。因为在观察图像之前,唯一代表图像的 seed 和 prompts 是已知的,后果现在变成了前因。与经典的表示法相比,学习图像是原因,表示法是结果。为了搜索图像,我们可以简单地存储 seed(一个整数)和 prompts(一个字符串),这不过是一个好的老式 BM25 或二分搜索。当然,我们作为人类还是更偏爱由人类自己创造的艺术品,所以平行宇宙暂时还不是真正的现实。至于为什么我们更应该关注生成式 AI 的进展 —— 因为处理多模态数据的老方法可能已经过时了。

1.6 总结

   我们正处于人工智能新时代的前沿,多模态学习将很快占据主导地位。多模态学习结合了多种数据类型和模式,有可能彻底改变我们与机器交互的方式。到目前为止,多模态人工智能在计算机视觉和自然语言处理等领域取得了巨大的成功。未来,毋庸置疑的是,多模式人工智能将产生更大的影响。例如,开发能够理解人类交流的细微差别的系统,或创造更逼真的虚拟助手。总而言之,未来拥有万种可能,而我们才只接触到冰山一角!

  想要从事多模态 AI、神经搜索和创意 AI 方面的工作吗?加入Jina,引领多模态 AI 范式变革!

二、 COLING2022 多模态AI总结

  2022年10月21日,韩晓在Jina官网发表文章《COLING2022 Summary on Multimodal AI》,总结了一周前在韩国庆州参加COLING2022会议时,多模态 AI 的相关工作。本节译从此文。

2.1 前言

  COLING是每两年举行一次的计算语言学的重要会议,可以学到很多关于计算语言学和NLP的最新研究,例如自动写作评估和多跳问答( automated writing evaluation and multi-hop question answering)。尽管主要是NLP会议,但仍有26场演讲专注于多模态AI,涵盖文本图像,文本视频和文本语音领域。下面重点列举其中三个特别有趣的发言。

作者与会图

2.2 视觉语言模型是基于常识性知识吗(Commonsense Knowledge)?

2.2.1 什么是常识?常识知识的维度有哪些?

  参考论文《Dimensions of Commonsense Knowledge》,此论文的介绍性博文《天天说常识推理,究竟常识是什么?》

1. 什么是常识

常识的例子:

  • 睁开眼睛打喷嚏是不可能的。(还真没留意。)
  • 北极熊是左撇子。
  • 长颈鹿没办法咳嗽

2. 常识研究
关于常识的研究近年来是比较火热的话题,在NLP领域,研究的方向主要有两条线:

  1. 各种benchmark数据集的构建,各种刷榜以测试我们的模型是否具备某些类型的常识
  2. 构建常识知识图谱,关注点主要在于如何挖掘常识知识、构建结构化常识知识。比如有正式命名为常识KG(知识图谱)的,比如ATOMIC、WebChild;也有包含常识知识但非正式命名为常识KG的知识源,如WordNet、VerbNet等等。

两条线的交叉点在于如何利用常识知识辅助各类下游任务。

流行的常识KG:ConceptNet。
Jina文章转载:多模态AI的范式变革&多模态AI总结(2022年COLING会议)_第20张图片

  所以常识知识领域的研究看起来像是遍地开花,但每个知识源的格式、创建的方法、知识类型的覆盖率都各不相同。对于现存的常识KGs到底包含了哪些类型的常识知识,每个KG对每种类型的覆盖程度是怎样的,以及哪些类型对于下游常识推理任务是有用的,缺乏一个统一的定论,直到《Dimensions of Commonsense Knowledge》。这篇文章主要想探究两个问题:

  1. 如何研究现有常识KGs中包含了哪些维度的常识知识?
  2. 对于常识推理任务,常识知识图谱有多重要?

  此文既可以看成是对常识知识的维度的正式划分,也可以看成是对常识知识融合[1]是有意义的一个证明。

3. 常识维度(commonsense dimensions)有哪些?

  作者首先对现有的20个包含常识的知识源进行了调研,从中挑选了7个进行研究。对现有常识KGs中包含的常识知识的关系类型进行整理、重新聚类后,定义了13个常识维度:
Jina文章转载:多模态AI的范式变革&多模态AI总结(2022年COLING会议)_第21张图片
  每个维度包含若干个具体的关系。比如维度distinctness包含ConcpetNet中的{Antonym,DistinctFrom}两个具体关系。统一了维度后,就可以从维度的视角统一研究各个常识KGs中存在的常识知识,也可以融合各个KGs的知识进行知识的增强。

  ps:每个知识源的关系标签不一样,所以每个维度包含的具体关系的名字也不相同,详情参加论文中的Table2。

  在统一所有常识KGs的维度的基础上,此文首先对各个常识KGs中包含常识维度进行了统计分析,对比了它们的维度知识的数量、覆盖度、冗余度。
Jina文章转载:多模态AI的范式变革&多模态AI总结(2022年COLING会议)_第22张图片
可以看出,13个关系维度在知识源中的分布是不平衡的。

  • 较好捕捉的关系维度,更多涉及词汇关系和分类关系,比如lexical, similarity, distinctictness, taxonomic。
  • 部分维度则非常罕见,比如comparative维度只出现在WebChild,creation维度只出现在了两个知识源中,并且只有500条三元组。

  另外还探究了哪些维度的常识有助于提升对下游常识推理任务的性能,具体的提升有多大,具体可查看原文。

2.2.2 视觉语言模型是基于常识性知识吗

  来自2022年第29届计算语言学国际会议 论文集论文:《Are Visual-Linguistic Models Commonsense Knowledge Bases?》,下同。

  在过去的几年里,我们都看到了预训练语言模型(PTLM)的巨大潜力。Transformer和GPT等模型因其作为常识性知识库的潜力(commonsense knowledge base)而广泛用于许多下游任务。但是,用于训练 PTLM 的文本语料库可能会使它们非常有偏见,会使它们可能一致性和鲁棒性不够(inconsistent and not very robust)。
  在本文中,Yang和Silberer认为,单独的文本语料库可能不足以获取知识,并针对UNITER、VILBERT和CLIP等视觉语言模型提出了重要问题:

带有视觉组件(visual component)的语言模型能否更好地代表我们的物理世界?

他们通过像这样的探索性问题来进行回答:
Jina文章转载:多模态AI的范式变革&多模态AI总结(2022年COLING会议)_第23张图片

Prompt-based zero-shot QA with visual input。在实验过程中,作者选择性地屏蔽图像输入,以研究模型捕获的Commonsense Knowledge(确定模型获得了什么样的关联知识)。

  QA pairs可以分为多个常识维度:局部-整体(part-whole)、分类( taxonomic)、特殊性(distinctness)、相似性(similarity)、质量( quality)、实用性功能性(utility)、创造(creation)、时间(temporal)、空间(spatial)和欲望( desire)。

1. 与纯文本的PTLMs相比,视觉语言模型具有哪些常识维度(commonsense dimensions)?

  Hsui-Yu表示,UNITER和VILBERT等视觉语言模型(VL Model)在局部-整体、空间和欲望维度上表现得更好,但在分类、清晰度和时间维度上表现不佳。

  • 在空间维度方面,VL模型始终优于RoBERTa 约8%。
  • 在分类和时间等非视觉相关维度上,VL模型低于RoBERTa约8%,这是可以理解的,因为分类(taxonomic)和时间很少在图像中表示。当使用真实世界的图像来训练VL时,特殊性也很难学习,因为如洪水和干旱这种相反的概念,很少在一张图片中出现。

2. 在预训练期间,显性的视觉信息(即图像)是否有利于常识性知识编码?
  当添加带有图像标题的预训练BERT时,VL模型的优势变得不那么显着,即使在空间尺寸。这表明图像标题已经可以为视觉信息提供良好的代理。VL 模型优于的唯一维度是part-whole,尽管幅度很小。
3. 在推理过程中,明确的视觉观察(即图像)对于回忆常识知识是必要的吗?
  上述实验在zero-shot QA 任务时没有使用视觉输入,所以一个自然的问题是,添加图像会有帮助吗?答案是否定的。视觉信息只会让一切变得更糟。实验表明,与纯文本模型相比,所有双流(文本 + 视觉)模型的性能都在part-whole, 空间、分类和特殊性维度表现更差(part-whole, spatial, taxonomic, and distinctness dimensions)。这表明文本是成功推理纯语言任务的驱动力(driving force)。

  我对这项工作感兴趣的是对多模态模型的解密,上面这一点表明:最先进的VL模型确实编码了与纯语言模型互补的知识类型(complementary knowledge types),但它们结合视觉和文本信号的方式仍然非常原始,根本不像人类。

2.3 DCAMN

  来自会议论文:《Dual Capsule Attention Mask Network with Mutual Learning for Visual Question Answering》

  上一节研究的不是视觉问答,尽管包含了QA pairs和图像。VQA的目标是正确回答与图像内容相关的问题。它具有广泛的实际应用,如帮助视力障碍者和人机问答。正式的 VQA 任务如下所示:
Jina文章转载:多模态AI的范式变革&多模态AI总结(2022年COLING会议)_第24张图片
  VQA 任务的挑战是如何利用具有关键信息的细粒度特征,以确保提取的特征突出与问题相关的对象。让我们看下面的两个例子:
Jina文章转载:多模态AI的范式变革&多模态AI总结(2022年COLING会议)_第25张图片
  在左边的示例中可以注意到,提取的细粒度特征具有推理答案所需的关键信息,这有助于模型通过消除不相关因素的干扰来生成正确答案。在正确的例子中,unattended 粗粒度特征包含正确答案所需的更丰富的语义信息。

我们是否可以将全局粗粒度信息和局部细粒度信息结合起来,为 VQA 任务提供更好的信息?

  基于此,本文提出了一个dual capsule注意力掩码网络(DCAMN,dual capsule attention mask network ),用于VQA的mutual learning。
Jina文章转载:多模态AI的范式变革&多模态AI总结(2022年COLING会议)_第26张图片
  DCAMN可以处理不同粒度的特征,考虑全局信息并专注于关键信息。结合不同的视角和粒度可以提高模型的泛化能力,做出更准确的预测。下面是DCAMN 在三种类型的 VQA 上的性能(是/否、数字和其他三种VQA):
Jina文章转载:多模态AI的范式变革&多模态AI总结(2022年COLING会议)_第27张图片
  此外,所提出的DCAMN可以有效地融合多模态特征并定位证据,提高网络的可解释性,如下图所示:
Jina文章转载:多模态AI的范式变革&多模态AI总结(2022年COLING会议)_第28张图片

2.4 野外视频问答

来自会议论文《In-the-Wild Video Question Answering》

2.4.1 摘要

  现有的视频理解数据集主要关注人类互动,很少关注“野外”环境,或户外录制视频。我们提出了WILDQA,一种在外部环境中录制的视频理解数据集。除了视频问答(Video QA),我们还介绍了识别给定问答的视觉支持的新任务(视频证据选择,(Video Evidence Selection)。通过使用大量的基线模型进行评估,我们发现WILDQA对视觉和语言研究社区提出了新的挑战。

2.4.2 论文解读

  作为Visual QA的延伸, Video QA在智能AI系统的发展中发挥着重要作用,因为它能够有效处理模态和时间信息。在下面的示例中,给定一个长视频和一个问题, Video QA 系统先生成开放式答案,然后检索给定问题和答案的视觉支持,由跨度表示。
Jina文章转载:多模态AI的范式变革&多模态AI总结(2022年COLING会议)_第29张图片

在视频中查找给定问答对的相关帧可以帮助系统进行推理

   Video QA的大部分现有工作都是基于MovieQA(Tapaswi等人,2016)和TVQA(Lei等人,2018)数据集,这些数据集侧重于多项选择环境中常见的人类活动,主要由烹饪视频或电影中的视频组成,所以非常有局限性。Santiago等人提出了WildQA数据集和任务,这些数据集和任务侧重于在开放式环境中记录在外部世界中的场景。下面是WILDQA与其他现有数据集之间的比较。
Jina文章转载:多模态AI的范式变革&多模态AI总结(2022年COLING会议)_第30张图片

  • VE?:数据集是否提供“视频证据”?
  • QA Task:
    • MC:“多项选择”问答;
    • OE:“开放式”问答;
    • ES:“证据选择”。

2.5 具有I3D特征的T5模型的多任务学习

  为了求解WildQA,Santiago等人将文本特征与视觉特征连接起来,并将级联特征输入到T5模型中。每秒获取提取一个I3D 视频特征。

  I3D模型就是3D版的双流网络,引入光流来处理视频信息。关于双流网络和I3D模型,可以参考我的帖子《李沐论文精度系列之七:Two-Stream双流网络、I3D》

Jina文章转载:多模态AI的范式变革&多模态AI总结(2022年COLING会议)_第31张图片
  T5编码器输出一系列编码状态。Santiago等人将将与视觉特征相对应的子序列视为视频帧的编码隐藏序列。然后,他们将序列与两个向量相乘,分别得到evidence开始和结束的最大似然预测。视觉证据选择和视频问答的任务可以通过简单地将两个损失以加权方式组合在一起进行联合训练。

  在实验中,Santiago等人提出了多个基线,包括:从开发集中随机选择答案(Random);总是预测开发集中最常见的答案(Random);并检索嵌入与测试问题具有最高余弦相似度(Random)的开发集问题的答案。
Jina文章转载:多模态AI的范式变革&多模态AI总结(2022年COLING会议)_第32张图片
  我注意到引入视频信息(T5 T+V)并不能提高视频问答任务的性能,这证实了Yang&Silberer在他们的工作中所说的话。这也可能是由于 WildQA 中的问题类型与常识知识不匹配。在视频证据选择任务中,T5模型甚至不比随机基线更好。添加多任务学习无济于事。总的来说,我们可以得出结论,WildQA是一项非常具有挑战性的任务,最先进的多模态模型与人类之间存在显着差距。

2.6 其他有趣的多模态研究

2.6.1 多模态社交媒体(Multimodal Social Media)

有多个研究项目专注于社交媒体的多模态。例如:

  • 论文:《用于灾难推文分类的多模态半监督学习》

    • 在大规模的紧急情况下,社交媒体平台上的文本和图像激增,为及时获取有价值的信息提供了许多机会,这些信息可以帮助救灾当局更快、更有效地采取行动。
    • 尤斯汀等人将修复匹配算法(FixMatch algorithm)扩展到多模态。研究表明,多模态的 FixMatch 可以利用廉价的未标记数据来提高 diaster 分类任务的性能。
  • 论文:《人们是否位于他们在推文中提到的地方》
    从社交媒体和推文中提取空间信息最近也受到了极大的关注。Zhaomin等人提出了BERT+VGG16多模态模型来确定人们是否位于他们在推文中提到的地方

  • 论文:《利用贴图进行社交媒体中的多模态情绪分析:一个新的数据集和Baseline》
      社交媒体是进行情绪分析的好地方。作为在社交媒体上表达情感的一种流行方式,帖子中的贴图和 memes可以补充缺失的情绪,并帮助准确识别情绪。尽管贴图和memes表示为图像或简单的 gif,但与现实世界的照片具有非常不同的语义。Feng等人指出了使用贴图/memes时的三个挑战:

    • 贴图的风格差异很大,阻碍了模型学习稳健的表示;
    • 文字和贴图融合情感的方式很复杂,有时甚至不一致;
    • 贴图可能本质上是多模态的,因为它们嵌入了文本。具有不同贴图文本的同一贴图的情绪可能会有很大差异。
      Jina文章转载:多模态AI的范式变革&多模态AI总结(2022年COLING会议)_第33张图片

这项工作实际上让我想起了一个流行的Youtube视频,解释了Z世代的幽默和他们的meme behaviors:

Popular = Not Funny
Was popular = Funny
Ironic = Funny
Make no sense = Funny
Unfunny = Funny

没有什么比改变和讨厌事物更让 Z 世代喜欢的了。因此,也许我们的情绪分析模型已经过时了?

2.6.2 文本-手势多模态(Text-Gestures Multimodal)

  • 论文: 《合理利用手势:来自神经序列模型的信息论依据》
      交流是一个多模式过程。来自语言和非语言模式的信息混合到一个channnel中。从长期的实证研究中可以看出,说话者在视觉模态中的表达,包括手势、身体姿势、眼神交流和其他类型的非语言行为,在面对面的交流中起着至关重要的作用,因为它们增加了难以用口头语言传达的微妙信息。
      杨等认为手势是非语言交流,并证明非语言交流也符合熵率恒常性(ERC)原理。在这个假设下,任何形式的交流(书面或口头)都应该通过保持整体熵速率恒定来优化信息传输速率。
      这意味着以手势编码的信息虽然微妙,但实际上是以合理的方式组织的,从接收者的角度增强了对信息的解码/理解。
  • 论文《理解手势和语言之间的关系》
      Artem等人将人类的手势与其相应的话语一起考虑。他们探索了一种通过对比学习学习手势嵌入的多模态方法,并试图从他们的手势嵌入中预测心理语言学(psycholinguistic)类别和说话者的语言。

2.6.3 多模态主题模型

《Multilingual and Multimodal Topic Modelling with Pretrained Embeddings》

  Elaine等人提出了一种新的神经多语言、多模态主题模型,该模型利用预先训练的文档和图像嵌入来抽象语言和模态之间的复杂性。他们的工作基于情景化主题模型(contextualized topic model),这是一系列使用情景化文档嵌入作为输入的主题模型。
  令我惊讶的是,在超过12年后,潜在狄利克雷分配(LDA)模型仍然出现在像COLING这样的顶级会议上。通读论文后,我发现在过去的几年里,为了使原始的LDA更加“深入”,已经进行了大量的采用。事实上,它现在被称为神经主题模型(NTM),它指的是一类使用神经网络来估计主题-单词和文档-主题分布参数的主题模型。

2.7 总结

  今年在COLING上展示了一些关于多模态AI的伟大工作。很明显,正如第一章中指出的那样,这是一个只会变得越来越重要的主题。

你可能感兴趣的:(多模态,人工智能,jina,多模态)