【跨模态】Jina VCED

Task 01

Video Clip Extraction by description ,简称VCED。VCED可以通过你的文字描述来自动识别视频中相符合的片段进行视频剪辑。该项目基于 MLOps 框架 Jina 与 CLIP 模型搭建,通过前后端分离的模式,帮助你快速地接触前沿的多模态 AI 搜索技术。

使用 Jina 搭建起一个跨模态视频搜索引擎,轻松实现输入描述文本,即可得到对应视频片段。

模态是指数据的存在形式,比如文本、音频、图像、视频等文件格式。有些数据的存在形式不同,但都是描述同一事物或事件的。而我们在信息检索的需求往往不只是同一事件单一模态的数据,也可能需要其他模态的数据来丰富我们对同一事物或事件的认知,此时就需要跨模态检索来实现不同模态数据之间的检索。

Jina:专注于神经网络搜索的 AI 框架
使用 Jina + CLIP 实现从文本到视频片段的搜索系统。

多模态机器学习是一个相对较新的领域,它关注可以从多种数据模态中学习的算法的开发。

跨模态机器学习是多模态机器学习的一个子领域,它关注算法的开发,这些算法可以从不一定对齐的多种数据模态中学习。例如,从图像和文本中学习,其中图像和文本不一定是同一事物。

得益于深度神经网络的最新进展,跨模态或多模态技术可以对各种非结构化数据(例如图像、音频、视频、PDF、3D 网格等)实现高级智能。

Beyond single modality

跨模态和多模态是两个经常互换使用的术语,但两者之间存在很大差异。
多模态是指系统使用多种模态或输入通道来实现预期目标的能力。例如,人类可以同时使用视觉和听觉来识别人或物体。
跨模态是指系统使用来自一种模态的信息来提高另一种模态性能的能力。例如,如果您看到一张狗的照片,当您听到它的叫声时,您可能能够通过它的叫声来识别它。

旨在与多种模式一起工作的人工智能系统被称为“多模式”。
当指代使用来自一种模式的信息来提高另一种模式的性能的人工智能系统时,术语“跨模式”更为准确。

GPT-3

Generative Pre-trained Transformer 3( **GPT-3** ; stylized **GPT·3** ) 是一种[自回归] [语言模型],它使用[深度学习]来生成类人文本。给定初始文本作为提示,它将生成继续提示的文本。

该架构是一个标准的[转换器网络](经过一些工程调整),具有前所未有的 2048 令牌长上下文和 1750 亿个[参数](需要 800 GB 存储空间)。训练方式是“生成式预训练”,意思是训练它预测下一个token是什么。该模型在许多基于文本的任务上 展示了强大[的少样本学习。]

GPT-3 能够执行[零样本]、少样本和[单样本学习]。

你可能感兴趣的:(深度学习,jina)