图像、视频、3D 数据一把抓,不挑食的 AI 模型 Omnivore !

出品人:Towhee 技术团队

厌烦了不同数据要用不同的模型?是否想过用一个模型就能处理不同模态的数据?终于,在 2022 年初 Meta AI 推出了 “杂食者” Omnivore,一个模型搞定不同视觉模态数据,可以对图像、视频、3D数据进行分类。Omnivore 不仅兼容多种类型的数据,在不同任务的数据集上也都名列前茅。Omnivore 在图像分类数据集 ImageNet 上能达到 86.0% 精度;在用于动作识别的 Kinetics 数据集上能达到 84.1% 精度;在用于单视图3D场景分类的 SUN RGB-D 数据集上,精度也高达 67.1% 。

图像、视频、3D 数据一把抓,不挑食的 AI 模型 Omnivore !_第1张图片
Omnivore: Multiple visual modalities

Omnivore 将不同视觉模态的数据都转换成通用的向量格式,然后利用 Transformer 特有的灵活性,针对不同模态的分类任务进行联合训练。无论是从头训练,还是对预训练模型进行微调,只要使用 Omnivore 和现成的标准数据集,就能让其性能达到甚至超越对应的单模型。

参考资料:

模型用例:action-classification/omnivore
论文地址:OMNIVORE: A Single Model for Many Visual Modalities
更多资料:Facebook AI 推出“超级模型”:搞定图像、视频和3D数据三大分类任务,性能不输独立模型


更多项目更新及详细内容请关注我们的项目( https://github.com/towhee-io/... ) ,您的关注是我们用爱发电的强大动力,欢迎 star, fork, slack 三连 :)

图像、视频、3D 数据一把抓,不挑食的 AI 模型 Omnivore !_第2张图片

你可能感兴趣的:(人工智能向量数据库)