图文多模态公开数据集归纳(图文情感分类、图文检索)|有中英文文本、含下载地址

我最近在研究图文多模态的公开数据集,本文总结了图文多模态常用的公开数据集。这里没有记录小数据集(不到2千张图级别的,有较高引用的有 IAPS 和 GAPED,微博)和 与业务相关性低的(艺术场景,如 ArtPhoto)。

任务 数据集 论文 中文or 英文
图文情感分类 Yelp VistaNet 英文
图文情感分类 Tumblr Fine-grained Video-Text Retrieval with Hierarchical Graph Reasoning 英文
图片情感分类 FlickrLDL, TwitterLDL Learning visual sentiment distributions via augmented conditional probability neural network 英文
图片情感分类 emotion6 Building a Large Scale Dataset for Image Emotion Recognition: The Fine Print and The Benchmark 英文
图片情感分类 Multi-ZOL Multi-Interactive Memory Network for Aspect Based Multimodal Sentiment Analysis 中文
电商图文检索 MUGE Wukong 中文
图文检索 Flickr8k-CN、Flickr3k-CN 中文
图文检索 COCO-CN 中文
图文检索 AICICC-CN 中文

1. Yelp数据集

  • 数据内容:来自Yelp.com评论网站,收集的是北美8个大城市关于餐厅和食品的评论。
  • 数据集规模:一共有44305条评论,244569张图片,平均每条评论有13个句子,230个单词。一文3图 (每张图片是与商户 id 关联的)
  • 数据集的情感标注:每条评论的情感倾向对应 1,2,3,4,5五个分值。不是直接来自文本的分析,而是写评论的用户打分,认为打分高的用户正向
  • 下载地址:收集不易,有用点个赞叭~
  • 如何使用,开源地址:vistanet

2. Tumblr 数据集

  • 数据内容:从 Tumblr app 收集来的多模态情绪 gif 数据集。Tumblr的用户在上面发布的多媒体内容通常包含:图片、文本和标签。数据集是根据选定的十五种情绪搜索对应的情绪标签的推文,并且只选择其中既有文本又有图片的部分,然后进行了数据处理,删除了那些文本中原本就包含对应情绪词的内容,以及那些主要不是英文为主的推文。
  • 数据集规模:79,451 训练, 10,651 验证,11,310 测试。每个 gif 有 1-3句文字描述。
  • 数据集的情感标注:包含高兴,悲伤,厌恶在内的十五种情绪描述。
  • 下载地址:收集不易,有用点个赞吧~^ ^
  • 使用,开源地址:Fine-grained Video-Text Retrieval with Hierarchical Graph Reasoning

3. FlickrLDL, TwitterLDL 数据集

  • 数据内容:论文为验证自己的模型构造的数据集,只有图片及对应的情绪标签。
  • 数据集规模:TwitterLDL 数据集 10,045 条数据,FlickrLDL 是 Flickr的子集有 11,150 条数据。
  • 数据集的情感标注:开心,生气,恶心等等8个标签,有11个人标注,得到标签分布如下图所示。
  • 下载地址,开源地址:Joint Image Emotion Classification and Distribution Learning via Deep Convolutional Neural Network
    图文多模态公开数据集归纳(图文情感分类、图文检索)|有中英文文本、含下载地址_第1张图片

4. Multi-ZOL 数据集

  • 数据内容:主要是zol 中关村在线网站的电商图片,是论文作者自己爬取的手机类目图片。中文文本,存在一文多图。
  • 数据规模:28K 图文数据
  • 数据的情感标注:0 到 10 整数情感打分
  • 下载地址、开源地址:MIMN

5. MUGE 数据集

  • 数据内容:多模态理解和生成评估 (MUGE) 是一组跨模态理解和生成任务以及排行榜,供研究人员训练和评估其多模态系统。到目前为止,MUGE 包括: 多模态理解和生成任务的基准,包括电子商务图像字幕、文本到图像生成和多模态图文检索任务,供研究人员跟踪其模型性能的公共排行榜。
  • 数据规模:MUGE是指三个任务对应的三个数据集,分别是ECommerce-IC (E-commerce Image Caption Dataset),ECommerce-T2I (E-commerce Text to Image Dataset) 和 Multimodal Retrieval Dataset
  • 下载地址:我看看是谁白嫖不点赞 口亨~生气气

你可能感兴趣的:(计算机视觉,语言模型)