跨模态检索常用数据集

去年刚刚接触跨模态检索,因为是首届去做这个方向的,所以没有任何师兄师姐可以指导,也没有相应的资源。
曾经因为数据集的问题头疼过一段时间,现在整理一下,做个记录。
整理时间:2021-12-19


1.Pascal Sentence:

1000张图片,20个类别,每张图片五个描述的句子。

官网:http://vision.cs.uiuc.edu/pascal-sentences/

2.Wikipedia:

官网:http://www.svcl.ucsd.edu/projects/crossmodal/

2866个图片文本对

a.原始数据:图片为jpg,文本为XML文件,共计1.4G。(官网提供,自行下载)

b.手工提取特征:128维SIFT图片特征,10维LDA文本特征。(官网提供,自行下载)

3.MIRFLICKR:

官网地址404。比较完整的数据集以及制作策略详见:https://blog.csdn.net/HackerTom/article/details/98477506。

4.Nuswide:

共计269,648张图片和相应文本;一般分为Nus-wide-10k(挑选十个类别,1w张图像文本对)、Nus-wide-21k两种。

官网:https://lms.comp.nus.edu.sg/wp-content/uploads/2019/research/nuswide/NUS-WIDE.html

a.原始数据:官网提供部分,图片部分无法下载,我从以下博客找到相应的rgb图像包,结合官网文件使用。可按照(https://blog.csdn.net/weixin_44012382/article/details/120729911)来制作相应数据集。
因为原始提供者在谷歌云发布,国内不方便下载,这里提供备份。
​ 链接:https://pan.baidu.com/s/1Zktv9mOEaI2h29IKLoSh4w
​ 提取码:f76a

b.手工特征:SIFT图片特征,LDA文本特征。(官网提供)

5.XMediaNet

网站:http://59.108.48.34/tiki/XMediaNet/

说明:北大实验室的数据,应该是需要教职工申请,我没申请。

6.IAPR TC-12

暂时没有用到,待更新。

7.MS-COCO

暂时没有用到,待更新。

你可能感兴趣的:(#,跨模态检索,深度学习,人工智能)