VLP大规模数据集收集策略

1.Wukong的一亿图文对数据集收集策略:

Wukong:100 Million Large-scale Chinese Cross-modal Pre-training Dataset and A Foundation
在视觉语言预训练领域(VLP)华为开源了1亿对图像-文本本数据集,是目前中文领域的最大图文对数据集。
超过一亿体量的英文图像-文本对 CLIP (Radford et al.,2021): 400M and ALIGN (Jia et al., 2021)都没有开源。


image.png

目前VLP领域主要是英文数据集,但是英文数据对于中文任务帮助有限。文章的意思应该是使用英文数据集训练模型,在下游中文任务上通过翻译实现文字-图像匹配性能不佳。
但是将现有的英文数据集文字转换成中文应该是可行的。

image.png

1.数据集的收集方法
使用下文的20万条搜索词在百度图像引擎上进行搜索,获得对应图像的url和描述信息。
Directional skip-gram: Explicitly distinguishing left and right context for
word embeddings. In Proceedings of the 2018 Conference of the North American Chapter of the Association
for Computational Linguistics
搜索词根据中文词句的频率进行过滤。
得到中文图像对后,从图像和文本两个方面进行过滤。
(Sharma et al., 2018; Changpinyo et al., 2021; Jia et al., 2021),
基于图像的过滤,根据图像尺寸和分辨率,长宽均要大于200分辨率。长宽比(宽长比)要小于3.
基于文本的过滤,考虑语言,长度和频率。
句子的长度大于1小于32.去除掉无意义和与内容不相关的描述,000.jpg,摄影部落 查看源网页
与内容无关的描述的筛除方法是根据同一描述出现次数大于10次就认为其与内容无关,需要删除图文对。
为了保护隐私,具体的名字用〈人名〉代替
指定中文敏感词删除相应内容。
独特的tokens数量为20442,平均描述的token数量为22


image.png

2. CLIP4亿图文对收集策略

Learning Transferable Visual Models From Natural Language Supervision
作者起初认为YFCC100M这个一亿张图片的数据集是此领域可供使用的数据集,后来发现其图片的描述多为却是的,质量不一。很多描述都没有实际意义,所以决定自己进行收集数据集
整体的收集策略是cover as broad a set of visual concepts as possible。
使用了50万个搜索词。搜索词的来源是英文维基百科出现100次以上的词语。WordNet synsets 中没有被上述搜索词包含的词语也加上了。
为了保证类间的平衡,每个关键词最多收集2万张图片。

3. ALIGN 18亿图文对收集策略

作者认为CLIP等数据集使用的数据收集和清理策略比较复杂,限制了数据集的体量,也就影响了模型的体量。所以本文收集了一个十亿级别的图文对数据,没有使用复杂的过滤或者后处理步骤。作者收集了一个规模很大同时文本噪声也较多的数据集。作者认为数据集的规模有助于抑制噪声的影响。
ALIGN服从根据raw alt-text data获得的图文对的自然分布,而CLIP从英文维基百科构建一个高频视觉概念的列表来构建数据集。作者认为强大的视觉-语言表征不需要专家知识。
作者使用下文的方法生成raw English alt-text data (image and alt-text pairs)。原始论文包含很多过滤和后处理手段。为了获得更大规模的数据集,作者以质量换取规模,放松了过滤规则。只用了少量基于频率的过滤规则。
Sharma, P., Ding, N., Goodman, S., and Soricut, R. Conceptual captions: A cleaned, hypernymed, image alt-text
dataset for automatic image captioning. In Proceedings
of Annual Meeting of the Association for Computational
Linguistics, 2018.
真实数据集中有些描述明显与图片无关。


image.png

基于图片的过滤规则:移除色情图片;短边大于200像素;长宽比小于3;Images with more than 1000 associated alt-texts are discarded. ?为了防止引入测试图片,删除了下游任务数据集的测试集。
基于文本的过滤:去除了超过十张图片公用的文本;去除了包含少见token的文本,outside of 100 million most frequent unigrams
and bigrams from the raw dataset。太短太长的文本也删除了,too short (<3 unigrams) or too long (>20 unigrams)。
unigrams and bigrams是NLP中的分词概念。
比如:Hi How are you?
Unigram [('Hi'), ('How'), ('are'), ('you'),('?')]
Bigram [('Hi', 'How'), ('How', 'are'), ('are', 'you'), ('you', '?')]
<3 >20的意思应该是一句话的词的数量+标点的数量。

你可能感兴趣的:(VLP大规模数据集收集策略)