本文旨在建立一个通用的多模态基础模型,该模型具有可扩展的电子商务中大规模下游应用的能力。近年来,大规模视觉语言预训练方法在通用领域取得了显著进展。然而,由于自然图像和产品图像之间的显着差异,将这些框架直接应用于电子商务的图像级表示建模将不可避免地次优。为此,我们在这项工作中提出了一种以实例为中心的多模态预训练范式,称为ECLIP。具体来说,我们设计了一个解码器架构,该架构引入了一组可学习的实例查询,以显式聚合实例级语义。此外,为了使模型能够专注于所需的产品实例,而不依赖于昂贵的手动注释,进一步提出了两个专门配置的代理任务(pretext tasks)。ECLIP 对 1 亿个电子商务相关数据进行了预训练,成功地提取了更通用、语义丰富和鲁棒的表示。大量的实验结果表明,在不进一步微调的情况下,ECLIP在广泛的下游任务上大大超过了现有方法,证明了在现实世界电子商务应用中的强大可转移性。
如今,电子商务的蓬勃发展给人们的日常生活带来了极大的便利。随后出现了广泛的基于产品的应用任务,如物品分类[19,30]、产品检索[7,37]、商品推荐[22,29]等。相较于开发单个特定任务的模型,构建一个通用的基础模型,同时适用于大规模的电子商务应用,可以增强适用性,降低训练成本。
尽管已经取得了可喜的结果,但在一般领域直接将这些 VLP 方法应用于商业仍然存在固有的缺陷。在真实的电子商务场景中,图像大多是面向产品的。只有极少数实例与产品描述相关。简单地将整个图像视为一个整体实体来执行与文本的跨模态对齐,将不可避免地混淆前景和嘈杂的背景。关键问题:我们如何使模型在存在背景干扰的情况下专注于产品实例?解决这个问题的一个直接方法是求助于对象级的人工注释,但是从互联网上扩展更大的数据是费力和不可行的。一个产品通常有多个来自不同来源的图像样本(例如,商家、客户评论、附加的广告视频等)。尽管这些样品的外观可能因相机视图或场景的变化而有所不同,但它们都包含相同的产品实体。这一事实强烈地促使我们通过利用这种明确的相关性来追求以实例为中心的多模态学习范式。
为了有效地优化生成的实例表示,本文新设计了两个代理任务:inter-product and intra-product multi-modal learning (产品间 和 产品内 多模态学习),第一个负责将相同产品的表示拉近彼此,并推开不匹
配的产品。第二个旨在确保只有正面查询才能聚合前台实例的语义,而不是负面查询。
如下图所示,自然图像和产品图像之间的域差异。对于自然图像,大多数像素在语义上与文本句子相关是常见的情况。然而,在电子商务中,这种相关性要稀疏得多(例如,“煎锅”或“咖啡机”只占整个图像的一小部分)。此外,产品的图像通常从多个来源分组提供, (a) 广告视频,(b) 产品页面,(c) 客户评论
1)ECLIP,一种在电子商务场景中有效且简单的多模态表示学习范式。超越了常规的全局表示,可以通过解码器架构成功获得以实例为中心的产品表示。(2) 通过充分利用电子商务数据的自然特征和代理任务,ECLIP 获得了细粒度的对齐能力,以奠定所需产品实例的基础(见图 4a),而无需依赖任何手动注释。(3)在大规模产品数据上进行预训练,得到的基础模型可以无缝泛化到下游电子商务应用。综合实验结果进一步证明了ECLIP的优越性:在没有任何微调的情况下,它在各种现实世界的电子商务任务上实现了对现有最先进方法的实质性改进。
概述提议的 ECLIP;旨在聚合所需产品的实例级表示的核心解码器架构;精心设计了几个预训练目标;如何将得到的基础模型转移到各种下游任务中。
x = ( x I , x T ) − > e m b e d d i n g s − > 一个模态独立的线性投射层将其投射到一个联合的多模态特征空间 − > 解码成一个 i n s t a n c e − c e n t r i c 表示。 x=(x^I,x^T)->embeddings->一个模态独立的线性投射层将其投射到一个联合的多模态特征空间->解码成一个instance-centric表示。 x=(xI,xT)−>embeddings−>一个模态独立的线性投射层将其投射到一个联合的多模态特征空间−>解码成一个instance−centric表示。
下图为 图2.(a) 所提出的实例级表示学习范式(ECLIP)的架构,该范式由图像编码器、文本编码器和实例解码器组成。在大规模电子商务数据集上进行预训练时,通过三个代理任务对整个框架进行了优化。(b) 核心解码器架构,旨在聚合所需产品的实例表示。
对于一般的对齐:在获得情境化嵌入后,现有的 VLP 方法利用 g I ( v c l s ) ∈ R D g_I(v_{cls}) ∈ R^D gI(vcls)∈RD 和 g T ( w c l s ) ∈ R D g_T (w_{cls}) ∈ R^D gT(wcls)∈RD 通过对比学习来对齐正图像文本对。这里 g I ( ⋅ ) g_I (·) gI(⋅)$ 和 g T ( ⋅ ) g_T(·) gT(⋅) 是上述投影。虽然在一般领域有效,但此设计仅考虑全局图像文本语义之间的对齐方式。但是,在电子商务图像中,只有包含所需产品实例的几个区域是与文本描述相对应的信息前景。对这种图像级对齐进行建模将无法学习强大而健壮的产品语义。因此,我们致力于学习以实例为中心的表示。
每个查询都与特定的文本或图像相关联,我们称之为多模态提示。
q t = q t p r o m p t + q t p o s + q t t y p e q_t = q_t^{prompt} + q_t^{pos}+q_t^{type} qt=qtprompt+qtpos+qttype
这些查询负责通过解码器体系结构从编码的视觉特征中聚合以实例为中心的表示如下
H = { h t } t = 1 T H=\{h_t\}^{T}_{t=1} H={ht}t=1T
在预训练期间,给定样本只有一个正提示(相对于同一产品),其余的 T − 1 是从其他产品中采样的负提示。
输入为: Z , Q , H 0 Z, Q, H^0 Z,Q,H0
其中, 将编码的 { v i } i = 1 N \{v_i\}_{i=1}^N {vi}i=1N映射为 Z = { z i ∈ R D } i = 0 N Z=\{z_i \in R^D\}_{i=0}^N Z={zi∈RD}i=0N, 对 H 0 H^0 H0进行零初始化。
使用插槽注意层,为了通过与编码的视觉嵌入的交互自适应地更新查询表示形式。
具体来说,对于第 l l l 个 slot-attention 时隙注意力层,它首先计算出一个相似矩阵 M ∈ R N × T M∈R^{N×T} M∈RN×T,该矩阵由点积注意力机制实现。
使用矩阵M 进行soft assignment 通过计算N个visual tokens 和 T个instance queries之间的语义相似度。这就能够根据每个视觉标记的相似性分数将每个视觉标记分发到特定的查询中。
之后根据M计算得到权重均值更新。
最后更新 instance representation H l H^l Hl :
ECLIP 通过多个预训练代理任务针对大规模未策划的产品数据进行了优化。
使用了什么预训练代理任务呢?
Image-Text Contrastive Learning 图像-文本对比学习
Inter-Product Multimodal Learning 类内多模态学习
其中, i i i 和 j j j 是一对positive pairs, N − \mathcal{N}^- N−是一个negative sample set。‘’
目标使相同产品的不同样品之间的相似性最大化,同时使不匹配样品的相似性最小化。
Intra-Product Multimodal Learning 类间多模态学习
预训练后,可以利用生成的基础模型以最少的操作提取产品 实例表示。
具体来说,给定一个产品样本 ( x i I , x i T ) (x_i^I, x_i^T) (xiI,xiT),我们首先通过单模编码器将图像文本对编码为嵌入序列。然后,将文本描述 g T ( w c l s ) g_T (w_{cls}) gT(wcls)的全局表示视为正查询,并输入到与 T − 1 负查询连接的解码器中。
为了方便起见,这里从标准高斯分布中采样负查询 q t t = 2 T {q_t}_{t=2}^T qtt=2T。我们还在第 4.3 节中探讨了不同的否定查询设置方式。然后,将属于正查询的生成表示 h 0 L h_0^L h0L 应用于各种电子商务下游任务。
我们从一家流行的电子商务网站收集了一个大规模的预训练数据集。它由15M种不同的产品和超过100M种不同的图像组成,涵盖了大约9K种不同的类别,如衣服、日用品、仪器等。对于每个产品项目,它都有相应的文本描述和来自产品详细信息页面、客户评论和附加广告视频的几张图片。在预训练过程中,通过从不同来源对属于同一产品的图像进行采样来构建正数据。
我们在 32 个 NVIDIA A100 GPU 上以 6400 (ViT-B) / 4096 (ViT-L) 的批处理大小预训练了 15 个 epoch。使用AdamW [17]优化器学习整个框架,学习速率预热到1e-4,然后线性衰减。更多细节详见补充。
本文,我们在电子商务中开发了一种有效的大规模多模态预训练范式,称为ECLIP。
除了常规的全局表示之外,它还旨在通过新颖的解码器和精心设计的预训练代理任务来学习实例级表示。
大量的实验结果进一步证明了所提框架具有较强的泛化能力。