“力精图智”|面向点击率预估的图像语义表征学习

1.摘要

用户在手机淘宝可以借助图像进行商品检索。图像具备更丰富的信息量和表达能力,因此对于部分语言难以描述的搜索意图,用户可以借助图像实现更准确地搜索。然而,由于视觉内容的复杂性和多样性,准确地进行图像理解和商品检索是一项极具挑战的课题。“力精图智”项目是搜索广告算法团队致力于将图像语义信息更加有效地运用到精排预估模型中。本文将为大家介绍我们如何在图像理解上打破样本选择偏差,并提高精排点击率预估效果。

预估模型使用的预训练图像表征模型往往是使用类别标签作为监督信号的图像分类模型,或是基于用户行为数据训练得到的对比学习模型,这两类表征分别存在表征粒度粗和样本选择偏差(Sample Selection Bias)的问题,制约了下游点击率预估任务在完整商品空间上的排序能力。针对上述问题,我们提出一种面向预估任务的图像表征学习框架,该框架共分为预训练-微调-除偏三个阶段。具体的,我们在第一阶段和第二阶段对图像编码器进行预训练和微调,目的是通过第一阶段的自监督对比学习预训练缓解表征偏差。此外,我们在预估模型中嵌入表征除偏网络,通过除偏网络过滤微调阶段可能引入的样本选择偏差。大量实验和分析表明,本文提出的图像表征学习框架可以提高预估结果的准确性和公平性。

2.背景

图像商品检索系统旨在根据用户搜索的图像找到同款商品。由于用户输入的搜索图像直接反映其搜索意图,因此图像理解在系统中发挥着重要的作用。对于点击率预估任务,一方面,准确的图像语义表示能为预估模型提供清晰的用户搜索意图和商品信息,从而做出精准的预测;另一方面,语义信息的引入可以缓解ID类特征带来的冷启动问题,为模型带来更好的泛化性能。

当前图搜点击率预估系统中使用的图像语义表征模型主要分为两类,一类是将类别标签作为监督信号训练得到的,其缺点在于表征粒度较粗,无法感知类内的细粒度风格差异;另一类主流方法基于用户反馈行为构造训练数据并得到细粒度表征。然而,仅使用图搜场景的用户行为数据训练和评价模型会造成样本选择偏差和数据循环,导致模型对长尾商品的图像理解能力较差,给模型的公平性和泛化性带来挑战。如图1(b)的第二个结果所示,仅使用用户行为数据训练的表征模型会偏向于热门但实际上相关性差的商品。

“力精图智”|面向点击率预估的图像语义表征学习_第1张图片 图1

综上,为了打破图像理解上的样本选择偏差并提高下游点击率预估任务的效果,本文提出一种基于对比学习的图像表征学习框架,该框架能够学习细粒度图像表征并且缓解训练数据带来的样本选择偏差。我们提出了一种预训练-微调-除偏的三阶段训练框架,通过第一阶段的自监督对比学习预训练、第二阶段的有监督微调和第三阶段的除偏网络优化细粒度图像表征的无偏性。本文的主要研究成果如下:

(1)首次以图像语义表示学习为切入点探讨和研究了搜索/推荐/广告系统中普遍存在的样本选择偏差问题和“准确性-多样性”困境;

(2)面向点击率预估任务提出了一种基于对比学习的图像表征学习框架,帮助下游实现准确且无偏的点击率预估;

(3)在大规模真实数据集上的离/在线实验表明,本文提出框架可以提高点击率预估结果的准确性和公平性,尤其是在长尾商品上的预估能力。

3.方法

如图2所示,该框架包括图像编码器和点击率预估模型两个组件,分为预训练-微调-除偏三个训练阶段。其中,图像编码器用于将用户的搜索图像或商品的图片信息转换成统一大小的语义表示向量,点击率预估模型以包括图像语义表示在内的用户、搜索图像、商品和上下文等信息为输入,做出点击率预测。我们首先在第一阶段和第二阶段训练图像编码器组件。具体地,图像编码器通过自监督对比学习进行进行预训练(S1阶段)以获得无偏表征;然后基于用户行为数据通过有监督对比学习进行微调(S2阶段),获得表达能力更强的细粒度视觉特征。最后在第三阶段,我们设计了表征除偏网络并将其嵌入到预估模型中(S3阶段),通过除偏网络对齐视觉上相似但在流量分布上差距较大的图像表征,进一步缓解样本选择偏差的负面影响。

“力精图智”|面向点击率预估的图像语义表征学习_第2张图片 图2

3.1 图像编码器

为了解决细粒度图像表征存在的样本选择偏差问题,我们首先使用自监督预训练-有监督微调的方法进行优化。图像自监督技术的特点在于不依赖用户行为,而是使用图像本身的自增强作为训练样本。因此,将其作为预训练能够帮助模型走出数据闭环的效果瓶颈,打开模型的优化上限。

S1:预训练阶段

我们在第一阶段(S1)首先使用自监督对比学习的方法对图像编码器进行预训练。具体来说,对于训练样本中的图像,我们将当前batch中的其他图像作为负样本,并通过图像增强的方法构造图像的正样本。常见图像增强方法包括裁剪、翻转、颜色变换等。第一阶段(S1)的损失函数为:

其中,是图像在S1阶段的表征向量,表示表征维度,函数代表余弦相似度函数。

S2:微调阶段

在第二阶段(S2),我们基于用户行为数据对S1阶段得到的图像编码器进行微调,以获得细粒度的图像表征。在训练中,对于任一query图像,我们利用用户的正反馈点击行为构造正样本。在负样本的选择上,由于没有被用户点击的商品图像中存在大量“假负样本”,因此我们通过随机采样构建负样本。另外,为了提高负样本的质量,我们基于正样本的类别信息构建负样本池,以增加对比学习的训练难度。具体的,对于任一query图像,我们采样当前下被用户点击的商品图片作为的正样本,该正样本商品的类别标签为。负样本从类别标签为的负样本商品池中随机采样得到。

第二阶段(S2)的损失函数为:

其中,是图像在S2阶段的表征向量。

3.2 点击率预估模型

点击率预估模型旨在预测每个商品在用户输入查询和上下文的条件下被点击的概率。点击率预估模型的效果上限也被样本选择偏差限制。一方面,受预估任务训练样本的样本选择偏差影响,模型对长尾商品的打分偏差更大;另一方面,预估模型中使用的图像表征也存在样本选择偏差问题,进一步限制了模型的优化空间。为了缓解上述问题,我们在点击率预估模型中引入表征除偏网络,并在训练过程中利用除偏网络将视觉上相似但在流量分布上差距较大的图像在特征空间进行对齐。除偏网络使模型得以利用未曝光的样本,打破现有的数据闭环。另外,分布对齐使得图像表征能在充分保留S2阶段语义表示能力的基础上,缓解头/尾部图像之间的分布偏差带来的负面影响。

S3:除偏阶段

为了对S2阶段的图像表征进行除偏,我们借助无偏的S1表征来描述图像的无偏相似性并构造用于除偏的三元组样本。具体的,对于商品,首先检索个同类目下最相似的长尾商品并构成长尾样本池,接着使用S1阶段提取的图像表征计算相似度,最后基于相似度从中进行采样作为无偏长尾正样本。 被采样为正样本的概率为。负样本从当前batch 中随机采样得到。除偏网络的损失函数如下所示:

其中 是图像表征经过除偏网络变换后的特征,,最小化可以拉近视觉上相似的头/尾部商品图像表征间的距离,从而减少S2阶段引入的偏差。接下来我们使用门控网络将 和 变换后 进行融合,以得到无偏细粒度表征:

其中, 表示 sigmiod 函数, 表示一个可学习的权重矩阵, 表示向量拼接。综上,预估任务的完整损失函数为:

其中, 是用于优化预估准度的交叉熵损失,{0, 1}表示真实点击标签, 表示模型预估的点击概率。

4.实验分析

4.1 检索任务

为了验证S1阶段自监督对比学习的作用,我们评估预训练-微调框架提取的图像表征(S1+S2)在检索任务上的表现。实验数据集为人工标注数据集,该数据集的每条样本中包含两张图像和它们是否相关的二元标签。表1为本文提出的模型框架与基线模型在各项评价指标上的对比。

对比的基线模型包括ResNet-C、S1、S2和S1+S2。所有对比方法模型的骨架均为ResNet50,我们抽取模型的中间层像向量作为图像表征。各基线模型区别在于,ResNet-C是使用图像及其对应的类别标签训练的;S1和S2分别为第一阶段和第二阶段的对比学习表征;S1+S2为在S1预训练后进行S2微调后得到的图像表征。我们使用的评价指标包括HR(HitRatio)、LR和CR。其中HR表示召回相关图像的准确度,越高的HR代表越高的准确度。LR表示召回结果的多样性,为长尾商品图像在检索结果中的占比,越高的LR代表对长尾商品越公平。CR用于评估表征的粒度,为检索结果中同类目商品的占比。

“力精图智”|面向点击率预估的图像语义表征学习_第3张图片 表1

如表1所示的实验结果表明,本文提出的框架在所有指标上都优于仅使用自监督和点击信号的方法(即S1和S2),说明预训练-微调的框架既使用了自监督缓解了样本选择偏差,同时在微调阶段使用点击数据细化了表征的粒度。另外,尽管ResNet-C方法得CR最高但HR最低,说明使用类别标签作为监督能够捕获粗粒度类别的特征,但不能捕获如样式和设计等类内的细粒度信息。

4.2 点击率预估任务

为了评估预训练-微调-除偏框架能否提升下游点击率预估任务的效果,我们在固定点击率预估模型的模型结构和其他输入特征的条件下,对比不同的图像表征输入对预估模型效果的影响。我们使用来自手淘图像商品检索系统的真实数据集进行评估。该数据集包含从2021年7月份的数据中采样的10亿条样本,包含4亿张不同的商品图像。如表2所示,我们对比的基线模型包括ResNet-C、VGG和VIT,评价指标为AUC。

“力精图智”|面向点击率预估的图像语义表征学习_第4张图片 表2

表2的实验结果表明,本文提出的框架S1+S2+D在AUC指标上效果最优。除此之外,详细的消融实验结果表明,预训练-微调-除偏框架中的每个部分都有正向效果。传统的S1自监督对比学习和S2基于用户行为数据的对比学习都表现不佳。预训练-微调范式(S1+S2)使得预估准度得到明显改善,在此基础上引入除偏网络(S1+S2+D)能够进一步提高对长尾商品预测的准确性。如图3案例分析所示,S1+S2仍可能受样本选择偏差的影响检索到热门但相关性差的商品(图3(b)的第二个结果),而S1+S2+D通过除偏网络对长尾样本的表征进行了充分纠偏,可以打破数据分布的自循环并检索到相关性高的长尾商品。

“力精图智”|面向点击率预估的图像语义表征学习_第5张图片 图3

我们在手淘图像商品检索系统中进行了在线A/B实验。从如图4所示的实验结果可以观察到,本文提出的框架S1+S2+D相比基线S2在点击率(CTR)和千次曝光收益(RPM)上分别有4% ~ 5%和1% ~ 2%的稳定提升。

“力精图智”|面向点击率预估的图像语义表征学习_第6张图片 图4

5.结论

图像理解在基于图像的搜索系统中发挥着重要的作用,但样本选择偏差问题限制了细粒度表征的泛化性以及下游点击率预估任务的效果。我们提出一种基于对比学习的图像表征学习和除偏框架。通过自监督对比学习预训练的引入和除偏网络的设计,该框架有效地在图像理解上打破了样本选择偏差,进一步优化了图像语义模型的表达能力,并提高了点击率预估效果。我们在人工标注数据集和真实数据集上进行了大量的离/在线实验,实验结果表明本文提出的预训练-微调-除偏的三阶段图像表征学习框架在检索和预测结果的准确性和公平性上获得明显提升。

后续工作将继续在用户视觉兴趣建模方向上展开深入探索。除了本文研究的图像表征除偏,如何进行语义特征和传统特征的融合,以及如何进行语义表征模型和预估模型的联合建模也是我们未来探索的大方向。

该项工作由阿里妈妈搜索广告算法团队和厦门大学数据挖掘实验室合作完成,基于该项工作整理的论文已发表在CIKM 2022接收,欢迎阅读交流。

论 文:Visual Encoding and Debiasing for CTR Prediction

链 接:https://dl.acm.org/doi/pdf/10.1145/3511808.3557721

参考文献

[1] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, and Neil Houlsby. 2021. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. In ICLR.

[2] Karen Simonyan and Andrew Zisserman. 2015. Very Deep Convolutional Networks for Large-Scale Image Recognition. In ICLR.

[3] Xuanhui Wang, Michael Bendersky, Donald Metzler, and Marc Najork. 2016. Learning to Rank with Selection Bias in Personal Search. In SIGIR (SIGIR ’16). ACM, 115–124.

[4] Xiao Yang, Tao Deng, Weihan Tan, Xutian Tao, Junwei Zhang, Shouke Qin, and Zongyao Ding. 2019. Learning Compositional, Visual and Relational Representations for CTR Prediction in Sponsored Search. In CIKM. ACM, 2851–2859.

[5] Zhichen Zhao, Lei Li, Bowen Zhang, Meng Wang, Yuning Jiang, Li Xu, Fengkun Wang, and Weiying Ma. 2019. What You Look Matters? Offline Evaluation of Advertising Creatives for Cold-Start Problem. In CIKM. ACM, 2605–2613.

END

“力精图智”|面向点击率预估的图像语义表征学习_第7张图片

也许你还想看

MUVCOG:多模态搜索会话下的用户意图刻画

营销文案的“瑞士军刀”:阿里妈妈智能文案多模态、多场景探索

基于对抗梯度的探索模型及其在点击预估中的应用

阿里妈妈搜索广告预估模型2021思考与实践

阿里妈妈展示广告预估校准技术演进之路

“力精图智”|面向点击率预估的图像语义表征学习_第8张图片

喜欢要“分享”,好看要“点赞”哦ღ~

↓欢迎留言参与讨论↓

你可能感兴趣的:(“力精图智”|面向点击率预估的图像语义表征学习)