KDD 2020(五) | 基于多源异构信息整合的视频标题生成模型(作者带你读论文)...

⬆⬆⬆              点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入!

论文:Comprehensive Information Integration Modeling Framework for Video Titling

作者:Shengyu Zhang, Ziqi Tan, Jin Yu, Zhou Zhao, Kun Kuang, Tan Jiang, Jingren Zhou, Hongxia Yang, Fei Wu

会议:In The 26th ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KK’20).

1. 引言

电子商务领域的视频推荐对于获取新客户有着重要作用。例如,许多消费者会在商品评论区上传视频已分享他们独特的购物体验,这些独特的商品呈现方式或独特的商品使用方法可能会吸引潜在买家购买相同或类似的产品。相比于卖家秀视频(如广告),买家秀视频具有数量大和个性化强的优势,因此,将买家秀视频推荐给潜在感兴趣的消费者可以增强电子商务场景下视频推荐的有效性。下图展示了买家秀视频推荐的两个实际应用场景。

KDD 2020(五) | 基于多源异构信息整合的视频标题生成模型(作者带你读论文)..._第1张图片

买家秀视频在视频推荐过程缺少高质的视频标题。通常,视频推荐会给视频配上一个精炼的标题,该标题可以让目标用户在观看视频前对视频主要亮点、特色有一个初步把握,从而产生观看兴趣。虽然在消费者在商品评论区上传视频的过程中也会写有描述性的评论,但我们分析发现,这些评论经常会强调物流、客服和亲友评价等与商品本身外观和使用方法不相关的购物体验,不适宜作为推荐场景下的视频标题。

在这种应用需求下,我们设计了买家秀视频标题自动生成模型,并从以下数据中抽取、关联和聚合有用的信息:1)买家秀视频本身。视频以动态图像的形式展现了买家偏好的商品视觉特征以及拍摄主题;2)买家撰写的评论。虽然评论有较多的噪声信息,不能直接作为视频标题呈现,但是其内容可能蕴含了买家对产品特点的偏好以及使用体验。3)关联商品的属性信息。来自商品评论区的买家秀视频会与一个特定的商品关联,我们提取了关联商品的属性信息,如中长款(连衣裙),作为输入。属性结构化的展现了商品的主要特点。下图展示了一个实际的数据样例。

KDD 2020(五) | 基于多源异构信息整合的视频标题生成模型(作者带你读论文)..._第2张图片

目前和该任务设定接近的研究工作是视频描述生成任务(Video Captioning)。在任务本身上,一般性的视频描述生成数据集中的描述通常会只涵盖主要物体检测(Object Detection)和一般性的活动识别(Activity Recognition),如 "A man is playing basketball",而买家秀视频标题生成任务的描述涉及 商品细节特点识别、商品整体外观识别、商品和背景交互作用的识别(如 "夏日海滩风情度假必备连衣裙")和视频故事线主题识别(如 "这样穿显瘦美丽")。因此在任务本身上,买家秀视频标题生成提出了更多和实际应用紧密相关的挑战;在现有模型层面,大部分视频描述模型将该任务看作序列到序列建模任务,典型的是采用带有或不带有注意力机制(Attention)的循环神经网络(RNN)同时建模视频帧序列和输出的词序列。然而,这样的建模方式具有局限性,其一,他们只在视频帧级别建模了视频信息,这不利于商品部位及商品整体级别的特点识别,基于序列建模的RNN模型本身也较难建模具有特殊依赖关系的商品不同部位;其二,序列建模的RNN模型无法系统和有效的关联和聚合三种异构信息,即视频、视频评论和关联商品的属性信息。

为了解决这些问题,我们提出了一个新的建模框架,名为基于图结构建模的视频标题生成器(Graph based Video Title Generator, Gavotte)。具体而言,Gavotte由两个子过程组成,即细粒度交互建模和故事线摘要建模。细粒度交互建模将三种输入表示成图结构,并利用全局-局部聚合模块探索三种输入中的细粒度信息在图内和图间的交互作用,以识别用户偏好的商品细节特点和商品整体外观。故事线摘要建模利用了帧级别信息,更关注序列依赖,采用RNN结构,用以识别商品和背景交互作用和视频故事线主题。

我们在淘宝服饰类视频和非服饰类视频数据上对Gavotte进行了实验验证,并在手机淘宝上进行了上线测试,这些结果证明了Gavotte框架的有效性。

接下来本文将介绍Gavotte的重要组成结构以及主要的实验和分析。

2. Gavotte: Graph based Video Title Generator

2.1

图表示

首先我们介绍一下Gavotte如何将三种输入表示成图结构。

KDD 2020(五) | 基于多源异构信息整合的视频标题生成模型(作者带你读论文)..._第3张图片

  • 商品视频信息:我们首先使用了Landmark Detection技术(Liu et al. 2018)检测衣服类商品的商品部位特征,每一帧的每一个部位都视为图节点。我们将同帧的商品部位节点进行全连接,不同帧相同部位节点进行全连接,这种连接方式一方面有利于我们捕捉同帧商品部位间的交互和商品整体风格,另一方面能够捕捉每一个商品部位跨越时间线的动态变化以及不同视点(pointview)下对商品部位的全面感知。为了增强空间-时序视觉商品部位图的时序性和部位特点,我们给每一个节点都加上了位置嵌入(Position Embedding)(Jonas et al. 2017)和类型嵌入(Type Embedding),即最终的节点表征为:

  • 视频评论信息:我们将评论中的每一个词作为图节点,并将有语法依赖关系的节点进行连接,我们发现相比于时序关系,捕捉评论中和商品有关的语义信息对生成标题更有价值。

  • 关联商品的属性信息:

    我们将每一个属性值(如 白色)作为图节点,并对所有节点进行全连接,属性间本身没有时序关系,使用图建模可以更好的探索属性间的特殊交互作用。

2.2

细粒度交互建模

如上图所示,细粒度交互建模对三个异构图的图内关系(Intra-Actions in Graph)和图间关系(Inter-Actions across Graphs)进行了建模。

  • 图内关系建模注重和商品有关的细粒度特征的识别。我们采用了常用而有效的图神经网络作为图内关系建模的可训练框架结构,和最原始的图神经网络相比,本文对信息传播时的根节点和邻居节点进行了单独建模,并采用了自门控机制(Self Gating)。

  • 图间关系建模注重异构图之间商品有关细粒度特征的关联和聚合。根据其实际的物理意义,我们将图间关系建模模块称为全局-局部聚合模块(Global-Local Aggregation,GLA)。GLA包含全局门控访问(Global Gated Access)和局部注意(Local Attention)两个子模块。GLA的输入为查询图(Query Graph)和上下文图(Context Graph),输出的聚合图(Aggregated Graph)的结构与查询图一致。

KDD 2020(五) | 基于多源异构信息整合的视频标题生成模型(作者带你读论文)..._第4张图片

全局门控访问用来加强上下文图中与查询图全局相关的信息(可以视为初步筛选过程),并抑制毫不相关的信息。

KDD 2020(五) | 基于多源异构信息整合的视频标题生成模型(作者带你读论文)..._第5张图片

局部注意力机制在局部层面(节点级别)筛选上下文图中和查询图节点相关的内容并聚合到该查询图节点上。

KDD 2020(五) | 基于多源异构信息整合的视频标题生成模型(作者带你读论文)..._第6张图片

2.3

故事线摘要模块

故事线摘要建模关注帧级别和视频级别的信息,因此采用帧特征和RNN来进行序列建模。首先我们利用全局-局部模块将细粒度信息和帧信息进行信息融合。这是因为我们发现视频帧建模(如商品-背景交互)和视频建模(如视频故事主题)和商品的细节特点息息相关。

之后我们采用RNN对视频帧进行序列建模。

KDD 2020(五) | 基于多源异构信息整合的视频标题生成模型(作者带你读论文)..._第7张图片

2.4

解码器

在解码器部分我们采用常用的注意力增强的RNN结构(Li et al. 2015),我们在每一步解码阶段都会关注细粒度图信息和帧信息。

2.5

学习目标

我们采用了常用的交叉熵损失进行训练。

KDD 2020(五) | 基于多源异构信息整合的视频标题生成模型(作者带你读论文)..._第8张图片

我们发现对于视频标题的生成,重复词的出现总是有损视频标题的整体吸引程度,因此我们参考了文本摘要(See et al. 2017)中常用的注意力覆盖损失,并提出了生成覆盖损失,用以惩罚和抑制重复词的生成。

KDD 2020(五) | 基于多源异构信息整合的视频标题生成模型(作者带你读论文)..._第9张图片

KDD 2020(五) | 基于多源异构信息整合的视频标题生成模型(作者带你读论文)..._第10张图片

3. 实验和分析

我们摘选了主要的实验结果,如果对我们的工作感兴趣,欢迎关注我们后续会公开的论文。

KDD 2020(五) | 基于多源异构信息整合的视频标题生成模型(作者带你读论文)..._第11张图片

可以看到,我们的模型在两个淘宝商品数据集(T-VTD服饰类商品数据,和其他商品类别数据)上去得了最佳的效果。我们的模型在T-VTD上提升显著,在其他商品类别数据上提升会相对弱一些,但这是合理的结果,因为服饰类商品有良好的商品部位定义,我们在其他类别上采用了近似的方法(细节可关注论文)。

该图展示了Gavotte和其他两个典型模型(基于RNN的SOTA模型 M-Recnet (Wang et al. 2018),和基于Transformer的SOTA模型 M-Livebot (Ma et al. 2019))的生成案例对比。具体而言,第一个案例中M-Recnet生成标题有意义信息较少,第二个案例中M-LiveBot生成标题出现未完成和损坏的情况,Gavotte则生成了网络热词(如 出街、抢镜),生成句子更为流畅,更有吸引力。同时,Gavotte可以识别商品细节级别信息(如 破洞),商品级别信息(如 牛仔裤),商品与背景交互信息(如 出街抢镜)和视频级别故事情节信息(如 这样穿)。

4. 结果和展望

在这次分享中,我们介绍了买家秀视频标题生成模型,Gavotte,以为推荐场景下的买家秀视频自动配上有吸引力的标题。实验证明Gavotte在生成质量上相比一般性的视频描述生成方法取得了显著的提升,并在案例分析中能够捕捉 商品细节、商品整体、商品-背景交互和视频故事情节信息。

5. 致谢

感谢论文合作者提供的实验、论文上的支持,感谢众多老师们(浙大吴飞老师、赵洲老师和况琨老师,阿里余晋师姐、红霞老师和靖人老师)的关键指导!

Reference:

Liu, Jingyuan, and Hong Lu. "Deep fashion analysis with feature map upsampling and landmark-driven attention." In Proceedings of the European Conference on Computer Vision (ECCV), pp. 0-0. 2018.

Gehring, Jonas, Michael Auli, David Grangier, Denis Yarats, and Yann N. Dauphin. "Convolutional sequence to sequence learning." In Proceedings of the 34th International Conference on Machine Learning-Volume 70, pp. 1243-1252. JMLR. org, 2017.

Yao, Li, Atousa Torabi, Kyunghyun Cho, Nicolas Ballas, Christopher Pal, Hugo Larochelle, and Aaron Courville. "Describing videos by exploiting temporal structure." In Proceedings of the IEEE international conference on computer vision, pp. 4507-4515. 2015.

Abigail See, Peter J. Liu, Christopher D. Manning. "Get To The Point: Summarization with Pointer-Generator Networks". ACL (1), pp. 1073-1083. 2017.

Wang, Bairui, Lin Ma, Wei Zhang, and Wei Liu. "Reconstruction network for video captioning." In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 7622-7631. 2018.

Ma, Shuming, Lei Cui, Damai Dai, Furu Wei, and Xu Sun. "Livebot: Generating live video comments based on visual and textual contexts." In Proceedings of the AAAI Conference on Artificial Intelligence, vol. 33, pp. 6810-6817. 2019.

好课推荐:

AI Time欢迎AI领域学者投稿,期待大家剖析学科历史发展和前沿技术。针对热门话题,我们将邀请专家一起论道。同时,我们也长期招募优质的撰稿人,顶级的平台需要顶级的你,请将简历等信息发至[email protected]

微信联系:AITIME_HY

 

AI Time是清华大学计算机系一群关注人工智能发展,并有思想情怀的青年学者们创办的圈子,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法、场景、应用的本质问题进行探索,加强思想碰撞,打造一个知识分享的聚集地。

更多资讯请扫码关注

(点击“阅读原文”查看本次直播回放)

你可能感兴趣的:(python,机器学习,人工智能,编程语言,大数据)