顶会最强的前20%!电影情感效应预测论文拿下ACMMM Oral收录!

本文内容出自阿里文娱AI大脑北斗星团队,研究成果已发表在ACMMM 2022

论文名:Enlarging the Long-time Dependencies via RL-based Memory Network in Movie Affective Analysis

作者:张杰、赵寅、钱凯

背景

三流的导演拍故事,一流的导演拍情绪。纵观古往今外,经典的高分电影之所以经久不衰,无一不是因为引发了观众心理上的共情。尤其是在快节奏、高压力的现代生活中,观众观看影视剧的主要目的就是为了寻求情感上的满足与释放。因此,综合视听语言等因素,搭建一条合适的“情感线”是电影成功的关键。那么,如果我们可以在电影上线之前,提前预测电影对于观众的情感效应,刻画出这条“情感线”,对于电影的评估定级、剪辑优化等方面无疑有着巨大的帮助。为此,我们展开了电影情感效应预测方面的研究工作。

简介

电影情感效应分析旨在预测观众在观看电影时所产生的情感,其在电影内容理解、高潮检测、质量评估、情感多媒体检索等方面有着重要的应用。在情感计算领域,情感的标签可以分为两种:1是离散的情感标签,如开心、伤心等等;2是连续的情感模型,如使用最多的二维VA情感模型(如图1所示),其中Valence代表的是情感的正负,Arousal代表的是情感的强度,两者的取值均在-1到1之间。相比于离散的标签,连续的情感模型可以更细致全面地描述情感的各个维度,在学术界和工业界有着更加广泛的应用。因此,我们采用了VA情感模型,主要目标就是根据影视剧的内容,预测观众的VA情感。

顶会最强的前20%!电影情感效应预测论文拿下ACMMM Oral收录!_第1张图片

图1 VA情感模型

要正确地预测观众的情感,上下文信息十分关键,同样的一段场景在不同的情景下可能会产生不同的情感效应,比如同样一段打斗的画面,在犯罪剧中是令人紧张的,在喜剧中则可能是幽默风趣的。因此,有效地建模上下文信息对于电影的情感效应预测至关重要。

为了建模上下文信息,最常用的经典模型可以分为两种:循环神经网络(如LSTM[1]等)和Transformer[2]。然而,在面对电影这种动辄几千秒的长序列时,这些时序模型存在着一定的缺陷:

a. 循环神经网络的记忆能力有限,难以建模长时依赖

b. 循环神经网络采用的BPTT的更新方式存在梯度消失和爆炸的问题,此外其需要存储大量的中间变量,不适用于特别长的序列

c. Transformer的计算量随着时序的增加呈平方级增加,同样不适用于特别长的序列

受限于常用时序模型的这些缺陷,目前大部分的方案都是将电影切分成小片段,然后独立地去预测每个片段的情感。然而这种方式忽略了片段之间的联系,无法建模长时序的上下文信息,对于正确理解电影内容、判断电影情感的整体走势有着一定的阻碍。

为了解决这些问题,我们提出了基于强化学习的记忆网络,其核心在于利用记忆模块存储历史信息,并利用强化学习得到记忆模块的更新策略。如图2所示,我们方法存在以下优势:

a. 通过记忆模块提升了模型的记忆能力

b. 利用强化学习的时序差分法,减小了计算量和存储量,避免了梯度消失和爆炸的问题

c. 利用强化学习中的价值网络和策略网络,有效捕捉长时序依赖

顶会最强的前20%!电影情感效应预测论文拿下ACMMM Oral收录!_第2张图片

图2 基于强化学习的记忆网络优势示意图

为了验证我们方法的有效性,我们在多种任务的多个数据集上进行了实验,结果均达到了SOTA。

下面我们将对所提方案展开详细的介绍。

方案

模型的整体框架如图3所示:给定一个电影,我们将其划分成连续的片段 C = c 1 , c t , ⋯ , c T C={c_1,c_t,⋯,c_T} C=c1,ct,,cT,对于一个电影片段 c t c_t ct,我们提取多模态特征,并将这些特征编码成向量表征 e t e_t et。然后向量表征 e t e_t et和历史记忆信息 m t − 1 m_{t-1} mt1组成状态输入到策略网络μ中去,产生一系列的动作 a t a_t at,这些动作会用来选择性的更新记忆模块中的内容。然后基于更新后的记忆模块mt和向量表征 e t e_t et,作出最终的预测 y t y_t yt。预测结果的误差会作为奖励 r t r_t rt,指导价值网络Q学习未来的期望奖励,价值网络则会用来指导策略网络学习长时序依赖。

顶会最强的前20%!电影情感效应预测论文拿下ACMMM Oral收录!_第3张图片
图3 模型整体框架

下面我们将对模型中的特征提取模块、基于强化学习的记忆网络部分、以及模型训练相关的内容进行详细的介绍

特征提取

为了得到富含情感信息的表征,我们提取了5种模态的特征:利用VGGish[3]提取音频特征;利用背景音乐情感模型提取bgm情感特征;利用在Places365[4]上预训练的VGG16[5]提取场景特征;利用OpenPose[6]的主干部分提取人物姿态特征;利用在RAF[7]上预训练的Xception[8]提取人物表情特征。我们将这些模态的特征在时间维度上对齐并做concat操作,然后利用LSTM来融合时序信息,并取最后一个时间步的隐藏状态作为电影片段的向量表征。

K代表的是每个电影片段的帧数,M代表的是模态的总数, f 1 : k : m t f_{1:k:m}^t f1:k:mt ∈ $R^{K×d_m} 代表的是提取的第 m 个模态的特征, [ ⋯ ] 代表的是 c o n c a t 操作, 代表的是提取的第m个模态的特征,[⋯]代表的是concat操作, 代表的是提取的第m个模态的特征,[]代表的是concat操作,LSTM_{−1}$代表的是取LSTM最后一个时间步的隐藏状态。

基于强化学习的记忆网络

基于特征提取部分得到的电影片段的向量表征,我们利用记忆模块和基于强化学习的更新策略来捕获长期依赖。

记忆模块

记忆模块是一个可读可写的矩阵 m t m_t mt R N × d R^{N×d} RN×d,用来存储历史信息以增强模型的记忆能力,其中N代表的是记忆的个数,d代表的是记忆的维度。在电影的起始时刻,记忆模块的内容会被初始化为可学习的变量,随着电影的进行,记忆模块中的内容会在更新策略的控制下逐步更新。

为了利用更新后的记忆模块得到最终的预测结果,在时刻t,我们计算得到片段表征 e t e_t et和更新后记忆模块 m t m_t mt的每个记忆之间的相似度,并利用这个相似度对记忆模块的内容进行加权求和,然后在经过一个全连接层得到最终的预测结果。

其中, w t w_t wt(n)代表的是第n个记忆的权重, w t w_t wt=softmax(FC([ e t e_t et, m t m_t mt])), θ p θ_p θp代表的是预测相关的参数。

基于强化学习的更新策略

不同于传统记忆网络中的写操作,我们设计了一个基于强化学习的更新策略来更新记忆模块的内容,以便在更新过程中可以更有效地考虑长时依赖性。由于我们设计的动作空间是连续的,我们采用了深度确定性策略梯度算法(DDPG[9]),其包含的基本元素如下:

状态

状态中需要包含决策所需要的全部信息,这里我们将电影片段的向量表征和记忆模块的历史信息定义为状态st={ e t e_t et, m t − 1 m_{t−1} mt1}

动作和策略网络

参考NTM[10]中的写操作,我们将动作设计成了4部分 a t a_t at={ a t a t t a_t^{att} atatt, a t f a_t^f atf, u t c u_t^c utc, a t i a_t^i ati}: a t a t t a_t^{att} atatt R N × 1 R^{N×1} RN×1代表的是每个记忆需要更新的程度; a t f a_t^f atf R N × d R^{N×d} RN×d决定每个记忆中需要被遗弃的部分; u t c u_t^c utc R N × d R^{N×d} RN×d代表的是新输入的内容; a t i a_t^i ati R N × d R^{N×d} RN×d代表的是新内容中需要被保存的部分。基于这些动作,记忆模块的更新过程如下式所示:

其中1代表的是全1的矩阵。
为了得到这些动作,我们设计了相应的策略网络 a t a_t at=μ( s t s_t st θ μ θ_μ θμ)

顶会最强的前20%!电影情感效应预测论文拿下ACMMM Oral收录!_第4张图片

奖励和价值网络

因为我们的任务是回归任务,我们把奖励定义为 r t r_t rt=−mae( y t y_t yt, g t g_t gt)。对于分类任务,可以采用预测与真值的对数似然作为奖励。
为了预测未来的期望奖励,我们设计了相应的价值网络。不同于传统的动作价值网络,我们采用了后状态[11]价值网络Q(KaTeX parse error: Expected 'EOF', got '̂' at position 3: s ̲̂_t)(如图4所示),其中后状态为KaTeX parse error: Expected 'EOF', got '̂' at position 3: s ̲̂_t={ e t e_t et, m t m_t mt}。与动作价值网络相比,后状态价值网络的输入空间大幅减小,训练效率更高更稳定。

顶会最强的前20%!电影情感效应预测论文拿下ACMMM Oral收录!_第5张图片

图4 价值网络结构

模型训练

为了保证模型训练的稳定性,我们针对性的设计了目标函数和探索策略。

目标函数

我们遵循DDPG的算法流程,迭代地更新价值网络和策略网络,价值网络的目标函数如下所示:

其中λ代表的是奖励衰减因子。由上式可知,价值网络Q的目标值 r t r_t rt+ λ Q λ_Q λQ( e t + 1 e{t+1} et+1,T( m t m_t mt,μ( s t + 1 s_{t+1} st+1)))的计算会用到价值网络本身,这会导致训练的不稳定性。因此,遵循DDPG中的方法,我们设计了目标价值网络Q′和目标策略网络μ′,他们的结构和对应的价值网络和策略网络一致,权重的更新采用的是滑动均值的方式: θ Q ′ / μ ′ θ_{Q′/μ′} θQ′/μ= τ θ Q / μ τθ_{Q/μ} τθQ/μ+(1−τ) θ Q ′ / μ ′ θ_{Q′/μ′} θQ′/μ。由此,价值网络的最终目标值为: r t r_t rt+λ_Q′( e t + 1 e_{t+1} et+1,T( m t m_t mt,μ′( s t + 1 s_{t+1} st+1)))。

原始的策略网络的目标函数为: m a x θ μ max_{θμ} maxθμQ( e t e_t et,T( m t − 1 m_{t−1} mt1,μ( s t s_t st))),为了同时更新策略网络部分和结果预测部分,我们对目标函数向前展开了一个时间步,最终的策略网络和预测部分的目标函数如下所示:

m a x θ μ , θ p max_{θμ,θp} maxθμ,θp( r t r_t rt+λQ( e t + 1 e_{t+1} et+1,T( m t m_t mt,μ( s t + 1 s_{t+1} st+1))))在训练过程中,两个目标函数迭代的进行更新。

探索策略

为了进一步保证训练的稳定性,防止模型陷入到局部最优或者完全不收敛的窘境,我们针对动作设计了相应的探索策略,具体如下所示:

顶会最强的前20%!电影情感效应预测论文拿下ACMMM Oral收录!_第6张图片

顶会最强的前20%!电影情感效应预测论文拿下ACMMM Oral收录!_第7张图片

其中N(0,0.05)代表的是均值为0,方差为0.05的高斯噪声,clip(x,a,b) c l i p ( x , a , b ) clip(x,a,b) clip(x,a,b)
代表的是把x裁剪到[ a , b a,b a,b], Z t a t t Z_t^{att} Ztatt代表的是标准化因子。

结果

SOTA对比

为了验证我们方法的有效性,我们在多种任务的多个数据集上展开了实验,比如电影情感预测任务的LIRIS-ACCEDE[11]数据集、音乐情感预测的PMemo[12]数据集、视频摘要的Tvsum[13]和Summe[14]数据集,实验结果相比于SOTA方法均有大幅的提升。

表1 LIRIS-ACCEDE数据集结果对比

顶会最强的前20%!电影情感效应预测论文拿下ACMMM Oral收录!_第8张图片

表2 PMemo数据集结果对比

顶会最强的前20%!电影情感效应预测论文拿下ACMMM Oral收录!_第9张图片

表3 Tvsum和Summe数据集结果对比

顶会最强的前20%!电影情感效应预测论文拿下ACMMM Oral收录!_第10张图片

消融实验

记忆模块尺寸的影响

为了捕获长期依赖,足够的记忆容量至关重要。为此,我们针对记忆模块的尺寸展开了实验。如图5所示,随着记忆模块尺寸的增加,模型的效果逐步提升,当记忆容量增加到一定程度时,模型效果趋于稳定,甚至会由于过拟合而有所下降。在我们的实验中,在记忆模块的尺寸为10时,模型效果最好。

顶会最强的前20%!电影情感效应预测论文拿下ACMMM Oral收录!_第11张图片

图5 记忆模块尺寸实验结果

强化学习的有效性

为了验证强化学习的有效性,我们设计了2个基础方法进行对比实验:1)利用记忆网络,对每个电影片段独立的进行预测。2)利用TBPTT算法对记忆网络进行优化。如表4所示,基于强化学习的方法取得了最好的效果。

表4 不同方法实验结果

顶会最强的前20%!电影情感效应预测论文拿下ACMMM Oral收录!_第12张图片

记忆模块更新过程的可视化

我们对记忆模块的更新过程进行了可视化,具体如图6所示。图(a)的横轴为时间维度,纵轴代表不同的记忆位置,颜色的深浅代表记忆更新的程度。图(b)是图(a)中第7个记忆的更新程度同情感标签valence的对比曲线,可以证实记忆模块中存储的是情感相关的特征。

图6 记忆模块更新过程

不同模态数据的重要性

我们针对不同的模态组合进行了实验,如表5所示,就单模态而言,视觉元素中的场景模态最为有效。综合所有模态可以保证情感信息的完备性,取得了最好的效果。

表5 模态实验

顶会最强的前20%!电影情感效应预测论文拿下ACMMM Oral收录!_第13张图片

实例分析

我们给出了模型在测试集的几部影片上的预测结果,如图7所示,可以看到,我们模型的预测结果不仅在局部的变化趋势上与真值接近,在全局的变化趋势上也与真值一致,这充分表明了我们的方法在建模长时信息方面的有效性。

顶会最强的前20%!电影情感效应预测论文拿下ACMMM Oral收录!_第14张图片

图7 模型在LIRIS-ACCEDE测试集上的预测结果

未来工作

在以后的工作中,我们期望展开以下的探索:
1.尝试其他强化学习算法。
2.从模态融合入手,设计更有效地模态融合策略。
3.把我们的方法应用到其他任务上去,如动作检测等等。

参考文献

[1] Hochreiter, Sepp, and Jürgen Schmidhuber. “Long short-term memory.” Neural computation 9.8 (1997): 1735-1780.
[2] Ashish Vaswani, Noam M. Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones,Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. 2017. Attention is All you Need. ArXiv abs/1706.03762 (2017).
[3] Shawn Hershey, Sourish Chaudhuri, Daniel PW Ellis, Jort F Gemmeke, Aren Jansen, R Channing Moore, Manoj Plakal, Devin Platt, Rif A Saurous, Bryan Seybold, et al. 2017. CNN architectures for large-scale audio classification. In 2017 ieee international conference on acoustics, speech and signal processing (icassp). IEEE, 131–135.
[4] Bolei Zhou, Agata Lapedriza, Aditya Khosla, Aude Oliva, and Antonio Torralba. 2017. Places: A 10 million Image Database for Scene Recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence (2017).
[5] Simonyan, Karen, and Andrew Zisserman. “Very deep convolutional networks for large-scale image recognition.” arXiv preprint arXiv:1409.1556 (2014).
[6] Zhe Cao, Gines Hidalgo, Tomas Simon, Shih-En Wei, and Yaser Sheikh. 2019. OpenPose: realtime multi-person 2D pose estimation using Part Affinity Fields. IEEE transactions on pattern analysis and machine intelligence 43, 1 (2019), 172–186.
[7] Shan Li, Weihong Deng, and JunPing Du. 2017. Reliable crowdsourcing and deep locality-preserving learning for expression recognition in the wild. In Proceedings of the IEEE conference on computer vision and pattern recognition. 2852–2861.
[8] François Chollet. 2017. Xception: Deep learning with depthwise separable convolutions. In Proceedings of the IEEE conference on computer vision and pattern recognition. 1251–1258.
[9] Timothy P Lillicrap, Jonathan J Hunt, Alexander Pritzel, Nicolas Heess, Tom Erez, Yuval Tassa, David Silver, and Daan Wierstra. 2015. Continuous control with deep reinforcement learning. arXiv preprint arXiv:1509.02971 (2015).
[10] Alex Graves, Greg Wayne, and Ivo Danihelka. 2014. Neural turing machines. arXiv preprint arXiv:1410.5401 (2014).
[11] Deunsol Yoon, Sunghoon Hong, Byung-Jun Lee, and Kee-Eung Kim. 2020. Winning the l2rpn challenge: Power grid management via semi-markov afterstate actor-critic. In International Conference on Learning Representations.
[12] task MediaEval 2018. In MediaEval.[6] Yoann Baveye, Emmanuel Dellandrea, Christel Chamaret, and Liming Chen. 2015.
LIRIS-ACCEDE: A video database for affective content analysis. IEEE Transactions on Affective Computing 6, 1 (2015), 43–55.
[13] Kejun Zhang, Hui Zhang, Simeng Li, Changyuan Yang, and Lingyun Sun. 2018. The pmemo dataset for music emotion recognition. In Proceedings of the 2018 acm on international conference on multimedia retrieval. 135–142.
[14] Yale Song, Jordi Vallmitjana, Amanda Stent, and Alejandro Jaimes. 2015. Tvsum: Summarizing web videos using titles. In Proceedings of the IEEE conference on computer vision and pattern recognition. 5179–5187.
[15] Michael Gygli, Helmut Grabner, Hayko Riemenschneider, and Luc Van Gool. 2014. Creating summaries from user videos. In European conference on computer vision. Springer, 505–520.

你可能感兴趣的:(阿里巴巴文娱技术,阿里技术,人工智能,深度学习,python,论文)