【论文阅读】基于多任务学习和求同存异策略的跨库语音情感识别

原文:Cross-corpus Acoustic Emotion Recognition with Multi-task Learning: Seeking Common Ground while Preserving Differences

主要内容

研究性别、情感域(音乐和语音)、语料库对跨库情感识别的影响
【论文阅读】基于多任务学习和求同存异策略的跨库语音情感识别_第1张图片


模型设计

the simple model
  • 融合所有数据集,训练同一个模型
  • 类似于 [Using multiple databases for training in emotion recognition: To unite or to vote?] 中的“pooling”策略
the seperate task model (ST)
  • 为每个分类任务训练一个模型
  • 类似于 [Using multiple databases for training in emotion recognition: To unite or to vote?] 中的“voting”策略

以上两种模型均使用SVM,加入l1正则化和l2正则化,并且假设特征是稀疏的。

the multi-task learning model (MTL)

认为所有因素是相关的

the group multi-task learning (GMTL)

假设可以将任务分为几组,并且只允许组内信息共享,数据驱动

the multi-task learning with knowledge-driven grouping model (MTL-KDG)

假设信息在组内共享,但是它基于域、性别或语料库等知识预先定义了组,而不是从数据中学习组,知识驱动

MTL和MTL-KDG均使用多任务特征学习算法;GMTL使用组多任务学习算法

Multi-Task Feature Learning
使用 L 1 , 2 L_{1, 2} L1,2正则化从任务中学习一个共同的特征表示,从而加强了任务间特征的稀疏性。该算法有两种设置:

(a) 特征学习(FL) L 1 , 2 L_{1, 2} L1,2正则化用于变换后的特征空间
min ⁡ U , A ∑ t = 1 T ∑ i = 1 m t L ( y t i , ⟨ a t , U T x t i ⟩ ) + γ ∥ A ∥ 2 , 1 2            ( 1 ) \displaystyle \mathop{\min} _{U,A} \sum \limits _{t=1}^T \sum \limits _{i=1}^{m_t} L(y_{ti},\langle \mathbf {a_t},U^T \mathbf {x_{ti}} \rangle)+ \gamma \Vert A \Vert ^2_{2,1}~~~~~~~~~~(1) minU,At=1Ti=1mtL(yti,at,UTxti)+γA2,12          (1)
权重矩阵 W W W的每个列向量 w t w_t wt表示每个任务的权值。 W = U A W=UA W=UA U T U = I U^TU=I UTU=I A A A是转换后特征空间的权重矩阵, a t a_t at A A A的列向量,即转换后的每个任务的权重。 U U U A A A都是从数据中学习得到。
式子的前半部分为损失项,后半部分为正则项
m t m_t mt为每个任务中训练实例, y i t ∈ { − 1 ,   1 } y_{it} \in \lbrace -1,~1\rbrace yit{ 1, 1} 是第 i i i 个实例在 t t t 任务中的标签, x t i x_{ti} xti t t t任务中第 i i i个实例。 γ \gamma γ为正则化参数,该正则化方式为取 A A A的每一行向量的 L 2 L_2 L2范数,再取得到向量的 L 1 L_1 L1范数。

(b) 特征选择(FS) L 1 , 2 L_{1, 2} L1,2正则化直接用于原始特征空间
这里是公式 ( 1 ) (1) (1)强制 U = I U=I U=I得到的特例。

(b) 特征选择(FS)

由于公式 ( 1 ) (1) (1)是非凸的,得到等价凸式 ( 2 ) (2) (2)
min ⁡ W ∑ t = 1 T ∑ i = 1 m t L ( y t i , ⟨ w t , x t i ⟩ ) + γ ∑ t = 1 T ⟨ w t , D − 1 w t ⟩            ( 2 ) \displaystyle \mathop{\min} _{W} \sum \limits _{t=1}^{T} \sum \limits _{i=1}^{m_t} L(y_{ti},\langle \mathbf {w_t,x_{ti}} \rangle) + \gamma \sum \limits _{t=1}^{T} \langle \mathbf {w_t},D^{-1}\mathbf {w_t} \rangle ~~~~~~~~~~(2) minWt=1Ti=1mtL(yti,wt,xti)+γt=1Twt,D1wt          (2)
首先对 D D D初始化为 I d \frac{I}{d} dI,然后固定 D   ( d × d ) , d D~ (d\times d),d D (d×d)d是输入特征维度,优化特定任务的权重,即
w t = arg ⁡ min ⁡ ∑ i = 1 m t L ( y t i , ⟨ w t , x t i ⟩ ) + γ ⟨ w t , D − 1 w t ⟩            ( 3 ) \mathbf {w_t} = {\arg\min} \sum \limits _{i=1}^{m_t} L(y_{ti},\langle \mathbf {w_t,x_{ti}} \rangle) + \gamma \langle \mathbf {w_t},D^{-1}\mathbf {w_t} \rangle~~~~~~~~~~(3) wt=argmini=1mtL(yti,wt,xti)+γwt,D1wt          (3)
( 3 ) (3) (3)适用于任何凸损失函数。再固定 W W W ( 4 ) (4) (4)用于a, ( 5 ) (5) (5)用于b。
D = ( W W T + ϵ I ) 1 2 t r a c e ( W W T + ϵ I ) 1 2            ( 4 ) D = \frac{(WW^T+\epsilon I)^\frac{1}{2}}{trace(WW^T+\epsilon I)^\frac{1}{2}} ~~~~~~~~~~(4) D=trace(WWT+ϵI)21(WWT+ϵI)21          (4)
D = D i a g ( λ ) , where  λ i = ∥ w i ∥ 2 ∥ W ∥ 2 , 1            ( 5 ) D = Diag(\lambda), \text{where } \lambda_i = \frac{\Vert \mathbf {w^i} \Vert _2}{\Vert W \Vert _{2,1}} ~~~~~~~~~~(5) D=Diag(λ),where λi=W2,1wi2          (5)
本文使用的损失函数为hinge loss,如式 ( 6 ) (6) (6)
L ( y t i , ⟨ w t , x t i ⟩ ) = max ⁡ ( 0 , 1 − y t i ⟨ w t , x t i ⟩ )            ( 6 ) L(y_{ti},\langle \mathbf {w_t,x_{ti}} \rangle) = \max (0,1-y_{ti} \langle \mathbf {w_t,x_{ti}} \rangle)~~~~~~~~~~(6) L(yti,wt,xti)=max(0,1ytiwt,xti)          (6)

Group Multi-Task Learning
假定任务可以分成组,这些组可以与特定于任务的权重一起学习,组内的任务可以共享信息。
此时式 ( 1 ) (1) (1)的优化问题等价于式 ( 7 ) (7) (7)
min ⁡ W ∑ t = 1 T ∑ i = 1 m t L ( y t i , ⟨ w t , x t i ⟩ ) + γ ∥ W ∥ t r 2            ( 7 ) \displaystyle \mathop{\min} _{W} \sum \limits _{t=1}^{T} \sum \limits _{i=1}^{m_t} L(y_{ti},\langle \mathbf {w_t,x_{ti}} \rangle) + \gamma \Vert W \Vert _{tr}^2~~~~~~~~~~(7) minWt=1Ti=1mtL(yti,wt,xti)+γWtr2          (7)
则其等价凸式为
min ⁡ W , Q ∑ t = 1 T ∑ i = 1 m t L ( y t i , ⟨ w t , x t i ⟩ ) + γ ∑ g = 1 G ∥ W Q g ∥ t r 2            ( 8 ) \displaystyle \mathop{\min} _{W,Q} \sum \limits _{t=1}^{T} \sum \limits _{i=1}^{m_t} L(y_{ti},\langle \mathbf {w_t,x_{ti}} \rangle) + \gamma \sum \limits _{g=1}^{G} \Vert WQ_g \Vert _{tr}^2~~~~~~~~~~(8) minW,Qt=1Ti=1mtL(yti,wt,xti)+γg=1GWQgtr2          (8)
其中, G G G表示分组数量, Q g Q_g Qg是一个对角阵,对角元素是 g g g的二元组值, Σ g Q g = I \Sigma_gQ_g=I ΣgQg=I,最优 G G G不是先验的,而是超参数。当 G = T G=T G=T时,分组多任务学习相当于单独解决每个任务,当 G = 1 G=1 G=1时,与多任务特征学习相同。
( 8 ) (8) (8)是一个混合整数规划问题。它可以通过迭代执行两个步骤来解决:
第一步,固定 Q Q Q W g = W Q g W_g=WQ_g Wg=WQg
min ⁡ W g ∑ t : q g t = 1 ∑ i = 1 m t L ( y t i , ⟨ w t , x t i ⟩ ) + γ ∥ W g ∥ t r 2            ( 9 ) \displaystyle \mathop{\min} _{W_g} \sum \limits _{t: q_{gt}=1} \sum \limits _{i=1}^{m_t} L(y_{ti},\langle \mathbf {w_t,x_{ti}} \rangle) + \gamma \Vert W_g \Vert _{tr}^2~~~~~~~~~~(9) minWgt:qgt=1i=1mtL(yti,wt,xti)+γWgtr2          (9)
第二步,见 [Learning with whom to share in multi-task feature learning],由于第二步是非凸的,可能陷入局部最小值,本文通过 多次训练标签融合 来解决。

除了the simple model外,其他4个模型都为每个任务学习得到不同的权重向量。因此,对于给定的测试实例,可能有T个预测标签。
其他文献中经常假设测试数据的任务知识,但本文并没有做这样的假设,因为

  • 它需要测试数据的附加信息,这些信息在实际应用中可能无法获得
  • 测试数据可能不严格属于任何一个任务

所以本文通过加权多数投票来生成最终的输出标签,其中每个任务都对它输出的标签进行一次投票,并通过到决策超平面的距离进行加权。实验结果表明,该方法优于 [Cross-corpus acoustic emotion recognition from singing and speaking: A multi-task learning approach] 中其他的输出选择或融合方法。


实验设计

域和性别

数据库

在这里插入图片描述

  • RAVDESS用于训练,UMSSED用于测试,因为UMSSED包含数据少
实验标签
  • angry, happy, neutral, and sad
特征提取
  • ComParE特征集
评价指标

UAR

子实验
domain、gender、domain-gender

1d(domain)
语音和歌曲作为两个任务,使用simple、ST和MTL训练分类器。
simple表示情感表达是相同的,ST表示二者的情感表达是不同的,MTL表示二者的情感表达是相关的

1g(gender)
男性和女性作为两个任务,使用simple、ST和MTL训练分类器。
同样,simple表示男女的情感表达是相同的,ST表示男女情感表达不同,MTL表示男女情感表达是相关的

1dg(domain and gender)
域-性别构成四个任务,使用simple、ST、MTL、GMTL和MTL-KDG训练分类器。
GMTL中分组由数据驱动;
MTL-KDG中分组由知识驱动,本文按照域和性别分组

实验结果

在这里插入图片描述

语料库和性别

数据库

在这里插入图片描述

把标签分为valence和arousal两个维度,每个维度做二分类(+ / -)

特征提取

emo_large特征集,对获得的utterance-level特征进行说话人相关的z归一化

子实验
corpus、gender、corpus-gender

2c(corpus)
每个语料库作为一个任务,使用simple、ST和MTL训练分类器。
simple表示情感表达是相同的,ST表示情感表达是不同的,MTL表示情感表达是相关的

2g(gender)
男性和女性作为两个任务,使用simple、ST和MTL训练分类器。
同样,simple表示男女的情感表达是相同的,ST表示男女情感表达不同,MTL表示男女情感表达是相关的

2cg(coprus and gender)
语料库-性别构成四个任务,使用simple、ST、MTL、GMTL和MTL-KDG训练分类器。
GMTL中分组由数据驱动;
MTL-KDG中分组由知识驱动,本文按照域和性别分组

每个子实验中分别用1 / 2 / 3个语料库训练,用剩下一个语料库测试。
【论文阅读】基于多任务学习和求同存异策略的跨库语音情感识别_第2张图片
【论文阅读】基于多任务学习和求同存异策略的跨库语音情感识别_第3张图片
【论文阅读】基于多任务学习和求同存异策略的跨库语音情感识别_第4张图片
【论文阅读】基于多任务学习和求同存异策略的跨库语音情感识别_第5张图片
【论文阅读】基于多任务学习和求同存异策略的跨库语音情感识别_第6张图片

你可能感兴趣的:(文献笔记)