Speech-Text Dialog Pre-training for Spoken Dialog Understanding with Explicit Cross-Modal Alignment

title Speech-Text Dialog Pre-training for Spoken Dialog Understanding with Explicit Cross-Modal Alignment
时间 2023年
译题 基于明确的跨模态对齐的语音-文本对话预训练
会议 ACL(CCF A)

Speech-Text Dialog Pre-training for Spoken Dialog Understanding with Explicit Cross-Modal Alignment

摘要:近年来,语音文本预训练方法在许多语音和自然语言处理任务中取得了显著的成功。然而,大多数先前的预训练模型通常是针对一个或两个特定的任务量身定制的,但无法征服广泛的语音文本任务。此外,现有的语音文本预训练方法未能挖掘对话中的上下文信息来丰富话语表征。在本文中,我们提出了基于显式跨模态对齐( ExpliCiT cRoss-Modal Alignment, SPECTRA )的语音文本对话预训练,这是有史以来第一个语音文本对话预训练模型。具体来说,考虑到语音情态的时间性,我们设计了一种新的时间位置预测任务来捕捉语音-文本对齐。该预训练任务旨在预测每个文本词在相应语音波形中的开始和结束时间。此外,为了学习口语对话的特点,我们将文本对话预训练的响应选择任务推广到语音-文本对话预训练场景。在四个不同的下游语音文本任务上的实验结果表明,SPECTRA 在学习语音文本对齐和多回合对话上下文方面具有优势。

1. Introduction

近年来,从大型训练语料库中学习通用特征表示的语音文本预训练在单模态和多模态下游任务方面取得了重大成功。现有的语音文本预训练工作主要采用多模态自监督预训练目标,如跨模态掩模数据建模和跨模态对比学习,它将语音表示与相应的文本句子表示对齐。

尽管以往的语音-文本预训练模型取得了显著的进展,但在构建有效统一的语音-文本预训练模型用于口语对话理解方面仍然存在一些技术挑战,这些问题在以往的工作中没有得到很好的解决。首先,以前的模型主要针对特定的语音文本任务,如语音到文本的翻译和语音语言理解,未能征服广泛的语音文本任务。虽然 Tang 等人提出了统一的语音-文本预训练用于语音翻译和识别,但它未能利用输入语音序列的时间性,也无法学习细粒度的语音-文本对齐。

其次,在普通演讲/文本和人类对话之间的差距方面,人们进行了有限的探索。特别是,现有的语音-文本预训练方法无法探索对话中的上下文信息。然而,口语对话理解需要有效地处理上下文信息,以帮助系统更好地理解当前的话语,因为人类可能会忽略前面提到的实体/约束,并引入替代已经提到的内容。

Speech-Text Dialog Pre-training for Spoken Dialog Understanding with Explicit Cross-Modal Alignment_第1张图片
图1 SPECTRA 的示例,它在预训练期间考虑了对话上下文和文本和语音之间的明确对齐,并在各种下游任务上进行了很好的推广。

在本文中,我们提出了基于显式跨模态对齐( ExpliCiT cRoss-Modal Alignment, SPECTRA )的语音文本对话预训练,这是有史以来第一个语音文本对话预训练模型。我们在图 1 1 1 中说明了方法的框架,在图 2 2 2 中说明了细节。SPECTRA 的主干由一个文本编码器、一个语音编码器和一个融合模块组成,学习语义/声学信息及其相互作用,并在大规模的真实世界多模态(语音-文本)对话语料库上进行预训练。我们提出了两个预训练目标,以学习更好的上下文感知语音/文本表示,用于口语对话理解。具体来说,考虑到语音模态的时间性,我们设计了一种新的时间位置预测任务,通过预测每个文本单词在相应语音波形中的开始和结束时间来捕获语音-文本对齐。此外,学习口语对话的特点,我们设计了一个跨模态响应选择目标来考虑每个对话中的上下文信息。

我们的贡献如下所示:

  • 据我们所知,我们首先提出了一种用于口语对话理解的语音-文本对话预训练模型,该模型充分利用了多模态(语音/文本)对话的特点。
  • 我们引入了两个预训练目标(时间位置预测和多模态响应选择)来有效地学习语音文本对齐和对话上下文信息。
  • 我们在属于四个下游语音文本任务的五个基准数据集上进行了广泛的实验,包括会话中的情感识别( ERC ),多模态情感分析( MSA ),口语理解( SLU )和对话状态跟踪( DST )。我们相信,预训练模型和源代码的发布将推动这一领域的研究。

2. Related Work

单模态的预训练 近年来,预训练语言模型( PLMs ),如 BERTRoBERTaGPT 已经被提出并应用于许多 NLP 任务,产生了令人印象深刻的性能。 PLM 受益于大规模语料库中丰富的语言知识。受 PLMNLP 任务中的成功启发,提出了几种语音预训练模型,如 Wav2vecHuBERTWavLM ,以从大量语音数据中学习高质量的通用语音表示。

多模态的预处理 与视觉和语言任务的多模态预训练相比,语音文本预训练的研究相对较少。SpeechBERT 联合训练了基于单个 BERT 的多模态表示,用于口语问答。CTAL 通过修改 Transformer 解码器的注意机制,将原来的 Transformer 扩展到跨模态。ST-BERT 将预训练的声学模型与 BERT 相结合,并将音素后验和亚词级标记化文本作为输入。Kang 等探索了极低资源数据场景下的多模态预训练模型。CLAM 利用音频和词汇输入中固有的对比和多率信息来对齐声学和词汇信息。STPT 提出了一个多任务学习框架来整合语音文本预训练中的不同模态。

多模态对话系统 由于无处不在的多模态数据,对多模态对话系统的需求正在增加。 Liao 等人提出了一个知识感知多模态对话( KMD )模型,该模型利用强化学习在给定多模态(文本-图像)对话上下文的情况下生成类似人类的响应。Cui 等在属性层面考虑了明确的用户需求,根据用户的注意力动态编码了多模态(文本-图像)对话上下文。Sunder 等人提出了一个端到端的口语理解模型,该模型训练了一个语义丰富的基于 BERT 的会话模型和一个基于语音的模型。

与以往的作品不同,SPECTRA 是有史以来第一个语音-文本对话预训练模型,它弥合了纯文本/语音与人类对话之间的差距。

3. Method

在本节中,我们介绍了 SPECTRA 的模型架构和预训练目标。

3.1 The Backbone Architecture (主干架构)

2 2 2 显示了我们的模型 SPECTRA 的整体结构,它由一个文本编码器、一个语音编码器和一个情态融合模块组成。在预训练过程中,我们首先将配对的文本和语音输入转换为单模态嵌入,然后分别将其送入文本编码器和语音编码器以获得单模态表示。最后,我们将文本表示和语音表示连接起来作为模态融合模块的输入,得到用于语音-文本预训练的融合表示。
Speech-Text Dialog Pre-training for Spoken Dialog Understanding with Explicit Cross-Modal Alignment_第2张图片
图2 SPECTRA 概述。左图展示了时间位置预测任务和跨模态反应选择任务的示意图。右侧为预训练模型的整体结构。

3.1.1 数据准备

在深入研究模型之前,我们首先为模型准备输入文本和语音序列。令 D = T 1 , T 2 , . . . , T n D={ T_1, T_2, ... ,T_n} D=T1,T2,...,Tn 表示有 n n n 个对话回合的会话,其中每个对话回合 T i T_i Ti 由原始语音波形 s i s_i si 的切片及其对应的文本 t i = w i 1 , w i 2 , … , w i m t_i = { w_{i1}, w_{i2}, … , w_{im} } ti=wi1,wi2,,wim。这里, w i j w_{ij} wij t i t_i ti 的第 j j j 个单词,在语音中标注了它对应的开始/结束时间,记为 s i j / e i j s_{ij}/e_{ij} sij/eij m m m t i t_i ti 的句子长度。对于每一个 i > 1 i>1 i>1 转换为 T i T_i Ti 的对话,我们构造了一个样本 X i X_i Xi,其中当前语句 T i = T i , s i T_i = { T_i,s_i } Ti=Tisi ,以前的 k ( k ≥ 1 ) k (k ≥1) k(k1) 轮文本对话历史 t i − k , . . . , t i − 2 , t i − 1 {t_{i-k}, ... , t_{i-2}, t_{i-1} } tik,...,ti2,ti1 和以前的语音对话历史 s i − 1 s_{i-1} si1 。这样,每个样本 X i X_i Xi k + 1 k+1 k+1 篇文本和 2 2 2 篇演讲稿组成,其中演讲稿对应于最近的 2 2 2 篇文本。注意,为了提高效率,我们在预训练中只使用了两种语音,因为语音表示的长度比相应的文本表示要长得多。

3.1.2 Text Embeddings

对于每个输入元素,其向量表示是相应的 t o k e n e m b e d d i n g token embedding tokenembedding、绝对位置嵌入 ( a b s o l u t e p o s i t i o n e m b e d d i n g absolute position embedding absolutepositionembedding) 和段嵌入 ( s e g m e n t e m b e d d i n g s segment embeddings segmentembeddings ) 的总和。具体来说,我们首先按照时间顺序将每个例子 X i X_i Xi 的所有文本句子连接起来,以构造文本输入: I i = < s > t i − k < / s > t i − k + 1 < / s > . . . < / s > t i − 1 < / s > t i < / s > I_i =t_{i-k}t_{i-k+1}...t_{i-1}t_{i} Ii=<s>tik</s>tik+1</s>...</s>ti1</s>ti</s>。注意,我们使用特殊的标记 < s > <s> 标记整个序列的开始,而 < / s > </s> 来标记每个回合的结束。然后,我们使用预训练的 R o B E R T a t o k e n i z e r RoBERTa tokenizer RoBERTatokenizer I i I_i Ii 中的每个标记进行编码。我们将可学习段嵌入 e t , 1 e_{t, 1} et,1 分配给 t i t_i ti 的标记和最后一个 < / s > </s> 标记,和 e t , 0 e_{t, 0} et,0 分配给其余的标记。详细的标记和编码过程在附录 A A A 中描述。我们将 x i x_i xi 表示为 I i I_i Ii 的输入文本嵌入。

3.1.3 Uni-modal Encoders

Text Encoder 受单模态预训练模型在各种下游任务上取得显著成功的启发,我们使用 RoBERTa 作为我们的文本编码器。我们将 x i x_i xi 传递给文本编码器以获得序列表示:
H t , i = R o B E R T a ( x i ) ( 1 ) H_{t, i} = RoBERTa(x_i) \kern10em (1) Ht,i=RoBERTa(xi)(1)
其中, H t , i ∈ R n ∗ d h H_{t, i} \in \mathbb{R}^{n*d_h} Ht,iRndh 表示 R o B E R T a RoBERTa RoBERTa 最后一层的输出隐藏状态, n n n 为输入 I i I_i Ii 的长度, d h d_h dh 为隐藏状态的维数。

Speech Encoder 我们基于 W a v L M WavLM WavLM 结构设计了语音编码器,其中有三个关键模块:特征提取器、特征投影模块和 Transformer 编码器模块。特征提取器由 8 8 8 个时间卷积层和 1 1 1 个层归一化组成。我们实现了与 W a v L M WavLM WavLM 相同的前 7 7 7 个卷积层,并增加了一个具有 512 512 512 通道, 5 s t r i d e s 5 strides 5strides 5 5 5 核大小的卷积层,以缩短输出语音特征的长度。因此,每个语音特征的输出标记代表大约 200 m s 200ms 200ms 的语音,步幅为 100 m s 100ms 100ms

特征投影层是一个层归一化,然后是一个全连接层,将语音特征的大小从 512 512 512 转换为 d h d_h dh T r a n s f o r m e r Transformer Transformer 编码器模块配备了一个基于卷积的相对位置嵌入层和 12 12 12 W a v L M T r a n s f o r m e r WavLM Transformer WavLMTransformer 层。对于每个样本,我们直接将语音波形 s i − 1 s_{i−1} si1 s i s_i si 输入到我们的语音编码器中,并将 s i − 1 s_{i−1} si1 s i s_i si 的特征投影层输出分别表示为 f i − 1 f_{i−1} fi1 f i f_i fi
f i − 1 = P r o j ( C o n v ( s i − 1 ) ) ( 2 ) f i = P r o j ( C o n v ( s i ) ) ( 3 ) f_{i-1}=Proj(Conv(s_{i-1})) \kern10em (2) \\ f_i = Proj(Conv(s_i)) \kern12em (3) fi1=Proj(Conv(si1))(2)fi=Proj(Conv(si))(3)

然后,我们将 f i − 1 f_{i−1} fi1 f i f_i fi 与分隔令牌 [ S E P ] [SEP] [SEP] 和起始令牌 [ C L S ] [CLS] [CLS] 连接起来,得到语音序列 a i a_i ai
a i = [ C L S ] f i − 1 [ S E P ] f i ( 4 ) a_i = [CLS]f_{i-1}[SEP]f_i \kern 10em (4) ai=[CLS]fi1[SEP]fi(4)
其中, a i ∈ R ( m i − 1 + m i + 2 ) ∗ d h a_i \in \mathbb{R}^{(m_{i-1}+m_i+2)*d_h} aiR(mi1+mi+2)dh 表示连接的序列。 m i − 1 m_{i−1} mi1 m i m_i mi 分别是 s i − 1 s_{i−1} si1 s i s_i si 的长度。我们传递 a i a_i ai 作为 T r a n s f o r m e r Transformer Transformer 编码器模块的输入,以获得语音序列表示:
H s , i = W a v L M ( a i ) ( 5 ) H_{s, i}=WavLM(a_i) \kern 10em (5) Hs,i=WavLM(ai)(5)
其中, H s , i ∈ R ( m i − 1 + m i + 2 ) ∗ d h H_{s, i} \in \mathbb{R}^{(m_{i-1}+m_i+2)*d_h} Hs,iR(mi1+mi+2)dh 表示最后一个 T r a n s f o r m e r Transformer Transformer 层的隐藏状态。

3.1.4 模态融合块

为了集成两个模态,我们使用一个自注意 T r a n s f o r m e r Transformer Transformer 层作为模态融合模块。我们首先将文本序列表示 H t , i H_{t, i} Ht,i 和语音序列表示 H s , i H_{s, i} Hs,i连接在一起。然后,我们分别赋予具有可学习模态嵌入 e m , 0 e_{m,0} em,0 e m , 1 e_{m,1} em,1 的文本和语音表示,并将模态嵌入添加到连接的表示中,作为我们的模态融合模块的输入。最后,我们得到了模态融合模块 H i ∈ R ( n + m i − 1 + m i + 2 ) × d h H_i \in \mathbb{R}^{(n+m_{i−1}+m_i+2)×d_h} HiR(n+mi1+mi+2)×dh 作为语音-文本联合表示的输出隐藏表示。

3.2 预训练任务

我们为我们的 S P E C T R A SPECTRA SPECTRA 模型引入了两个新的预训练目标,使 S P E C T R A SPECTRA SPECTRA 能够有效地捕获语音-文本对齐和多模态对话上下文。

3.2.1 时间位置预测(TPP)

现有的语音文本预训练工作主要是借鉴已有的视觉文本预训练模型。这些工作忽略了语音是时间序列,因此无法学习细粒度的语音-文本对齐。在这项工作中,我们提出了一种新的时间位置预测( T P P TPP TPP )目标,它利用隐藏表示 H i H_i Hi 的文本部分来预测语音波形中每个单词的开始和结束时间。

特别是,对于每个在发音 t i t_i ti 中带有开始/结束时间注释 s i j / e i j s_{ij}/e_{ij} sij/eij 的单词 w i j w_{ij} wij,我们将其在 H i H_i Hi 中的第一个/最后一个标记表示为 h s i j / h e i j h_{ s_{ij} } /h_{ e_{ij} } hsij/heij T P P TPP TPP 预训练对象的目标是用 h s i j h_{ s_{ij} } hsij h e i j h_{ e_{ij} } heij 分别预测其在 s i s_i si 中的开始和结束时间。我们使用平方误差损失 ( s q u a r e d e r r o r l o s s ) (squared error loss) (squarederrorloss) 来优化 T P P TPP TPP 任务:
L T P P ( t i ) = 1 2 ( ( W s t a r t h s i j − s i j L a ) 2 + ( W e n d h e i j − e i j L a ) 2 ) ( 6 ) L_{TPP}(t_i) = \dfrac{1}{2} ((W_{start} h_{s_{ij} } - \dfrac{ s_{ij} } {L_a})^2 + (W_{end}h_{e_{ij} } - \dfrac{e_{ij} }{L_a})^2 )\kern5em(6) LTPP(ti)=21((WstarthsijLasij)2+(WendheijLaeij)2)(6)
其中, W s t a r t , W e n d ∈ R d h ∗ 1 W_{start}, W_{end} \in \mathbb{R}^{d_h*1} Wstart,WendRdh1 是可学习的参数。 L a L_a La 是最大的语音长度限制。通过对 s i j s_{ij} sij e i j e_{ij} eij L a L_a La 上的归一化,我们保证起始和结束时间落在[0,1]。我们计算这两圈内所有单词的平均 T P P TPP TPP 损失为对话 X i X_i Xi T P P TPP TPP 损失:
L T P P = 1 l i + 1 + l i [ ∑ j L T P P ( w i − 1 , j ) + ∑ j L T P P ( w i , j ) ] ( 7 ) L_{TPP} = \dfrac{1}{ l_{i+1}+l_i }[ \displaystyle\sum_{j} L_{TPP}(w_{i-1, j}) + \displaystyle\sum_{j} L_{TPP}(w_{i, j}) ] \kern5em(7) LTPP=li+1+li1[jLTPP(wi1,j)+jLTPP(wi,j)](7)
其中 l i − 1 l_{i-1} li1 l i l_i li 表示样例 X i X_i Xi 副本 t i − 1 t_{i-1} ti1 t i t_i ti 的总长度。

3.2.2 跨模态响应选择

受文本对话系统中响应选择任务成功的启发,我们设计了一个跨模态响应选择目标。对每个样本 X i X_i Xi,我们将文本 query t i t_i ti 或者语音 query s i s_i si 随机替换为数据集中其他对话框中的话语或语音。对每个样本 X i X_i Xi,我们可以获取三种损坏的样品作为底片:(1)只对语音查询进行随机替换;(2)只对文本查询进行随机替换;(3)文本和语音查询都是随机替换的。注意,文本和语音查询都保持不变,如图 2 2 2 所示。

由于第一个 < s > <s> 令牌的输出可以被视为整个语音文本样本的表示,因此我们在 < s > <s> 令牌的隐藏状态之上的完全连接层上应用 s o f t m a x softmax softmax 函数作为四向分类器,预测当前示例属于哪种情况。我们利用交叉熵损失来优化交叉模态响应选择任务,记为 L C R S L_{CRS} LCRS

3.2.3 跨模态掩模数据建模

在之前的工作之后,我们也采用了跨模态表示 H f H_f Hf 来实现跨模态掩模语言建模( C M L M CMLM CMLM )和跨模态掩模声学建模( C M A M CMAM CMAM )目标。对于屏蔽语言建模,我们遵循 R o B E R T a RoBERTa RoBERTa 的设置,以15%的概率动态屏蔽文本输入令牌。对于掩蔽声学建模,我们遵循Baevski等人和Liu等人来屏蔽连续的语音帧。

我们修改了先前工作中原始掩模声学建模方法的实现,以增加每个样本中掩模语音帧的平均数量。我们在附录 B B B 中的算法 1 1 1 中提供了掩码声学建模的细节。语音标记掩蔽步骤在特征提取器和特征投影之间执行。我们对 C M L M CMLM CMLM 任务( L C M L M L_{CMLM} LCMLM )采用交叉熵损失,对 C M A M CMAM CMAM 任务( L C M A M L_{CMAM} LCMAM采用平均绝对误差损失。

3.2.4 联合预训练目标

我们将四个预训练目标结合起来,形成语音-文本预训练的联合预训练目标:
L = α L T P P + L C R S + L C M L M + L C M A M ( 8 ) L=\alpha L_{TPP}+L_{CRS}+L_{CMLM}+L_{CMAM} \kern10em(8) L=αLTPP+LCRS+LCMLM+LCMAM(8)

3.3 对下游任务进行微调

我们在四个下游任务上对 SPECTRA 进行了微调,包括多模态情感分析( MSA )、会话中的情感识别( ERC )、口语理解( SLU )和对话状态跟踪( DST )。

我们使用 H i H_i Hi 中令牌 < s > <s> 的隐藏状态,记为 h i h_i hi ,并将其通过具有两个完全连接层和它们之间的 G E L U GELU GELU 激活的预测头来获得预测:
y i = W ( 2 ) σ ( W ( 1 ) h i + b ( 1 ) ) + b ( 2 ) ( 9 ) y_i = W^{(2)} \sigma ( W^{(1)} h_i + b^{(1)} ) + b^{(2)} \kern 5em(9) yi=W(2)σ(W(1)hi+b(1))+b(2)(9)
其中, σ \sigma σ G E L U GELU GELU 激活函数, W ( 1 ) ∈ R d h × d h W^{(1)} \in \mathbb{R}^{d_h×d_h} W(1)Rdh×dh , W ( 2 ) ∈ R d h × d o W^{(2)} \in \mathbb{R}^{d_h×d_o} W(2)Rdh×do b ( 1 ) ∈ R d h b^{(1)} \in \mathbb{R}^{d_h} b(1)Rdh b ( 2 ) ∈ R d o b^{(2)} \in \mathbb{R}^{d_o} b(2)Rdo 是微调阶段新的可学习参数。 M S A MSA MSA 任务的输出大小为1, E R C ERC ERC S L U SLU SLU 的输出大小为相应的类数。我们采用误差的平方损失作为 M S A MSA MSA 的微调损失函数。剩下的任务利用交叉熵损失。

4.Experiments

4.1 预训练数据

在本文中,我们采用 Spotify100K 预训练 SPECTRA ,这是一个真实场景语音-文本对话数据集。Spotify100K 包含 105360 个播客集,近6万小时的演讲,涵盖各种类型、主题、演讲风格和结构格式。语料库还提供自动生成的词级文本转录,标记每个词在演讲中的开始和结束时间。

为了与之前的语音文本预训练研究进行公平的比较,我们只使用前 960 小时的语音以及相应的转录本来预训练我们的 SPECTRA 模型。

4.2 实验设置

基线 除了为 MSAERCSLUDST 量身定制的最先进的下游模型(参见第4.3-4.6节)外,我们还将 SPECTRA 与三种类型的预训练模型进行了比较,包括文本模态预训练模型 RoBERTa 、语音模态预训练模型 WavLM 和语音-文本多模态预训练模型 CTAL

预训练时的实验设置 我们使用 Spotify100K 数据集的前 960 小时的语音和文本文本进行预训练。我们将语音波形切成最大长度为 10 秒的切片,并将每个切片与相应的抄本一起视为单个对话回合,总共形成 356380 个对话回合。通过使用这些对话并将 k 设置为最大值 7 ,我们构建了 350784 个样本,其中每个样本由 2~8 个文本对话回合和 2 个语音回合组成。

此外,我们使用预训练模型 RoBERTabaseWavLM-base+ 分别初始化我们的文本和语音编码器。由于我们的语音编码器比 WavLM-base+ 多了一个卷积层,因此我们只使用预训练参数初始化前七个卷积层,并随机初始化最后一层。文本和语音编码器都有 12Transformer 层,隐藏大小 d h d_h dh768 。我们在 8Tesla-A100 GPU 上预训练了 100epochSPECTRA 模型,每个 GPU 的批处理大小为 20 个。我们使用 AdamW 来优化我们的模型,其峰值学习率为 1 × 1 0 − 4 1 × 10^{−4} 1×104 ,并对前 1 % 1\% 1% 的更新进行线性预热。

微调时的实验设置 对于 SpokenWoz 数据集,每个对话回合由两个话语组成,一个来自用户,另一个来自系统。对于其他数据集,每个对话回合是一个单一的话语。对于所有数据集,我们将每个对话回合的语音长度截断为最多 10 10 10 秒。我们使用 AdamW 优化器对每个下游数据集上的预训练检查点进行微调,其峰值学习率为 2 × 1 0 − 5 2 × 10^{−5} 2×105,并进行余弦退火预热。

4.3 在MSA上微调

对于 MSA 任务,我们的模型旨在预测给定多模态输入的积极或消极情绪极性。我们在两个多模态数据集 MOSIMOSEI 上进行了实验,以评估我们的模型对 MSA 任务的有效性。我们采用正面/负面情绪分类的准确性(表示为 Acc2 )作为我们的模型和基线的评估指标。实验结果见表1。
Speech-Text Dialog Pre-training for Spoken Dialog Understanding with Explicit Cross-Modal Alignment_第3张图片
从结果中,我们可以观察到我们的模型在两个数据集上都比以前的最先进( SOTA )方法取得了更好的性能。特别是,对于 MOSI 数据集,精度比最强基线 MIB 提高了 3.10 % 3.10\% 3.10%。此外,如表2所示,我们的 SPECTRA 还显著优于语音模态预训练模型 WavLM 和语音-文本预训练模型 CTAL
Speech-Text Dialog Pre-training for Spoken Dialog Understanding with Explicit Cross-Modal Alignment_第4张图片

4.4 对ERC进行微调

ERC 任务要求该模型根据语音片段的文本和对话历史来预测话语的情感类别。在这里,我们使用广泛使用的 IEMOCAP 数据集微调我们的模型,并遵循 Chudasama 等人的设置来执行六向分类任务。对于每个样本,我们构建了 11 个文本回合和 2 个语音回合,最大文本长度为512

在表 1 中,我们报告了我们的模型和以前的 SOTA 方法 M2FNET 的六向分类的准确率。此外,从表 2 中可以看出,我们的方法优于单模态预训练模型,以及语音-文本预训练基线 CTAL 。与单模态基线 RoBERTaWavLM 相比,我们的模型受益于捕获模态之间相互作用和对齐的多模态预训练任务。与 CTAL 相比,我们的模型在 TPPCRS 预训练任务的帮助下具有更好的语音文本对齐和多回合对话上下文信息。

4.5 SLU的微调

我们还对口语理解( SLU )任务进行了实验,该任务旨在预测用户意图,给出了带有文本文本的口语话语。我们使用 MIntRec 作为 SLU 的实验数据集,并采用分类准确率作为评价指标。

从表 1 1 1 和表 2 2 2 可以看出,SPECTRA 得到的结果明显好于之前的方法。特别是,我们的 SPECTRA 模型将 RoBERTa 和之前的 SOTA 方法 MAGG-BERT 的结果分别提高了 1.55 % 1.55\% 1.55% 2.47 % 2.47\% 2.47%。与 WavLMCTAL 相比,我们的模型可以捕获文本数据中的语义信息和每个对话框中的上下文信息。

4.6 DST的微调

对于对话状态跟踪,我们使用一个名为 SpokenWoz 的大规模跨模态数据集。数据集是通过使用 Appen 平台的电话录音众包收集的。使用商业 ASR 系统获得转录,并使用类似于 MultiWoz 的模态对语音-文本对进行注释。SpokenWoz204,000 个回合,5.7k 个对话和 249 小时的录音组成。我们采用联合目标准确率( JGA )作为评价指标,在每个回合比较预测和真实的对话状态。我们遵循 Trippy ,用我们的SPECTRA 模型替换其上下文模型 BERT

如表 1 1 1 所示,我们的模型优于以前的 S O T A SOTA SOTA 方法 SPACE+WavLM+TripPy 。此外,我们的模型也明显超过了三个预训练基线。这表明更好的语音-文本对齐对于处理复杂的对话至关重要。

5.Analysis

5.1 消融实验

为了更好地理解我们的 SPECTRA 预训练方法的有效性,我们研究了预训练成分和对话历史对 SPECTRA 整体性能的影响。我们在表 2 中报告了消融试验结果。

预训练的影响 为了证明多模态预训练的有效性,我们直接使用单模态编码器并随机初始化模态融合模块。通过比较 ( a ) (a) (a) “无多模态预训练”与所有五个数据集上的其他预训练设置,我们观察到显著的性能下降。特别是,设置 ( a ) (a) (a) 直接在 ERC 任务上崩溃,这是一个复杂的会话场景。这验证了跨模态预训练和语音-文本模态对齐的必要性。此外,通过比较 SPECTRA 和设置 ( b ) (b) (b) “使用更少的预训练数据”,我们可以发现使用更多的预训练数据可以进一步提高我们模型的性能。

TPP和CRS的影响 通过对比设置 ( c ) “ w / o T P P ” (c)“w/o TPP” (c)w/oTPPSPECTRA ,在5个数据集上的性能都有不同程度的下降,验证了我们的 TPP 预训练任务的泛化和有效性。具体来说,在 SpokenWoz 上,性能明显下降,这就要求模型具有更强的对齐两种模态的能力。这说明我们的 TPP预训练任务赋予了模型更强的一致性建模能力。对于使用 SPECTRA 设置 ( d ) “ w / o C R S ” (d)“w/o CRS” (d)w/oCRS ,在 ERCDST 等多回合对话任务上性能显著下降。这表明 CRS 任务对于多回合对话上下文的建模至关重要。

对话历史的影响 在设置 ( e ) (e) (e) “使用1轮文本对话历史”中,每个实例由2轮配对的语音和文本组成。与 SPECTRA 相比,模型在 ERCDST 下游任务上的性能明显下降。这表明在预训练阶段增加对话历史对需要多回合对话上下文的任务是有益的。

5.2 Case study

为了直接理解我们如何在我们提出的 SPECTRA 模型中学习跨模态相互作用,我们通过提供从 MIntRec 数据集中采样的两个案例进行了案例研究。没有 TPP 预训练的模型对这两种情况的预测是错误的,而我们的 SPECTRA 模型对这两种情况的预测是正确的。在图 3 中,我们可视化了模型中融合层的自注意权重,以及未进行 TPP 预训练的模型(表示为 w/o TPP)。从图 3 ( a ) 3(a) 3(a) 3 ( c ) 3(c) 3(c) 中,我们观察到在提出的SPECTRA 模型的融合层中存在丰富的跨模相互作用。我们的模型可以捕获文本和语音之间的细粒度信息,从而进行更准确的分类。相反,我们也在图 3 ( b ) 3(b) 3(b) 3 ( d ) 3(d) 3(d) 中可视化了 w/o TPP 模型的自注意权重。这两种情况都表明,文本和语音序列在自我注意层中很少相互联系。
Speech-Text Dialog Pre-training for Spoken Dialog Understanding with Explicit Cross-Modal Alignment_第5张图片
Speech-Text Dialog Pre-training for Spoken Dialog Understanding with Explicit Cross-Modal Alignment_第6张图片
在表 3 中,我们也展示了 SPECTRAw/o TPP 得到的意图预测结果。从结果中,我们可以观察到我们的模型可以有效地关注文本和语音序列,以预测正确的意图结果。然而,w/o TPP 被错误的标签所迷惑,因为它几乎不关注语音标记,这表明它有忽略只存在于语音中的有用信息的倾向。

6.总结

在本文中,我们提出了我们的模型 SPECTRA,这是第一个语音-文本对话预训练模型。考虑到语音和文本模态的时间性,我们引入了一种新的时间位置预测预训练任务来学习词级语音文本对齐。为了在我们的模型中捕获多模态对话上下文,我们将响应选择任务推广到多模态场景。大量实验表明,我们的预训练方法可以更好地学习跨模态交互以及多模态上下文信息,并且明显优于其他强基线。在未来,我们希望将语音文本对话预训练扩展到更多的模式或生成任务。

限制

我们分析了这项工作的局限性,以便在未来的工作中进一步提高我们的模型的性能。根据我们的经验观察,我们揭示了一些局限性,这些局限性可以分为两大类。 ( 1 ) (1) (1) 首先,我们提出的 SPECTRA 方法依赖于具有显式词级语音-文本对齐注释的大规模口语对话语料库,如Spotify100K 。这限制了我们的模型在更多口语对话语料库中的通用性。

在未来,我们希望开发一种半监督预训练方法来利用标记和未标记的数据集。 ( 2 ) (2) (2) 其次,我们的方法主要是为语音-文本理解而设计的,尚未对生成任务进行充分的探索。我们计划为每个训练目标设计对话生成,以增强模型的生成能力。 ( 3 ) (3) (3) 第三,这项工作只涉及语音和文本模态。我们感兴趣的是处理更多的模态,如图像或视频,以丰富联合表示中的跨模态信息。

你可能感兴趣的:(研究性论文相关笔记,语音识别)