uuu_柚子

Speech-Text Dialog Pre-training for Spoken Dialog Understanding with Explicit Cross-Modal Alignment

title	Speech-Text Dialog Pre-training for Spoken Dialog Understanding with Explicit Cross-Modal Alignment
时间	2023年
译题	基于明确的跨模态对齐的语音-文本对话预训练
会议	ACL(CCF A)

Speech-Text Dialog Pre-training for Spoken Dialog Understanding with Explicit Cross-Modal Alignment

摘要：近年来，语音文本预训练方法在许多语音和自然语言处理任务中取得了显著的成功。然而，大多数先前的预训练模型通常是针对一个或两个特定的任务量身定制的，但无法征服广泛的语音文本任务。此外，现有的语音文本预训练方法未能挖掘对话中的上下文信息来丰富话语表征。在本文中，我们提出了基于显式跨模态对齐( ExpliCiT cRoss-Modal Alignment, SPECTRA )的语音文本对话预训练，这是有史以来第一个语音文本对话预训练模型。具体来说，考虑到语音情态的时间性，我们设计了一种新的时间位置预测任务来捕捉语音-文本对齐。该预训练任务旨在预测每个文本词在相应语音波形中的开始和结束时间。此外，为了学习口语对话的特点，我们将文本对话预训练的响应选择任务推广到语音-文本对话预训练场景。在四个不同的下游语音文本任务上的实验结果表明，SPECTRA 在学习语音文本对齐和多回合对话上下文方面具有优势。

1. Introduction

近年来，从大型训练语料库中学习通用特征表示的语音文本预训练在单模态和多模态下游任务方面取得了重大成功。现有的语音文本预训练工作主要采用多模态自监督预训练目标，如跨模态掩模数据建模和跨模态对比学习，它将语音表示与相应的文本句子表示对齐。

尽管以往的语音-文本预训练模型取得了显著的进展，但在构建有效统一的语音-文本预训练模型用于口语对话理解方面仍然存在一些技术挑战，这些问题在以往的工作中没有得到很好的解决。首先，以前的模型主要针对特定的语音文本任务，如语音到文本的翻译和语音语言理解，未能征服广泛的语音文本任务。虽然 Tang 等人提出了统一的语音-文本预训练用于语音翻译和识别，但它未能利用输入语音序列的时间性，也无法学习细粒度的语音-文本对齐。

其次，在普通演讲/文本和人类对话之间的差距方面，人们进行了有限的探索。特别是，现有的语音-文本预训练方法无法探索对话中的上下文信息。然而，口语对话理解需要有效地处理上下文信息，以帮助系统更好地理解当前的话语，因为人类可能会忽略前面提到的实体/约束，并引入替代已经提到的内容。

图1 SPECTRA 的示例，它在预训练期间考虑了对话上下文和文本和语音之间的明确对齐，并在各种下游任务上进行了很好的推广。

在本文中，我们提出了基于显式跨模态对齐( ExpliCiT cRoss-Modal Alignment, SPECTRA )的语音文本对话预训练，这是有史以来第一个语音文本对话预训练模型。我们在图 $1$ 中说明了方法的框架，在图 $2$ 中说明了细节。SPECTRA 的主干由一个文本编码器、一个语音编码器和一个融合模块组成，学习语义/声学信息及其相互作用，并在大规模的真实世界多模态(语音-文本)对话语料库上进行预训练。我们提出了两个预训练目标，以学习更好的上下文感知语音/文本表示，用于口语对话理解。具体来说，考虑到语音模态的时间性，我们设计了一种新的时间位置预测任务，通过预测每个文本单词在相应语音波形中的开始和结束时间来捕获语音-文本对齐。此外，学习口语对话的特点，我们设计了一个跨模态响应选择目标来考虑每个对话中的上下文信息。

我们的贡献如下所示：

据我们所知，我们首先提出了一种用于口语对话理解的语音-文本对话预训练模型，该模型充分利用了多模态(语音/文本)对话的特点。
我们引入了两个预训练目标（时间位置预测和多模态响应选择）来有效地学习语音文本对齐和对话上下文信息。
我们在属于四个下游语音文本任务的五个基准数据集上进行了广泛的实验，包括会话中的情感识别( ERC )，多模态情感分析( MSA )，口语理解( SLU )和对话状态跟踪( DST )。我们相信，预训练模型和源代码的发布将推动这一领域的研究。

2. Related Work

单模态的预训练 近年来，预训练语言模型( PLMs )，如 BERT 、RoBERTa 和 GPT 已经被提出并应用于许多 NLP 任务，产生了令人印象深刻的性能。 PLM 受益于大规模语料库中丰富的语言知识。受 PLM 在 NLP 任务中的成功启发，提出了几种语音预训练模型，如 Wav2vec 、HuBERT 和 WavLM ，以从大量语音数据中学习高质量的通用语音表示。

多模态的预处理 与视觉和语言任务的多模态预训练相比，语音文本预训练的研究相对较少。SpeechBERT 联合训练了基于单个 BERT 的多模态表示，用于口语问答。CTAL 通过修改 Transformer 解码器的注意机制，将原来的 Transformer 扩展到跨模态。ST-BERT 将预训练的声学模型与 BERT 相结合，并将音素后验和亚词级标记化文本作为输入。Kang 等探索了极低资源数据场景下的多模态预训练模型。CLAM 利用音频和词汇输入中固有的对比和多率信息来对齐声学和词汇信息。STPT 提出了一个多任务学习框架来整合语音文本预训练中的不同模态。

多模态对话系统 由于无处不在的多模态数据，对多模态对话系统的需求正在增加。 Liao 等人提出了一个知识感知多模态对话( KMD )模型，该模型利用强化学习在给定多模态(文本-图像)对话上下文的情况下生成类似人类的响应。Cui 等在属性层面考虑了明确的用户需求，根据用户的注意力动态编码了多模态(文本-图像)对话上下文。Sunder 等人提出了一个端到端的口语理解模型，该模型训练了一个语义丰富的基于 BERT 的会话模型和一个基于语音的模型。

与以往的作品不同，SPECTRA 是有史以来第一个语音-文本对话预训练模型，它弥合了纯文本/语音与人类对话之间的差距。

3. Method

在本节中，我们介绍了 SPECTRA 的模型架构和预训练目标。

3.1 The Backbone Architecture (主干架构)

图 $2$ 显示了我们的模型 SPECTRA 的整体结构，它由一个文本编码器、一个语音编码器和一个情态融合模块组成。在预训练过程中，我们首先将配对的文本和语音输入转换为单模态嵌入，然后分别将其送入文本编码器和语音编码器以获得单模态表示。最后，我们将文本表示和语音表示连接起来作为模态融合模块的输入，得到用于语音-文本预训练的融合表示。

图2 SPECTRA 概述。左图展示了时间位置预测任务和跨模态反应选择任务的示意图。右侧为预训练模型的整体结构。

3.1.1 数据准备

在深入研究模型之前，我们首先为模型准备输入文本和语音序列。令 $D={ T_1, T_2, ... ,T_n}$ 表示有 $n$ 个对话回合的会话，其中每个对话回合 $T_i$ 由原始语音波形 $s_i$ 的切片及其对应的文本 $t_i = { w_{i1}, w_{i2}, … , w_{im} }$ 。这里， $w_{ij}$ 是 $t_i$ 的第 $j$ 个单词，在语音中标注了它对应的开始/结束时间，记为 $s_{ij}/e_{ij}$ 。 $m$ 是 $t_i$ 的句子长度。对于每一个 $i > 1$ 转换为 $T_i$ 的对话，我们构造了一个样本 $X_i$ ，其中当前语句 $T_i = { T_i，s_i }$ ，以前的 $k (k \geq 1)$ 轮文本对话历史 ${t_{i-k}, ... , t_{i-2}, t_{i-1} }$ 和以前的语音对话历史 $s_{i-1}$ 。这样，每个样本 $X_i$ 由 $k + 1$ 篇文本和 $2$ 篇演讲稿组成，其中演讲稿对应于最近的 $2$ 篇文本。注意，为了提高效率，我们在预训练中只使用了两种语音，因为语音表示的长度比相应的文本表示要长得多。

3.1.2 Text Embeddings

对于每个输入元素，其向量表示是相应的 $t o k e n e mb e dd in g$ 、绝对位置嵌入 ( $ab so l u t e p os i t i o n e mb e dd in g$ ) 和段嵌入 ( $se g m e n t e mb e dd in g s$ ) 的总和。具体来说，我们首先按照时间顺序将每个例子 $X_i$ 的所有文本句子连接起来，以构造文本输入： $I_i =t_{i-k}t_{i-k+1}...t_{i-1}t_{i}$ 。注意，我们使用特殊的标记 $< s >$ ~~标记整个序列的开始，而~~ $< / s >$ 来标记每个回合的结束。然后，我们使用预训练的 $R o BERT a t o k e ni zer$ 对 $I_i$ 中的每个标记进行编码。我们将可学习段嵌入 $e_{t, 1}$ 分配给 $t_i$ 的标记和最后一个 $< / s >$ 标记，和 $e_{t, 0}$ 分配给其余的标记。详细的标记和编码过程在附录 $A$ 中描述。我们将 $x_i$ 表示为 $I_i$ 的输入文本嵌入。

3.1.3 Uni-modal Encoders

Text Encoder 受单模态预训练模型在各种下游任务上取得显著成功的启发，我们使用 RoBERTa 作为我们的文本编码器。我们将 $x_i$ 传递给文本编码器以获得序列表示：
$H_{t, i} = RoBERTa(x_i) \kern10em (1)$
其中， $H_{t, i} \in \mathbb{R}^{n*d_h}$ 表示 $R o BERT a$ 最后一层的输出隐藏状态， $n$ 为输入 $I_i$ 的长度， $d_h$ 为隐藏状态的维数。

Speech Encoder 我们基于 $Wa vL M$ 结构设计了语音编码器，其中有三个关键模块：特征提取器、特征投影模块和 Transformer 编码器模块。特征提取器由 $8$ 个时间卷积层和 $1$ 个层归一化组成。我们实现了与 $Wa vL M$ 相同的前 $7$ 个卷积层，并增加了一个具有 $512$ 通道， $5 s t r i d es$ 和 $5$ 核大小的卷积层，以缩短输出语音特征的长度。因此，每个语音特征的输出标记代表大约 $200 m s$ 的语音，步幅为 $100 m s$ 。

特征投影层是一个层归一化，然后是一个全连接层，将语音特征的大小从 $512$ 转换为 $d_h$ 。 $T r an s f or m er$ 编码器模块配备了一个基于卷积的相对位置嵌入层和 $12$ 个 $Wa vL MT r an s f or m er$ 层。对于每个样本，我们直接将语音波形 $s_{i−1}$ 和 $s_i$ 输入到我们的语音编码器中，并将 $s_{i−1}$ 和 $s_i$ 的特征投影层输出分别表示为 $f_{i−1}$ 和 $f_i$ ：
$f_{i-1}=Proj(Conv(s_{i-1})) \kern10em (2) \\ f_i = Proj(Conv(s_i)) \kern12em (3)$

然后，我们将 $f_{i−1}$ 和 $f_i$ 与分隔令牌 $[SEP]$ 和起始令牌 $[C L S]$ 连接起来，得到语音序列 $a_i$ ：
$a_i = [CLS]f_{i-1}[SEP]f_i \kern 10em (4)$
其中， $a_i \in \mathbb{R}^{(m_{i-1}+m_i+2)*d_h}$ 表示连接的序列。 $m_{i−1}$ 和 $m_i$ 分别是 $s_{i−1}$ 和 $s_i$ 的长度。我们传递 $a_i$ 作为 $T r an s f or m er$ 编码器模块的输入，以获得语音序列表示：
$H_{s, i}=WavLM(a_i) \kern 10em (5)$
其中， $H_{s, i} \in \mathbb{R}^{(m_{i-1}+m_i+2)*d_h}$ 表示最后一个 $T r an s f or m er$ 层的隐藏状态。

3.1.4 模态融合块

为了集成两个模态，我们使用一个自注意 $T r an s f or m er$ 层作为模态融合模块。我们首先将文本序列表示 $H_{t, i}$ 和语音序列表示 $H_{s, i}$ 连接在一起。然后，我们分别赋予具有可学习模态嵌入 $e_{m,0}$ 和 $e_{m,1}$ 的文本和语音表示，并将模态嵌入添加到连接的表示中，作为我们的模态融合模块的输入。最后，我们得到了模态融合模块 $H_i \in \mathbb{R}^{(n+m_{i−1}+m_i+2)×d_h}$ 作为语音-文本联合表示的输出隐藏表示。

3.2 预训练任务

我们为我们的 $SPECTR A$ 模型引入了两个新的预训练目标，使 $SPECTR A$ 能够有效地捕获语音-文本对齐和多模态对话上下文。

3.2.1 时间位置预测(TPP)

现有的语音文本预训练工作主要是借鉴已有的视觉文本预训练模型。这些工作忽略了语音是时间序列，因此无法学习细粒度的语音-文本对齐。在这项工作中，我们提出了一种新的时间位置预测( $TPP$ )目标，它利用隐藏表示 $H_i$ 的文本部分来预测语音波形中每个单词的开始和结束时间。

特别是，对于每个在发音 $t_i$ 中带有开始/结束时间注释 $s_{ij}/e_{ij}$ 的单词 $w_{ij}$ ，我们将其在 $H_i$ 中的第一个/最后一个标记表示为 $h_{ s_{ij} } /h_{ e_{ij} }$ 。 $TPP$ 预训练对象的目标是用 $h_{ s_{ij} }$ 和 $h_{ e_{ij} }$ 分别预测其在 $s_i$ 中的开始和结束时间。我们使用平方误差损失 $(s q u a re d error l oss)$ 来优化 $TPP$ 任务：
$L_{TPP}(t_i) = \dfrac{1}{2} ((W_{start} h_{s_{ij} } - \dfrac{ s_{ij} } {L_a})^2 + (W_{end}h_{e_{ij} } - \dfrac{e_{ij} }{L_a})^2 )\kern5em(6)$
其中， $W_{start}, W_{end} \in \mathbb{R}^{d_h*1}$ 是可学习的参数。 $L_a$ 是最大的语音长度限制。通过对 $s_{ij}$ 和 $e_{ij}$ 在 $L_a$ 上的归一化，我们保证起始和结束时间落在[0,1]。我们计算这两圈内所有单词的平均 $TPP$ 损失为对话 $X_i$ 的 $TPP$ 损失：
$L_{TPP} = \dfrac{1}{ l_{i+1}+l_i }[ \displaystyle\sum_{j} L_{TPP}(w_{i-1, j}) + \displaystyle\sum_{j} L_{TPP}(w_{i, j}) ] \kern5em(7)$
其中 $l_{i-1}$ 和 $l_i$ 表示样例 $X_i$ 副本 $t_{i-1}$ 和 $t_i$ 的总长度。

3.2.2 跨模态响应选择

受文本对话系统中响应选择任务成功的启发，我们设计了一个跨模态响应选择目标。对每个样本 $X_i$ ，我们将文本 query $t_i$ 或者语音 query $s_i$ 随机替换为数据集中其他对话框中的话语或语音。对每个样本 $X_i$ ，我们可以获取三种损坏的样品作为底片：（1）只对语音查询进行随机替换；（2）只对文本查询进行随机替换；（3）文本和语音查询都是随机替换的。注意，文本和语音查询都保持不变，如图 $2$ 所示。

由于第一个 $< s >$ 令牌的输出可以被视为整个语音文本样本的表示，因此我们在 $< s >$ 令牌的隐藏状态之上的完全连接层上应用 $so f t ma x$ 函数作为四向分类器，预测当前示例属于哪种情况。我们利用交叉熵损失来优化交叉模态响应选择任务，记为 $L_{CRS}$

3.2.3 跨模态掩模数据建模

在之前的工作之后，我们也采用了跨模态表示 $H_f$ 来实现跨模态掩模语言建模( $CM L M$ )和跨模态掩模声学建模( $CM A M$ )目标。对于屏蔽语言建模，我们遵循 $R o BERT a$ 的设置，以15%的概率动态屏蔽文本输入令牌。对于掩蔽声学建模，我们遵循Baevski等人和Liu等人来屏蔽连续的语音帧。

我们修改了先前工作中原始掩模声学建模方法的实现，以增加每个样本中掩模语音帧的平均数量。我们在附录 $B$ 中的算法 $1$ 中提供了掩码声学建模的细节。语音标记掩蔽步骤在特征提取器和特征投影之间执行。我们对 $CM L M$ 任务( $L_{CMLM}$ )采用交叉熵损失，对 $CM A M$ 任务( $L_{CMAM}$ 采用平均绝对误差损失。

3.2.4 联合预训练目标

我们将四个预训练目标结合起来，形成语音-文本预训练的联合预训练目标：
$L=\alpha L_{TPP}+L_{CRS}+L_{CMLM}+L_{CMAM} \kern10em(8)$

3.3 对下游任务进行微调

我们在四个下游任务上对 SPECTRA 进行了微调，包括多模态情感分析( MSA )、会话中的情感识别( ERC )、口语理解( SLU )和对话状态跟踪( DST )。

我们使用 $H_i$ 中令牌 $< s >$ 的隐藏状态，记为 $h_i$ ，并将其通过具有两个完全连接层和它们之间的 $GE LU$ 激活的预测头来获得预测：
$y_i = W^{(2)} \sigma ( W^{(1)} h_i + b^{(1)} ) + b^{(2)} \kern 5em(9)$
其中， $\sigma$ 为 $GE LU$ 激活函数， $W^{(1)} \in \mathbb{R}^{d_h×d_h}$ , $W^{(2)} \in \mathbb{R}^{d_h×d_o}$ ， $b^{(1)} \in \mathbb{R}^{d_h}$ ， $b^{(2)} \in \mathbb{R}^{d_o}$ 是微调阶段新的可学习参数。 $MS A$ 任务的输出大小为1， $ERC$ 和 $S LU$ 的输出大小为相应的类数。我们采用误差的平方损失作为 $MS A$ 的微调损失函数。剩下的任务利用交叉熵损失。

4.Experiments

4.1 预训练数据

在本文中，我们采用 Spotify100K 预训练 SPECTRA ，这是一个真实场景语音-文本对话数据集。Spotify100K 包含 105360 个播客集，近6万小时的演讲，涵盖各种类型、主题、演讲风格和结构格式。语料库还提供自动生成的词级文本转录，标记每个词在演讲中的开始和结束时间。

为了与之前的语音文本预训练研究进行公平的比较，我们只使用前 960 小时的语音以及相应的转录本来预训练我们的 SPECTRA 模型。

4.2 实验设置

基线除了为 MSA、ERC、SLU 和 DST 量身定制的最先进的下游模型(参见第4.3-4.6节)外，我们还将 SPECTRA 与三种类型的预训练模型进行了比较，包括文本模态预训练模型 RoBERTa 、语音模态预训练模型 WavLM 和语音-文本多模态预训练模型 CTAL 。

预训练时的实验设置 我们使用 Spotify100K 数据集的前 960 小时的语音和文本文本进行预训练。我们将语音波形切成最大长度为 10 秒的切片，并将每个切片与相应的抄本一起视为单个对话回合，总共形成 356380 个对话回合。通过使用这些对话并将 k 设置为最大值 7 ，我们构建了 350784 个样本，其中每个样本由 2~8 个文本对话回合和 2 个语音回合组成。

此外，我们使用预训练模型 RoBERTabase 和 WavLM-base+ 分别初始化我们的文本和语音编码器。由于我们的语音编码器比 WavLM-base+ 多了一个卷积层，因此我们只使用预训练参数初始化前七个卷积层，并随机初始化最后一层。文本和语音编码器都有 12 个 Transformer 层，隐藏大小 $d_h$ 为 768 。我们在 8 个 Tesla-A100 GPU 上预训练了 100 个 epoch 的 SPECTRA 模型，每个 GPU 的批处理大小为 20 个。我们使用 AdamW 来优化我们的模型，其峰值学习率为 $1 × 10^{−4}$ ，并对前 $1\%$ 的更新进行线性预热。

微调时的实验设置 对于 SpokenWoz 数据集，每个对话回合由两个话语组成，一个来自用户，另一个来自系统。对于其他数据集，每个对话回合是一个单一的话语。对于所有数据集，我们将每个对话回合的语音长度截断为最多 $10$ 秒。我们使用 AdamW 优化器对每个下游数据集上的预训练检查点进行微调，其峰值学习率为 $2 × 10^{−5}$ ，并进行余弦退火预热。

4.3 在MSA上微调

对于 MSA 任务，我们的模型旨在预测给定多模态输入的积极或消极情绪极性。我们在两个多模态数据集 MOSI 和 MOSEI 上进行了实验，以评估我们的模型对 MSA 任务的有效性。我们采用正面/负面情绪分类的准确性(表示为 Acc2 )作为我们的模型和基线的评估指标。实验结果见表1。

从结果中，我们可以观察到我们的模型在两个数据集上都比以前的最先进( SOTA )方法取得了更好的性能。特别是，对于 MOSI 数据集，精度比最强基线 MIB 提高了 $3.10\%$ 。此外，如表2所示，我们的 SPECTRA 还显著优于语音模态预训练模型 WavLM 和语音-文本预训练模型 CTAL 。

4.4 对ERC进行微调

ERC 任务要求该模型根据语音片段的文本和对话历史来预测话语的情感类别。在这里，我们使用广泛使用的 IEMOCAP 数据集微调我们的模型，并遵循 Chudasama 等人的设置来执行六向分类任务。对于每个样本，我们构建了 11 个文本回合和 2 个语音回合，最大文本长度为512 。

在表 1 中，我们报告了我们的模型和以前的 SOTA 方法 M2FNET 的六向分类的准确率。此外，从表 2 中可以看出，我们的方法优于单模态预训练模型，以及语音-文本预训练基线 CTAL 。与单模态基线 RoBERTa 和 WavLM 相比，我们的模型受益于捕获模态之间相互作用和对齐的多模态预训练任务。与 CTAL 相比，我们的模型在 TPP 和 CRS 预训练任务的帮助下具有更好的语音文本对齐和多回合对话上下文信息。

4.5 SLU的微调

我们还对口语理解( SLU )任务进行了实验，该任务旨在预测用户意图，给出了带有文本文本的口语话语。我们使用 MIntRec 作为 SLU 的实验数据集，并采用分类准确率作为评价指标。

从表 $1$ 和表 $2$ 可以看出，SPECTRA 得到的结果明显好于之前的方法。特别是，我们的 SPECTRA 模型将 RoBERTa 和之前的 SOTA 方法 MAGG-BERT 的结果分别提高了 $1.55\%$ 和 $2.47\%$ 。与 WavLM 和 CTAL 相比，我们的模型可以捕获文本数据中的语义信息和每个对话框中的上下文信息。

4.6 DST的微调

对于对话状态跟踪，我们使用一个名为 SpokenWoz 的大规模跨模态数据集。数据集是通过使用 Appen 平台的电话录音众包收集的。使用商业 ASR 系统获得转录，并使用类似于 MultiWoz 的模态对语音-文本对进行注释。SpokenWoz 由 204,000 个回合，5.7k 个对话和 249 小时的录音组成。我们采用联合目标准确率( JGA )作为评价指标，在每个回合比较预测和真实的对话状态。我们遵循 Trippy ，用我们的SPECTRA 模型替换其上下文模型 BERT。

如表 $1$ 所示，我们的模型优于以前的 $SOT A$ 方法 SPACE+WavLM+TripPy 。此外，我们的模型也明显超过了三个预训练基线。这表明更好的语音-文本对齐对于处理复杂的对话至关重要。

5.Analysis

5.1 消融实验

为了更好地理解我们的 SPECTRA 预训练方法的有效性，我们研究了预训练成分和对话历史对 SPECTRA 整体性能的影响。我们在表 2 中报告了消融试验结果。

预训练的影响 为了证明多模态预训练的有效性，我们直接使用单模态编码器并随机初始化模态融合模块。通过比较 $(a)$ “无多模态预训练”与所有五个数据集上的其他预训练设置，我们观察到显著的性能下降。特别是，设置 $(a)$ 直接在 ERC 任务上崩溃，这是一个复杂的会话场景。这验证了跨模态预训练和语音-文本模态对齐的必要性。此外，通过比较 SPECTRA 和设置 $(b)$ “使用更少的预训练数据”，我们可以发现使用更多的预训练数据可以进一步提高我们模型的性能。

TPP和CRS的影响 通过对比设置 $(c) “ w / o TPP ”$ 与 SPECTRA ，在5个数据集上的性能都有不同程度的下降，验证了我们的 TPP 预训练任务的泛化和有效性。具体来说，在 SpokenWoz 上，性能明显下降，这就要求模型具有更强的对齐两种模态的能力。这说明我们的 TPP预训练任务赋予了模型更强的一致性建模能力。对于使用 SPECTRA 设置 $(d) “ w / o CRS ”$ ，在 ERC 和 DST 等多回合对话任务上性能显著下降。这表明 CRS 任务对于多回合对话上下文的建模至关重要。

对话历史的影响 在设置 $(e)$ “使用1轮文本对话历史”中，每个实例由2轮配对的语音和文本组成。与 SPECTRA 相比，模型在 ERC 和DST 下游任务上的性能明显下降。这表明在预训练阶段增加对话历史对需要多回合对话上下文的任务是有益的。

5.2 Case study

为了直接理解我们如何在我们提出的 SPECTRA 模型中学习跨模态相互作用，我们通过提供从 MIntRec 数据集中采样的两个案例进行了案例研究。没有 TPP 预训练的模型对这两种情况的预测是错误的，而我们的 SPECTRA 模型对这两种情况的预测是正确的。在图 3 中，我们可视化了模型中融合层的自注意权重，以及未进行 TPP 预训练的模型(表示为 w/o TPP)。从图 $3 (a)$ 和 $3 (c)$ 中，我们观察到在提出的SPECTRA 模型的融合层中存在丰富的跨模相互作用。我们的模型可以捕获文本和语音之间的细粒度信息，从而进行更准确的分类。相反，我们也在图 $3 (b)$ 和 $3 (d)$ 中可视化了 w/o TPP 模型的自注意权重。这两种情况都表明，文本和语音序列在自我注意层中很少相互联系。

在表 3 中，我们也展示了 SPECTRA 和 w/o TPP 得到的意图预测结果。从结果中，我们可以观察到我们的模型可以有效地关注文本和语音序列，以预测正确的意图结果。然而，w/o TPP 被错误的标签所迷惑，因为它几乎不关注语音标记，这表明它有忽略只存在于语音中的有用信息的倾向。

6.总结

在本文中，我们提出了我们的模型 SPECTRA，这是第一个语音-文本对话预训练模型。考虑到语音和文本模态的时间性，我们引入了一种新的时间位置预测预训练任务来学习词级语音文本对齐。为了在我们的模型中捕获多模态对话上下文，我们将响应选择任务推广到多模态场景。大量实验表明，我们的预训练方法可以更好地学习跨模态交互以及多模态上下文信息，并且明显优于其他强基线。在未来，我们希望将语音文本对话预训练扩展到更多的模式或生成任务。

限制

我们分析了这项工作的局限性，以便在未来的工作中进一步提高我们的模型的性能。根据我们的经验观察，我们揭示了一些局限性，这些局限性可以分为两大类。 $(1)$ 首先，我们提出的 SPECTRA 方法依赖于具有显式词级语音-文本对齐注释的大规模口语对话语料库，如Spotify100K 。这限制了我们的模型在更多口语对话语料库中的通用性。

在未来，我们希望开发一种半监督预训练方法来利用标记和未标记的数据集。 $(2)$ 其次，我们的方法主要是为语音-文本理解而设计的，尚未对生成任务进行充分的探索。我们计划为每个训练目标设计对话生成，以增强模型的生成能力。 $(3)$ 第三，这项工作只涉及语音和文本模态。我们感兴趣的是处理更多的模态，如图像或视频，以丰富联合表示中的跨模态信息。

zynq设计学习笔记2——GPIO之MIO控制LED实验墨漓_lyl FPGA之zynq设计学习笔记嵌入式 fpga
vivado软件操作步骤与学习笔记1——helloworld差不多，这里不再过多赘述，不同点是在zynq的设置中添加上GPIO的设置即可。进入SDK软件后，程序如下：#include"stdio.h"#include"xparameters.h"#include"xgpiops.h"#include"sleep.h"#defineGPIO_DEVICE_IDXPAR_XGPIOPS_0_DEVIC
Ubuntu-Server 设置多个ip和多个ipv6 笔记250320 kfepiza #Linux CentOS Ubuntu 等 #控制台命令行 Shell脚本 sh cmd 等网络通讯传输协议物联 ubuntu tcp/ip 笔记
Ubuntu-Server设置多个ip和多个ipv6在UbuntuServer上为同一网卡配置多个IPv4和IPv6地址，Ubuntu-server-16用的是/etc/network/interfaces配置的networkingUbuntu-server-17.10及更新版本默认用的是systemd-networkd+Netplan,用Netplan来管理systemd-networkd对于U
RK3588开发笔记-buildroot添加telnet服务 flypig哗啦啦 RK3588 buildroot busybox
目录前言一、Telnet服务背景与适用场景二、telnet服务开启Busybox配置三、固件编译及烧录RK3588烧录验证客户端连接测试3.1Linux/MacOS连接3.2Windows连接总结前言本文主要介绍在RK3588SDK文件包中添加telnet服务，由于sdkbuildroot默认添加的是ssh服务，如用户需要主动开启telnet，则需要另外在busybox中开启telnetd服务，下
Github上神仙级大模型项目：大语言模型(LLM)入门学习路线图，三个月让你从大模型基础到精通！ AI大模型-大飞 github 语言模型学习人工智能 AI大模型程序员 AI
Github项目上有一个大语言模型学习路线笔记，它全面涵盖了大语言模型的所需的基础知识学习，LLM前沿算法和架构，以及如何将大语言模型进行工程化实践。这份资料是初学者或有一定基础的开发/算法人员入门活深入大型语言模型学习的优秀参考。这份资料重点介绍了我们应该掌握哪些核心知识，并推荐了一系列优质的学习视频和博客，旨在帮助大家系统性地掌握大型语言模型的相关技术。大语言模型（LargeLanguageM
《Operating System Concepts》阅读笔记：p460-p4470 操作系统
《OperatingSystemConcepts》学习第36天，p460-p4470总结，总计11页。一、技术总结无。二、英语总结(生词：3)1.lifespan(1)lifespan:life+span("theperiodoftimethatsthexistsorhappens")c.也写作life-span,thelengthoftimeforwhichathingexists(寿命)。(2
小菜鸟的Python笔记001：将Word文档中数据汇总到Excel表格蜉蝣2805 小菜鸟的Python笔记 python 数据分析
将Word文档中数据汇总到Excel表格前言一、应用场景二、程序思路及准备工作思路如下：准备工作：三、程序代码1、主程序2、获取Word文档列表3、提取文档内数据4、导入到Excel表格四、遇到的问题1、错误AttributeError:word.Application.Quit2、word文档中复选框的识别总结前言我并非一个专业的程序员，只是一个普通的编程爱好者、一只小菜鸟。得益于网络上各路大神
linux+docker安装常见中间件+shell学习笔记芦屋花绘 linux docker 中间件
初始设置下载虚拟机软件：选择适合的虚拟机软件（如VirtualBox或VMware）。下载操作系统ISO映像文件：选择并下载你想安装的Linux发行版（例如Ubuntu、CentOS等）的ISO文件。ISO映像文件：是包含了完整光盘内容的文件，包含引导记录、文件系统、数据文件和目录结构。导入ISO文件到虚拟机，并进行相关配置，如分配内存、硬盘空间等。了解基本linuxLinux常见目录及其用途Li
rabbitmq笔记 java
消息可靠性rabbitmq向消费者投递消息后，有可能会丢失，有可能会重复投递。比如：投递过程网络故障消费者收到消息后宕机消费者接收到消息后处理不当导致异常...rabbitmq需要做的事：机制消费者确认机制消费者处理成功后需要通知发幂等性幂等性指同一个业务，执行一次或多次对业务状态的影响是一致的例如唯一消息id业务状态判断但是数据的更新往往不是幂等的，所以需要确保幂等性确保幂等性方法有两种方案唯一
mysql数据库学号数据类型_MySQL数据库学习笔记（二）----MySQL数据类型艾萨里昂之光 mysql数据库学号数据类型
【正文】上一章节中，我们学习了MySQL软件的安装，既然软件都装好了，现在就正式开始MySQL的基础知识的学习吧，即使是零基础，也要一步一个脚印。恩，首先要学习的就是MySQL的数据类型。一、数据类型：1、整型(xxxint)2、浮点型(float和double)3、定点数(decimal)4、字符串(char,varchar,xxxtext)5、二进制数据(xxxBlob)6、日期时间类型二、数
笔记本Win7系统无线网名称显示乱码解决方案 mmoo_python windows
笔记本Win7系统无线网名称显示乱码解决方案在使用Windows7操作系统的笔记本电脑时，用户可能会遇到无线网络名称显示乱码的问题。这一问题不仅影响了用户识别无线网络的便利性，还可能阻碍正常的网络连接。本文将详细介绍解决这一问题的方法，帮助用户恢复无线网名称的正常显示。具体解决方法1.打开控制面板首先，我们需要进入Windows7的控制面板。可以通过点击开始菜单，然后在搜索框中输入“控制面板”来快
mysql笔记 m0_67015473 mysql 笔记
mysql日志分析错误日志日志默认开启，查询showvariableslike“%error_log%”，日志存在于/var/log/mysqld.log二进制日志日志默认开启，记录所有的DDL(Create等)和DML(insert等)，但不包括数据查询（SELECT、SHOW)语句作用：灾难时的数据恢复mysql的主从复制查询showvariableslike“%log_bin%”，日志存在于
学习笔记——GPU 鹤岗小串 gpu算力分布式信息与通信系统架构硬件架构运维笔记
本文为学习笔记，故只对知识点依据自己的理解作概要总结，方便以后复习激活记忆。注：本文中GPU的讲解以A100型号为例，V100跟A100的架构差别不大也可适用，但是其他架构可能会有所出入。一、GPU硬件结构NVIDIAA100GPU的硬件结构HBM2：显存MemoryController：负责控制HBM2和L2Cache之间的通信High-SpeedHub：GPU总线，将NVLink、PCIE、E
【QT入门】 Qt槽函数五种常用写法介绍不吃~香菜 QT入门 qt 开发语言槽函数信号槽
声明：该专栏为本人学习Qt知识点时候的笔记汇总，希望能给初学的朋友们一点帮助(加油！)往期回顾：【QT入门】实现一个简单的图片查看软件-CSDN博客【QT入门】图片查看软件(优化)-CSDN博客【QT入门】lambda表达式(函数)详解-CSDN博客【QT入门】Qt槽函数五种常用写法介绍一、信号槽基本概念Qt的信号槽是一种用于处理事件和通信的机制，是Qt框架中的一个重要特性。信号槽机制使得对象之间
【QT入门】qmake和cmake的简单区别不吃~香菜 QT入门 qt 开发语言学习 qmake cmake
声明：该专栏为本人学习Qt知识点时候的笔记汇总，希望能给初学的朋友们一点帮助(加油！)往期回顾：【QT入门】Windows平台下QT的编译过程-CSDN博客【QT入门】VS2019+QT的开发环境配置-CSDN博客【QT入门】VS2019和QTCreator如何添加第三方模块-CSDN博客【QT入门】qmake和cmake的简单区别qmake和cmake是两种常用的构建工具，用于自动化构建C++项
读书笔记五 ---大数据之路--数仓分层 qq_38215991 big data 大数据
数据分层在流式数据模型中,数据模型整体上分为五层。ODS层跟离线系统的定义一样,ODS层属于操作数据层,是直接从业务系统采集过来的最原始数据（进行了数据清洗）,包含了所有业务的变更过程,数据粒度也是最细的。在这一层,实时和离线在源头上是统一的,这样的好处是用同一份数据加工出来的指标,口径基本是统一的,可以更方便进行实时和离线问数据比对。例如:原始的订单变更记录数据、服务器引擎的访同日志。（原始数据
侯捷 C++ 课程学习笔记：深入掌握 C++ 高阶特性 —— 实践与心得分享清水白石008 C++学习笔记课程教程 c++学习笔记
侯捷C++课程学习笔记：深入掌握C++高阶特性——实践与心得分享自从开始接触侯捷C++系列精品课程以来，我对C++语言有了全新的认识与深入理解。这套课程不仅系统地梳理了C++的基础知识，更从实际案例中展示了许多高阶特性和工程实战技巧。作为一名长期从事C++开发的专业人士，我深深感受到侯捷老师讲解中那种由浅入深、逻辑严密的魅力，也正是这种教学风格让我在短时间内掌握了不少难以琢磨的知识点。今天，我将结
WHAM 人体3d重建部署笔记 AI算法网奇深度学习宝典 3d 笔记
目录依赖项：mmpose的依赖项：demo脚本WHAM:ReconstructingWorld-groundedHumanswithAccurate3DMotion2024依赖项：pipinstallmmposemmpose的依赖项：mmcv>=2.0.0,=3.0.0,=0.4.0,<1.0.0demo脚本Youcantrywithoneexamplarvideo:pythondemo.py--
达梦数据库学习笔记 lwq979991632 数据库
达梦数据库学习资料一、操作系统安装1、配置信息CPU：4核心内存：4G网络：NAT2.安装包选择选择带GUI的服务器，勾选Java平台、KDE二、安装前准备1.数据库远程访问：关闭防火墙systemctlstopfirewalld（禁用）systemctldisablefirewalld(停止，关闭开机自启动)systemctlstatusfirewalld（查看状态）2.安装gcc包rpm-qa
【自学笔记】Linux基础知识点总览-持续更新 Long_poem 笔记 linux 运维
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录Linux基础知识点总览目录Linux简介文件和目录结构常用命令文件操作目录操作权限管理文本处理Shell脚本基础进程管理用户和组管理网络配置总结Linux基础知识点总览目录Linux简介文件和目录结构常用命令文件操作目录操作权限管理文本处理Shell脚本基础进程管理用户和组管理网络配置Linux简介Linux是一个基于Uni
c++算法赛万能模板个人笔记适用蓝桥杯，天梯赛，acm等赛事 a东方青个人笔记 c++算法笔记
算法笔记-更新与2025-3-22点赞收藏+关注持续更新算法基础二分整数二分//在一个单调区间里面去找答案boolcheck(intx){/*...*/}//检查x是否满足某种性质//区间[l,r]被划分成[l,mid]和[mid+1,r]时使用：intbsearch_1(intl,intr){while(l>1;if(check(mid))r=mid;//check()判断mid是否满足性质el
【Azure 架构师学习笔记】- Azure Networking(1) -- Service Endpoint 和 Private Endpoint 發糞塗牆 Azure 架构师学习笔记 Azure 网络安全 azure Network
本文属于【Azure架构师学习笔记】系列。本文属于【AzureNetworking】系列。前言最近公司的安全部门在审计云环境安全性时经常提到serviceendpoint（SE）和priavateendpoint（PE）的术语，为此做了一些研究储备。云计算的本质就是网络，默认情况下资源间及外部都是通过公网也就是互联网访问。为了安全，Azure引入了SE和PE等服务。云环境网络流动主要有两个：inb
计算机基础：编码02，有符号数编码，原码水饺编程 MFC学习笔记 Win32学习笔记 c++windows mfc c语言
专栏导航本节文章分别属于《Win32学习笔记》和《MFC学习笔记》两个专栏，故划分为两个专栏导航。读者可以自行选择前往哪个专栏。（一）WIn32专栏导航上一篇：计算机基础：编码01，无符号数编码回到目录下一篇：计算机基础：编码03，根据十进制数，求其原码（二）MFC专栏导航上一篇：计算机基础：编码01，无符号数编码回到目录下一篇：计算机基础：编码03，根据十进制数，求其原码本节前言上一节，我是讲解
「Kubernetes Objects」- Service（学习笔记） @20210227 k4nzdroid
Service，服务，用于暴露Pod以供访问。官方文档及手册KubernetesAPIv1.18/Servicev1coreService?Pod会被创建，并且还会消失，这由ReplicaSets控制。每个Pod都有自己的IP地址，但是这些IP地址不能视为可靠的。那么，如果前端的一部分Pod依赖于后端的Pod，那前端的这些Pod如何找出并追踪后端的Pod？ServiceService是一个抽象，定
k8s学习笔记（3）--- kubernetes核心技术概念梦谜 k8s基础知识 k8基本核心概念
kubernetes核心技术概念1.容器（Container）2.API对象3.集群（Cluster）4.Master5.Node6.Pod7.复制控制器（ReplicationController，RC）8.副本集（ReplicaSet，RS）9.部署(Deployment)10.服务（Service）11.任务（Job）12.定时任务（CronJob）13.后台支撑服务集（DaemonSet）
关于Go那些懒得看又不得不知道的东西 Hock2024 golang 开发语言后端
写在前面当开始学习go，亦或是cpp、还是java向go进行转职，这部分内容都是比较重要的。go的编译环境，模块管理以及一些基本的语法我认为还是很有必要去学习的，因此重新学习了这个部分并且写下下面的学习笔记！如果有写错或者不全面的地方，还希望大家及时纠正和指导。连接环境首先，作为一个后端er，能使用linux系统是必备的技能，这里我建议可以使用Xshell连接云服务器的方案来完成。云服务器建议使用
Eagle_Wood-滤波方式学习笔记 OverflowSummer 嵌入式泛用知识学习笔记人工智能算法嵌入式硬件笔记学习
//1.移动平均滤波器（信号处理）#defineWINDOW_SIZE5floatmoving_average(float*buffer,floatnew_sample){ staticfloatsum=0; staticintindex=0; staticfloatsamples[WINDOW_SIZE]={0}; sum-=samples[index]; samples[ind
AWS SAP学习笔记-概念 HainesFreeman AWS aws
1、什么是ETL应用程序，举个例子说明？ETL（Extract,Transform,Load）应用程序是一种用于数据处理和迁移的工具或程序，它主要负责从多个数据源提取数据，对数据进行转换和清洗，然后将处理后的数据加载到目标数据仓库或数据库中。ETL应用程序广泛应用于数据集成、数据仓库构建、数据分析和数据迁移等场景。ETL的三个主要步骤：Extract（提取）：从各种数据源（如数据库、文件、API等
2025.03.22【读书笔记】| fastq-multx：高效barcode拆分数据解决工具穆易青读书笔记数据处理读书笔记 linux 运维服务器
文章目录1.工具介绍为什么需要`fastq-multx`？`fastq-multx`的特点2.安装方式通过源代码编译安装使用包管理器安装3.使用命令基本命令高级参数设置结语1.工具介绍在生物信息学的世界里，工具的选择至关重要。今天，我们要介绍的这个工具，就是fastq-multx，一个用于高效barcode去复用和demultiplex的解决方案。fastq-multx是一个专门设计用于处理高通量
《java面向对象(5)》＜不含基本语法＞ java小白板 java 开发语言
本笔记基于黑马程序员java教程整理，仅供参考1.异常1.1异常分类1.1.1Error指系统级别的错误，程序员无法解决，不必理会1.1.2Exception（异常）分为两类：RuntimeException：运行时异常，编译时程序不会报错，运行时报错，如数组越界其他异常：编译时异常，编译时就会报错运行时异常：publicclassText{publicstaticvoidmain(String[
S32K144入门笔记（二十）：eDMA的API函数解读上层精灵的赞美诗 S32K144入门笔记系列单片机嵌入式硬件 eclipse mcu 笔记
文章目录1.SDK中的函数2.API函数的释义1.SDK中的函数在SDK中并没有转为PDB设置专门的PAL驱动，在基本的DRIVER库中一共有32个API函数，本文将解读这些函数的功能。2.API函数的释义status_tEDMA_DRV_Init(edma_state_t*edmaState,constedma_user_config_t*userConfig,edma_chn_state_t*
ASM系列六利用TreeApi 添加和移除类成员 lijingyao8206 jvm 动态代理 ASM 字节码技术 TreeAPI
同生成的做法一样，添加和移除类成员只要去修改fields和methods中的元素即可。这里我们拿一个简单的类做例子，下面这个Task类，我们来移除isNeedRemove方法，并且添加一个int 类型的addedField属性。 package asm.core; /** * Created by yunshen.ljy on 2015/6/
Springmvc-权限设计 bee1314 spring Web jsp
万丈高楼平地起。权限管理对于管理系统而言已经是标配中的标配了吧，对于我等俗人更是不能免俗。同时就目前的项目状况而言，我们还不需要那么高大上的开源的解决方案，如Spring Security，Shiro。小伙伴一致决定我们还是从基本的功能迭代起来吧。目标： 1.实现权限的管理（CRUD） 2.实现部门管理（CRUD) 3.实现人员的管理（CRUD） 4.实现部门和权限
算法竞赛入门经典（第二版）第2章习题 CrazyMizzz c 算法
2.4.1 输出技巧 #include <stdio.h> int main() { int i, n; scanf("%d", &n); for (i = 1; i <= n; i++) printf("%d\n", i); return 0; } 习题2-2 水仙花数(daffodil
struts2中jsp自动跳转到Action 麦田的设计者 jsp webxml struts2 自动跳转
1、在struts2的开发中，经常需要用户点击网页后就直接跳转到一个Action，执行Action里面的方法，利用mvc分层思想执行相应操作在界面上得到动态数据。毕竟用户不可能在地址栏里输入一个Action（不是专业人士） 2、＜jsp:forward page="xxx.action" /＞，这个标签可以实现跳转，page的路径是相对地址,不同与jsp和j
php 操作webservice实例 IT独行者 PHP webservice
首先大家要简单了解了何谓webservice，接下来就做两个非常简单的例子，webservice还是逃不开server端与client端。我测试的环境为：apache2.2.11 php5.2.10做这个测试之前，要确认你的php配置文件中已经将soap扩展打开，即extension=php_soap.dll; OK 现在我们来体验webservice //server端 serve
Windows下使用Vagrant安装linux系统 _wy_ windows vagrant
准备工作：下载安装 VirtualBox ：https://www.virtualbox.org/ 下载安装 Vagrant ：http://www.vagrantup.com/ 下载需要使用的 box ：官方提供的范例：http://files.vagrantup.com/precise32.box 还可以在 http://www.vagrantbox.es/
更改linux的文件拥有者及用户组(chown和chgrp) 无量 c linux chgrp chown
本文（转） http://blog.163.com/yanenshun@126/blog/static/128388169201203011157308/ http://ydlmlh.iteye.com/blog/1435157 一、基本使用：使用chown命令可以修改文件或目录所属的用户：命令
linux下抓包工具矮蛋蛋 linux
原文地址： http://blog.chinaunix.net/uid-23670869-id-2610683.html tcpdump -nn -vv -X udp port 8888 上面命令是抓取udp包、端口为8888 netstat -tln 命令是用来查看linux的端口使用情况 13 . 列出所有的网络连接 lsof -i 14. 列出所有tcp 网络连接信息 l
我觉得mybatis是垃圾！：“每一个用mybatis的男纸，你伤不起” alafqq mybatis
最近看了每一个用mybatis的男纸，你伤不起原文地址：http://www.iteye.com/topic/1073938 发表一下个人看法。欢迎大神拍砖；个人一直使用的是Ibatis框架，公司对其进行过小小的改良；最近换了公司，要使用新的框架。听说mybatis不错；就对其进行了部分的研究；发现多了一个mapper层；个人感觉就是个dao；
解决java数据交换之谜百合不是茶数据交换
交换两个数字的方法有以下三种，其中第一种最常用 /* 输出最小的一个数 */ public class jiaohuan1 { public static void main(String[] args) { int a =4; int b = 3; if(a<b){ // 第一种交换方式 int tmep =
渐变显示 bijian1013 JavaScript
<style type="text/css"> #wxf { FILTER: progid:DXImageTransform.Microsoft.Gradient(GradientType=0, StartColorStr=#ffffff, EndColorStr=#97FF98); height: 25px; } </style>
探索JUnit4扩展：断言语法assertThat bijian1013 java 单元测试 assertThat
一.概述 JUnit 设计的目的就是有效地抓住编程人员写代码的意图，然后快速检查他们的代码是否与他们的意图相匹配。 JUnit 发展至今，版本不停的翻新，但是所有版本都一致致力于解决一个问题，那就是如何发现编程人员的代码意图，并且如何使得编程人员更加容易地表达他们的代码意图。JUnit 4.4 也是为了如何能够
【Gson三】Gson解析{"data":{"IM":["MSN","QQ","Gtalk"]}} bit1129 gson
如何把如下简单的JSON字符串反序列化为Java的POJO对象? {"data":{"IM":["MSN","QQ","Gtalk"]}} 下面的POJO类Model无法完成正确的解析： import com.google.gson.Gson;
【Kafka九】Kafka High Level API vs. Low Level API bit1129 kafka
1. Kafka提供了两种Consumer API High Level Consumer API Low Level Consumer API(Kafka诡异的称之为Simple Consumer API，实际上非常复杂) 在选用哪种Consumer API时，首先要弄清楚这两种API的工作原理，能做什么不能做什么，能做的话怎么做的以及用的时候，有哪些可能的问题
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-归并排序 bylijinnan java
import java.util.Arrays; public class MergeSort { public static void main(String[] args) { int[] a={20,1,3,8,5,9,4,25}; mergeSort(a,0,a.length-1); System.out.println(Arrays.to
Netty源码学习-CompositeChannelBuffer bylijinnan java netty
CompositeChannelBuffer体现了Netty的“Transparent Zero Copy” 查看API（ http://docs.jboss.org/netty/3.2/api/org/jboss/netty/buffer/package-summary.html#package_description）可以看到，所谓“Transparent Zero Copy”是通
Android中给Activity添加返回键 hotsunshine Activity
// this need android:minSdkVersion="11" getActionBar().setDisplayHomeAsUpEnabled(true); @Override public boolean onOptionsItemSelected(MenuItem item) {
静态页面传参 ctrain 静态
$(document).ready(function () { var request = { QueryString : function (val) { var uri = window.location.search; var re = new RegExp("" + val + "=([^&?]*)", &
Windows中查找某个目录下的所有文件中包含某个字符串的命令 daizj windows 查找某个目录下的所有文件包含某个字符串
findstr可以完成这个工作。 [html] view plain copy >findstr /s /i "string" *.* 上面的命令表示，当前目录以及当前目录的所有子目录下的所有文件中查找"string&qu
改善程序代码质量的一些技巧 dcj3sjt126com 编程 PHP 重构
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短尽管很多人都遵
SharedPreferences对数据的存储 dcj3sjt126com
SharedPreferences简介： &nbs
linux复习笔记之bash shell (2) bash基础 eksliang bash bash shell
转载请出自出处： http://eksliang.iteye.com/blog/2104329 1.影响显示结果的语系变量（locale） 1.1locale这个命令就是查看当前系统支持多少种语系，命令使用如下： [root@localhost shell]# locale LANG=en_US.UTF-8 LC_CTYPE="en_US.UTF-8"
Android零碎知识总结 gqdy365 android
1、CopyOnWriteArrayList add(E) 和remove(int index)都是对新的数组进行修改和新增。所以在多线程操作时不会出现java.util.ConcurrentModificationException错误。所以最后得出结论：CopyOnWriteArrayList适合使用在读操作远远大于写操作的场景里，比如缓存。发生修改时候做copy，新老版本分离，保证读的高
HoverTree.Model.ArticleSelect类的作用 hvt Web .net C#hovertree asp.net
ArticleSelect类在命名空间HoverTree.Model中可以认为是文章查询条件类，用于存放查询文章时的条件，例如HvtId就是文章的id。HvtIsShow就是文章的显示属性，当为-1是，该条件不产生作用，当为0时，查询不公开显示的文章，当为1时查询公开显示的文章。HvtIsHome则为是否在首页显示。HoverTree系统源码完全开放，开发环境为Visual Studio 2013
PHP 判断是否使用代理 PHP Proxy Detector 天梯梦 proxy
1. php 类 I found this class looking for something else actually but I remembered I needed some while ago something similar and I never found one. I'm sure it will help a lot of developers who try to
apache的math库中的回归——regression（翻译） lvdccyb Math apache
这个Math库，虽然不向weka那样专业的ML库，但是用户友好，易用。多元线性回归，协方差和相关性（皮尔逊和斯皮尔曼），分布测试（假设检验，t，卡方，G），统计。数学库中还包含，Cholesky，LU，SVD，QR，特征根分解，真不错。基本覆盖了：线代，统计，矩阵，最优化理论曲线拟合常微分方程遗传算法（GA），还有3维的运算。。。
基础数据结构和算法十三：Undirected Graphs (2) sunwinner Algorithm
Design pattern for graph processing. Since we consider a large number of graph-processing algorithms, our initial design goal is to decouple our implementations from the graph representation
云计算平台最重要的五项技术 sumapp 云计算云平台智城云
云计算平台最重要的五项技术 1、云服务器云服务器提供简单高效，处理能力可弹性伸缩的计算服务，支持国内领先的云计算技术和大规模分布存储技术，使您的系统更稳定、数据更安全、传输更快速、部署更灵活。特性机型丰富通过高性能服务器虚拟化为云服务器，提供丰富配置类型虚拟机，极大简化数据存储、数据库搭建、web服务器搭建等工作；仅需要几分钟，根据CP
《京东技术解密》有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的12月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 12月试读活动回顾： http://webmaster.iteye.com/blog/2164754 本次技术图书试读活动获奖名单及相应作品如下：一等奖（两名） Microhardest：http://microhardest.ite

Speech-Text Dialog Pre-training for Spoken Dialog Understanding with Explicit Cross-Modal Alignment

Speech-Text Dialog Pre-training for Spoken Dialog Understanding with Explicit Cross-Modal Alignment

1. Introduction

2. Related Work

3. Method

3.1 The Backbone Architecture (主干架构)

3.1.1 数据准备

3.1.2 Text Embeddings

3.1.3 Uni-modal Encoders

3.1.4 模态融合块

3.2 预训练任务

3.2.1 时间位置预测(TPP)

3.2.2 跨模态响应选择

3.2.3 跨模态掩模数据建模

3.2.4 联合预训练目标

3.3 对下游任务进行微调

4.Experiments

4.1 预训练数据

4.2 实验设置

4.3 在MSA上微调

4.4 对ERC进行微调

4.5 SLU的微调

4.6 DST的微调

5.Analysis

5.1 消融实验

5.2 Case study

6.总结

限制

你可能感兴趣的:(研究性论文相关笔记,语音识别)