AI视野·今日CS.Sound 声学论文速览
Thu, 5 Oct 2023
Totally 13 papers
上期速览✈更多精彩请移步主页
Multi-resolution HuBERT: Multi-resolution Speech Self-Supervised Learning with Masked Unit Prediction Authors Jiatong Shi, Hirofumi Inaguma, Xutai Ma, Ilia Kulikov, Anna Sun 现有的语音自监督学习 SSL 模型通常以 20 毫秒的固定分辨率处理语音信号。这种方法忽略了语音信号中不同分辨率下存在的不同信息内容。相比之下,本文旨在将多分辨率信息纳入语音自监督表示学习中。我们引入了一种 SSL 模型,该模型利用分层 Transformer 架构,并辅以 HuBERT 风格的屏蔽预测目标,以处理多种分辨率的语音。实验结果表明,所提出的模型不仅实现了更有效的推理,而且在各种任务上都表现出了优于原始 HuBERT 模型或相当的性能。 |
BA-MoE: Boundary-Aware Mixture-of-Experts Adapter for Code-Switching Speech Recognition Authors Peikun Chen, Fan Yu, Yuhao Lian, Hongfei Xue, Xucheng Wan, Naijun Zheng, Huan Zhou, Lei Xie 基于专家的混合模型利用语言专家有效地提取语言特定表示,已在代码切换自动语音识别中得到很好的应用。然而,由于不同语言之间的相似发音可能会导致无效的多语言建模和不准确的语言边界估计,因此仍有很大的改进空间。为了消除这些缺点,我们提出了一种跨层语言适配器和边界感知训练方法,即边界感知混合专家 BA MoE 。具体来说,我们引入了特定于语言的适配器来分离特定于语言的表示,并引入了统一的门控层来融合每个编码器层内的表示。其次,我们计算每种语言特定适配器的平均输出的语言适应损失,以改进适配器模块的语言特定表示学习。此外,我们利用边界感知预测器来学习边界表示以处理语言边界混淆。 |
Improving severity preservation of healthy-to-pathological voice conversion with global style tokens Authors Bence Mark Halpern, Wen Chin Huang, Lester Phillip Violeta, R.J.J.H. van Son, Tomoki Toda 在健康到病态语音转换 H2P VC 中,健康语音被转换为病态语音,同时保留身份。本文改进了 H2P VC 的前两阶段方法,其中 1 首先创建具有适当严重性的语音,2 然后转换语音的说话者身份,同时保留语音的严重性。具体来说,我们建议通过使用语音后验图 PPG 和全局样式标记 GST 对 2 进行改进。此外,我们提出了一个新的数据集,其中包含具有相同身份的病态和健康说话者的并行录音,可以进行更精确的评估。专业听众的听力测试表明,该框架在对目标说话者的声音进行建模的同时,保留了源样本的严重性。 |
Shaping the Epochal Individuality and Generality: The Temporal Dynamics of Uncertainty and Prediction Error in Musical Improvisation Authors Tatsuya Daikoku 音乐即兴创作,就像即兴演讲一样,揭示了即兴演奏者的心态和情感特征的复杂方面。然而,揭示这种个性的具体音乐成分在很大程度上仍未被探索。在大脑统计学习和预测处理的框架内,这项研究检查了一段音乐即兴创作中的不确定性和意外预测误差的时间动态。本研究采用 HBSL 模型分析了 1905 年至 2009 年间 78 位不同爵士音乐家的 456 首爵士即兴创作的语料库。结果表明了令人惊讶和不确定性的独特时间模式,特别是在音高和音高节奏序列中,揭示了从 20 世纪初期到 21 世纪的时代特定特征。相反,节奏序列在不同时代表现出一致程度的不确定性。此外,不同时期的声学特性保持不变。这些发现凸显了即兴音乐中惊喜和不确定性的时间动态如何随时间变化的重要性,深刻影响了每个时代艺术家即兴创作所采用的独特方法。此外,有人认为即兴音乐的发展可以归因于大脑的适应性统计学习机制,它不断完善内部模型以反映各自时代的文化和情感细微差别。 |
Towards an Interpretable Representation of Speaker Identity via Perceptual Voice Qualities Authors Robin Netzorg, Bohan Yu, Andrea Guzman, Peter Wu, Luna McNulty, Gopala Anumanchipalli 与文本和视觉等其他数据模式不同,语音本身并不容易解释。虽然外行人可以理解如何通过感知来描述图像或句子,但非专家的语音描述通常以高级人口统计信息结束,例如性别或年龄。在本文中,我们提出了一种基于感知语音质量 PQ 的说话者身份的可能可解释表示。通过将性别 PQ 添加到以病理学为中心的语音 CAPE V 共识听觉感知评估协议中,我们基于 PQ 的方法提供了成人声音特征的感知潜在空间,该空间是高水平人口统计数据和低水平声学、物理、或习得的表征。 |
Prompting Audios Using Acoustic Properties For Emotion Representation Authors Hira Dhamyal, Benjamin Elizalde, Soham Deshmukh, Huaming Wang, Bhiksha Raj, Rita Singh 情绪是一个连续体,但当前的模型将情绪视为有限值的离散变量。这种表示没有捕捉到情感表达的多样性。为了更好地表达情感,我们建议使用自然语言描述或提示。在这项工作中,我们解决了自动生成这些提示并训练模型以更好地从音频和提示对中学习情感表示的挑战。我们使用与情绪相关的声学特性(如音调、强度、语速和发音速率)来自动生成提示,即声学提示。我们使用对比学习目标将语音映射到各自的声音提示。我们评估我们的情感音频检索和语音情感识别模型。我们的结果表明,声音提示显着提高了模型在 EAR 中的各种 Precision K 指标的性能。 |
Zero Resource Code-switched Speech Benchmark Using Speech Utterance Pairs For Multiple Spoken Languages Authors Kuan Po Huang, Chih Kai Yang, Yu Kuan Fu, Ewan Dunbar, Hung yi Lee 我们引入了一种新的零资源代码切换语音基准测试,旨在直接评估自监督语音编码器的代码切换能力。我们展示了离散单元上的语言建模基线系统,以演示如何以零资源方式评估语音编码器的代码切换能力。我们的实验涵盖各种众所周知的语音编码器,包括 Wav2vec 2.0、HuBERT、XLSR 等。我们检查预训练语言和模型大小对基准性能的影响。 |
UniverSLU: Universal Spoken Language Understanding for Diverse Classification and Sequence Generation Tasks with a Single Network Authors Siddhant Arora, Hayato Futami, Jee weon Jung, Yifan Peng, Roshan Sharma, Yosuke Kashiwagi, Emiru Tsunoo, Shinji Watanabe 最近的研究表明,通过采用具有多任务处理能力的大型语言模型,可以取得有希望的结果。他们利用提示来指导模型的行为并超越特定任务模型的性能。受此启发,我们问是否可以构建一个单一模型来联合执行各种口语理解 SLU 任务。为了解决这个问题,我们利用预先训练的自动语音识别 ASR 模型,并采用各种任务和数据集说明符作为离散提示。我们展示了我们的单一多任务学习 MTL 模型 UniverSLU 对于跨 17 个数据集和 9 种语言的 12 种不同语音分类和序列生成任务的有效性。结果表明,UniverSLU 实现了有竞争力的性能,甚至超越了特定任务模型。 |
Discriminative Training of VBx Diarization Authors Dominik Klement, Mireia Diez, Federico Landini, Luk Burget, Anna Silnova, Marc Delcroix, Naohiro Tawara x 向量序列 VBx 的贝叶斯 HMM 聚类已成为出版物和挑战中广泛采用的二值化基线模型。它使用 HMM 对说话者轮流进行建模,使用生成训练的概率线性判别分析 PLDA 进行说话者分布建模,并使用贝叶斯推理来估计 x 向量对说话者的分配。本文提出了一种使用判别训练更新 VBx 参数的新框架,该框架直接优化预定义的损失。我们还提出了一种新的损失,与二值化端到端系统的默认选择二进制交叉熵 unicode x2013 相比,它与二值化错误率更好地相关。三个数据集 AMI、CALLHOME 和 DIHARD II 的概念验证结果证明了该方法自动查找超参数的能力,实现了与广泛网格搜索所找到的性能相当的性能,后者通常需要额外的超参数行为知识。此外,我们表明 PLDA 的判别性微调可以进一步提高模型的性能。 |
End-to-End Training of a Neural HMM with Label and Transition Probabilities Authors Daniel Mann, Tina Raissi, Wilfried Michel, Ralf Schl ter, Hermann Ney 我们研究了一种使用隐马尔可夫模型 HMM 进行端到端神经网络训练的新颖建模方法,其中隐藏状态之间的转移概率被显式建模和学习。大多数当代序列到序列模型允许通过对给定拓扑中所有可能的标签分段求和来从头开始训练。在我们的方法中,片段之间的转换有明确的、可学习的概率,而不是隐式编码持续时间统计数据的空白标签。我们实现了一种基于 GPU 的前向后向算法,可以同时训练标签和转移概率。我们研究识别结果以及模型的维特比对齐。我们发现,虽然转换模型训练不会提高识别性能,但它对对齐质量有积极的影响。 |
ResidualTransformer: Residual Low-rank Learning with Weight-sharing for Transformer Layers Authors Yiming Wang, Jinyu Li 在这些设备上部署语音处理模型时,始终在线设备的内存限制是主要问题之一。虽然使用足够多的数据训练的较大模型通常表现更好,但使它们适合设备内存是一项艰巨的挑战。在本文中,我们的目标是通过重新参数化 Transformer 编码器层的模型权重并假设特殊的权重组成和结构来减小模型大小。更具体地说,受 ResNet 和最近的 LoRA 工作的启发,我们提出了一种名为 ResidualTransformer 的方法,其中 Transformer 层中的每个权重矩阵包含 1 个与其相邻层共享的全秩分量,以及 2 个自身独特的低秩分量。低秩矩阵仅导致模型大小的少量增加。此外,我们添加对角权重矩阵来提高低秩矩阵的建模能力。 |
Unsupervised Speech Recognition with N-Skipgram and Positional Unigram Matching Authors Liming Wang, Mark Hasegawa Johnson, Chang D. Yoo 由于 GAN 相关的不稳定性、语音和文本之间的错位以及大量的内存需求,训练无监督语音识别系统面临着挑战。为了应对这些挑战,我们引入了一种新颖的 ASR 系统 ESPUM。该系统利用低阶 N 个 Skipgram 直至 N 3 的功能,并结合从小批量样本收集的位置一元组统计数据。根据 TIMIT 基准进行评估,我们的模型展示了 ASR 和音素分割任务中的竞争性能。 |
End-to-End Continuous Speech Emotion Recognition in Real-life Customer Service Call Center Conversations Authors Yajing Feng CNRS LISN , Laurence Devillers CNRS LISN, SU 呼叫中心对话中的语音情感识别 SER 已成为评估客户和座席之间交互质量的宝贵工具。与受控的实验室环境相比,现实生活中的对话是在不受控制的条件下进行的,并且受到影响情绪表达的情境因素的影响。在本文中,我们提出了构建大规模现实数据集 CusEmo 的方法,以在客户服务呼叫中心对话中实现连续 SER。我们采用维度情感标注方法来捕捉现实生活中呼叫中心对话中情感的微妙性、复杂性和连续性,同时标注上下文信息。该研究还解决了端到端E2E SER系统应用于数据集过程中遇到的挑战,包括确定适当的标签采样率和输入段长度,以及使用不同的权重整合上下文信息对话者的性别和同理心水平多任务学习。 |
Chinese Abs From Machine Translation |
Papers from arxiv.org
更多精彩请移步主页
pic from pexels.com