AI视野·今日CS.Sound 声学论文速览
Tue, 2 Jan 2024
Totally 7 papers
上期速览✈更多精彩请移步主页
Enhancing Pre-trained ASR System Fine-tuning for Dysarthric Speech Recognition using Adversarial Data Augmentation Authors Huimeng Wang, Zengrui Jin, Mengzhe Geng, Shujie Hu, Guinan Li, Tianzi Wang, Haoning Xu, Xunying Liu 迄今为止,构音障碍语音的自动识别仍然是一项极具挑战性的任务。神经运动状况和同时发生的身体残疾给 ASR 系统开发的大规模数据收集带来了困难。通过数据密集型参数微调,使 SSL 预训练的 ASR 模型适应有限的构音障碍语音,会导致泛化能力较差。为此,本文对各种数据增强方法进行了广泛的比较研究,以提高预训练的 ASR 模型对构音障碍语音进行微调的鲁棒性。这些包括对受损语音的传统说话人独立扰动、与说话人相关的速度扰动、或基于 GAN 的正常控制语音的对抗性扰动(基于与并行构音障碍语音的时间对齐)、基于谱基础的 GAN 对非并行数据进行对抗性数据增强。在 UASpeech 语料库上进行的实验表明,基于 GAN 的数据增强始终优于微调的 Wav2vec2.0 和 HuBERT 模型,在不同的数据扩展操作点上不使用数据增强和速度扰动,字错误率 WER 降低了统计显着性,分别达到 2.01 和 0.96 绝对值 9.03 和4.63 相对于 16 个构音障碍说话者的 UASpeech 测试集。 |
E-chat: Emotion-sensitive Spoken Dialogue System with Large Language Models Authors Hongfei Xue, Yuhao Liang, Bingshen Mu, Shiliang Zhang, Qian Chen, Lei Xie 本研究重点关注人机语音交互中的情感敏感口语对话。随着大型语言模型法学硕士的进步,对话系统可以处理包括音频在内的多模态数据。最近的模型通过整合各种音频事件增强了对复杂音频信号的理解。然而,他们无法根据情绪化的言语产生适当的反应。为了解决这个问题,我们引入了情感聊天模型 E 聊天,这是一种新颖的口语对话系统,能够理解并响应语音传达的情感。该模型利用语音编码器提取的情感嵌入,并结合 LLM,使其能够根据不同的情感上下文做出响应。此外,我们还介绍了 E chat200 数据集,该数据集专为情感敏感的口语对话而设计。 |
Sounding Out Reconstruction Error-Based Evaluation of Generative Models of Expressive Performance Authors Silvan David Peter, Carlos Eduardo Cancino Chac n, Emmanouil Karystinaios, Gerhard Widmer 通常通过将其预测与参考人类演奏进行比较来评估富有表现力的钢琴演奏的生成模型。如果生成算法产生的性能更接近人类参考性能,则该生成算法被认为比竞争算法更好。然而,专业的人类表演者可以并且确实以不同的方式解释音乐,从而提供不同的可能参考,并且定量的接近度不一定与感知相似性一致,这引发了人们对这种评估方法有效性的担忧。在这项工作中,我们提出了一些实验来阐明这个问题。使用精确测量的古典钢琴音乐的高质量演奏,我们进行了听力测试,结果表明听众有时可以察觉到在定量评估中被忽视的细微演奏差异。我们进一步提出的测试表明,这种评估框架在不同的参考表演和作品中表现出可靠性和有效性的很大差异。 |
Online Symbolic Music Alignment with Offline Reinforcement Learning Authors Silvan David Peter 符号音乐对齐是将演奏的 MIDI 音符与相应乐谱音符进行匹配的过程。在本文中,我们介绍了一种基于强化学习的在线符号音乐对齐技术。强化学习代理是一种基于注意力的神经网络,根据本地得分和表现上下文迭代地估计当前得分位置。对于这个符号对齐任务,可以对环境状态进行详尽的采样,并且奖励是密集的,从而将公式呈现为简化的离线强化学习问题。我们通过三种方式评估训练有素的代理。首先,它能够为采样的测试上下文识别正确的乐谱位置;其次,作为符号在线音符对齐的完整算法的核心技术;最后,作为实时符号乐谱跟随器。我们进一步研究用作代理输入的基于音高的分数和表现表示。为此,我们开发了第二个模型,即基于两步动态时间规整 DTW 的离线对齐算法,利用相同的输入表示。 |
AI and Tempo Estimation: A Review Authors Geoff Luck 作者在本文中的目标是探索如何利用人工智能来帮助我们理解和大规模估计音乐创造力和音乐节奏的关键方面的能力。节奏对音乐创造力的核心重要性可以体现在如何使用它来表达特定的情感 Eerola 和 Vuoskoski 2013 、提出特定的音乐风格 Li 和 Chan 2011 、影响表达的感知 Webster 和 Weir 2005 以及调解移动的冲动。身体随着音乐的节奏伯格等人。 2014年。传统的节奏估计方法通常使用振幅包络的某种形式的自相关来检测反映音乐的潜在节奏结构的信号周期性Lartillot and Toiviainen 2007。最近,基于人工智能的方法利用卷积或循环神经网络 CNN、RNN 来表示音频信号的频谱,其准确性得到了显着提高 Aarabi 和 Peeters 2022。常见的基于人工智能的技术包括基于概率的技术(例如贝叶斯方法、隐马尔可夫模型 HMM)、分类和统计学习(例如支持向量机 SVM)以及人工神经网络 ANN(例如自组织映射 SOM、CNN、RNN、深度学习 DL)。本文的目的是概述一些更常见的基于人工智能的节奏估计算法,并阐明每种算法的显着优点和潜在缺点。 |
Ultraspherical/Gegenbauer polynomials to unify 2D/3D Ambisonic directivity designs Authors Franz Zotter 这份关于轴对称超球面 Gegenbauer 多项式及其在 2D 和 3D 立体混响指向性设计中的应用的报告提出了另一种数学形式,可以在我和 Matthias Frank 的 Ambisonics 书籍或 J r me Daniel 的论文(Gary Elko)中阅读。 |
Boosting Large Language Model for Speech Synthesis: An Empirical Study Authors Hongkun Hao, Long Zhou, Shujie Liu, Jinyu Li, Shujie Hu, Rui Wang, Furu Wei 大型语言模型法学硕士在自然语言处理方面取得了重大进展,同时将语言能力扩展到其他模式,例如语音和视觉。然而,之前的大部分工作都集中在培养法学硕士的听觉理解等感知能力,而增强法学硕士语音合成能力的有效方法仍然不明确。在本文中,我们通过结合预训练的LLM LLaMA OPT和文本到语音合成模型VALL E,对提升LLM生成语音的能力进行了全面的实证探索。我们比较了LLM和语音合成模型之间的三种集成方法,包括直接微调 LLM、LLM 和 VALL E 的叠加层,以及使用 LLM 作为强大的文本编码器耦合 LLM 和 VALL E。实验结果表明,直接使用LoRA方法微调LLM来提升语音合成能力的效果并不理想,而叠加LLM和VALL E可以在说话人相似度和误词率WER两方面提高生成语音的质量。 |
Chinese Abs From Machine Translation |
Papers from arxiv.org
更多精彩请移步主页
pic from pexels.com