【AI视野·今日Sound 声学论文速览 第三十五期】Fri, 27 Oct 2023

AI视野·今日CS.Sound 声学论文速览
Fri, 27 Oct 2023
Totally 8 papers
上期速览✈更多精彩请移步主页

【AI视野·今日Sound 声学论文速览 第三十五期】Fri, 27 Oct 2023_第1张图片

Daily Sound Papers

Controllable Generation of Artificial Speaker Embeddings through Discovery of Principal Directions
Authors Florian Lux, Pascal Tilli, Sarina Meyer, Ngoc Thang Vu
由于可用的带有适当标签的数据很少,因此在具有直观和细粒度控制的语音合成系统中定制语音和说话风格具有挑战性。此外,编辑现有人类的声音也会带来伦理问题。在本文中,我们提出了一种方法来生成无法链接到真人的人工说话者嵌入,同时提供对嵌入的语音和说话风格的直观和细粒度的控制,而不需要任何说话者或风格的标签。

Learning Repeatable Speech Embeddings Using An Intra-class Correlation Regularizer
Authors Jianwei Zhang, Suren Jayasuriya, Visar Berisha
针对特定机器学习任务的良好监督嵌入仅对感兴趣标签的变化敏感,并且对其他混杂因素不变。我们利用测量理论中的可重复性概念来描述这一属性,并建议使用类内相关系数 ICC 来评估嵌入的可重复性。然后,我们提出了一种新颖的正则化器,即 ICC 正则化器,作为对比损失的补充组件,以指导深度神经网络产生具有更高可重复性的嵌入。我们使用模拟数据来解释为什么 ICC 正则化器在最小化类内方差方面比单独的对比损失效果更好。我们实现了 ICC 正则化器,并将其应用于三个语音任务:说话人验证、语音风格转换以及检测发音困难的临床应用。

Towards Matching Phones and Speech Representations
Authors Gene Ping Yang, Hao Tang
从电话实例中学习电话类型一直是一个长期存在的问题,但仍处于开放状态。在这项工作中,我们在自监督学习的背景下重新审视这个问题,并将其视为将聚类质心与音素嵌入相匹配的问题。我们研究了实现匹配的两个关键属性,即自监督表示的聚类质心是否减少了电话实例的可变性并尊重电话之间的关系。然后,我们使用匹配结果来生成伪标签,并引入新的损失函数来改进自监督表示。我们的实验表明,匹配结果捕获了电话之间的关系。

Content-based Controls For Music Large Language Modeling
Authors Liwei Lin, Gus Xia, Junyan Jiang, Yixiao Zhang
近年来,音乐音频领域的大规模语言模型迅速发展。此类模型能够端到端生成更高质量的音乐,有些模型允许使用文本描述进行条件生成。然而,文本控件对音乐的控制能力本质上是有限的,因为它们只能通过歌手、乐器等元数据或流派、情感等高级表示来间接描述音乐。我们的目标是进一步为模型配备对固有音乐语言(例如音高、和弦和鼓声)的直接和基于内容的控制。为此,我们贡献了 Coco Mulla,一种用于音乐大语言建模的基于内容的控制方法。它使用为基于 Transformer 的音频模型量身定制的参数高效微调 PEFT 方法。实验表明,我们的方法通过低资源半监督学习实现了高质量的音乐生成,与原始模型相比,调整参数少于 4 个,并且在少于 300 首歌曲的小数据集上进行训练。此外,我们的方法可以实现基于内容的有效控制,并且我们通过和弦和节奏(音乐音频的两个最显着的特征)来说明控制能力。此外,我们还表明,通过结合基于内容的控件和文本描述,我们的系统实现了灵活的音乐变化生成和风格转换。

Single channel speech enhancement by colored spectrograms
Authors Sania Gul, Muhammad Salman Khan, Muhammad Fazeel
语音增强涉及从目标语音中去除不需要的背景声音以提高其质量和清晰度所需的过程。在本文中,提出了一种使用彩色频谱图的单通道语音增强的新方法。我们建议使用改编自 pix2pix 生成对抗网络 GAN 的深度神经网络 DNN 架构,并通过彩色语音频谱图对其进行训练以对其进行去噪。去噪后,使用浅回归神经网络将频谱图的颜色转换为短时傅里叶变换 STFT 的幅度。这些估计的 STFT 幅度随后与噪声相位相结合以获得增强的语音。结果表明,与未处理的噪声数据相比,语音质量 PESQ 的感知评估提高了近 0.84 分,短期客观清晰度 STOI 提高了 1 分。未处理信号的质量和清晰度增益几乎等于用于与所提出的模型进行比较的基线方法所获得的增益,但计算成本大大降低。与在灰度频谱图上训练生成最高 PESQ 分数的类似基线模型相比,所提出的解决方案提供了比较 PESQ 分数,计算成本降低了近 10 倍,而与相比,它在 STOI 中仅提供 1 赤字,计算成本降低了 28 倍。

Real-time Neonatal Chest Sound Separation using Deep Learning
Authors Yang Yi Poh, Ethan Grooby, Kenneth Tan, Lindsay Zhou, Arrabella King, Ashwin Ramanathan, Atul Malhotra, Mehrtash Harandi, Faezeh Marzbanrad
新生儿听诊是一种简单、无创的心血管和呼吸系统疾病诊断方法。这种诊断通常需要在听诊过程中捕获高质量的心音和肺音。然而,在大多数情况下,由于胸音混合了心音、肺音和噪声,因此获得如此高质量的声音并非易事。因此,需要额外的预处理将胸音分离为心音和肺音。本文提出了一种新颖的深度学习方法,将此类胸音分离为心音和肺音。受 Conv TasNet 模型的启发,所提出的模型具有编码器、解码器和掩模生成器。编码器由一维卷积模型组成,解码器由转置一维卷积组成。掩模生成器是使用堆叠的一维卷积和变换器构建的。所提出的模型在人工数据集中的客观失真测量方面优于先前的方法 2.01 dB 至 5.06 dB,以及计算时间,至少提高了 17 倍。

Multi-Speaker Expressive Speech Synthesis via Semi-supervised Contrastive Learning
Authors Xinfa Zhu, Yuke Li, Yi Lei, Ning Jiang, Guoqing Zhao, Lei Xie
本文旨在构建一个针对多说话人的富有表现力的 TTS 系统,合成具有多种风格和情感的目标说话人的语音。为此,我们提出了一种新颖的基于对比学习的 TTS 方法,用于在说话者之间传递风格和情感。具体来说,我们在话语和类别(例如情感快乐或风格诗人或说话者 A 级别)上构建正负样本对,并利用对比学习更好地从语音中提取解开的风格、情感和说话者表征。此外,我们在所提出的方法中引入了半监督训练策略,以有效地利用多域数据,包括风格标记数据、情感标记数据和未标记数据。我们将学习到的表示集成到改进的 VITS 模型中,使其能够为目标说话者合成具有不同风格和情感的表达性语音。

Improved Panning on Non-Equidistant Loudspeakers with Direct Sound Level Compensation
Authors Jan Hendrik Hanschke, Daniel Arteaga, Giulio Cengarle, Joshua Lando, Mark R. P. Thomas, Alan Seefeldt
创建幻象声源的扬声器渲染技术通常采用等距扬声器布局。典型的家庭设置可能无法满足此条件,因为扬声器偏离规范位置,因此需要相应的校准。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

你可能感兴趣的:(audio,Sound,Papers,人工智能,声学嵌入,语音表示,智能音频,计算机声学,自动声学处理)