【AI视野·今日Sound 声学论文速览 第二十二期】Tue, 10 Oct 2023

AI视野·今日CS.Sound 声学论文速览
Tue, 10 Oct 2023
Totally 33 papers
上期速览✈更多精彩请移步主页

【AI视野·今日Sound 声学论文速览 第二十二期】Tue, 10 Oct 2023_第1张图片

Daily Sound Papers

Pre-trained Spatial Priors on Multichannel NMF for Music Source Separation
Authors Pablo Cabanas Molero, Antonio J. Munoz Montoro, Julio Carabias Orti, Pedro Vera Candeas
本文提出了一种利用录音设置期间获得的空间信息来分离声源的新颖方法。我们的方法使用单独通道来训练空间混合滤波器,以捕获有关每个传感器位置的房间脉冲响应和传感器响应的信息。然后将此预训练的滤波器集成到多通道非负矩阵分解 MNMF 方案中,以更好地捕获不同声源的方差。我们实验中使用的录音设置是管弦乐队录音的典型设置,管弦乐队的每个部分都有一个主麦克风和一个近距离心形或超心形麦克风。这使得所提出的方法适用于许多现有的录音。

Audio compression-assisted feature extraction for voice replay attack detection
Authors Xiangyu Shi, Yuhao Luo, Li Wang, Haorui He, Hao Li, Lei Wang, Zhizheng Wu
重放攻击是最有效、最简单的语音欺骗攻击之一。根据自动扬声器验证欺骗和对策挑战 2021 ASVspoof 2021,检测重放攻击具有挑战性,因为它们涉及扬声器、麦克风和声学条件(例如背景噪声)。检测重放攻击的一个障碍是找到反映添加到重放语音中的通道噪声信息的鲁棒特征表示。本研究提出了一种使用音频压缩来辅助的特征提取方法。音频压缩可压缩音频以保留内容和讲话者信息以供传输。解压缩后丢失的信息预计将包含内容和与说话者无关的信息,例如在重放过程中添加的通道噪声。我们在 ASVspoof 2021 物理访问 PA 集上使用一些数据增强技术和 3 个分类器进行了全面的实验,并证实了所提出的特征提取方法的有效性。

Findings of the 2023 ML-SUPERB Challenge: Pre-Training and Evaluation over More Languages and Beyond
Authors Jiatong Shi, William Chen, Dan Berrebbi, Hsiu Hsuan Wang, Wei Ping Huang, En Pei Hu, Ho Lam Chuang, Xuankai Chang, Yuxun Tang, Shang Wen Li, Abdelrahman Mohamed, Hung yi Lee, Shinji Watanabe
2023 年多语言语音通用性能基准 ML SUPERB 挑战赛扩展了广受好评的 SUPERB 框架,强调多语言语音识别和语言识别中的自监督模型。该挑战赛包括专注于将 ML SUPERB 应用到特定多语言主题的研究轨道、模型提交的挑战轨道以及新语言轨道,语言资源研究人员可以在多语言最新进展的背景下贡献和评估他们的低资源语言数据语音识别。该挑战赛收集了 12 个模型提交内容和 54 种语言语料库,最终形成了涵盖 154 种语言的综合基准。

AdvSV: An Over-the-Air Adversarial Attack Dataset for Speaker Verification
Authors Li Wang, Jiaqi Li, Yuhao Luo, Jiahao Zheng, Lei Wang, Hao Li, Ke Xu, Chengfang Fang, Jie Shi, Zhizheng Wu
众所周知,深度神经网络很容易受到对抗性攻击。尽管基于深度神经网络构建的自动说话人验证 ASV 在受控场景中表现出强大的性能,但许多研究证实 ASV 容易受到对抗性攻击。缺乏标准数据集是进一步研究,尤其是可重复研究的瓶颈。在这项研究中,我们开发了一个用于说话者验证研究的开源对抗性攻击数据集。作为第一步,我们专注于空中攻击。无线对抗攻击涉及扰动生成算法、扬声器、麦克风和声学环境。记录配置的变化使得重现以前的研究变得非常具有挑战性。 AdvSV 数据集是使用 Voxceleb1 验证测试集作为基础构建的。该数据集采用遭受对抗性攻击的代表性 ASV 模型,并记录对抗性样本来模拟空中攻击设置。数据集的范围可以轻松扩展以包括更多类型的对抗性攻击。该数据集将根据 CC BY 许可向公众发布。

An Initial Investigation of Neural Replay Simulator for Over-the-Air Adversarial Perturbations to Automatic Speaker Verification
Authors Jiaqi Li, Li Wang, Liumeng Xue, Lei Wang, Zhizheng Wu
深度学习在过去几年中推动了自动说话人验证 ASV 的发展。尽管众所周知,基于深度学习的 ASV 系统容易受到数字访问中的对抗性示例的影响,但很少有关于物理访问背景下的对抗性攻击的研究,其中涉及重放过程,即无线传输。无线攻击涉及扬声器、麦克风和影响声波运动的重放环境。我们的初步实验证实,重放过程会影响空中攻击性能的有效性。本研究针对利用神经重放模拟器来提高空中对抗攻击的鲁棒性进行了初步调查。这是通过在估计对抗性扰动时使用神经波形合成器来模拟重放过程来实现的。在 ASVspoof2019 数据集上进行的实验证实,神经重放模拟器可以显着提高空中对抗攻击的成功率。

VITS-based Singing Voice Conversion System with DSPGAN post-processing for SVCC2023
Authors Yiquan Zhou, Meng Chen, Yi Lei, Jihua Zhu, Weifeng Zhao
本文介绍了 T02 团队在 2023 年歌声转换挑战赛 SVCC2023 中的系统。我们的系统需要基于 VITS 的 SVC 模型,包含三个模块:特征提取器、语音转换器和后处理器。具体来说,特征提取器提供 F0 轮廓,并利用 HuBERT 模型从输入歌声中提取与说话人无关的语言内容。语音转换器用于重组说话人的音色、F0 和语言内容,以生成目标说话人的波形。此外,为了进一步提高音频质量,引入了微调DSPGAN声码器来重新合成波形。鉴于目标说话人数据有限,我们利用两阶段训练策略使基本模型适应目标说话人。在模型适应过程中,涉及到数据增强和与辅助歌手数据的联合训练等多种技巧。官方挑战结果表明,我们的系统取得了优异的性能,特别是在跨域任务中,在自然度和相似度方面分别排名第一和第二。

SALT: Distinguishable Speaker Anonymization Through Latent Space Transformation
Authors Yuanjun Lv, Jixun Yao, Peikun Chen, Hongbin Zhou, Heng Lu, Lei Xie
说话者匿名化的目的是在不降低语音质量和清晰度的情况下隐藏说话者的身份。大多数说话者匿名化系统将说话者表示与原始语音分离,并通过平均或修改说话者表示来实现匿名化。然而,匿名语音会降低伪说话人的独特性、语音质量和分布外说话人的清晰度。为了解决这个问题,我们提出了 SALT,一种基于潜在空间变换的说话人匿名化系统。具体来说,我们通过自监督特征提取器提取潜在特征,并随机采样多个说话者及其权重,然后对潜在向量进行插值以实现说话者匿名化。同时,我们探索了外推方法来进一步扩展伪说话人的多样性。语音隐私挑战数据集的实验表明,我们的系统在保持语音质量和清晰度的同时实现了最先进的独特性指标。

PromptSpeaker: Speaker Generation Based on Text Descriptions
Authors Yongmao Zhang, Guanghou Liu, Yi Lei, Yunlin Chen, Hao Yin, Lei Xie, Zhifei Li
最近,文本引导内容生成受到了广泛关注。在这项工作中,我们探索基于文本描述的说话人生成的可能性,即使用文本提示来控制说话人生成过程。具体来说,我们提出了 PromptSpeaker,一种文本引导的说话人生成系统。 PromptSpeaker 由提示编码器、零样本 VITS 和 Glow 模型组成,其中提示编码器根据文本描述和该分布的样本预测先验分布,以获得语义表示。 Glow模型随后将语义表示转换为说话人表示,零镜头VITS最终根据说话人表示合成说话人的声音。

Comparative Analysis of Transfer Learning in Deep Learning Text-to-Speech Models on a Few-Shot, Low-Resource, Customized Dataset
Authors Ze Liu
使用深度学习的文本到语音 TTS 合成依赖于语音质量。现代 TTS 模型很先进,但需要大量数据。鉴于这些模型的计算复杂性不断增加以及大型高质量数据集的稀缺,本研究重点关注迁移学习,特别是少量镜头、低资源和定制数据集。在本研究中,低资源特指训练数据量有限的情况,例如特定语言或方言的录音和相应转录的数量较少。本论文植根于迫切需要找到需要更少训练时间、更少数据样本但能产生高质量语音输出的 TTS 模型。该研究通过彻底的技术分析评估了最先进的 TTS 模型迁移学习能力。然后,它进行实际实验分析,以比较模型在受限数据集中的性能。本研究调查了现代 TTS 系统在专业数据集上的迁移学习以及平衡训练效率和合成质量的模型的功效。最初的假设表明,迁移学习可以显着提高紧凑数据集上的 TTS 模型性能,并且对于这种独特的条件可能存在最佳模型。本论文预测,随着数据稀缺性的增加,TTS 中的迁移学习将会增加。

SA-Paraformer: Non-autoregressive End-to-End Speaker-Attributed ASR
Authors Yangze Li, Fan Yu, Yuhao Liang, Pengcheng Guo, Mohan Shi, Zhihao Du, Shiliang Zhang, Lei Xie
多说话人 ASR 和说话人二值化的联合建模最近在说话人归因的自动语音识别 SA ASR 中显示出了有希望的结果。虽然能够获得最先进的 SOTA 性能,但大多数研究都是基于自回归 AR 解码器,该解码器生成标记一乘以 1 并导致较大的实时因子 RTF 。为了加速推理,我们引入了最近提出的非自回归模型 Paraformer 作为 SA ASR 模型中的声学模型。Paraformer 使用单步解码器来实现并行生成,获得与 SOTA AR 变压器模型相当的性能。此外,我们提出了说话人填充策略来减少说话人识别错误,并采用 inter CTC 策略来增强编码器的声学建模能力。 AliMeeting 语料库上的实验表明,我们的模型在测试集上的相对说话人相关字符错误率 SD CER 降低了 6.1,优于级联 SA ASR 模型。

FM Tone Transfer with Envelope Learning
Authors Franco Caspe, Andrew McPherson, Mark Sandler
音调传输是一种新颖的深度学习技术,用于将声源与合成器连接起来,改变音频摘录的音色,同时保持其音乐形式内容。由于其良好的音频质量结果和连续的可控性,它最近已被应用于多种音频处理工具中。

A Holistic Evaluation of Piano Sound Quality
Authors Monan Zhou, Shangda Wu, Shaohua Ji, Zijin Li, Wei Li
本文旨在开发一种钢琴音质的整体评估方法,以协助购买决策。与以往关注钢琴演奏技巧对音质影响的研究不同,本研究评估了不同钢琴的固有音质。为了得出质量评估系统,该研究使用基于钢琴音质数据集的主观问卷。该方法通过比较卷积神经网络CNN不同预训练模型的微调结果来选择最优的钢琴分类模型。为了提高模型的可解释性,该研究应用了等效矩形带宽 ERB 分析。结果表明,受过音乐训练的人能够更好地区分不同钢琴的音质差异。最好的微调 CNN 预训练主干网作为钢琴分类器达到了 98.3 的高精度。然而数据集有限,为了增加数量而对音频进行切片,导致缺乏多样性和平衡性,因此我们使用焦点损失来减少数据不平衡的影响。

VoiceExtender: Short-utterance Text-independent Speaker Verification with Guided Diffusion Model
Authors Yayun He, Zuheng Kang, Jianzong Wang, Junqing Peng, Jing Xiao
随着话语变短,说话人验证 SV 性能会下降。为此,我们提出了一种名为 VoiceExtender 的新架构,它为在处理短持续时间语音信号时提高 SV 性能提供了一种有前景的解决方案。我们使用两种引导扩散模型,内置和外部说话者嵌入 SE 引导扩散模型,这两种模型都利用基于扩散模型的样本生成器,利用 SE 引导来增强基于简短话语的语音特征。

LauraGPT: Listen, Attend, Understand, and Regenerate Audio with GPT
Authors Jiaming Wang , Zhihao Du , Qian Chen, Yunfei Chu, Zhifu Gao, Zerui Li, Kai Hu, Xiaohuan Zhou, Jin Xu, Ziyang Ma, Wen Wang, Siqi Zheng, Chang Zhou, Zhijie Yan, Shiliang Zhang
生成式预训练 Transformer GPT 模型在各种自然语言处理任务上取得了显着的性能。然而,将类似框架应用于音频任务的研究还很有限。先前提出的用于音频任务的大型语言模型要么缺乏足够的定量评估,要么仅限于识别和理解音频内容的任务,要么明显低于现有最先进的 SOTA 模型。在本文中,我们提出了 LauraGPT,一种用于音频识别、理解和生成的统一 GPT 模型。 LauraGPT 是一种多功能语言模型,可以处理音频和文本输入并以任一模式生成输出。它可以执行与内容、语义、副语言学和音频信号分析相关的广泛任务。其一些值得注意的任务包括自动语音识别、语音到文本翻译、文本到语音合成、机器翻译、语音增强、自动音频字幕、语音情感识别和口语理解。为了实现这一目标,我们结合使用连续和离散的音频特征。我们使用音频编码器将输入音频编码为连续表示,并从离散编解码器代码解码输出音频。然后,我们使用监督多任务学习方法对多个音频到文本、文本到音频、音频到音频和文本到文本任务上的基于 Transformer 的大型解码器的语言模型进行微调。

Neural2Speech: A Transfer Learning Framework for Neural-Driven Speech Reconstruction
Authors Jiawei Li, Chunxu Guo, Li Fu, Lu Fan, Edward F. Chang, Yuanning Li
从神经活动中重建自然语音对于通过脑机接口实现直接交流至关重要。之前的工作已经探索了使用复杂的深度神经网络 DNN 模型将神经记录转换为语音,该模型在大量神经记录数据上进行训练,这在常规临床限制下是资源密集型的。然而,从有限规模的神经记录重建语音方面取得令人满意的性能一直具有挑战性,这主要是由于语音表示的复杂性和神经数据的限制。为了克服这些挑战,我们提出了一种用于神经驱动语音重建的新型迁移学习框架,称为 Neural2Speech,它由两个不同的训练阶段组成。首先,语音自动编码器在现成的语音语料库上进行预训练,以从编码的语音表示中解码语音波形。其次,在小规模神经记录上训练轻量级适配器,以调整神经活动和语音表示以进行解码。

Fine-grained Audio-Visual Joint Representations for Multimodal Large Language Models
Authors Guangzhi Sun, Wenyi Yu, Changli Tang, Xianzhao Chen, Tian Tan, Wei Li, Lu Lu, Zejun Ma, Chao Zhang
视听大语言模型法学硕士已经引起了极大的关注,但两种输入流的细粒度组合尚未得到充分探索,这对于法学硕士理解一般视频输入来说具有挑战性,但却是必要的。为此,本文提出了一种用于多模态LLM的细粒度视听联合表示FAVOR学习框架,该框架扩展了基于文本的LLM以同时感知音频输入流中的语音和音频事件以及视觉输入流中的图像或视频,在帧级别。为了将音频和视觉特征流融合成联合表示,并将联合空间与 LLM 输入嵌入空间对齐,我们提出了一种带有因果注意模块的因果 Q 前结构,以增强对视听帧随时间的因果关系的捕获。还提出了视听评估基准 AVEB,其中包括六个代表性的单模态任务和五个反映视听协同推理能力的跨模态任务。在 AVEB 中的音频、语音和图像任务上实现具有竞争力的单模态性能的同时,当需要细粒度信息或时间因果推理时,FAVOR 在视频问答任务上实现了 20 多项精度改进。此外,FAVOR 在其他多模式法学硕士前所未有的任务中表现出了卓越的视频理解和推理能力。

Technocratic model of the human auditory system
Authors M. V. Semotiuk, A. V. Palagin
在这项工作中,我们研究了生物体耳蜗内发生的横向共振和横向驻波现象。研究表明,其发生的诱发因素是耳蜗的形状,它类似于盘绕成螺旋的圆锥形声管,并且其内表面表现出不均匀性。这种耳蜗结构有助于像频谱分析仪一样分析成分声音信号,并对听觉系统中发生的物理过程进行相应的解释。此外,我们得出的结论是,耳蜗导管的阶介质由膜系统和柯蒂氏器组成,其主要功能是沿着耳蜗螺旋的信息收集和放大系统。

Super Denoise Net: Speech Super Resolution with Noise Cancellation in Low Sampling Rate Noisy Environments
Authors Junkang Yang, Hongqing Liu, Lu Gan, Yi Zhou
语音超分辨率 SSR 旨在从低分辨率 LR 对应部分预测高分辨率 HR 语音信号。大多数神经 SSR 模型专注于通过恢复信号高频部分的频谱图并将其与原始低频部分连接来在无噪声环境中产生最终结果。尽管这些方法具有很高的准确度,但在面对不可避免的噪声存在的现实世界场景时,它们的效果却变得不太好。为了解决这个问题,我们提出了 Super Denoise Net SDNet,这是一种用于低采样率信号的超分辨率和降噪联合任务的神经网络。为此,我们设计了门控卷积和格卷积块来分别增强修复能力并捕获时频轴上的信息。

Thech. Report: Genuinization of Speech waveform PMF for speaker detection spoofing and countermeasures
Authors Itshak Lapidot, Jean Francois Bonastre
在说话人识别系统中的欺骗攻击的背景下,我们观察到真实语音的波形概率质量函数 PMF 与攻击产生的语音 PMF 显着不同。对于合成或转换的语音以及重放的语音来说都是如此。我们还注意到,这一观察结果似乎对欺骗检测性能有重大影响。在本文中,我们提出了一种称为 genuinization 的算法,能够减少真实语音和欺骗语音之间的波形分布差距。我们的 genuinization 算法使用挑战组织提供的基线系统在 ASVspoof 2019 挑战数据集上进行评估。我们首先评估真实化对欺骗性能的影响。使用 genuinization 进行欺骗攻击会使欺骗检测性能降低多达 10 倍。接下来,我们将 genuinization 算法集成到欺骗对策中,我们观察到在不同情况下欺骗检测的巨大改进。

Improving End-to-End Speech Processing by Efficient Text Data Utilization with Latent Synthesis
Authors Jianqiao Lu, Wenyong Huang, Nianzu Zheng, Xingshan Zeng, Yu Ting Yeung, Xiao Chen
训练高性能的端到端语音端到端处理模型需要大量的标记语音数据,尤其是在以数据为中心的人工智能时代。然而,与文本数据相比,标记的语音数据通常更稀缺且收集成本更高。我们提出了 Latent Synthesis LaSyn,这是一种用于 E2E 语音处理模型的高效文本数据利用框架。我们训练潜在合成器将文本数据转换为预训练语音模型的中间潜在表示。这些文本数据的伪声学表示增强了模型训练的声学数据。我们在低资源自动语音识别 ASR 和口语理解 SLU 任务上评估 LaSyn。对于 ASR,LaSyn 改进了在 LibriSpeech train clean 100 上训练的 E2E 基线,在不同测试集上相对单词错误率降低了 22.3 以上。对于 SLU,LaSyn 将我们的 E2E 基线提高了绝对值 4.1(意向分类精度),将 SLURP 上的槽填充 SLU F1 提高了 3.8(绝对值),将 STOP 上的 EM 和 EM Tree 精确匹配精度分别提高了 4.49 和 2.25(绝对值)。由于参数较少,LaSyn 的结果与已发表的最先进作品相比具有竞争力。结果证明了增强训练数据的质量。

Measuring Acoustics with Collaborative Multiple Agents
Authors Yinfeng Yu, Changan Chen, Lele Cao, Fangkai Yang, Fuchun Sun
作为人类,我们每时每刻都会听到声音。我们听到的声音常常受到周围环境声学的影响。例如,宽敞的大厅会导致更多的混响。房间脉冲响应 RIR 通常用于将环境声学特征描述为场景几何形状、材料和源接收器位置的函数。传统上,RIR 是通过在所有源接收器位置的环境中设置扬声器和麦克风来测量的,这既耗时又低效。我们建议让两个机器人通过主动移动和发射接收扫描信号来测量环境声学。我们还设计了一种协作多智能体策略,其中这两个机器人接受训练以探索环境声学,同时因广泛探索和准确预测而获得奖励。我们表明,机器人学会协作并移动以探索环境声学,同时最大限度地减少预测误差。

A Glance is Enough: Extract Target Sentence By Looking at A keyword
Authors Ying Shi, Dong Wang, Lantian Li, Jiqing Han
本文研究了仅使用关键字作为输入从多说话者语音中提取目标句子的可能性。例如,在社会保障应用程序中,关键字可能是 help ,目标是识别寻求帮助的人正在表达什么,同时忽略其他发言者。为了解决这个问题,我们建议使用 Transformer 架构来嵌入关键字和语音,然后依靠交叉注意力机制从串联或重叠的语音中选择正确的内容。

XLS-R fine-tuning on noisy word boundaries for unsupervised speech segmentation into words
Authors Robin Algayres, Pablo Diego Simon, Benoit Sagot, Emmanuel Dupoux
由于语音流中缺乏明确的单词边界,在没有文本监督的情况下将口语句子分割成单词单元的任务尤其具有挑战性。在这项工作中,我们利用最新的自监督语音模型,事实证明,即使在资源匮乏的情况下,这些模型也可以通过微调快速适应新任务。受到半监督学习的启发,我们对 XLS R 模型进行了微调,以预测顶级语音分割系统 DPDP、VG HuBERT、GradSeg 和 DP Parse 生成的单词边界本身。一旦 XLS R 被微调,它就会被用来推断新的单词边界标签,这些标签依次用于另一个微调步骤。我们的方法不断提高每个系统的性能,并设定了一个新的最先进水平,根据在五个不同语言的语料库上正确发现的单词标记的 F1 分数来衡量,平均比之前的系统高 130。

A Comparative Study of Voice Conversion Models with Large-Scale Speech and Singing Data: The T13 Systems for the Singing Voice Conversion Challenge 2023
Authors Ryuichi Yamamoto, Reo Yoneyama, Lester Phillip Violeta, Wen Chin Huang, Tomoki Toda
本文介绍了我们用于歌声转换挑战 SVCC 2023 的系统 T13。对于域内和跨域英语歌声转换 SVC 任务任务 1 和任务 2,我们采用了基于自监督学习表示的识别合成方法。为了在 SVCC 2023 中使用有限数量的目标歌手说话者数据(150 到 160 个话语)实现数据高效的 SVC,我们首先使用公开的大规模 750 小时语音和歌唱数据训练基于扩散的任意语音转换模型。然后,我们对任务 1 和任务 2 中每个目标歌手说话人的模型进行微调。SVCC 2023 进行的大规模听力测试表明,我们的 T13 系统在更难的跨域 SVC 任务 2 中实现了有竞争力的自然度和说话人相似度,这意味着泛化我们提出的方法的能力。

Unified speech and gesture synthesis using flow matching
Authors Shivam Mehta, Ruibo Tu, Simon Alexanderson, Jonas Beskow, va Sz kely, Gustav Eje Henter
随着文本到语音技术在朗读任务中实现显着的自然性,人们对言语和非言语交际行为的多模态合成越来越感兴趣,例如自发言语和相关的身体姿势。本文提出了一种新颖的统一架构,用于联合合成语音声学和基于文本骨架的 3D 手势运动,并使用最佳传输条件流匹配 OT CFM 进行训练。所提出的架构比之前的现有技术更简单,具有更小的内存占用,并且可以捕获语音和手势的联合分布,在一个进程中一起生成两种模式。与此同时,新的训练机制能够以比以前少得多的网络评估步骤实现更好的合成质量。

Partial Rank Similarity Minimization Method for Quality MOS Prediction of Unseen Speech Synthesis Systems in Zero-Shot and Semi-supervised setting
Authors Hemant Yadav, Erica Cooper, Junichi Yamagishi, Sunayana Sitaram, Rajiv Ratn Shah
本文介绍了一种新颖的目标函数,用于对未见过的语音合成系统进行质量平均意见评分 MOS 预测。所提出的函数测量小批量中预测 MOS 值相对位置的相似性,而不是实际 MOS 值。也就是说,部分等级相似性是通过 PRS 来测量的,而不是像 L1 损失那样通过各个 MOS 值来测量。我们对域外语音合成系统的实验表明,PRS 在零样本和半监督设置中优于 L1 损失,与地面事实表现出更强的相关性。这些发现强调了在训练 MOS 预测模型时考虑排名顺序的重要性,正如 PRS 所做的那样。我们还认为,均方误差和线性相关系数指标对于评估 MOS 预测模型可能不可靠。总之,经过 PRS 训练的模型为评估语音质量提供了一个强大的框架,并为开发高质量语音合成系统提供了见解。

Learning Separable Hidden Unit Contributions for Speaker-Adaptive Lip-Reading
Authors Songtao Luo, Shuang Yang, Shiguang Shan, Xilin Chen
在本文中,我们提出了一种在唇读中适应说话者的新方法,其动机是两个观察结果。首先,说话人的自身特征总是可以通过浅层网络的少数面部图像甚至单个图像来很好地刻画,而与说话人脸所表达的语音内容相关的细粒度动态特征总是需要深层序列网络来准确表示。因此,我们对说话者自适应唇读的浅层和深层进行不同的处理。其次,我们观察说话者的独特特征,例如突出的口腔和下颌骨对不同单词和发音的唇读性能有不同的影响,需要自适应增强或抑制这些特征以实现稳健的唇读。基于这两个观察,我们建议利用说话者自身的特征,分别自动学习浅层和深层不同目标的可分离隐藏单元贡献。对于与说话者特征相关的特征强于与语音内容相关的特征的浅层,我们引入说话者自适应特征来学习以增强语音内容特征。对于说话者特征和语音内容特征都得到良好表达的深层,我们引入了说话者自适应特征来学习,以抑制与语音内容无关的噪声,从而实现鲁棒的唇读。通过不同设置的综合分析和比较证实,我们的方法始终优于现有方法。除了对流行的LRW ID和GRID数据集进行评估之外,我们还发布了新的评估数据集CAS VSR S68h,以进一步评估在只有少数发言者但语音内容涵盖大量且多样化的极端环境下的性能

Conditional Diffusion Model for Target Speaker Extraction
Authors Theodor Nguyen, Guangzhi Sun, Xianrui Zheng, Chao Zhang, Philip C Woodland
我们提出了 DiffSpEx,一种通过随机微分方程基于分数的生成模型的生成目标说话人提取方法。 DiffSpEx 在复杂的短时傅里叶变换域中部署连续时间随机扩散过程,从目标说话者源开始,收敛到以源混合为中心的高斯分布。对于逆时间过程,参数化得分函数以目标说话人嵌入为条件,以从混合源中提取目标说话人。我们利用 ECAPA TDNN 目标说话人嵌入,并在 SDE 时间嵌入和目标说话人嵌入上交替调节得分函数。 WSJ0 2mix 数据集展示了 DiffSpEx 的潜力,实现了 12.9 dB 的 SI SDR 和 3.56 的 NISQA 分数。

Multi-objective Progressive Clustering for Semi-supervised Domain Adaptation in Speaker Verification
Authors Ze Li, Yuke Lin, Ning Jiang, Xiaoyi Qin, Guoqing Zhao, Haiying Wu, Ming Li
使用具有大规模未标记数据的伪标记算法对于说话人验证任务中的半监督域适应变得至关重要。在本文中,我们提出了一种名为多目标渐进聚类MoPC的新型伪标记方法,专门为半监督域适应而设计。首先,我们利用来自目标域的有限标记数据来基于多个不同目标(即图内去噪、类内去噪和类间去噪)导出域特定描述符。然后,采用Infomap算法进行嵌入聚类,并利用描述符进一步细化目标域的伪标签。此外,为了进一步提高伪标签的质量,我们引入了子中心纯化和渐进合并策略来进行标签去噪。

An Exploration of Task-decoupling on Two-stage Neural Post Filter for Real-time Personalized Acoustic Echo Cancellation
Authors Zihan Zhang, Jiayao Sun, Xianjun Xia, Ziqian Wang, Xiaopeng Yan, Yijian Xiao, Lei Xie
基于深度学习的技术已在声学回声消除 AEC 中得到广泛采用。说话人表征的利用扩展了 AEC 的前沿,从而吸引了许多研究人员对个性化声学回声消除 PAEC 的兴趣。同时,任务解耦策略在语音增强中被广泛采用。为了进一步探索任务解耦方法,我们建议在 PAEC 中使用两阶段任务解耦后置滤波器 TDPF。此外,应用多尺度局部全局说话人表示来改进 PAEC 中的说话人提取。实验结果表明,任务解耦模型可以比单个联合网络产生更好的性能。最佳方法是将回声消除与噪声和干扰语音抑制解耦。

Spike-Triggered Contextual Biasing for End-to-End Mandarin Speech Recognition
Authors Kaixun Huang, Ao Zhang, Binbin Zhang, Tianyi Xu, Xingchen Song, Lei Xie
基于注意力的深度上下文偏置方法已被证明可以有效提高端到端自动语音识别 ASR 系统对给定上下文短语的识别性能。然而,与直接偏置 ASR 模型后验的浅层融合方法不同,深度偏置方法隐式地集成上下文信息,使得控制偏置程度具有挑战性。在本研究中,我们引入了一种尖峰触发的深度偏差方法,该方法同时支持显性和隐性偏差。此外,两种偏置方法都表现出显着的改进,并且可以与浅层融合方法级联以获得更好的结果。此外,我们提出了上下文采样增强策略并改进了上下文短语过滤算法。

DPM-TSE: A Diffusion Probabilistic Model for Target Sound Extraction
Authors Jiarui Hai, Helin Wang, Dongchao Yang, Karan Thakkar, Dading Chong, Najim Dehak, Mounya Elhilali
常见的目标声音提取 TSE 方法主要依赖于判别性方法来分离目标声音,同时最大限度地减少来自不需要的源的干扰,在将目标与背景分离方面取得了不同的成功。本研究引入了 DPM TSE,这是第一种基于扩散概率建模 DPM 的目标声音提取生成方法,以实现更清晰的目标渲染以及提高与不需要的声音的可分离性。该技术还通过引入噪声表和采样步骤的校正方法来解决 DPM 的常见背景噪声问题。该方法使用 FSD Kaggle 2018 数据集上的客观和主观质量指标进行评估。

Multimodal Prompt Transformer with Hybrid Contrastive Learning for Emotion Recognition in Conversation
Authors Shihao Zou, Xianying Huang, Xudong Shen
会话中的情绪识别 ERC 在推动人机交互的发展中发挥着重要作用。情感可以以多种模态存在,多模态 ERC 主要面临两个问题 1 跨模态信息融合过程中的噪声问题,2 语义相似但类别不同的​​样本较少的情感标签的预测问题。为了解决这些问题并充分利用每种模态的特征,我们首先采用以下策略,对表征能力强的模态进行深层情感线索提取,对表征能力较弱的模态设计特征过滤器作为多模态提示信息。然后,我们设计了一个多模态提示变换器MPT来执行跨模态信息融合。 MPT将多模态融合信息嵌入到Transformer的每个注意力层中,让提示信息参与编码文本特征并与多层次文本信息融合,以获得更好的多模态融合特征。最后,我们使用混合对比学习 HCL 策略来优化模型处理少量样本标签的能力。该策略利用无监督对比学习来提高多模态融合的表示能力,利用监督对比学习来挖掘少量样本的标签信息。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

你可能感兴趣的:(audio,Sound,Papers,语音攻击,语音生成,ASR,音频智能,神经信号到语音合成,音频去噪)