【AI视野·今日Sound 声学论文速览 第二十期】Fri, 6 Oct 2023

AI视野·今日CS.Sound 声学论文速览
Fri, 6 Oct 2023
Totally 6 papers
上期速览✈更多精彩请移步主页

【AI视野·今日Sound 声学论文速览 第二十期】Fri, 6 Oct 2023_第1张图片

Daily Sound Papers

Deep Generative Models of Music Expectation
Authors Ninon Liz Masclef, T. Anderson Keller
对音乐的情感反应的一个重要理论围绕着惊喜和期望的概念。在之前的工作中,这个想法已经以音乐概率模型的形式得以实施,该模型允许精确计算歌曲或逐个音符的概率,以先前的音乐或文化经验的训练集为条件。然而,迄今为止,这些模型仅限于通过手工制作的特征计算精确的概率,或者仅限于线性模型,这些模型可能不足以表示音乐中存在的复杂条件分布。在这项工作中,我们建议使用扩散模型形式的现代深度概率生成模型来计算音乐输入序列的近似可能性。与之前的工作不同,这种由深度神经网络参数化的生成模型能够直接从训练集本身学习复杂的非线性特征。在此过程中,我们期望发现此类模型能够更准确地为人类听众呈现音乐的惊喜。从文献中可以看出,惊讶感与喜欢某首歌曲的人类受试者数量之间存在倒 U 形关系。在这项工作中,我们表明,预先训练的扩散模型确实产生了音乐惊喜值,该值与测量的受试者喜好评分呈现负二次关系,并且这种关系的质量与 IDyOM 等最先进的方法具有竞争力。

An Integrated Algorithm for Robust and Imperceptible Audio Adversarial Examples
Authors Armin Ettenhofer, Jan Philipp Schulze, Karla Pizzi
音频对抗示例是经过操纵以欺骗自动语音识别 ASR 系统的音频文件,但对人类听众来说听起来仍然是良性的。大多数生成此类样本的方法首先基于两步算法,生成可行的对抗性音频文件,然后在可感知性和鲁棒性方面进行微调。在这项工作中,我们提出了一种集成算法,该算法在生成步骤中使用心理声学模型和房间脉冲响应 RIR。 RIR 由神经网络在生成过程中动态创建,以模拟物理环境,以强化我们的示例,以应对空中攻击中经历的转换。我们在模拟环境和现实的空中场景中的三个实验中比较了不同的方法,以评估鲁棒性,并在人体研究中评估可感知性。

Speaker localization using direct path dominance test based on sound field directivity
Authors Boaz Rafaely, Koby Alhaiany
估计房间内扬声器的到达方向 DoA 在许多音频信号处理应用中非常重要。具有掩盖 DoA 信息的混响的环境尤其具有挑战性。最近,开发了一种对混响具有鲁棒性的 DoA 估计方法。该方法识别由直接路径的贡献主导的时频仓,该直接路径携带正确的DoA信息。然而,其实现对计算要求较高,因为它需要频率平滑来克服相干早期反射的影响,并需要矩阵分解来应用直接路径优势 DPD 测试。在这项工作中,基于传感器阵列的方向性测量,提出了一种计算高效的 DPD 测试替代方案,它既不需要频率平滑,也不需要矩阵分解,并且已经针对球形麦克风阵列的声场方向性进行了重新表述。本文介绍了所提出的方法,并在一系列混响和噪声条件下与以前的方法进行了比较。

Performance and energy balance: a comprehensive study of state-of-the-art sound event detection systems
Authors Francesca Ronchini, Romain Serizel
近年来,深度学习系统呈现出复杂性增加和能耗增加的令人担忧的趋势。作为该领域的研究人员和声学场景和事件的检测和分类挑战任务之一的组织者,我们认识到解决数据驱动的 SED 系统对环境影响的重要性。在本文中,我们提出了一项基于挑战提交的针对 SED 系统的分析。其中包括对过去两年的比较以及对今年 SED 系统的详细分析。

VaSAB: The variable size adaptive information bottleneck for disentanglement on speech and singing voice
Authors Frederik Bous, Axel Roebel
信息瓶颈自动编码器是一种常用于语音转换的解缠结工具。成功的解开依赖于瓶颈尺寸的正确选择。以前的瓶颈自动编码器通过潜在空间的维度或通过矢量量化来创建瓶颈,并且无法改变特定模型的瓶颈大小。由于瓶颈从解缠结表示中删除信息,因此瓶颈大小的选择是解缠结和合成质量之间的权衡。我们建议使用 dropout 来构建信息瓶颈,这使我们能够通过 dropout 率来改变瓶颈,并根据上下文研究调整瓶颈大小。我们通过实验探索使用自适应瓶颈进行音调变换,并证明自适应瓶颈可以改善语音和歌声的 F0 参数的解开,从而提高合成质量。

The North System for Formosa Speech Recognition Challenge 2023
Authors Li Wei Chen, Kai Chen Cheng, Hung Shin Lee
本报告对拟议的 North 系统进行了简要概述,该系统旨在实现台湾客家四弦的自动单词音节识别。该报告概述了系统的三个关键组成部分:训练数据的获取、组成和利用、模型的架构以及硬件规格和操作统计数据。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

你可能感兴趣的:(Sound,audio,Papers,音频智能,情感检测,声学处理,音频处理,智能音频生成)