【AI视野·今日Sound 声学论文速览 第四十六期】Thu, 11 Jan 2024

AI视野·今日CS.Sound 声学论文速览
Thu, 11 Jan 2024
Totally 10 papers
上期速览✈更多精彩请移步主页

【AI视野·今日Sound 声学论文速览 第四十六期】Thu, 11 Jan 2024_第1张图片

Daily Sound Papers

Noise-robust zero-shot text-to-speech synthesis conditioned on self-supervised speech-representation model with adapters
Authors Kenichi Fujita, Hiroshi Sato, Takanori Ashihara, Hiroki Kanagawa, Marc Delcroix, Takafumi Moriya, Yusuke Ijima
零样本文本转语音 TTS 方法基于使用自监督学习 SSL 语音表示从参考语音中提取的说话人嵌入,可以非常准确地再现说话人特征。然而,当参考语音包含噪声时,这种方法会导致语音合成质量下降。在本文中,我们提出了一种噪声鲁棒的零样本 TTS 方法。我们将适配器合并到 SSL 模型中,并使用噪声参考语音对 TTS 模型进行微调。此外,为了进一步提高性能,我们采用了语音增强SE前端。通过这些改进,我们提出的基于 SSL 的零样本 TTS 实现了带有噪声参考语音的高质量语音合成。

Singer Identity Representation Learning using Self-Supervised Techniques
Authors Bernardo Torres, Stefan Lattner, Ga l Richard
使用语音数据创建语音身份表示方面已经取得了重大进展。然而,歌声方面尚未取得同样水平的进步。为了弥补这一差距,我们提出了一个框架来训练歌手身份编码器,以提取适合各种歌唱相关任务的表示,例如歌声相似度和合成。我们在大量孤立的声带上探索不同的自监督学习技术,并在训练过程中应用数据增强,以确保表示对于音调和内容变化是不变的。我们评估跨多个数据集的歌手相似性和识别任务的结果表示的质量,特别强调域外泛化。我们提出的框架产生了高质量的嵌入,在 44.1 kHz 下运行时,其性能优于说话者验证和 wav2vec 2.0 预训练歌声基线。

MuTox: Universal MUltilingual Audio-based TOXicity Dataset and Zero-shot Detector
Authors Marta R. Costa juss , Mariano Coria Meglioli, Pierre Andrews, David Dale, Prangthip Hansanti, Elahe Kalbassi, Alex Mourachko, Christophe Ropers, Carleigh Wood
基于语音模态音频的自然语言处理毒性检测的研究相当有限,特别是对于英语以外的语言。为了解决这些限制并为真正基于多语言音频的毒性检测奠定基础,我们推出了 MuTox,这是第一个带有毒性标签的基于高度多语言音频的数据集。该数据集包含英语和西班牙语的 20,000 个音频话语,以及其他 19 种语言的 4,000 个音频话语。为了证明该数据集的质量,我们训练了基于 MuTox 音频的毒性分类器,该分类器可以跨多种语言进行零次毒性检测。该分类器的性能比现有的基于文本的可训练分类器高出 1 AUC 以上,同时将语言覆盖范围扩大了十倍以上。与覆盖相似数量语言的基于单词列表的分类器相比,MuTox 将精确度和召回率提高了约 2.5 倍。

DiffSHEG: A Diffusion-Based Approach for Real-Time Speech-driven Holistic 3D Expression and Gesture Generation
Authors Junming Chen, Yunfei Liu, Jianan Wang, Ailing Zeng, Yu Li, Qifeng Chen
我们提出了 DiffSHEG,一种基于扩散的方法,用于语音驱动的整体 3D 表达和任意长度的手势生成。虽然以前的工作主要集中在单独的语音手势或表情生成上,但同步表情和手势的联合生成仍然很少被探索。为了解决这个问题,我们基于扩散的协同语音运动生成转换器能够实现从表情到手势的单向信息流,从而促进改进联合表情手势分布的匹配。此外,我们引入了一种基于外画的采样策略,用于扩散模型中的任意长序列生成,提供了灵活性和计算效率。我们的方法提供了一种实用的解决方案,可以产生由语音驱动的高质量同步表达和手势生成。通过对两个公共数据集的评估,我们的方法在定量和定性方面都实现了最先进的性能。此外,一项用户研究证实了 DiffSHEG 相对于先前方法的优越性。

Music Genre Classification: A Comparative Analysis of CNN and XGBoost Approaches with Mel-frequency cepstral coefficients and Mel Spectrograms
Authors Yigang Meng
近年来,各种精心设计的算法使音乐平台能够根据个人喜好提供内容。音乐流派是通过各个方面来定义的,包括声学特征和文化考虑。音乐流派分类与基于内容的过滤配合得很好,内容过滤根据音乐相似性向用户推荐内容。给定大量数据集,一个前提是使用机器学习或深度学习方法进行自动注释,可以有效地对音频文件进行分类。系统的有效性很大程度上取决于特征和模型的选择,因为不同的架构和特征可以相互促进并产生不同的结果。在本研究中,我们对三种模型的性能进行了比较研究:提出的卷积神经网络 CNN 、具有全连接层 FC 的 VGG16 以及 eXtreme Gradient Boosting XGBoost 方法在不同特征 30 秒梅尔频谱图和 3 秒梅尔频率倒谱上的性能系数 MFCC。结果表明,MFCC XGBoost 模型优于其他模型。

ANIM-400K: A Large-Scale Dataset for Automated End-To-End Dubbing of Video
Authors Kevin Cai, Chonghua Liu, David M. Chan
互联网内容丰富,其中以英语发布的内容多达 60 条,这与全球人口形成鲜明对比,全球人口中只有 18.8 人以英语为母语,只有 5.1 人将英语视为自己的母语,这导致了在线信息获取的差异。不幸的是,由于管道的原因,用翻译后的替代方案替换视频音轨的视频配音自动化过程仍然是一项复杂且具有挑战性的任务,需要精确的计时、面部运动同步和韵律匹配。虽然端到端配音提供了一种解决方案,但数据稀缺仍然阻碍着端到端和基于管道的方法的进展。在这项工作中,我们介绍了 Anim 400K,这是一个包含超过 425K 对齐的日语和英语动画视频片段的综合数据集,支持各种视频相关任务,包括自动配音、同声翻译、引导视频摘要和流派主题风格分类。

Full-frequency dynamic convolution: a physical frequency-dependent convolution for sound event detection
Authors Haobo Yue, Zhicheng Zhang, Da Mu, Yonghao Dang, Jianqin Yin, Jin Tang
最近发现2D卷积在声音事件检测SED中不合格。它沿频率轴强制声音事件的平移等变性,这不是平移不变维度。为了解决这个问题,使用动态卷积来模拟声音事件的频率依赖性。在本文中,我们提出了第一个全动态方法,名为 emph 全频动态卷积 FFDConv 。 FFDConv 为每个频段生成频率内核,该内核直接设计在用于频率相关建模的结构中。它在物理上为二维卷积提供了频率相关建模的能力。 FFDConv 在 PSDS1 方面不仅比 DESED 真实验证数据集中的基线高出 6.6,而且还优于其他全动态方法。此外,通过可视化声音事件的特征,我们观察到FFDConv可以有效地提取特定频段的相干特征,与声音事件的声音连续性一致。

Self-supervised speech representation and contextual text embedding for match-mismatch classification with EEG recording
Authors Bo Wang, Xiran Xu, Zechen Zhang, Haolin Zhu, YuJie Yan, Xihong Wu, Jing Chen
将语音与脑电图联系起来非常重要,但也具有挑战性。在本研究中,采用深度卷积网络从脑电图数据中提取时空特征。自监督语音表示和上下文文本嵌入被用作语音特征。对比学习用于将脑电图特征与语音特征相关联。实验结果证明了使用自监督语音表示和上下文文本嵌入的好处。

Learning Audio Concepts from Counterfactual Natural Language
Authors Ali Vosoughi, Luca Bondi, Ho Hsiang Wu, Chenliang Xu
传统的音频分类依赖于预定义的类,缺乏从自由格式文本中学习的能力。最近的方法解锁了从用自然语言描述音频的原始音频文本对中学习联合音频文本嵌入。尽管最近取得了进展,但很少有人探索系统方法来训练模型来识别替代场景中的声音事件和来源,例如在类似情况下区分户外活动中的烟花和枪声。本研究介绍了音频领域的因果推理和反事实分析。我们使用反事实实例并将它们包含在我们的模型中的不同方面。我们的模型考虑了来自人类注释参考文本的声学特征和声源信息。为了验证我们模型的有效性,我们利用多个音频字幕数据集进行了预训练。然后,我们评估几个常见的下游任务,证明所提出的方法作为利用音频领域反事实信息的首批作品之一的优点。

Real-time and Continuous Turn-taking Prediction Using Voice Activity Projection
Authors Koji Inoue, Bing er Jiang, Erik Ekstedt, Tatsuya Kawahara, Gabriel Skantze
展示了实时连续轮流预测系统。该系统基于语音活动投影VAP模型,直接将对话立体声音频映射到未来的语音活动。 VAP 模型包括对比预测编码 CPC 和自注意力变压器,然后是交叉注意力变压器。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

你可能感兴趣的:(Sound,audio,Papers,文本转语言,智能声学,计算机声学,智能音频处理,基于语音的手势生成,音乐理解,文本语音对齐)