AI视野·今日CS.Sound 声学论文速览
Wed, 4 Oct 2023
Totally 4 papers
上期速览✈更多精彩请移步主页
Mel-Band RoFormer for Music Source Separation Authors Ju Chiang Wang, Wei Tsung Lu, Minz Won 最近,基于多频段频谱图的方法(例如频段分割 RNN BSRNN)已经证明了音乐源分离的良好结果。在我们最近的工作中,我们引入了 BS RoFormer 模型,该模型继承了前端 BSRNN 中频带分割方案的思想,然后使用具有旋转位置嵌入 RoPE 的分层 Transformer 对多频带掩模的内带和带间序列进行建模估计。该模型已实现最先进的性能,但频带分割方案是根据经验定义的,没有文献的分析支持。在本文中,我们提出了 Mel RoFormer,它采用 Mel 带方案,根据 Mel 尺度将频率仓映射到重叠的子带。合同中,BSRNN 和 BS RoFormer 中的频带分割映射是不重叠的,并且是基于启发式设计的。 |
Audio-visual child-adult speaker classification in dyadic interactions Authors Anfeng Xu, Kevin Huang, Tiantian Feng, Helen Tager Flusberg, Shrikanth Narayanan 涉及儿童的互动涵盖了从学习到临床诊断和治疗背景的广泛重要领域。对此类交互的自动分析的动机是寻求准确的见解并在不同和广泛的条件下提供规模和稳健性。识别属于孩子的语音片段是此类建模的关键步骤。传统的儿童成人说话者分类通常依赖于音频建模方法,忽略了传达语音清晰度信息(例如嘴唇运动)的视觉信号。在纯音频儿童成人说话者分类管道的基础上,我们建议通过主动说话者检测和视觉处理模型合并视觉线索。我们的框架涉及视频预处理、话语级别的儿童成人说话人检测以及模态特定预测的后期融合。我们通过大量实验证明,视觉辅助分类管道可以提高分类的准确性和鲁棒性。 |
Preserving Phonemic Distinctions for Ordinal Regression: A Novel Loss Function for Automatic Pronunciation Assessment Authors Bi Cheng Yan, Hsin Wei Wang, Yi Cheng Wang, Jiun Ting Li, Chi Han Lin, Berlin Chen 自动发音评估 APA 能够量化第二语言 L2 学习者的语言发音水平。流行的 APA 方法通常利用经过回归损失函数(例如均方误差 MSE 损失)训练的神经模型来进行熟练程度预测。尽管大多数回归模型可以有效地捕获特征空间中熟练程度的序数,但它们面临的主要障碍是具有相同熟练程度的不同音素类别不可避免地被迫彼此接近,保留较少的音素区分信息。鉴于此,我们设计了一种音素对比序数 PCO 损失,用于训练基于 APA 模型的回归,其目的是在考虑回归目标输出的序数关系的同时,保留音素类别之间更好的音素区别。具体来说,我们在 MSE 损失中引入了音素不同正则化器,它鼓励不同音素类别的特征表示相距较远,同时通过加权距离拉近属于同一音素类别的表示。 |
One model to rule them all ? Towards End-to-End Joint Speaker Diarization and Speech Recognition Authors Samuele Cornell, Jee weon Jung, Shinji Watanabe, Stefano Squartini 本文提出了一种联合说话人二值化SD和自动语音识别ASR的新框架,称为SLIDAR滑动窗口二值化增强识别。 SLIDAR 可以处理任意长度的输入,并且可以处理任意数量的发言者,有效解决谁同时发言的问题。 SLIDAR 利用滑动窗口方法,由端到端二值化增强语音转录 E2E DAST 模型组成,该模型在本地为每个窗口转录、二值化和说话者嵌入提供服务。 E2E DAST 模型基于编码器解码器架构,并利用序列化输出训练和 Whisper 风格提示等最新技术。然后,通过对说话人嵌入进行聚类以获得全局说话人身份,组合本地输出以获得最终的 SD ASR 结果。 |
Chinese Abs From Machine Translation |
Papers from arxiv.org
更多精彩请移步主页
pic from pexels.com