云音乐ICASSP2023最新成果

本文作者：成益

《TG-CRITIC: A TIMBRE-GUIDED MODEL FOR REFERENCE-INDEPENDENTSINGING EVALUATION》-以音色作为指导的无参考歌唱评价算法

论文作者：孙校珩、高月洁、林瀚峣（共同一作）、刘华平，均来自云音乐音视频实验室。

论文下载：https://arxiv.org/abs/2305.09127

论文简介：本文提出一种歌唱评价算法，可以仅依靠一段演唱音频作为算法输入，判断歌手演唱水平

算法输入：演唱音频（非rap类）
算法输出：好中差三分类/0-1的连续分数
评价尺度：完整音频/一首歌内不同片段的分数变化

对于人类专家来说，即使听到一首完全陌生的歌曲，也可以从中判断出歌手的演唱水平。在歌唱评价算法中，这类不需要已知旋律线或已有演唱音频作为对比模板的评价方法，称为“无参考”歌唱评价。我们可以用更熟悉的一个词“开口跪”来描述这种感受。

人声的音色是影响歌唱感知的重要因素。我们首创的提出了一个音色为指导的歌唱评价模型：TG-Critic。实验结果表明，本模型在大多数情况下都优于现有的最先进模型。

模型的设计过程中引入了三个主要创新点： 1.首次在模型中显式引入音色信息辅助歌声评价 2.迁移高分辨率网络结构处理声谱特征 3.提出循环自动数据标注降低人工成本

作为目前准确率最高的端到端的算法，歌唱评价将不再依赖人力手工准备模板物料，且歌手不再需要模仿模板以获取高分，更鼓励歌手的个性化演绎。相比卡拉ok中的传统歌唱评价，有着更加丰富的使用场景，如歌曲分发、优质歌手挖掘、声音社交等。

《TrOMR:Transformer-Based Polyphonic Optical Music Recognition》-基于Transformer的复调图像乐谱识别算法

论文作者：李宜烜、刘华平、金强、蔡苗苗、李鹏，均来自网易云音乐音视频实验室。

论文下载：https://arxiv.org/pdf/2308.09370.pdf

论文简介：OMR（图像乐谱识别）和OCR（图像文字识别）对应，目的在于识别图像中的乐谱。随着深度学习方法的应用，OCR近年得到了长足的进步，而OMR却始终处于研究应用的初级阶段。针对较复杂的乐谱图像，主流的做法更多采用基于目标检测的方式进行乐谱识别，整体算法流程相对繁琐，数据集制作成本高，泛化性较差，对于复调复杂乐谱(Polyphonic)识别精度差。

为了解决以上问题，本论文提出了端到端图像乐谱识别算法，主要创新如下：

1.首次将Transformer引入到乐谱识别任务中，提出TrOMR网络结构，该结构可以预测更长的音符序列，提升识别准确率。

2.将乐谱的标注维度从原来的音符节奏+音符时值，拆分为：乐谱符号全局表征+乐谱符号局部表征+音符音高。这样的拆分方式更利于机器理解和学习。

3.现有的OMR数据集通常使用图像处理方法来模拟真实环境，与实际应用场景存在差异。本文精心设计了一套乐谱图片拍摄的方案，使用手机作为拍照工具，模仿最真实的拍照场景，对明、暗光场景的纸质乐谱进行拍照，以及对显示在显示屏上的乐谱进行拍照。收集了大量的真实数据，希望可以更好的服务于真实场景。

实验结果证明，当前方案对于音符密集的乐谱有着更高的识别准确率。

本文发布自网易云音乐技术团队，文章未经授权禁止任何形式的转载。我们常年招收各类技术岗位，如果你准备换工作，又恰好喜欢云音乐，那就加入我们 grp.music-fe(at)corp.netease.com！

云音乐ICASSP2023最新成果

你可能感兴趣的:(算法)