身体关键点+MIDI:看手势还原音乐的AI 来啦

如何演奏一首曲子?

首先,你要学会一种乐器,掌握各种乐理,再勤加练习,才能演奏出一首好听的音乐。在这个过程中,你很有可能会无数次陷入从入门到放弃的死循环。

近日,麻省理工(MIT)联合沃森人工智能实验室(MIT-IBM Watson AI Lab)共同开发出了一款可以根据演奏手势还原乐曲原声的AI模型Foley Music。

利用计算机分离对于人类来说难以区分的声音,通过对演奏者的骨骼关键点的标注与各个部分的速度进行匹配,该模型不仅可以还原钢琴、小提琴、吉他等多种乐器的乐曲原声,还能对音乐的曲调和风格进行编辑。

这项研究的论文成果《Foley Music:Learning to Generate Music from Videos》已被ECCV 2020收录。
身体关键点+MIDI:看手势还原音乐的AI 来啦_第1张图片
如同为一段舞蹈配乐需要了解肢体动作、舞蹈风格一样,为乐器演奏者配乐,同样需要知道其手势、动作以及所用乐器。

该研究的第一作者Chuang Gan说:“人体关键点提供了强大的结构信息。” “我们在这里使用它来提高AI接收和分离声音的能力。”

AI会自动识别演奏视频中目标对象的身体关键点以及演奏的乐器和声音。

系统中的视觉感知模块会提取25个身体的2D关键点和21个手指的2D关键点,同时在音频表征模块,研究人员提出了一种乐器数字化接口(Musical Instrument Digital Interface,简称MIDI)的音频表征形式,它是Foley Music区别于其他模型的关键。

当提取完身体关键点、乐器和声音两项指标的信息后,视-听模块(Visual-Audio Model)会将所有的信息进行整合并转化,生成最终相匹配的音乐。

身体关键点+MIDI:看手势还原音乐的AI 来啦_第2张图片
系统会自动识别演奏视频中目标对象的身体关键点以及演奏的乐器和声音

来源:ECCV 2020

在这个项目中,研究人员已经利用同步音视频轨道来重现人类的学习方式。通过多种感官模式进行训练的AI系统能够以相对较少的数据来更快地学习。

该研究的另一作者,麻省理工学院教授Antonio Torralba说:“多传感器处理是可以执行更复杂任务的嵌入式智能和AI系统的先驱。”

Foley Music模型的系统主要由视觉编码(Visual Encoder),MIDI解码(MIDI Decoder)和MIDI波形图输出(MIDI Output)三个部分构成。

身体关键点+MIDI:看手势还原音乐的AI 来啦_第3张图片
模型架构的概述,来源:ECCV 2020

首先,Visual Encoder会从视频帧中提取关键坐标点,将视觉信息进行编码化处理,并使用GCN(Graph-CNN)捕获人体动态随时间变化产生的潜在表示。

MIDI Decoder 接收到Visual Encoder的编码信息后,通过Graph-Transfomers对人体姿态特征和MIDI事件之间的相关性进行建模。最后,MIDI Output使用标准音频合成器将MIDI事件转换为最终的波形,整个“还原”过程最终得以实现。

在实验中,研究人员选择了三个数据集对Foley Music进行了训练。

URMP,一个高质量的多乐器视频语料库,为每个录制的视频提供了MIDI文件;AtinPiano,即钢琴视频录制,拍摄角度为俯视,可以看到键盘和演奏者的手;MUSIC,是一个未经整理视频数据集。

数据中的乐器则包括风琴,贝斯,巴松管,大提琴,吉他,钢琴,大号,夏威夷四弦琴和小提琴,其视频长度均为6秒。

在对比试验中,研究人员使Foley Music与GAN-based、SampleRNN和WaveNet三种模型进行了对比评估。对比的三个维度分别为正确性(生成的歌曲与视频内容之间的相关性)、噪音(噪音最小)和同步性(歌曲在时间上与视频内容最一致)。

从下图的定量分析数据结果中可以看出,Foley Music模型在各项指标上的性能表现远远超过了其他模型。

研究人员发现,MIDI事件有助于改善声音质量、语义对齐和时间同步。这使得Foley Music模型与其他系统相比,还原的音乐很难与真实录音区分开。

身体关键点+MIDI:看手势还原音乐的AI 来啦_第4张图片
正确性、最小噪声和同步性方面的评估结果

来源:ECCV 2020

“结果表明,通过身体关键点和MIDI可以很好地建立视觉和听觉之间的联系。我们的框架还可以扩展,即通过MIDI事件生成不同风格的音乐。”

论文中写道,“我们的工作将为使用身体关键点和MIDI事件研究视频和音乐之间的联系拓展了道路。”

参考:

1.http://foley-music.csail.mit....

2.https://venturebeat.com/2020/...

3.https://tech.ifeng.com/c/7yNG...

4.https://news.mit.edu/2020/mus...

你可能感兴趣的:(人工智能)