1. 【小数据VC】Attention-Based Speaker Embeddings for One-Shot Voice Conversion [2020 interspeech]
论文
单位:日本NTT
seq-seq with attention的VC,
2. 【提升质量】ATTS2S-VC: SEQUENCE-TO-SEQUENCE VOICE CONVERSION WITH ATTENTION AND CONTEXT PRESERVATION MECHANISMS [2019 icassp]
3. 【实时VC】ConVoice: Real-Time Zero-Shot Voice Style Transfer with Convolutional Network [投稿 2020 interspeech]
单位:Higher School of Economics, Saint Petersburg,Russia
introduction:
zero-shot voice conversion (VC) without any parallel or transcribed data.
预训练的ASR, SV(speaker verification)模型,VC模型是全CNN,没有自回归。
人的语音可以分为四个部分:Timbre–说话人的音色,content–文本信息, pitch and rhythm ----韵律信息。
之前的VC主要分为两种,timbre conversion–逐帧对source进行转换,但保存source的韵律信息;非等长对齐通过RNN/attention对source和target进行非等长对齐,尽管这种方法较好的转换了target的韵律信息,但是对于长句子样本时通常比较慢或者韵律变差。
网络更小,计算更快,单独训练好的SV模型提取speaker embedding而不是look up table更有可能实现zero-shot VC。
代码链接,demo展示
1. 【singer conversion】PitchNet-Unsupervised Singing Voice Conversion with Pitch Adversarial Network [2020 icassp]
单位:腾讯ai lab,Chengqi Deng
abstract:
现有的SVC很多不在调上,说明pitch预测的不准。本文是为了更精确的预测pitch,更灵活的修正pitch。
本文提出用adversarial trained pitch regression network帮助encoder更好的学习pitch不变的音素表示singer-invariance embedding,另外一个单独的module送入source中提取的pitch到decoder module。本文是基于非平行数据做的SVC任务,参考之前的WaveNet encoder,虽然可以合成高相似度的语音,但是语音的质量不好—phone和pitch联合建模的缺点。
demo展示
2. 【singer conversion】PPG-based singing voice conversion with adversarial representation learning [投稿2021 icassp]
单位:头条
论文链接
demo: 添加链接描述
技术点:多个子网络,对抗训练,互相弥补促进性能,demo展示还不错
3. 【singer conversion】 Unsupervised Singing Voice Conversion [2019 arxiv]
1. 【音乐演奏风格转换:莫扎特–贝多芬】A Universal Music Translation Network [2017 NIPS]
Facebook AI,Noam Mor
introduction:
第一次做音乐风格的转换,比如演奏乐器,题材,和风格。
youtube视频demo—莫扎特风格和贝多芬风格的转换。
2. 【风格转换的效果评估–分类器】Evaluation of Vocal Audio Style Transfer
有的任务在做音乐风格的转换,将一个歌手的音乐转换为另外一个歌手的风格,用一个分类器对现有的歌手音乐进行分类(尤其是演唱的部分),然后用于评判歌唱风格转换的有效性。
3. 【音乐风格转换】MelGAN-VC: Voice Conversion and Audio Style Transfer on arbitrarily long samples using Spectrograms[2019 arxiv]
孪生网络进行domain translation,可以做VC,也可以做音乐风格的转换(jazz–classical, classical—jazz)
youtube demo展示
孪生网络和伪孪生网络介绍
4. 【风格转换:pop/jazz–classic,音频剪辑】MIDI-VAE: Modeling dynamics and instrumentation of music with applications to style transfer[ISMIR 2018]
ISMIR 计算机音乐顶会
单位:ETH Zurich Switzerland 苏黎世联邦理工
图像上的风格迁移,本文转换的youtube-demo, 开源代码
pitch和速度对风格转换有影响,乐器和风格相关性比较强
5. 【singing voice --to-- musical instruments】Neural Style Transfer for Audio Spectrograms [2017 NIPS]
假设音乐中表征音乐人风格的部分主要由dynamical aspects决定,因此模型旨在学习调整note pitches的速度。
单个的GenreNet 从note序列中学习dynamic信息,但是只学到一种题材的。多个GenreNet组合成为StyleNet,建模多种不同的风格。
测试:
(1)Identify the Human:受测者判断是否能够区分真正创作者的音乐和AI生成的音乐;
(2)Identify the Style:受测者判断音乐属于Classical或者jazz
6. 【改变乐器的音色,不改变节奏等信息】TimbreTron- A WaveNet (CycleGAN(CQT(Audio))) Pipeline for Musical Timbre Transfer 【2019 ICLR】
视频demo-做的蛮好的
开源代码
musical timbre transfer :只改变乐器的音色,不改变音乐中的节奏等其他的音乐信息。
7.【歌唱风格转换 (像是特殊音色转换)】Singing Style Transfer Using Cycle-Consistent Boundary Equilibrium Generative Adversarial Networks【2018 ICML】
[说话风格转换]Cycle-consistent Adversarial Networks for Non-parallel Vocal Effort Based Speaking Style Conversion[2019 icassp]
语音demo
Converting Anyone’s Emotion:Towards Speaker-Independent Emotional Voice Conversion [2020-10, LHZ]
code and demo
语音质量很差,对判断模型是否有效干扰很大。
EVC(emotional voice conversion):保留语音中的文本信息和说话人特征,转换情感。说话人无关的emotion state,基于非平行数据和VAW-GAN。
情感转换和spectral以及prosody的转换都有关系。
传统的VC只关注spectral的转换。