VALL-E:Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers

文章目录

  • NLP中Bert的进展历史
    • word embedding
    • ELMO
    • GPT
    • Bert
  • AudioLM: a Language Modeling Approach to Audio Generation
    • abstract
    • intro
    • related work
  • VALL-E:Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers
    • abstract
    • speech quantization
    • training:conditional codec LM
      • AR-codec LM:acoustic prompt
      • NAR-codec LM:fine acoustic prompt

NLP中Bert的进展历史

  • 从Word Embedding到Bert模型——自然语言处理中的预训练技术发展史

word embedding

  • word embedding:每个单词one-hot编码的向量矩阵,在大语言训练之后,该矩阵可以直接提取出来,作为word embedding提取器,用于计算单词的相似度等;其中提取word embedding的方式word2vec的训练有两种:(1)提供上下文,预测目标单词,CBOW(continuous bag-of-word model);(2)当前单词预测前后的单词。
  • 缺点:当同一单词有不同含义的时候无法区分

ELMO

  • 在word embedding的基础上,对上下文信息进行编码,对于当前单词提供出来的是word embedding, 双向LSTM前向编码的结果,反向编码的结果(其中后两项有比较强的语义信息)。

GPT

  • 使用transformer结构,长距离编码的能力显著优于BLSTM
  • 但是只提供了前向编码的结果,没有考虑上下文信息

Bert

  • 使用transformer结构,且使用了双向编码的结果
  • 使用了CBOW的方法,训练的时候,对于一个句子,随机mask一定比例的单词,作为预测目标。(为了避免训练把mask映射,部分mask不是替换成【mask】的方式,而是随机换成其他的单词,或者不做mask)
  • in-context学习的能力,对于下游任务,只需要对数据结构作一定的修改,仍然使用此结构,在重多任务上都取得比较好的结果。

AudioLM: a Language Modeling Approach to Audio Generation

  • google

abstract

  • motivation:生成高质量的音频,且具有长时相关性。speech2speech
  • speech量化成discrete tokens,然后恢复成音频。

intro

  • 在没有condition的情况下(linguistic features, MIDI seq),即使强如wavenet,也只能生成噪声。
  • 之前的方法:使用自监督语言模型方法预训练的模型得到semantic tokens。这些token捕捉了local dependencies(phn, 音乐中局部的旋律),长时特征(speech中的语言句法信息,钢琴曲中的harmony,rhythm)。——重建质量不高。
  • 本文:(1)semantic tokens和fine-level acoustic tokens,保证高质量生成和长时依赖。且两部分互为补充(音素信息和生成质量);(2)AudioLM音色复刻:acoustic prompt来自3s unspseech speaker的时候,可以实现音色、韵律以及录制环境的复刻。(3)AudioLM音乐生成:给了prompt之后,可以生成旋律、节奏、乐器音色一致的音乐。(4)为了防止语言延续(speech continuation)滥用,训练一个很高精度的判别器,用于判别语音是否是audioLM生成的。

related work

  • neutral codec:AudioLM使用SoundStream neutral codec提取的tokens(降采样),作为序列建模的target,而且tokens可以被重建为语音。
    VALL-E:Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers_第1张图片

VALL-E:Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers

abstract

  • motivation:将大数据训练语言模型的方法引入到TTS中,通过极大的数据量进行in-context learning,使用prompt-based approaches方法做zero-shot TTS
  • 效果demo

speech quantization

VALL-E:Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers_第2张图片

  • 使用neutral codec对speech进行量化成离散的tokens,此过程可逆,也可以将discrete tokens反变换成高质量音频。neutral codec相比于其他量化方法优点在于:(1)包含充分的说话人信息和声学信息。(2)有现成的codec decoder,不需要重新训练;(3)相比于 μ − l a w \mu-law μlaw变换,所需的steps更少,效率更高。
  • 使用预训练的EnCodec作为tokenizer。输入speech采样率24kHz,经过模型将采样320倍,变成75Hz。模型是8个层级结构的CNN-residualVQ。第一维是global信息(音色,声道),后7维是细粒度的phn以及其他相关的信息,这么说是与使用的预训练模型自己训练时候的8维target提取方式有关(audioLM图,SoudnStream+wav2vecBERT)
  • 输入10s的音频,输出是75*10=750 * 8的离散特征矩阵

training:conditional codec LM

VALL-E:Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers_第3张图片

AR-codec LM:acoustic prompt

VALL-E:Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers_第4张图片

  • phn序列和acoustic prompt拼接,经过AR-transformer序列化的预测 c t c_t ct,时长对齐也是在这个阶段完成的。类似于tacotron。

NAR-codec LM:fine acoustic prompt

VALL-E:Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers_第5张图片

  • 对于第i个codec,输入是在这里插入图片描述

  • 其中, e c e_c ec是前(i-1) c i c_i ci和project weight乘积的累加和。
    VALL-E:Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers_第6张图片

  • 预测好的8维codec,送入decodec中,用于波形重建。

你可能感兴趣的:(paper笔记,大数据,自然语言处理,人工智能)