【韵律预测】基于BILSTM-CRF的韵律预测

基于BILSTM-CRF的韵律预测

  • 摘要
  • BLSTM-CRF模型结构
    • Embedding layer
    • BLSTM-CRF model
      • BLSTM
      • CRF
  • Character-level表示

论文题目:BLSTM-CRF Based End-to-End Prosodic Boundary Prediction with Context Sensitive Embeddings in A Text-to-Speech Front-End
来源:interspeech2018
模型结构:word embedding+bilstm+CRF

摘要

本文提出了一个与语言无关的韵律预测模型(BILSTM-CRF)。主要包括三个组分:word embedding+bilstm+CRF,word embedding 是根据韵律预测的特殊任务学习的word embedding, BLSTM能够利用过去和未来的信息,CRF能够利用句子级别的信息。本文整合了三个部分,并且三个部分同时学习更新。除此之外,本文研究了character embedding和context sentensive embedding 对模型的作用,以及使用attention机制对embbedding加权的作用。通过注意力机制,模型能够决定如何使用不同level的embedding(word level和character level)。客观评价结果表明本文提出的BLSTM-CRF在普通话和英语的数据集上实现了最好的效果(与之前效果最好的BLSTM相比,IPH的预测F1得分分别有3.21%和3.74%的提升)主观评测结果也说明了本文提出的方法的有效性。

BLSTM-CRF模型结构

【韵律预测】基于BILSTM-CRF的韵律预测_第1张图片
CRF层预测二分类:break or no break

Embedding layer

以前的许多工作中,直接将pre-trained的word embedding作为输入,即word embedding在模型训练过程中不会更新。本文中word embedding在模型训练的过程中会被fine-tuned,从而获得一些针对韵律边界预测任务的特性。

BLSTM-CRF model

BLSTM

双向LSTM,分别从两个相反的方向得到正向的输出 h → \mathop{h} \limits ^{\rightarrow} h和反向的输出 h ← \mathop{h} \limits ^{\leftarrow} h,并把他们拼接到一起 h = [ h → , h ← ] \textbf{h}=[\mathop{h} \limits ^{\rightarrow},\mathop{h} \limits ^{\leftarrow}] h=[h,h]送给下一层。

CRF

对于韵律边界预测任务来说,不同的tags之间是有依赖关系的,因此比较适合整句建模和解码。CRF的loss定义为正确的路径得分的负对数似然。
【韵律预测】基于BILSTM-CRF的韵律预测_第2张图片
s ( y ) s(y) s(y)表示序列y的得分, Y ~ \widetilde{Y} Y 表示所有可能的序列。

Character-level表示

在之前的研究中,针对韵律预测任务,word embedding比character embedding特征能够帮助模型学到更好的效果,因此本文没有用character embedding直接替换掉word embedding,而是应用attention机制,让模型去利用不同粒度的embedding。具体结构如图:
【韵律预测】基于BILSTM-CRF的韵律预测_第3张图片

你可能感兴趣的:(TTS学习笔记,TTS论文阅读,人工智能,算法)