TTS中的stop_tokens

语音合成中,由于一个批次送进来的不是等长的音频,所以需要我们手动补齐短的,这样的话,在合成中也需要我们设置合成音频的长度,索性,一般会有一个linear层专门学这个,一般用nn.BCEWithLogitsLoss()损失函数,因为Label不是零就是一,那生成的stop_preds通过这个损失函数,生成的就是正负的了。查看代码如下:

data = stop_preds.squeeze()
data[data < 0] = 0
data[data > 0] = 1
print(data) # 查看gate

你可能感兴趣的:(深度学习)