VITS 模型踩坑记录

VITS 模型踩坑记录_第1张图片
VITS 模型踩坑记录_第2张图片
VITS 模型踩坑记录_第3张图片
fgo玉藻前训练集:
wav_trans:480条
wav_val:25条

VITS 模型踩坑记录_第4张图片
训练效果不算很满意,主要原因应该是训练集数量不够
损失函数从57k开始收敛。后面迭代到了150k次,与前面并无明显差别。500条左右的训练集差不多这样就是极限了

还有一点猜测:
mooncell 玉藻前 玉藻前的语音集语调变化明显。语气词、高音也较多,部分语音推测后明显有爆音的音频。训练集text符号没有完全处理?可能这类语调明显的游戏音频可能还需要更多的训练集。

你可能感兴趣的:(test,人工智能,深度学习,语音识别)