mishidemudong

####好好好好####基于Tacotron汉语语音合成的开源实践

2017年初，Google 提出了一种新的端到端的语音合成系统——Tacotron。Tacotron打破了各个传统组件之间的壁垒，使得可以从<文本，声谱>配对的数据集上，完全随机从头开始训练。本文是来自喜马拉雅FM音视频工程师马力的投稿，他手把手式的介绍了Tacotron的使用方法，帮助你快速上手。

文 / 马力

语音合成（Text to Speech Synthesis）是一种将文本转化为自然语音输出的技术，在各行各业有着广泛用途。传统TTS是基于拼接和参数合成技术，效果上同真人语音的自然度尚有一定差距，效果已经达到上限，在实现上也依赖于复杂流水线，比如以文本分析为前端的语言模型、语音持续时间模型、声学特征预测模型、将频谱恢复成时域波形的声码器（vocoder）。这些组件都是基于大量领域专业知识，设计上很艰难，需要投入大量工程努力，对于手头资源有限的中小型玩家来说，这种“高大上”的技术似乎有些玩不起。

幸运的是近年来基于神经网络架构的深度学习方法崛起，使得原本在传统专业领域门槛极高的TTS应用上更接地气。现在，我们有了新方法Tacotron一种端到端的TTS生成模型。所谓“端到端”就是直接从字符文本合成语音，打破了各个传统组件之间的壁垒，使得我们可以从<文本，声谱>配对的数据集上，完全随机从头开始训练。从Tacotron的论文中我们可以看到，Tacotron模型的合成效果是优于要传统方法的。

本文下面主要内容是github上一个基于Tensorflow框架的开源Tacotron实现，介绍如何快速上手汉语普通话的语音合成。至于模型的技术原理，限于篇幅就不再详细介绍了，有兴趣可以直接阅读论文，本文的宗旨是，对于刚入门的同学能够在自己动手实践中获取及时的结果反馈。

在正文开始之前，笔者假设读者手头已经准备好项目运行的软硬件环境，包括NVIDIA GTX系列显卡及其驱动，能够在控制台上使用Python3引入Tensorflow模块。

关于Tacotron的源代码，我们选择了Keith Ito的个人项目，笔者的汉语语音合成正是基于此源码上修改而成，代码在：https://github.com/begeekmyfriend/tacotron

训练语料库可以在：

http://www.openslr.org/18上下载6.4G大小的THCHS-30，这是由清华大学开放的汉语普通话语料，许可证为Apache License v2.0。

我们可以开始安装运行了。先clone源代码到本地~/tacotron，然后解压THCHS-30数据集到根目录下，如下所示：

~/tacotron

|- data_thchs30

|- data

|- dev

|- lm_phone

|- lm_word

|- README.TXT

|- test

|- train

注意，~/tacotron是默认的路径，之后运行Python程序会直接把~/tacotron作为根目录，如果你的项目根目录不一样，那么你必须修改程序的默认路径参数，否则会出现运行错误。

我们可以深入到：~/tacotron/data_thchs30/data里面去观摩一下，后其中缀为“wav”是语音文件，采样率16KHz，样本宽度16-bit，单声道，内容是时长为10s左右的一段汉语。后缀为“trn”文件为文本标注（transcript），不同语言有着不同的标注方法，比如英语就可以直接用26个字母加上标点符号作为标注，也就是直接使用英文内容本身；韩语由它自己一套字母表，每个字母可以使用Unicode代码作为标注字符；而汉字本身有2~3万个，穷举的话太多，还有很多同音字，所以我们使用汉语拼音作为字符标注是一种可行方案（在此向汉语拼音之父周有光表示敬意）。比如有这么一句：

绿是阳春烟景大块文章的底色四月的林峦更是绿得鲜活秀媚诗意盎然

用汉语拼音标注为：

lv4 shi4 yang2 chun1 yan1 jing3 da4 kuai4 wen2 zhang1 de5 di3 se4 si4 yue4 de5 lin2 luan2 geng4 shi4 lv4 de5 xian1 huo2 xiu4 mei4 shi1 yi4 ang4 ran2

注意到除了拉丁字母的拼音，还有1~5个阿拉伯数字，表示声调（四种声调加上轻声）。

也可以使用音素（声母+韵母）为单元标注：

l v4 sh ix4 ii iang2 ch un1 ii ian1 j ing3 d a4 k uai4 uu un2 zh ang1 d e5 d i3 s e4 s iy4 vv ve4 d e5 l in2 l uan2 g eng4 sh ix4 l v4 d e5 x ian1 h uo2 x iu4 m ei4 sh ix1 ii i4 aa ang4 r an2

根据经验笔者要指出，如果以字符为单位[a-z1-5]，其实上述两种标注方法没有本质区别，故我们只要使用汉语拼音标注方案即可。

聪明的读者应该明白了，所谓的<文本，声谱>配对，就是要让机器学会将每一个包括空格和标点在内的字符[a-z1-5 ,.;:]，对应到（mel或线性）声谱的某几帧。

接下来进入实际操作阶段。在根目录下运行如下命令：

> python3 preprocess.py --dataset thchs30

这条命令会在根目录下生成training目录，里面存放了每个音频文件的mel频谱和线性频谱（通过短时傅里叶变换STFT而得），后缀为"npy"的文件，用numpy库加载即可得到多个narray数组（可以视为多个特征向量组成的多维矩阵），用作语音的声学特征提取。除此之外还有个train.txt文件，里面基本上就是csv的格式将拼音标注同每个文件的声谱对应起来。

再提醒一遍，我们的tacotron根目录默认是~/tacotron，更改需要改变命令行参数。有了<文本，声谱>配对数据集形式后，我们可以训练了，输入以下命令行：

> nohup python3 train.py --name thchs30 > output.out &

我们使用了nohup命令来屏蔽一切中断信号，同时将Python进程置于后台，这是由于训练过程十分漫长（一般收敛需要10个小时，得到好的效果需要2天），免得网络中断或者终端断开导致Python进程被杀死。训练过程中的输出将会保存在logs-thchs30目录下，可能是这样的：

~/tacotron

|- logs-thchs30

|- model.ckpt-92000.data-00000-of-00001

|- model.ckpt-92000.index

|- model.ckpt-92000.meta

|- step-92000-align.png

|- step-92000-align.wav

|- ...

以上是92K次迭代后保存下来的模型和alignment图，顺便说一下我们不需要关注step-92000-align.wav这个音频文件，这并不是通过模型预测的实际效果，只是在训练中使用了teacher forcing方法，不代表evaluation效果，可以不去管它。

如何判断训练是否达到预期呢？个人经验有两个：一看学习是否收敛；二看损失（loss）低于某个值。由于Tacotron模型本质上是基于编码器解码器模式的seqtoseq模型，所以学习是否收敛可以从编码器序列和解码器序列是否对齐（alignment）判断。

我们放了两张alignment图对比，上图训练了140K次迭代，可以看到没有出现对齐，说明没有收敛。可能的原因很多，比如数据集质量不好，标注不正确等等。下图是92K次迭代，可以看到对齐情况良好，表明基本上可以通过文本来合成出有效的语音。这里要指出，所谓对齐并不是一定要笔直的斜线，它只是代表编码器序列（文本）和解码器序列（声谱）是否对应起来，而且像素点越亮，效果越好。

第二个判断点是loss值，越小表明越接近地真值（ground truth），当然必须在收敛的前提下，loss会趋于稳定。在实际训练中有可能出现loss值很低，但是仍然没出现alignment的情况，这是是无法合成语音的。

当我们从训练日志上看到，loss值低于0.07的时候，基本表示学习收敛并且效果稳定了。可以杀掉后台Python进程，别担心，logs-thchs30目录下已经保存了之前训练过程中产生的模型，你可以从任意时刻生成模型随时恢复继续训练，比如我们需要从92K次迭代生成的模型基础上继续训练，命令行如下：

> nohup python3 train.py --name thchs30 --restore_step 92000 >> output.out &

好了，现在终于到了检验我们录音效果的时刻了！不过我们无法直接输入汉字文本，而是拼音标注，好在有开源项目python-pinyin帮我们搞定：https://github.com/mozillazg/python-pinyin

比如我们想合成一句“每个内容生产者都可以很方便地实现自我价值，更多的人有了微创业的机会。”我们使用python-pinyin输出的拼音标注拷贝到eval.py里，输入命令行：

> python3 eval.py --checkpoint logs-thchs30/model.ckpt-133000

一段时间后，就会在logs-thchs30目录下生成了eval-133000-0.wav，这就是我们想要的结果，一起来听听看吧~

参考：

TACOTRON论文中文翻译：

https://my.oschina.net/stephenyng/blog/1620486

WebRTCon 2018

经历了起跑、热炒、失落的7年长跑后，伴随1.0版定稿，获得iOS端支持，WebRTC具备了打通主流生态系统和端的能力，2018年也将是WebRTC落地的最好时机。由LiveVideoStack音视频技术社区出品，WebRTCon 2018将于5月在上海举行，这是一次对过去几年WebRTC技术实践与应用落地的总结。扫描下图二维码了解详情。

你可能感兴趣的:(NLG_TTS)

Hadoop(一) 朱辉辉33 hadoop linux
今天在诺基亚第一天开始培训大数据，因为之前没接触过Linux，所以这次一起学了，任务量还是蛮大的。首先下载安装了Xshell软件，然后公司给了账号密码连接上了河南郑州那边的服务器，接下来开始按照给的资料学习，全英文的，头也不讲解，说锻炼我们的学习能力，然后就开始跌跌撞撞的自学。这里写部分已经运行成功的代码吧. 在hdfs下，运行hadoop fs -mkdir /u
maven An error occurred while filtering resources blackproof maven 报错
转：http://stackoverflow.com/questions/18145774/eclipse-an-error-occurred-while-filtering-resources maven报错： maven An error occurred while filtering resources Maven -> Update Proje
jdk常用故障排查命令 daysinsun jvm
linux下常见定位命令： 1、jps 输出Java进程 -q 只输出进程ID的名称，省略主类的名称； -m 输出进程启动时传递给main函数的参数； &nb
java 位移运算与乘法运算周凡杨 java 位移运算乘法
对于 JAVA 编程中，适当的采用位移运算，会减少代码的运行时间，提高项目的运行效率。这个可以从一道面试题说起：问题：用最有效率的方法算出2 乘以8 等於几?” 答案：2 << 3 由此就引发了我的思考，为什么位移运算会比乘法运算更快呢？其实简单的想想，计算机的内存是用由 0 和 1 组成的二
java中的枚举(enmu) g21121 java
从jdk1.5开始，java增加了enum(枚举)这个类型，但是大家在平时运用中还是比较少用到枚举的，而且很多人和我一样对枚举一知半解，下面就跟大家一起学习下enmu枚举。先看一个最简单的枚举类型，一个返回类型的枚举： public enum ResultType { /** * 成功 */ SUCCESS, /** * 失败 */ FAIL,
MQ初级学习 510888780 activemq
1.下载ActiveMQ 去官方网站下载：http://activemq.apache.org/ 2.运行ActiveMQ 解压缩apache-activemq-5.9.0-bin.zip到C盘，然后双击apache-activemq-5.9.0-\bin\activemq-admin.bat运行ActiveMQ程序。启动ActiveMQ以后，登陆：http://localhos
Spring_Transactional_Propagation 布衣凌宇 spring transactional
//事务传播属性 @Transactional(propagation=Propagation.REQUIRED)//如果有事务，那么加入事务，没有的话新创建一个 @Transactional(propagation=Propagation.NOT_SUPPORTED)//这个方法不开启事务 @Transactional(propagation=Propagation.REQUIREDS_N
我的spring学习笔记12-idref与ref的区别 aijuans spring
idref用来将容器内其他bean的id传给<constructor-arg>/<property>元素，同时提供错误验证功能。例如： <bean id ="theTargetBean" class="..." /> <bean id ="theClientBean" class=&quo
Jqplot之折线图 antlove js jquery Web timeseries jqplot
timeseriesChart.html <script type="text/javascript" src="jslib/jquery.min.js"></script> <script type="text/javascript" src="jslib/excanvas.min.js&
JDBC中事务处理应用百合不是茶 java JDBC编程事务控制语句
解释事务的概念; 事务控制是sql语句中的核心之一;事务控制的作用就是保证数据的正常执行与异常之后可以恢复事务常用命令: Commit提交
[转]ConcurrentHashMap Collections.synchronizedMap和Hashtable讨论 bijian1013 java 多线程线程安全 HashMap
在Java类库中出现的第一个关联的集合类是Hashtable，它是JDK1.0的一部分。 Hashtable提供了一种易于使用的、线程安全的、关联的map功能，这当然也是方便的。然而，线程安全性是凭代价换来的――Hashtable的所有方法都是同步的。此时，无竞争的同步会导致可观的性能代价。Hashtable的后继者HashMap是作为JDK1.2中的集合框架的一部分出现的，它通过提供一个不同步的
ng-if与ng-show、ng-hide指令的区别和注意事项 bijian1013 JavaScript AngularJS
angularJS中的ng-show、ng-hide、ng-if指令都可以用来控制dom元素的显示或隐藏。ng-show和ng-hide根据所给表达式的值来显示或隐藏HTML元素。当赋值给ng-show指令的值为false时元素会被隐藏，值为true时元素会显示。ng-hide功能类似，使用方式相反。元素的显示或
【持久化框架MyBatis3七】MyBatis3定义typeHandler bit1129 TypeHandler
什么是typeHandler? typeHandler用于将某个类型的数据映射到表的某一列上，以完成MyBatis列跟某个属性的映射内置typeHandler MyBatis内置了很多typeHandler，这写typeHandler通过org.apache.ibatis.type.TypeHandlerRegistry进行注册，比如对于日期型数据的typeHandler，
上传下载文件rz,sz命令 bitcarter linux命令rz
刚开始使用rz上传和sz下载命令：因为我们是通过secureCRT终端工具进行使用的所以会有上传下载这样的需求：我遇到的问题： sz下载A文件10M左右，没有问题但是将这个文件A再传到另一天服务器上时就出现传不上去，甚至出现乱码，死掉现象，具体问题解决方法：上传命令改为;rz -ybe 下载命令改为：sz -be filename 如果还是有问题：那就是文
通过ngx-lua来统计nginx上的虚拟主机性能数据 ronin47 ngx-lua　统计解禁ip
介绍以前我们为nginx做统计,都是通过对日志的分析来完成.比较麻烦,现在基于ngx_lua插件,开发了实时统计站点状态的脚本,解放生产力.项目主页: https://github.com/skyeydemon/ngx-lua-stats 功能支持分不同虚拟主机统计, 同一个虚拟主机下可以分不同的location统计. 可以统计与query-times request-time
java-68-把数组排成最小的数。一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的。例如输入数组{32, 321}，则输出32132 bylijinnan java
import java.util.Arrays; import java.util.Comparator; public class MinNumFromIntArray { /** * Q68输入一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的一个。 * 例如输入数组{32, 321}，则输出这两个能排成的最小数字32132。请给出解决问题
Oracle基本操作 ccii Oracle SQL总结 Oracle SQL语法 Oracle基本操作 Oracle SQL
一、表操作 1. 常用数据类型 NUMBER(p,s)：可变长度的数字。p表示整数加小数的最大位数，s为最大小数位数。支持最大精度为38位 NVARCHAR2(size)：变长字符串，最大长度为4000字节（以字符数为单位） VARCHAR2(size)：变长字符串，最大长度为4000字节（以字节数为单位） CHAR(size)：定长字符串，最大长度为2000字节，最小为1字节，默认
[强人工智能]实现强人工智能的路线图 comsci 人工智能
1：创建一个用于记录拓扑网络连接的矩阵数据表 2:自动构造或者人工复制一个包含10万个连接(1000*1000)的流程图 3：将这个流程图导入到矩阵数据表中 4：在矩阵的每个有意义的节点中嵌入一段简单的
给Tomcat，Apache配置gzip压缩(HTTP压缩)功能 cwqcwqmax9 apache
背景： HTTP 压缩可以大大提高浏览网站的速度，它的原理是，在客户端请求网页后，从服务器端将网页文件压缩，再下载到客户端，由客户端的浏览器负责解压缩并浏览。相对于普通的浏览过程HTML ,CSS,Javascript , Text ，它可以节省40%左右的流量。更为重要的是，它可以对动态生成的，包括CGI、PHP , JSP , ASP , Servlet,SHTML等输出的网页也能进行压缩，
SpringMVC and Struts2 dashuaifu struts2 springMVC
SpringMVC VS Struts2 1: spring3开发效率高于struts 2: spring3 mvc可以认为已经100%零配置 3: struts2是类级别的拦截，一个类对应一个request上下文， springmvc是方法级别的拦截，一个方法对应一个request上下文，而方法同时又跟一个url对应所以说从架构本身上 spring3 mvc就容易实现r
windows常用命令行命令 dcj3sjt126com windows cmd command
在windows系统中，点击开始－运行，可以直接输入命令行，快速打开一些原本需要多次点击图标才能打开的界面，如常用的输入cmd打开dos命令行，输入taskmgr打开任务管理器。此处列出了网上搜集到的一些常用命令。winver 检查windows版本 wmimgmt.msc 打开windows管理体系结构(wmi) wupdmgr windows更新程序 wscrip
再看知名应用背后的第三方开源项目 dcj3sjt126com ios
知名应用程序的设计和技术一直都是开发者需要学习的，同样这些应用所使用的开源框架也是不可忽视的一部分。此前《 iOS第三方开源库的吐槽和备忘》中作者ibireme列举了国内多款知名应用所使用的开源框架，并对其中一些框架进行了分析，同样国外开发者 @iOSCowboy也在博客中给我们列出了国外多款知名应用使用的开源框架。另外txx's blog中详细介绍了 Facebook Paper使用的第三
Objective-c单例模式的正确写法 jsntghf 单例 ios iPhone
一般情况下，可能我们写的单例模式是这样的： #import <Foundation/Foundation.h> @interface Downloader : NSObject + (instancetype)sharedDownloader; @end #import "Downloader.h" @implementation
jquery easyui datagrid 加载成功，选中某一行 hae jquery easyui datagrid 数据加载
1.首先你需要设置datagrid的onLoadSuccess $( '#dg' ).datagrid({onLoadSuccess : function (data){ $( '#dg' ).datagrid( 'selectRow' ,3); }}); 2.onL
jQuery用户数字打分评价效果 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/5.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery用户数字打分评分代码 - HoverTree</
mybatis的paramType kerryg DAO sql
MyBatis传多个参数： 1、采用#{0},#{1}获得参数： Dao层函数方法： public User selectUser(String name,String area); 对应的Mapper.xml <select id="selectUser" result
centos 7安装mysql5.5 MrLee23 centos
首先centos7 已经不支持mysql，因为收费了你懂得，所以内部集成了mariadb，而安装mysql的话会和mariadb的文件冲突，所以需要先卸载掉mariadb，以下为卸载mariadb，安装mysql的步骤。 #列出所有被安装的rpm package rpm -qa | grep mariadb #卸载 rpm -e mariadb-libs-5.
利用thrift来实现消息群发 qifeifei thrift
Thrift项目一般用来做内部项目接偶用的，还有能跨不同语言的功能，非常方便，一般前端系统和后台server线上都是3个节点，然后前端通过获取client来访问后台server，那么如果是多太server，就是有一个负载均衡的方法，然后最后访问其中一个节点。那么换个思路，能不能发送给所有节点的server呢，如果能就
实现一个sizeof获取Java对象大小 teasp java HotSpot 内存对象大小 sizeof
由于Java的设计者不想让程序员管理和了解内存的使用，我们想要知道一个对象在内存中的大小变得比较困难了。本文提供了可以获取对象的大小的方法，但是由于各个虚拟机在内存使用上可能存在不同，因此该方法不能在各虚拟机上都适用，而是仅在hotspot 32位虚拟机上，或者其它内存管理方式与hotspot 32位虚拟机相同的虚拟机上适用。
SVN错误及处理 xiangqian0505 SVN提交文件时服务器强行关闭
在SVN服务控制台打开资源库“SVN无法读取current” ---摘自网络写道 SVN无法读取current修复方法 Can't read file : End of file found 文件：repository/db/txn_current、repository/db/current 其中current记录当前最新版本号，txn_current记录版本库中版本