freeswitch原生支持的tts功能中文一般是使用的ekho,但是那合成的效果简直惨不忍睹,于是我想自己做一个TTS服务器。
首先是找到比较满意的TTS引擎,科大讯飞的效果当然是没话说,但是价格不菲,其他商业的引擎中文合成也不是很流畅,偶然发现windows7自带的合成引擎还算过得去,windows10带的合成引擎就更好了(有兴趣的可以先测试一下,直接在windows控制面板中的语音设置里面有测试,但是测试的中英文混读很蛋疼)。
那么问题来了,怎么把这个引擎用到我的FS上边呢?
思路,debian上的freeswitch(后续简称de-FS)需要TTS的时候,通过桥接到另外一个windows版本的freeswitch(后续简称win-FS),在SIP消息X-header中附加上需要合成的文字,然后win-FS接收到文字后,通过lua脚本调用一个应用程序转换成语音文件,win-FS再播放出来,这样呼入原de-FS的主叫就听到了文本转换后的语音了。
折腾了一个星期,终于把这个TTS服务搭建好了,分享出来,顺便记一下,免得下次要用时找不到。
废话不多说了,直接上脚本(注:de-FS使用fusionpbx搭建的,数据源调用直接用了fusionpbx的方法,深究的可以搭一个fusionpbx查查里面的脚本)
1、de-FS端查数、外呼、转接脚本:
function createIconv(from,to,text) -- 本函数用于将utf8编码和gbk编码相互转换 -- apt-get install lua-iconv #需要先安装lua-iconv local iconv = require("iconv") local cd = iconv.new(to .. "//TRANSLIT", from) local ostr, err = cd:iconv(text) if err == iconv.ERROR_INCOMPLETE then return "ERROR: Incomplete input." elseif err == iconv.ERROR_INVALID then return "ERROR: Invalid input." elseif err == iconv.ERROR_NO_MEMORY then return "ERROR: Failed to allocate memory." elseif err == iconv.ERROR_UNKNOWN then return "ERROR: There was an unknown error." end return ostr end function inser_str_for(in_num) --本函数用在长串数字中插入空格 if in_num == nil then out_str = 'error in_num' else -- print("正在转换:" .. in_num .. "\n") in_num_len = string.len(in_num) tmp_str = string.sub(in_num,1,1) for start_len=2,in_num_len,1 do sub_str = string.sub(in_num,start_len,start_len) tmp_str = tmp_str .. " " .. sub_str end out_str = tmp_str end return out_str end -- require "resources.functions.config"; local Database = require "resources.functions.database"; dbh = Database.new('switch'); --调用freeswitch数据库 api = freeswitch.API(); session:answer(); if (session:ready() == true) then -- orderid = session:playAndGetDigits(8, 8, 3, 5000, '#', 'first sound:#', 'error_try sound', '\\d+|#'); orderid = session:playAndGetDigits(12, 12, 3, 8000, '#', 'misc/enter_carryid.wav', 'misc/erro_carryid.wav', '\\d+|#') end if (orderid== nil) then error_code = 0 else error_code = 1 end if (error_code == 1) then session:execute( "playback", "misc/carry_querying.wav" ) local params = {carry_id_in = orderid} local sql = "SELECT * from carry_staut t where t.carry_id= :carry_id_in;" dbh:query(sql, params, function(row) carry_staut = row.info; --返回字段映射 end); if carry_staut==nil then session:streamFile("misc/erro_carryid.wav") else -- out_orderid=inser_str_for(orderid) -- 当使用微软音库时需转换 out_orderid=orderid -- 当使用"VM Hui"音库时无需转换 tts_text = "您好,单号:" .. out_orderid ..",7月11日,您从广州寄往深圳的快件当前状态:".. carry_staut ..",签收人李先生,感谢使用顺丰!" tts_text = createIconv("utf-8","gbk",tts_text) --调用函数将字符集转换为gbk session:setVariable("sip_h_X-Text",tts_text) tts_session = freeswitch.Session("sofia/gateway/80fd35d7-d767-4fb3-907f-72daaa7896ea/1098", session) if (tts_session:ready() == true) then freeswitch.bridge(session,tts_session) tts_session:hangup() end end else session:streamFile("misc/erro_carryid.wav") end session:sleep(500) local digits = session:playAndGetDigits(1, 1, 3, 8000, '', 'misc/continue_carryid.wav', 'ivr/ivr-that_was_an_invalid_entry', '[\\d{1}|*]') if (digits == "1") then session:execute("transfer","6200"); else if (digits == "2") then session:execute("transfer","6002"); else if (digits == "*") then session:execute("transfer","6000"); else session:execute("transfer","6002"); end end end
2、win-FS接收端脚本:
session:answer(); session:ready(); uuid = session:getVariable("uuid"); sounds_dir = session:getVariable("sounds_dir"); text1 = session:getVariable("sip_h_X-Text"); if text1 == nil then text1 = session:getVariable("caller_id_name"); end os.execute("G:\\fusionpbx\\TTS\\tts_app\\tts_app.exe" .. " -to" .. " \"" .. text1 .. "\" " .. " \"" .. sounds_dir .. "/" .. uuid .. ".wav" .. "\""); session:streamFile(sounds_dir .. "/" .. uuid .. ".wav"); session:sleep(1000); os.remove(sounds_dir .. "/" .. uuid .. ".wav"); session:hangup();
3、调用windows的tts程序代码(用C#写的一个控制台程序,可实现列出语音库,直接放音,和将语音保存到文件,直接调用windows接口):
using System; using System.Speech.Synthesis; using System.Configuration; using System.Speech.AudioFormat; namespace tts_app { class Program { static void Main(string[] args) { // Encoding utf8 = Encoding.GetEncoding("utf8"); // Encoding gb2312 = Encoding.GetEncoding("gb2312"); String tts_text; String outputfile; String Voice_out = ConfigurationManager.AppSettings["Voice"]; String Speed =ConfigurationManager.AppSettings["Speed"]; String Volume =ConfigurationManager.AppSettings["Volume"]; int Speed_true=0; int Volume_true=0; int Speed_out, Volume_out; int.TryParse(Speed, out Speed_true); if (Speed_true >= -10 && Speed_true <= 10) { Speed_out = int.Parse(Speed); } else { Console.WriteLine("语速配置错误,将以默认语速0输出"); Speed_out = 0; } int.TryParse(Volume, out Volume_true); if (Volume_true >= 0 && Volume_true <= 100) { Volume_out = int.Parse(Volume); } else { Console.WriteLine("音量配置错误,将以默认音量100输出"); Volume_out = 100; } if (args.Length == 1 && args[0] == "-l")//判断输入参数等于1,且等于-l时列出语音库信息 { SpeechSynthesizer speech = new SpeechSynthesizer(); Console.WriteLine("本机安装的语音包如下:"); foreach (InstalledVoice voice in speech.GetInstalledVoices()) { VoiceInfo info = voice.VoiceInfo; string AudioFormats = ""; foreach (SpeechAudioFormatInfo fmt in info.SupportedAudioFormats) { AudioFormats += String.Format("{0}\n", fmt.EncodingFormat.ToString()); } Console.WriteLine(" 音库名称: " + info.Name); Console.WriteLine(" 语种: " + info.Culture); Console.WriteLine(" 年龄: " + info.Age); Console.WriteLine(" 性别: " + info.Gender); Console.WriteLine(" 描述: " + info.Description); Console.WriteLine(" ID: " + info.Id); Console.WriteLine(" 是否启用: " + voice.Enabled); if (info.SupportedAudioFormats.Count != 0) { Console.WriteLine("语音格式:" + AudioFormats); } else { Console.WriteLine(" 不支持的语音格式:"); } string AdditionalInfo = ""; foreach (string key in info.AdditionalInfo.Keys) { AdditionalInfo += String.Format(" {0}: {1}\n", key, info.AdditionalInfo[key]); } Console.WriteLine(" 其他信息: " + AdditionalInfo); } speech.SetOutputToNull(); speech.Dispose(); Console.WriteLine("读取语音列表完成!"); } else if (args.Length == 2 && args[0] == "-t") { tts_text = args[1]; // 以下代码用于将linux传过来的UTF8转码成正常文字 //byte[] buffer1 = Encoding.Default.GetBytes(tts_text); //byte[] buffer2 = Encoding.Convert(Encoding.UTF8, Encoding.Default, buffer1, 0, buffer1.Length); //tts_text = Encoding.Default.GetString(buffer2, 0, buffer2.Length); SpeechSynthesizer speech = new SpeechSynthesizer(); String defult_voice; speech.GetInstalledVoices(); speech.SelectVoice(Voice_out); //语音类型 speech.Rate = Speed_out; //语速 speech.Volume = Volume_out; //音量 Console.WriteLine("正在合成: "); Console.WriteLine(tts_text); speech.Speak(tts_text); Console.WriteLine("合成完成"); speech.Dispose(); } else if (args.Length == 3 && args[0] == "-to") { tts_text = args[1]; outputfile = args[2]; // 以下代码用于将linux传过来的UTF8转码成正常文字 // byte[] buffer1 = Encoding.Default.GetBytes(tts_text); // byte[] buffer2 = Encoding.Convert(Encoding.UTF8, Encoding.Default, buffer1, 0, buffer1.Length); // tts_text = Encoding.Default.GetString(buffer2, 0, buffer2.Length); SpeechSynthesizer speech = new SpeechSynthesizer(); speech.SelectVoice(Voice_out); //语音类型 speech.Rate = Speed_out; //语速 speech.Volume = Volume_out; //音量 Console.Write("正在合成: "); Console.WriteLine(tts_text); Console.Write("输出文件名: "); Console.WriteLine(outputfile); speech.SetOutputToWaveFile(outputfile); speech.Speak(tts_text); Console.WriteLine("合成完成"); speech.SetOutputToNull(); speech.Dispose(); } else { Console.WriteLine("启动参数错误,请使用“-t 文本内容,或使用“-to 文本内容 输出文件名”,“-l”列出本机安装的语音库"); } } } }
4、TTS程序配置文件(用来调整语速,音量和选择音库):
附件包含了两个语音合成效果和我编译好了的tts_app应用(需要安装.net运行库)
应用的使用方式:
1、列出语音库:tts_app.exe -l (如果放不出来,则需要查询语音库有哪些,然后将音库名称填入到配置文件的voice参数里面)
2、直接合成:
tts_app.exe -t “需要合成的文字”
3、保存到wav文件
tts_app.exe -to “需要合成的文字” "D:\存放路径\文件名.wav"