Festival:Linux TTS入门及Demo

翻译:Derry / 2010-7-27

原文:http://www.xenocafe.com/tutorials/php/festival_text_to_speech/index.php

 

前提条件
基于*nix的操作系统
Festival for Linux
PHP 3 or higher
LAME Ain't an MP3 Encoder (optional)

下载源码: festival-tts.tar.gz

 

内容
介绍
使用yum安装Festival RPM
尝试Festival Text-To-Speech功能
使用text2wave将TTS语音保存到磁盘
安装LAME MP3编码器
将WAV-RIFF音频文件转换为MP3格式
为Festival构建PHP前端(text2wave)
PHP TTS演示程序
结论


介绍

本教程将向你展示在Linux下如何使用Festival程序实现“文本-语音(TTS)”合成。Festival是类Unix系统下免费的软件框架,它能够将纯文本转换为听得见的语音输出。可以确信我们几乎都见到过微软Merlin字符(也称为Microsoft Agent),它是微软Office及其他产品的成员之一。我不能确信那就是Merlin字符首次登场的地方,但我可以肯定的是,它的确可以用来当作Office助手。MS代理使用语音合成技术为本地应用提供更好的交互。我个人感觉这没啥用,但的确有人喜欢它(Clippy比我更喜欢,但却没说一句话)。Linux下能够使用Fesitval实现TTS。本文选择的Linux系统是CentOS 4.2,但如果可以编译Festival或者通过RPM加载(或者其他方式),任何类Unix操作系统都是可用的。在本教程里,我将向你展示如下主题:使用yum安装Festival,创建HTML表单来接收用户输入,同时使用PHP处理过程将输入文本使用text2wave程序转换为声音,也可以使用 LAME 把默认的WAV-RIFF文件转换为MP3来压缩文件大小。实际上使用tts能够实现的功能要比我这里介绍的多的多, 所以到实践中去学习,冒险多尝试来创建更多有趣的Linux TTS应用吧(也许可以做个通过cron调用的语音提醒脚本?)。

使用yum安装Festival RPM

本教程中安装的是RPM版而非源码格式的Festival,如果你愿意通过源码安装,也可以在这儿下载. 采用源码安装是更好的选择,原因在于Festival已经发布了1.95(2.0beta)版,而CentOS 4.x RPM的festival-1.4.2-25.i386.rpm版本是1.4.2. 我没试过源码安装,所以只能推测它优化了tts合成引擎,但就本教程来讲,RPM版的已经足够了。如果你不确定电脑上是否安装了Festival,可以使用which或者rpm命令来验证一下。

which festival

可以看到,没有找到任何Festival信息。这基本上意味着你没有安装,但如果你想尝试rpm,那么试试这个命令:

rpm -qa | grep -i festival

如果Festival RPM没有显示,那说明你没安装。没问题,这里正好用到yum,现在我们就使用yum安装Festival:

yum install festival

yum将会与CentOS文档库通信,解析Festival和你操作系统上可能的依赖项,并提示你下载安装Festival RPM。输入 y 表示同意并按回车。Festival RPM有18M,所以在下载的时候你可能会想站起来伸个懒腰啥的。一旦下载完成,无须手动安装,yum会帮你干这个事儿。好了,完成Festival安装后,下一步我们将使用它,让计算机说话。


尝试Festival Text-To-Speech功能

我们来通过几个例子来看看怎么使用Festival。你最好看看Festival用户手册页面来获取更多的可选项和使用方法。基本上,你只管使用--tts选项传递一个文本字符串给Festival,它就能把文本合成为语音了。同样也可以使用文本文件或者脚本来完成更加动态的音频输出。

例1: 美丽的一天消息(echo 文本)

echo "It's such a beautiful day! Why are you in front of the computer?" | festival --tts

例 2: 今天是几号? (编程输出)

date '+%A, %B %e, %Y' | festival --tts

例 3: 随机日期 (PHP shell 脚本)

./rand.php | festival --tts

#!/usr/bin/php -q

可以看到,给Festival发送文本是有很多种方式的。如果你花时间看了Festival 用户手册页面 ,也许会注意到并没有保存音频输出为文件的选项。你将不能像把文本导出文件一样把音频输出也导出文件,那该怎么办呢?在Festival包中有个程序叫做text2wave,它能够把音频以WAV格式保存为磁盘文件。


使用text2wave将Text-To-Speech音频保存到磁盘

text2wave读取文本文件内容,将之转换为音频语音,并保存为ulaw,snd, aiff, riff, 或 nist 格式的音频文件。 text2wave的默认音频格式为riff(或WAV,在Windows上很常见)。通过查看text2wave帮助(text2wave --help)可以看到相对Festival来说,它的选项就少多了,但至少你可以以echo,程序或者shell脚本来向它传送文本。其中一个有用的选项是 -scale 用来做音量调节。默认的语音音量有些低,所以需要使用一个浮点值来提升它(50就足够了)。

还是用上面那个例子,这里为每个例子创建一个WAV文件:

echo "It's such a beautiful day! Why are you in front of the computer?" | text2wave -scale 50 -o beautiful_day.wav

date '+%A, %B %e, %Y' | text2wave -scale 50 -o date.wav

./rand.php | text2wave -scale 50 -o rand.wav

如果输入的文本过大,那么输出的WAV文件也会很大。可以尝试使用其他text2wave支持的音频格式或者使用LAME把WAV压缩转换为MP3。下面我们就安装LAME MP3 编码器。


安装LAME MP3编码器

在安装LAME之前要确保你系统上已经安装了gcc等开发工具。如果没安装这些工具和一些依赖项,也可以使用yum(yum install gcc)来安装。也可能有些软件包没有列出来,你也要逐个找出来。Lame 3.97beta2 是以源码形式提供的。(从sourceforge获取),也有RPM包可用,但本文我们将编译源码创建二进制文件。确认你一root用户登录并定位置home目录,使用wget下载源码包,解压gzip压缩后的tar包,cd到解压后的lame-2.97目录,运行configure脚本,make,然后安装二进制文件。

su -
[enter root password]
cd ~
wget http://easynews.dl.sourceforge.net/sourceforge/lame/lame-3.97b2.tar.gz
tar zxvf lame-3.97b2.tar.gz
cd lame-3.97
./configure --prefix=/usr
make
make install

如果编译没有问题,从命令行运行LAME (lame)会有如下提示:

使用LAME我们可以把大个头的WAV文件转换为体积更小巧的MP3版本。


将WAV-RIFF音频文件转换为MP3格式

使用LAME相当简易。你需要做的只是把WAV文件名传给它,设置一个MP3输出的文件名就行了。这儿我就不多介绍LAME的选项了,想看的话可以查看其手册(man lame)。现在我们把前面三个例子生成的文件转换为MP3格式:

lame beautiful_day.wav beautiful_day.mp3
lame date.wav date.mp3
lame rand.wav rand.mp3

现在我们来比较一下WAV和MP3版本,文件大小差异很大,MP3的确是更好的选择。

cd ~
ls -la *.wav
ls -la *.mp3

为了强调一下迄今为止我们所学的内容,这里将创建一个PHP前端,这样的话你就可以在浏览器上创建tts文件了。


为Festival构建PHP前端(text2wave)

我们将通过创建HTML表单的方式来构建PHP前端处理tts。这个表单包括一个textarea(用来保存转换语音的文本),文本输入框(调节音量值)以及一个复选框(用来标识是否把WAV格式转换为MP3文件)。我在里面加了很多注释说明每块代码的用途,所以这儿就不再赘述了。你只需知道在文本框里输入一些文字,调整音量设置,然后选择是否转换为MP3就行了。一旦你点击了Text-To-Speech按钮,表单将回发到服务器,表单上的数据将会被捕获和处理。表单文本会被写入到一个临时文件,输入到 text2wave 来转换,text2wave会被PHP的exec函数调用。如果MP3选项被选中,第二个 exec 被调用,使用LAME完成WAV至MP3的转换。当页面重新加载后,在提交按钮旁边多出一个连接到音频文件的超链接。可以点击播放,或者右键单击选择“目标另存为”来下载这个文件。

 100) { $volume_scale = 100; }
  if (intval($_POST["save_mp3"]) == 1) { $save_mp3 = true; }

  // continue only if some text was entered for conversion
  if ($speech != "") {
    // current date (year, month, day, hours, mins, secs)
    $currentdate = date("ymdhis",time());
    // get micro seconds (discard seconds)
    list($usecs,$secs) = microtime();
    // unique file name
    $filename = "{$currentdate}{$usecs}";
    // other file names
    $speech_file = "{$tmpdir}/{$filename}";
    $wave_file = "{$audiodir}/{$filename}.wav";
    $mp3_file  = "{$audiodir}/{$filename}.mp3";

    // open the temp file for writing
    $fh = fopen($speech_file, "w+");
    if ($fh) {
      fwrite($fh, $speech);
      fclose($fh);
    }

    // if the speech file exists, use text2wave
    if (file_exists($speech_file)) {
      // create the text2wave command and execute it
      $text2wave_cmd = sprintf("text2wave -o %s -scale %d %s",$wave_file,$volume_scale,$speech_file);
      exec($text2wave_cmd);

      // create an MP3 version?
      if ($save_mp3) {
        // create the lame command and execute it
        $lame_cmd = sprintf("lame %s %s",$wave_file,$mp3_file);
        exec($lame_cmd);
        // delete the WAV file to conserve space
        unlink($wave_file);
      }
      
      // delete the temp speech file
      unlink($speech_file);

      // which file name and type to use? WAV or MP3
      $listen_file = (($save_mp3 == true) ? basename($mp3_file) : basename($wave_file));
      $file_type = (($save_mp3 == true) ? "MP3" : "WAV");

      // show audio file link
      $show_audio = true;
    }
  }
} else {
  // default values
  $speech = "Hello there!";
  $volume_scale = 50;
  $save_mp3 = true;
}
?>


Festival: Linux Text-To-Speech Demo



Linux Festival Text-To-Speech Demo

Volume Scale Save as MP3 >
Listen to the file

 

结论

就这些了,现在你有了在linux上使用Festival创建tts音频文件的工具。使用tts合成技术你可以创造各种各样的应用程序,例如提醒服务(通过向电话或Email发送音频流)。Festival是个伟大的工具,但是有时候也会很难听清楚语音的意思。对于某些特定的词语它处理起来是有些问题,这对于商业应用来讲显得不是那么完美。再来看看 AT&T 实验室自然语音 Text-to-Speech 引擎 ,试试它们的 demo咋样,它拥有商业级品质,听起来真的很不错,唯一不同的地方就是它是收费的。

你可能感兴趣的:(Linux开发,计算机网络及多媒体)