http://www.androidres.com/index.php/2009/09/29/an-introduction-to-text-to-speech-in-android/
TextToSpeech简称 TTS,是Android 1.6版本中比较重要的新功能。将所指定的文本转成不同语言音频输出。它可以方便的嵌入到游戏或者应用程序中,增强用户体验。
在讲解TTS API和将这项功能应用到你的实际项目中的方法之前,先对这套TTS引擎有个初步的了解。
对TTS资源的大体了解:
TTS engine依托于当前Android Platform所支持的几种主要的语言:English、French、German、Italian和Spanish五大语言(暂时没有我们伟大的中文,至少Google的科学家们还没有把中文玩到炉火纯青的地步,先易后难也是理所当然。)TTS可以将文本随意的转换成以上任意五种语言的语音输出。与此同时,对于个别的语言版本将取决于不同的时区,例如:对于English,在TTS中可以分别输出美式和英式两种不同的版本(由此看出Google的做事风格真够细致,而正因为如此估计Google不加入中文的另外一种理由是中文的方言太多了)。
能支持如此庞大的数据量,TTS 引擎对于资源的优化采取预加载的方法。根据一系列的参数信息(参数的用法将在后边有详细的介绍)从库中提取相应的资源,并加载到当前系统中。
尽管当前大部分加载有Android操作系统的设备都通过这套引擎来提供TTS功能,但由于一些设备的存储空间非常有限而影响到TTS无法最大限度的发挥功能,算是当前的一个瓶颈。为此,开发小组引入了检测模块,让利用这项技术的应用程序或者游戏针对于不同的设备可以有相应的优化调整,从而避免由于此项功能的限制,影响到整个应用程序的使用。比较稳妥的做法是让用户自行选择是否有足够的空间或者需求来加载此项资源,下边给出一个标准的检测方法:
1 |
Intent checkIntent = new Intent(); |
2 |
checkIntent.setAction(TextToSpeech.Engine.ACTION_CHECK_TTS_DATA); |
3 |
startActivityForResult(checkIntent, MY_DATA_CHECK_CODE); |
如果当前系统允许创建一个 “android.speech.tts.TextToSpeech
” 的Object, 说明已经提供TTS功能的支持,将检测返回结果中给出“ CHECK_VOICE_DATA_PASS
” 的标记。如果系统不支持这项功能,那么用户可以选择是否加载这项功能,从而让设备支持输出多国语言的语音功能“Multi-lingual Talking”。“ACTION_INSTALL_TTS_DATA” intent将用户引入Android market中的TTS下载界面。下载完成后将自动完成安装,下边是实现这一过程的完整代码 (androidres.com) :
01 |
private TextToSpeech mTts; |
02 |
protected void onActivityResult( |
03 |
int requestCode, int resultCode, Intent data) { |
04 |
if (requestCode == MY_DATA_CHECK_CODE) { |
05 |
if (resultCode == TextToSpeech.Engine.CHECK_VOICE_DATA_PASS) { |
07 |
mTts = new TextToSpeech( this , this ); |
10 |
Intent installIntent = new Intent(); |
11 |
installIntent.setAction( |
12 |
TextToSpeech.Engine.ACTION_INSTALL_TTS_DATA); |
13 |
startActivity(installIntent); |
TextToSpeech实体和OnInitListener都需要引用当前Activity的Context作为构造参数。OnInitListener()的用处是通知系统当前TTS Engine已经加载完成,并处于可用状态。
根据需求设置语言参数:
早在Google I/O大会上,官方给出了一段关于应用这项功能的鲜活体验,将翻译结果直接通过五种不同国家语言的语音输出。加载语言的方法非常简单:
1 |
mTts.setLanguage(Locale.US); |
上边代码表示当前TTS实体加载美式英语。其参数并没有指示某种语言的名称,而是利用国家代码来表示,这样做的好处是不但可以确定语言的选择,而且可以根据地区的不同而有所区别。例如:英语作为最广泛被应用的语种,在多个不同的地区都有一定的差别。判断当前系统是否支持某个地区的语言资源,可以通过调用isLanguageAvailable()方法的返回值,根据返回值的描述来选择正确的处理方式。让应用某些绚丽功能的应用程序更加健壮,这个是贯穿整个开发过程都要考虑的技术环节。下边是一些应用实例 (androidres.com) :
1 |
mTts.isLanguageAvailable(Locale.UK)) |
2 |
mTts.isLanguageAvailable(Locale.FRANCE)) |
3 |
mTts.isLanguageAvailable( new Locale( "spa" , "ESP" ))) |
如果返回值是 “ TextToSpeech.LANG_COUNTRY_AVAILABLE ” 说明所选择的地区被包含在当前TTS系统中。如果系统中已经创建了TTS实体,那么可以利用isLanguageAvailable()方法来替代 Start
“ACTION_CHECK_TTS_DATA
” intent 检测。当无法找到任何可用资源匹配所指定的参数时,将会返回 “ TextToSpeech.LANG_MISSING_DATA ”的结果。
下边给出另外两个返回其它不同状态信息的例子:
1 |
mTts.isLanguageAvailable(Locale.CANADA_FRENCH)) |
2 |
mTts.isLanguageAvailable( new Locale( "spa" )) |
两个语句的返回值均为 “ TextToSpeech.LANG_AVAILABLE
” 。第一个是检测当前系统是否支持加拿大法语,由于系统在资源库中无法找到这个地区的法语分支,其含义是仅支持这项语言(法语),而不支持当前地区的语言分支。
另外,相比于上面强制用户应用预定的语音设置,更加提倡利用Locale.getDefault()方法根据用户默认的地区设置来选择合适的语言库。
执行Speak的具体方法:
根据上边的介绍,基本实现了TextToSpeech的初始化和参数配置。下面是一个有关闹钟的应用实例,利用Speak()方法可以直接在应用程序中发挥强大的语音功能。没错,用起来就是这么简单:
1 |
String myText1 = "This Translation is from androidRes.com" ; |
2 |
String myText2 = "I hope so, because it's time to wake up." ; |
3 |
mTts.speak(myText1, TextToSpeech.QUEUE_FLUSH, null ); |
4 |
mTts.speak(myText2, TextToSpeech.QUEUE_ADD, null ); |
TTS Engine的工作原理:
每个独立的应用程序都可以单独创建一个TTS实体,而他们需要执行的语音消息列队(Queue)都统一由TTS Engine管理和语音合成。
名词解释:
synthesize [ˈsɪnθəsaɪz] DJ ['sɪnθəˈsaɪz] KK:to produce sounds, music or speech using electronic equipment (音响)合成
utterances [ˈʌtərəns] DJ [ˈʌtərəns] KK :说话方式,语音/语调。
每个独立的TTS实例管理语音消息列队请求的优先级和顺序等。当引用 “TextToSpeech.QUEUE_FLUSH” 调用Speak()方法时,会中断当前实例正在运行的任务(也可以理解为清除当前语音任务,转而执行新的列队任务)。引用 “TextToSpeech.QUEUE_ADD”标签的发音任务将被添加到当前任务列队之后。
为语音任务关联Stream Type:
在Android操作系统中所有的Audio Stream任务都是通过AudioManager类来实现,而它会针对不同的Stream Type来改变语音的播放模式。StreamType可以理解为语音的播放属性,这个属性是用户根据自己的需要在系统中配置的应用方案。如果将语音任务都清楚的分门别类,可以方便的统一管理相同类别任务的属性。基于上一个Alarm Clock例子的基础上,将Speak()方法的最后一个Null参数替换成具有实际含义的数值。这个参数的类型是HashMap,如果希望将当前的Stream Type设置为系统中Alarm类型,对上一个例子稍作改动:
1 |
HashMap myHashAlarm = new HashMap(); |
2 |
myHashAlarm.put(TextToSpeech.Engine.KEY_PARAM_STREAM, |
3 |
String.valueOf(AudioManager.STREAM_ALARM)); |
4 |
mTts.speak(myText1, TextToSpeech.QUEUE_FLUSH, myHashAlarm); |
5 |
mTts.speak(myText2, TextToSpeech.QUEUE_ADD, myHashAlarm); |
应用语音功能的Completion Callback:
TTS中的Speak()的是异步调用,无论应用QUEUE_FLUSH
或者QUEUE_ADD作为参数都可以通过定义Listener监听当前任务的完成状态。可以利用这个方法追加Speak()执行之后的一些额外操作。下接下来的例子中,当完成第二次Speak()方法调用之后,利用O
nUtteranceCompletedListener接口
来调用其它方法:
1 |
mTts.setOnUtteranceCompletedListener( this ); |
2 |
myHashAlarm.put(TextToSpeech.Engine.KEY_PARAM_STREAM, |
3 |
String.valueOf(AudioManager.STREAM_ALARM)); |
4 |
mTts.speak(myText1, TextToSpeech.QUEUE_FLUSH, myHashAlarm); |
5 |
myHashAlarm.put(TextToSpeech.Engine.KEY_PARAM_UTTERANCE_ID, |
6 |
"end of wakeup message ID" ); |
8 |
mTts.speak(myText2, TextToSpeech.QUEUE_ADD, myHashAlarm); |
下边是定义Listener的代码,类似与监听按钮或者其它View Events的方法。在这里将会把Speak()中HashMap参数传进Listener中,作为条件的判断依据:
1 |
public void onUtteranceCompleted(String uttId) { |
2 |
if (uttId == "end of wakeup message ID" ) { |
“烘焙”当前实时的语音数据:
看到烘焙两个字,就会让人联想到香喷喷的面包。软件开发要关注于是否可以最大限度的实现资源的复用,特别是针对资源有限的手机应用平台。那么对于TTS这么奢侈的应用如何才能更高效的使用资源呢?这次一起来体验比烘焙面包更加让人激动的功能,将TTS Engine输出的Audio Stream作为永久的音频文件保存在当前的存储空间中(SDCard)。这样可以对需要重复播放的某些语音内容实现快速的回放功能,从而实现国际倡导的“减排”目的,能省就省吧!在下边的例子用通过TTS的synthesizeToFile方法,将合成的语音Stream保存在参数所指定的地址中。
1 |
HashMap myHashRender = new HashMap(); |
2 |
String wakeUpText = "Are you up yet?" ; |
3 |
String destFileName = "/sdcard/myAppCache/wakeUp.wav" ; |
4 |
myHashRender.put(TextToSpeech.Engine.KEY_PARAM_UTTERANCE_ID, wakeUpText); |
5 |
mTts.synthesizeToFile(wakuUpText, myHashRender, destFileName); |
当完成以上操作之后会收到系统的完成通知,同时可以像其它音频资源一样,通过android.media.MediaPlayer方法来播放。但这有悖于TextToSpeech的应用流程,可以将刚刚输出的语音资源通过addSpeech()的方法将其语音和文字描述一同存储于TTS库中。
1 |
mTts.addSpeech(wakeUpText, destFileName); |
在当前的TTS Instance中,任何利用Speak()方法执行相同内容的调用都将复用刚刚所生成的音频文件。如果资源丢失或者SDCard等存储设备移除,那么系统将再次通过TTS Engine合成所指定的语音内容。
1 |
mTts.speak(wakeUpText, TextToSpeech.QUEUE_ADD, myHashAlarm); |
回收TTS:
当确定应用程序不再需要TTS的相关功能后,可以在Activity的OnDestroy()方法中调用shutDown()释放当前TTS实体所占用的资源。
杂谈:
想必在你的脑袋中已经冒出好多可以很好利用这个功能的Idea!那么现在就停止想象,开始付诸于行动吧!无论是给手机用户带来方便,或是提升游戏体验等。Let’s move!
查看原文:Android官方Blog
在讲解具体实现方法之前,需要配置Esclipse的设定:
Project > Properties > Java Build Path > Libraries and click on
"Add External JARs..." Then add in the TTS_library_stub.jar file
Download This Library
使用eSpeak引擎前需要为Emulator添加虚拟SD Card。创建虚拟SD Card的方法
下载tts_market.apk 将这个APK安装到Emulator (启动Emulator的前提下,在CLS中输入”adb install ***.APK “)。
当程序运行后也可以通过参数控制是否需要弹出安装tts_market.apk的提示对话框:
下边通过几行简单的代码来实现调用语音库的方法:
1. 创建一个新的Android项目,可以随意命名为你认为有意义的名字,比如“I am Well-E”等等
2. 应用上边所提到的方法为当前的项目添加Library。
3. 在主程序.java中添加如下代码:
1 |
import com.google.tts.TTS; |
介于onCreate()和类之间声明空的TTS
在onCreat()中创建TTS的实体
1 |
myTts = new TTS( this , ttsInitListener, true ); |
在onCreat()后边定义一个新函数
1 |
private TTS.InitListener ttsInitListener = new TTS.InitListener() { |
2 |
public void onInit( int version) { |
3 |
myTts.speak( "I am Wall E" , 0 , null ); |
至此可以Run你的程序了,如果顺利的话,第一次启动程序后会首先调用TTS通过Server下载数据,然后手动回到主程序面板重新启动你的程序,听到Emulator发出响亮的声音了吧?
创建TTS实体时要求有三个参数:
1. Application Context
2. TTS.InitListener - 监听TTS初始化Event
3. Boolean - 当检测到Emulator或其它测试机没有安装TTs_market.apk时,是否弹出下载
提示对话框。
TTS实体调用Speak行为时的参数:
1. String - 语音内容
2. Boolean - 是否启用队列模式(0:代表没有列队模式,1:代笔具有先进先出的队列模式)
3. Array - an array of Strings that are parameters for how to speak the text.