浅谈语音信号处理系列之一 概述

     

      我一直对语音信号处理技术比较感兴趣,但同时也一直困惑它今后的发展应用,写这个系列的目的,是通过梳理和总结语音信号处理技术的主要分支,与大家共同讨论语音信号处理的发展方向和新的应用。在这里,主要是根据个人的一些工程实践和研究,简要的介绍语音信号处理几个主要方面的概念、原理实现和技术发展,应用等,非常希望大家共同交流讨论。

 

      语言是人们最重要的交流工具,语音信号处理是语音学和数字信号处理相结合的交叉学科,同时又与心理声学、语言学、模式识别和人工智能等学科相联系。既依赖这些学科的发展,又可以促进这些学科的进步。

 

      语音信号处理的主要应用分支:

 

1、语音编解码:又称语音压缩,通过减少语音信号的冗余度和利用人耳掩蔽等特性实现数据压缩,目的是有利于存储、数字传输,节省带宽。 像ITU G.7xx、AMR等都是指语音编码的标准,GSM、3G手机中的语音通信以及电话录音等都离不开语音编码。有人说了,现在硬盘空间越来越大,网络带宽也越来越宽了,还有必要进行语音压缩吗? 这话从头说起,以前考虑存储设备和网络的成本,需要将语音信号压缩到很低码率才能传输,同时语音质量也相应变差了,后来硬盘便宜了,网络宽了,大家更关注语音质量了,因此语音信号压缩的码率提高了,再后来又出现了宽带语音编码、多声道语音编码、超宽带语音编码...... 其实,最后它依赖于客户的需求和实现成本的权衡,在有些领域,如玩具、字典、学习机等更关注存储器的成本,同时希望语音质量能够尽可能的好;有些领域,如电话录音、视频监控等,会更注重语音质量或者说也没有必要过分压缩(语音带宽相比视频带宽根本不值一提);同时还有一些领域,如卫星通信、军事低码率通信、地下救援通信等特殊应用就需要有较低的码率,是离不开语音压缩的。

 

一句话总结:需求决定应用,目前语音压缩标准较多,技术比较成熟了。

 

2、语音合成:目的是让机器能说话,例如读个短信、读读文本介绍、信息报站等等应用。目前语音合成的应用主要在从文本到语音的合成上,也就是通常所说的TTS(Text To Speech)系统。国内的科大讯飞在这个方面做的不错,我觉得语音合成这个技术非常实用,关键是国内很少有一些实用的技术可以在全球保持同步或者领先。

 

一句话总结:要是科大讯飞在北京建个研发中心就好了。

 

3、语音识别:目的是让机器能够识别和理解人类的语言内容,从而转化成相应的文本或命令的技术。比如打个报告,你一边说,电脑一边写成Word,再如可以跟一些智能设备(包括机器人等)进行人机交互等,这个技术是最受人期待,同时发展到实际应用产品也是最困难的。它涉及的分类众多,技术难点多,环境影响大,识别率不高等等难题。

 

一句话总结:好看的玫瑰,要想摘到手,当心不要刺到。

 

4、说话人识别:可以让机器识别说话的人,可以搭配指纹识别、虹膜识别等生物识别技术做一些安检、门禁的应用。

 

5、语音增强:提高语音的清晰度和可懂度,主要集中在语音信号的前后处理上,也是一个比较实用的技术。

你可能感兴趣的:(Speech,Signal,Processing)