AI-语音处理理论与应用-语音处理简介

学习目标
   • 了解语音处理的基础知识及应用
   • 掌握语音处理的基本步骤
   • 掌握语音处理的主要技术
   • 了解语音处理的难点与展望

首先,先看一个语音小场景
AI-语音处理理论与应用-语音处理简介_第1张图片
   比如,如今在网络上订票可以通过语音进行交互;会分为这么几步:
      1.客户说:“我要订一张从北京到杭州的机票。”
      2.机器识别到语音输入
      3.通过语音识别的模块,将语音转换成语言,即转换成文本“我要订一张从北京到杭州的机票。”
      4.对话管理模块对文本进行理解,结合上下文,生成一个动作action,这个动作决定了机器到底是确定还是不确定;比如说你没有说机票的时间,对话管理模块就会根据这个情况生成一个动作比如说“时间不确定
      5.语音合成模块接收到这个动作“时间不确定”,来生成人能理解的语言,比如说“请问您要定哪一天的机票?”这样一个文本
      6.语音合成模块接收到语言生成模块生成的文本,通过语音的方式和人交互,通过语音合成技术将文本转换成语音“请问您要订哪一天的机票的?”返回给客户
   语音的小场景是跟传统的GUI进行比对,传统的GUI是通过界面化的方式来跟人进行交互,但是语音是通过VUI方式进行交互。

语音处理介绍
   语音处理
      什么是语音处理
         • 语音信号处理(Speech Signal Processing)简称语音处理,是用以研究语音发声过程、语音信号统计特性、语音自动识别、机器合成以及语音感知等各种处理技术的总称。
         • 由于现代的语音处理技术都以数字计算为基础,并借助微处理器、信号处理器或通用计算机加以实现,因此也称数字与因信号处理
         • 简单来讲,语音处理技术就是通过语音到它的某些特征之间的转换这个过程中所涉及到的一系列技术,这个特征可以是数字特征频率时长)、文本特征(代表的具体文字
      语音处理介绍
         • 语音信号处理的研究起源于对对发音器官的模拟
         • 1939年美国H.杜德莱(H.Dudley)展出了一个简单的发音过程模拟系统,以后发展为声道的数字模型。利用该模型可以对语音信号进行各种频谱及参数的分析,进行通信编码或数据压缩的研究,同时也可基于此合成语音信号,实现机器的语音合成。
         • 语言信息主要包含在语音信号的参数之中,因此准确而迅速地提取语言信号的参数是进行语音信号处理的关键。
      语音处理的主要应用场景
         • 技术类
            • 语音预处理
            • 语音识别:将语音文件转换成文本文件
            • 语者识别:去识别说话者是谁
            • 语音翻译
            • 语音合成
            • 声纹识别
            • 语音编码
        • 场景类
            • 人机交互
            • 安防
            • 智慧家庭:现在许多智能家居都是通过声音去控制;比如可以通过声音去控制空调的温度,而不是通过遥控器去调节
            • 智慧城市
            • 养老
            • 教育
            • 客户服务
      语音学
         • 语音学是语言学的一个分支,是研究人类语言声音的学科。主要研究语言的发音机制语音特性和在言谈中的变化规律
         • 狭义的语音学对应英语中phonetics一词,关注的重点在具体语音本质以及产生语音的方法。与之相对的是音韵学(或称音系学),研究音位或语音区别特征在某种语言中运作的抽象规则和语音的系统。
         • 广义的语音学是指语音学和音韵学这两大方面研究的总合。
      语音学分类
         • 发音语音学:研究言语的声音是怎样通过口腔中的发音器官(比如:唇,牙齿,舌头,声带等)产生出来的。
         • 声学语音学:研究怎样对言语的声音进行声学分析,比如声波的频率,时长,振幅等。
         • 听觉语音学:研究人耳如何接受声音,即人耳对语音的听觉感知。
         • 语言语音学:结合声音,社会环境,个人习惯,语言规律研究声音。
      语音来源
         发音器官分喉下、喉头、喉上三个部分。
         • 喉下部分是由气管到肺。从肺呼出的气流成为语音的声源。
         • 喉头部分主要是声门和声带。声带是两条韧带,起着喉的阀门作用,它的闭拢和打开成为声门。声门大开时气流畅通,声门闭合,气流冲出使声带作周期性的颤动就产生声音。
         • 喉上部分包括咽腔、口腔和鼻腔3个区域,主要起调节语音的作用。其中口腔和鼻腔是调节发音的主要器官。鼻腔基本上是固定的,而口腔中则由于舌的伸缩、升降,小舌的抬起、下垂,使容积变化而产生不同的语音。口腔从唇部到声门总称为“声腔”,分成若干段。
      语言学
         • 语言学是以语言为研究对象的科学。它研究的对象是人类语言,它的任务是研究、描写语言的结构、功能及其历史发展,找出语言的本质,探索语言的规律。
         • 语音语法词汇文字这些学科都注目于语言的结构本身,是语言学的中心,称为叫微观语言学。
         • 文字是一个汉语词汇,基本意思是记录思想、交流思想或承载语言的图像或符号。语音没法长久保存信息。
         • 文字一词出自《史记·秦始皇本纪》:“一法度衡石丈尺,车同轨书同文字。”文字和语言等其他工具一样,都是交流信息的工具,同时蕴含一定意义与审美价值,有渊源的历史沿革。
      语音特征
         • 语音特征是描述语音的核心信息,在语音模型构建中起重要作用。
         • 好的语音特征:
         • 包含区分音素的有效信息:良好的时域分辨率和频域分辨率;
         • 分离基频F0以及它的谐波成分;
         • 对不同说话人具有鲁棒性(就是健壮、强壮的意思);
         • 对噪音或信道失真具有鲁棒性;
         • 有着良好的模式识别特性:低维特征,特征独立;
      特征提取方法
         • 线性预测系数(LPC)
         • LPC倒谱系数(LPCC)
         • 线谱对参数(LSP)
         • 共振峰率(前三个共振峰)
         • 短时谱
         • Mel频率倒谱系数(MFCC)
            • 在语音识别和语者识别方面最常用的语音特征就是梅尔倒谱系数(Mel-Frequency Cepstral Coefficients,简称MFCC)。
            • 过程
               • 声道转换
               • 预加重
               • 分帧
               • 加窗
               • 快速傅里叶变换
               • 通过三角带通滤波器得到Mel频谱
               • 倒谱分析(取对数,做逆变换)
               • 感知线性预测(PLP)

你可能感兴趣的:(语音处理,语音处理)