语音识别——基本概念简介

写在前面:做了3年的图像,没想到到了工作要转成语音了。所以既来之,则安之。从今天开始记录自己从零开始的语音领域的学习,希望利用入职前这两三个月的时间把基础知识打好吧O(∩_∩)O

一些基本的概念:

音素(phone):语音的自然属性划分出来的最小语音单位。(可以理解为图像中的像素)。音素分为元音与辅音两大类。如汉语音节 ā(啊)只有一个音素,ài(爱)有两个音素,dāi(呆)有三个音素等。

注:

  • 音素的第一部分与在它之前的音素存在关联,中间部分是稳定的部分,而最后一部分则与下一个音素存在关联,考虑前一音的影响的称为Bi-Phone,考虑前一音和后一音的影响的称为 Tri-Phone。
  • 音素会被放在上下文中考虑,这样就形成了三元音素或者多元音素,称为senone

音节(syllables):由音素构成。音节是一个比较稳定的实体,因为当语音变得比较快的时候,音素往往会发生改变,但是音节却不变。

注:

  • 中文中一般一个汉字是一个音节。
  • 英文中用元音字母区分音节。

单词单元(音节)构成单词。单词在语音识别中很重要,因为单词约束了音素的组合。

单词和一些非语言学声音构成了话语(utterances),我们把非语言学声音称为fillers填充物,例如呼吸,um,uh,咳嗽等,它们在音频中是以停顿做分离的。所以它们更多只是语义上面的概念,不算是一个句子。

语音识别的过程:

特征→模型→匹配算法

 

 

 

 

 

你可能感兴趣的:(语音识别)