FunASR 语音识别系统概述

FunASR(A Fundamental End-to-End Speech Recognition Toolkit)是一个基础的语音识别工具包,提供多种功能,包括语音识别(ASR)语音端点检测(VAD)标点恢复(PR)语言模型(LM)说话人分离等。项目源地址

 1 语音识别(ASR)

参考语音交互:聊聊语音识别-ASR(万字长文)

语音识别技术(Automatic Speech Recognition, ASR)是一种将人的语音(声学信号)转换为文本信息的技术(微信的语音转文字就是语音识别的典型应用,把我们说的音频信息转换成文字内容)。

1.1 语料库

语料库(Corpus)就是包含拼音与汉字的对应(中文)和音标与单词的对应(英文)的词典(Dictionary),其目的是根据声学模型识别出来的音素(Phoneme),来找到对应的汉字或者单词,将声学模型(AM)和语言模型(LM)两者联系起来。

1.2 音频采集

音频采集是指人的声音信息需要使用麦克风阵列或其他音频设备采集和处理说话者的音频信息。

1.3 预处理

预处理是对采集到的音频信息进行预处理,包括降噪去除回声增强语音信号等操作,以提高音频质量和识别准确率。

1.4 特征参数提取

特征参数提取(Feature Parameter Extraction)是从预处理后的音频数据中提取特征,其目的是从原始语音信号中提取出有用的信息,以便后续的模型训练和匹配。具体提取哪些特征,这要看模型要识别哪些内容,一般来说只是语音转文字的话,主要是提取音素;但是想要识别语音中的情绪变化,可能就需要提取响度、音调等参数。

语音情绪识别一般会有两种方法:

  • 分类算法:根据情绪的不同表示方式进行分类,常见的有难过、生气、害怕、高兴等。
  • 回归算法:将情绪分为积极面和消极面两种。

 参考音调、音色、响度、频率之间的互相影响

  • 音调:人耳对声波频率的感觉(音调的单位为 “Mel”),与声波的频率有关。
  • 音高:又称声强或音量,它表示的是声音能量的强弱程度,主要取决于声带的振动频率大小(声带振动频率由声带的薄厚决定,通常来说,男生的声带厚,振动频率慢,因此音高比较低;女生的声带薄,振动频率高,因此音高一般都比较高)。
  • 音色:是由我们的调制区决定的,每个人口腔、咽腔的形状不同,会产生不同的共振,与谐波结构数量,强度,分布和相位关系有关。
  • 音长和音强:是由个人习惯及场合所决定的,比如一些人喜欢低声慢慢说话,有些人喜欢大声节奏很快的说话等。参考语音的基础要素

最常用到的声学语音特征是梅尔倒谱系数(Mel-scaleFrequency Cepstral Coefficients, MFCC)。

1.3 声学模型(AM)

以特征提取模块提取的特征为输入,声学模型(Acoustic Model, AM)是把声音转成音素(有点像把声音转成拼音),将声学和发音学的知识进行融合,计算音频对应音素之间的概率。简单理解就是把从声音中提取出来的特征,通过声学模型,计算出相应的音素。

目前的主流算法是混合高斯模型+隐马尔可夫模型(GMM-HMM),也有基于深度学习的模型。

1.4 语言模型(LM) 

语言模型(Language Model, LM)是在进行声学模型识别后,将语法和字词的知识进行融合,计算文字在这句话下出现的概率,做进一步的文本生成和校正,来提高识别准确率并修正可能的错误。一个自然语言的统计单位是句子,所以也可以看做句子的概率模型(简单理解就是给你几个字词,然后计算这几个字词组成一个句子的概率)。

1.5 模型训练

模型训练是通过深度学习神经网络技术对大量的语音数据进行学习,不断地优化和调整模型参数,从而得到一个能够自动提取特征的模型。

1.6 模型匹配

模式匹配是将提取出的特征参数与预先训练好的模型进行比对,通过欧氏距离、余弦相似度等技术计算出不同特征参数之间的相似度,从而找出最相似的模型,实现语音的识别。

1.7 后处理

后处理是对语音识别结果进行去除重复识别、修正拼写错误等,以提高识别结果的质量和可读性,并最终将识别后的文本信息输出,供后续的处理和应用使用,如文本分析、情感分析、自然语言理解等。

2 语音端点检测(VAD)

在开始语音识别之前,有时需要把首尾端的静音切除,降低对后续步骤造成干扰,这个切除静音的炒作一般称为 VAD。

语音端点检测(Voice Activity Detection, VAD)也称为语音激活检测,或者静音抑制,其目的是检测当前语音信号中是否包含话音信号存在,即对输入信号进行判断,将话音信号与各种背景噪声信号区分出来,分别对两种信号采用不同的处理方法(信号处理技术,一般指的是降噪)。

3 标点恢复(PR)

标点恢复(Punctuation Restoration, PR)是通过标点断句来方便用户阅读。

4 说话人分离技术

说话人分离(Speaker Recognition),也称为说话人识别或说话人标注,是指从音频中识别出不同的说话人身份的过程。首先,通过包含多个说话人的音频数据训练一个深度学习模型,来完成从音频输入中提取出不同说话人的特征(能够有效地描述说话人的声音特征,如音调、音色和语速等);接着,利用一种无监督学习的聚类算法来对提取出的声音特征进行分类;最终,实现不同说话人的分离。参考声源分离技术文档

5 语音识别实战

参考实时语音识别(Python+HTML实战)

你可能感兴趣的:(语音识别,人工智能)