音频处理的术语

音频处理的术语

1、音频相关

1.1 音频基础知识

1.1.1 声学的物理特征

声音信号通常是一种连续的波形来表示。波形的最大位移称为振幅A,反应音量。波形中两个连续波峰(或波谷)之间的距离称为周期T。周期的倒数即为频率f,以赫兹(Hz)为单位。频率反应了声音的音调。

声音可按频率分为三类:

  • 次声波:频率低于20Hz。
  • 音频;频率在20-20kHz。
  • 超声:频率高于20kHz。

1.1.2 音频的相关概念

音频(Audio)指频率在20Hz-20kHz范围内的可听声音,是多媒体信息中的一种媒体类型 - 可听类媒体。

目前多媒体计算机中的音频主要由波形音频、CD音频和MIDE音乐3种形式。重点应该是波形音频。

1、波形音频

波形音频是由外部声音源通过数字化过程采集到多媒体计算机的所有声音形式。语音是波形声音中人说话的声音,具有内在的语言学、语音学的内涵。多媒体计算机可以利用特殊的方法分析、研究、抽取语音的相关特征,实现对不同语音的分辨、识别以及通过文字合成语音波形等。

2、CD音频

CD音频(CD-Audio)是存储在音乐CD光盘中的数字音频,可以通过CD-ROM驱动器读取并采集到多媒体计算机系统中,并以波形音频的相应形式存储和处理。

3、MIDI

MIDI音频(musical instrument digital interface),它将音乐符号化并保存在MIDI文件中,通过因为合成器产生相应的声音波形来还原播放。

音频是时间的函数,具有很强的前后相关性,所以实时性是音频处理的基本要求。

1.1.3 音频的数字化

计算机处理音频信号前,必须将模拟的声音信号数字化,产生数字音频。具体过程包括采样、量化与编码。图示基本如下;

[图片上传失败...(image-6d88de-1573439469526)]

1、采样与采样频率

采样就是每间隔一段时间读取一次声音信号幅度,使声音信号在时间上被离散化。

采样频率就是将模拟声音波形数字化时,每秒钟抽取声波幅度样本的次数,其计算单位是kHz(千赫兹)。一般来说,采样频率越高,声音失真越小,用于存储的数字音频的数据量也越大。

乃奎斯特(Nyquist)采样理论:采样频率不应低于声音信号最高频率的两倍。这样就能把以数字表达的声音还原成原来的声音。例如:电话话音的信号频率约为 3.4 kHz,采样频率一般选用 8 kHz。

音频抽样率有:8kHz、11.025kHz、22.05kHz、16kHz、37.8kHz、44.1kHz、48kHz。

2、量化与量化位数

量化就是把采样得到的信号幅度转化为数字值,是声音信号在幅度上被离散化。量化位数是每个采样点能够表示的数据范围,常用的有8位、12位和16位。图示一个:

[图片上传失败...(image-bbab10-1573439469526)]

3、声道

反映音频数字化质量的另一个因素是声道个数。记录音频时,如果每次生成一个声波的数据,称为单声道;每次记录两个声波数据,称为双声道(立体声);每次生成二个以上的声波数据,称为多声道(环绕立体声)。

4、音频采样的数据量

数字音频的采样数据量主要取决两方面的因素:

  • 音质因素:采样频率、量化位数和声道数三个参数决定。
  • 时间:采样时间长短。

单位时间的数据量可用下面的公式表示:

v=f*b*s/8

v:单位时间的数据量(KB/s)。
f:采样频率(kHz)。
b:量化位数(bit)。
s:声道数。

auf=audio/L16;rate=16000

40ms的单声道、16Khz、量化位数为16的数据:(16*16*1)/8 * 40 =1280

1.1.4 音频的编码

音频数据压缩编码的方法有多种,可分为无损压缩和有损压缩两大类。无损压缩主要包含各种熵编码;有损压缩则分为波形编码、参数编码、感知编码和混合编码。

  • 波形编码:模拟音频数字化(抽样和量化)的过程中,根据人耳的听觉特性进行编码,并使编码后的音频信号与原始信号的波形尽可能匹配,实现数据压缩。

    • PCM (Pulse Code Modulation)。
    • DPCM (Differential Pulse Code Modulation)。
    • APCM (Adaptive Pulse Code Modulation)。
    • ADPCM (Adaptive Differential Pulse Code Modulation)。
  • 参数编码:把音频信号表示成模型的输出,利用特征的方法抽取必要的模型参数和激励信号的信息,且对这些信息编码,最后在输出端合成原始信号。

这里可以看这篇文章了解下:音频处理的狗屋,可能需要翻个墙。

音频开发基础知识简介

1.2 音频后处理概念

  • NS(Noise Suppression):噪音抑制。

  • NLP(Nonlinear Procession):去除残留的回音和背景噪声。

  • NC(Noise Controller):噪音控制。

  • CC(Clarity Controller):清晰度控制。

  • VAD(Voice Activity Detection):静音检测,将检测被编码的音频数据是语音还是静音或背景噪音。这个特性在用变比特率(VBR)进行编码是总是开启的,所以选项设置只对非变比特率(VBR)起作用。

  • DRC(Dynamic Range Controller)

  • AGC(Automatic Gain Controller):自动增益控制。

  • VBR(Variable Bit-Rate):变比特率,变比牲率(VBR)允许编解码器动态调整比特率以适应的音频解码的“难度”,拿Speex来说,像元音和瞬间高音则需较高比特率(Bit-rate)来达到最佳效果,而摩擦音则用较少的比特(bits)即可完成编码。

  • CBR(Constant Bit-Rate):平均比特率(ABR)通过动态调整变比特率(VBR)的质量来获得一个特定目标的比特率,解决了VBR中存在的问题之一。

  • CNG(Comfort Noise Generator):舒适噪音生成。在非变比特率的情况下,检测非语音周期并对用足够的比特数重新生成的背景噪声进行编码。这个叫“舒适噪声生成(CNG)。

  • postprocess:后处理。

    • punctuation process:标点处理。
    • smooth process:顺滑处理。
    • number process:数字处理。 对应模块:nlp.dll。
    • replace process:替换处理。
    • pargraph process:段落处理。
    • language type:处理语言,0 - 中文,1 - 粤语,2 - 英语,3 - 维语,4 - 藏语。
    • output type:0 - next-g听写引擎JSON格式, 1 - 常规(文本格式), 2 - next-g听写引擎JSON格式,带cm
    • useAttribute:根据词性优化标点。

音频后处理基本概念

语音处理检测技术中的热点--端点检测、降噪和压缩

你可能感兴趣的:(音频处理的术语)