昨天发了一遍关于语音数据标注工具Praat的基础使用,后台收到了很多小伙伴的留言,想了解一下更多的语音相关的知识,也想深入的学习一下,所以今天继续写一篇关于语音相关的基础知识,不管是数据标注还是刚了解语音相关AI技术的小伙伴都必须要知道的知识点。
一.几个重要的概念
1.采样
由于声音为为模拟连续信号,而计算机只能处理数字离散信号,因此要用计算机来分析和处理声音,就需要经历模数转换过程[Anlog to Digital Converter,即ADC],即将模拟连续信号转换为数字离散信号。采样就是按照一定时间间隔从模拟连续信号提取一定数量的样本来,其样本值用二进制码0和1来表示,这些0和1构成了数字音频文件,其过程实际上是将模拟音频信号转换成数字离散信号。
2.采样率
采样率表示了每秒对原始信号采样的次数。显然,在一秒中内采样的点越多,获取的信息越丰富,为了复原波形,一次振动中至少得有两个采样点,要想使采集到的信号不失真,采样频率规定至少为语音频率的2倍,因此要 得到一个频率为10000赫兹的声音,则其采样率至少要大于20000赫兹的。采样率越高,数字信号的保真度越高,但同时占用的存储空间越大。如果采样率低于语音频率的两倍,则会产生低频失真、信号混淆现象。
3.采样精度
采样精度就是指存放一个采样值所使用的比特数目。当用8个比特(采样精度为8位)存放一个采样值时,对声音振幅的分辨等级理论上为256个,即0至255;当用16个比特(采样精度为16位)存放一个采样值时,对声音振幅的分辨等级理论上为65536个,即0到65536。如果您将采样精度设置为16位,计算机记录的采样值范围则为-32768到32767之间的整数。
注意采样率和采样精度越大,记录的波形更接近原始信号,但同时占用的内存空间也越大。
4.声道
声道指输入或输出信号的通道。通常用多声道来输入或输出不同的信号。如果只需录制一个位置的一种信号时,只要使用单声道就可以了。
5.信噪比
信噪比指信号与噪声之间的能量比。录音时信噪比越高越好。16位采样率的信噪比大约是96dB,8位采样率的信噪比大约是48dB。在录音时,在录音时简单估计噪音大小的办法是:当没有语音信号输入的时候,如果麦克风输入的信号振幅值超过200(单位为采样值,相当于46dB),则噪声就比较大,需要进行一定控制,如在比较安静的环境下录音,关闭窗户、空调、电扇等噪声源,远离电脑等噪声源等等,选用比较好的带有屏蔽的麦克风,选用比较好的声卡等等。噪声的振幅值越低越好,录音室里的录音一般可以控制在10以下(单位为采样值,相当于20dB)
注:采样率和采样精度的设置以越高越好,采样率和采样精度越高则声音的质量越高,不过考虑到存储空间和语音信号的特点,一般可以设置为16000赫兹的采样率和16位的采样精度。如果需要录制两个不同的信号源,则使用立体声,否则都使用单声道。
二.声学的几个基础概念
当物体振动时,会引起周围空气的波动,导致空气粒子间的距离发生疏密变化,从而引发空气压强的改变,在通过人的耳膜对空气压强的反映传入大脑,从而形成声音。物理上讲,声音具有4个基本特征:即音色、音强、音高和音长。
1.声波
声波是有物体振动产生的,物体振动使周围的介子(如空气)产生波动,这就是声波。声波的最简单形状是正弦波,由正弦波得到的声音交纯音。在日常生活中,人们听到的大部分都不是的纯音,而是复合音,这是由多个不同频率和振幅的正弦波叠加而成的。
2.声速
声波每秒在介子中传播的距离,叫做“声速”,用c表示,单位m/s。声速与传播声音的介子和温度有关。在常温常压的空气中,声速(c)和温度(t℃)的关系可简写为:c ≈ 331.4+0.607t(m/s)。常温常压下,声速为345m/s。
3.波长
沿着声波传播方向,声波震动一周所传播的距离,或在波形上相位相同的相邻的两点的距离,叫做“波长”,用λ表示,单位为m。波长与发生物体的震动频率成反比:频率越高,波长越短。日常所说的长波指频率低的声音,短波指频率高的声音。波长、声速和频率三着之间的关系λ=c/f。
4.振幅
振动物体离开平衡位置的最大距离,叫做振动的“振幅”,通常用符号A表示。简谐振动的振幅是不变的。强迫振动的稳定阶段振幅也是一个常数。阻尼振动的振幅逐渐减小,振幅是可变化的。振幅是用来表示振动强弱的物理量,振幅大,则振动强度大;振幅小,则振动强度小。
5.分贝
分贝是增益或衰减单位,用来描述两个相同物理量之间的相对关系。声信号和电信号的相对强弱,例如声压和电压、声功率和电功率放大(增益)和减小(衰减)的量都可用分贝数来表示。
计算公式如下:
LN = 10 * lg(A1 / Ar) 或 LN = 20 * lg(A1 / Ar)
公式中,其中Ar是基准量,Al是被测量,分贝符号为“dB”。被测量和基准量之比取以10为低的对数,这对数值称为被测量的“级”,它代表被测量比基准量高出多少“级”。根据公式可以得出,若被测量是基准量的10倍,则被测量比基准量高出1级,如被测量是基准量的100倍,则被测量比基准量高出2级,以此类推。每一级相差10或者20个dB。
分贝的计算很简单,对于振幅类物理量,如声压、电压、电流强度等,将被测量与基准量相比后求常用对数再乘以20;对于它们的平方项的物理量如电功率、声功率和声强,取对数后乘以10就行了。如果需要表示的量小于与相比的量时(即比值小于1时),则dB数前要加一个负号。
三.语音AI领域的主要方向
1.TTS(Text-to-Speech,语音合成),即“从文本到语音”,是人机对话的一部分,让机器能够说话。
2.ASR(Automatic Speech Recognition,语音识别),是将声音转换为文字。
以上两个概念呢,大家可以自行百度一下有非常详细的介绍,在这里就不复制粘贴啦。在TTS中最主要的一个指标就是自然度,也就是当你听见机器跟你说话的时候,你能不能区分出来这个不是人,目前在很多电话机器人上的使用很广泛,而且几乎已经判断不出来是机器人在对话(当然从其他方面还是很容易区分出来的)。而在ASR部分就比较难了,特别是在中文领域的应用,难上加难啊,必经中文还是博大精深的啊。当然应该也是发展非常有机会的一个方向,当然要结合NLP来进行应用才能发挥出真正的威力,否则还是基于简单规则的就没什么意思了。
本文着重介绍了一下语音相关最基础的知识点,我个人认为这是做语音数据标注或者语音采集的最基础的知识了,也是必须要掌握的,希望可以对大家在今后的工作学习当中能有好的帮助。