参考
1. 充满活力的早晨 https://www.jianshu.com/p/cfb3d4dc3676
2. Baidu百科 https://baike.baidu.com/item/pcm%E7%BC%96%E7%A0%81/10865033?fr=aladdin
3. qingkongyeyue https://blog.csdn.net/qingkongyeyue/article/details/52122486
4. bobuddy https://blog.csdn.net/u010783226/article/details/82708199
5. 燚智能王工http://www.openpcba.com/web/contents/get?id=2269&tid=26
PCM音频编码
PCM 即脉冲编码调制 (Pulse Code Modulation)。在PCM 过程中,将输入的模拟信号进行采样、量化和编码,用二进制进行编码的数来代表模拟信号的幅度 ;接收端再将这些编码还原为原来的模拟信号。即数字音频的 A/D 转换包括三个过程 :采样,量化,编码。
编码原理
采样
抽样是把模拟信号以其信号带宽2倍以上的频率提取样值,变为在时间轴上离散的抽样信号的过程。例如,话音信号带宽被限制在0.3~3.4kHz内,用 8kHz的抽样频率(fs),就可获得能取代原来连续话音信号的抽样信号。对一个正弦信号进行抽样获得的抽样信号是一个脉冲幅度调制(PAM)信号,对抽样信号进行检波和平滑滤波,即可还原出原来的模拟信号。
采样对应的指标就是采样率(Sample):即每秒从连续信号中提取并组成离散信号的采样个数,用赫兹(Hz)来表示.。
量化
抽样信号虽然是时间轴上离散的信号,但仍然是模拟信号,其样值在一定的取值范围内,可有无限多个值。显然,对无限个样值一一给出数字码组来对应是不可能的。为了实现以数字码表示样值,必须采用“四舍五入”的方法把样值分级“取整”,使一定取值范围内的样值由无限多个值变为有限个值。这一过程称为量化。
量化后的抽样信号与量化前的抽样信号相比较,当然有所失真,且不再是模拟信号。这种量化失真在接收端还原模拟信号时表现为噪声,并称为量化噪声。量化噪声的大小取决于把样值分级“取整”的方式,分的级数越多,即量化级差或间隔越小,量化噪声也越小。
衡量量化的指标就是采样位数:即指描述数字信号所使用的的位数,位数越多,分级就越细,量化误差就越小。
A律13折线
根据量化间隔的不同选取分为均匀量化和非均匀量化,非均匀量化可以有效地改善信号的量化信噪比。语音信号的量化常采用ITU建议的两种对数形式的非均匀量化压缩特性:A律和μ律,A律编码主要用于30/32路一次群系统, A律PCM用于欧洲和中国。A律是PCM非均匀量化中的一种对数压扩形式。
如下图所示:而x轴在区间(0~1)不均匀的分成8段,分段的规律是每次1/2取端。即首先以1/2-1为一段;再将余下的0-1/2平分,依次类推。其中第一段和第二段相等,都是1/128.再将这8段每一段都均匀分成16等分。每一等分都是一个量化级。
对于y轴均匀的分为8段,每一段再均匀的分为16等份,每一等分就是一个量化级。这样y轴的区间(0~1)就被分为了128个均匀量化级,每个量化级都是1/128.
将x轴的8段和y轴的8段焦点连接起来,就形成了由8段直线组成的折线。由于第一、二段斜率相同,所以可以看成一段,又信号分为正负两个极性且共零点。所有一共有13折线。如下图所示,及A律13折线。
编码
量化后的抽样信号在一定的取值范围内仅有有限个可取的样值,且信号正、负幅度分布的对称性使正、负样值的个数相等,正、负向的量化级对称分布。若将有限个 量化样值的绝对值从小到大依次排列,并对应地依次赋予一个十进制数字代码(例如,赋予样值0的十进制数字代码为0),在码前以“+”、“-”号为前缀,来 区分样值的正、负,则量化后的抽样信号就转化为按抽样时序排列的一串十进制数字码流,即十进制数字信号。简单高效的数据系统是二进制码系统,因此,应将十 进制数字代码变换成二进制编码。根据十进制数字代码的总个数,可以确定所需二进制编码的位数,即字长。这种把量化的抽样信号变换成给定字长的二进制码流的 过程称为编码。
编码方式种类非常多,PCM音频格式一般为上面简述的A律13折线编码。
数据帧
声道可以分为单声道、立体声(双声道)和多声道。一般单声道和立体声较为常见。
PCM的每个样本值包含在一个整数i中,i的长度为容纳指定样本长度所需的最小字节数。首先存储低有效字节,表示样本幅度的位放在i的高有效位上,剩下的位置为0,这样8位和16位的PCM波形样本的数据格式如下所示。
PCM协议时序
PCM(PCM-clock、PCM-sync、PCM-in、PCM-out)脉冲编码调制,模拟语音信号经过采样量化以及一定数据排列就是PCM了。理论上可以传输单声道,双声道立体声和多声道。是数字音频的raw data.
I2S音频总线
硬件接口定义
NXP公司的I2S是一套硬件+时序规范。I2S硬件上有3个主要信号:
- continuous serial clock,连续串行时钟SCK,在一些资料中也就SCLK或者BCLK,即对应数字音频的每一位数据,SCLK有1个脉冲。SCLK的频率=2×采样频率×采样位数。
- word select,字选择WS,又叫帧时钟LRCK,用于切换左右声道的数据。WS为“0”表示代表传输的是左声道的数据,为“1”则表示正在传输的是右声道的数据。WS的频率等于采样频率。
- serial data,串行数据SD,又叫SDATA,是用二进制补码表示的音频数据。
- 有时为了使系统间能够更好地同步,还需要另外传输一个信号MCLK,称为主时钟,也叫系统时钟(Sys Clock),是采样频率的256倍或384倍。
MCLK是Master clock的缩写,在DAC内部的delta-sigma调制器以及数字滤波器都需要用到这个时钟,大部分的DAC可以使用内部的振荡器产生这个时钟,在某些要求较高的场合,例如HIFI音响系统等,需要使用一个额外的高质量的时钟用以获得最好的性能。这时候就需要用到MCLK信号了。MCLK并不是必须的,要看设计要求。MCLK一般是Fs*256或者Fs*384。
传输时序
I2S接口有着统一的硬件定义,但是数据的传输格式又各有不同,我们把他们分成三类:
I2S格式
左对齐格式,left justified
-
右对齐格式,right justified,也叫EIAJ或者SONY格式
这三种传输格式,基本都是相同的,不同之处在于SD数据同WS信号的对齐位置。I2S格式的信号无论有多少位有效数据,数据的最高位总是出现在WS变化(也就是一帧开始)后的第2个SCK脉冲处,见下面I2S格式图:
故名思议,左对齐(left justified)、右对齐(right justified)指的是数据信号对齐的方式,左对齐的时候最高位数据在第一个时钟就出现,而右对齐的时候数据最低位在最后一个时钟出现。这就是他们的本质区别。左右对齐模式随具体的芯片不同而不同,在使用的时候需要仔细阅读芯片手册。I2S允许接收端与发送端的有效位数可以不同。如果接收端能处理的有效位数少于发送端,可以放弃数据帧中多余的低位数据;如果接收端能处理的有效位数多于发送端,可以自行补足剩余的位。这种同步机制使得数字音频设备的互连更加方便,而且不会造成数据错位。
从时序图可以看出,I2S左右声道分别为高低电平,PCM只有一个起始信号,左声道数据紧跟右声道.
个人博客:https://www.letcos.top/