音视频基础

音视频录制原理

音视频录制原理图

音视频播放原理

音视频播放原理图

录制是播放的一个逆过程。

图像表示-RGB格式

红光（R）
绿光（G)
蓝光（B）
每个像素用8bit表示
可表示的色彩：256*256*256=16,777,216

图像表示-YUV格式

Y:表示明亮度（Luminance或Luma），也称灰阶值
U和v：表示色度（Chroninance或Chroma）
用途：主要用于视频信号的压缩、传输和存储，以及向后兼容老式黑白电视机。

YUV存储格式有两大类：planar和packed
planer:先存储所有像素点的Y,紧接着存储所有像素点的U,最后存储所有像素点V
packed：每个像素点的Y,U,V是连续交叉存储的

常见YUV存储格式：
YUV 4:4:4采样，每一个Y对应一组UV分量
YUV：4:2:2采样，每两个Y共用一组UV分量
YUV：4:2:0采样，每四个Y共用一组UV分量

RGB与YVU比较：
平均1.5个字节组成一个像素的YVU与3个字节组成的一个像素RGB，压缩比为2

视频的主要概念

视频码率：kb/s，是指视频文件在单位时间内使用的数据流量，也叫码流率。码率越大，说明单位时间内取样率越大，数据流精度就越高。

视频帧率：fps，通常说一个视频的25帧，指的就是这个视频帧率，即1秒中会显示25帧。帧率越高，给人的视觉就越流畅。

视频分辨率：分辨率就是我们常说的640x480分辨率、1920x1080分辨率，分辨率影响视频图像的大小。

I帧（Intra coded frames）:I帧不需要参考其他画面而生成，解码时仅靠自己就重构完成的图像；
特性：

I帧图像采用帧内编码方式
I帧所占数据的信息量比较大
I帧图像是周期性出现在图像序列中的，出现频率可由编码器选择
I帧是P帧和B帧的参考帧（其质量直接影响到同组中以后各帧的质量）
I帧是帧组GOP的参考帧（第一帧），在一组中只有一个I帧
I帧不需要考虑运动矢量

P帧（Predicted frames）:根据本帧与相邻的前一帧（I帧或P帧）的不同点来压缩本帧数据，同时利用了空间和时间上的相关性。

P帧属于向前预测的帧间编码。它需要参考前面最靠近它的I帧或P帧来解码

B帧（Bi-directional predicted frames）:B帧图像采用双向时间预测，可以大大提高压缩倍数。

常见视频编解码器：

编码	阵营
MPEG2	MPEG阵营
H264	MPEG阵营
H265	MPEG阵营
AVS	中国阵营
VP8	Google阵营
VP9	Google阵营

音频的主要概念

声音是一种由物体振动引发的物理现象。

声音按频率可作如下划分：

次声波：0~20Hz
人能听到的声音：20Hz~20KHz
超声：20KHz~1GHz
特超声：1GHz~10THz

PCM脉冲编码调制：
PCM（Pulse code Modulation）脉冲编码调制。人耳听到的是模拟信号，PCM是把声音从模拟信号转化为数字信号的技术。

采样频率：
根据奈奎斯特（Nyguist）采样定律，要从采样中完全恢复原始信号波形，采样频率必须至少是信号中最高频率的两倍。
人耳能听到的声音频率范围是[20Hz-20KHz],所以采样频率一般为44.1KHZ，这样就能保证声音到达20KHz也能被数字化，从而使得经过数字化处理后，人耳听到的声音质量不会被降低。

常见的采样频率：

采样频率	用途
22KHz	无限广播
44.1KHz	CD音质
48KHz	数字电视，DVD
96KHz	蓝光，高清DVD
192KHz	蓝光，高清DVD

采样量化：采样值的精度取决于它用多少位来表示，这就是量化。如16bit，可以表示65536个量化精度。

常见的采样精度（采样深度）:每个“采样点”的大小，常用的大小为8bit，16bit，24bit。

通道数：单声道，双声道，四声道，5.1声道。

比特率：每秒传输的bit数，单位为：bps（Bit per second）,是间接衡量声音质量的一个标准。没有压缩的音频数据的比特率 = 采样频率 X 采样精度 X 通道数。

码率：压缩后的音频数据的比特率。
常见的码率：

码率	用途
96kbps	FM质量
128-160kbps	一般质量的音频
192kbps	CD质量
256-320kbps	高质量音频

注意不能从低往高转
相对的码率越大，压缩效率越低，音质越好，压缩后数据越大。
码率 = 音频文件大小/时长

帧：每次编码的采样单元数，比如MP3通常是1152个采样点作为一个编码单元，AAC通常是1024个采样点作为一个编码单元。

帧长有两个含义：

指每帧播放持续的时间。每帧持续时间（秒）= 每帧采样点数/采样频率（Hz）
指压缩后每帧的数据长度

交错模式：数据音频信号存储的方式。数据以连续帧的方式存放，假设为双声道，即交叉记录左声道样本和右声道样本。 LRLRLR...的方式

非交错模式：首先记录一帧的左声道样本再记录其右声道的样本。LLL...RRR的方式。

编码压缩原理：数字音频压缩编码采取去除声音信号中冗余成分的方法来实现。所谓冗余成分指的是音频信号中不能被人耳感知道的信号，它们对确定声音的音色，音调等信息没有任何帮助。

音频编码过程

冗余信号成分：去除人耳不能感知的频率（20Hz~20KHz之外的信号），频谱隐蔽效应和时域隐蔽效应。

音频编码器：

编码器类型	用途
OPUS	语音通话
MP3	音乐
AAC	直播
AC3、EAC3	杜比公司的方案

音视频封装

音视频封装格式：
封装格式（容器）就是将已经编码压缩好的视频流、音频流以及字幕按照一定的方案放到一个文件中，便于播放软件播放。封装格式不一样，后缀名也就不一样

常见音视频封装格式：

后缀名	用途
mp4	本地视频播放
flv	远程视频播放

常用AAC+H264封装

音视频同步概念：
DTS(Decoding Time Stamp):即解码时间戳，这个时间戳的意义在于告诉播放器该在什么时候解码这一帧的数据。
PTS(Presentation Time Stamp):即显示时间戳，这个时间戳用来告诉播放器该在什么时候显示这一帧数据。

音视频同步方式：
Audio Master:同步视频到音频
Video Master:同步音频到视频
External ClocK Master：同步音频和视频到外部时钟