音视频基础

音视频录制原理
音视频录制原理图
音视频播放原理
音视频播放原理图

录制是播放的一个逆过程。

图像表示-RGB格式

红光(R)
绿光(G)
蓝光(B)
每个像素用8bit表示
可表示的色彩:256*256*256=16,777,216

图像表示-YUV格式

Y:表示明亮度(Luminance或Luma),也称灰阶值
U和v:表示色度(Chroninance或Chroma)
用途:主要用于视频信号的压缩、传输和存储,以及向后兼容老式黑白电视机。

YUV存储格式有两大类:planar和packed
planer:先存储所有像素点的Y,紧接着存储所有像素点的U,最后存储所有像素点V
packed:每个像素点的Y,U,V是连续交叉存储的

常见YUV存储格式:
YUV 4:4:4采样,每一个Y对应一组UV分量
YUV:4:2:2采样,每两个Y共用一组UV分量
YUV:4:2:0采样,每四个Y共用一组UV分量

RGB与YVU比较:
平均1.5个字节组成一个像素的YVU与3个字节组成的一个像素RGB,压缩比为2

视频的主要概念

视频码率:kb/s,是指视频文件在单位时间内使用的数据流量,也叫码流率。码率越大,说明单位时间内取样率越大,数据流精度就越高。

视频帧率:fps,通常说一个视频的25帧,指的就是这个视频帧率,即1秒中会显示25帧。帧率越高,给人的视觉就越流畅。

视频分辨率:分辨率就是我们常说的640x480分辨率、1920x1080分辨率,分辨率影响视频图像的大小。

I帧(Intra coded frames):I帧不需要参考其他画面而生成,解码时仅靠自己就重构完成的图像;
特性:

  • I帧图像采用帧内编码方式
  • I帧所占数据的信息量比较大
  • I帧图像是周期性出现在图像序列中的,出现频率可由编码器选择
  • I帧是P帧和B帧的参考帧(其质量直接影响到同组中以后各帧的质量)
  • I帧是帧组GOP的参考帧(第一帧),在一组中只有一个I帧
  • I帧不需要考虑运动矢量

P帧(Predicted frames):根据本帧与相邻的前一帧(I帧或P帧)的不同点来压缩本帧数据,同时利用了空间和时间上的相关性。

  • P帧属于向前预测的帧间编码。它需要参考前面最靠近它的I帧或P帧来解码

B帧(Bi-directional predicted frames):B帧图像采用双向时间预测,可以大大提高压缩倍数。

常见视频编解码器:

编码 阵营
MPEG2 MPEG阵营
H264 MPEG阵营
H265 MPEG阵营
AVS 中国阵营
VP8 Google阵营
VP9 Google阵营
音频的主要概念

声音是一种由物体振动引发的物理现象。

声音按频率可作如下划分:

  • 次声波:0~20Hz
  • 人能听到的声音:20Hz~20KHz
  • 超声:20KHz~1GHz
  • 特超声:1GHz~10THz

PCM脉冲编码调制:
PCM(Pulse code Modulation)脉冲编码调制。人耳听到的是模拟信号,PCM是把声音从模拟信号转化为数字信号的技术。

采样频率:
根据奈奎斯特(Nyguist)采样定律,要从采样中完全恢复原始信号波形,采样频率必须至少是信号中最高频率的两倍。
人耳能听到的声音频率范围是[20Hz-20KHz],所以采样频率一般为44.1KHZ,这样就能保证声音到达20KHz也能被数字化,从而使得经过数字化处理后,人耳听到的声音质量不会被降低。

常见的采样频率:

采样频率 用途
22KHz 无限广播
44.1KHz CD音质
48KHz 数字电视,DVD
96KHz 蓝光,高清DVD
192KHz 蓝光,高清DVD

采样量化:采样值的精度取决于它用多少位来表示,这就是量化。如16bit,可以表示65536个量化精度。

常见的采样精度(采样深度):每个“采样点”的大小,常用的大小为8bit,16bit,24bit。

通道数:单声道,双声道,四声道,5.1声道。

比特率:每秒传输的bit数,单位为:bps(Bit per second),是间接衡量声音质量的一个标准。没有压缩的音频数据的比特率 = 采样频率 X 采样精度 X 通道数。

码率:压缩后的音频数据的比特率。
常见的码率:

码率 用途
96kbps FM质量
128-160kbps 一般质量的音频
192kbps CD质量
256-320kbps 高质量音频

注意不能从低往高转
相对的码率越大,压缩效率越低,音质越好,压缩后数据越大。
码率 = 音频文件大小/时长

帧:每次编码的采样单元数,比如MP3通常是1152个采样点作为一个编码单元,AAC通常是1024个采样点作为一个编码单元。

帧长有两个含义:

  1. 指每帧播放持续的时间。每帧持续时间(秒)= 每帧采样点数/采样频率(Hz)
  2. 指压缩后每帧的数据长度

交错模式:数据音频信号存储的方式。数据以连续帧的方式存放,假设为双声道,即交叉记录左声道样本和右声道样本。 LRLRLR...的方式

非交错模式:首先记录一帧的左声道样本再记录其右声道的样本。LLL...RRR的方式。

编码压缩原理:数字音频压缩编码采取去除声音信号中冗余成分的方法来实现。所谓冗余成分指的是音频信号中不能被人耳感知道的信号,它们对确定声音的音色,音调等信息没有任何帮助。

音频编码过程

冗余信号成分:去除人耳不能感知的频率(20Hz~20KHz之外的信号),频谱隐蔽效应和时域隐蔽效应。

音频编码器:

编码器类型 用途
OPUS 语音通话
MP3 音乐
AAC 直播
AC3、EAC3 杜比公司的方案
音视频封装

音视频封装格式:
封装格式(容器)就是将已经编码压缩好的视频流、音频流以及字幕按照一定的方案放到一个文件中,便于播放软件播放。封装格式不一样,后缀名也就不一样

常见音视频封装格式:

后缀名 用途
mp4 本地视频播放
flv 远程视频播放

常用AAC+H264封装

音视频同步概念:
DTS(Decoding Time Stamp):即解码时间戳,这个时间戳的意义在于告诉播放器该在什么时候解码这一帧的数据。
PTS(Presentation Time Stamp):即显示时间戳,这个时间戳用来告诉播放器该在什么时候显示这一帧数据。

音视频同步方式:
Audio Master:同步视频到音频
Video Master:同步音频到视频
External ClocK Master:同步音频和视频到外部时钟

你可能感兴趣的:(音视频基础)