前言
相对而言,音视频开发算是有些门槛的。记得我第一次接触的时候,看别人的博客都看不懂。特别是写代码的时候,非常痛苦,只能抄别人的代码,却不知道为什么要这么写,也不知道应该怎么调整。后来总结了一下,痛苦的原因是在写代码之前没有掌握相关的基础知识,因此现在特地写了这样一篇博客,希望对大家有所帮助。
文章目录:
- 音视频技术介绍
- 音频基础
- 图像基础
- H264 介绍
- FFmpeg 介绍
- 常用软件介绍
音视频技术介绍
音视频技术主要包括哪些?
这个问题可以借用雷神的一张图解答:
从上到下,服务端到客户端,涉及到的技术包括:
- 解协议
- 解封装
- 解码
- 播放
如果顺序反过来,从客户端上传视频到服务端,那么涉及到的技术则包括:
- 数据采集
- 编码
- 封装
- 添加协议
可能不够准确,但基本就是这样了。看起来很简单,但实际上,上面的每一个步骤都是一个关键点,涉及到的技术可以很深入。比如视频的数据采集/播放方面,可以扩展到图像处理,涉及到 OpenGL、OpenCV 等。此外,还有一些比如去噪、回音消除等音视频算法处理技术,个人了解也不多,就不多介绍了。
音视频难在哪?
个人认为,音视频技术无论是入门还是进阶,都有各自的难点,但个人目前仍处于入门阶段,因此怎么进阶就不说了,这里只说说入门难在哪:
- 相对于网页/软件开发,音视频属于另一个领域。这意味着,在写代码之前,需要对该领域的基础知识有所了解。打个比方,如果让一个写 Java 的,转行写 C++、写 Go,并不会遇到多大困难,甚至很快就能上手写代码。但如果让一个学计算机的,去看建筑设计图,那就很不科学了。虽然差距没那么大,但音视频技术有点类似于上面说的这种情况。如果对该领域的一些概念、术语没有了解的话,最多只能抄别人的代码,自己是写不出来的。因此,虽然这篇文章说的都是一些很基础的东西,但在入门写代码之前,掌握这些基础知识很重要。
- 成系统的资料少。除非就职于和音视频关系很近的公司,像斗鱼、爱奇艺等,否则想要靠自学入门、进阶,难度是相对较大的,因为无论是网上的文章、还是出版的书籍,和音视频相关的都很少,成系统的更少。别人写的音视频开发相关的书籍,我也看了一些,质量大多实在很一般,还不如看雷神的博客,再看一些出名的库的源码,比如 ffmpeg、ijkplayer 等。不过有好过没有,买来看一下还是可以的。
一些概念
下面的一些内容主要引用自维基百科,链接就不贴了。
- 视觉暂留原理
视频实质上是由一帧帧图像构成的,只是播放得足够快,让人误以为那是连续的,这涉及到一个原理,即视觉暂留原理。引用一段维基百科的介绍:
视觉暂留(英文:Persistence of vision)也称为正片后像,是光对视网膜所产生的视觉,在光停止作用后,仍然保留一段时间的现象,其具体应用是电影的拍摄和放映。原因是由视神经的反应速度造成的,其时值约是1/16秒,对于不同频率的光有不同的暂留时间。是动画、电影等视觉媒体形成和传播的根据。比如:我们日常使用的日光灯每秒大约熄灭100余次,但我们基本感觉不到日光灯的闪动。这都是因为视觉暂留的作用。所以,要达成最基本的视觉暂留效果至少需要10fps(10帧/秒)。
- 流媒体
同样引用维基百科的介绍:
流媒体(streaming media)是指将一连串的媒体数据压缩后,经过网络分段发送数据,在网络上即时传输影音以供观赏的一种技术与过程,此技术使得数据包得以像流水一样发送;如果不使用此技术,就必须在使用前下载整个媒体文件。
边下载边播入的流式传输方式不仅使启动延时大幅度地缩短,而且对系统缓存容量的需求也大大降低,极大地减少用户用在等待的时间。
- 分辨率
分辨率是一个表示平面图像精细程度的概念,通常它是以横向和纵向点的数量来衡量的,表示成水平点数垂直点数的形式,在计算机显示领域我们也表示成“每英寸像素”(ppi)。在一个固定的平面内,分辨率越高,意味着可使用的点数越多,图像越细致
- 帧率
帧/秒(frames per second)的缩写,可理解为1秒钟时间里刷新的图片的帧数,也可以理解为图形处理器每秒钟能够刷新几次,帧率越大,所显示的画面就会愈流畅。
- 编码/解码
音视频的原始数据是很大的,比如一帧图像的大小就等于 宽 * 高 * 像素,对于一张 1280*960,采用 RGBA_8888 (实际开发中一般不会使用 RGBA 格式,这里只是举个例子)数据格式的图片,它的大小就等于 1280*960*4Byte = 4.6875M,假设视频帧率为 24帧/s,那么 1 分钟的视频大小为:4.6875 * 24 * 60 = 6750M。这么大的数据量实在难以在网络中进行传输,因此,有必要对原始数据按照一定规则进行压缩,这就是编码。比如音频中常用的是 AAC,视频中常用的是 H264,这就是编码算法。
编码的逆过程就是解码,即把压缩后的数据按照规则还原为原始的声音/图像数据,原始的数据格式通常为 PCM/YUV。
- 封装/解封装
经过声音/图像的采集、编码步骤之后,就可以把音频数据、视频数据合成为一个文件了,这就是封装。
封装的逆过程就是解封装,即一帧一帧地把文件中的音频(AAC)、视频(H264)数据读取出来。
- 直播/点播
常见的直播平台有:yy、战旗、斗鱼、熊猫等
常见的点播平台有:优酷/土豆、爱奇艺、腾讯视频等
音频基础
声波
声波有三要素:
频率,代表音调,即常说的高音、低音。频率越低,波形越长,穿越障碍物时能量衰减越小,可传播距离越远。
振幅,代表响度,即音量大小。
波形,代表音色,同样的音调和响度,钢琴和小提琴的声音听起来完全不同,这就是音色。波的形状决定了声音的音色,钢琴和小提琴的音色不同就是因为它们的介质所产生的波形不同。
人类耳朵的听力有一个频率范围,大约是 20Hz ~ 20kHz,而根据奈奎斯特定理(采样定理),按比声音最高频率高两倍以上的频率对声音进行采样,能够保证采样声音能够数字化,所以采样频率一般为 44.1kHz。
数字音频
数字音频有三个重要概念:
采样,将信号从连续时间域上的模拟信号转换到离散时间域上的离散信号的过程。
量化,指将信号的连续取值(或者大量可能的离散取值)近似为有限多个(或较少的)离散值的过程:
一般用 8bit 或 16bit 来量化声音的一个采样。按 16bit 量化时有 65536 个可能取值的数字信号,比 8bit(256 个可能值) 更为精细。
- 编码,即按照一定的格式压缩、存储采样和量化后的数据。裸数据格式通常为 PCM 格式。
PCM
通常音频的裸数据格式为脉冲编码调制(Pulse-code modulation,PCM)数据,描述一段 PCM 数据一般需要一下几个概念:
量化格式(sample format),也被称为位深度,比如 16bit 表示的数据格式,有 65536 个可能值,则位深度为 65536。
采样率(sample rate),也称为采样速度或者采样频率,定义了每秒从连续信号中提取并组成离散信号的采样个数,用赫兹(Hz)来表示。一般为 44.1kHz,指 1 个声道 1 秒钟有 44.1k 个数据,注意单位为“个”,每个数据的单位可以是 8bit、16bit 或其它,这是采样精度。采样频率的倒数叫作采样周期或采样时间,它是采样之间的时间间隔。
声道数(channel)。分为单声道(mono)和立体声(stereo)两种,单声道只记录一种音源;立体声把现场各个方位的声音单独记录下来,并在播放时模拟当时的场景,可以营造出现场的逼真氛围。其中立体声有双声道、4.1 环绕立体声、5.1 环绕立体声几种。音视频开发中常用的只有单声道、双声道两种。
音频编码
压缩编码的原理实际上是压缩掉冗余信号,冗余信号指不能被人耳感知到的信号,包含人耳听觉范围之外的音频信号以及被掩盖掉的音频信号等。视频中的音频编码码率一般为 128kbit/s。
常见的压缩编码算法有:
- WAV 编码
WAV 不会压缩音频,其中一种实现是在 PCM 数据前面加上 44 字节,分别描述 PCM 的采样率、声道数、数据格式等信息。
特点:音质非常好,大量软件都支持。
使用场合:多媒体开发的中间文件、保存音乐和音效素材。
PCM 转 WAV 的具体实现可以不难,可以在网上找一个,也可以对照这张图自己写一个:
- MP3
具有不错的压缩比,音质在 128kbit/s 以上表现还不错,压缩比比较高,兼容性好。
- AAC
主要有 LC-AAC、HE-AAC、HE-AAC v2 三种编码格式,分别应用于中高码率(>= 80kbit/s)、中低码率(<= 80kbit/s)、低码率(<= 48kbit/s)场景。
在 128kbit/s 以下表现优异,多用于视频中的音频编码。
- Ogg
音质好,完全免费,在各种码率下都有优秀的变现,尤其是中低码率场景下,可以用更小的码率达到更好的音质,但目前还没有媒体软件服务的支持,兼容性不够好,适用于语音聊天的音频消息场景。
比特率
比特率其实不是音频特有的概念,不过没地方放了,就放在这里吧。
比特率指每秒传送的比特数,单位为 bps(Bit Per Second),比特率越高,传送数据速度越快。声音中的比特率是指将模拟声音信号转换成数字声音信号后,单位时间内的二进制数据量,是间接衡量音频质量的一个指标。
多媒体行业在指音频或者视频在单位时间内的数据传输率时通常使用码率,单位是 kbps(千位每秒)。视频中的码率的概念与声音中的相同,都是指由模拟信号转换为数字信号后,单位时间内的二进制数据量。比如 1.44Mbps,就是 1 秒内到达的数据量为 1.44Mb(注意,是 bit,不是 byte)。
音频中比特率的计算公式如下:
比特率 = 采样率 * 采样精度 * 声道数目
视频中比特率的计算公式如下:
比特率 = 帧率 * 每帧数据大小
码率是音视频开发中非常重要的一个考虑因素,如果太大,则图像所占的内存也随之上升;太小,视频清晰度又会不足,因此码率的值需要根据实际情况权衡确定。
图像基础
RGB
任何一幅图像都可以由 RGB 组成,常用的 RGB 表示法有两种:
浮点表示,取值范围为 0.0 ~ 1.0,OpenGL ES 使用的就是这种方式
整数表示,取值范围为 0 ~ 255 或者 00 ~ FF,很多平台用的都是这种表达方式,比如 RGB_565 就使用了 16bit 来表示一个像素,R 用 5bit,G 用 6bit,B 用 5bit。
YUV
对于视频的裸数据而言,用得更多的是 YUV 数据格式,其中 “Y” 表示明亮度(Luminance 或 Luma),即灰度值;而 “U” 和 “V” 表示的则是色度(Chrominance 或 Chroma),作用是描述影像色彩及饱和度,指定像素的颜色。
比如有图片:
它的 Y 分量如图:
YUV 主要用于电视系统以及模拟视频领域,它将亮度信息(Y)与色彩信息(UV)分离,没有 UV 信息一样可以显示完整的图像,只不过是黑白的,这样的设计很好地解决了彩色电视机与黑白电视的兼容问题。并且,YUV 不像RGB 那样要求三个独立的视频信号同时传输,所以用 YUV 数据占用的内容更少。
RGB 转 YUV (从 ITU-R BT.601-7 标准中可以拿到推荐的相关系数):
Y = 0.299R + 0.587G + 0.114B
Cb = 0.564(B - Y)
Cr = 0.713(R - Y)
上述就是 YCbCr 颜色模型的基本原理。YCbCr 是属于 YUV 家族的一员(Cb、Cr 的含义等同于 U、V ),是在计算机系统中应用最为广泛的颜色模型。在 YCbCr 中,Y 是指亮度分量,Cb 指蓝色色度分量,而 Cr 指红色色度分量。
YCbCr 转 RGB:
R = Y + 1.402Cr
G = Y - 0.344Cb - 0.714Cr
B = Y + 1.772Cb
此时我们发现,YCbCr 仍然用了 3 个数字来表示颜色,那么它是如何节省了空间的呢?下面通过图片说明。
图片由类似下面的像素组成:
一副图片就是一个像素矩阵:
上图中,每个像素的 3 个分量的信息是完整的,Y : Cb : Cr = 4 : 4 : 4,属于 YUV444 格式。
而根据人类视觉系统对亮度信号比色度信号敏感的原理,我们可以省略图片的一些信息,对图片的质量影响却不会太大,比如:
此时,每两个 Y 共用一组 UV 分量,Y : Cb : Cr = 4 : 2 : 2,属于 YUV422 格式。
上图中,每四个 Y 共用一组 UV 分量,Cb、Cr 交替出现,在第一行数据里 Y : Cb : Cr = 4 : 2 : 0;而在第二行数据,Y : Cb : Cr = 4 : 0 : 2,这就是最常见的 YUV420 格式。
YUV420
YUV 格式有两大类:planar 和 packed。planar 先存储所有 Y,紧接着存储所有 U,最后是 V;而 packed 则是每个像素点的 Y、U、V 连续交叉存储。不过,packed 格式的已经不怎么能见到了,现在几乎都用 planar 格式。planar 的意思是平面,一个 planar 存储一个分量,因此 YUV 需要三个 planar 来存储图像信息。
最常用数据格式是 YUV420,其中又有 YUV420p、YUV420sp 两种:
也有 UV 数据顺序相反的,比如 Android 平台中的 YV12、NV21 两种格式:
还有一个和 YUV 数据相关的概念:stride——指内存中每行像素所占的空间。为了实现内存对齐,每行像素在内存中所占的空间不一定是图像的宽度。因此 stride 大于等于图像帧的宽度,同时,stride 为 4 的倍数。
H264
和音频编码一样,图像数据的编码方式也有很多种,比如 ISO 制定的 MPEG2、MPEG4 标准,ITU-T 的 H.261、H.262、H.263、H.264、H.265,Google 的 VP8、VP9 , AOM 的 AV1 等。其中 H265(HEVC)、VP9、AV1 是最新的几个编解码标准/格式,还在互相竞争中,现在用得最多的还是 H264。
H264 又称为 MPEG-4 Part 10, Advanced Video Coding,简写为 AVC。因为 ITU-T H.264 标准和 ISO/IEC MPEG-4 AVC 标准(正式名称是ISO/IEC 14496-10—MPEG-4 第十部分,高级视频编码)有相同的技术内容,故被共同管理。
H264 的相关概念有:序列、图像、片组、片、NALU、宏块、亚宏块、块、像素。
图像、帧、场
在 H.264 中,「图像」是个集合的概念,一帧或一场都可以称为图像。一帧通常就是一幅完整的图像。当采集视频信号时,如果采用逐行扫描,则每次扫描得到的信号就是一副图像,也就是一帧。而如果采用的是隔行扫描(奇、偶数行),则扫描下来的一帧图像就被分为了两个部分,这每一部分就称为「场」,根据次序分为:「顶场」和「底场」。「帧」和「场」的概念又带来了不同的编码方式:帧编码、场编码。逐行扫描适合于运动图像,所以对于运动图像采用帧编码更好;隔行扫描适合于非运动图像,所以对于非运动图像采用场编码更好。
帧内预测、帧间预测
视频编码中,最常用的数据压缩算法是帧内预测、帧间预测。帧内预测是对单张图像本身进行数据压缩,比如 JPEG。帧间预测是利用视频图像帧间的相关性,来达到图像压缩的目的;因为同一个视频中的前后两帧图像差异很小,因此不必完整地保存这两帧图像的原始数据,只需要保存前一帧的图像数据,然后再保存后一帧画面与前一帧的差别即可。
比如,这是我截的某个视频的第 1 帧图片:
这是我截的同一个视频的第 17 帧图片(第 2 帧和第 1 帧根本看不出区别):
可以看到,它们之间的区别很小,只有手指的位置改变了、气泡变小了而已。因此,我们完全没必要存储第 17 帧图片的原图,只需要存储它与第 16 帧图片的区别即可,第 16 帧同理,存储与前一帧图片的区别即可,一直到第 1 帧,才存储“原图”——这个原图指的是应用帧内预测算法后的图片。
IPB 帧、IDR 帧
根据帧间预测算法,对应的帧类型有 I 帧(intra picture)、P 帧(predictive-frame)、B 帧(bi-directional interpolated prediction frame)。I 帧是关键帧,使用帧内预测,无需借助其它帧的信息即可完整地呈现出一幅图像;P 帧没有完整的图像数据,只保存与前面的帧的差别,需要借助之前的帧数据生成图像;B 帧记录的是与前后帧的差别。
此外还有一个概念为 IDR 帧(instantaneous decoding refresh picture),因为 I 帧后的 P 帧可能会参考 I 帧之前的帧,这使得在随机访问的时候,可能即使找到了 I 帧,后面的 P 帧也无法解码。因此,IDR 会清空参考帧列表(DPB),IDR 帧之后的帧都不能引用任何 IDR 帧之前的帧数据。
片、NAL、宏块
H.264 的主要目标有两个:高视频压缩比、良好的网络亲和性。为此, H.264 的功能分为两层,即视频编码层( VCL)和网络提取层( NAL, Network Abstraction Layer)。 VCL 数据即编码处理的输出,它表示被压缩编码后的视频数据序列。在 VCL 数据传输或存储之前,这些编码的 VCL 数据,会被映射或封装进 NAL Unit 中。每个 NAL Unit 包括一个原始字节序列负荷( RBSP)、一组对应于视频编码数据的 NAL 头信息:
NAL Unit 的头占一个字节,由三部份組成,包括 forbidden_bit、nal_reference_idc 和 nal_unit_type。其中 forbidden_bit 占 1 bit,一般来说其值为 0;nal_reference_idc 占 2 bit,用于表示此 NAL 在重建过程中的重要程度。剩下 5 bit 表示 nal_unit_type,用于表示该 NAL Unit (RBSP)的类型:
值 | 定义 |
---|---|
0 | Undefined |
1 | Slice layer without partitioning non IDR |
2 | Slice data partition A layer |
3 | Slice data partition B layer |
4 | Slice data partition C layer |
5 | Slice layer without partitioning IDR |
6 | Additional information (SEI) |
7 | Sequence parameter set(SPS) |
8 | Picture parameter set(PPS) |
9 | Access unit delimiter |
10 | End of sequence |
11 | End of stream |
12 | Filler data |
13..23 | Reserved |
24..31 | Undefined |
举例来说,若截取某一段 H.264 bitstream 为 00 00 00 01 67 42 e0 14 da 05 82 51。其中 00 00 00 01 为 startcode(起始码),每个NALU之间通过 startcode 进行分隔。之后才是 NAL 的数据,因为 67 = 0 11 00111,nal_unit_tye = 00111 = 7,所以这一段为 SPS。SPS 信息在整个视频编码序列中是不变的,用于描述一个视频编码序列;PPS 信息在一幅编码图像之内是不变的,用于描述一个或多个独立的图像。SPS、PPS 的作用是防止在某些数据丢失后,整幅图像都受到影响的情况。
一个视频图像可编码成一个或更多个片(Slice):
每片包含整数个宏块( Marco Block,以下简称 MB),即每片至少一个 MB,最多时每片包含整个图像的宏块。设片的目的是为了限制误码的扩散和传输,应使编码片相互间是独立的。某片的预测不能以其它片中的宏块为参考图像,这样某一片中的预测误差才不会传播到其它片中去。
一个宏块由一个 16×16 亮度像素和附加的一个 8×8 Cb 和一个 8×8 Cr 彩色像素块组成。每个图象中,若干宏块被排列成片的形式。I 片只包含 I 宏块, P 片可包含 P 和 I 宏块,而 B 片可包含 B 和 I 宏块。
SPS、PPS
H.264 引入了参数集的概念,每个参数集包含了相应的编码图像的信息。序列参数集 SPS 包含的是针对一连续编码视频序列的参数,如标识符 seq_parameter_set_id、帧数及参考帧数目、解码图像尺寸等等。图像参数集 PPS 对应的是一个序列中某一幅图像或者某几幅图像 ,其参数如标识符 pic_parameter_set_id、可选的 seq_parameter_set_id、片组数目等等。
通常, SPS 和 PPS 在片的头信息和数据解码前传送至解码器。每个片的头信息对应一个pic_parameter_set_id, PPS 被其激活后一直有效到下一个 PPS 被激活;类似的,每个 PPS 对应一个 seq_parameter_set_id, SPS 被其激活以后将一直有效到下一个 SPS 被激活。
参数集机制将一些重要的、改变少的序列参数和图像参数与编码片分离,并在编码片之前传送至解码端,或者通过其他机制传输。
H264 vs x264
H264 是一个标准,一种格式,定义了视频流应该如何被压缩编码
x264 是一个开源的编码器,用于产生 H264 格式的视频流
h264 vs avc
属于 MP4 封装的 H264 视频的两种格式,都属于“H264”,只有一个区别:
h264:带起始码 0x00 00 01 或 0x00 00 00 01
avc:不带起始码
FFmpeg 介绍
简单介绍一下 FFmpeg,FFmpeg 的英文全称是 Fast Forward Moving Picture Experts Group,它是现在音视频开发中应用最广泛的一个库,很多音视频方面的应用,基本都是基于 FFmpeg 开发的。结构如图:
FFmpeg 实质上是一个“平台”,它把许多编解码器、封装器/解封装器等音视频处理库集合在一起,并提供了一个统一的对外接口,能够让我们在使用的时候,不必因为文件格式、编码格式的不同,而使用不同的代码。它的底层其实是依靠其它库实现的,比如编码 YUV 为 H264 时,虽然使用的是 FFmpeg 提供的 AVCodec 接口,实际上起作用的是 ff_libx264_encoder 这个编码器,顾名思义,它是基于 x264 实现的。
总的来说,FFmpeg 封装的统一接口主要有 3 个:
- AVInputFormat。包含 ff_aac_demuxer、ff_mp3_demuxer、ff_flv_demuxer 等解封装器。
- AVOutputFormat。包含 ff_mp4_muxer、ff_mp3_muxer、ff_flv_muxer 等封装器。
- AVCodec。包含 ff_h264_decoder、ff_hevc_decoder、ff_vp9_decoder 等解码器,以及 ff_libx264_encoder、ff_libx265_encoder、ff_libvpx_vp9_encoder 等编码器器。
我们在使用 FFmpeg 之前,通常第一步需要把 FFmpeg 的代码编译为 so 文件,编译时需要编写一个 config 脚本,这个脚本的作用就是帮我们选择自己需要的编解码器、封装器/解封装器等。
常用软件介绍
- MediaInfo
用于查看视频参数,比如:
通常用于检查视频本身是否正常、是否有支持的编解码器。比如有的视频在你的应用播放的时候,如果没有声音,那么就可以用这个软件查看一下这个视频的音频编码格式,并对照自己的播放器,看看是否支持这个格式。
- VideoEye
雷神写的:开源实时视频码流分析软件:VideoEye
除了查看视频参数之外,还有音视频码流分析等功能
- ffmpeg
它的三个命令行工具很好用,分别是:
ffplay:用于播放音视频,包括 yuv、pcm 等裸数据
ffprobe:用于查看媒体文件头信息
ffmpeg:强大的媒体文件转换工具,还可以转换图片格式
下载链接:https://www.ffmpeg.org/download.html
- 其它
YUVPlayer:播放 yuv 裸数据
VLC:多媒体播放器
参考链接:
[总结]视音频编解码技术零基础学习方法
《音视频开发进阶指南》
《新一代视频压缩编码标准》