音视频一些概念

声音

声音是波,靠物体的振动产生。声波有三要素：频率、振幅、波形。
频率：频率越高,波长就会越短.而低频声响的波长则较长.所以这样的声音更容易绕过障碍物,能量衰减就越小.声音就会传播的越远.

数字音频

将模拟信号转换为数字信号的过程,分别是

采样:在时间轴上对信号进行数字化
量化:在幅度轴上对信号进行数字化
编码:按照一定格式记录采样和量化后的数据.是为了压缩编码，去除人的肉眼很难察觉的冗余信息以更方便传输。

最常见的音频编码格式有AAC、MP3、WMA等。

视频

视频的构成:

图像：视频内容本身就是一帧一帧的图片构成.人眼只要1秒钟连续播放16张以上的图片,就会认为这是一段连贯的视频.这种物理现象叫视觉暂留.
音频:视频一定是由音频+图像内容构成的.所以音频在视频中是单独的一个部分.
元信息:用于描述信息的结构\语义\用途\用法等.比如视频元信息就包含了视频的具体信息,比如编码格式,分辨率等等

视频封装格式

视频封装格式相当于一种储存视频信息的容器，包含了封装视频文件所需要的视频信息、音频信息和相关的配置信息等。

一些公司会使用私有封装格式，只有公司内部播放器才能播放。

常见的视频文件格式各自特点如下：

QuickTime File Format 格式：对应的文件格式是 .mov，是 Apple 公司开发的一种视频格式，默认的播放器是苹果的 QuickTime。这种封装格式具有较高的压缩比率和较完美的视频清晰度等特点，并可以保存 alpha 通道。
Real Video 格式：对应的文件格式是 .rm、.rmvb，是 Real Networks 公司所制定的音频视频压缩规范称为 Real Media。用户可以使用 RealPlayer 根据不同的网络传输速率制定出不同的压缩比率，从而实现在低速率的网络上进行影像数据实时传送和播放。
Audio Video Interleaved 格式：对应的文件格式为 .avi ，是由 Microsoft 公司于 1992 年推出。这种视频格式的优点是图像质量好，无损 AVI 可以保存 alpha 通道。缺点是体积过于庞大，并且压缩标准不统一，存在较多的高低版本兼容问题。
Windows Media Video 格式：对应的文件格式是 .wmv，是微软推出的一种采用独立编码方式并且可以直接在网上实时观看视频节目的文件压缩格式。在同等视频质量下，WMV 格式的文件可以边下载边播放，因此很适合在网上播放和传输。
Moving Picture Experts Group 格式：对应的文件格式有 .mpg、.mpeg、.mpe、.dat、.vob、.asf、.3gp、.mp4 等等，是由运动图像专家组制定的视频格式，该专家组于 1988 年组建，专门负责视频和音频标准制定，其成员都是视频、音频以及系统领域的技术专家。MPEG 格式目前有三个压缩标准，分别是 MPEG-1、MPEG-2、和 MPEG-4。MPEG-4 是现在用的比较多的视频封装格式，它为了播放流式媒体的高质量视频而专门设计的，以求使用最少的数据获得最佳的图像质量。
Matroska 格式：对应的文件格式是 .mkv，Matroska 是一种新的视频封装格式，它可将多种不同编码的视频及 16 条以上不同格式的音频和不同语言的字幕流封装到一个 Matroska Media 文件当中。
Flash Video 格式：对应的文件格式是 .flv，是由 Adobe Flash 延伸出来的一种网络视频封装格式。这种格式被很多视频网站所采用。

音视频编解码

为什么需要编码呢？因为需要压缩。视频编解码的过程是指对数字视频进行压缩或解压缩的一个过程.

最常见的视频编码格式有H.264、H.265、MPEG-4等.
最常见的音频编码格式有AAC、MP3、WMA等。
硬编码: 使用GPU计算,获取数据结果,优点速度快,效率高,延长电量的使用.
软编码: 使用CPU来进行编码计算，简单，直接，性能低

H.264最大的优势,具有很高的数据压缩比率。H.265性能也很好，但会占用更多CPU，手机端可能发热，更耗电等。
AAC是目前比较热门的有损压缩编码技术,在小于128Kbit/s的码率下表现优异,并且多用于视频中的音频编码。

视频压缩中的IBP帧

I帧,也叫关键帧,视频的第一帧会被作为关键帧完整保存下来.而后面的帧会向前依赖。自身可以通过视频解码算法解压成一张单独的完整的视频画面.所以I帧去掉的是视频帧在空间维度上的冗余信息.
P帧,需要参考前面的一个I帧或P帧解码成一个完整的视频画面
B帧,双向参考帧。需要参考前面的一个I帧或者P帧以及后面的一个P帧来生成一个完整的视频画面.对实时互动的直播,一般不会使用B帧,因为需要前后参考。对于压缩比较高，可以接受一定延时的直播，可以用B帧

如果H264码流中I帧错误/丢失,就会导致错误传递,P/B帧单独是完成不了解码工作。

花屏、卡顿

花屏是因为你丢了P帧或者I帧.导致解码错误.
卡顿是因为为了怕花屏,将整组错误的GOP数据扔掉了.直达下一组正确的GOP再重新刷屏.而这中间的时间差,就是我们所感受的卡顿.

色彩空间

RGB

开发场景中使用最多的应该是RGB模型。
RGB色彩模式是工业界的一种颜色标准，是通过对红(R)、绿(G)、蓝(B)三个颜色通道的变化以及它们相互之间的叠加来得到各式各样的颜色的，RGB即是代表红、绿、蓝三个通道的颜色，这个标准几乎包括了人类视力所能感知的所有颜色，是目前运用最广的颜色系统之一。

YCbCr

还有一种更为广泛的 YUV 模型,每一个颜色有一个亮度信号 Y，和两个色度信号 U 和V。亮度信号是强度的感觉，它和色度信号断开，这样的话强度就可以在不影响颜色的情况下改变。

一般所讲的YUV大多是指YCbCr.

其中 YCbCr 是在计算机系统中应用最多的成员，其应用领域很广泛，JPEG、MPEG均采用此格式。YCbCr其中Y是指亮度分量，Cb指蓝色色度分量，而Cr指红色色度分量。人的肉眼对视频的Y分量更敏感，因此在通过对色度分量进行子采样来减少色度分量后，肉眼将察觉不到的图像质量的变化。

YUV（YCbCr）采样格式：

主要的采样格式有YCbCr 4:2:0、YCbCr 4:2:2、YCbCr 4:1:1和 YCbCr 4:4:4。
其中YCbCr4:1:1 比较常用，其含义为：每个点保存一个 8bit 的亮度值(也就是Y值), 每 2 x 2 个点保存一个 Cr和Cb值,图像在肉眼中的感觉不会起太大的变化。所以, 原来用 RGB(R,G,B 都是 8bit unsigned) 模型, 每个点需要8x3=24 bits，而现在仅需要 8+(8/4)+(8/4)=12bits,平均每个点占12bits。这样就把图像的数据压缩了一半。

直播

在直播项目中,一般常见有8个步骤：

音视频采集：AVFoundation
视频滤镜：原生CoreImage，三方GPUImage
音视频编码：硬：VideoToolBox、AudioToolBox 软：FFmpeg、fdk_aac
推流: 流媒体协议: RTMP\RTSP\HLS\FLV 视频封装格式: TS\FLV 音频封装格式: Mp3\AAC
流媒体服务器处理: 实时转码等
拉流: 协议有RTMP\RTSP\HLS\FLV
音视频解码：同编码
音视频播放： ijkplayer,kxmovie 都是基于FFmpeg框架封装的

对实时互动的直播,一般不会使用B帧,因为需要前后参考。对于压缩比较高，可以接受一定延时的直播，可以用B帧

直播间里一般不会用H265。,因为它的压缩比更高,它占用的CPU也是非常高的.在直播里,如果用X265的话,CPU就抖然就上去了。

VideoToolBox框架的流程

创建session
设置编码相关参数
开始编码
循环获取采集数据
获取编码后数据
将数据写入H264文件

开发者必须将原始图像数据封装为CVPixelBuufer的数据结构.该数据结构是使用VideoToolBox的核心.

我们使用任何硬件设备都要使用对应的session,麦克风就要使用AudioSession,使用Camera就要使用AVCaptureSession,使用编码则需要使用VTCompressionSession.解码时,要使用VTDecompressionSessionRef.