我们将分成以下几点讨论视频编解码的情况
1、收到H.264格式的视频数据并在应用中播放
2、收到H.264视频数据在应用中播放的同时得到每一帧图片
3、从相机或者其他地方收到视频时将它压缩成视频文件
4、收到视频时将它压缩成视频文件的同时得到每一帧压缩数据并将它通过网络发送出去
音视频接口梗概:
AVKit:提供一些方便使用的上层接口,在View层上提供接口处理音视频
AVFoundation:在AVKit下面一层,提供更广的接口来处理音视频任务,它提供了可以直接解码视频并且在layer上播放的接口,也提供了直接压缩视频生成视频文件的接口
Video Toolbox:它提供直接对接编码器和解码器的接口,可以将压缩的视频流解码成CV pixel buffers,也可以将原始视频压缩成CM sample buffers
Core Media, Core Video:最底层接口,提供许多必要类型
在iOS上,AVKit,AVFoundation,Video Toolbox都使用硬件解码
音视频接口中的一些常见类型
CVPixelBuffer:它包含图像本身数据,包含图像长宽信息,像素格式等
CVPixelBufferPool:它允许我们循环使用CVPixelBuffer,由于持续的生成和销毁CVPixelBuffer会占用大量资源,所以将它放入池子中可以循环使用
pixelBufferAttributes:它在音视频接口中是一个常见对象,是一个CF字典包含了CVPixelBuffer和PixelBufferPool需要的一系列数据,例如长宽,像素格式等
CMTime:用来描述时间的类型,所以它是一个有理数
CMVideoFormatDescription:是一个描述视频数据的类型,包括长宽,像素格式信息,它还有一些扩展,例如像素横纵比,色域。在H.264数据中,参数设置也包含在这些扩展中
CMBlockBuffer:它可以包含任意的Core Media中的数据。通常情况下,视频数据,压缩视频数据都会打包放在这个类型中
CMSampleBuffer:它可以打包压缩视频帧或未压缩视频帧。还包含许多上面提到的类型,例如CMTime,用来描述当前帧在视频中的时间点,CMVideoFormatDescription,用来描述CMSampleBuffer中的数据。最后,其中还包含了视频本身的数据,我们把压缩的视频数据放入CMBlockBuffer中,未压缩的可以放在CVPixelBuffer中,也可以同样放在CMBlockBuffer中
CMClock:这个时间类型难以控制,它会一直以一个确定的频率走着。所以我们引入CMTimebase来对CMClock提供更多的控制。
CMTimebase:我们可以基于hostTime clock来创建CMTimebase,然后设置时间为0,它会与CMClock的当前时间映射,我们还可以设置rate,当rate设置为1时,timebase会与clock的频率一致。CMTimebase也可以基于其他的CMTimebase建立
接下来我们讨论第一种情况
收到H.264格式的视频数据并在应用中播放
当我们收到网络中传来的视频数据时,我们可以使用AVSampelBufferDisplayLayer这个类型对象来进行播放。这是从iOS 8中引入的新类型。
在AVSampelBufferDisplayLayer中,需要压缩的视频帧是CMSampleBuffer格式的,再通过解码器把它变成CVPixelBuffer格式,并且按顺序排好,等待在合适的时间展示到屏幕上。但是,当从网络中获取视频数据时,许多时候它是elementary stream格式的。所以我们需要将它变成CMSampleBuffer格式。
H.264定义了一些打包方式,第一种是Elementary Stream packaging,还有一种是MPEG-4 packaging,它用在视频文件,MP4文件中。在CMSampleBuffer,Core Media和AVFoundation中只接受MPEG-4 packaging类型的数据。
H.264数据流中的数据都打包在一系列NAL单元中,NAL单元可以包含一帧的数据,一帧数据也可能跨越多个NAL单元。NAL单元还可能包含参数设置信息,Sequence Parameter Set和Picture Parameter Set,这些参数提供给解码器使用来解码接下来的帧数据,直到新的参数设置数据传入。
在Elementary Stream packaging中,参数设置是包含在NAL单元中的。在MPEG-4中,参数设置被抽离出来单独放在CMVideoFormatDescription中,这种方式允许我们可以随机跳到视频中的某一位置并从I帧开始解码播放。
所以当我们获取到Elementary Stream时,iOS提供了CMVideoFormatDescriptionCreatefromH264ParameterSets这个方法来将Parameter Set打包成CMVideoFormatDescription。
Elementary Stream和MPEG-4 Stream的另一个不同点在NAL header中,Elementary Stream的NAL header中有3到4个字节的start code,而在MPEG-4的NAL header中是4字节的length code。
接下来我们讨论如何从Elementary Stream中创建一个CMSampleBuffer。首先把NAL Unit中的start code替换成length code,然后将它加入CMBlockBuffer中。然后获取parameter sets生成CMVideoFormatDescription。最后加入CMTime值,它代表当前帧的时间。接下来使用CMSampleBufferCreate这个方法创建CMSampleBuffer。
接下来基于hostTime clock创建一个timebase。然后将它设置成AVSampleBufferDisplayLayer中的controlTimebase。
当使用sampleBufferDisplayerLayer时,有两种使用场景,第一种是视频帧以一定的速率接收并播放,这种情况出现在直播或者视频会议中。另一种是有大量的CMSampleBuffers等待被sampleBufferDisplayerLayer接收处理,这种情况在我们有大量的网络缓存数据或者从一个视频文件中读取数据中出现。
第一种情况,当帧数据以一定频率被接收时,我们使用enqueueSampleBuffer来接收它们。
第二种情况,当我们有大量的帧数据时,我们不能一下子把所有数据都加入sampleBufferDisplayerLayer中,而是当sampleBufferDisplayerLayer中的buffers很少时,当它需要更多的buffers时,我们才添加新的帧数据。我们使用requestMediaDataWhenReadyOnQueue这个方法来检测sampleBufferDisplayerLayer中的帧数据是否不足,它提供了一个代码块,当数据不足时会调用该代码块。
通过上面的学习,我们了解了如何创建一个AVSampleBufferDisplayLayer。
如何将H.264 elementary stream转化成CMSampleBuffers。
如何将CMSampleBuffers提供给AVSampleBufferDisplayLayer使用。
以及如何配合CMTimebase来使用AVSampleBufferDisplayLayer。
本文翻译自WWDC14:Direct Access to Video Encoding and Decoding