iOS音视频播放（Audio Unit播放音频+OpenGL ES绘制视频）

前言

相关文章：
使用VideoToolbox硬编码H.264
使用VideoToolbox硬解码H.264
使用AudioToolbox编码AAC
使用AudioToolbox播放AAC
HLS点播实现（H.264和AAC码流）
HLS推流的实现（iOS和OS X系统）
iOS在线音频流播放
Audio Unit播放PCM文件
Audio Unit录音（播放伴奏+耳返）
Audio Unit播放aac/m4a/mp3等文件
Audio Unit和ExtendedAudioFile播放音频
AUGraph结合RemoteI/O Unit与Mixer Unit

上面的文章介绍了音视频信息的加载和解析，在另外的《OpenGLES文集》也详细介绍了OpenGL如何绘制图像。
这次结合Audio Unit和OpenGL ES，分别加载多媒体文件的音频和视频信息并播放。

下面是做出来之后的效果图：

Audio Unit & OpenGL ES.gif

正文

整体思路

demo包括三大部分，分别是资源加载、音频播放、视频播放。

资源加载：是用AVURLAsset加载资源文件，再创建资源读取器AVAssetReader，然后附加音频读取接口mReaderAudioTrackOutput和视频读取接口mReaderVideoTrackOutput到资源读取器。
音频播放：从音频读取接口mReaderAudioTrackOutput加载音频信息得到CMSampleBuffer，用方法CMSampleBufferGetAudioBufferListWithRetainedBlockBuffer把音频数据转成AudioBufferList格式，再采用AudioUnit播放；
视频播放：从视频读取接口mReaderVideoTrackOutput加载视频信息得到CMSampleBuffer，用方法CMSampleBufferGetImageBuffer把视频数据转成CVPixelBufferRef格式，再用OpenGL ES绘制图像；

整体流程图

具体解析

1、资源加载

资源加载用的是AVFoundation提供的方法，先加载音视频的轨道信息。
然后初始化好音视频的格式信息outputSettings，outputSettings是AVAssetReaderTrackOutput初始化的必要条件之一。

注意音轨和声道的区别，比如说在ktv唱歌的时候，通常伴奏是一个音轨，录到的人声是一个音轨，最后播放的时候进行混合。而声道我们常用声道数的概念，指的是声音播放时的扬声器数量。
音轨=AudioTrack
声道=AudioChannel

2、音频播放

音频播放功能用的是Audio Unit，其中的RemoteIO Unit只能接受PCM数据，故而要求读取出来的音频信息必须是PCM格式的，并且设置给Audio Unit的格式需要与outputSettings一致。

3、视频播放

视频播放其实就是图像信息的绘制，从资源我们可以读取到图像信息，再把图像传给已经封装好的LYOpenGLView类，就可以绘制图像。图像信息占用内存较为明显，需要注意内存的回收。

iOS音视频播放（Audio Unit播放音频+OpenGL ES绘制视频）_第2张图片

遇到的问题

1、确定Audio Unit音频格式

尝试加载资源文件的音频格式并设置给Audio Unit，但因为Audio Unit无法接受资源文件的格式（大多数文件的音频文件格式为AAC）。
解决方案是直接设置读取的音频格式信息为PCM，并且手动初始化ASBD，保证两端的格式一致。
如下，是资源文件的音频读取格式和手动初始化的格式：

    NSMutableDictionary *outputSettings = [NSMutableDictionary dictionary];
    [outputSettings setObject:@(kAudioFormatLinearPCM) forKey:AVFormatIDKey];
    [outputSettings setObject:@(16) forKey:AVLinearPCMBitDepthKey];
    [outputSettings setObject:@(NO) forKey:AVLinearPCMIsBigEndianKey];
    [outputSettings setObject:@(NO) forKey:AVLinearPCMIsFloatKey];
    [outputSettings setObject:@(YES) forKey:AVLinearPCMIsNonInterleaved];
    [outputSettings setObject:@(44100.0) forKey:AVSampleRateKey];
    [outputSettings setObject:@(1) forKey:AVNumberOfChannelsKey];
    
    AudioStreamBasicDescription inputFormat;
    inputFormat.mSampleRate = 44100;
    inputFormat.mFormatID = kAudioFormatLinearPCM;
    inputFormat.mFormatFlags = kAudioFormatFlagIsSignedInteger | kAudioFormatFlagIsNonInterleaved;
    inputFormat.mFramesPerPacket = 1;
    inputFormat.mChannelsPerFrame = 1;
    inputFormat.mBytesPerPacket = 2;
    inputFormat.mBytesPerFrame = 2;
    inputFormat.mBitsPerChannel = 16;
    self.fileFormat = inputFormat;

2、音视频同步

demo中存在两个变量self.mAudioTimeStamp和self.mVideoTimeStamp，分别表示音频播放和视频播放的时间戳。
其中音频播放进度由Audio Unit驱动，视频播放进度由CADisplayLink驱动，为了保证视频进度不超过音频进度，添加了if (self.mVideoTimeStamp < self.mAudioTimeStamp)的判断。
但在模拟器运行的时候，视频的解析比音频解析的速度小很多，造成较为明显的不同步。
在真机运行的时候，这种现象有明显的改进。
目前还没找到较好的同步方式，如果有知道请指教。

总结

本文没有扩展更多的音频和视频知识，通过结合三个部分知识，组成基本的音视频播放流程。
由于时间原因，所做的技术预研无法尽善尽美，代码没有很好的打磨。
demo更多是实践某些想法，如果代码存在问题，恳请指出，帮助你我他少踩一些坑。