iOS 音频流播(四)

在第一篇我们介绍过AudioConverter可以对分离出来的音频帧解码得到PCM数据。实际上,AudioConverter可以完成不同线性PCM变体之间音频数据的转换(例如采样位数8位和16位的PCM之间的转换),也可以完成线性PCM和其他压缩格式直接的转换(例如PCM-->MP3)。AudioToolBox将PCM数据作为转换的中间件,所以如果想完成MP3-->AAC的转换,可以先将MP3转码得到PCM,再将PCM转码得到AAC来实现。本篇我们就来说说AudioConverter。

初始化AudioConverter
// 将 inSourceFormat 转换成 inDestinationFormat 格式
extern OSStatus
AudioConverterNew(      const AudioStreamBasicDescription * inSourceFormat,
                        const AudioStreamBasicDescription * inDestinationFormat,
                        AudioConverterRef __nullable * __nonnull outAudioConverter)
  • 第一个参数,inSourceFormat是源输入格式。
  • 第二个参数,inDestinationFormat是目的输出格式。
  • 第三个参数,outAudioConverter是生成的AudioConverter实例,保存留来留作其它方法参数使用。
  • 返回值表示是否成功。
Magic cookie

官方文档这么描述magic cookie:

    In the realm of Core Audio, a magic cookie is an opaque set of 
metadata attached to a compressed sound file or stream. The 
metadata gives a decoder the details it needs to properly decompress 
the file or stream. You treat a magic cookie as a black box, relying 
on Core Audio functions to copy, read, and use the contained metadata.

大意是说magic cookie是附加在音频文件或者音频流中的一组不透明的元数据,而元数据给解码器提供了正确解码音频文件或音频流所必须的细节。我们可以通过Core Audio提供的相关函数读取或使用magic cookie。以下代码片段显示了如何获取和使用magic cookie。

// for AudioFileStream
- (NSData *)fetchMagicCookie
{
    UInt32 cookieSize;
    Boolean writable;
    OSStatus status = AudioFileStreamGetPropertyInfo(_audioFileStreamID, kAudioFileStreamProperty_MagicCookieData, &cookieSize, &writable);
    if (status != noErr)
    {
        return nil;
    }
    
    void *cookieData = malloc(cookieSize);
    status = AudioFileStreamGetProperty(_audioFileStreamID, kAudioFileStreamProperty_MagicCookieData, &cookieSize, cookieData);
    if (status != noErr)
    {
        return nil;
    }
    
    NSData *cookie = [NSData dataWithBytes:cookieData length:cookieSize];
    free(cookieData);
    
    return cookie;
}
// for AudioFile
- (NSData *)fetchMagicCookie
{
    UInt32 cookieSize;
    OSStatus status = AudioFileGetPropertyInfo(_audioFileID, kAudioFilePropertyMagicCookieData, &cookieSize, NULL);
    if (status != noErr)
    {
        return nil;
    }
    
    void *cookieData = malloc(cookieSize);
    status = AudioFileGetProperty(_audioFileID, kAudioFilePropertyMagicCookieData, &cookieSize, cookieData);
    if (status != noErr)
    {
        return nil;
    }
    
    NSData *cookie = [NSData dataWithBytes:cookieData length:cookieSize];
    free(cookieData);
    
    return cookie;
}

获取的magic cookie需要提供给AudioConverter使用。

NSData *cookieData = [self fetchMagicCookie];
AudioConverterSetProperty(_audioConverter, kAudioConverterDecompressionMagicCookie, [cookieData length], [cookieData bytes]);
属性信息

AudioConverter通过getter、setter获取和配置属性。

// 获取属性
extern OSStatus
AudioConverterGetProperty(  AudioConverterRef           inAudioConverter,
                            AudioConverterPropertyID    inPropertyID,
                            UInt32 *                    ioPropertyDataSize,
                            void *                      outPropertyData) 
// 设置属性
extern OSStatus
AudioConverterSetProperty(  AudioConverterRef           inAudioConverter,
                            AudioConverterPropertyID    inPropertyID,
                            UInt32                      inPropertyDataSize,
                            const void *                inPropertyData) 

对于getter:

  • 第一个参数,inAudioConverter是生成的AudioConverter实例。
  • 第二个参数,inPropertyID是需要获取的属性ID。
  • 第三个参数,ioPropertyDataSize是属性对应格式的大小。
  • 第四个参数,outPropertyData是返回的属性值。

对于setter,前两个参数同上,区别在于第三个、第四个参数是要设置的属性大小和对应的值。

以下是AudioConverter定义的属性ID。

CF_ENUM(AudioConverterPropertyID)
{
    kAudioConverterPropertyMinimumInputBufferSize       = 'mibs',
    kAudioConverterPropertyMinimumOutputBufferSize      = 'mobs',
    kAudioConverterPropertyMaximumInputBufferSize       = 'xibs',
    kAudioConverterPropertyMaximumInputPacketSize       = 'xips',
    kAudioConverterPropertyMaximumOutputPacketSize      = 'xops',
    kAudioConverterPropertyCalculateInputBufferSize     = 'cibs',
    kAudioConverterPropertyCalculateOutputBufferSize    = 'cobs',
    kAudioConverterPropertyInputCodecParameters         = 'icdp',
    kAudioConverterPropertyOutputCodecParameters        = 'ocdp',
    kAudioConverterSampleRateConverterAlgorithm         = 'srci',
    kAudioConverterSampleRateConverterComplexity        = 'srca',
    kAudioConverterSampleRateConverterQuality           = 'srcq',
    kAudioConverterSampleRateConverterInitialPhase      = 'srcp',
    kAudioConverterCodecQuality                         = 'cdqu',
    kAudioConverterPrimeMethod                          = 'prmm',
    kAudioConverterPrimeInfo                            = 'prim',
    kAudioConverterChannelMap                           = 'chmp',
    kAudioConverterDecompressionMagicCookie             = 'dmgc',
    kAudioConverterCompressionMagicCookie               = 'cmgc',
    kAudioConverterEncodeBitRate                        = 'brat',
    kAudioConverterEncodeAdjustableSampleRate           = 'ajsr',
    kAudioConverterInputChannelLayout                   = 'icl ',
    kAudioConverterOutputChannelLayout                  = 'ocl ',
    kAudioConverterApplicableEncodeBitRates             = 'aebr',
    kAudioConverterAvailableEncodeBitRates              = 'vebr',
    kAudioConverterApplicableEncodeSampleRates          = 'aesr',
    kAudioConverterAvailableEncodeSampleRates           = 'vesr',
    kAudioConverterAvailableEncodeChannelLayoutTags     = 'aecl',
    kAudioConverterCurrentOutputStreamDescription       = 'acod',
    kAudioConverterCurrentInputStreamDescription        = 'acid',
    kAudioConverterPropertySettings                     = 'acps',
    kAudioConverterPropertyBitDepthHint                 = 'acbd',
    kAudioConverterPropertyFormatList                   = 'flst'
};

茫茫多~ 讲几个比较重要的属性吧。

  • kAudioConverterDecompressionMagicCookie:magic cookie相关,上面已经提到了。注意一下magic cookie不是一定有的,所有要先获取一下,如果有就设置给AudioConverter。
  • kAudioConverterCurrentInputStreamDescription 和
    kAudioConverterCurrentOutputStreamDescription:我们知道在AudioConverter初始化的时候需要传递srcFormat和dstFormat。这两个format并不一定已经被完全填写。比如我们要转码成AAC,dstFormat就不会被完全填写。可以通过AudioConverterGetProperty()获取一下,大概是这样:
// 初始化时传递的源格式
AudioStreamBasicDescription srcFormat;
// 初始化时传递的目标格式
AudioStreamBasicDescription dstFormat;
// 获取对应的真实可用格式
 UInt32 size = sizeof(srcFormat);
OSStatus status =  AudioConverterGetProperty(converter, kAudioConverterCurrentInputStreamDescription, &size, &srcFormat);
if (status == noErr)
{
    // 错误处理
}
size = sizeof(dstFormat);
status = AudioConverterGetProperty(converter, kAudioConverterCurrentOutputStreamDescription, &size, &dstFormat)
if (status == noErr)
{
    // 错误处理
}
// 接下来 srcFormat 和  dstFormat就已经填充完整。
// ...
  • kAudioConverterPropertyMaximumOutputPacketSize:如果目标格式是VBR类型,获取此属性的值用来计算输出的AudioStreamBasicDescription数组的大小,从而分配合适的内存。因为VBR是不定的,但是如果分配最大音频包大小的内存,就可以hold住所有的了。
    if (dstFormat.mBytesPerPacket == 0) {
        // if the destination format is VBR,
       //  we need to get max size per packet from the converter
        size = sizeof(dstFormat.mBytesPerPacket);
       OSStatus status = AudioConverterGetProperty(converter, kAudioConverterPropertyMaximumOutputPacketSize, &size, &dstFormat.mBytesPerPacket) ; 
        // allocate memory for the PacketDescription structures 
        // describing the layout of each packet
        AudioStreamPacketDescription *outputPacketDescriptions = calloc(theOutputBufferSize / dstFormat.mBytesPerPacket, sizeof(AudioStreamPacketDescription));
    }
  • kAudioConverterPrimeInfo:AudioConverter的启动信息。一些音频数据格式转换,特别是那些涉及采样率转换的音频数据格式转换,当有leadingFrames或trailingFrames可用时,会产生更高质量的输出。 这些启动信息的适当数量取决于输入的音频数据格式。
// 对于一些音频数据,它的数据并不全是有效可播放的
// 可能存在一些启动信息,也可能有一些剩余帧被添加到完整的音频包中
// 
// struct AudioConverterPrimeInfo {
      // 前导帧
//    UInt32      leadingFrames;
      // 尾帧
//    UInt32      trailingFrames;
// };
// typedef struct AudioConverterPrimeInfo AudioConverterPrimeInfo;
// 
// struct AudioFilePacketTableInfo
// {
           // 有效的音频帧数
//         SInt64  mNumberValidFrames;
          //  相当于leadingFrames
//         SInt32  mPrimingFrames;
          //  相当于trailingFrames
//         SInt32  mRemainderFrames;
// };
// typedef struct AudioFilePacketTableInfo AudioFilePacketTableInfo;
//
// 在转码成PCM时,我们可以获取AudioFilePacketTableInfo,用它来填充AudioConverterPrimeInfo
    if (srcFormat.mBitsPerChannel == 0) { // VBR
        // 获取PacketTableInfo
        size = sizeof(srcPti);
        status = AudioFileGetProperty(_audioFileID, kAudioFilePropertyPacketTableInfo, &size, &srcPti);
        if (status == noErr) {
            // 先确保可写
            UInt32 dataSize = 0;
            Boolean isWritable = NO;
            status = AudioConverterGetPropertyInfo(_audioConverter, kAudioConverterPrimeInfo, &dataSize, &isWritable);
            if (status == noErr && isWritable) {
                // 设置AudioConverter启动信息
                // 填充启动信息,可以获得可高质量的输出
                AudioConverterPrimeInfo primeInfo;
                primeInfo.leadingFrames = (UInt32)(srcPti.mPrimingFrames * actualToBaseSampleRateRatio);
                primeInfo.trailingFrames = (UInt32)srcPti.mRemainderFrames * actualToBaseSampleRateRatio;
                status = AudioConverterSetProperty(_audioConverter, kAudioConverterPrimeInfo, sizeof(primeInfo), &primeInfo);
                if (status != noErr) {
                    return NO;
                }
            }
        }
    }

  这里解释一下actualToBaseSampleRateRatio。前文说过AudioFile的两个propertyID,kAudioFilePropertyFormatList和kAudioFilePropertyDataFormat,这两个属性都可以获取到AudioStreamBasicDescription,区别在于 kAudioFilePropertyDataFormat只能获取到最低级别的编码层级。
  例如对源文件采用AAC_HE_V2编码格式,44100KHz采样率、双声道:

  • 第一层:只支持22050,单声道
  • 第二层,支持44100,单声道
  • 第三层支持44100,双声道。

  在这种情况下,用kAudioFilePropertyDataFormat就取不到第三层的格式了,这时,就需要用kAudioFilePropertyFormatList来获取第三层的格式。姑且将kAudioFilePropertyFormatList获取的format称为高规格,kAudioFilePropertyDataFormat获取的format称为低规格。actualToBaseSampleRateRatio就是高规格的format对低规格format的采样率的比率。第一篇我们讲过采样率对音频文件大小的影响,所以剩下的就靠想象了。

编解码

AudioConverter提供了三个函数用于编解码。

OSStatus AudioConverterConvertBuffer(AudioConverterRef inAudioConverter, 
                                               UInt32 inInputDataSize, 
                                               const void *inInputData,
                                               UInt32 *ioOutputDataSize, 
                                               void *outOutputData);
OSStatus AudioConverterConvertComplexBuffer( AudioConverterRef               inAudioConverter,
                                    UInt32                          inNumberPCMFrames,
                                    const AudioBufferList *         inInputData,
                                    AudioBufferList *               outOutputData)

这两个函数功能类似,都只支持PCM之间的转换,并且两种PCM的采样率必须一致。也就是说无法从PCM转换成其他压缩格式或者从压缩格式转换成PCM,下面重点介绍另一个函数,AudioConverterFillComplexBuffer()。

extern OSStatus
AudioConverterFillComplexBuffer(    AudioConverterRef                   inAudioConverter,
                                    AudioConverterComplexInputDataProc  inInputDataProc,
                                    void * __nullable                   inInputDataProcUserData,
                                    UInt32 *                            ioOutputDataPacketSize,
                                    AudioBufferList *                   outOutputData,
                                    AudioStreamPacketDescription * __nullable outPacketDescription)
  • 第一个参数,inAudioConverter是初始化得到的AudioConverter对象。
  • 第二个参数,inInputDataProc是提供音频数据进行转换的回调函数。当AudioConverter准备好新的输入数据时,这个回调被重复调用。
  • 第三个参数,inInputDataProcUserData是上下文对象。
  • 第四个参数,ioOutputDataPacketSize,在输入时代表另一个参数outOutputData的大小(以音频包表示),在输出时会写入已经转换了的数据包数。如果调用完毕ioOutputDataPacketSize == 0,说明EOF(end of file)。
  • 第五个参数,outOutputData代表转换后的数据输出。
  • 第六个参数,outPacketDescription在输入时,必须指向能够保存ioOutputDataPacketSize * sizeof(AudioStreamPacketDescription)内存块。在输出时如果非空,并且AudioConverter的输出格式使用AudioStreamPacketDescription来描述,则会被写入一个AudioStreamPacketDescription数组。

来看一下为AudioConverter提供输入的回调

typedef OSStatus
(*AudioConverterComplexInputDataProc)(  AudioConverterRef               inAudioConverter,
                                        UInt32 *                        ioNumberDataPackets,
                                        AudioBufferList *               ioData,
                                        AudioStreamPacketDescription * __nullable * __nullable outDataPacketDescription,
                                        void * __nullable               inUserData);
  • 第一个参数不用多说。
  • 第二个参数,ioNumberDataPackets在输入时,代表AudioConverter可以完成本次转换所需要的最小数据包数,在输出时,代表实际转换的音频数据包数。
  • 第三个参数,ioData在输出时,将此结构体的字段指向要提供的要转换的音频数据。
  • 第四个参数,在输入时,如果不为NULL,则需要在输出时提供一组AudioStreamPacketDescription结构,用于给ioData参数中提供AudioStreamPacketDescription描述信息。

具体使用例子可以看这里;

清理

AudioConverter使用完毕后需要清理。

OSStatus AudioConverterDispose(AudioConverterRef inAudioConverter);

你可能感兴趣的:(iOS 音频流播(四))