音视频编解码:视频编解码基础1-FFmpeg结构与API摘要
音视频编解码:视频编解码基础2-FFmpeg解码实践
音视频编解码:视频编解码基础篇3-FFmpeg转码实践
音视频编解码:视频编解码基础篇4-FFmpeg解码播放
FFmpeg
之前很简要的说了下AVFoundation FFmpeg VideoToolbox 三大框架.AVFoundation是上层框架底层操作有限后续单独通过部分 demo 逐步描述功能作用,这里不再说明.关于FFmpeg(AAC,H264)的编译后续再见,这里主要献丑讲述FFmpeg框架结构,通过代码解释各层API的作用和运用
FFmpeg框架结构
8个静态库其实就是FFmpeg的8个模块,具体包括如下内容。
1AVUtil:核心工具库,该模块是最基础的模块之一,下面的许多其他模块都会依赖该库做一些基本的音视频处理操作。
AVFormat:文件格式和协议库,该模块是最重要的模块之一,封装了Protocol层和Demuxer、Muxer层,使得协议和格式对于开发者来说是透明的。
AVCodec:编解码库,该模块也是最重要的模块之一,封装了Codec层,但是有一些Codec是具备自己的License的,FFmpeg是不会默认添加像libx264、FDK-AAC、lame等库的,但是FFmpeg就像一个平台一样,可以将其他的第三方的Codec以插件的方式添加进来,然后为开发者提供统一的接口。
AVFilter:音视频滤镜库,该模块提供了包括音频特效和视频特效的处理,在使用FFmpeg的API进行编解码的过程中,直接使用该模块为音视频数据做特效处理是非常方便同时也非常高效的一种方式。
AVDevice:输入输出设备库,比如,需要编译出播放声音或者视频的工具ffplay,就需要确保该模块是打开的,同时也需要libSDL的预先编译,因为该设备模块播放声音与播放视频使用的都是libSDL库。
SwrRessample:该模块可用于音频重采样,可以对数字音频进行声道数、数据格式、采样率等多种基本信息的转换。
SWScale:该模块是将图像进行格式转换的模块,比如,可以将YUV的数据转换为RGB的数据。
PostProc:该模块可用于进行后期处理,当我们使用AVFil-ter的时候需要打开该模块的开关
相关头文件
#include "libavformat/avformat.h"
#include "libswscale/swscale.h"
#include "libswresample/swresample.h"
#include "libavutil/pixdesc.h"
核心模块与类说明libavformat与libavcodec
AVFormatContext是API层直接接触到的结构体,它会进行格式的封装与解封装,它的数据部分由底层提供,底层使用了AVIOContext,这个AVIOContext实际上就是为普通的I/O增加了一层Buffer缓冲区,再往底层就是URLContext,也就是到达了协议层,协议层的具体实现有很多,包括rtmp、http、hls、file等,这就是libavformat的内部封装了。
AVCodecContext,该结构体包含的就是与实际的编解码有关的部分。首先,AVCodecContext是包含在一个AVStream里面的,即描述了这路流的编码格式是什么,其中存放了具体的编码格式信息,根据Codec的信息可以打开编码器或者解码器,然后利用该编码器或者解码器进行AVPacket与AVFrame之间的转换(实际上就是解码或者编码的过程),这是FFmpeg中最重要的一部分。那么,接下来就来看一下在API中调用了FFmpeg的一些方法之后,FFmpeg内部到底做了些什么
主要API的说明分析
1.av_register_all,avcodec_register_all,avformat_network_init,avfilter_register_all
av_register_all内部实现会先调用avcodec_register_all来注册所有config.h里面开放的编解码器,然后会注册所有的Muxer和Demuxer(也就是封装格式),最后注册所有的Protocol(即协议层的东西)。还有一个方法是avcodec_register_all(),其用于将所有编解码器注册到FFmpeg框架中,但是av_register_all方法内 部已经调用了avcodec_register_all方法,所以其实只需要调用av_register_all就可以了.avformat_network_init用于解码网路视频或直播流的初始化(如:htpp,rtmp,rtsp,).avfilter_register_all用于添加特效处理的初始化(如:水印 logo,动画,滤镜)
2. av_find_codec
这里面其实包含了两部分的内容:一部分是寻找解码器,一部分是寻找编码器。其实在第一步的avcodec_register_all函数里面已经把编码器和解码器都存放到一个链表中了,在这里寻找编码器或者解码器都是从第一步构造的链表中进行遍历寻得
3. avcodec_open2
打开编解码器(Codec)的函数,该函数的输入参数有三个:第一个是AVCodecContext,解码过程由FFmpeg引擎填充,编码过程由开发者自己构造,如果想要传入私有参数,则为它的priv_data设置参数,比如在libx264编码器中设置preset、tune、profile等;第二个参数是上一步通过av_find_codec寻找出来的编解码器(Codec);第三个参数一般会传递NULL。
4. avcodec_close
顾名思义,avcodec_open的逆过程,关闭对应的编解码库
调用FFmpeg解码时用到的函数分析
1. avformat_open_input
函数avformat_open_input会根据所提供的文件路径判断文件的格式,其实就是通过这一步来决定使用的到底是哪一个De-muxer。举例来说,如果是flv,那么Demuxer就会使用对应的ff_flv_demuxer,所以对应的关键生命周期的方法read_header、read_packet、read_seek、read_close都会使用该flv的Demuxer中函数指针指定的函数。read_header函数会将AVStream结构体构造好,以便后续的步骤继续使用AVStream作为输入参数。
2. avformat_find_stream_info
这个函数非常重要,后续章节中将要介绍的如何在直播场景下的拉流客户端中“秒开首屏”,就是与该函数分析的代码实现息息相关的,该方法的作用就是把所有Stream的MetaData信息填充好。方法内部会先查找对应的解码器,然后打开对应的解码器,紧接着会利用Demuxer中的read_packet函数读取一段数据进行解码,当然解码的数据越多,分析出的流信息就会越准确,如果是本地资源,那么很快就可以得到非常准确的信息了,但是对于网络资源来说,则会比较慢,因此该函数有几个参数可以控制读取数据的长度,一个是probe size,一个是max_ana-lyze_duration,还有一个是fps_probe_size,这三个参数共同控制解码数据的长度,当然,如果配置这几个参数的值越小,那么这个函数执行的时间就会越快,但是会导致AVStream结构体里面一些信息(视频的宽、高、fps、编码类型等)不准确。
3. av_read_frame
使用该方法读取出来的数据是AVPacket,在FFmpeg的早期版本中开放给开发者的函数其实就是av_read_packet,但是需要开发者自己来处理AVPacket中的数据不能被解码器完全处理完的情况,即需要把未处理完的压缩数据缓存起来的问题。所以到了新版本的FFmpeg中,其提供了该函数,用于处理此状况。该函数的实现首先会委托到Demuxer的read_packet方法中去,当然read_packet通过解复用层和协议层的处理之后,会将数据返回到这里,在该函数中进行数据缓冲处理。前面曾说过,对于音频流,一个AVPacket可能包含多个AVFrame,但是对于视频流,一个AVPacket只包含一个AVFrame,该函数最终只会返回一个AVPacket结构体。
4. avcodec_decode
该方法包含了两部分内容:一部分是解码视频,一部分是解码音频。在上面的函数分析中,我们知道,解码是会委托给对应的解码器来实施的,在打开解码器的时候就找到了对应解码器的实现,比如对于解码H264来讲,会找到ff_h264_decoder,其中会有对应的生命周期函数的实现,最重要的就是init、decode、close这三个方法,分别对应于打开解码器、解码以及关闭解码器的操作,而解码过程就是调用decode方法。
5. avformat_close_input
该函数负责释放对应的资源,首先会调用对应的Demuxer中的生命周期read_close方法,然后释放掉AVFormatContext,最后关闭文件或者远程网络连接。
调用FFmpeg编码时用到的函数
1. avformat_alloc_output_context2
该函数内部需要调用方法avformat_alloc_context来分配一个AVFormatContext结构体,当然最关键的还是根据上一步注册的Muxer和Demuxer部分(也就是封装格式部分)去找到对应的格式。有可能是flv格式、MP4格式、mov格式,甚至是MP3格式等,如果找不到对应的格式(即在configure选项中没有打开这个格式的开关),那么这里会返回找不到对应的格式的错误提示。在调用API的时候,可以使用av_err2str把返回整数类型的错误代码转换为肉眼可读的字符串,这在调试的时候是一个比较有用的工具函数。该函数最终会将找出来的格式赋值给AVFormatContext类型的oformat。
2. avio_open2
首先调用函数ffurl_open,构造出URLContext结构体,这个结构体中包含了URLProtocol(需要去第一步register_proto-col中已经注册的协议链表中寻找);接着会调用avio_alloc_con-text方法,分配出AVIOContext结构体,并将上一步构造出来的URLProtocol传递进来;然后把上一步分配出来AVIOContext结构体赋值给AVFormatContext的属性