流程:媒体文件通过复用器将音频流,视频流,字幕流分离开来,然后通过编解码器将各种流解码,然后通过同步控制处理后输出。
• AVUtil:核心工具库,下面的许多其他模块都会依赖该库做一些基本的音视频处理操作。
• AVFormat:文件格式和协议库,该模块是最重要的模块之一,封装了Protocol层和Demuxer、Muxer层,使得协议和格式对于开发者来说是透明的。
• AVCodec:编解码库,封装了Codec层,但是有一些Codec是具备自己的License的,FFmpeg是不会默认添加像libx264、FDK-AAC等库的,但是FFmpeg就像一个平台一样,可以将其他的第三方的Codec以插件的方式
添加进来,然后为开发者提供统一的接口。
• AVFilter:音视频滤镜库,该模块提供了包括音频特效和视频特效的处理,在使用FFmpeg的API进行编解码的过程中,直接使用该模块为音视频数据做特效处理是非常方便同时也非常高效的一种方式
• AVDevice:输入输出设备库,比如,需要编译出播放声音或者视频的工具ffplay,就需要确保该模块是打开的,同时也需要SDL的预先编译,因为该设备模块播放声音与播放视频使用的都是SDL库。
• SwrRessample:该模块可用于音频重采样,可以对数字音频进行声道数、数据格式、采样率等多种基本信息的转换。
• SWScale:该模块是将图像进行格式转换的模块,比如,可以将YUV的数据转换为RGB的数据,缩放尺寸由1280720变为800480。
• PostProc:该模块可用于进行后期处理,当我们使用AVFilter的时候需要打开该模块的开关,因为Filter中会使用到该模块的一些基础函数。
◼ avdevice_register_all()对设备进行注册,比如V4L2等。
◼ avformat_network_init();初始化网络库以及网络加密协议相关的库(比如openssl)
◼ avformat_alloc_context();负责申请一个AVFormatContext结构的内存,并进行简单初始化
◼ avformat_free_context();释放该结构里的所有东西以及该结构本身
◼ avformat_close_input();关闭解复用器。关闭后就不再需要使用avformat_free_context 进行释放。
◼ avformat_open_input();打开输入视频文件
◼ avformat_find_stream_info():获取音视频文件信息
◼ av_read_frame(); 读取音视频包
◼ avformat_seek_file(); 定位文件
◼ av_seek_frame():定位文件
• avcodec_alloc_context3(): 分配解码器上下文
• avcodec_find_decoder():根据ID查找解码器
• avcodec_find_decoder_by_name():根据解码器名字
• avcodec_open2(): 打开编解码器
• avcodec_send_packet(): 发送编码数据包
• avcodec_receive_frame(): 接收解码后数据
• avcodec_free_context():释放解码器上下文,包含了
avcodec_close()
• avcodec_close():关闭解码器
AVFormatContext:封装格式数据的上下文结构体,其中保存了封装格式的相关信息,比如具体的封装格式.
AVInputFormat 是具体封装格式的结构体。
AVStream:视频(音频)流结构体
AVCodecContext:编解码器上下文结构体,保存了具体视频(音频)流的编码器相关信息等。
AVCodec:就是具体编码器结构体。
AVPacket:存储压缩编码数据。
AVFrame:存储解码后的数据。
AVFormatContext内部封装了AVInputFormat
AVCodecContext内部封装了AVCodec
具体看下面结构体字段介绍。
区分不同的码流通过不同的索引来区分:
AVFormatContext
• iformat:输入媒体的AVInputFormat,比如指AVInputFormat ff_flv_demuxer
• nb_streams:输入媒体的AVStream 个数
• streams:输入媒体的AVStream []数组
• duration:输入媒体的时长(以微秒为单位),算方式可以参考av_dump_format()函数。
• bit_rate:输入媒体的码率
AVInputFormat
• name:封装格式名称
• extensions:封装格式的扩展名
• id:封装格式ID
• 一些封装格式处理的接口函数,比如read_packet()
AVStream
• index:标识该视频/音频流
• time_base:该流的时基,PTS*time_base=真正的时间(秒)
• avg_frame_rate: 该流的帧率
• duration:该视频/音频流长度
• codecpar:编解码器参数属性
AVCodecParameters
• codec_type:媒体类型,比AVMEDIA_TYPE_VIDEO , AVMEDIA_TYPE_AUDIO等
• codec_id:编解码器类型, 比AV_CODEC_ID_H264 ,AV_CODEC_ID_AAC等。
AVCodecContext
• codec:编解码器的AVCodec,比如指向AVCodec
ff_aac_latm_decoder
• width, height:图像的宽高(只针对视频)
• pix_fmt:像素格式(只针对视频)
• sample_rate:采样率(只针对音频)
• channels:声道数(只针对音频)
• sample_fmt:采样格式(只针对音频)
AVCodec
• name:编解码器名称
• type:编解码器类型
• id:编解码器ID
• 一些编解码的接口函数,比如int (*decode)()
AVPacket
• pts:显示时间戳
• dts:解码时间戳
• data:压缩编码数据
• size:压缩编码数据大小
• pos:数据的偏移地址
• stream_index:所属的AVStream
AVFrame
• data:解码后的图像像素数据(音频采样数据)
• linesize:对视频来说是图像中一行像素的大小;对音频来说是整个音频
帧的大小
• width, height:图像的宽高(只针对视频)
• key_frame:是否为关键帧(只针对视频) 。
• pict_type:帧类型(只针对视频) 。例如I, P, B
• sample_rate:音频采样率(只针对音频)
• nb_samples:音频每通道采样数(只针对音频)
• pts:显示时间戳
本文只是对FFmpeg编程需要了解的知识做了概述,具体使用及分析正在更新中~