FFmpeg笔记(六)-- 编解码相关类、结构体

AVFormatContext

AVFormatContext是一个描述编解码格式上下文的数据结构。

struct AVInputFormat *iformat;//输入数据的封装格式
AVIOContext *pb;//输入数据的缓存
unsigned int nb_streams;//音频流+视频流的总数
AVStream **streams;//音视频流
char filename[1024];//文件名
int64_t duration;//时长(单位:微秒us,转换为秒需要除以1000000)
int bit_rate;//比特率(单位bps,转换为kbps需要除以1000)
AVDictionary *metadata;//元数据
AVStream

AVStream是存储每一个视频/音频流信息的结构体。
结构体参数来自:这里

int index; //在AVFormatContext中的索引,这个数字是自动生成的,可以通过这个数字从AVFormatContext::streams表中索引到该流。
int id;//流的标识,依赖于具体的容器格式。解码:由libavformat设置。编码:由用户设置,如果未设置则由libavformat替换。
AVCodecContext *codec;//指向该流对应的AVCodecContext结构,调用avformat_open_input时生成。
AVRational time_base;//这是表示帧时间戳的基本时间单位(以秒为单位)。该流中媒体数据的pts和dts都将以这个时间基准为粒度。
int64_t start_time;//流的起始时间,以流的时间基准为单位。如需设置,100%确保你设置它的值真的是第一帧的pts。
int64_t duration;//解码流的持续时间。如果源文件未指定持续时间,但指定了比特率,则将根据比特率和文件大小估计该值。
int64_t nb_frames; //此流中的帧数(如果已知)或0。
enum AVDiscard discard;//选择哪些数据包可以随意丢弃,不需要去demux。
AVRational sample_aspect_ratio;//样本长宽比(如果未知,则为0)。
AVDictionary *metadata;//元数据信息。
AVRational avg_frame_rate;//平均帧速率。解封装:可以在创建流时设置为libavformat,也可以在avformat_find_stream_info()中设置。
//封装:可以由调用者在avformat_write_header()之前设置。
AVPacket attached_pic;//附带的图片。比如说一些MP3,AAC音频文件附带的专辑封面。
int probe_packets;//编解码器用于probe的包的个数。
int codec_info_nb_frames;//在av_find_stream_info()期间已经解封装的帧数。
int request_probe;//流探测状态,1表示探测完成,0表示没有探测请求,rest 执行探测。
int skip_to_keyframe;//表示应丢弃直到下一个关键帧的所有内容。
int skip_samples;//在从下一个数据包解码的帧开始时要跳过的采样数。
int64_t start_skip_samples;//如果不是0,则应该从流的开始跳过的采样的数目。
int64_t first_discard_sample;//如果不是0,则应该从流中丢弃第一个音频样本。

int64_t pts_reorder_error[MAX_REORDER_DELAY+1];
uint8_t pts_reorder_error_count[MAX_REORDER_DELAY+1];//内部数据,从pts生成dts。

int64_t last_dts_for_order_check;
uint8_t dts_ordered;
uint8_t dts_misordered;//内部数据,用于分析dts和检测故障mpeg流。
AVRational display_aspect_ratio;//显示宽高比。
AVIOContext

AVIOContext是FFMPEG管理输入输出数据的结构体。

unsigned char *buffer;//缓存开始位置
int buffer_size;//缓存大小(默认32768)
unsigned char *buf_ptr;//当前指针读取到的位置
unsigned char *buf_end;//缓存结束的位置
void *opaque;//URLContext结构体
AVCodecContext

AVCodecContext是一个描述编解码器上下文的数据结构。
注释来自这里

enum AVMediaType codec_type:编解码器的类型(视频,音频...)
struct AVCodec  *codec:采用的解码器AVCodec(H.264,MPEG2...)
int bit_rate:平均比特率
uint8_t *extradata; int extradata_size:针对特定编码器包含的附加信息(例如对于H.264解码器来说,存储SPS,PPS等)
AVRational time_base:根据该参数,可以把PTS转化为实际的时间(单位为秒s)
int width, height:如果是视频的话,代表宽和高
int refs:运动估计参考帧的个数(H.264的话会有多帧,MPEG2这类的一般就没有了)
int sample_rate:采样率(音频)
int channels:声道数(音频)
enum AVSampleFormat sample_fmt:采样格式
int profile:型(H.264里面就有,其他编码标准应该也有)
int level:级(和profile差不太多)
AVCodec

解码器。结构来自:这里

/**
 * AVCodec.
 * H.264的解码器对象: ff_h264_decoder
 */
typedef struct AVCodec 
{
    // 解码器名字
    const char *name;
    // 解码器完整名
    const char *long_name;
    // 媒体类型
    // AVMEDIA_TYPE_VIDEO
    // AVMEDIA_TYPE_AUDIO
    // AVMEDIA_TYPE_DATA
    enum AVMediaType type;
        // 解码器ID(AV_CODEC_ID_H264)
    enum AVCodecID id;
    // 能力集
    // H264: CODEC_CAP_DR1|CODEC_CAP_DELAY|CODEC_CAP_SLICE_THREADS|CODEC_CAP_FRAME_THREADS
    int capabilities;
    // 支持的帧率(V)
    const AVRational *supported_framerates;
    // 支持的像素格式(V)
    // AV_PIX_FMT_YUV420P
    // AV_PIX_FMT_RGB24
    const enum AVPixelFormat *pix_fmts;
    // 支持的采样率(A)
    const int *supported_samplerates;
    // 支持的采样格式(A)
    const enum AVSampleFormat *sample_fmts;
    // 支持的声道数(A)
    const uint64_t *channel_layouts;
    // (这里的3条感觉就是打补丁打出来的字段)
    // 由解码器支持低分辨率的最大值,不能直接访问,使用av_codec_get_max_lowres()
    uint8_t max_lowres;
    // AVClass针对私有上下文
    const AVClass *priv_class;
    // 公认的配置文件数组,如果未知则为NULL,数组由FF_PROFILE_UNKNOWN表示终止
    const AVProfile *profiles;
    // 私有数据总长度
    int priv_data_size;
    // 下一个链接对象
    struct AVCodec *next;
    
    // 假如被定义了, 那么当他们被创建时则被线程上下文调用。
    // 假如编解码器在调用init()时分配了可写表, 那么在这里重新分配.
    // priv_data将被设置为原件的副本
    int (*init_thread_copy)(AVCodecContext *);
    /**
     * 将必要的上下文变量从上一个线程复制到当前线程的上下文,(跨线程拷贝)。
     * 假如没有被定义, 下一个线程将自动启动; 否则, 编解码器必须调用call ff_thread_finish_setup().
     *
     * 目标和源很少指向相同的上下文, 在这种情况下应该跳过memcpy()的调用。
     */
    int (*update_thread_context)(AVCodecContext *dst, const AVCodecContext *src);
    // 私有的指定的编解码器默认值.
    const AVCodecDefault *defaults;
    // 初始化编解码器的静态数据, 由avcodec_register()来调用.
    void (*init_static_data)(struct AVCodec *codec);
    // 根据AVCodecContext来初始化
    int (*init)(AVCodecContext *);
    int (*encode_sub)(AVCodecContext *, uint8_t *buf, int buf_size, const struct AVSubtitle *sub);
    // 编码数据到AVPacket.
    // @参数 avctx: 编解码上下文
    // @参数 avpkt: 输出的AVPacket,(可能包含上层调用者提供的缓冲区)
    // @参数[in] frame: AVFrame包含了未加工的数据来编码
    // @参数[out] got_packet_ptr: 设置为0或1来表示一个非空的AVPacket返回值avpkt
    // @返回值 0表示成功,其他错误代码表示错误
    int (*encode2)(AVCodecContext *avctx, AVPacket *avpkt, const AVFrame *frame, int *got_packet_ptr);
    // 执行解码,从数据包AVPacket中进行解码转为outdata和outdata_size,提供AVCodecContext来定义编解码上下文信息
    int (*decode)(AVCodecContext *, void *outdata, int *outdata_size, AVPacket *avpkt);
    // 关闭编解码器对象
    int (*close)(AVCodecContext *);
    // 编码+解码的API函数, 用来解耦packet/frame数据流(就是提供自己玩的接口,而不是打包操作). 
    // 这些API和avcodec_ prefixed的API差不多,除了下面这些:
    // - 如果编解码器关闭或者是错误类型,那么就不要使用。
    // - 在调用AVCodec->send_packet()之前,改变了AVPacket参数数据
    // - 假如AV_CODEC_CAP_DELAY没有被设置、漏包或者帧压根没有被发送
    // 发送帧
    int (*send_frame)(AVCodecContext *avctx, const AVFrame *frame);
    // 发送包
    int (*send_packet)(AVCodecContext *avctx, const AVPacket *avpkt);
    // 接受帧
    int (*receive_frame)(AVCodecContext *avctx, AVFrame *frame);
    // 接受包
    int (*receive_packet)(AVCodecContext *avctx, AVPacket *avpkt);
    // 刷新缓冲区
    void (*flush)(AVCodecContext *);
    // 内部的编解码能力.
    // 可以查看FF_CODEC_CAP_*系列宏,在头文件internal.h中
    int caps_internal;
 
}
AVPacket

AVPacket是FFmpeg中很重要的一个数据结构,它保存了解复用(demuxer)之后,解码(decode)之前的数据(仍然是压缩后的数据)和关于这些数据的一些附加的信息,如显示时间戳(pts),解码时间戳(dts),数据时长(duration),所在流媒体的索引(stream_index)等等。详情看这里

pts: (int64_t)显示时间,结合AVStream->time_base转换成时间戳
dts: (int64_t)解码时间,结合AVStream->time_base转换成时间戳
size: (int)data的大小
stream_index: (int)packet在stream的index位置
flags: (int)标示,结合AV_PKT_FLAG使用,其中最低为1表示该数据是一个关键帧。
#define AV_PKT_FLAG_KEY    0x0001 //关键帧
#define AV_PKT_FLAG_CORRUPT 0x0002 //损坏的数据
#define AV_PKT_FLAG_DISCARD  0x0004 /丢弃的数据
side_data_elems: (int)边缘数据元数个数
duration: (int64_t)数据的时长,以所属媒体流的时间基准为单位,未知则值为默认值0
pos: (int64_t )数据在流媒体中的位置,未知则值为默认值-1
convergence_duration:该字段已deprecated,不在使用
关于数据缓存,AVPacket本身只是个容器,不直接的包含数据,而是通过数据缓存的指针引用数据。
uint8_t *data:指向保存压缩数据的指针,这就是AVPacket的实际数据。
AVPacketSideData *side_data:容器提供的一些附加数据
AVBufferRef *buf:用来管理data指针引用的数据缓存,其使用在后面介绍。
AVFrame

AVFrame用来存储解码后的(或原始)音频或视频数据,位于avcodec.h文件中。
AVFrame必须由av_frame_alloc()分配内存,同时必须由av_frame_free()释放。
AVFrame分配内存后能够被多次用来存储不同的数据(例如:decoder解码后的帧)。av_frame_unref释放任何持帧的引用,并结构体还原到未被使用的状态。来自这里
一个AVPacket包含一个视频帧(AVFrame),也可以包含多个音频帧。
一帧音频的数据量 = channel数 * nb_samples样本数 * 每个样本占用的字节数。

uint8_t *   data [AV_NUM_DATA_POINTERS];//解码后原始数据(对视频来说是YUV,RGB,对音频来说是PCM)。
int linesize[AV_NUM_DATA_POINTERS];//在视频中,表示图片一行数据的大小。
uint8_t **extended_data;//指向数据平面/通道。
int width, height;//一个视频帧的宽度和高度。
int nb_samples;//这个AVFrame中的每个音频声道的样本数。
int format;//表示解码后的数据类型或格式,-1表示未被设置或不能识别的类型。
int key_frame;//是否为关键帧,1->关键帧,0->非关键帧。
enum AVPictureType pict_type;//帧的类型。
AVRational sample_aspect_ratio;//视频帧的宽高比,0表示未知。
int64_t pts;//显示时间戳,表示该什么时候被显示。
int64_t pkt_dts;//从AVPacket中拷贝的值。
int coded_picture_number;//编码帧序号。
int display_picture_number;//显示帧需要。
void *opaque;//用户私有信息。
int repeat_pict;//解码时,每帧图片延迟的时间,extra_delay = repeat_pict / (2*fps)。
int interlaced_frame;//是否是隔行扫描
int sample_rate;//音频的采样率。
uint64_t channel_layout;//音频的布局方式。
enum AVColorRange color_range;
enum AVColorPrimaries color_primaries;
enum AVColorTransferCharacteristic color_trc;
enum AVColorSpace colorspace;
enum AVChromaLocation chroma_location;
int64_t best_effort_timestamp;//大多数情况下AVFrame的pts和best_effort_timestamp值是一样的
int64_t pkt_pos;//记录最后一个进入解码器的packet在输入文件中的位置偏移量。
int64_t pkt_duration;//对应packet的时长,单位是AVStream->time_base。
AVDictionary *metadata;
int decode_error_flags;
int channels;//音频通道个数
int pkt_size;//对应packet的大小。
int8_t *qscale_table;
int qstride;
int qscale_type;
AVBufferRef *qp_table_buf;
AVBufferRef *hw_frames_ctx;
AVBufferRef *opaque_ref;
AVSampleFormat

音频数据格式。名称尾有p表示分片,如音频有两个声道,分片左声道存linesize[0],右声道存linesize[1],不分片都存linesize[0],左右左右...的顺序依次存储。

enum AVSampleFormat {
    AV_SAMPLE_FMT_NONE = -1,
    AV_SAMPLE_FMT_U8,          ///< unsigned 8 bits
    AV_SAMPLE_FMT_S16,         ///< signed 16 bits
    AV_SAMPLE_FMT_S32,         ///< signed 32 bits
    AV_SAMPLE_FMT_FLT,         ///< float
    AV_SAMPLE_FMT_DBL,         ///< double

    AV_SAMPLE_FMT_U8P,         ///< unsigned 8 bits, planar
    AV_SAMPLE_FMT_S16P,        ///< signed 16 bits, planar
    AV_SAMPLE_FMT_S32P,        ///< signed 32 bits, planar
    AV_SAMPLE_FMT_FLTP,        ///< float, planar
    AV_SAMPLE_FMT_DBLP,        ///< double, planar

    AV_SAMPLE_FMT_NB           ///< Number of sample formats. DO NOT USE if linking dynamically
};

AVPictureType

视频帧类型。

enum AVPictureType {
    AV_PICTURE_TYPE_NONE = 0, ///< Undefined
    AV_PICTURE_TYPE_I,     ///< Intra
    AV_PICTURE_TYPE_P,     ///< Predicted
    AV_PICTURE_TYPE_B,     ///< Bi-dir predicted
    AV_PICTURE_TYPE_S,     ///< S(GMC)-VOP MPEG-4
    AV_PICTURE_TYPE_SI,    ///< Switching Intra
    AV_PICTURE_TYPE_SP,    ///< Switching Predicted
    AV_PICTURE_TYPE_BI,    ///< BI type
};

你可能感兴趣的:(FFmpeg笔记(六)-- 编解码相关类、结构体)