关于FFmpeg
FFmpeg 是一套可以用来记录、转换数字音频、视频,并能将其转化为流的开源计算机程序。采用 LGPL 或 GPL 许可证。它提供了录制、转换以及流化音视频的完整解决方案。它包含了非常先进的 音频/视频编解码库 libavcodec,为了保证高可移植性和编解码质量, libavcodec 里很多 code 都是 从头开发的。libavformat,用于各种音视频封装格式的生成和解析。libavfilter,音视频滤波器的开发,例如水印。libpostproc,用于后期效果处理。
结构体一 AVPacket
AVPacket是FFmpeg中很重要的一个数据结构,它保存了解复用(demuxer)之后,解码 (decode)之前的数据(仍然是压缩后的数据)和关于这些数据的一些附加的信息,如显示时间 戳(pts),解码时间戳(dts),数据时长(duration),所在流媒体的索引(stream_index)等 等。
typedef struct AVPacket {
AVBufferRef *buf;//用来管理data指针引用的数据缓存
int64_t pts;//显示时间,AVStream->time_base转换成时间戳
int64_t dts;//解码时间,
uint8_t *data;
int size;//data的大小
int stream_index;packet在stream的index位置
int flags;//
AVPacketSideData *side_data;//容器提供的一些附加数据
int side_data_elems;//边缘数据元数个数
int64_t duration;////数据的时长
int64_t pos;//数据在流媒体中的位置
#if FF_API_CONVERGENCE_DURATION
attribute_deprecated
int64_t convergence_duration;//不再使用
}AVPacket;
结构体二 AVFrame
AVFrame中存储的是经过解码后的原始数据。在解码中,AVFrame是解码器的输出;在编码 中,AVFrame是编码器的输入。
typedef struct AVFrame {
uint8_t *data[AV_NUM_DATA_POINTERS];//存储原始帧数据(未编码的原始图像或音频格式,作为解码器的输出或编码器的输入)
/**
对于视频来说,linesize是每行图像的大小(字节数)。注意有对齐要求。
对于音频来说,linesize是每个plane的大小(字节数)。音频只使用linesize[0]。对于planar音频来 说,每个plane的大小必须一样。
**/
int linesize[AV_NUM_DATA_POINTERS];
uint8_t **extended_data;//对于视频来说,直接指向data[]成员。
int width, height;//视频帧宽和高(像素)。
int nb_samples;//音频帧中单个声道中包含的采样点数。
int format;//帧格式。如果是未知格式或未设置,则值为-1。
对于视频帧,此值对应于“enum AVPixelFormat”结构
int key_frame;//视频帧是否是关键帧的标识,1->关键帧,0->非关键帧
enum AVPictureType pict_type;//视频帧类型(I、B、P等)
AVRational sample_aspect_ratio;//视频帧的宽高比。
int64_t pts;//显示时间戳。单位是time_base
......
} AVFrame;
结构体三AVFormatContext
在使用 FFmpeg 进行开发的时候,AVFormatContext 是一个贯穿始终的数据结构,很多函数 都要用到它作为参数。它是 FFmpeg 解封装(flv,mp4,rmvb,avi)功能的结构体,即媒体文件的构成和基本信息上下文。
struct AVInputFormat *iformat; //输入数据的封装格式
AVIOContext *pb; //输入数据的缓存
unsigned int nb_streams; //视音频流的个数
AVStream **streams; //视音频流
char filename[1024]; //文件名
int64_t duration; //时长(单位:微秒ms,转换为秒需要除以1_000_000)
AVDictionary *metadata; //元数据
结构体四AVCodecContext
解码信息上下文
enum AVMediaType codec_type; //编解码器的类型(视频,音频...)
struct AVCodec *codec; //采用的解码器AVCodec(H.264,MPEG2...)
AVRational time_base; //根据该参数,可以把PTS转化为实际的时间
int width, height; //如果是视频的话,代表宽和高
int sample_rate; //采样率(音频)
int channels; //声道数(音频)
enum AVSampleFormat sample_fmt; //采样格式
联系
参考:https://blog.csdn.net/leixiaohua1020/article/details/11693997
解封装(flv,avi,rmvb,mp4)
AVFormatContext主要存储视音频封装格式中包含的信息;AVInputFormat存储输入视音频使用的封装格式。每种视音频封装格式都对应一个AVInputFormat 结构。
解码(h264,mpeg2,aac,mp3)
每个AVStream存储一个视频/音频流的相关数据;每个AVStream对应一个AVCodecContext,存储该视频/音频流使用解码方式的相关数据;每个AVCodecContext中对应一个AVCodec,包含该视频/音频对应的解码器。每种解码器都对应一个AVCodec结构。
存数据
视频的话,每个结构一般是存一帧;音频可能有好几帧
解码前数据:AVPacket
解码后数据:AVFrame