====== 深入浅出FFMPEG ======
===== 数字媒体处理的基本流程 =====
===== 认识FFMPEG =====

   * FFMPEG项目是由法国人Fabrice Bellard发起的,此人也是著名的CPU模拟器项目QEMU的发起者,同时还是[[http://bellard.org/pi/pi2700e9/announce.html|圆周率算法纪录]]的保持者。
   * FF是Fast Forward的意思,翻译成中文是“快进”。
   * [[http://bits.ohloh.net/attachments/2230/ffmpeg-logo-square_med.png|FFMPEG的LOGO]]是一个"Z字扫描"示意图,Z字扫描用于将图像的二维频域数据一维化,同时保证了一维化的数据具备良好的统计特性,从而提高其后要进行的一维熵编码的效率。

===== 一个简单的测试程序 =====
<code c>
#include <stdio.h>
#include <string.h>
#include <stdlib.h>
#include "libavutil/avstring.h"
#include "libavformat/avformat.h"
#include "libavdevice/avdevice.h"
#include "libavcodec/opt.h"
#include "libswscale/swscale.h"

#define DECODED_AUDIO_BUFFER_SIZE                       192000

struct options
       int streamId;
       int frames;
       int nodec;
       int64_t lstart;
       char finput[256];
       char foutput1[256];
       char foutput2[256];
int parse_options(struct options *opts, int argc, char** argv)
       int optidx;
       char *optstr;

       if (argc < 2) return -1;

       opts->streamId = -1;
       opts->lstart = -1;
       opts->frames = -1;
       opts->foutput1[0] = 0;
       opts->foutput2[0] = 0;
       opts->nodec = 0;
       strcpy(opts->finput, argv[1]);

       optidx = 2;
       while (optidx < argc)
               optstr = argv[optidx++];
               if (*optstr++ != '-') return -1;
               switch (*optstr++)
               case 's':   //< stream id
                       opts->streamId = atoi(optstr);
               case 'f':   //< frames
                       opts->frames = atoi(optstr);
               case 'k':   //< skipped
                       opts->lstart = atoll(optstr);
               case 'o':   //< output
                       strcpy(opts->foutput1, optstr);
                       strcat(opts->foutput1, ".mpg");
                       strcpy(opts->foutput2, optstr);
                       strcat(opts->foutput2, ".raw");
               case 'n': //decoding and output options
                       if (strcmp("dec", optstr) == 0)
                               opts->nodec = 1;
                       return -1;
       return 0;

void show_help(char* program)
       printf("Simple FFMPEG test program\n");
       printf("Usage: %s inputfile [-sstreamid [-fframes] [-kskipped] [-ooutput_filename(without extension)]]\n", program);
static void log_callback(void* ptr, int level, const char* fmt, va_list vl)
       vfprintf(stdout, fmt, vl);

#include <sys/ioctl.h>
#include <unistd.h>
#include <fcntl.h>
#include <sys/soundcard.h>

#define OSS_DEVICE "/dev/dsp0"

struct audio_dsp
       int audio_fd;
       int channels;
       int format;
       int speed;
int map_formats(enum SampleFormat format)
               case SAMPLE_FMT_U8:
                       return AFMT_U8;
               case SAMPLE_FMT_S16:
                       return AFMT_S16_LE;
                       return AFMT_U8;
int set_audio(struct audio_dsp* dsp)
       if (dsp->audio_fd == -1)
               printf("Invalid audio dsp id!\n");
               return -1;

       if (-1 == ioctl(dsp->audio_fd, SNDCTL_DSP_SETFMT, &dsp->format))
               printf("Failed to set dsp format!\n");
               return -1;
       if (-1 == ioctl(dsp->audio_fd, SNDCTL_DSP_CHANNELS, &dsp->channels))
               printf("Failed to set dsp format!\n");
               return -1;

       if (-1 == ioctl(dsp->audio_fd, SNDCTL_DSP_SPEED, &dsp->speed))
               printf("Failed to set dsp format!\n");
               return -1;
       return 0;

int play_pcm(struct audio_dsp* dsp, unsigned char *buf, int size)
       if (dsp->audio_fd == -1)
               printf("Invalid audio dsp id!\n");
               return -1;

       if (-1 == write(dsp->audio_fd, buf, size))
               printf("Failed to write audio dsp!\n");
               return -1;
       return 0;

#include <linux/fb.h>
#include <sys/mman.h>

#define FB_DEVICE "/dev/fb0"

enum pic_format
struct video_fb
       int video_fd;
       struct fb_var_screeninfo vinfo;
       struct fb_fix_screeninfo finfo;
       unsigned char *fbp;
       AVFrame *frameRGB;
               int x;
               int y;
       } video_pos;

int open_video(struct video_fb *fb, int x, int y)
       int screensize;
       fb->video_fd = open(FB_DEVICE, O_WRONLY);
       if (fb->video_fd == -1) return -1;

       if (ioctl(fb->video_fd, FBIOGET_FSCREENINFO, &fb->finfo)) return -2;
       if (ioctl(fb->video_fd, FBIOGET_VSCREENINFO, &fb->finfo)) return -2;

       printf("video device: resolution %dx%d, �pp\n", fb->vinfo.xres, fb->vinfo.yres, fb->vinfo.bits_per_pixel);
       screensize = fb->vinfo.xres * fb->vinfo.yres * fb->vinfo.bits_per_pixel / 8;
       fb->fbp = (unsigned char *) mmap(0, screensize, PROT_READ|PROT_WRITE, MAP_SHARED, fb->video_fd, 0);
       if (fb->fbp == -1) return -3;

       if (x >= fb->vinfo.xres || y >= fb->vinfo.yres)
               return -4;
               fb->video_pos.x = x;
               fb->video_pos.y = y;

       fb->frameRGB = avcodec_alloc_frame();
       if (!fb->frameRGB) return -5;
       return 0;

int show_picture(struct video_fb *fb, AVFrame *frame, int width, int height, enum pic_format format)
       struct SwsContext *sws;
       int i;
       unsigned char *dest;
       unsigned char *src;

       if (fb->video_fd == -1) return -1;
       if ((fb->video_pos.x >= fb->vinfo.xres) || (fb->video_pos.y >= fb->vinfo.yres)) return -2;

       if (fb->video_pos.x + width > fb->vinfo.xres)
               width = fb->vinfo.xres - fb->video_pos.x;
       if (fb->video_pos.y + height > fb->vinfo.yres)
               height = fb->vinfo.yres - fb->video_pos.y;

       if (format == PIX_FMT_YUV420P)
               sws = sws_getContext(width, height, format, width, height, PIX_FMT_RGB32, SWS_FAST_BILINEAR, NULL, NULL, NULL);
               if (sws == 0)
                       return -3;
               if (sws_scale(sws, frame->data, frame->linesize, 0, height, fb->frameRGB->data, fb->frameRGB->linesize))
                       return -3;

               dest = fb->fbp + (fb->video_pos.x+fb->vinfo.xoffset) * (fb->vinfo.bits_per_pixel/8) +(fb->video_pos.y+fb->vinfo.yoffset) * fb->finfo.line_length;
               for (i = 0; i < height; i++)
                       memcpy(dest, src, width*4);
                       src += fb->frameRGB->linesize[0];
                       dest += fb->finfo.line_length;
       return 0;

void close_video(struct video_fb *fb)
       if (fb->video_fd != -1)
               munmap(fb->fbp, fb->vinfo.xres * fb->vinfo.yres * fb->vinfo.bits_per_pixel / 8);
               fb->video_fd = -1;

int main(int argc, char **argv)
       AVFormatContext* pCtx = 0;
       AVCodecContext *pCodecCtx = 0;
       AVCodec *pCodec = 0;
       AVPacket packet;
       AVFrame *pFrame = 0;
       FILE *fpo1 = NULL;
       FILE *fpo2 = NULL;
       int nframe;
       int err;
       int got_picture;
       int picwidth, picheight, linesize;
       unsigned char *pBuf;
       int16_t *pSndBuf = NULL;      
       int i;
       int64_t timestamp;
       struct options opt;
       int usefo = 0;
       struct audio_dsp dsp;
       if (parse_options(&opt, argc, argv) < 0 || (strlen(opt.finput) == 0))
               return 0;

       err = av_open_input_file(&pCtx, opt.finput, 0, 0, 0);
       if (err < 0)
               printf("\n->(av_open_input_file)\tERROR:\t%d\n", err);
               goto fail;
       err = av_find_stream_info(pCtx);
       if (err < 0)
               printf("\n->(av_find_stream_info)\tERROR:\t%d\n", err);
               goto fail;
       if (opt.streamId < 0)
               dump_format(pCtx, 0, pCtx->filename, 0);
               goto fail;
       if (strlen(opt.foutput1) && strlen(opt.foutput2))
               fpo1 = fopen(opt.foutput1, "wb");
               fpo2 = fopen(opt.foutput2, "wb");
               if (!fpo1 || !fpo2)
                       printf("\n->error opening output files\n");
                       goto fail;
               usefo = 1;
               usefo = 0;
       if (opt.streamId >= pCtx->nb_streams)
               goto fail;
       if (opt.lstart > 0)
               err = av_seek_frame(pCtx, opt.streamId, opt.lstart, AVSEEK_FLAG_ANY);
               if (err < 0)
                       printf("\n->(av_seek_frame)\tERROR:\t%d\n", err);
                       goto fail;
       pCodecCtx = pCtx->streams[opt.streamId]->codec;
       pCodec = avcodec_find_decoder(pCodecCtx->codec_id);
       if (!pCodec)
               printf("\n->can not find codec!\n");
               goto fail;
       err = avcodec_open(pCodecCtx, pCodec);
       if (err < 0)
               printf("\n->(avcodec_open)\tERROR:\t%d\n", err);
               goto fail;
       pSndBuf = (int16_t *) malloc(DECODED_AUDIO_BUFFER_SIZE);
       if (!pSndBuf)
               printf("\n->no memory\n");
               goto fail;
       pFrame = avcodec_alloc_frame();              

       if (!opt.nodec)
               dsp.audio_fd = open(OSS_DEVICE, O_WRONLY);
               if (dsp.audio_fd == -1)
                       printf("\n-> can not open audio device\n");
                       goto fail;
               dsp.channels = pCodecCtx->channels;
               dsp.speed = pCodecCtx->sample_rate;
               dsp.format = map_formats(pCodecCtx->sample_fmt);
               if (set_audio(&dsp) < 0)
                       printf("\n-> can not set audio device\n");
                       goto fail;
       nframe = 0;
       while(nframe < opt.frames || opt.frames == -1)
               err = av_read_frame(pCtx, &packet);
               if (err < 0)
                       printf("\n->(av_read_frame)\tERROR:\t%d\n", err);
               timestamp = av_rescale_q(packet.dts, pCtx->streams[packet.stream_index]->time_base, (AVRational){1, AV_TIME_BASE});
               printf("\nFrame No ] stream#%d\tsize mB, timestamp:%6lld, dts:%6lld, pts:%6lld, ", nframe++, packet.stream_index, packet.size,
                             timestamp, packet.dts, packet.pts);

               if (packet.stream_index == opt.streamId)
#if 0
                       for (i = 0; i < packet.size; i++)
                               if (i == 0) printf("\n pktdata: ");
                               printf("%2x   ", packet.data[i]);
                       if (usefo)
                               fwrite(packet.data, packet.size, 1, fpo1);
                       if (pCtx->streams[opt.streamId]->codec->codec_type == CODEC_TYPE_VIDEO && !opt.nodec)
                               picheight = pCtx->streams[opt.streamId]->codec->height;
                               picwidth = pCtx->streams[opt.streamId]->codec->width;
                               avcodec_decode_video2(pCodecCtx, pFrame, &got_picture, &packet);
                               if (got_picture)
                                       printf("[Video: type %d]", pFrame->pict_type);
                                       if (pCtx->streams[opt.streamId]->codec->pix_fmt == PIX_FMT_YUV420P && usefo)
                                               linesize = pFrame->linesize[0];
                                               pBuf = pFrame->data[0];
                                               for (i = 0; i < picheight; i++)
                                                       fwrite(pBuf, picwidth, 1, fpo2);
                                                       pBuf += linesize;
                                               linesize = pFrame->linesize[1];
                                               pBuf = pFrame->data[1];
                                               for (i = 0; i < picheight/2; i++)
                                                       fwrite(pBuf, picwidth/2, 1, fpo2);
                                                       pBuf += linesize;
                                               linesize = pFrame->linesize[2];
                                               pBuf = pFrame->data[2];
                                               for (i = 0; i < picheight/2; i++)
                                                       fwrite(pBuf, picwidth/2, 1, fpo2);
                                                       pBuf += linesize;
                       else if (pCtx->streams[opt.streamId]->codec->codec_type == CODEC_TYPE_AUDIO && !opt.nodec)
                               int size = DECODED_AUDIO_BUFFER_SIZE;
                               avcodec_decode_audio3(pCodecCtx, pSndBuf, &size, &packet);
                               printf("[Audio: ] Samples]", size);
                               if (usefo)
                                       fwrite(pSndBuf, size/2, 1, fpo2);
                                       play_pcm(&dsp, pSndBuf, size);

       if (pSndBuf)
       if (pCtx)
       if (fpo1)
       if (fpo2)
       if (!pFrame)
       if (!usefo && (dsp.audio_fd != -1))
       return 0;
   * 打开一个多媒体文件并获取基本的媒体信息。
   * 获取编码器句柄。
   * 根据给定的时间标签进行一个跳转。
   * 读取数据帧。
   * 解码音频帧或者视频帧。
   * 关闭多媒体文件。

===== 用户接口 =====
==== 数据结构====
=== 基本概念 ===

   * 容器/文件(Conainer/File):即特定格式的多媒体文件。
   * 媒体流(Stream):指时间轴上的一段连续数据,如一段声音数据,一段视频数据或一段字幕数据,可以是压缩的,也可以是非压缩的,压缩的数据需要关联特定的编解码器。
   * 数据帧/数据包(Frame/Packet):通常,一个媒体流由大量的数据帧组成,对于压缩数据,帧对应着编解码器的最小处理单元。通常,分属于不同媒体流的数据帧交错复用于容器之中,参见[[tech:multimedia:interleave|交错]]。
   * 编解码器:编解码器以帧为单位实现压缩数据和原始数据之间的相互转换。

=== AVPacket ===
<code c>
typedef struct AVPacket {
       int64_t pts;
       int64_t dts;
       uint8_t *data;
       int     size;
       int     stream_index;
       int     flags;
       int     duration;
       void   (*destruct)(struct AVPacket *);
       void   *priv;
       int64_t pos;                                                       ///< byte position in stream, -1 if unknown

       int64_t convergence_duration;
} AVPacket;
   * dts表示解码时间戳,pts表示显示时间戳,它们的单位是所属媒体流的时间基准。
   * stream_index给出所属媒体流的编号;
   * data为数据缓冲区指针,size为长度;
   * duration为数据的时长,也是以所属媒体流的时间基准为单位;
   * pos表示该数据在媒体流中的字节偏移量;
   * destruct为用于释放数据缓冲区的函数指针;
   * flags为标志域,其中,最低为置1表示该数据是一个关键帧。

=== 时间信息 ===


对于固定速率的媒体,如固定帧率的视频或固定比特率的音频,可以将时间信息(帧率或比特率)置于文件首部(header),如[[tech:multimedia:digital_media#容器|AVI的hdrl List、MP4的moov box]],还有一种相对复杂的方案是将时间信息嵌入媒体流的内部,如MPEG TS和Real video,这种方案可以处理变速率的媒体,亦可有效避免同步过程中的时间漂移。

FFMPEG会为每一个数据包打上时间标签,以更有效地支持上层应用的同步机制。时间标签有两种,一种是DTS,称为解码时间标签,另一种是PTS,称为显示时间标签。对于声音来说 ,这两个时间标签是相同的,但对于某些视频编码格式,由于采用了双向预测技术,会造成DTS和PTS的不一致。

   图像类型: I     P     P     P     P     P     P ...   I     P     P
   DTS:         0     1     2     3     4     5     6...   100 101 102
   PTS:         0     1     2     3     4     5     6...   100 101 102
   图像类型: I     P     B     B     P     B     B ...   I     P     B
   DTS:         0     1     2     3     4     5     6 ...   100 101 102
   PTS:         0     3     1     2     6     4     5 ...   100 104 102
   解码器输入:I     P     B     B     P     B     B
     (DTS)         0     1     2     3     4     5     6  
     (PTS)         0     3     1     2     6     4     5
   解码器输出:X     I     B     B     P     B 
