学习笔记之视音频数据处理

前言

由于近期项目用到FFmpeg库进行视频解码,涉及到视音频的一些相关知识,遂恶补之。

视频像素数据处理

YUV数据格式

  • YUV数据格式简介
    YUV是被欧洲电视系统所采用的一种颜色编码方法(属于PAL),是PAL和SECAM模拟彩色电视制式采用的颜色空间。在现代彩色电视系统中,通常采用三管彩色摄影机或彩色CCD摄影机进行取像,然后把取得的彩色图像信号经分色、分别放大校正后得到RGB,再经过矩阵变换电路得到亮度信号Y和两个色差信号B-Y(即U)R-Y(即V),最后发送端将亮度和色差三个信号分别进行编码,用同一信道发送出去。这种色彩的表示方法就是所谓的YUV色彩空间表示。采用YUV色彩空间的重要性是它的亮度信号Y和色度信号U、V是分离的。
  • 要点
    1.如果视频帧的宽和高分别为w和h,那么一帧YUV420P像素数据一共占用w*h*3/2 Byte的数据。其中前w*h Byte存储Y,接着的w*h*1/4 Byte存储U,最后w*h*1/4 Byte存储V。
    2.如果视频帧的宽和高分别为w和h,那么一帧YUV444P像素数据一共占用w*h*3 Byte的数据。其中前w*h Byte存储Y,接着的w*h Byte存储U,最后w*h Byte存储V。
    3.如果想把YUV格式像素数据变成灰度图像,只需要将U、V分量设置成128即可。这是因为U、V是图像中的经过偏置处理的色度分量。色度分量在偏置处理前的取值范围是-128至127,这时候的无色对应的是“0”值。经过偏置后色度分量取值变成了0至255,因而此时的无色对应的就是128了。
    4.如果打算将图像的亮度减半,只要将图像的每个像素的Y值取出来分别进行除以2的工作就可以了。图像的每个Y值占用1 Byte,取值范围是0至255,对应c语言中的unsigned char数据类型。
    5.PSNR
    • PSNR简介
      PSNR是“Peak Signal to Noise Ratio”的缩写,即峰值信噪比,是最基本的视频质量评价方法,它具有局限性,一般是用于最大值信号和背景噪音之间的一个工程项目。PSNR取值通常情况下都在20-50的范围内,取值越高,代表两张图像越接近,反映出受损图像质量越好。
    • PSNR计算公式
      对于8bit量化的像素数据来说,PSNR的计算公式如下所示。
      PSNR计算公式

      上述公式中mse的计算公式如下所示。
      MSE计算公式

      其中M,N分别为图像的宽高,xij和yij分别为两张图像的每一个像素值。

RGB数据格式

  • RGB数据格式简介
    RGB色彩模式是工业界的一种颜色标准,是通过对红(R)、绿(G)、蓝(B)三个颜色通道的变化以及它们相互之间的叠加来得到各式各样的颜色的,RGB即是代表红、绿、蓝三个通道的颜色,这个标准几乎包括了人类视力所能感知的所有颜色,是目前运用最广的颜色系统之一。
  • 要点
    1.RGB24格式的每个像素的三个分量是连续存储的。一帧宽高分别为w、h的RGB24图像一共占用w*h*3 Byte的存储空间。RGB24格式规定首先存储第一个像素的R、G、B,然后存储第二个像素的R、G、B…以此类推。类似于YUV420P的存储方式称为Planar方式,而类似于RGB24的存储方式称为Packed方式。
    2.BMP文件是由BITMAPFILEHEADERBITMAPINFOHEADERRGB像素数据共3个部分构成,它的结构如下图所示。
    学习笔记之视音频数据处理_第1张图片
    BMP结构图

    其中前两部分的结构如下所示。
typedef struct tagBITMAPFILEHEADER
{ 
unsigned short int  bfType;       //位图文件的类型,必须为BM 
unsigned long       bfSize;       //文件大小,以字节为单位
unsigned short int  bfReserverd1; //位图文件保留字,必须为0 
unsigned short int  bfReserverd2; //位图文件保留字,必须为0 
unsigned long       bfbfOffBits;  //位图文件头到数据的偏移量,以字节为单位
}BITMAPFILEHEADER; 
typedef struct tagBITMAPINFOHEADER 
{ 
long biSize;                      //该结构大小,字节为单位
long  biWidth;                    //图形宽度以象素为单位
long  biHeight;                   //图形高度以象素为单位
short int  biPlanes;              //目标设备的级别,必须为1 
short int  biBitcount;            //颜色深度,每个象素所需要的位数
short int  biCompression;         //位图的压缩类型
long  biSizeImage;                //位图的大小,以字节为单位
long  biXPelsPermeter;            //位图水平分辨率,每米像素数
long  biYPelsPermeter;            //位图垂直分辨率,每米像素数
long  biClrUsed;                  //位图实际使用的颜色表中的颜色数
long  biClrImportant;             //位图显示过程中重要的颜色数
}BITMAPINFOHEADER;
注意:BMP采用的是**小端(Little Endian)存储方式**。这种存储方式中“RGB24”格式的像素的分量存储的先后顺序为B、G、R。由于RGB24格式存储的顺序是R、G、B,所以需要将“R”和“B”顺序作一个**调换**再进行存储。

音频采样数据处理

PCM编码格式

  • PCM编码格式简介
    PCM脉冲编码调制是Pulse Code Modulation的缩写。脉冲编码调制是数字通信的编码方式之一。主要过程是将话音、图像等模拟信号每隔一定时间进行取样,使其离散化,同时将抽样值按分层单位四舍五入取整量化,同时将抽样值按一组二进制码来表示抽样脉冲的幅值。
  • 要点
    1.PCM16LE双声道数据中左声道和右声道的采样值是间隔存储的。每个采样值占用2Byte空间。(16LE为采样格式。“16”代表采样位数是16bit。由于1Byte=8bit,所以一个声道的一个采样值占用2Byte。“LE”代表Little Endian,代表2 Byte采样值的存储方式为高位存在高地址中。)
    2.PCM16LE格式的采样数据的取值范围是-3276832767,而PCM8格式的采样数据的取值范围是0255。所以PCM16LE转换到PCM8需要经过两个步骤:第一步是将-32768到32767的16bit有符号数值转换为-128到127的8bit有符号数值,第二步是将-128到127的8bit有符号数值转换为0到255的8bit无符号数值。
    3.WAVE文件是一种RIFF格式的文件。其基本块名称是“WAVE”,其中包含了两个子块“fmt”和“data”。从编程的角度简单说来就是由WAVE_HEADERWAVE_FMTWAVE_DATA采样数据共4个部分组成。它的结构如下所示。
    学习笔记之视音频数据处理_第2张图片
    WAVE结构图

    其中前三部分的结构如下所示。
typedef struct WAVE_HEADER{  
    char fccID[4];  
    unsigned long dwSize;  
    char fccType[4];  
}WAVE_HEADER;  
typedef struct WAVE_FMT{  
    char  fccID[4];  
    unsigned long dwSize;  
    unsigned short wFormatTag;  
    unsigned short wChannels;  
    unsigned long dwSamplesPerSec;  
    unsigned long dwAvgBytesPerSec;  
    unsigned short wBlockAlign;  
    unsigned short uiBitsPerSample;  
}WAVE_FMT;  
typedef struct WAVE_DATA{  
    char fccID[4];  
    unsigned long dwSize;  
}WAVE_DATA;  
注意:**WAVE_HEADER**和**WAVE_DATA**中包含了一个文件长度信息的**dwSize**字段,该字段的值必须在写入完音频采样数据之后才能获得。因此这两个结构体最后才写入WAVE文件中。

视音频码流处理

H.264标准

  • H.264标准简介
    H.264,同时也是MPEG-4第十部分,是由ITU-T视频编码专家组(VCEG)和ISO/IEC动态图像专家组(MPEG)联合组成的联合视频组(JVT,Joint Video Team)提出的高度压缩数字视频编解码器标准。这个标准通常被称之为H.264/AVC(或者AVC/H.264或者H.264/MPEG-4 AVC或MPEG-4/H.264 AVC)而明确的说明它两方面的开发者。
    H264标准各主要部分有Access Unit delimiter(访问单元分割符),SEI(附加增强信息),primary coded picture(基本图像编码),Redundant Coded Picture(冗余图像编码)。还有Instantaneous Decoding Refresh(IDR,即时解码刷新)、Hypothetical Reference Decoder(HRD,假想参考解码)、Hypothetical Stream Scheduler(HSS,假想码流调度器)。
    H.264原始码流(又称为“裸流”)是由一个一个的NALU组成的。他们的结构如下图所示。
    NALU结构图

    其中每个NALU之间通过startcode(起始码)进行分隔,起始码分成两种:0x000001(3Byte)或者0x00000001(4Byte)。如果NALU对应的Slice为一帧的开始就用0x00000001,否则就用0x000001。

AAC音频编码技术

  • AAC音频编码技术简介
    AAC,全称Advanced Audio Coding,中文名:高级音频编码,是一种专为声音数据设计的文件压缩格式。其出现于1997年,基于MPEG-2的音频编码技术。2000年,MPEG-4标准出现后,AAC重新集成了其特性,加入了SBR技术和PS技术。AAC是由Fraunhofer IIS、杜比实验室、AT&T、Sony等公司共同开发,目的是取代MP3格式。与MP3不同,它采用了全新的算法进行编码,更加高效,具有更高的“性价比”。利用AAC格式,可使人感觉声音质量没有明显降低的前提下,更加小巧。
    AAC原始码流(又称为“裸流”)是由一个一个的ADTS frame组成的。他们的结构如下图所示。
    ADTS frame结构图

    其中每个ADTS frame之间通过syncword(同步字)进行分隔。同步字为0xFFF(二进制“111111111111”)

封装格式处理

FLV封装格式

  • FLV封装格式简介
    FLV 是FLASH VIDEO的简称,FLV流媒体格式是随着Flash MX的推出发展而来的视频格式。由于它形成的文件极小、加载速度极快,使得网络观看视频文件成为可能,它的出现有效地解决了视频文件导入Flash后,使导出的SWF文件体积庞大,不能在网络上很好的使用等问题。
    FLV封装格式是由一个FLV Header文件头和一个一个的Tag组成的。Tag中包含了音频数据以及视频数据。FLV的结构如下图所示。
    FLV封装格式结构图

网络协议

UDP/RTP协议

  • MPEG2-TS协议简介
    MPEG2-TS(Transport Stream“传输流”;又称TS、TP、MPEG-TS 或 M2T)是用于音效、图像与数据的通信协定,最早应用于DVD的实时传送节目。
  • UDP协议简介
    UDP协议全称是用户数据报协议,在网络中它与TCP协议一样用于处理数据包,是一种无连接的协议。在OSI模型中,在第四层——传输层,处于IP协议的上一层。UDP有不提供数据包分组、组装和不能对数据包进行排序的缺点,也就是说,当报文发送之后,是无法得知其是否安全完整到达的。UDP用来支持那些需要在计算机之间传输数据的网络应用。包括网络视频会议系统在内的众多的客户/服务器模式的网络应用都需要使用UDP协议。UDP协议从问世至今已经被使用了很多年,虽然其最初的光彩已经被一些类似协议所掩盖,但是即使是在今天UDP仍然不失为一项非常实用和可行的网络传输层协议。
  • RTP协议简介
    实时传输协议RTP(Real-time Transport Protocol)是一个网络传输协议,它是由IETF的多媒体传输工作小组1996年在RFC 1889中公布的,后在RFC3550中进行更新。
    RTP协议详细说明了在互联网上传递音频和视频的标准数据包格式。它一开始被设计为一个多播协议,但后来被用在很多单播应用中。RTP协议常用于流媒体系统(配合RTSP协议),视频会议和一键通(Push to Talk)系统(配合H.323或SIP),使它成为IP电话产业的技术基础。RTP协议和RTP控制协议RTCP一起使用,而且它是建立在用户数据报协议上的。RTP广泛应用于流媒体相关的通讯和娱乐,包括电话、视频会议、电视和基于网络的一键通业务(类似对讲机的通话)。
  • 发送流程
    MPEG-TS封装格式数据打包为RTP/UDP协议然后发送出去的流程如下图所示。图中首先每7个MPEG-TS Packet打包为一个RTP,然后每个RTP再打包为一个UDP。其中打包RTP的方法就是在MPEG-TS数据前面加上RTP Header,而打包RTP的方法就是在RTP数据前面加上UDP Header。
    学习笔记之视音频数据处理_第3张图片
    发送流程

参考

  • 视音频数据处理入门:RGB、YUV像素数据处理
  • 视音频数据处理入门:PCM音频采样数据处理
  • 视音频数据处理入门:H.264视频码流解析
  • 视音频数据处理入门:AAC音频码流解析
  • 视音频数据处理入门:FLV封装格式解析
  • 视音频数据处理入门:UDP-RTP协议解析

你可能感兴趣的:(学习笔记之视音频数据处理)