极客雨露

FFmpeg学习之一（音视频理论知识）

1. 音视频理论知识

1.1 基本概念

1.1.1 音视频必备的基本概念

常用的视频封装格式
常用的视频编码器
常用的音频编程器：
视频流裸数据YUV

1.1.2 音视频常见处理

采集
处理
编码
传输
解码
渲染
常用音频编码格式
常用视频编码格式
常用编解码算法
视频音频同步算法
录像
音频播放
视频播放

1.2 直播

1.2.1 推流
1.2.1.1 推流常用协议简介
1.2.2 拉流

1.3. FFmpeg简介

1. 音视频理论知识

1.1 基本概念

FFmpeg官方文档

1.1.1 音视频必备的基本概念

常用的视频封装格式

1）AVI 格式(后缀为 .avi)
2）DV-AVI 格式(后缀为 .avi)
3）QuickTime File Format 格式(后缀为 .mov)
4）MPEG 格式(文件后缀可以是 .mpg .mpeg .mpe .dat .vob .asf .3gp .mp4等)
5）WMV 格式(后缀为.wmv .asf)
6）Real Video 格式(后缀为 .rm .rmvb)
7）Flash Video 格式(后缀为 .flv)
8）Matroska 格式(后缀为 .mkv)
9）MPEG2-TS 格式 (后缀为 .ts)

常用的视频编码器

1）H.264/AVC
2）HEVC/H.265
3）VP8
4）VP9
5）FFmpeg

FFmpeg 是一个开源框架，可以运行音频和视频多种格式的录影、转换、流功能，包含了 libavcodec: 这是一个用于多个项目中音频和视频的解码器库，以及 libavformat 一个音频与视频格式转换库。
目前支持 Linux ,Mac OS,Windows 三个主流的平台，也可以自己编译到 Android 或者 iOS 平台。
如果是 Mac OS ，可以通过 brew 安装 brew install ffmpeg --with-libvpx --with-libvorbis --with-ffplay

常用的音频编程器：

Mp3
AAC

视频流裸数据YUV

YUV简介
YUV虽说是视频帧的裸数据，YUV数据是不能直接用于渲染，还是要转换为RGB的形式才可以渲染，YUV主要应用于优化彩色视频信号的传输。YUV应该是RGB存储形式和编码存储的一种折衷吧。YUV比RGB省空间，有没有编码后数据那么耗内存去解码，只要简单作个转换就可以变成RGB信号。
YUV视频渲染方式
一个图像最终要变成RGB的表现方式才可以渲染到显示屏上。而一个RGB形式的图片是超级耗空间，所以编程时注意bitmap对象的回收。我们可以通过yuv转化为RGB图片显示，但这种方式非常消耗CPU性能。一般都通过opengl文理利用GPU直接渲染，这样对CPU的消耗就会少很多。
具体YUV怎么通过openGL渲染请参考我的另一篇博客：
FFmpeg学习之二（yuv视频渲染）
RGB 和 YUV的区别

RGB
我们先来看一下RGB的定义：
RGB是红绿蓝三原色的意思，R=Red、G=Green、B=Blue。
计算机显示彩色图像的时，最终显示的时候，要控制一个像素中Red,Green,Blue的值，来确定这个像素的颜色。计算机中无法模拟连续的存储从最暗到最亮的量值，而只能以数字的方式表示。于是，结合人眼睛的敏感程度，使用3个字节（3*8位）来分别表示一个像素里面的Red,Green和Blue的发光强度数值，这就是常见的RGB格式。我们可以打开画图板，在自定义颜色工具框中，输入r,g,b值，得到不同的颜色。
但是对于视频捕获和编解码等应用来讲，这样的表示方式数据量太大了。需要想办法在不太影响感觉的情况下，对原始数据的表示方法进行更改，减少数据量。
无论中间处理过程怎样，最终都是为了展示给人观看，这样的更改，也是从人眼睛的特性出发，和发明RGB三原色表示方法的出发点是一样的。
于是我们使用Y,Cb,Cr模型来表示颜色。Iain的书中写道：The human visual system (HVS) is less sensitive to colour than to luminance (brightness).人类视觉系统（其实就是人的眼睛）对亮度的感觉比对颜色更加敏感。
在RGB色彩空间中，三个颜色的重要程度相同，所以需要使用相同的分辨率进行存储，最多使用RGB565这样的形式减少量化的精度，但是3个颜色需要按照相同的分辨率进行存储，数据量还是很大的。所以，利用人眼睛对亮度比对颜色更加敏感，将图像的亮度信息和颜色信息分离，并使用不同的分辨率进行存储，这样可以在对主观感觉影响很小的前提下，更加有效的存储图像数据。
YUV
YCbCr色彩空间和它的变形（有时被称为YUV）是最常用的有效的表示彩色图像的方法。Y是图像的亮度（luminance/luma）分量，使用以下公式计算，为R,G,B分量的加权平均值：

 Y = kr R + kgG + kbB
        其中k是权重因数。
        上面的公式计算出了亮度信息，还有颜色信息，使用色差（color difference/chrominance或chroma）来表示，其中每个色差分量为R,G,B值和亮度Y的差值：
　　Cb = B －Y
　　Cr = R －Y
        Cg = G－ Y
        其中，Cb+Cr+Cg是一个常数（其实是一个关于Y的表达式），所以，只需要其中两个数值结合Y值就能够计算出原来的RGB值。所以，我们仅保存亮度和蓝色、红色的色差值，这就是(Y,Cb,Cr)。
相比RGB色彩空间，YCbCr色彩空间有一个显著的优点。Y的存储可以采用和原来画面一样的分辨率，但是Cb,Cr的存储可以使用更低的分辨率。这样可以占用更少的数据量，并且在图像质量上没有明显的下降。所以，将色彩信息以低于量度信息的分辨率来保存是一个简单有效的图像压缩方法。
在COLOUR SPACES .17 ITU-R recommendation BT.601 中，建议在计算Y时，权重选择为kr=0.299,kg=0.587,kb=0.114。于是常用的转换公式如下：
Y = 0.299R + 0.587G + 0.114B
Cb = 0.564(B － Y )
Cr = 0.713(R － Y )
R = Y + 1.402Cr
G = Y - 0.344Cb - 0.714Cr
B = Y + 1.772Cb

有了上面这个公式，我们就能够将一幅RGB画面转换成为YUV画面了，反过来也可以。

下面将画面数据究竟是以什么形式存储起来的。

在RGB24格式中，对于宽度为w,高度为h的画面，需要wh3个字节来存储其每个像素的rgb信息，画面的像素数据是连续排列的。按照r(0,0),g(0,0),b(0,0);r(0,1),g(0,1),b(0,1);…;r(w-1,0),g(w-1,0),b(w-1,0);…;r(w-1,h-1),g(w-1,h-1),b(w-1,h-1)这样的顺序存放起来。
在YUV格式中，以YUV420格式为例。宽度为w高度为h的画面，其亮度Y数据需要wh个字节来表示（每个像素点一个亮度）。而Cb和Cr数据则是画面中4个像素共享一个Cb,Cr值。这样Cb用wh/4个字节，Cr用wh/4个字节。
YUV文件中，把多个帧的画面连续存放。就是YUV YUV YUV……这样的不断连续的形式，而其中每个YUV，就是一幅画面。
在这单个YUV中，前wh个字节是Y数据，接着的wh/4个字节是Cb数据，再接着的wh/4个字节为Cr数据。
在由这样降低了分辨率的数据还原出RGB数据的时候，就要依据像素的位置找到它对应的Y,Cb,Cr值，其中Y值最好找到，像素位置为x,y的话，Y数据中第ywidth+x个数值就是它的Y值。Cb和Cr由于是每2x2像素的画面块拥有一个，这样Cb和Cr数据相当于两个分辨率为w/2 * h/2的画面，那么原来画面中的位置为x,y的像素，在这样的低分辨率画面中的位置是x/2,y/2，属于它的Cb,Cr值就在这个地方：(y/2)(width/2)+(x/2)。
为了直观起见，再下面的图中，分别将Y画面(Cb,Cr=0)和Cb,Cr画面(Y=128)显示出来，可见Cb,Cr画面的分辨率是Y画面的1/4。但是合成一个画面之后，我们的眼睛丝毫感觉不到4个像素是共用一个Cb,Cr的。

Cb,Cr画面

将Cb,Cr画面放大观察，里面颜色相同的块都是2x2大小的。
附件为Windows Mobile上使用公式进行YUV到RGB转换的程序。其中需要注意的是Cb,Cr在计算过程中是会出现负数的，但是从-128到127这些数值都用一个字节表示，读取的时候就映射0到255这个区间，成为了无符号的值，所以要减去128，才能参与公式计算。这样的运算有浮点运算，效率是比较低的，所以要提高效率的话，一般在实用程序中使用整数计算或者查表法来代替。还有，运算后的r,g,b可能会超过0-255的区间，作一个判断进行调整就可以了。

什么是YUV/YCbCr/YPbPr？

亮度信号经常被称作Y，色度信号是由两个互相独立的信号组成。视颜色系统和格式不同，两种色度信号经常被称作U和V或Pb和Pr或Cb和Cr。这些都是由不同的编码格式所产生的，但是实际上，他们的概念基本相同。在DVD中，色度信号被存储成Cb和Cr（C代表颜色，b代表蓝色，r代表红色）

yuv中什么是4:4:4、4:2:2、4:2:0？

在最近十年中，视频工程师发现人眼对色度的敏感程度要低于对亮度的敏感程度。在生理学中，有一条规律，那就是人类视网膜上的视网膜杆细胞要多于视网膜锥细胞，说得通俗一些，视网膜杆细胞的作用就是识别亮度，而视网膜锥细胞的作用就是识别色度。所以，你的眼睛对于亮和暗的分辨要比对颜色的分辨精细一些。正是因为这个，在我们的视频存储中，没有必要存储全部颜色信号。既然眼睛看不见，那为什么要浪费存储空间（或者说是金钱）来存储它们呢？
像Beta或VHS之类的消费用录像带就得益于将录像带上的更多带宽留给黑—白信号（被称作“亮度”），将稍少的带宽留给彩色信号（被称作“色度”）。
在MPEG2（也就是DVD使用的压缩格式）当中，Y、Cb、Cr信号是分开储存的（这就是为什么分量视频传输需要三条电缆）。其中Y信号是黑白信号，是以全分辨率存储的。但是，由于人眼对于彩色信息的敏感度较低，色度信号并不是用全分辨率存储的。
色度信号分辨率最高的格式是4:4:4，也就是说，每4点Y采样，就有相对应的4点Cb和4点Cr。换句话说，在这种格式中，色度信号的分辨率和亮度信号的分辨率是相同的。这种格式主要应用在视频处理设备内部，避免画面质量在处理过程中降低。当图像被存储到Master Tape，比如D1或者D5，的时候，颜色信号通常被削减为4:2:2。
其次就是4:2:2，就是说，每4点Y采样，就有2点Cb和2点Cr。在这种格式中，色度信号的扫描线数量和亮度信号一样多，但是每条扫描线上的色度采样点数却只有亮度信号的一半。当4:2:2信号被解码的时候，“缺失”的色度采样，通常由一定的内插补点算法通过它两侧的色度信息运算补充。
看 4:2:2格式亮度、色度采样的分布情况。在这里，每个象素都有与之对应的亮度采样，同时一半的色度采样被丢弃，所以我们看到，色度采样信号每隔一个采样点才有一个。当着张画面显示的时候，缺少的色度信息会由两侧的颜色通过内插补点的方式运算得到。就像上面提到的那样，人眼对色度的敏感程度不如亮度，大多数人并不能分辨出4:2:2和4:4:4颜色构成的画面之间的不同。
色度信号分辨率最低的格式，也就是DVD所使用的格式，就是4:2:0了。事实上4:2:0是一个混乱的称呼，按照字面上理解，4:2:0应该是每4点Y采样，就有2点Cb和0点Cr，但事实上完全不是这样。事实上，4:2:0的意思是，色度采样在每条横向扫描线上只有亮度采样的一半，扫描线的条数上，也只有亮度的一半！换句话说，无论是横向还是纵向，色度信号的分辨率都只有亮度信号的一半。举个例子，如果整张画面的尺寸是720480，那么亮度信号是720480，色度信号只有360*240。在 4:2:0中，“缺失”的色度采样不单单要由左右相邻的采样通过内插补点计算补充，整行的色度采样也要通过它上下两行的色度采样通过内插补点运算获得。这样做的原因是为了最经济有效地利用DVD的存储空间。诚然，4:4:4的效果很棒，但是如果要用4:4:4存储一部电影，我们的DVD盘的直径至少要有两英尺（六十多厘米）！
概念上4:2:0颜色格式非交错画面中亮度、色度采样信号的排列情况。同4:2:2格式一样，每条扫描线中，只有一半的色度采样信息。与4:2:2不同的是，不光是横向的色度信息被“扔掉”了一半，纵向的色度信息也被“扔掉”了一半，整个屏幕中色度采样只有亮度采样的四分之一。请注意，在4:2:0颜色格式中，色度采样被放在了两条扫描线中间。

什么是YV12，什么是YUY2？

YUV 格式通常有两大类：打包（ packed ）格式和平面（ planar ）格式。前者将 YUV 分量存放在同一个数组中，通常是几个相邻的像素组成一个宏像素（ macro-pixel ）；而后者使用三个数组分开存放 YUV 三个分量，就像是一个三维平面一样。表 2.3 中的 YUY2 到 Y211 都是打包格式，而 IF09 到 YVU9 都是平面格式。（注意：在介绍各种具体格式时，
YUV 各分量都会带有下标，如 Y0 、 U0 、 V0 表示第一个像素的YUV 分量， Y1 、 U1 、 V1 表示第二个像素的 YUV 分量，以此类推。） YUY2 （和 YUYV ）格式为每个像素保留 Y 分量，而 UV 分量在水平方向上每两个像素采样一次。一个宏像素为 4 个字节，实际表示 2 个像素。（ 4:2:2 的意思为一个宏像素中有 4 个 Y 分量、 2 个 U 分量和 2个 V 分量。）图像数据中 YUV 分量排列顺序如下：
Y0 U0 Y1 V0 Y2 U2 Y3 V2 …

YVYU 格式跟 YUY2 类似，只是图像数据中 YUV 分量的排列顺序有所不同：
Y0 V0 Y1 U0 Y2 V2 Y3 U2 …

UYVY 格式跟 YUY2 类似，只是图像数据中 YUV 分量的排列顺序有所不同：
U0 Y0 V0 Y1 U2 Y2 V2 Y3 …
AYUV 格式带有一个 Alpha 通道，并且为每个像素都提取 YUV 分量，图像数据格式如下：
A0 Y0 U0 V0 A1 Y1 U1 V1 …

Y41P （和 Y411 ）格式为每个像素保留 Y 分量，而 UV 分量在水平方向上每 4 个像素采样一次。一个宏像素为 12 个字节，实际表示 8 个像素。图像数据中 YUV 分量排列顺序如下：
U0 Y0 V0 Y1 U4 Y2 V4 Y3 Y4 Y5 Y6 Y8 …

Y211 格式在水平方向上 Y 分量每 2 个像素采样一次，而 UV 分量每 4 个像素采样一次。一个宏像素为 4 个字节，实际表示 4 个像素。图像数据中 YUV 分量排列顺序如下：
Y0 U0 Y2 V0 Y4 U4 Y6 V4 …

YVU9 格式为每个像素都提取 Y 分量，而在 UV 分量的提取时，首先将图像分成若干个 4 x 4 的宏块，然后每个宏块提取一个 U 分量和一个 V 分量。图像数据存储时，首先是整幅图像的 Y 分量数组，然后就跟着 U 分量数组，以及 V 分量数组。 IF09 格式与 YVU9 类似。

IYUV 格式为每个像素都提取 Y 分量，而在 UV 分量的提取时，首先将图像分成若干个 2 x 2 的宏块，然后每个宏块提取一个 U 分量和一个 V 分量。 YV12 格式与 IYUV 类似。

YUV411 、 YUV420 格式多见于 DV 数据中，前者用于 NTSC 制，后者用于 PAL 制。 YUV411 为每个像素都提取 Y 分量，而 UV 分量在水平方向上每 4 个像素采样一次。 YUV420 并非 V 分量采样为 0 ，而是跟YUV411 相比，在水平方向上提高一倍色差采样频率，在垂直方向上以 U/V 间隔的方式减小一半色差采样

YUV和RGB转换
计算机彩色显示器显示色彩的原理与彩色电视机一样，都是采用R（Red）、G（Green）、B（Blue）
相加混色的原理：
通过发射出三种不同强度的电子束，使屏幕内侧覆盖的红、绿、蓝磷光材料发光而产生色彩。这种色彩的表示方法称为RGB色彩空间表示（它也是多媒体计算机技术中用得最多的一种色彩空间表示方法）。
根据三基色原理，任意一种色光F都可以用不同分量的R、G、B三色相加混合而成。
F = r [ R ] + g [ G ] + b [ B ]
其中，r、g、b分别为三基色参与混合的系数。当三基色分量都为0（最弱）时混合为黑色光；而当三基色分量都为k（最强）时混合为白色光。调整r、g、b三个系数的值，可以混合出介于黑色光和白色光之间的各种各样的色光。

那么YUV又从何而来呢？
在现代彩色电视系统中，通常采用三管彩色摄像机或彩色CCD摄像机进行摄像，然后把摄得的彩色图像信号经分色、分别放大校正后得到 RGB，再经过矩阵变换电路得到亮度信号Y和两个色差信号R－Y（即U）、B－Y（即V），最后发送端将亮度和色差三个信号分别进行编码，用同一信道发送出去。这种色彩的表示方法就是所谓的YUV色彩空间表示。
采用YUV色彩空间的重要性是它的亮度信号Y和色度信号U、V是分离的。如果只有Y信号分量而没有U、V分量，那么这样表示的图像就是黑白灰度图像。彩色电视采用YUV空间正是为了用亮度信号Y解决彩色电视机与黑白电视机的兼容问题，使黑白电视机也能接收彩色电视信号。
YUV与RGB相互转换的公式
如下（RGB取值范围均为0-255）：
下面代码使用“BT.601标准"

Y = 0.299R + 0.587G + 0.114B
U = -0.147R - 0.289G + 0.436B
V = 0.615R - 0.515G - 0.100B

R = Y + 1.14V
G = Y - 0.39U - 0.58V
B = Y + 2.03U

公式在不同电视使用标准是不同的


RGB->YUV
C语言代码如下：

Y = 0.299R + 0.587G + 0.114B   
Cb = 0.564(B &#8722; Y )   
Cr = 0.713(R &#8722; Y )   
  
代码：   
  
uint8_t COL_RgbToYuv(uint8_t R,uint8_t G,uint8_t B, uint8_t *y,int8_t *u,int8_t *v)   
{   
    float rr=R,bb=B,gg=G;   
    float yy,uu,vv;   
  
    yy=0.299*rr+ 0.587*gg+ 0.114*bb;   
    uu=-0.169*rr+ -0.331*gg+ 0.5*bb;   
    vv=0.5*rr+ -0.419*gg+ -0.081*bb;   
  
  
    if(uu>127) uu=127;   
    if(uu<-127) uu=-127;   
    *u=(int8_t)floor(uu);   
  
    if(vv>127) vv=127;   
    if(vv<-127) vv=-127;   
    *v=(int8_t)floor(vv);   
  
    if(yy>255) yy=255;   
    if(yy<0) yy=0;   
    *y=(uint8_t)floor(yy);   
  
    return 1;   
}

YUV->RGB
c 语言代码如下：

R = Y + 1.402Cr   
G = Y &#8722; 0.344Cb &#8722; 0.714Cr   
B = Y + 1.772Cb   
  
代码：   
  
uint8_t COL_YuvToRgb( uint8_t y,int8_t u,int8_t v,uint8_t *r,uint8_t *g,uint8_t *b)   
{   
    float rr,bb,gg;   
    float yy=y,uu=u,vv=v;   
  
    rr= yy+ 1.402*vv;   
    gg= yy+ -0.344*uu+ -0.714*vv;   
    bb= yy+ 1.772*uu ;   
  
    #define CLIP(x) if(x>255) x=255; else if (x<0) x=0;x=x+0.49;   
    #define CVT(x,y) CLIP(x);*y=(uint8_t)floor(x);   
  
    CVT(rr,r);   
    CVT(gg,g);   
    CVT(bb,b);   
  
    return 1;   
}

常用的YUV，RGB格式
在DirectShow 中，常见的RGB格式有RGB1、RGB4、RGB8、RGB565、RGB555、RGB24、RGB32、ARGB32等；常见的YUV格式有 YUY2、YUYV、YVYU、UYVY、AYUV、Y41P、Y411、Y211、IF09、IYUV、YV12、YVU9、YUV411、 YUV420等。作为视频媒体类型的辅助说明类型（Subtype）。

名称	格式	表示	是否需要调色板
MEDIASUBTYPE_RGB1	2色，	每个像素用1位表示，	需要调色板
MEDIASUBTYPE_RGB4	16色，	每个像素用4位表示，	需要调色板
MEDIASUBTYPE_RGB8	256色，	每个像素用8位表示，	需要调色板
MEDIASUBTYPE_RGB565	每个像素用16位表示，	RGB分量分别使用5位、6位、5位
MEDIASUBTYPE_RGB555	每个像素用16位表示，	RGB分量都使用5位（剩下的1位不用）
MEDIASUBTYPE_RGB24	每个像素用24位表示，	RGB分量各使用8位
MEDIASUBTYPE_RGB32	每个像素用32位表示，	RGB分量各使用8位（剩下的8位不用）
MEDIASUBTYPE_ARGB32	每个像素用32位表示，	RGB分量各使用8位（剩下的8位用于表示Alpha通道值）
MEDIASUBTYPE_YUY2	YUY2格式，	以4:2:2方式打包
MEDIASUBTYPE_YUYV	YUYV格式	（实际格式与YUY2相同）
MEDIASUBTYPE_YVYU	YVYU格式，	以4:2:2方式打包
MEDIASUBTYPE_UYVY	UYVY格式	，以4:2:2方式打包
MEDIASUBTYPE_AYUV	带Alpha通道的4:4:4 YUV格式
MEDIASUBTYPE_Y41P	Y41P格式，	以4:1:1方式打包
MEDIASUBTYPE_Y411	Y411格式	（实际格式与Y41P相同）
MEDIASUBTYPE_Y211	Y211格式
MEDIASUBTYPE_IF09	IF09格式
MEDIASUBTYPE_IYUV	IYUV格式
MEDIASUBTYPE_YV12	YV12格式
MEDIASUBTYPE_YVU9	YVU9格式

各种RGB格式

¨ RGB1、RGB4、RGB8都是调色板类型的RGB格式，在描述这些媒体类型的格式细节时，通常会在BITMAPINFOHEADER数据结构后面跟着一个调色板（定义一系列颜色）。它们的图像数据并不是真正的颜色值，而是当前像素颜色值在调色板中的索引。以RGB1（2色位图）为例，比如它的调色板中定义的两种颜色值依次为0x000000（黑色）和0xFFFFFF（白色），那么图像数据001101010111…（每个像素用1位表示）表示对应各像素的颜色为：黑黑白白黑白黑白黑白白白…。

¨ RGB565使用16位表示一个像素，这16位中的5位用于R，6位用于G，5位用于B。程序中通常使用一个字（WORD，一个字等于两个字节）来操作一个像素。当读出一个像素后，这个字的各个位意义如下：
高字节低字节
R R R R R G G G G G G B B B B B
可以组合使用屏蔽字和移位操作来得到RGB各分量的值：

#define RGB565_MASK_RED 0xF800
#define RGB565_MASK_GREEN 0x07E0
#define RGB565_MASK_BLUE 0x001F
R = (wPixel & RGB565_MASK_RED) >> 11; // 取值范围0-31
G = (wPixel & RGB565_MASK_GREEN) >> 5; // 取值范围0-63
B = wPixel & RGB565_MASK_BLUE; // 取值范围0-31

¨ RGB555是另一种16位的RGB格式，RGB分量都用5位表示（剩下的1位不用）。使用一个字读出一个像素后，这个字的各个位意义如下：
高字节低字节
X R R R R G G G G G B B B B B （X表示不用，可以忽略）
可以组合使用屏蔽字和移位操作来得到RGB各分量的值：

#define RGB555_MASK_RED 0x7C00
#define RGB555_MASK_GREEN 0x03E0
#define RGB555_MASK_BLUE 0x001F
R = (wPixel & RGB555_MASK_RED) >> 10; // 取值范围0-31
G = (wPixel & RGB555_MASK_GREEN) >> 5; // 取值范围0-31
B = wPixel & RGB555_MASK_BLUE; // 取值范围0-31

RGB24使用24位来表示一个像素，RGB分量都用8位表示，取值范围为0-255。注意在内存中RGB各分量的排列顺序为：BGR BGR BGR…。通常可以使用RGBTRIPLE数据结构来操作一个像素，它的定义为：

typedef struct tagRGBTRIPLE { 
BYTE rgbtBlue; // 蓝色分量
BYTE rgbtGreen; // 绿色分量
BYTE rgbtRed; // 红色分量
} RGBTRIPLE;

¨ RGB32使用32位来表示一个像素，RGB分量各用去8位，剩下的8位用作Alpha通道或者不用。（ARGB32就是带Alpha通道的 RGB32。）注意在内存中RGB各分量的排列顺序为：BGRA BGRA BGRA…。通常可以使用RGBQUAD数据结构来操作一个像素，它的定义为：

typedef struct tagRGBQUAD {
BYTE rgbBlue; // 蓝色分量
BYTE rgbGreen; // 绿色分量
BYTE rgbRed; // 红色分量
BYTE rgbReserved; // 保留字节（用作Alpha通道或忽略）
} RGBQUAD;

1.1.2 音视频常见处理

采集

为什么要采集数据

无论是iOS平台,还是安卓平台,我们都是需要借助官方的API实现一系列相关功能.首先我们要明白我们想要什么,最开始我们需要一部手机,智能手机中摄像头是不可缺少的一部分,所以我们通过一些系统API获取就要可以获取物理摄像头将采集到的视频数据与麦克风采集到的音频数据.

如何采集数据

首先要对模拟信号进行采样，所谓采样就是在时间轴上对信号进行数字化。根据奈奎斯特定理（也称为采样定理），按比声音最高频率高2倍以上的频率对声音进行采样（也称为AD转换），1.1节中提到过，对于高质量的音频信号，其频率范围（人耳能够听到的频率范围）是20Hz～20kHz，所以采样频率一般为44.1kHz，这样就可以保证采样声音达到20kHz也能被数字化，从而使得经过数字化处理之后，人耳听到的声音质量不会被降低。而所谓的44.1kHz就是代表1秒会采样44100次

量化:
量化是指在幅度轴上对信号进行数字化，比如用16比特的二进制信号来表示声音的一个采样，而16比特（一个short）所表示的范围是［-32768，32767］，共有65536个可能取值，因此最终模拟的音频信号在幅度上也分为了65536层。

编码：所谓编码，就是按照一定的格式记录采样和量化后的数字数据，比如顺序存储或压缩存储，等等。

音频的裸数据格式就是脉冲编码调制（Pulse Code Modulation，PCM）数据。描述一段PCM数据一般需要以下几个概念：量化格式（sampleFormat）、采样率（sampleRate）、声道数（channel）。以CD的音质为例：量化格式（有的地方描述为位深度）为16比特（2字节），采样率为44100，声道数为2，这些信息就描述了CD的音质。而对于声音格式，还有一个概念用来描述它的大小，称为数据比特率，即1秒时间内的比特数目，它用于衡量音频数据单位时间内的容量大小。而对于CD音质的数据，比特率为多少呢？计算如下：

44100 * 16 * 2 = 1378.125kbps

那么在1分钟里，这类CD音质的数据需要占据多大的存储空间呢？计算如下：

1378.125 * 60 / 8 / 1024 = 10.09MB

如果sampleFormat更加精确（比如用4字节来描述一个采样），或者sampleRate更加密集（比如48kHz的采样率），那么所占的存储空间就会更大，同时能够描述的声音细节就会越精确。

音频采集：
音频数据既能与图像结合组合成视频数据，也能以纯音频的方式采集播放，后者在很多成熟的应用场景如在线电台和语音电台等起着非常重要的作用。音频的采集过程主要通过设备将环境中的模拟信号采集成 PCM 编码的原始数据，然后编码压缩成 MP3 等格式的数据分发出去。常见的音频压缩格式有：MP3，AAC，HE-AAC，Opus，FLAC，Vorbis (Ogg)，Speex 和 AMR等。
音频采集和编码主要面临的挑战在于：延时敏感、卡顿敏感、噪声消除（Denoise）、回声消除（AEC）、静音检测（VAD）和各种混音算法等。

图像采集：

将图像采集的图片结果组合成一组连续播放的动画，即构成视频中可肉眼观看的内容。图像的采集过程主要由摄像头等设备拍摄成 YUV 编码的原始数据，然后经过编码压缩成 H.264 等格式的数据分发出去。常见的视频封装格式有：MP4、3GP、AVI、MKV、WMV、MPG、VOB、FLV、SWF、MOV、RMVB 和 WebM 等。
图像由于其直观感受最强并且体积也比较大，构成了一个视频内容的主要部分。图像采集和编码面临的主要挑战在于：设备兼容性差、延时敏感、卡顿敏感以及各种对图像的处理操作如美颜和水印等。

视频采集：

摄像头采集
屏幕录制
从视频文件推流

注意点

处理

常见的数据处理

音频和视频原始数据本质都是一大段数据,系统将其包装进自定义的结构体中,通常都以回调函数形式提供给我们,拿到音视频数据后,可以根据各自项目需求做一系列特殊处理,如: 视频的旋转,缩放,滤镜,美颜,裁剪等等功能, 音频的单声道降噪,消除回声,静音等等功能.

数据处理工具
注意点

编码

为什么要编码数据

原始数据做完自定义处理后就可以进行传输,像直播这样的功能就是把采集好的视频数据发送给服务器,以在网页端供所有粉丝观看,而传输由于本身就是基于网络环境,庞大的原始数据就必须压缩后才能带走,可以理解为我们搬家要将物品都打包到行李箱这样理解.
原始视频数据存储空间大，一个 1080P 的 7 s 视频需要 817 MB
原始视频数据传输占用带宽大，10 Mbps 的带宽传输上述 7 s 视频需要 11 分钟
而经过 H.264 编码压缩之后，视频大小只有 708 k ，10 Mbps 的带宽仅仅需要 500 ms ，可以满足实时传输的需求，所以从视频采集传感器采集来的原始视频势必要经过视频编码。

编码原理
为什么巨大的原始视频可以编码成很小的视频呢?这其中的技术是什么呢?核心思想就是去除冗余信息：
1）空间冗余：图像相邻像素之间有较强的相关性
2）时间冗余：视频序列的相邻图像之间内容相似
3）编码冗余：不同像素值出现的概率不同
4）视觉冗余：人的视觉系统对某些细节不敏感
5）知识冗余：规律性的结构可由先验知识和背景知识得到
常用编码工具
视频编码器：
1）H.264/AVC
2）HEVC/H.265
3）VP8
4）VP9
5）FFmpeg
音频编码：
WAV
Mp3
AAC
G711
G726
Ogg

CD音质的数据采样格式，曾计算出每分钟需要的存储空间约为10.1MB，如果仅仅是将其存放在存储设备（光盘、硬盘）中，可能是可以接受的，但是若要在网络中实时在线传播的话，那么这个数据量可能就太大了，所以必须对其进行压缩编码。压缩编码的基本指标之一就是压缩比，压缩比通常小于1（否则就没有必要去做压缩，因为压缩就是要减小数据容量）。压缩算法包括有损压缩和无损压缩。无损压缩是指解压后的数据可以完全复原。在常用的压缩格式中，用得较多的是有损压缩，有损压缩是指解压后的数据不能完全复原，会丢失一部分信息，压缩比越小，丢失的信息就越多，信号还原后的失真就会越大。根据不同的应用场景（包括存储设备、传输网络环境、播放设备等），可以选用不同的压缩编码算法，如PCM、WAV、AAC、MP3、Ogg等。
压缩编码的原理实际上是压缩掉冗余信号，冗余信号是指不能被人耳感知到的信号，包含人耳听觉范围之外的音频信号以及被掩蔽的音频信号等。人耳听觉范围之外的音频信号在1.2节中已经提到过，所以在此不再赘述。而被掩蔽掉的音频信号则主要是因为人耳的掩蔽效应，主要表现为频域掩蔽效应与时域掩蔽效应，无论是在时域还是频域上，被掩蔽掉的声音信号都被认为是冗余信息，不进行编码处理。

（1）WAV编码

PCM（脉冲编码调制）是Pulse Code Modulation的缩写。前面已经介绍过PCM大致的工作流程，而WAV编码的一种实现（有多种实现方式，但是都不会进行压缩操作）就是在PCM数据格式的前面加上44字节，分别用来描述PCM的采样率、声道数、数据格式等信息。
特点：音质非常好，大量软件都支持。
适用场合：多媒体开发的中间文件、保存音乐和音效素材。

（2）MP3编码

MP3具有不错的压缩比，使用LAME编码（MP3编码格式的一种实现）的中高码率的MP3文件，听感上非常接近源WAV文件，当然在不同的应用场景下，应该调整合适的参数以达到最好的效果。
特点：音质在128Kbit/s以上表现还不错，压缩比比较高，大量软件和硬件都支持，兼容性好。
适用场合：高比特率下对兼容性有要求的音乐欣赏。

（3）AAC编码

AAC是新一代的音频有损压缩技术，它通过一些附加的编码技术（比如PS、SBR等），衍生出了LC-AAC、HE-AAC、HE-AAC v2三种主要的编码格式。LC-AAC是比较传统的AAC，相对而言，其主要应用于中高码率场景的编码（≥80Kbit/s）；HE-AAC（相当于AAC＋SBR）主要应用于中低码率场景的编码（≤80Kbit/s）；而新近推出的HE-AAC v2（相当于AAC＋SBR＋PS）主要应用于低码率场景的编码（≤48Kbit/s）。事实上大部分编码器都设置为≤48Kbit/s自动启用PS技术，而>48Kbit/s则不加PS，相当于普通的HE-AAC。
特点：在小于128Kbit/s的码率下表现优异，并且多用于视频中的音频编码。
适用场合：128Kbit/s以下的音频编码，多用于视频中音频轨的编码。

(4)Ogg编码

Ogg是一种非常有潜力的编码，在各种码率下都有t匕较优秀的表现，尤其是在中低码率场景下。Ogg除了音质好之外，还是完
全免费的，这为Ogg获得更多的支持打好了基础》Ogg有着非常出色的算法，可以用更小的码率达到更好的音质，l28Kbit/s的Ogg比192Kbit/s甚至更高码率的MP3还要出色。但目前因为还没有媒体服务软件的支持，因此基于Ogg的数字广播还无法实现。Ogg目前受支持的情况还不够好，无论是软件上的还是硬件上的支持，都无法和MP3相提并论。
特点：可以用比MP3更小的码率实现比MP3更好的音质，高中低码率下均有良好的表现，兼容性不够好，流媒体特性不支持。
适用场合：语音聊天的音频消息场景。

视频编码
IOS平台编码方式
iOS上编解码分为两种，硬编解码和软编解码，可以参考下表：

类型	工具	硬件支持	后台	思路	备注
硬编解码	VideoToolBox	非CPU或者专用处理器	编码(iOS>=10.0),解码不支持	VideoVTToolBox	-
硬编解码	AVAssetWriter	非CPU或者专用处理器	支持编码	需要将视频写入本地文件，然后通过实时监听文件内容的改变，读取文件并处理封包	-
软编解码	FFmpeg	CPU	支持	-	-

常用编码算法
注意点

传输

常用的传输协议

编码后的音视频数据通常以RTMP协议进行传输,这是一种专门用于传输音视频的协议,因为各种各样的视频数据格式无法统一,所以需要有一个标准作为传输的规则.协议就起到这样的作用.
常用传输协议：RTMP， FTP, TCP/IP, HTTP, XMMP
常用数据封装：json, xml,

传输数据过程
常用工具
注意点

解码

为什么要解码数据

服务端接收到我们送过去的编码数据后,需要对其解码成原始数据,因为编码的数据直接送给物理硬件的设备是不能直接播放的,只有解码为原始数据才能使用.

常用解码算法
常用解码工具

H264/H265裸码流提取工具
工具下载地址：https://download.csdn.net/download/listener51/10952502
源码下载地址：https://github.com/fermay/open_media_demux

码流拖曳到软件中显示如下：

2.

解码原理
注意点

渲染

常用音频编码格式

常用视频编码格式

常用编解码算法

视频音频同步算法

音视频同步需求

解码后的每帧音视频中都含有最开始录制时候设置的时间戳,我们需要根据时间戳将它们正确的播放出来,但是在网络传输中可能会丢失一些数据,或者是延时获取,这时我们就需要一定的策略去实现音视频的同步,大体分为几种策略:缓存一定视频数据,视频追音频等等.

常用音视频同步算法
音视频处理工具
注意点

录像

音频播放

视频播放

本地视频播放
IOS常用的播放本地视频方式：
1). 系统自带API方式
2）VLC+FFmpeg 方式
3）SDL+FFmpeg 方式
4）Vitamio以及ijkplayer等

Android常用的播放本地视频方式：
1). 系统自带API方式
2）VLC+FFmpeg 方式
3）SDL+FFmpeg 方式
4）Vitamio以及ijkplayer等
Qt常用的播放本地视频方式：
1). 系统自带API方式
2）VLC+FFmpeg 方式
3）SDL+FFmpeg 方式

远程视频播放
直播

1.2 直播

1.2.1 推流

将手机采集到的视频数据传给后台播放端进行展示，播放端可以是windows, linux, web端，即手机充当采集的功能，将手机摄像头采集到视频和麦克风采集到的音频合成编码后传给对应平台的播放端。

流程图如下：

1.2.1.1 推流常用协议简介

推送协议主要有三种：

RTSP（Real Time Streaming Protocol）：实时流传送协议，是用来控制声音或影像的多媒体串流协议, 由Real Networks和Netscape共同提出的；
RTMP(Real Time Messaging Protocol)：实时消息传送协议，是Adobe公司为Flash播放器和服务器之间音频、视频和数据传输开发的开放协议；
HLS(HTTP Live Streaming)：是苹果公司(Apple Inc.)实现的基于HTTP的流媒体传输协议；

RTSP协议
RTMP 协议
RTMP协议基于 TCP，是一种设计用来进行实时数据通信的网络协议，主要用来在 flash/AIR 平台和支持 RTMP 协议的流媒体/交互服务器之间进行音视频和数据通信。支持该协议的软件包括 Adobe Media Server/Ultrant Media Server/red5 等。
它有三种变种：

RTMP工作在TCP之上的明文协议，使用端口1935；
RTMPT封装在HTTP请求之中，可穿越防火墙；
RTMPS类似RTMPT，但使用的是HTTPS连接；

RTMP 是目前主流的流媒体传输协议，广泛用于直播领域，可以说市面上绝大多数的直播产品都采用了这个协议。
RTMP协议就像一个用来装数据包的容器，这些数据可以是AMF格式的数据,也可以是FLV中的视/音频数据。一个单一的连接可以通过不同的通道传输多路网络流。这些通道中的包都是按照固定大小的包传输的。

大致流程图如下：

HLS协议

1.2.2 拉流

将播放端传来的视频数据在手机上播放,推流的逆过程，即将windows, linux, web端传来的视频数据进行解码后传给对应音视频硬件，最终将视频渲染在手机界面上播放.

流程图如下：

1.3. FFmpeg简介

FFmpeg 是一个自由软件，可以运行音频和视频多种格式的录影、转换、流功能，包含了libavcodec——这是一个用于多个项目中音频和视频的解码器库，以及libavformat——一个音频与视频格式转换库。
“FFmpeg”这个单词中的“FF”指的是“Fast Forward（快速前进）”。有些新手写信给“FFmpeg”的项目负责人，询问FF是不是代表“Fast Free”或者“Fast Fourier”等意思，“FFmpeg”的项目负责人回信说：“Just for the record, the original meaning of “FF” in FFmpeg is “Fast Forward”…”
这个项目最初是由Fabrice Bellard发起的，而现在是由Michael Niedermayer在进行维护。许多FFmpeg的开发者同时也是MPlayer项目的成员，FFmpeg在MPlayer项目中是被设计为服务器版本进行开发。
2011年3月13日，FFmpeg部分开发人士决定另组Libav，同时制定了一套关于项目继续发展和维护的规则

更多详情参考维基百科：FFmpeg简介

常用库

库名	用途
ffmpeg	一个命令行工具，用来对视频文件转换格式，也支持对电视卡即时编码
ffserver	一个HTTP多媒体即时广播流服务器，支持时光平移
ffplay	一个简单的播放器，基于SDL与FFmpeg库
libavcodec	包含全部FFmpeg音频/视频编解码库
libavformat	包含demuxers和muxer库
libavutil	包含一些工具库
libpostproc	对于视频做前处理的库
libavutil	包含一些工具库
libswscale	对于影像作缩放的库

主要参数

参数名	意义
-i	设置输入档名。
-f	设置输出格式。
-y	若输出文件已存在时则覆盖文件。
-fs	超过指定的文件大小时则结束转换。
-ss	从指定时间开始转换。
-t	从-ss时间开始转换（如-ss 00:00:01.00 -t 00:00:10.00即从00:00:01.00开始到00:00:11.00）。
-title	设置标题。
-timestamp	设置时间戳。
-vsync	增减Frame使影音同步。
-c	指定输出文件的编码。
-metadata	更改输出文件的元数据。
-help	查看帮助信息。

视频参数名	意义
b:v	设置视频流量，默认为200Kbit/秒。（单位请引用下方注意事项）
r	设置帧率值，默认为25。
s	设置画面的宽与高。
aspect	设置画面的比例。
vn	不处理视频，于仅针对声音做处理时使用。
vcodec( -c:v )	设置视频视频编解码器，未设置时则使用与输入文件相同之编解码器。

声音参数名	意义
b:a	设置每Channel（最近的SVN版为所有Channel的总合）的流量。（单位请引用下方注意事项）
ar	设置采样率。
ac	设置声音的Channel数。
acodec ( -c:a )	设置声音编解码器，未设置时与视频相同，使用与输入文件相同之编解码器。
an	不处理声音，于仅针对视频做处理时使用。
vol	设置音量大小，256为标准音量。（要设置成两倍音量时则输入512，依此类推。）

查看 FFmpeg官方文档

查看h265的数据的基本信息

ffmpeg -i /Users/tomxiang/Desktop/h265/test_tomxiang.h265

用libx265转mp4.

ffmpeg -i /Users/tomxiang/Desktop/test_tomxiang.h265  -c:v libx265 /Users/tomxiang/xxtest/test265.mp4

ffplay逐帧播放视频与显示视频帧序号
macOS下使用ffplay，按下s键可单帧播放视频，配合一个显示文字的视频滤镜即可显示当前画面的帧序号，命令示例如下所示:

ffplay -vf "drawtext=fontfile=/Library/Fonts/Arial.ttf:text=%{n}:box=1:x=(w-tw)/2:y=h-(2*lh)" sample.mp4

音视频专家博客收集：

肖雷华大神：https://blog.csdn.net/leixiaohua1020/article/details/18893769
小东邪大神：https://www.jianshu.com/u/23f3ec991fed

你可能感兴趣的:(FFmpeg)

从 0 到 1 搞定nvidia 独显推流：硬件视频编码环境安装完整学习笔记 lxmyzzs 图像算法之音视频编解码音视频学习笔记
笔记用于安装和配置一套完整的媒体处理工具链，包括NVIDIA编码头文件、带CUDA加速的FFmpeg以及ZLMediaKit流媒体服务框架，适用于需要进行视频编解码、流媒体推流/拉流等场景的开发与部署。标题核心组件及版本说明nv-codec-headers来源：Gitee仓库jario-jin/nv-codec-headers版本：n11.1.5.0（对应NVIDIAVideoCodecSDK接口
FFMPEG 解码流程硬解码 ImTryCatchException ffmpeg 音视频
关键流程概述初始化阶段‌av_register_all()：注册所有编解码器新版本可以不调用了avformat_network_init():网络初始化avformat_alloc_context()：创建封装格式上下文avformat_open_input()：打开媒体文件流信息解析‌avformat_find_stream_info()：获取流信息av_find_best_stream()：查
ffmpeg音视频开发实战6，flutter开源项目商业化 2401_84408734 程序员 ffmpeg flutter 开源
正文Java集合：使用场景、源码阅读GC机制虚拟机对象内存分配要学好Android，必须要有扎实的Java基础（当然，现在还有Kotlin）。这里只列出了四点，但Java的体系非常庞大，重难点当然不只这些，列出来的是在实际项目和面试中常用或常见的。Android常用/重要类ActivityHandlerHandlerThreadAsyncTaskBinderAndroid这几个类在编程时是比较高频
一文读懂 Android FFmpeg 视频解码过程与实战分析 2401_85667460 android ffmpeg 音视频
–本文首先以FFmpeg视频解码为主题，主要介绍了FFmpeg进行解码视频时的主要流程、基本原理；其次，文章还讲述了与FFmpeg视频解码有关的简单应用，包括如何在原有的FFmpeg视频解码的基础上按照一定时间轴顺序播放视频、如何在播放视频时加入seek的逻辑；除此之外，文章重点介绍了解码视频时可能容易遗漏的细节，最后是简单地阐述了下如何封装一个具有基本的视频解码功能的VideoDecoder。前
Android NDK ffmpeg 音视频开发实战
文章目录接入FFmpeg1.下载FFmpeg源码2.编译FFmpeg.so库异常处理3.自定义FFmpeg交互so库创建4.配置CMakeLists.txt5.CMakeLists.txt环境配置6.Native与Java层调用解码器准备接入FFmpeg1.下载FFmpeg源码FFmpeg官网地址2.编译FFmpeg.so库移动FFmpeg源码文件夹至AndroidStudio的cpp包下（也可以
从文本到语音：使用 ElevenLabs 和 FFmpeg 实现语音合成与播放曦紫沐语音模型 ffmpeg ElevenLabs 语音合成
摘要在当今的人工智能时代，语音合成技术正变得越来越普及。ElevenLabs是一个强大的语音合成平台，能够生成高质量的语音音频。本文将详细介绍如何结合Python、ElevenLabsAPI和FFmpeg工具集，实现从文本到语音的转换，并通过ffplay播放生成的音频文件。同时，我们将解决常见的问题，如ffplay未找到或音频无法播放等。1.引言随着人工智能技术的发展，语音合成（Text-to-S
音视频流媒体开发【三十六】FFmpeg+QT播放器5-其他功能 AlanGe
音视频流媒体开发-目录5-stream_open和stream_close进⼀步掌握：ijkmp_prepare_async处理逻辑ijkmp_stop处理逻辑stream_openstream_open主要⼯作内容：初始化SDL以允许⾳频输出；初始化帧Frame队列初始化包Packet队列初始化时钟Clock初始化⾳量创建解复⽤读取线程read_thread创建视频刷新线程video_refre
【FFmpeg】AVIOContext结构体
【FFmpeg】AVIOContext结构体1.AVIOContext结构体的定义参考：FFMPEG结构体分析：AVIOContext示例工程：【FFmpeg】调用ffmpeg库实现264软编【FFmpeg】调用ffmpeg库实现264软解【FFmpeg】调用ffmpeg库进行RTMP推流和拉流【FFmpeg】调用ffmpeg库进行SDL2解码后渲染流程分析：【FFmpeg】编码链路上主要函数的简
python ffmpeg pipe_如何使用python从ffmpeg输出管道？ weixin_39611725 python ffmpeg pipe
我正在尝试将FFmpeg的输出用管道输送到Python中。我正在从一个视频采集卡读取图像，我成功地使用dshow从命令行将其读入输出文件。我正在尝试从卡抓取图像到我的OpenCv代码，以便能够进一步处理数据。不幸的是，当我通过管道输出图像时，我只得到视频的显示，如链接所示：link:s000.tinyupload.com/?file_id=15940665795196022618.我使用的代码如下
python ffmpeg pipe,管道的ffmpeg的输入和输出在python 呼呼啦啦就瘸了 python ffmpeg pipe
I'musingffmpegtocreateavideo,fromalistofbase64encodedimagesthatIpipeintoffmpeg.Outputtingtoafile(usingtheattachedcodebelow)worksperfectly,butwhatIwouldliketoachieveistogettheoutputtoaPythonvariableins
Python脚本批量修复文件时间戳，根据文件名或拍摄日期 3D_DLW 储存服务器 python 图片整理修改时间批处理脚本拍摄时间
实现以下功能更正文件的修改时间批量修改指定文件夹中的特定后缀的文件根据文件名中的日期修改（优先）根据jpg文件属性中的拍摄日期修改根据mp4文件属性中的创建媒体日期修改模拟运行（DryRun）模式依赖若需要基于jpg文件属性中的拍摄日期修改，需要python的piexif包pipinstallpiexif若需要基于mp4文件属性中的创建媒体日期修改，需要ffmpegsudoaptinstallff
C#实现基于ffmpeg加虹软的人脸识别
关于人脸识别目前的人脸识别已经相对成熟，有各种收费免费的商业方案和开源方案，其中OpenCV很早就支持了人脸识别，在我选择人脸识别开发库时，也横向对比了三种库，包括在线识别的百度、开源的OpenCV和商业库虹软（中小型规模免费）。百度的人脸识别，才上线不久，文档不太完善，之前联系百度，官方也给了我基于Android的Example，但是不太符合我的需求，一是照片需要上传至百度服务器（这个是最大的问
Qt/C++音视频开发22-通用GPU显示 feiyangqingyun Qt/C++音视频开发 Qt视频监控 Qt音视频 Qt硬解码
一、前言采用GPU来绘制实时视频一直以来都是个难点，如果是安防行业的做视频监控开发这块的人员，这个坎必须迈过去，本人一直从事的是安防行业的电子围栏这个相当小众的细分市场的开发，视频监控这块仅仅是周边技术玩一玩探讨一下，关于GPU绘制这块着实走了不少的弯路。之前用ffmpeg解码的时候，已经做了硬解码的处理，比如支持qsv、dxva2、d3d11va等方式进行硬解码处理，但是当时解码出来以后，还是重
树莓派 —— 在树莓派4b板卡下编译FFmpeg源码，支持硬件编解码器（mmal或openMax硬编解码加速）信必诺 FFmpeg 树莓派 FFmpeg 编译源码 mmal openMax 树莓派树莓派4b
FFmpeg相关音视频技术、疑难杂症文章合集（掌握后可自封大侠⓿_⓿）（记得收藏，持续更新中…）正文 1、准备工作（1）树莓派烧录RaspberryPi系统（2）树莓派配置固定IP（文末）（3）xshell连接树莓派（4）
FFmpeg滤镜相关的重要结构体 melonbo FFMPEG ffmpeg
核心结构体概览FFmpeg滤镜系统由多个关键结构体组成，构成了完整的滤镜处理框架。以下是滤镜系统中最重要的结构体及其相互关系：AVFilterGraph┬─AVFilterContext┬─AVFilter│├─AVFilterLink│└─AVFilterPad└─AVFilterInOut详细结构体分析1.AVFilterGraph（滤镜图容器）功能：管理整个滤镜图的所有组件和状态重要成员：t
python视频工具包 ffmpeg 使用示例 pythonffmpeg
1.简介FFMPEG堪称自由软件中最完备的一套多媒体支持库，它几乎实现了所有当下常见的数据封装格式、多媒体传输协议以及音视频编解码器，提供了录制、转换以及流化音视频的完整解决方案。2.ffmpeg的常用方法将某文件下所有ts文件按顺序合并，转换成MP4格式存储：importffmpegdeftest2():ts_folder='path/ts_files/ceshi/'output_mp4="pa
ffmpeg下编译tsan 泰勒朗斯 FFmpeg ffmpeg
如何在ffmpeg下编译tsan，如下配置：./configure\--prefix=/workspace/ffmpeg_gcu\--disable-stripping\--disable-optimizations\--disable-x86asm\--toolchain=gcc-tsan\--enable-pic\--enable-swscale\--enable-static\--enabl
Python PyDub详解：音频处理从未如此简单 detayun Python python 音视频开发语言
引言在Python生态中，PyDub以其简洁的设计和强大的功能，成为音频处理领域的后起之秀。这个由罗伯特·约翰逊主导开发的开源库，通过封装FFmpeg/Libav底层能力，为开发者提供了"不愚蠢"的音频处理方式。本文将带您系统掌握PyDub的核心用法，从环境搭建到高级应用，解锁音频处理的无限可能。安装与配置快速安装pipinstallpydub依赖管理FFmpeg安装指南：Windows：通过FF
ffmpeg的常见使用 pythonffmpeg
1.简介FFMPEG堪称自由软件中最完备的一套多媒体支持库，它几乎实现了所有当下常见的数据封装格式、多媒体传输协议以及音视频编解码器，提供了录制、转换以及流化音视频的完整解决方案。2.ffmpeg的常用方法将某文件下所有ts文件按顺序合并，转换成MP4格式存储：importffmpegdeftest2():ts_folder='path/ts_files/ceshi/'output_mp4="pa
Linux下的MP3播放器开发指南薯条说影
本文还有配套的精品资源，点击获取简介：本项目着重介绍如何使用C语言在Linux环境下开发MP3播放器。内容涵盖多进程编程、信号处理、音频解码技术、用户界面设计及文件操作。详细介绍了进程创建、进程通信、进程同步与互斥以及信号编程的细节。同时，讲解了音频处理的关键技术和方法，如FFmpeg库的使用、音频缓冲区管理以及音频系统的选取。此外，还涉及用户界面的设计选择和文件I/O操作。最终目标是为开发者提供
1. Linux 基本命令 GotoLevel Linux编译基础 linux ffmpeg 运维
安装工具包:安装工具包:【1.brew;(MacOS)；2.apt;(Linux-乌班图);3.yum;(Linux-服务器端)】brewsearchffmpeg：在服务源上查找显示ffmepg的安装包;brewinstallffmpeg：安装服务器上的ffmepg包;brewremoveffmpeg:移除安装的ffmepg包；Linux基本命令:ctrl+l:清屏;ctrl+c:取消当前命令;s
FFmpeg、WebAssembly 和 WebGL 在 Web 端的结合应用醉方休 ffmpeg wasm webgl
FFmpeg、WebAssembly和WebGL在Web端的结合应用这三个技术组合可以创建强大的浏览器端多媒体处理解决方案，下面我将详细介绍它们如何协同工作。1.FFmpeg与WebAssemblyFFmpeg.wasm项目概念：将FFmpeg编译为WebAssembly在浏览器中运行特点：完全在浏览器中执行视频/音频处理无需服务器转码保护用户隐私（数据不离客户端）基本使用示例import{cre
FFmpeg 详解醉方休 ffmpeg wasm webgl
FFmpeg详解FFmpeg是一个强大的跨平台多媒体处理工具集，可以用于录制、转换、编辑和流式传输音频和视频内容。以下是FFmpeg的全面解析：一、FFmpeg核心组件ffmpeg-主要的多媒体转换工具ffplay-简单的媒体播放器ffprobe-媒体文件分析工具libavcodec-编解码器库libavformat-多媒体容器格式库libavutil-实用工具库libswscale-图像缩放和色
写一个ununtu C++ 程序，调用ffmpeg ，来判断一个数字电影的音频文件mxf 的采样率（频率），通道数，采样位数 m0_68739984 c++ffmpeg 开发语言
以下是一个UbuntuC++程序，使用FFmpegAPI来检测数字电影音频MXF文件的采样率（频率）、通道数、采样位数：1.安装FFmpeg开发库bashsudoaptupdatesudoaptinstalllibavformat-devlibavcodec-devlibavutil-dev2.C++程序代码(check_mxf_audio.cpp)cpp#include#includeexter
Mac安装moviepy报错问题摸爬滚打李上进 macos python
命令很简单没啥好说的pip3installmoviepy一共遇到两个报错，已经解决了，没有图，但是报错信息可以找到第一条报错：RuntimeError:Noffmpegexecouldbefound.Installffmpegonyoursystem,orsettheIMAGEIO_FFMPEG_EXEenvironmentvariable.解决方法：两条命令brewinstallffmpegbr
ffmpeg将avi转为mp4 & ffmpeg将png转jpg & ffmpeg修改图片视频的尺寸 & ffmpeg旋转视频 & ffmpeg命令大全 computer_vision_chen 嵌入式人工智能 ffmpeg
文章目录图片操作对一个3840x1920的图片的高进行上下填充，形成3840x2160将一个图片宽缩放为640，高等比例缩放png转jpg命令png_to_jpg_2025_6_3.py将图片顺时针旋转90度命令rotate_90_2025_6_3.py视频操作ffmpeg水平翻转，垂直翻转，顺时针旋转180度ffmpeg去掉一个视频的音频将视频尺寸转为640x360（wxh）将视频尺寸转为640
python语言视频格式转换工具程序代码ZXQZQ EYYLTV python 开发语言
importsubprocessimportosimporttkinterastkfromtkinterimportfiledialog,messagebox,ttkimportthreadingimportreclassVideoConverter:def__init__(self,ffmpeg_path):self.ffmpeg_path=ffmpeg_pathdefconvert_video
[Cmake-Android音视频]ffmpeg3.4软硬解码和多线程解码
[Cmake-Android]音视频总结：[Cmake-Android音视频]SDK，NDK基本介绍[Cmake-Android音视频]NDK-r14b编译ffmpeg3.4支持neon,硬解码[Cmake-Android音视频]创建支持ffmpeg3.4的项目[Cmake-Android音视频]ffmpeg3.4实现解封装[Cmake-Android音视频]ffmpeg3.4软硬解码和多线程解码
FFmpeg开发笔记（四十四）毕业设计可做的几个拉满颜值的音视频APP gegey ffmpeg 笔记音视频
合集-FFmpeg开发实战(53)1.FFmpeg开发笔记（一）搭建Linux系统的开发环境2023-04-162.FFmpeg开发笔记（二）搭建Windows系统的开发环境2023-04-293.FFmpeg开发笔记（三）FFmpeg的可执行程序介绍03-094.FFmpeg开发笔记（四）FFmpeg的动态链接库介绍03-105.FFmpeg开发笔记（五）更新MSYS的密钥环03-166.FFm
视频工具箱 1.1.1 |小而美的视频处理工具，支持多种常用功能星图软件库软件分享音视频软件工程
VideoTools是一款基于FFmpeg的小而美的视频处理工具，专为需要快速高效地进行视频编辑的用户设计。这款工具无需安装，体积仅约200KB，提供了视频压缩、格式转换、转GIF、修改分辨率、加速播放以及音频提取等多种常用功能。其用户界面简洁直观，上手即用，首次运行时可自动下载或手动指定FFmpeg路径。此外，VideoTools还支持GPU加速（兼容Intel、AMD、Nvidia显卡），让视
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在

FFmpeg学习之 一 （音视频理论知识）