音频和视频基础概念总结

1、音频

声音产生的原理:声音是由物体的震动挤压周围的空气产生声响。

声音的属性:1、物体震动的频率(也就是常说的音阶,人耳能够接受的频率为20Hz到20kHz)2、振幅(音响)3、波长(音色,不同物体的波长不一样,如钢琴和琵琶的音色就不一样)

数字音频的概念:把声音转为模拟信号,再转为二进制的数字信号,一般的处理步骤为:1、采样:根据采样定律,采样频率一般为人耳的感受的频率的两倍的效果较好,为44.1kHz,也就是没秒采样44100次。那采样后如何用二进制表示呢?那就引出第二个概念量化。2、量化:在幅度轴上对信号进行数字化,如用16bit来表示一个声音的采样,那它的取值范围为-32768到32767共有65536种可能,也有用8bit、24bit等,这些量化信号改如何存储。那就引出第三个概念。3、编码:音频储存的原始格式为PCM,这里有几个概念a、采样格式(sampleFormat) b、采样频率(sampleRate),c、声道数(channel) d、量化格式(有的地方为深度,比如8bit、16bit、24bit、32bit),对于声音格式还有一个概念为比特率:即1s内的比特数 = sampleRate*channel*量化格式。例如:采样率44.1kHz,频道数2,量化格式为16bit,则其比特率为:44100*16*2=1378.125kbps(bps为单位),那么改格式一分钟所需要的存储空间为1378.125*60/8/1024=10.09MB,可以看出其所占的存储空间有点,这里就引出另外一个概念为音频的压缩。

音频压缩:音频压缩分为无损压缩和有损压缩,无损压缩是指被压缩后数据可以完全复原,有损压缩压缩后不能完全复原会丢失一部分信息。常见的编码格式:1、wav格式,没有压缩

2、map3格式,具有不错的压缩比 3、AAC编码,新一代的有损压缩技术(常用与直播编码)

2、视频

视频的是有图像组成,首先研究图像的基础知识。

图像的表示方式

1、RGB模式,颜色有R(红)、G(绿)、B(蓝)组成,每个图片像素有RGB三色组成,另外有还有透明度alaph。对于一幅图像,一般使用整数的表示方法来进行描述,比如计算一张1280*720的RGB_8888图像的大小,其大小为1280*720*4/1024 = 3.516MB,这是位图在内存中所占用的大小,对于裸图片的数据还是非常的大,一般采用JPEG的压缩算法进行有损压缩,但是这种压缩不能用于视频压缩,对于视频压缩来讲,还有一个时域的问题,不仅仅要考虑帧内编码、还有帧间编码。

2、YUV的表示方式,其中Y表示明亮度、也称灰阶值。U和V 表示则是色度,它们的作用是描述影像的色彩及饱和度,用于指定像素的颜色。亮度Y是通过RGB输入信号来建立的,方法是将RGB信号的特定部分叠加到一起。色度(U和V):色调和饱和度,分别用Cr和Cb来表示,其中Cr反映了RGB输入信号红色部分与RGB信号亮度值之间的差异,而Cb反映的则是RGB输入信号蓝色部分与RGB信号亮度值之间的差异。常用YUV都是用8个字节来表示、所以取值范围为0-255,YUV的特点:它将亮度信息(Y)与色彩信息(UV)分离,没有UV信息一样 可以显示完整的图像,只不过是黑白的,这样的设计很好地解决了彩色电视机与黑白电视的兼容问题。并且,YUV不像RGB那样要求三个独立的视频信号同时传 输,所以用YUV方式传送占用极少的频宽。[YUV详解参考](https://www.cnblogs.com/samaritan/p/YUV.html)

3、视频的压缩算法简介:1、MPEG压缩算法和H.264压缩算法

IBP帧的介绍

I帧:帧内编码(intra picture),I帧通常是每个GOP(group of picture,图片组是MPGE所使用的压缩技术,两个I帧之间形成的图片组,gop越大视频的质量越高)的第一帧,经过适度的压缩,作为随机访问的参考点,可以当成静态图片,I帧压缩可以去掉视频的空间冗余信息。

P帧:前向预测编码帧(predictive-frame),通过将图像序列中前面已编码帧的时间冗余信息充分去除来压缩传输数据量的编码,

B帧:双向预测帧(bi-directional interpolated prediction frame),既考虑源图像序列前面已经编码帧,又顾及源图像序列后面的已编码帧的时间冗余信息,来压缩传输数据量的编码图像,也称双向预测帧。

通过上面的定义,可以理解为:I帧可以单独解码成完整的视频画面,P帧需要依赖前面的I帧和P帧才能解码成完整的视频画面。B帧需要参考前面的I或者P帧和后面的P帧解码成完整的视频画面,所有P帧和B帧去除的时间上冗余的信息。

IDR帧和I帧的理解:在H264的概念中有一个帧为IDR帧,那么IDR是(instantaneous decoding refresh picture),因为H264采用了多帧预测,所以I帧之后的P帧有可能会参考I帧之前的帧,而IDR帧是一中特殊的I帧,即这帧之后的所以参考帧只会参考这个IDR帧,而不会再参考前面的帧,就会立即清理参考帧缓冲区,并将IDR帧作为被参考的帧

DTS和PTS:DTS(decode time stamp)解码时间戳,PTS(Presentation Time Stamp),在没有B帧的情况下DTS和PTS顺序一致,B帧打乱了DTS和PTS

你可能感兴趣的:(音频和视频基础概念总结)