音视频知多少(1)声音与视频的基础知识

前言

最近新加入的公司在嵌入式音视频方面算是全国领先水平,因而在完成自己本职的工作的时候有必要在这一方面做一系列的提升,以跟上其他同事的世界,不光光只支持BSP的能力,在我看来也是需要将视频流作为自己的增长点了。

声音的物理性质

声音是由物体振动而产生的,它是一种压力波,使周围的空气产生书迷变化,形成疏密相间的纵波(可以想象成石头落入水中激起来的波纹)

声音的三要素

频率、振幅和波形,这是物理意义上的说法,生活中,音阶的高低其实是频率,响度代表振幅,音色代表波形,一般来讲,生活中经常用分贝来描述响度,当声音超过一定分贝会受不了。音色也好理解,就是当你听钢琴与小提琴的时候,能很容易分辨,因为它的音色不同。

人的耳朵也是有一定的频率范围的,大约为20hz~20khz。注意一般超过90dB就会损害人耳。

回声

我们在高山活着空旷地带高声大喊的时候,经常能够听到回声。回声的调节是两个是声音传到我的耳朵里面要大于80毫秒

共鸣

就是声音进行了传导,如双音叉实验。

数字音频

如何产生数字音频呢?就是将模拟信号转化成数字信号,主要要经历采样、量化和编码。所谓采样呢,就是在时间轴上对信号进行数据化,然后进行量化,何为量化就是在幅度上对信号进行数字化,最后进行编码,即按照一定的格式记录采样和量化后的数字数据,而裸数据就是脉冲编码调制数据(PCM)

PCM的概念

  • 量化格式(位深度)又称之为比特率

  • 采样率

  • 声道数

1B = 8b 即1个字节相当与8位

音频编码

为何要编码? 要是直接采用PCM方式,那么采样所得的数据将非常庞大,那么这个数据能够在网上流传吗?显然你要是这么干了,听首歌都要600多MB,要被人骂死的,于是就要进行压缩。

压缩又分为有损压缩与无损压缩,无损压缩是指压缩后的数据可以完全恢复,有损则就是不可完全恢复。压缩实际上就是压缩掉冗余信号,那么我们人耳听觉范围之外的音频信号就是冗余信息。

WAV编码

PCM(脉冲编码调制),而wav编码就是在pcm数据格式前面加44字节,分别用来描述PCM的采样率、声道数、数据格式等信息,特点:音质非常好,大量软件都支持

mp3编码

使用LAME编码的中高码率,听起来非常接近wav特点:音质在128Kbit/s以上变现还不错,压缩比都比较高,兼容性强

acc编码

这是新一代的音频有损压缩技术,特点:在小于128Kbit/s下的码率表现优异,多用做视频中的音频轨的编码

ogg编码

ogg编码完全免费,只是受支持不好。特点:兼容性差,流媒体基本不支持

视频图像

前面我们已经说了音频相关的知识,下面我们要讨论视频的基础知识,那么我们所见到的白光是咋么构成的呢?就要说到三原色了,红(r)绿(g)蓝(b)。

手机分辨率

我们最长见的一般都是手机分辨率1280*720,那么这个是什么意思呢?其实很简单就是水平方向有720个像素点,垂直方向有1280个像素点,而每个像素点都是由三个子像素点组成的,而这3个像素点就是rgb啊

图像表达

现在我们知道了任何一个图像都可以由RGB组成,那么RGB应该是如何表示的呢?

  • 浮点表示:取值范围为0.0~1.0之间

  • 整数表示:取值范围在0~255或者00~FF之间 这就有点类似于某些平台上表示图像格式的RGBA_8888,还有像android平台的RGB_565的表示方式,5比特表示R,6比特表示G,5比特表示B

然而在视频帧中的裸数据更多的是YUV数据格式表示的。它主要用于优化彩色视频信号的传输,并使其能够向老式黑白电视兼容,与RGB相比,其最大的优点在于只需要占用极少的频宽。“Y”表示明亮度,亦称灰阶数,而“U”和“V”表示的则是色度,描述了影像的色彩以及饱和度,用于指定像素的颜色,色度其实定义了颜色的两个方面-色调与饱和度,之所以用YUV色彩空间,是因为它的亮度信号Y与色度信号U、V是分离的。

YUV与RGB是可以通过公式进行转换的,在这里不具体叙说了,自行百度吧。(而且我们也不需要真的关注他,这里一般显示输出已经帮我们解决了)

视频编码

与音频编码相同,视频压缩也是通过对冗余信号进行压缩,包含时间与空间上的冗余信息。主要去除的冗余信息有

  • 运动补偿

  • 运动表示

  • 运动估计

编码概念

IPB帧:每帧都代表着一副静止的画面,在进行压缩的过程中,采用算法减少数据的容量,其中IPB就是一种。具体不展开说了,这个概念很大,不如大家自行百度,可能得到的信息更加详细。还有DTS主要用于解码,这里还有GOP的概念就是两个I帧之间的图片就是GOP。

你可能感兴趣的:(音视频)