视频和音频的一些原理性解释

       图片按照一秒24帧的速度变换,人眼就看不出间隙,感觉画面内容动了起来。这是对于视频最广泛的认识,这也是视频的基本原理。但是视频文件,并不是简单的一帧帧画面排列起来的图片集合。
       平时看视频或者处理视频,都会有向上一帧或向下一帧这样的画面跳转,这感觉视频似乎就和原理一样,就是很多连续变化的图片的集合。实际上对于一般视频文件,并不是完全的有一帧一帧组成。
       先来不太严谨地说,很多视频文件,实际上是关键帧+局部像素的运动。
       为什么视频不是直接一堆图片的排列呢?这涉及到存储和播放的问题。看图片也知道,一张图片有时也要1M的大小,对于高清晰图片,占用空间会更大。举个栗子,有时候打开很大海报,ps也会卡一下。而视频是图片的集合,那么一秒24帧的速度看这些图片,无论是存储空间还是处理速度,要求都会很高。所以现在的视频基本都是经过压缩的视频。
       例如,有一个很长的镜头,是一个人在说话。很明显,他身体大部分是不会动的,只有嘴巴那一块动了。压缩处理就会把不动的像素点保留下来,而使嘴巴部分的像素变动。这样视频就不是单纯的一帧帧画面,而是一直在计算处理的像流一样的东西。这也解释了为什么视频剪辑的时候,不能直接将某一部分取出或者两段拼合,而是要通过漫长的重新编码才能做到。因为压缩过的视频不再是严格的图片序列,而是计算着的流,从中截取部分都要经过重新编码,才能获得想要的效果。

       对于音频,很多人有遇到需要分离音轨的情况。例如听到一段音频,背景音乐很好听,但是有人在说话。这时一般是无法彻底分离背景音乐和人声的,因为它们已经经过压缩记录在一起。当然可以通过软件附带的消除人声功能,通过排除人声频段来模拟分离效果,不过这种处理一般不能分离得很干净。要做到音乐和人声的分离,需要文件本身就有两个轨道,分别存放人声和音乐的信息。通常无压缩的音频文件或是能嵌入多轨道的mkv视频文件可以通过分轨来获取单纯的音乐。

你可能感兴趣的:(视频)