数字视频概述

本章内容来自《视频编解码器设计-开发图像与视频压缩系统》第二章


数字视频使用离散形式表示的,适合于数字、电子存储与(或)传输的可视化信息。

就本质而言,数字视频是对连续三维场景的二维采样。

数字视频的目标使用“可接受的”画质来实现视频通信。

#####################################################################

视频图像


视频图像是三维场景在二维平面上的投影。它将含有深度、纹理和光照属性的物体构成的三维场景投影到一个二维平面,即可得到该场景的二维表示。在二维表示中包含了多种纹理与光照信息,不过失去了深度信息。一个静止图像(still image)是二维表示在某个特定时刻的快照,而一个视频序列(video sequence)则说明该二维表示经历一段时间的过程。

########################################################################

数字视频


一个真实的视觉场景在时间上和空间上都是连续的。因此进行数字处理就必须对视觉场景进行空间采样(比如采用视频图像中的矩形网格)和时间采样(比如一系列相等时间间隔的静止图像)。是自视频是由视频场景经过时空采样的数字形式表示的。每一个时空采样(描述为一个画面元素或像素点)的数字化表示为一个或者多个数字,分别表达了该采样的亮度和颜色信息。


一个数字视频系统分为三部分

第一部分为输入端。比如一台摄像机,捕捉到一个“真实”的视觉场景,采样后转化为数字表示。

第二部分为数字领域。这个数字视频信号可能经过多种方法来表示,包括处理、存储与传输

第三部分为输出端。该数字视频信号在二维的显示设备上重构成为视频图像或者视频序列提供给观看者。

########################################################################333

视频捕获


视频被摄影机或者摄影系统捕捉。

可将采集视频场景的数字化表示分为两个阶段:捕获(转换场景的投影到电子信号,比如通过CCD阵列)与数字化(对投影时空采样并且将样本转换为一个或者一组数字)。

数字化过程可以通过一个独立设备或者电路板完成(比如PC上的视频捕捉卡),而现在的趋势是数字化过程整合到摄影机中,使得摄影机输出已经是数字化表示了。

#########################################################################3

采样


一副数字图像能够通过对模拟视频信号进行规则采样产生(即大量的电子信号表示一副视频图像)。采样过程的结果是图像的采样版本:采样后图像仅仅定义了一系列的规则空间化的采样点。最常见的采样图像格式是采样点以正方形点阵分布的矩形(通常宽度大于高度)来表示。

图像的视觉质量受到采样点的数量影响。更多的采样点(更高的采样分辨率)能提供更好的图像质量,然而,更多的采样点需要更多的存储空间。

下表列出了一些常用的图像分辨率别且给出一个近似等价的模拟视频质量:VHS视频、广播电视与高清电视

典型视频图像分辨率

图像分辨率

采样点个数

等价于模拟视频

352x288

101376

VHS视频

704x576

405504

广播电视

1440x1152

1313280

高清电视


一个运动的视频图像是由视频信号的时间采样组成,即在周期时间间隔获得的矩形“快照”信号,回放这些帧序列就产生了对运动的视觉效果。更高的时间采样率能够表现更平滑的视频场景运动,但是也需要捕获和存储更多的样本。

低于每秒10帧的帧率通常用于较低码率下的视频通信(因为数据量也很低),会感到运动明显的不连贯与不自然;

帧率在每秒10到20帧之间,则用于典型的低码率视频通信;

帧率在每秒25到30帧之间,用于标准的电视图像(同时采用了隔行扫描);

帧率在每秒50到60帧之间,适合于高质量视频(需要相当高的码率)。


视频帧率

视频帧率

表现

每秒10帧以下

"Jerky"表现出的运动不自然

每秒10~20帧

低速运动效果不错,高速运动和"Jerky"类似

每秒20~30帧

运动相当平滑

每秒50~60帧

运动非常平滑


隔行扫描

使用隔行扫描视频能够提高时间采样的视频序列的视觉效果,因此被广泛应用于广播电视质量的视频信号中。

例如,欧洲PAL制式视频标准,工作帧率为25Hz(即一秒中视频包括25个完整帧)。

然而,为了提高视觉表示而不增加数据率,视频序列被组织成50Hz的场(每秒50场)。每场包括完整帧一半的行数:奇数行和偶数行分别放入两个不同的场,每一场包含了完整帧的一半的信息。

这些场以50Hz的刷新频率捕获和显示,而信号数据率为25Hz。这种视频捕获和显示方法就是隔行扫描,它比仅传输完整帧(逐行扫描)有更好的视觉效果。然而,对于一些特定的纹理和运动,隔行视频可能产生令人不愉快的抒抉赝象。

###################################################################

颜色空间


一个黑白(灰度)视频图像使用单值表示一个时空采样点。这个值表示该采样位置的亮度信息:习惯上,用较大数值表示更亮的样本。如果一个样本用n个二进制位表示,那么0就表示黑色,而(2^n-1)表示白色,中间的其他值用来表示灰度。对于一般的视频应用,每个样本的亮度通常用于8个二进制位表示。更高的亮度深度(比如12位或更高),有时候用于专业应用(比如对X-射线照片数字化)。

为了表示颜色,每个样本需要多个数字位来表示。有几种不同的表示颜色的系统,称为颜色空间。

在数字图像和视频表示中最常用的颜色空间:RGB(红绿蓝)与YCrCb(亮度、红色差、蓝色差)


RGB


在红绿蓝颜色空间中,每个像素用三个数值表示红、绿、蓝三者的相对比例。它们是组成有色光的三种基本色:任何颜色都可以由红、绿、蓝光以一定比例组合来重现。

因为三种分量对最终产生的颜色大致同等重要,RGB系统一般用同样的精度(即同样的比特数)表示每一个分量。常见的每个分量使用8位表示,这样每个像素需要3x8=24位。


YCrCb


有效地表示颜色并不一定需要RGB。人眼的视觉系统(HSV)对颜色的敏感程度比不上对亮度分量的敏感度。然而,RGB颜色空间没有提供一个简单的方法利用这个特点来获得优势,因为三个颜色·分量同等重要而且亮度信息存在于所有的颜色分量中。因此存在一种可能性:将亮度信息从色度信息中分离出来,从而更加有效地表示彩色图像。

因此,另一种通用的颜色空间是Y:Cr:Cb。Y是亮度分量,即一个彩色图像的黑白版本。Y是R,G,B分量的加权平均值:

Y=k1*R+k2*G+k3*B

这里的k*是加权因子。颜色信息表示为色差分量,每个色差分量为R,G,B与亮度Y之间的差:

Cr=R-Y

Cb=B-Y

Cg=G-Y

Y(亮度分量)和三个由颜色强度与背景亮度差产生的色差分量Cr,Cb和Cg一起能完全表示颜色系统。到目前为止,这意味着只有两个色差分量需要被传输,第三个分量总是能够由另外两个计算得到。在Y:Cr:Cb空间,只有亮度(Y)和红色与蓝色色差(Cr,Cb)被传输。


转换RGB图像到Y:Cr:Cb颜色空间与其相反的转换由下所示:

注意:G能够从Y:Cr:Cb表示中提取出来

Y=0.299R+0.587G+0.141B

Cb=0.564(B-Y)

Cr=0.713(R-Y)


R=Y+1.402Cr

G=Y-0.344Cb-0.714Cr

B=Y+1.772Cb


Y:Cr:Cb与RGB相比,关键的优势在于Cr与Cb分量可以表示为比Y分量更低的分辨率,因为HSV对颜色的敏感性不如亮度分量强。这就在不明显降低质量的情况下,降低了表示色差分量所需的数据量:对一个不经意的观察者,对RGB图像和降低了色差分辨率的·Y:Cr:Cb图像是无法发现明显区别的。


有三种通常使用的Cr与Cb分量的子采样模式。4:4:4表示三个分量(Y:Cr:Cb)具有相同的分辨率,因此在每一个像素位置都存在一个分量值(数字表示水平方向的相对采样率,即每4个亮度样本对应4个Cr与4个Cb样本)。4:4:4采样完全忠实地保留了色差分量。

对于4:2:2采样,色差分量具有相同的垂直分辨率但是只有一半的水平采样率(数字表示在水平方向每4个亮度样本对应2个Cr与2个Cb样本)。4:2:2视频通常用于表示高质量颜色。

4:2:0表示Cr与Cb的水平和垂直分辨率都只有Y的一半。术语“4:2:0”听起来相当令人迷惑:数字并不是明确真实的代表这种采样模式所选择的水平采样率。“4:2:0”采样通常用于像视频会议、数字电视和DVD存储这类拥有“大量市场”的数字视频应用领域。因为每个色差分量包括Y分量四分之一的采样点,4:2:0视频正好需要4:4:4(或R:G:B)一半的采样数。


示例:

图像分辨率:720x576像素

Y分辨率:720x576个采样,8位表示


4:4:4 Cr,Cb分辨率:720x576个采样,8位表示

总比特数:720x576x8x3=9 953 280比特


4:2:0 Cr,Cb分辨率:360x288个采样,8位

总比特数:(720x573x8)+(360x288x8x2)=4 976 640比特

4:2:0版本需要4:4:4一半的比特数


此外令人迷惑的是,4:2:0采样有时候被称为“每像素12位”,此时,可以通过考察一组4个像素(上,下,左,右)来想象。

4:4:4采样,总共需要12个采样,Y、Cr、Cb各4个,总共需要12x8=96比特,即平均96/4=24比特/像素;

4:2:0采样,总共需要6个采样,4个给Y、Cr和Cb分别要1个,总共需要6x8=48比特,即平均48/4=12比特/像素

#################################################################


对于视频编码应用,在压缩和存储之前,视频常常转换成一些中间格式。通用的中间格式对应一组通用的帧分辨率,CIF的帧分辨率为352x288像素。

中间格式

格式

亮度分量分辨率(水平x垂直)

Sub-QCIF

128x96

Quarter CIF(QCIF)

176x144

CIF

352x288

4CIF

704x576




你可能感兴趣的:(图像压缩,视频压缩)