除了MPEG,NTSC/PAL和其他类型的视频编解码之外,一个典型的系统经常需要大量的其它视频处理。
由于许多消费类显示器和大部分计算机显示器是逐行(非隔行)扫描方式的,隔行扫描的视频必须转换成逐行扫描方式(去隔行)。逐行扫描视频必须转换成隔行扫描方式来驱动常规的模拟VCR或电视,则需要从非隔行到隔行扫描的变换。
许多计算机显示器的垂直刷新频率是75Hz,而消费类视频设备的垂直刷新频率是25或29.97(20/1.001)帧每秒。对于DVD和DTV,源数据可能只有24帧每秒。这样,一些类型帧频必须进行转换。
另一个不那么隐蔽的问题是缩放。SDTV和HDTV支持各种分辨率,而显示器可能只支持单一固定的分辨率。
阿尔法混合器和色度键控被用来混合多路视频信号或含有计算机产生的文字和图片的视频。阿尔法混合器保证不同视频源之间的平滑交叉,允许文本子像素定位,源传送带宽限制,来简化最终编码成复合视频信号。
由于包括数字视频源之内的视频源没有完美的,用户控制调整亮度,饱和度,色度,清晰度是经常需要的。
当两个8比特值相乘产生一个16比特值。在某些点,为了硬件应用的可实现性,必须对一些低位进行四舍五入(如,16比特到8比特或32比特到16比特)。有一些四舍五入的技巧:截断,传统四舍五入,误差反馈舍入和动态四舍五入。
在四舍五入处理中,截断舍去所有小数数据。这种处理的结果是,几步操作后,可能会导入重大的误差。这可能会导致各颜色区域的轮廓明显。
传统的四舍五入小数部分数据来确定是进位还是舍位。如果小数部分的数值大于等于0.5,就进行进位操作──正数就会变得更大,负数江边的更小。如果小数部分的数值小于等于0.5,就进行进位舍弃操作──正数就会变得较小,负数江边的较大。
误差反馈舍入是基于“从不进行舍弃”的原理。它是通过存储截断残留并和下一个视频采样相加实现的。这种方法降低了有单纯截断引起的图像轮廓区域明显处的可见的量化误差。一个误差反馈舍入的应用例子如图7.1所示。在这个例子中,16比特消减成8比特数据时使用误差反馈摄入。
图7.1 误差反馈舍入
这种技巧(一个宽泰公司的专利)根据舍弃小数比特的全中来动态规定LSB。原始数据被分成两部分,一部分用于表示最后要输出分辨率的数据字,另一部分是处理的小数数据。小数数据和由发生器产生和小数数据分辨率相同的随机数进行比较。比较器输出由小数数据的加权模式的1比特随机数,作为加法器的一个进位输入。在所有情况下,以随机方式,只有输出字的一位LSB改变。一个随即四舍五入的应用例子如图7.2所示。
SDTV和HDTV应用不同的色度特性,如第三章中讨论的。这样当SDTV(HDTV)数据在一个HDTV(SDTV)显示器上显示时,YCbCr数据应该被补偿以适应不同的色度特性。
图7.2 动态四舍五入
一个3×3的矩阵可以被用来将Y601CbCr(SDTV)数据转换成Y709CbCr(HDTV)数据:
注意,在处理之前,8比特的DC偏移(Y是16,CbCr是128)必须被移除,在处理完成后再加回来。
一个3×3的矩阵可以被用来将Y709CbCr(HDTV)数据转换成Y6101CbCr(SDTV)数据:
注意,在处理之前,8比特的DC偏移(Y是16,CbCr是128)必须被移除,在处理完成后再加回来。
将4:4:4的YCbCr转换成4:2:2的YCbCr(图7.3)是数字视频的一个普通功能。4:2:2 YCbCr是许多数字视频接口的基础,应用比4:4:4使用较少连接线路。
包和逻辑应该被用于包含Y,Cb和Cr的数据路径,以限制8比特数据范围为1~254。图7.3中的数值16和128被用来在消影周期产生适当的电平。
图7.3 4:4:4 YCbCrYCbCr到 4:2:2 YCbCr的变换
Y通道的一个低通滤波器模板如图7.4和表7.1所示。
因为可能有许多转换阶梯(假设最大10个),所以滤波器设计是遵守非常严格的公差,以避免视觉影像交叠。处于平幅和群延时的考虑,滤波器是逐级分段放大的。例如,如果滤波器在1MHz处是-1dB,在1.3MHz处是-3dB,在4个分段转换后(假设每个分段2级滤波),整个响应在1MHz处是-8dB,在1.3MHz处是-24dB。
虽然大幅消减导致在Y边界会产生振铃消影,但是适当的群延时处理应该能减少视觉上的响应。当级联多个滤波操作时,通带平坦度和群延时特性非常重要。通带公差加上急剧截变,使模板匹配非常困难(也有说不可能)。作为一个结果,降低通带的准确度通常就有诱惑性,但是最好的方法是降低截变斜率,并尽量保持通带的平滑度。
图7.4 Y通道滤波模板 FS=Y1×采样率
频率范围 |
典型的SDTV公差 |
典型的HDTV公差 |
通带纹波公差 |
||
0~0.4FS |
从±0.01dB增加到±0.05dB |
±0.05dB |
通带群延时公差 |
||
0~0.27FS |
从0增加到±1.35ns |
±0.075T |
0.27FS ~0.4FS |
从±1.35ns增加到±2ns |
±0.110T |
表7.1 Y滤波纹波和群延时公差 FS=Y1×采样率,T=1/ FS
Cb和Cr被低通滤波和抽样。在一个标准设计中,低通和抽样滤波可以合成一个滤波器,并且一个滤波器可以用于对Cb和Cr信号的复合滤波。
像Y滤波一样,Cb和Cr低通滤波需要一个陡截变来阻止分辨率的累积损耗重复变换。然而,由于地截止频率,陡截变产生的振铃效应比Y通道更加明显。
Cb和Cr通道的一个滤波器模板如图7.5和表7.2所示。
由于色差信号混叠现象的减少,在半采样频率的衰减只有6dB。使用反对称滤波优点是响应穿过半采样频率的在-6db点──这使得在滤波器0使用可变系数,几乎减少一半的抽头数,也允许一个数字滤波器同时处理Cb和Cr信号。使用横向数字滤波器的优点是提供完美的线性相位响应,消除需要对群延时的校正。
和Y滤波器一样,通带平坦度和群延时特性非常重要。最好的方法是降低截变斜率,并尽量保持通带的平滑度。
图7.5采样率从4:4:4到4:2:2变换的数字滤波对于Cb和Cr通道滤波模板 FS=Y1×采样率
频率范围 |
典型的SDTV公差 |
典型的HDTV公差 |
通带纹波公差 |
||
0~0.20 FS |
从±0.01dB增加到±0.05dB |
±0.05dB |
通带群延时公差 |
||
0~0.20FS |
设计的延时失真为0 |
表7.1 CbCr滤波纹波和群延时公差 FS=Y1×采样率,T=1/ FS
在YCbCr色度空间的工作简化了对亮度,对比度和饱和度的控制,如图7.6所示。也表示了允许输出黑屏、蓝屏和彩条信号的多路复用。
设计者也应该确定没有环绕错位而产生的上溢或下溢,有效的归一化的结果范围是0~255。
图7.6 色调,饱和度,对比度和亮度控制
为保证黑电平是0,Y数据减去16。这消除了直流偏移,所以改变对比度不影响黑电平。由于输入的Y数据值可以是小于16,所以在这一点上应该支持负的Y值。
对比度(即“图片”或“白电平”)控制是通过将YCbCr数据乘以一个常数实现的。如果Cb和Cr不进行调整,那么当对比度变化时将导致颜色偏移。一个典型的8位对比度调节范围是0~1.992×。
亮度(即“黑电平”)控制是通过增加或减少Y数据来实现的。亮度在对比度之后操作是为了避免由于对比度操作而引入DC偏移。一个典型的6位亮度调节范围是-32~+31。
最后,在黑电平16处加16。
为保证黑电平是0,Cb和Cr数据减去128。
色调(即色彩)控制用混合Cb和Cr数据来表示:
这儿 是所需的色度相角。一个典型的8比特的可调色度相角是-30o到+30o。
饱和度(即颜色)控制是将Cb和Cr数值乘以一个常数来表示。一个典型的8比特饱和度的可调范围是0~1.992×。一个例子如图7.6所示,对比度和饱和度相乘得到CbCr数据通道的数据。
最后,从Cb和Cr数据中减去128.
YCbCr转换应该要一致。然而,Cb和Cr由于窄的色差带宽经常被消减。
通过同步监测Y转换,可以看出比合成Cb和Cr的转换要快。它们的边界和Y的边界对齐,如图7.7所示。
另外,Cb和Cr的转换可能会分化,其结果加到原始的Cb和Cr信号中。应该通过取心抑制使分化的信号幅度减小。由于过冲和下冲需要消除“颜色差错”,增强的CbCr信号应该被限制与适当的范围。
在某些情况下,Y的上升和下降时间也被人为缩短用于锐化图像。
图7.7色彩瞬态改善
通过增加亮度信号高频分量的幅度可以明显增加图片的清晰度。
如图7.8所示,可以使用一个简单的可选增益带通滤波器(也叫做峰值滤波器)。最大增益的频率可选在在色彩副载波频率或2.6MHz处。典型地,一个取心电路位于滤波器后面以减小低电平噪声。
图7.8简单可调清晰度控制(a)NTSC(b)PAL
图7.9更复杂的清晰度控制(a)典型应用(b)取心功能
图7.9表示了一个更复杂的清晰化控制电路。高频亮度信号通过可调增益的可变带通滤波器进行增强。取心功能(典型±1LSB)移除低电平噪声。然后将修改后的亮度加到原来的亮度信号中。
由于这项技术是人为提高视频信号的高频分量,所以将要压缩的视频信号不应该被使用,因为这样将会降低压缩率。
除了可选增益之外,高频可选衰减也应该被支持。许多电视为显著提高图像的清晰度而提高高频增益。如果它用于压缩(如MPEG)的资源,图像质量就会大大降低。虽然电视上的清晰度控制会可能会被拒绝,它会影响模拟广播图像的质量。所以许多MPEG源用可选的高频衰减来减少电视清晰度控制带来的影响。
视频混合可以像两路视频源切换一样简单。如果生成的视频被显示于计算机监视器,这是适当的。
对于其它的大部分应用,一项被叫做阿尔法混合的技术被使用。阿尔法混合也可以被用于淡入淡出或从一个特定的颜色(如黑色)或覆盖计算机上的文本和图像到一视频信号。
如果视频要编码成复合视频信号,阿尔法混合必须被使用。否则在视频源的切换点可能会出现振铃和模糊,如在计算机产生的文本和图像的边界周围处。这是由于彩色信息在通过NTSC/PAL编码器的低通滤波器处。如果使用高的截变,快速颜色变换会导致振铃效应。此外,强度信息在视频通道的某处4~5MHz带宽限制,强度变换减缓。
数学上,阿尔法的规范范围是0~1,实现阿尔法混合如下:
out =(alpha_0)(in_0)+(alpha_1)(in_1)+…
在这种情况下,每个视频源有其各自的阿尔法信息。阿尔法信息可能无法达到1(单位增益)。
图7.10所示是两路YCbCr视频信号的混合,每路有其各自的阿尔法信息。由于YCbCr使用二进制偏移标识,偏移量(对于Y是16,对于Cb和Cr是128)在视频混合前被移除。注意,两路4:2:2的YCbCr流也可以直接处理;没有必要将它们转换成4:4:4的YCbCr信号,混合,然后再将结果转换回4:2:2的YCbCr格式。
当只有两路视频源混合,并且alpha_0 + alpha_1 = 1(实现交叉推杆)时,一个单一阿尔法值可能被使用,数学形式是:
out =(alpha_0)(in_0)+(alpha_1)(in_1)
当alpha = 0时,输出等于in_1视频信号;当alpha =1时,输出等于in_0视频信号。当alpha的值是0~1之间时,两视频信号按比例相乘,并相加。
图7.10 两路YCbCr视频信号的混合,每路有其各自的阿尔法通道
扩展和从组织前面的公式可以表示怎样将两通道的混合使用一个乘法器表示:
out =(alpha)(in_0 - in_1)+in_1
通过设置其中之一的输入源,减去一特定的颜色得到稳定的颜色。
图7.11表示使用一个阿尔法通道混合两路YCbCr视频源。图7.12和图7.13表示混合两路R’G’B’(R’G’B’的数值范围是0~255)视频源。图7.14和图7.15表示的是混合两路数字分量视频信号。
图7.11 简化的使用单个阿尔法通道混合(交叉推杆)两路YCbCr视频信号
一个常见的问题是使用阿尔法的计算机图像系统,帧缓存可能包含处理过的R’G’B’或YCbCr数据;就是,帧缓存中的R’G’B’或YCbCr数据已经经过阿尔法乘法。假设一个阿尔法系数是0.5,未处理的白色R’G’B’A的值是(255,255,255,128);处理过的白色R’G’B’A值是(128,128,128,128)。所以任何混合电路都应该能接收和处理帧缓存中的R’G’B’或YCbCr格式的数据。
通过调整阿尔法的值,可以减慢快速的淡入淡出,如图7.16。样本点之间大的阿尔法差异导致了快速淡入淡出;小的差异导致慢的淡入淡出。如果对特殊响应,如切换特效使用阿尔法混合,那么切换点(这儿每个视频源的50%)必须能够被调整到小于一个采样点以保证平滑移动。通过控制阿尔法值,切换点可以在任何地方定位,如图7.16a所示。
图7.12混合两路RGB视频信号(RGB的范围是0~255),每路有其各自的阿尔法通道
图7.13简化的使用单个阿尔法通道混合(交叉推杆)两路RGB(RGB的范围是0~255)视频信号
图7.14混合两路数字分量视频信号,每路有其各自的阿尔法通道
图7.15简化的使用单个阿尔法通道混合(交叉推杆)两路数字分量视频信号
图7.16 控制阿尔法值的应用(a)快速或(b)慢速键控。
在(a)中,有效的切换点位于两个采样点之间,在(b)中,这种转换更广泛并即时采样点对齐。
通过对阿尔法输入产生一个特性控制,文字可以覆盖于视频上方。通过设定一个输入源的为固定颜色,文字颜色就被假定成那种颜色。
注意,对于这些设计,在开始处理之前对Y通道减去16(黑电平),在转换之后负的Y值应该被支持。这允许设计在通过现实使用时,视频测试信号伪影降到最小。
键控涉及指定所需的前景色;含有这种颜色的区域和背景图像互换。另外,任何大小或形状可以被指定;位于该区域内部(或外部)的前景色区域用背景图像代替。
亮度键控包括指定前景亮度电平;前景区域的亮度电平高于(或低于)键控电平就和背景图像进行切换。
反过来,通过设定两个前景图像亮度的两个阈值,这种硬件键控应用可以用软件键控来代替,阈值是:YH和YL(YL<YH)。为将背景色切换到前景的白色区域,前景的亮度值(YFG)大于时YH,用背景图像代替;YFG的值小于YL时则只包含前景色。对于包含于YL和YH的YFG值,则使用前景图和背景图的线性组合。这个操作可以用下面的方法所示:
if YFG > YH
K = 1 = background only
if YFG < YL
K = 0 = foreground only
if YH ≥ YFG ≥ YL
K = (YFG – YL)/(YH – YL) = mix
K减去1,就得到一个新的亮度键控信号,就生成了前景区域黑色键控。
图7.17所示是两路YCbCr源的亮度键控。虽然色度键控典型使用从前景图像中移除信息的抑制技术,但是,当亮度键控在Cb和Cr的幅度经常于亮度电平无关时,不使用该技术。
图7.18显示的是R’G’B’源的亮度键控,这在计算机图像中应用比较多。YFG可以通过下面方程获得:
在某些应用中,红色和兰色数据被忽略,YFG就等于绿色数据。
图7.19显示的是一项两路数字分量视频源的亮度键控技术。
色度键控涉及指定所需的前景键控颜色;前景区域包含了键控颜色来替代背景图像。Cb和Cr被用来指定键控颜色;亮度信息可能被用来增加现实色度键控功能。真正混合两路视频源可以在分量或复合域进行,虽然分量混合减少模糊。
图7.17 两路YCbCr视频信号的亮度键控
图7.18 两路RGB信号的亮度键控。RGB范围0~255
图7.19 两路数字分量视频信号的亮度键控
早期色度键控电路简单使用硬件或软件在前景和背景之间切换。除了限制前景图像许多保留细节,背景图在透明或半透明的前景图中不可见,前景图的影子在包含背景图像区域不存在。
线性键控在按键的电平按比例混合前景和背景图中发展,结果是在包含背景图的区域前景图渐渐衰减。虽然允许前景资料透明显示,但是仍然限制保持前景细节。在包含背景的区域前景影子也不存在,除做了非额外的处理──背景图像的指定区域的亮度电平必须降低以产生前景物体的投影效应。
如果兰色或绿色背景使用,前景场景均匀照亮,除了前景的物体投影,在背景上的效应将是前景物体的投影。这个处理,指的是色度投影键控,即亮度调制,使背景亮度电平在前景场景背后按亮度比例调整。这个结果是,对于透明或半透明的前景物体保持了重要区域的光谱的现实键控。
注意,由于低的色度噪声,现在一般更倾向于使用绿色背景。
色度键控也限制了它们处理前景色的能力,关闭键控颜色不切换背景图像。另一个问题可能是由于兰色背景或镜头散射的兰光反射是前景物体偏蓝。由于偏色不是原始键控颜色,所以偏色是难以避免的;一些混合,略微改变了原始键控颜色。
一种解决许多色度键控问题的方法是在混合前景和背景图像之前先对它们分别进行处理,如图7.20所示。而不是选择前景和背景之间,先单独处理,繎后再混合。图7.21所示是在色度键控期间,对前景和背景图像的主要处理步骤。图7.20中没有显示的是电路上初始时对前景和背景视频信号Y减去16,或对Cb和Cr减去128,在最后输出是对Y加16及对Cb和Cr加128。任何DC偏移没有被移除,并将被前景和背景阈值因子放大或缩小,背景电平被平移。
图7.20 典型的色度分量键控电路
前景键(KFG)信号和背景键(KBG)信号的范围是0~1。垃圾避罩键控信号(单词避罩来自于电影工业)强制混合器输出两种方式之一的前景源源。
第一种方法是随着KFG增大按比例降低KBG。这提供了在插入前景时最小化边缘黑色的优点。
第二种方法是对于所有非零的避罩键控值强制背景为黑色,并在背景的“黑点”中插入前景图像。这需要一个黑电平边缘清除噪声的函数,由于增加了的处理,这个噪声影响了背景图片。
垃圾避罩被加到了前景键控信号(KFG)中,作为非加混合气(NAM)。一个非加混合器使用了两个图像中较亮的一副,基于一个采样点接着一个采样点,产生键控信号。避罩是任何源产生它的理想键控信号,如字符发生器,等等。
键控发生器监控前景的Cb和Cr数据,生成前景键控信号,KFG。如图7.22所示,一个期望的色度键控被选择。前景图的Cb和Cr数据被归一化(产生Cb’和Cr’)并旋转角度θ以产生X和Z数据,使得X轴的正方向可以尽量靠近所选的键控颜色。典型的θ增量为1o,当X轴经过键控颜色时,最佳的色度键控出现。
X和Z通过下面方程有Cb和Cr推导得到:
图7.21 色度键控期间的重要处理步骤
(a)原始前景图场景
(b)延时背景图场景
(c)抑制的前景图场景
(d)背景键控信号
(e)背景场景乘以背景键控后的图像
(f)混合(c)加(e)后产生的场景
图7.22对归一化的Cb和Cr(Cb’和Cr’) 沿坐标轴旋转θ得到X和Z轴,
使得X轴经过期望的颜色键控(这里以兰色为例子)
由于Cb’和Cr’是归一化的,值的范围是±1,所以X和Z的值的范围也是±1。
前景的监控信号(KFG)是有X和Z产生的,它的范围是0~1.
这儿 是可接收的角度,对于X轴正向中心对称,如图7.23所示。对于在可接收角度之外,KFG被设成0。在可接收角度之内,KFG随着接近前景色的键控色的色度增大而增大。可接收角度之内的颜色在通过前景抑制做进一步处理。
前景抑制器通过X=X-KFG,使用键控颜色钳位到黑电平,减少背景颜色信息。为了避免当KFG = 0时处理Cb和Cr,前景抑制器进行入下操作:
这里,CbFG和CrFG是通过键控颜色抑制后的前景Cb和Cr值。前面对前景信息的抑制操作是通过对Cb和Cr乘以一个限幅版本的KFG信号。然而,由于乘法和裁剪产生的带内带别名的分量,在键控颜色的边界产生了硬边界。
图7.23 前景键控值和可接收角
如果CbFG和CrFG分量完全位于X轴,那么它们的值被设置成0,除非额外的处理被做。由于噪声或照明导致的色调变化将导致前景区域不被完全抑制。所以,抑制角被设置成沿X轴正方向对称。抑制角(β)典型是可设置的,最小0度,最大大约是可接收角(α)的1/3。任何CbCr分量在抑制角之内设置为0。图7.24所示是使用抑制角。
前景亮度信号,在归一化后的值范围是0~1,被抑制为:
YFG = Y’-ySKFG
YFG = 0 如果 ySKFG > Y’
这儿,yS是可编程的值,被用来调整YFG,所以它在键控颜色区域的黑电平出被剪切掉。
前景抑制器也对需要的前景区域消除了键控颜色条纹,导致色度泄漏,键控颜色过界,通过消除需要前景物体的褪色。
Ultimate?抠像工具开发用于这种处理,测量蓝色和绿色的颜色区别,由于蓝色背景并不是纯蓝,并且在前景物体可能有高的蓝电平。纯蓝色在自然界中很少,大部分自然界的蓝色包含的绿色成分多于红色。由于这个原因,红、绿和蓝电平监测期望的前景物体以区分蓝色背景和蓝色。
图7.24 从红色前景色渐变到蓝色键控色的抑制角操作
(a)单抑制器(b)使用抑制角的增强抑制器
如果蓝色和绿色的差别足够大,为了产生黑色所有3种颜色的设置成0;这是前景区域包含兰色背景发生的情况。
如果蓝色和绿色的差别不是很大,那么在绿色超过红色的情况下蓝色设置成绿色电平。这种技术允许消除由蓝色背景引起的蓝色偏色,同时能够在前景再现自然蓝色。作为一个例子,一个白色的前景区域一般包含等量的红、绿、蓝电平。如果白色区域受键控颜色影响(这种情况下蓝色),它将有一定的偏蓝──蓝色电平将比红色或绿色电平高。由于绿色没有超过红色电平,蓝色电平就和绿色电平相等,消除了偏蓝色。
然而,这儿有一个代价。前景的品红变成了红色。绿色背景可以被使用,但是在这种情况下,前景的黄色被修改。通常,钳位在品红区域逐渐增加蓝色分量。
键控发生器产生初始的背景键控信号(K’BG)移除前景可见的背景区域图像。在需要的前景区域和没有衰减的统一背景区,K’BG调整到0。它是通过使用提升(kL)和增益(kG)调整的前景键控信号产生的。跟随在0处的剪切和统一值是:
K’BG = (KFG – kL)kG
图7.25所示是背景键控信号的产生操作。在K’BG = 0和K’BG = 1之间的转换应该被做成尽可能的宽以最小化在前景和背景区域的不连续性。
图7.25 背景键控生成器
对于包含相同CbCr值的前景区域,但是它们的亮度(Y)值不同,作为键控颜色,键控生成器也可以在前景亮度电平增加时减小背景键控值,允许在前景区域包含“亮度”键控色关闭背景,如蓝色光。这通过一下方程完成:
KBG = K’BG – yCYFG
KBG = 0 如果YFG > KBG
为了处理前景物体投下的阴影和不透明或半透明的前景对象,前景图像的蓝背景亮度电平被监测。哪儿蓝色背景亮度被减小,那儿的背景图像亮度也被减小。背景亮度的减少量必须被控制以使蓝色背景(如接缝或印迹)的缺陷不解释为前景的阴影。
额外的控制可以使用来使前景和背景信号被单独控制。例子是通过各种方法来调整前景对比来匹配背景或匹配前景褪色(如衰减背景使前景物体消失或衰减黑色来一个剪影)。
在计算机环境中,可以相对慢的,平滑的边界──特别设计平滑阴影边界。对于平滑边界很容易在色度键控处理器件扭曲,宽的键控处理通常用于这些情况。在宽键控期间,在物体图像边界之前开始使用键控信号。
在某些情况下,分量信号(如YCbCr)不是直接存在的。在这些情况下,可以使用复合色度键控,如图7.26所示。
图7.26 典型的复合色度键控电路
为了监测色度键控颜色,前景视频源必须被解码来产生Cb和Cr颜色差异信号。键控信号,KFG,被用来混合两复合视频源。垃圾避罩键控信号通过减小KFG强制混合器输出背景源。
色度键控使用复合视频信号由于不合适的颜色带宽,经常导致不实际的键控结果。作为一个结果,将缺少好的细节和在边界存在光晕。
视频编辑系统也可以使用超级黑键控。在这种应用中,前景复合视频信号区域有0~5 IRE的电平来代替背景视频信息。
由于有各种视频分辨率(表7.3),缩放通常在每种解决方案中都需要。
显示器 |
标清源 |
高清源 |
||
704×480 |
640×480 |
704×3601 |
704×4321 |
1280×720 |
854×480 |
800×600 |
480×480 |
480×576 |
1440×8162 |
704×576 |
1024×768 |
528×480 |
|
1440×10402 |
854×576 |
1280×768 |
544×480 |
544×576 |
1280×1080 |
1280×720 |
1366×768 |
640×480 |
|
1440×1080 |
1280×768 |
1024×1024 |
704×480 |
704×576 |
1920×1080 |
1920×1080 |
1280×1024 |
|
768×576 |
|
1.16:9信箱时在4:3显示器
2.2.35:1失真在16:9 1920×1080显示器
3.1.85:1失真在16:9 1920×1080显示器
表7.3 消费类显示器和广播源通常的分辨率
当产生的东西将要在SDTV上显示时,计算机用户必须考虑如文本尺寸,线宽等等。例如,由于做了下变换,在1280×1024计算机显示器上可以辨别的文本在SDTV显示器上可能不可辨别。在25-或29.97-Hz刷新频率的隔行扫描SDTV上窄的水平线可能完全消失或闪烁。
注意,分量视频信号(如R’G’B’或YCbCr)缩放必须被处理。由于存在彩色副载波相位信息,复合彩色视频信号不能直接缩放,缩放后可能毫无意义。
一般,输出采样点之间的空隙可以被定义成目标增量(tarinc)值:
tarinc = I / O
那儿,I和O是输入(I)和输出(O)的采样数量,或者是水平的,或者是垂直的。
第一和最后的输出采样点可以通过第一和最后输入采样点对齐,通过对方程调整为:
tarinc = (I-1)/(O-1)
这之所以被叫做“最近的邻居”缩放是由于只有最近的输入样本被输入样本使用。
最简单的图像缩小方式是删除像素点,水平方向和垂直方向的每(n)个像素丢弃(m)个像素。同样,修改版本的Bresenham画线算法(在大多数计算机图形的书中有描述)典型被用于确定哪些采样点不被删除。
最简单的图像放大方法可以使用像素复制来实现,在水平和垂直方向每(n)个像素复制(m)个像素。同样,修改版本的Bresenham画线算法典型被用于确定哪些采样点被复制。
由于视觉伪影和分量锯齿的引入,所以不建议使用图像缩放的像素删除和复制技术。
一个提高视频图像缩放质量的可能方法是使用线性插值。当需要输出缩小两路输入采样点(水平或垂直)时,输出采样点通过两路输入采样的的线性插值计算得到。然而,图像缩小超过原始图像的一半时任然需要删除采样点。
图7.27所示是垂直方向缩小一副16:9的图像到4:3显示屏显示。一个简单的双线性垂直滤波器通常被使用,如图7.28a所示。两行源样点,Ln和Ln+1,加权相加组成目标样点,Dm。
D0 = 0.75L0 + 0.25L1
D1 = 0.5L1 + 0.5L2
D2 = 0.25L2 + 0.75L3
然而,如图7.28a看到的,这导致行间距不均匀的结果,并可能导致伪影。图7.28所示的垂直滤波方式输出的结果是,输出的行间距更加均匀:
D0 = L0
D1 =(2/3)L1 +(1/3)L2
D2 =(1/3)L2 +(2/3)L3
线性插值器是一个贫乏的带限滤波器。过高的不必要的高频细节被删除,大量高于那奎斯特限制的能量任存在,导致锯齿效应。
图7.27 16:9图像垂直缩小到4:3显示器显示
(a)480行系统
(b)576行系统
图7.28 16:9图像75%垂直缩小到4:3显示器显示
(a)不均匀行距
(b)均匀行距
抗锯齿重采样
最需要的办法是在水平和垂直方向上确保频率内容和图像尺寸成比例。
图7.29所示是基本的抗锯齿重采样处理。输入数据在A处超采样,然后经过低通滤波滤除插值处理产生的图像频率。滤波器B带限滤波信号,移除B重采样处理将增加的频率分量。
图7.29 通用抗锯齿重采样结构
滤波器A和B通常合并成单一滤波器。滤波器的响应很大程度上确定了插值的质量。理想的低通滤波器有一个非常平坦的通带,在最低采样频率(输入或输出)的一半处有一个尖锐的截止,和一个极高的阻带衰减。然而,由于这种滤波器在边界处会产生振铃效应,通常可取的做法是从通带顶部慢慢下降。这使得图片略显柔和,但振铃效应不明显。
滤波器通带纹波和阻带衰减提供了测试缩放的质量,而主观的振铃效应意味着一个平坦的通带可能并没有想象的那么好。高的阻带衰减总是一件很好的事。
基本上有3种一般的重采样结构。每一种以各种方式结合图7.29的基本结构。
一种方法是一个可变带宽的抗锯齿滤波器跟随在各个复合插值器/重采样器之后。在这种情况下,对每个缩放因子滤波器需要新的系数──当缩放因子变化,图像的质量可能也变化。除此之外,如果线性插值被使用,整体响应就不佳。然而,滤波器的系数时不变,也没有增益问题。
第二种方法是合并的滤波器/插值器跟随在超采样器后面。一般,插值阶数n越高,整体响应越好。一般滤波器传递函数的中心对准了新的输出样点。对于每个缩放因子,为保持对准n个输出点,滤波器的传递函数被拉伸或压缩。所以,滤波器的系数和输入样点的输入随着么个输出样点和缩放因子而改变。为了确保滤波器系数的和保持等于1,动态增益归一化是必须的。
第三种方法是一个插值器跟随在一个复合的滤波器/超采样器之后。输入数据插值到输入输出率0样点的最小公倍数。这是被一个有限冲击响应(FIR)低通滤波器滤波在0填充空白样本插值,然后在需要的位置进行重采样。这种设计通常取得一个“多相”滤波器,它通常随着输入和输出样本变化切换它的系数。
图7.30到7.38分别显示了16:9和4:3图片缩放到4:3和16:9显示器的各种缩放例子。
图7.30 16:9原始图像例子
图7.31缩小16:9图像到4:3显示:“普通”或泛和扫描模型
导致了一些16:9内容的丢失(灰色区域部分)
图7.32缩小16:9图像到4:3显示:“信箱”模型
16:9节目全部可见,显示器的顶部和底部含有黑条
那些内容被显示由用户的喜好和宽高比共同决定。例如,当需要在4:3的显示器上显示16:9的内容时,许多用户倾向于满屏填充的剪切图片(图7.31)而不是可以看到黑或灰条的信箱解决方案(图7.32)。
此外,一些显示器错误地假设它们YPbPr输入口输入的任何逐行扫描视频信号来源于“变换过”的视频源。这样的结果是,当没有使用缩放变换时,它们在水平方向损失25%的逐行扫描16:9高清节目。所以,对于机顶盒,包含“16:9(压缩)”模式是有用的,为通过16:9显示器水平像素提升,逐行扫描16:9节目水平方向25%缩小预处理。
图7.33缩小16:9图像到4:3显示:“挤压”模型
16:9节目水平方向压缩到适合4:3显示,导致了图片的扭曲
图7.34 4:3视频源例子
图7.35放大4:3图像到16:9显示:“普通”模型
16:9显示器的左边和右边部分没有被使用,所以产生了黑或灰条
图7.36放大4:3图像到16:9显示:“拉宽”模型
整幅图像水平方向线性拉伸以填充16:9显示器,
除非使用变形内容,否则导致图像扭曲
图7.37放大4:3图像到16:9显示:“放大”模型
4:3顶部和底部部分图像被剪切,然后放大填充到16:9显示器
图7.38放大4:3图像到16:9显示:“全景”模型
左边和右边边界处25%的图像水平方向非线性放大到填充到16:9显示器,
扭曲了左边和右边边界部分的图像
扫描速率变换
在许多情况下,一些形式的扫描速率变换(也叫做时空率转换,帧率变换或场率变换)是需要的。多标准模拟VCRs和扫描变换器用于扫描速率变换来转换多种视频标准。计算机的显示器通常使用75Hz的非隔行扫描操作,而可能需要显示的是50~60Hz的隔行视频。对于数字电视,多种刷新率可以被支持。
注意,处理必须在分量视频信号(如R’G’B’或YCbCr)进行。由于存在彩色副载波相位信息,处理之后毫无意义,所以复合彩色视频不能被直接处理。
简单的扫描率变换处理可以是每M场删除或者复制一场。例如,需要将60-Hz的隔行扫描变换成50-Hz的隔行扫描,执行的操作可以是没六场删除一场,如图7.39所示,存储一场视频。
图7.39 60-Hz到50-Hz的变换,存储一场,6场中删除一场
这项技术的缺点是观众可以看到运动抖动,即运动“抖动”。除此之外,某些MPEG解码器仅使用顶场来完成60Hz到50Hz的转换,降低垂直方向的分辨率。
当一个非整数的扫描率被转换时,会出现最糟糕的伪影,例如,当某些图像被显示3次,而另一些则被显示两次。在这种情况下,观众可能看到重影和模糊的物体。由于人类的大脑跟踪连续帧的对象,它希望看到一个常规的场景序列,调节明显的停止-启动物体的运动是困难的。因此,它得到有两个物体在平行移动的错误结论。
这项技术根据需要产生的帧率从原始图像产生新的图像。过去和将来的输入帧信息应该被用来优化处理物体的显示和不显。
使用时间内插来将50-Hz到60-Hz的变换操作如图7.40所示。对于每5场的50-Hz视频,将产生6场60-Hz视频。
图7.40 使用时间内插没有运动补偿的50-Hz到60-Hz的变换
在两个视频源对准之后,两个相邻的50-Hz场混合产生一个新的60Hz场。这种技术用于低成本的625/50和525/60标准之间的转换。注意,这里没有运动分析。所以,如果照相机在一个窄的垂直物体之后进行平坦的625/50水平操作,每6场525/60你看到一次物体,对于5场之间,你将会看到两个物体,一个淡入,一个淡出。
图7.41所示是一个应用于垂直方向的扫描率变换器,后面跟随时间,内插器。图7.42所示是图7.41实际的频谱表示。
现在的许多设计者综合垂直变换和时间内插器到单个设计中,如图7.43所示,它的相关频谱表示如图7.44所示。这个例子的垂直变换器后跟随时间,内插器。如果先是时间,然后垂直变换,再插值器被使用,那么场存储器只需要一半存储容量。但是,行存储器容量将要从4行增加到8行。
在这两种情况下,第一个插值器必须产生一个中间值,更高分辨率的逐行扫描格式避免隔行分量干扰第二个插值器的处理。由于插值处理不能弥补的时间隔行扫描线偏移,使用来自两场行的混合器,在垂直或时间上不足以插值。
更高质量的扫描速率变换器使用时间内插和运动补偿结合的方法以减少运动伪影。这将使视频极其流畅,接近自然运动,图像更清晰,不会产生运动“抖动”现象。
图7.41 典型的625/50到525/60变换,垂直器跟随时间,插值器
在扫描速率变换中的运动估计与MPEG中的运动估计不同。在MPEG中,目标是通过搜寻后续帧之间区域的高相关性以最小化帧内差别的替换。由此产生的运动矢量不一定真正复合真实的运动矢量。
对于扫描速率变换,重要的是确定真实的运动矢量信息,来执行正确的时间内插。该插值应该对错误的运动矢量能容错,以避免引入那些技术上试图消除的伪影。运动矢量由于几个原因可能导致不正确,如没有足够的时间来跟踪运动,超出运动矢量范围,和由于锯齿而导致的估计困难。
图7.42 垂直变换器的谱表示,跟随时间,插值器
(a)垂直低通滤波
(b)中间序列格式重采样和时间低通滤波器
(c)最后标准重采样
图7.43典型的625/50到525/60变换,混合垂直器和时间内插器
图7.44混合垂直变换器和时间内插器的谱表示
(a)二维低通滤波
(b)最后标准重采样
100Hz隔行扫描电视例子
一个标准的PAL电视每秒播放50场视频。图像闪烁,尤其是当观看大面积高饱和彩色图像时。大大提高图像质量可以使用一个100Hz的隔行扫描刷新速率(也称为双倍扫描)。
早期的100Hz电视简单重复场(F1F1F2F2F3F3F4F4…),如图7.45a所示。然而,它们任然存在线闪烁,水平线在奇数行和偶数行之间不断地跳变。这种干扰每秒发生25次。
可以使用行序列顺序F1F2F1F2F3F4F3F4…,它能解决线跳变问题。不幸的是,这导致了移动图像的跳变问题。可以复合使用两种序列,F1F2F1F2F3F4F3F4…用于静止图像;序列F1F1F2F2F3F3F4F4…用于移动图像。
当观看胶片节目时,理想的图像获得方法任然没有。由于每个胶片被传送两次的事实,它们都产生抖动。用场序列F1F1’F2F2’F3F3’F4F4’…(图7.45b所示)代替场序列F1F2F1F2F3F4F3F4…的情况,这儿Fn’是图像Fn和Fn+1之间产生的运动补偿图像。
图7.45 50Hz到100Hz(双倍隔行扫描)技术
这种技术用于一些基于50Hz领域的电影MPEG内容。电影一般以每秒24帧速率记录的。
在MPEG编码期间,电影机从每秒24帧增加到每秒25帧,产生每秒25帧的逐行扫描视频。在MPEG解码期间,每个电影帧简单地映射成2场视频。
这种技术提供了高的视频质量,并避免了运动抖动伪影。但是它使节目的持续时间减少了4%,两小时的电影将减少5分钟。
由于电影的提速,为了改变声音的间距,它可以在解码过程中重采样以恢复原始的音频间距(对于低成本的消费类产品它的代价是昂贵的),或者在节目发布的时候进行重采样。由于许多音频解码器不能通过S/PDIF(IEC 60958)处理快4%的音频数据,所以这两种方案之一必须被使用。
当变换24帧每秒的内容到NTSC(59.94Hz的场速率),一般使用3:2下拉,如图7.46所示。电影的速度被将地0.1%到每秒23.976(24/1.001)帧。两帧电影图片产生5场视频。再高速运动物体的的场景,特定的电影帧在特定的视频场中使用,可以通过手动调整以尽量减少运动伪影。
图7.46典型的从电影到NTSC视频的3:2下拉
3:2下拉也可以简单使用MPEG解码器将每秒23.976(24/1.001)帧速率提高到每秒59.94(60/1.001)的帧速率,避免了隔行扫描问题。
变速率通常被用来掩盖如缺陷,裁剪,审查切割等问题,或者改变节目的播放时间。而不是重复电影帧导致“抖动”,电影和视频的3:2关系是中断足够长以确保平稳的时间速率。
模拟镭射影碟使用一个白色标志信号指示另一相关序列场的开始来优化静态图像的处理。在静态画面期间,白色标志信号告诉系统后退两场(使用两个之间没有运动的场)来重放当前帧。
这种技术用于某些支持72Hz刷新率的显示器。每帧电影视频简单复制3次来将基于胶片的每秒24帧的内容变换成72Hz逐行扫描的视频。
这种技术也叫做“12:1下拉”,也可以用于将24帧每秒的内容变换的50场每秒。
除了每个第12帧电影帧产生3帧视频之外,其它每帧电影产生2场视频。虽然音频间距是对的,但是当存在平滑运动时,运动抖动每半秒出现一次。