提到多媒体不得不说到广播和无线电技术也叫做模拟信号,现代的是数字视频,没有以前的模拟视频就没有现代的数字视频,现在的数字视频技术是在模拟视频技术上不断发展起来的,并且很多地方仍然保留着模拟时代的烙印。
电视的实现,不仅扩大和延伸了人们的视野,而且以其形象、生动、及时的优点提高了信息传播的质量和效率。在当今社会,信息与电视是不可分割的。多媒体的 概念虽然与电视的概念不同,但在其综合文、图、声、像等作为信息传播媒体这一点上是完全相同的。不同的是电视中没有交互性,传播的信号是模拟信号而不是数 字信号。利用多媒体计算机和网络的数字化、大容量、交互性以及快速处理能力,对视频信号进行采集、处理、传播和存储是多媒体技术正在不断追求的目标。可以 说视频是多媒体的一种重要媒体。与视频有关的名词如下:
视像(visual image):电视信号或录像带(videotape)上记录的连续的图像。
伴音(audio):伴随视像的声音信号。
数字视频(digital video):包括运动图像(visual)和伴音(audio)两部分。
一般说来,视频包括可视的图像和可闻的声音,然而由于伴音是处于辅助的地位,并且在技术上视像和伴音是同步合成在一起的,因此具体讨论时有时把视频 (video)与视像(visual)等同,而声音或伴音则总是用audio表示。所以,在用到“视频”这个概念时,它是否包含伴音要视具体情况而定。
首先介绍模拟视频信号的基本概念,然后介绍视频信号的数字化标准,数字视频的几种主要格式MPEG、AVI和MOV,以及格式间的转换。
模拟电视制式及信号
电视系统是采用电子学的方法来传送和显示活动景物或静止图像的设备。在电视系统中,可以说视频信号是连接系统中各部分的纽带,其标准和要求也就是系统各 部分的技术目标和要求。电视的发展前景是数字彩色电视,数字视频系统的基础是模拟视频系统,而彩色电视又是在黑白电视的基础上发展起来的。
黑白电视信号
彩色电视信号
电视信号的标准也称为电视的制式。目前各国的电视制式不尽相同,制式的区分主要在于其帧频(场频)的不同、分解率的不同、信号带宽以及载频的不同、色彩空间 的转换关系不同等等。世界上现行的彩色电视制式有三种:NTSC(National Television System Committee)制(简称N制)、PAL(Phase Alternation Line)制和SECAM制。
彩色电视国际制式
TV制式 |
帧频(Hz) |
行/帧 |
亮度带宽(MHz) |
彩色幅载波(MHz) |
色度带宽(MHz) |
声音载波(MHz) |
NTSC-M |
30 |
525 |
4.2 |
3.58 |
1.3(I),0.6(Q) |
4.5 |
PAL-D |
25 |
625 |
6 |
4.43 |
1.3(U),1.3(V) |
6.5 |
SECAM |
25 |
625 |
6 |
4.25 |
>1.0(U),>1.0(V) |
6.5 |
电视接收机的输入输出信号
电视频道传送的电视信号主要包括五种成分:亮度信号、色度信号、色同步信号、复合同步信号和伴音信号,这些信号或者可通过频率域,或者可通过时间域相互 分离出来。电视接收机是能够将所接收到的高频电视信号还原成视频信号和低频伴音信号,并能够在其荧光屏上重现图像,在其扬声器上重现伴音的电子设备。根据 不同的信号源,电视接收机的输入、输出信号有三种类型:
为了能够在空中传播电视信号,必须把视频全电视信 号调制成高频或射频(RF-Radio Frequency)信号,每个信号占用一个频道,这样才能在空中同时传播多路电视节目而不会导致混乱。我国采样PAL制,每个频道占用8MHz的带宽; 美国采用NTSC制,电视从2频道至69频道,每个频道的带宽为4MHz,电视信号频带共占用54 MHz至806 MHz的信道。有线电视CATV(Cable Television)的工作方式类似,只是它通过电缆而不是通过空中传播电视信号。
电视机在接收受到某一频道的高频信号后,要把全电视信号从高频信号中解调出来,才能在屏幕上重现视频图像。
复合视频(Composite Video)信号定义为包括亮度和色度的单路模拟信号,也即从全电视信号中分离出伴音后的视频信号,这时的色度信号还是间插在亮度信号的高端。由于复合视 频的亮度和色度是间插在一起的,在信号重放时很难恢复完全一致的色彩。这种信号一般可通过电缆输入或输出到家用录像机上,其信号带宽较窄,一般只有水平 240线左右的分解率。早期的电视机都只有天线输入端口,较新型的电视机才备有复合视频输入和输出端(Video In,Video Out),也即可以直接输入和输出解调后的视频信号。视频信号已不包含高频分量,处理起来相对简单一些,因此计算机的视频卡一般都采用视频输入端获取视频 信号。由于视频信号中已不包含伴音,故一般与视频输入、输出端口配套的还有音频输入、输出端口(Audio-In、Audio-Out),以便同步传输伴 音。因此,有时复合式视频接口也称为AV(Audio Video)口。
目前有的电视机还备有两分量视频输入端口(S-Video In),S-Video是一种两分量的视频信号,它把亮度和色度信号分成两路独立的模拟信号,用两路导线分别传输并可以分别记录在模拟磁带的两路磁迹上。这种信号不仅其亮度和色 度都具有较宽的带宽,而且由于亮度和色度分开传输,可以减少其互相干扰,水平分解率可达420线。与复合视频信号相比,S-Video可以更好地重现色 彩。
两分量视频可来自于高档摄像机,它采用两分量视频的方式记录和传输视频信号。其它如高档录像机、激光视盘LD机的输出也可按分量视频的格式,其清晰度比从家用录像机获得的电视节目的清晰度要高得多。
不同制式的电视机只能接收和处理其对应制式的电视信号。当然,目前也发展了多制式或全制式的电视机,这为处理和转换不同制式的电视信号提供了极大的方 便。全制式电视机可在各国各地区使用,而多制式电视机一般为指定范围的国家生产。如Panasonic TC-2188M多制式电视机,适用于PAL-D,I制和NTSC(3.58)制,也即它可以在中国大陆(PAL-D)、香港(PAL-I)和日本 (NTSC 3.58)使用。
(蓝色部分是,为了进一步解决清晰度问题,电视机上后来又引入了新的分量接口:
YPbPr----数字色差分量,其中的P是Part或者Partial的意思 或者
YCbCr----模拟色差分量,其中的C是Chroma的意思
每一路对应为绿,蓝和红三种颜色,互不干扰)
录像机是利用磁记录原理把视频信号及其伴音信号记录 在磁带上的设备,故也称为磁带录像机(VTR--Video Tape Recorder 或VCR--Video Cassette Recorder)。
与电视机类似,不同的录像机对应于不同制式的电视信号。录像机除了包含电子部件来进行电视信号的变换和处理以外,还主要包括精密机械 部分来控制磁带的运动和读写等操作。机械部分的精密程度不同、磁带尺寸及磁记录的方式不同,导致了记录信号的精度不同以及磁带的不通用性。目前世界范围内 使用的录像机种类繁多,指标各异,分类方法也很多。按用途分主要有以下三种:
1975年SONY公司开发了家 用β-max型录像机,1976年日本的JVC、National等公司推出了家用VHS型录像机。β和VHS是两种不同的磁记录格式,完全不兼容,因此 即使磁带的尺寸相同也不能互换使用,目前国内使用的基本上是VHS型。VHS型录像机是采用复合视频的格式来记录视频信号。根据不同的制式,同一种型号的 家用录像机还有单制式、多制式和全制式之分。
家用录像机可处理和记录的视频带宽不够,因此采用将全电视信号中的色度信号降频到1MHz以下进 行记录,重放时再将其升至色度副载波的方式。这样一降一升,信号质量自然下降。视频信号水平分解率只能达到230-240线,一般具有射频、复合视频以及 音频的输入输出端口,可以与电视机的相应端口连接,进行节目的录制和重放。家用录像带是目前数字视频的主要信号源。
这一般指工业、文教、卫生等方面使用的录像机,其视频信号的水平分解率可达250以上。除了具有信号的记录和重放功能以外,它还具有编辑等功能,价格是 家用录像机的十倍左右。这是目前制作电视或录像节目时大量使用的机种。如JVC公司推出的Super-VHS录像机,其磁带的格式为S-VHS,水平分解 率高达400线,它采用两分量视频(S-Video)的格式进行记录和输入输出。 实际上,S-Video接口的产生最早来自于S-VHS型的录像机。由于S-VHS采用亮、色分离的方式记录视频信号,它具有较高的分解率,可以直接送到 电视机的扫描电路前,较好地保证视频的质量。
这是最高质量的录像机,其技术指标是以视频信号的频带宽度来衡 量的,一般视频带宽可高达5MHz,相当于400多线的水平分解率(每1MHz带宽相当于水平分解率约80线),基本上可以无失真记录和重放视频信号。广 播级录像机采用分量视频信号(component video)的记录方式,分量视频指的是亮度Y,色差U和V分别是三路模拟信号,他们通过三路导线传送并记录在模拟磁带的三路磁迹上。分量视频由于其具有 很宽的频带,可以提供最高质量及最精确的色彩重放。
由于磁带上记录的是模拟视频信号,因此信噪比也是衡量信号质量的一个重要指标之 一。一般地说,信噪比高于45dB就能达到较满意的图像质量。如果从天线接收到的电视信号较强,则直接从电视上观看的效果要比先录制到家用录像带上再重放 的效果好。而且重放的次数越多或拷贝次数越多,信噪比越低。磁带信号拷贝一次,其信噪比降低一倍(减少3dB)。
模拟视频的数字化包括不少技术问题,如电视信号具有不同的制式而且采用复合的YUV信号方式,而计算机工作在RGB空间(打印机使用的是CMKY色彩);电视机是隔行扫描,计算机显示 器大多逐行扫描;电视图像的分辨率与显示器的分辨率也不尽相同等等。因此,模拟视频的数字化主要包括色彩空间的转换、光栅扫描的转换以及分辨率的统一。
模拟视频一般采用分量数字化方式,先把复合视频信号中的亮度和色度分离,得到YUV或YIQ分量,然后用三个模/数转换器对三个分量分别进行数字化,最后再转换成RGB空间。
根 据电视信号的特征,亮度信号的带宽是色度信号带宽的两倍。因此其数字化时可采用幅色采样法,即对信号的色差分量的采样率低于对亮度分量的采样率。用 Y:U:V来表示YUV三分量的采样比例,则数字视频的采样格式分别有4:1:1、4:2:2和4:4:4三种。电视图像既是空间的函数,也是时间的函 数,而且又是隔行扫描式,所以其采样方式比扫描仪扫描图像的方式要复杂得多。分量采样时采到的是隔行样本点,要把隔行样本组合成逐行样本,然后进行样本点 的量化,YUV到RGB色彩空间的转换等等,最后才能得到数字视频数据。
为了在PAL、NTSC和 SECAM电视制式之间确定共同的数字化参数,国家无线电咨询委员会(CCIR)制定了广播级质量的数字电视编码标准,称为CCIR 601标准。在该标准中,对采样频率、采样结构、色彩空间转换等都作了严格的规定,主要有:
电视制式 |
分辨率 |
帧率 |
NTSC |
640×480 |
30 |
PAL、SECAM |
768×576 |
25 |
采样格式(Y:U:V) |
数据量(Mbyte/s) |
4:2:2 |
27 |
4:4:4 |
40 |
这种未压缩的数字视频数据量对于目前的计算机和网络来说无论是存储或传输都是不现实的,因此在多媒体中应用数字视频的关键问题是数字视频的压缩技术。
然而电影胶片是以24fps的速度播放,如此一来29.97/30*24=23.976fps,电影在电视上就变成了23.976fps
视频压缩编码的基本概念
视频压缩的目标是在尽可能保证视觉效果的前 提下减少视频数据率。视频压缩比一般指压缩后的数据量与压缩前的数据量之比。由于视频是连续的静态图像,因此其压缩编码算法与静态图像的压缩编码算法有某 些共同之处,但是运动的视频还有其自身的特性,因此在压缩时还应考虑其运动特性才能达到高压缩的目标。在视频压缩中常需用到以下的一些基本概念:
帧间压缩,将图像分割成小块(单元Unit)
就会有一定数量的小块(单元Unit)完全一致,重复出现
在此基础概念上,仅保留唯一的小块(单元Unit)并记录相关重复信息
帧间压缩
三、 对称和不对称编码:对称性(symmetric)是压缩编码的一个关键特征。对称意味着压缩和解压缩占用相同的计算处理能力和时间,对称算法适合于实时压 缩和传送视频,如视频会议应用就以采用对称的压缩编码算法为好。而在电子出版和其它多媒体应用中,一般是把视频预先压缩处理好,尔后再播放,因此可以采用 不对称(asymmetric)编码。不对称或非对称意味着压缩时需要花费大量的处理能力和时间,而解压缩时则能较好地实时回放,也即以不同的速度进行压 缩和解压缩。一般地说,压缩一段视频的时间比回放(解压缩)该视频的时间要多得多。例如,压缩一段三分钟的视频片断可能需要10多分钟的时间,而该片断实时回放时间只有三分钟。
MPEG数字视频
MPEG是Moving Picture Experts Group的简称。这个名字本来的含义是指一个研究视频和音频编码标准的小组。现在我们所说的MPEG泛指又该小组制定的一系列视频编码标准。该小组于 1988年组成,至今已经制定了MPEG-1、MPEG-2、MPEG-3、MPEG-4、MPEG-7等多个标准,MPEG-21正在制定中。
AAC(Advanced Audio Coding),中文称为“高级音频编码”,出现于1997年,基于 MPEG-2的音频编码技术。由Fraunhofer IIS、杜比实验室、AT&T、Sony(索尼)等公司共同开发,目的是取代MP3格式。2000年,MPEG-4标准出现后,AAC 重新集成了其特性,加入了SBR技术和PS技术,为了区别于传统的 MPEG-2 AAC 又称为 MPEG-4 AAC。
AVI数字视频
AVI(Audio Video Interleave)是一种音频视像交插记录的数字视频文件格式。1992年初Microsoft公司推出了AVI技术及其应用软件VFW(Video for Windows)。在AVI文件中,运动图像和伴音数据是以交织的方式存储,并独立于硬件设备。这种按交替方式组织音频和视像数据的方式可使得读取视频数 据流时能更有效地从存储媒介得到连续的信息。构成一个AVI文件的主要参数包括视像参数、伴音参数和压缩参数等。
ASF数字视频
ASF (Advanced Streaming format高级流格式)。ASF是微软为了和Real player竞争而发展出来的一种可以直接在网上观看视频节目的文件压缩格式。ASF使用了MPEG4的压缩算法,压缩率和图像的质量都很不错。因为ASF是以一个可以在网上即时观赏的视频“流”格式存在的。
WMV数字视频
Microsoft 公司主导的音频视频编码系列,它的出现主要是为了进行网络视频传输,现在已经向HDTV 方面进军,开发了 WMV HD 应用。WMV(Windows Media Video)是微软公司开发的一组数字视频编 解码格式的通称,它是Windows Media架构下的一部分。它最初是为低速率流媒体应用作为专有编解码开发出来的,但是2003年微软公司基于Windows Media Video第9版编解码起草了视频编解码规范并且提交给SMPTE申请作为标准。这个标准在2006年3月作为SMPTE 421M被正式批准,这样Windows Media Video 9编解码就不再是一个专有的技术。早期的变解码版本(7和8)仍然被认为是专有技术,因为它们不在SMPTE 421M标准的涵盖范围内。
微软媒体系列分为WMV(Windows Media Video)和WMA(Windows Media Audio)
WMV-HD也叫VC-1,全名VC-1视讯编解码器(Video Codec 1),是基于微软WMV9,并推广为工业标准。2003年提出标准化申请,最早名字是VC-9。2006年4月正式通过成为标准。VC-1是SMPTE 421M视频编解码标准的正式名称。HD DVD 和蓝光光碟(Blu-ray Disc)都支援VC-1。微软表示Windows Vista将支援VC-1影像压缩技术的HD DVD规格。电影及电视学会(SMPTE)已采用VC-1为视讯压缩标准。
Windows Media Player是Windows平台使用最广的媒体播放器
MOV数字视频格式
AVI文件格式和Windows Media Player是Microsoft为PC机设计的数字视频格式和应用软件。对于目前世界上的另一大类微机--Apple公 司的Macintosh机,Apple公司也推出了相应的视频格式,即MOV(Movie digital video technology)的文件格式,其文件以MOV为后缀,相应的视频应用软件为Apple's QuickTime for Macintosh。该软件的功能与VFW类似,只不过用于Macintosh机。同时Apple公司也推出了适用于PC机的视频应用软件Apple's QuickTime for Windows,因此在MPC机上也可以播放MOV视频文件。
MOV格式的视频文件也可以采用不压缩或压缩的方式, 其压缩算法包括Sorenson 3、Cinepak、Intel Indeo Video R3.2 和Video编码。其中Cinepak和Intel Indeo Video R3.2算法的应用和效果与AVI格式中的应用和效果类似。而Video格式编码适合于采集和压缩模拟视频,并可从硬盘平台上高质量回放,从光盘平台上回 放质量可调。这种算法支持16位图像深度的帧内压缩和帧间压缩,帧率可达每秒10帧以上。
Ogg WebM数字视频格式
Ogg是一个自由且开放标准的容器格式,由Xiph.Org 基金会所维护。Ogg格式并不受到软件专利的限制,并设计用于有效率地串流媒体和处理高质量的数字多媒体。
Ogg意指一种文件格式,可以纳入各式各样自由和开放源代码的编解码器,包含音效、视频、 文字(像字幕)与元数据的处理。
Ogg Theora是一个免权利金、开放格式的有损影像压缩技术,由Xiph.Org基金会开发,该基金会还开发了著名的声音编码技术Vorbis, 以及多媒体容器档案Ogg。Theora 是由 On2Technologies 公司专属的 VP3 编码器经过开放源代码后衍生而来。
Google 认为开放标准格式可以成为目前无序的视频格式之争的底线。最后的权益方案不需要最复杂的格式,或者是最大张旗鼓宣传,几乎已成为行业标准的格式,因此他们决定选择支持使用广泛的开源Ogg Theora格式。
2007年,Xiph.Org基金会为了向后兼容的考虑,提出请求,将.ogg只留给Vorbis格式来使用。Xiph.Org基金会决定创造一些新的扩展名和媒体格式来描述不同类型的内容,像是只包含音效所用的.oga,包含或不含声音的影片(涵盖 Theora)所用的.ogv和程序所用的.ogx。
FLAC 是Ogg 无损音频编码
Google在2009年收购了On2 Technologies,并于2010年5月19日在Google I/O会议上宣布将VP8以BSD许可证的形式开源。。VP8是On2 Technologies继VP3之后宣布开源的第二个编解码器。2010年5月19日,WebM启动。WebM包含了来自于Mozilla、Opera、Google以及其他四十多家出版商和计算机软硬件供 应商(包括AMD、NVIDIA)的贡献,旨在大力倡导在HTML5中使用VP8
WebM格式以Matroska(MKV)容器格式为基础开发的新容器格式,里面包括VP8视频和Ogg Vorbis音轨
MKV容器格式从技术上来说是对国际化支持最好的一种格式,也是本地化的首选格式。MKV支持多音轨和多字幕轨,多达16条以上(TS也支持多音轨)。
VOB数字视频格式
VOB是DVD Video Object的缩写,意思是DVD视频对象。这是DVD影碟上的关键文件,内含的是电影的实际数据。实际上VOB文件是一种基本的MPEG-2数据流,就是说它包含了多路复合的MPEG-2视频数据流、音频数据流(通常以AC3格式编码)、以及字幕数据流。
VOB是为了在硬件,DVD播放器上能够播放设计的。
TS数字视频格式
TS是日本高清摄像机拍摄下进行的封装格式,全称为MPEG2-TS。ts即"Transport Stream"的缩写。MPEG2-TS格式的特点就是要求从视频流的任一片段开始都是可以独立解码的,ts是日本高清摄像机拍摄下进行的封装格式,全称为MPEG2-TS,用以将视频、音频信息打包方便在有线电视网络、卫星链路、或无线电广播。这个格式最开始是用于广播的。后来它也被用在如数字录影机等场合。简单地说,其他格式的数字视频cut掉(或者是数据损坏数据)就会导致整个文件无法解码,而电视节目是任何时候打开电视机都能解码(收看)的。适用于现代的直播,视频会议等场景。
TS通常以固定码率传输。固定码率传输时,如果上层待传输内容不足,会发送空分组以占位。
现在H264也可以打包成TS格式了。
一些特殊场景下会存在特殊的数字视频格式,例如游戏,VJ等
Smacker视频
Smacker是上一代的编解码器。自1994年以来,它已获得2500多种游戏的许可。在几乎所有情况下,Bink都将更适合现代游戏。但是,我们仍然为旧游戏和CPU受限的环境授予Smacker许可。
Smacker与大多数视频编解码器有很大不同。它是256色(8位)编解码器-它对视频帧使用一个调色板(或一系列调色板)。这既是其最大的优点,也是其最大的缺点。 256色数据使其超快,但也会损害颜色质量(甚至在进行任何压缩之前)。
Smacker仍在教育游戏和简单的Sprite游戏中普遍使用,它们的速度使其具有优势。 640x480分辨率的Smacker电影几乎不需要占用现代CPU的3%进行解码-MP3解码所需的CPU数量比Smacker电影需要的更多!
Bink Video视频
Bink Video2的多核缩放和SIMD设计(在一帧中执行的指令中多达70%是SIMD),因此Bink 2可以比Bink 1快得多。它确实非常快-可以仅使用CPU在4 ms PC和11 ms PS4 / Xbox One中播放4K视频帧(3840x2160)(或者使用GPU加速在1.4 ms PC和2.3 ms PS4 / Xbox中播放)!
Bink 2适用于Windows(所有版本-台式机,商店,UWP),MacOS,Linux,Sony PS4,Sony PS3,Sony PSVita,Xbox One,Xbox 360,Nintendo Switch,Wii WiiU,Android和iOS。
Interplay Video视频
Interplay视频封装在Interplay MVE文件中。 它有8位和16位两种版本,可追踪至1990年代中期PC图形功能的发展。
DXV视频格式
DXV3是Resolume Arena VJ Software所使用的一种编码格式
Resolume DXV 视频解码器是一个硬件(GPU)加速解码器。直接通过显示卡GPU来进行帧解压。
由于现今的视频处理器处理效能极大,你可以使用用更高的解像度及帧数率而CPU及RAM的效能也不会过度耗用。
RealVideo是一种影片格式由RealNetworks于 1997年所开发,至2006年时已到RealVideo版本10。它从开发伊始就定位为应用为网络上视频播放上的格式。支持多种播放的平台,包含 Windows、Mac、Linux、Solaris以及某些移动电话。相较于其它的视频编解码器,RealVideo通常可以将视频数据压缩得更小。因此它可以在用56Kbps MODEM拨号上网的条件实现不间断的视频播放。
一般的文件扩展名为.rm/.rvmb,现在广泛流行的是rmvb格式,即动态编码率的real video。
RealVideo早期使用H.263,在RealVideo8及之后公司采用私有或者不公开的视频格式。官方的的播放器是 RealNetworks RealPlayer SP,最新的版本是v16,在多个平台,包括Windows,Macintosh,和Linux中提供。RealNetworks公司同时也开发了开源的 Helix播放器,但是在Helix项目中没有提供RealVideo,因为Real系列的编解码仍是不公开的。
RealMedia文件可以通过RTSP在网络上传输,但是RTSP只用于建立和管理连接,真正的视频数据是通过 Real自己私有的 RDT(Real Data Transport)协议传输。这种方式引起很大的批评,因为难以在其他播放器和服务器中使用RealVideo,现在一些开源项目,例如MPlayer 已经可以播放RDT流。为了支持实时流,RealVideo和RealAudio通常采用CBR(恒定码速)编码,使得每秒传递的数据相等。后来,公司开发了可变码速,成为RealMedia Variable Bitrate(RMVB),提供更高的水平资料,但是这种格式不适合作为流,因为难以预测某个特定的媒体流需要多少网络资源。带有快速移动和场景变化的视频需要更高的码流,如果码流超出网络所能提供的速率,将会引起中断。
RealNetworks公司说RealVideo和RealAudio编解码的源代码不在RPSL的许可内。在许可源代码在不支持的处理器和操作系统的商用移植中许可。虽然公司拥有大多数的知识产权,但是允许第三方为某个特性享有版权。
Flash Video是一个文件容器格式,是Adobe Flash播放器版本6-10用于在互联网上传递视频。Flash视频内容也可以封装在SWF文件。Flash视频有两种不同的文件格式:FLV和 F4V。FLV文件中,同SWF文件一样音频和视频数据采用相同方式进行编码。晚出现的F4V,它的格式是基于ISO为基础的媒体文件格式,并在 Flash Player 9 update 3中开始得到支持。
Flash视频FLV文件所包含的媒体的编码通常采用Sorenson Spark和VP6视频压缩格式。最新发布的Flash播放器支持H.264视频和HE-AAC音频。
Sorenson编解码看参考以下两种专用的视频编解码:Sorenson Video或者Sorenson Spark。Sorenson Video也被称为Sorenson Codec,Sorenson Video Quantizer或者SVQ。Sorenson Spark也称为Sorenson H.263。这些编解码都是有Sorenson 媒体公司设计(及以前的Sorenson Vision公司)。Sorenson Video在Apple的QuickTime中使用,SorensonSpark在Adobe Flash(以前的MacromediaFlash)中使用。
DivX是由MPEG-4衍生出的另一种视频编码(压缩)标准,也即通常所说的DVDrip格式,它采用了MPEG4 的压缩算法同时又综合了MPEG-4 与MP3各方面的技术,说白了就是使用DivX压缩技术对DVD盘片的视频图像进行高质量压缩,同时用MP3或AC3对音频进行压缩,然后再将视频与音频 合成并加上相应的外挂字幕文件而形成的视频格式。其画质直逼DVD并且体积只有DVD的数分之一。这种编码对机器的要求也不高,所以DivX视频编码技术 可以说是一种对DVD造成威胁最大的新生视频压缩格式,号称DVD杀手或DVD终结者。
DivX的基础技术是非法盗用微软的,微软声称将对所有推动DivX发展的人、企业进行追究。DivXNetworks成立初衷就是摆脱微软的技术封闭,因而发起一个完全开放源码的项目,名为 “ Projet Mayo ”,目标是开发一套全新的、开放源码的MPEG4编码软件,由于它完全符合ISO MPEG标准,又是完全开放源代码,OpenDivXCODEC吸引了 很多软件,视频高手参与,很快便开发出具有更高性能的编码器Encore2等等,就在DivX最辉煌的时期,DXN公司突然封闭了DivX的源代码,并在 Encore2的基础上发布了自有产品DivX4,原来DXN早就给自己留了后门,DivX采取的是LGPL协议,而不是GPL协议,虽说它们都是公共许 可证协议,保障自由使用和修改软件或源码的权利,但LGPL允许私有。
接着,很多被DXN公司狠狠涮了一回的软件、视频团体另起门户,逐渐重新聚拢开发力量,高举复仇大旗,在OpenDivX版本基础上,再次开发出一种新的MPEG-4编码--XviD,名字的顺序和DviX刚好相反,仅仅从名字就可以看出Xvid充满了复仇的力量。
视频文件的播放过程是一个解码过程,从封装格式(也叫容器,就是将已经编码压缩好的视频轨和音频轨按照一定的格式放到一个文件中)解码释放出来之后进行音视频同步的过程。
常见的主流视频播放器以操作系统厂商为代表的有Windows Media Player和Apple Quick Time
另外还有独立厂商如WinDVD,PowerDVD,Total Media Theatre等
以及给予FFMPEG开源项目的播放器:Mplayer,VLC(video lan),Media Player Classic
国内和国际大量的播放器也采用了FFMPEG的代码,例如暴风影音,QQ影音,迅雷看看,快播,KMplayer,PotPlayer等
FFmpeg是一个开源免费跨平台的视频和音频流方案,属于自由软件,采用LGPL或GPL许可证。它提供了录制、转换以及流化音视频的完整解决方案。http://ffmpeg.org/
FFmpeg是基于LGPL/GPL开源的,这意味着如果某软件使用了FFmpeg的代码,那么这个软件涉及这些代码的部分,也必须开源。
播放视频文件 |
包括通过CD,DVD,蓝光DVD驱动器播放VCD,DVD和蓝光DVD视频 |
流媒体播放 |
利用P2P架构,在线播放 |
缩放 |
指定尺寸或自定义缩放,全屏幕 |
调整播放速度 |
增加减少速率,倒放视频 |
修正颜色 |
|
加载字幕 |
加载外挂字幕文件 |
桌面背景播放 |
XP,Vista下支持,Win7开始引入UAC机制后限制了这个功能 |
视频转录 |
截取片段保存为视频文件或者GIF |
360度视频 |
|
3D视频输出 |
|
补帧技术 |
分析前后数帧的画面,将其中的有效色彩信息提取出来补全到每一帧当中,实现提升色彩表现、清晰度和对比度的目的,可以将低分辨率的视频输出为高清信号 |
视频文件的编辑又叫做非线性编辑,是一个编码的过程
Final Cut |
EDIUS |
Adobe Premiere 和 AfterEffect |
Sony Vegas Movie Studio |
Corel VideoStudio |
Wondershare Filmora |
CyberLink PowerDirector |
Ulead Media Studio |
Windows Movie Maker |
达芬奇调色 DaVinci Resolve Studio |
红巨人RedGiant VFX |
Pro DAD |
NewBule |
蓝宝石 Sapphire |
|
常见的非线性编辑包括:
编码格式转换 |
调整时间顺序 |
更换,修改音频、视频、字幕 |
截取,合并视频片段 |
调整播放速度,逆时播放 |
调整颜色,色调,饱和度等 |
叠加叠印 |
分屏和画中画 |
字幕,文字特效 |
视频抠图,遮罩 |
镜头修正,白平衡,HDR(高动态范围图像)等 |
滤镜,模糊,马赛克等视频特效以及标注 |
转场过渡 |
作品输出
作品输出是将视频按照编辑指令渲染并压制成制定数字视频格式
作品输出的几个关键点
音频视频输出,文件格式,编码格式,码率,视频帧尺寸等
上场(高场)优先、下场(低场)优先、基于帧
一个不停闪烁的光源,如果其频率达到每秒钟50次(也就是所说的频率50Hz),在人眼中他是不闪烁的。我们家里的电灯炮就是一亮一熄的,所以在我们的眼中没有感觉到他是一亮一熄的,是因为频率达到了50Hz。
根据这个原理,最初电视机每秒要传输的图像被定为50帧。认为这样图像在我们眼中才不闪烁。但是根据当时技术上能力,要每秒钟传输50帧图像很难办到。这要根据显像管的工作原理说起。显象管的工作原理是:图像的产生是通过显像
管后部的电子枪向屏幕发射电子,电子撞到屏幕产生亮点。如果屏幕的分辨率为720*576的话,那么电子枪通过偏转线圈的控制从屏幕左上方开始,向右上方移动。一共要发射720个电子,然后向下移动重复576次后到达屏幕的最下方,通过发射电子的强弱来表示象素的亮度,完成一帧图象的传输。这样可以算出来。电子枪每传输一幅图像要发射720*576=414720个电子。如果每秒钟要传输50帧图像的话、那么他的工作频率就是414720*50=2073600/秒。这样高的频率电子枪无法达到。这就是产生上场
和下场的最初的原因——科学家们利用视觉的滞留性,让电子枪不按顺序发射电子,而是每发射一行隔一行,比如先发射奇数行13579,,回头再发射2468,,利用两次扫描来完成一幅图像,因为视觉的滞留性,我们看到的效果是差不多的。这样在图像效果影响不大的情况下,电子枪的工作频率降低了一半,在技术上是可以达到了。这样就出现了所谓的“场”,从而出现“上场优先”“下场优先”。
二、什么是上场优先、什么是下场优先
a:图像的传送
如果把一幅图像分成上下两半,分两次送到我们手里,我们所得到的信息是完整的,重要的是要告诉我先送来的那部份是上面的还是下面的,我才能得正确图象。这就是“上场优先”和“下场优先”的意思。先送上部就是上场优先(1就是奇数、奇数场)。先送下部,就是下场优先(2偶数。偶数场)。如果图像是一个人的全身像,我按正确的顺序摆放后,得到的图像才会是头在上面,脚在下面;如果顺序搞错了,那么就是头和脚在中间。图像的最上方和最下方都是人的腰部。但是在视频中,因为图像的像素高,也就是分成了很多块,虽然顺序放错了,但是它的位移不会偏离的很远,我们肉眼观察不出来,所能发觉的就是有抖动、毛刺等。出现的后果是跟视频的内容有关的。如果视频是单一、纯色的一个画面,那么不管场序正确与否,画面是没有什么不同的;如果是视频中是一个缓慢移动的物体,那么我们看到的可能是有些轻微的抖动,画面有些模糊。如果是一个有激烈运动的视频,那么就可能出现严重的毛刺。因为像素的内容变化大,一但错位,就很明显。
综上所述,一个视频信号在传送时,无论用上场优先还是下场优先都是可以的,重要的是要让接收设备知道所接收的信号是用那种场序,才能把图像正确的显示出来。无论视频是什么场序,播放时都是把视频所包涵的图像按顺序显示出来。唯一不同的是在传送每个单位的图像时是先传奇数场还是偶数场。这就是视频的场序。
b:图像的存储
无论是什么视频,存储时无凝都是把一序列的图片按顺序摆放,但是带有场的视频,它的每一幅图片又分成上场和下场两部分,在一幅图像应该占有的空间里,把上场放在前面还是放在后面。这也就是这个视频的场序问题,把上场放在前面
就是上场优先。如果把这个视频导入编辑软件中,再把项目设置成下场优先,那么软件就把视频的上场当成下场,把下场当成上场,播放时像素发生错位,就出现了异常。我们的DV在拍摄的过程中也是一个存储图像的过程,如果你的DV拍摄方式是下场优先,就是说它先把第一个图像的偶数场的信息记录在磁带的第一个位置上,把奇数场的信息记录在第二个位子上,然后把第二个图像的偶数场放在第三个位置,第二个图像的奇数场的信息放在第四个位置,依次类推,,,在采集的时候就要把软件的项目设成下场优先,也就是告诉软件这个磁带记录信息的方式,无论采集后数据如何存放,它都会把第一个位置采集来的数据当成第一个图像的下场,第二个位置当成上场,这样视频才得已真实的再现,这就是为什么采集时要把软件的场序设成和DV的场序一样的原因。
总结,无论上场优先还是下场优先,只要运动场景回放不抖动就是正确的场序,上场还是下场由录制设备,播放设备共同决定。一般磁带DV采集是下场优先 闪存采集是上场优先。
字幕从存放位置分为内嵌字幕和外挂字幕,内嵌字幕就是将字幕文件封装在封装格式(容器)文件内,外挂字幕是以独立文件形式存在电脑中,独立文件可以直接编辑修改,内嵌字幕不能直接编辑,但是可以使用专用工具提取出来。
从类型上分图形字幕和文字字幕,文字字幕受编码和字体限制在不同的平台硬件设备表现形式可能不同,达不到最好的表现效果,因此有必要使用图形化字幕,甚至将字幕渲染描绘在图像层(硬字幕)这样无论任何平台,设备都能得到一致的观看体验。
视频版在: https://www.bilibili.com/video/BV1F741117SM
文字类型字幕:
格式 |
说明 |
规则 |
样例 |
SMI |
SAMI Captioning SMI是WMP专用字幕文件格式,使用类似HTML的格式记录 |
字幕文本 |
Driver On 变身 |
SRT |
SubRip SRT文本字幕最为流行,因为其制作规范简单,可以实现简单样式 |
依次是: |
1 |
LRC |
LRC常见于显示歌词,硬件支持广泛 |
[时间码]字幕文本 |
[00:00.00]Driver On |
SST |
Sonic Scenarist 和SRT类似 |
序号 开始时间 结束时间 字幕文本 |
|
SSA & ASS |
SubStation Alpha (*.ssa) |
[Script Info] |
[Script Info] |
WebVTT |
WebVTT (Web Video Text Tracks)格式和SRT类似但是没有序号 用于HTML5 |
WEBVTT [空行] 时间码 字幕文本 [空行]
第一行必须是WEBVTT UTF-8编码 |
WEBVTT
00:00:01.878 --> 00:00:05.334 曾经有一份真诚的爱情放在我面前,
00:00:08.608 --> 00:00:15.296 我没有珍惜,等我失去的时候我才后悔莫及, 人世间最痛苦的事莫过于此
|
TTML(IMSC) |
TTML 全称是 Timed Text Markup Language,是一种基于 XML 的时序文本标记语言。它旨在用于全球范围内的跨字幕和字幕传递应用程序,从而简化互操作性并保持与其他字幕文件格式的一致性和兼容性。 |
TTML是xml格式的文件 根节点是 和HTML类似 但是由于谷歌的去XML计划,浏览器的支持性不是很好 |
曾经有一份真诚的爱情放在我面前, 我没有珍惜,等我失去的时候我才后悔莫及,
|
图形字幕最常见的事SUB和IDX,可以通过OCR工具转换成文字字幕
文字型字幕体积很小通常只有几KB,图形字幕一般都很大
SubRip srt格式的字幕是SDL Trados直接支持的文件格式建议使用此格式进行翻译,翻译后再转换为ASS格式应用样式效果
因为字幕文件是基于文本的因此能够进行字幕编辑的软件非常多
Aegisub是一个开源的跨平台字幕工具,可以在不同平台电脑得到一致的体验
http://www.aegisub.org/
字幕通 YeeCaption
中译语通的一站式智能字幕翻译软件,界面易懂,云端识别,自动切轴,智能翻译,使字幕翻译事半功倍,部分功能收费
https://www.yeekit.com
人人译世界
武汉译满天下原人人字幕组工作平台
http://www.1sj.tv/
网易见外
https://sight.youdao.com/
网易见外由人工智能事业部研发,是一个集视频听翻、直播听翻、语音转写、文档直翻功能为一体的AI智能语音转写听翻平台,致力于用语音识别转写文字、机器翻译等技术
TimeMachine
人人字幕组字幕软件
SubtitleEdit
https://www.nikse.dk/SubtitleEdit/
https://github.com/SubtitleEdit/subtitleedit/releases
一款开源的免费字幕编辑工具
SubtitleWorkshop
一款知名的Windows平台免费字幕编辑工具
http://subworkshop.sourceforge.net/
Arctime
ArcTime是一款基于Java的跨平台字幕编辑软件
https://arctime.org/
通常多语言字幕有两种常见的处理方法
第一种是在一个字幕文件中同时写入两个语言
[Events]
Format: Layer, Start, End, Style, Name, MarginL, MarginR, MarginV, Effect, Text
Dialogue: 0,0:00:00.00,0:00:01.76,Default,,0,0,0,,Driver On\N带驱动器
Dialogue: 0,0:00:01.76,0:00:03.54,Default,,0,0,0,,へんしん\N变身
用\N分隔两个语言
这种方法的缺点,不便于设置双语言复合字体,显示效果不佳
不便于本地化处理,对齐翻译记忆库,重用资源
第二种方法是分别建立各自语言的字幕文件,例如zh-CN.ass和en-US.ass
两个文件时间轴部分完全相同,字幕文字不同,拥有各自的样式和字体设置,位置,大小
这种方法更符合本地化流程操作,对齐,制作翻译记忆库,提取术语,重用翻译等。
最后输出的时候可以由播放器(例如PotPlayer)加载主要和次要字幕,也可以使用MeGUI将两个字幕都描绘渲染画面本身
从本地化的角度来看应该使用第二种方案
视频文件信息
视频文件的信息可以通过Media Info查看
https://mediaarea.net/en/MediaInfo
举个例子以下是一个文件的信息输出其中高亮部分应保持不变:
General |
|
|
Complete name |
全名 |
G:\BaiduYunDownload\04.09机械臂.mp4 |
Format |
格式 |
MPEG-4 |
Format profile |
格式设定档 |
Base Media / Version 2 |
Codec ID |
编解码器ID |
mp42 (mp42/mp41) |
File size |
文件大小 |
453 MiB |
Duration |
持续时间 |
3 min 40 s |
Overall bit rate mode |
整体比特率模式 |
Variable |
Overall bit rate |
总比特率 |
17.2 Mb/s |
Encoded date |
编码日期 |
UTC 2018-04-09 00:28:33 |
Tagged date |
标记日期 |
UTC 2018-04-09 00:28:38 |
TIM |
TIM |
00:00:00:00 |
TSC |
TSC |
25 |
TSZ |
TSZ |
1 |
|
|
|
Video |
视频 |
|
ID |
ID |
1 |
Format |
格式 |
AVC |
Format/Info |
格式/信息 |
Advanced Video Codec |
Format profile |
格式设定档 |
|
Format settings |
格式设定 |
CABAC / 3 Ref Frames |
Format settings, CABAC |
格式设置,CABAC |
Yes |
Format settings, Reference |
格式设置,参考 |
3 frames |
Codec ID |
编解码器ID |
avc1 |
Codec ID/Info |
编解码器ID /信息 |
Advanced Video Coding |
Duration |
持续时间 |
3 min 40 s |
Bit rate |
比特率 |
16.9 Mb/s |
Width |
宽度 |
1 920 pixels |
Height |
高度 |
1 080 pixels |
Display aspect ratio |
显示宽高比 |
16:09 |
Frame rate mode |
帧率模式 |
Constant |
Frame rate |
影格速率 |
25.000 FPS |
Standard |
标准 |
PAL |
Color space |
色彩空间 |
YUV |
Chroma subsampling |
色度二次采样 |
4:02:00 |
Bit depth |
位深 |
8 bits |
Scan type(Progressive or Interlaced) |
扫描类型(逐行扫描或隔行扫描) |
Progressive |
Bits/(Pixel*Frame) |
位/(像素*帧) |
0.326 |
Stream size |
流大小 |
444 MiB (98%) |
Language |
语言 |
English |
Encoded date |
编码日期 |
UTC 2018-04-09 00:28:33 |
Tagged date |
标记日期 |
UTC 2018-04-09 00:28:33 |
Color range |
颜色范围 |
Limited |
Color primaries |
颜色原色 |
BT.709 |
Transfer characteristics |
转移特性 |
BT.709 |
Matrix coefficients |
矩阵系数 |
BT.709 |
Codec configuration box |
编解码器配置框 |
avcC |
|
|
|
Audio |
音讯 |
|
ID |
ID |
2 |
Format |
格式 |
AAC LC |
Format/Info |
格式/信息 |
Advanced Audio Codec Low Complexity |
Codec ID |
编解码器ID |
mp4a-40-2 |
Duration |
持续时间 |
3 min 40 s |
Source duration |
源持续时间 |
3 min 40 s |
Bit rate mode |
比特率模式 |
Variable |
Bit rate |
比特率 |
317 kb/s |
Maximum bit rate |
最大比特率 |
415 kb/s |
Channel(s) |
频道 |
2 channels |
Channel layout |
频道布局 |
L R |
Sampling rate |
采样率 |
48.0 kHz |
Frame rate |
影格速率 |
46.875 FPS (1024 SPF) |
Compression mode |
压缩方式 |
Lossy |
Stream size |
流大小 |
8.35 MiB (2%) |
Source stream size |
源流大小 |
8.36 MiB (2%) |
Language |
语言 |
English |
Encoded date |
编码日期 |
UTC 2018-04-09 00:28:33 |
Tagged date |
标记日期 |
UTC 2018-04-09 00:28:33 |
音频编辑
视频编辑离不开音频编辑,以下是音频编辑的一些内容
音频数据通过快速傅里叶变换算法转换为波形图,然后进行所见即所得的编辑
音频编辑包括剪辑,多轨道拼合,音量调整,降噪,人生消除等
音频编辑软件
Audacity是一个免费的跨平台专业音频编辑器,可运行在Windows,Linux和Mac系统,结合Lame和FFMPEG插件,可以支持MP4和AAC音频
https://www.audacityteam.org
Adobe Audition 简称AU,是Adobe系列中的音频编辑器,Adobe收购了cool edit pro后推出的,Adobe还有一个分支Soundbooth
GoldWave
http://goldwave.ca/
MAGIX SOUND FORGE
http://www.magix-audio.com/us/sound-forge/
CyberLink AudioDirector
https://www.cyberlink.com/
字幕的渲染
DirectVobSub也叫做VSFilter,是最流行的显示字幕工具,可以在影片的播放同时显示中文字幕,并且还有调整字幕时间码、字幕格式转换等功能,可以支援很多种字幕。
https://www.free-codecs.com/download/directvobsub.htm
MeGUI就是通过VSFilter实现将字幕描绘到图像上的。
XY-SubFilter
XySubFilter(XySubFilter.dll)是一种新的高质量字幕插件,它需要兼容的解码器程序来支持新的字幕界面。一般建议madVR 0.87.5+或MPC-HC 1.7.2+(EVR-CP)。
它是在VSFilter2.39版本基础上的一个改进项目,为高清视频设计,效率很高功能强大
https://code.google.com/archive/p/xy-vsfilter/
视频解码器
视频的播放离不开视频解码器,早期一个厂商的视频解码器只能解码一种编码格式,现代的视频解码器都是多功能的,可以解码很多种编码格式。
ffdshow VFW
ffdshow是一款全能的DirectShow解码、编码器,可以解压缩常见的视频格式和几乎所有的音频格式,可支持H.264、FLV、WMV、Xvid、DivX、MPEG-1、MPEG-2以及MPEG-4等格式视频档。它还提供了丰富的加工处理选项,可以锐化画面,调节画面的亮度。ffdshow对rmvb支持非常好
Haali media splitter
Haali media splitter原名是 Haali Matroska Splitter,最开始是设计为MKV的解码器,后期加入了AVI、OGG/OGM、MPEG TS、MP4的支持。是目前公认最好用的Matroska分离器。
https://haali.su/mkv/
Xvid VFW
Xvid VFW是Xvid专用解码器,支持DivX,Xvid,MPEG4
X264 VFW
x264vfw是著名的x264编码器+ ffh264解码器(来自FFmpeg / Libav项目)的VfW(Windows视频)版本。x264是一个基于H264的免费开源的视频Codec,属于后起之秀,采用x264编解码的视频文件,相比较xvid或者其它流行的编解码器转换效率和转换后的画面质量都更加优异
LAV Filters
LAV Filter是一组开源DirectShow Filter,LAV音频和视频解码器是功能强大的解码器,专注于质量和性能。支持MKV/WebM, AVI, MP4/MOV, TS/M2TS/MPG, FLV, OGG, BluRay (.bdmv and .mpls) 等格式
https://github.com/Nevcairiel/LAVFilters/
madVR
madVR也称为Madshi Video Renderer,不仅仅是一个简单的视频渲染器,是为视频发烧友设计的终极视频解码器。它使用GPU来执行分辨率提升,色度提升以及所有其他可显着改善视频质量的视频增强功能。
madVR支持HDR(高动态范围图像)功能,对于暗画质效果明显。