基础视频知识

一、NTSC彩色电视制式：

它是1952年由美国国家电视标准委员会指定的彩色电视广播标准，它采用正交平衡调幅的技术方式，故也称为正交平衡调幅制。美国、加拿大等大部分西半球国家以及中国的台湾、日本、韩国、菲律宾等均采用这种制式。

二、PAL制式：

它是西德在1962年指定的彩色电视广播标准，它采用逐行倒相正交平衡调幅的技术方法，克服了NTSC制相位敏感造成色彩失真的缺点。西德、英国等一些西欧国家，新加坡、中国大陆及香港，澳大利亚、新西兰等国家采用这种制式。PAL制式中根据不同的参数细节，又可以进一步划分为G、I、D等制式，其中PAL－D制是我国大陆采用的制式。

三、SECAM制式：

SECAM是法文的缩写，意为顺序传送彩色信号与存储恢复彩色信号制，是由法国在1956年提出，1966年制定的一种新的彩色电视制式。它也克服了NTSC制式相位失真的缺点，但采用时间分隔法来传送两个色差信号。使用SECAM制的国家主要集中在法国、东欧和中东一带。

为了接收和处理不同制式的电视信号，也就发展了不同制式的电视接收机和录像机。

一、高频或射频信号

为了能够在空中传播电视信号，必须把视频全电视信号调制成高频或射频（RF－Radio Frequency）信号，每个信号占用一个频道，这样才能在空中同时传播多路电视节目而不会导致混乱。我国采样PAL制，每个频道占用8MHz的带宽；美国采用NTSC制，电视从2频道至69频道，每个频道的带宽为4MHz，电视信号频带共占用54 MHz至806 MHz的信道。有线电视CATV（Cable Television）的工作方式类似，只是它通过电缆而不是通过空中传播电视信号。

电视机在接收受到某一频道的高频信号后，要把全电视信号从高频信号中解调出来，才能在屏幕上重现视频图像。

二、复合视频信号

复合视频（Composite Video）信号定义为包括亮度和色度的单路模拟信号，也即从全电视信号中分离出伴音后的视频信号，这时的色度信号还是间插在亮度信号的高端。由于复合视频的亮度和色度是间插在一起的，在信号重放时很难恢复完全一致的色彩。这种信号一般可通过电缆输入或输出到家用录像机上，其信号带宽较窄，一般只有水平240线左右的分解率。早期的电视机都只有天线输入端口，较新型的电视机才备有复合视频输入和输出端（Video In，Video Out），也即可以直接输入和输出解调后的视频信号。视频信号已不包含高频分量，处理起来相对简单一些，因此计算机的视频卡一般都采用视频输入端获取视频信号。由于视频信号中已不包含伴音，故一般与视频输入、输出端口配套的还有音频输入、输出端口（Audio－In、Audio－Out），以便同步传输伴音。因此，有时复合式视频接口也称为AV（Audio Video）口。

三、S－Video信号

目前有的电视机还备有两分量视频输入端口（S－Video In），S－Video 是一种两分量的视频信号，它把亮度和色度信号分成两路独立的模拟信号，用两路导线分别传输并可以分别记录在模拟磁带的两路磁迹上。这种信号不仅其亮度和色度都具有较宽的带宽，而且由于亮度和色度分开传输，可以减少其互相干扰，水平分解率可达420线。与复合视频信号相比，S－Video可以更好地重现色彩。

两分量视频可来自于高档摄像机，它采用两分量视频的方式记录和传输视频信号。其它如高档录像机、激光视盘LD机的输出也可按分量视频的格式，其清晰度比从家用录像机获得的电视节目的清晰度要高得多。

不同制式的电视机只能接收和处理其对应制式的电视信号。当然，目前也发展了多制式或全制式的电视机，这为处理和转换不同制式的电视信号提供了极大的方便。全制式电视机可在各国各地区使用，而多制式电视机一般为指定范围的国家生产。如Panasonic TC-2188M多制式电视机，适用于PAL－D，I制和NTSC（3.58）制，也即它可以在中国大陆（PAL－D）、香港（PAL－I）和日本（NTSC 3.58）使用。

视频序列的SMPTE表示单位

通常用时间码来识别和记录视频数据流中的每一帧，从一段视频的起始帧到终止帧，其间的每一帧都有一个唯一的时间码地址。根据动画和电视工程师协会SMPTE（Society of Motion Picture and Television Engineers）使用的时间码标准，其格式是：小时：分钟：秒：帧，或 hours：minutes：seconds：frames。一段长度为00：02：31：15的视频片段的播放时间为2分钟31秒15帧，如果以每秒30帧的速率播放，则播放时间为2分钟31.5秒。

根据电影、录像和电视工业中使用的帧率的不同，各有其对应的SMPTE标准。由于技术的原因NTSC制式实际使用的帧率是29.97fps而不是30fps，因此在时间码与实际播放时间之间有0.1%的误差。为了解决这个误差问题，设计出丢帧（drop-frame）格式，也即在播放时每分钟要丢2帧（实际上是有两帧不显示而不是从文件中删除），这样可以保证时间码与实际播放时间的一致。与丢帧格式对应的是不丢帧（nondrop-frame）格式，它忽略时间码与实际播放帧之间的误差。

视频压缩编码的基本概念

视频压缩的目标是在尽可能保证视觉效果的前提下减少视频数据率。视频压缩比一般指压缩后的数据量与压缩前的数据量之比。由于视频是连续的静态图像，因此其压缩编码算法与静态图像的压缩编码算法有某些共同之处，但是运动的视频还有其自身的特性，因此在压缩时还应考虑其运动特性才能达到高压缩的目标。在视频压缩中常需用到以下的一些基本概念：

一、有损和无损压缩：

在视频压缩中有损（Lossy ）和无损（Lossless）的概念与静态图像中基本类似。无损压缩也即压缩前和解压缩后的数据完全一致。多数的无损压缩都采用RLE行程编码算法。有损压缩意味着解压缩后的数据与压缩前的数据不一致。在压缩的过程中要丢失一些人眼和人耳所不敏感的图像或音频信息，而且丢失的信息不可恢复。几乎所有高压缩的算法都采用有损压缩，这样才能达到低数据率的目标。丢失的数据率与压缩比有关，压缩比越小，丢失的数据越多，解压缩后的效果一般越差。此外，某些有损压缩算法采用多次重复压缩的方式，这样还会引起额外的数据丢失。

二、帧内和帧间压缩：

帧内（Intraframe）压缩也称为空间压缩（Spatial compression）。当压缩一帧图像时，仅考虑本帧的数据而不考虑相邻帧之间的冗余信息，这实际上与静态图像压缩类似。帧内一般采用有损压缩算法，由于帧内压缩时各个帧之间没有相互关系，所以压缩后的视频数据仍可以以帧为单位进行编辑。帧内压缩一般达不到很高的压缩。

采用帧间（Interframe）压缩是基于许多视频或动画的连续前后两帧具有很大的相关性，或者说前后两帧信息变化很小的特点。也即连续的视频其相邻帧之间具有冗余信息，根据这一特性，压缩相邻帧之间的冗余量就可以进一步提高压缩量，减小压缩比。帧间压缩也称为时间压缩（Temporal compression），它通过比较时间轴上不同帧之间的数据进行压缩。帧间压缩一般是无损的。帧差值（Frame differencing）算法是一种典型的时间压缩法，它通过比较本帧与相邻帧之间的差异，仅记录本帧与其相邻帧的差值，这样可以大大减少数据量。

三、对称和不对称编码：

对称性（symmetric）是压缩编码的一个关键特征。对称意味着压缩和解压缩占用相同的计算处理能力和时间，对称算法适合于实时压缩和传送视频，如视频会议应用就以采用对称的压缩编码算法为好。而在电子出版和其它多媒体应用中，一般是把视频预先压缩处理好，尔后再播放，因此可以采用不对称（asymmetric）编码。不对称或非对称意味着压缩时需要花费大量的处理能力和时间，而解压缩时则能较好地实时回放，也即以不同的速度进行压缩和解压缩。一般地说，压缩一段视频的时间比回放（解压缩）该视频的时间要多得多。例如，压缩一段三分钟的视频片断可能需要10多分钟的时间，而该片断实时回放时间只有三分钟。

MPEG（Moving Picture Experts Group）是1988年成立的一个专家组。这个专家组在1991年制定了一个MPEG－1国际标准，其标准名称为“动态图像和伴音的编码－－用于速率小于每秒约1.5兆比特的数字存储媒体（Coding of moving picture and associated audio－－for digital storage media at up to about 1.5Mbit / s）”。这里的数字存储媒体指一般的数字存储设备如CD－ROM、硬盘和可擦写光盘等。MPEG的最大压缩可达约1：200，其目标是要把目前的广播视频信号压缩到能够记录在CD光盘上并能够用单速的光盘驱动器来播放，并具有VHS的显示质量和高保真立体伴音效果。MPEG采用的编码算法简称为MPEG算法，用该算法压缩的数据称为MPEG数据，由该数据产生的文件称MPEG文件，它以MPG为文件后缀。

有关音频编码的知识与技术参数

自然界中的声音非常复杂，波形极其复杂，通常我们采用的是脉冲代码调制编码，即PCM编码。PCM通过抽样、量化、编码三个步骤将连续变化的模拟信号转换为数字编码。

　　1、什么是采样率和采样大小（位/bit）？
声音其实是一种能量波，因此也有频率和振幅的特征，频率对应于时间轴线，振幅对应于电平轴线。波是无限光滑的，弦线可以看成由无数点组成，由于存储空间是相对有限的，数字编码过程中，必须对弦线的点进行采样。采样的过程就是抽取某点的频率值，很显然，在一秒中内抽取的点越多，获取得频率信息更丰富，为了复原波形，一次振动中，必须有2个点的采样，人耳能够感觉到的最高频率为20kHz，因此要满足人耳的听觉要求，则需要至少每秒进行40k次采样，用40kHz表达，这个40kHz就是采样率。我们常见的CD，采样率为44.1kHz。光有频率信息是不够的，我们还必须获得该频率的能量值并量化，用于表示信号强度。量化电平数为2的整数次幂，我们常见的CD位16bit的采样大小，即2的16次方。采样大小相对采样率更难理解，因为要显得抽象点，举个简单例子：假设对一个波进行8次采样，采样点分别对应的能量值分别为A1-A8，但我们只使用2bit的采样大小，结果我们只能保留A1-A8中4个点的值而舍弃另外4个。如果我们进行3bit的采样大小，则刚好记录下8个点的所有信息。采样率和采样大小的值越大，记录的波形更接近原始信号。

　　2、有损和无损
根据采样率和采样大小可以得知，相对自然界的信号，音频编码最多只能做到无限接近，至少目前的技术只能这样了，相对自然界的信号，任何数字音频编码方案都是有损的，因为无法完全还原。在计算机应用中，能够达到最高保真水平的就是PCM编码，被广泛用于素材保存及音乐欣赏，CD、DVD以及我们常见的WAV文件中均有应用。因此，PCM约定俗成了无损编码，因为PCM代表了数字音频中最佳的保真水准，并不意味着PCM就能够确保信号绝对保真，PCM也只能做到最大程度的无限接近。我们而习惯性的把MP3列入有损音频编码范畴，是相对PCM编码的。强调编码的相对性的有损和无损，是为了告诉大家，要做到真正的无损是困难的，就像用数字去表达圆周率，不管精度多高，也只是无限接近，而不是真正等于圆周率的值。

　　3、为什么要使用音频压缩技术
要算一个PCM音频流的码率是一件很轻松的事情，采样率值×采样大小值×声道数 bps。一个采样率为44.1KHz，采样大小为16bit，双声道的PCM编码的WAV文件，它的数据速率则为 44.1K×16×2 =1411.2 Kbps。我们常说128K的MP3，对应的WAV的参数，就是这个1411.2 Kbps，这个参数也被称为数据带宽，它和ADSL中的带宽是一个概念。将码率除以8,就可以得到这个WAV的数据速率，即176.4KB/s。这表示存储一秒钟采样率为44.1KHz，采样大小为16bit，双声道的PCM编码的音频信号，需要176.4KB的空间，1分钟则约为10.34M，这对大部分用户是不可接受的，尤其是喜欢在电脑上听音乐的朋友，要降低磁盘占用，只有2种方法，降低采样指标或者压缩。降低指标是不可取的，因此专家们研发了各种压缩方案。由于用途和针对的目标市场不一样，各种音频压缩编码所达到的音质和压缩比都不一样，在后面的文章中我们都会一一提到。有一点是可以肯定的，他们都压缩过。

　　4、频率与采样率的关系
采样率表示了每秒对原始信号采样的次数，我们常见到的音频文件采样率多为44.1KHz，这意味着什么呢？假设我们有2段正弦波信号，分别为20Hz和20KHz，长度均为一秒钟，以对应我们能听到的最低频和最高频，分别对这两段信号进行40KHz的采样，我们可以得到一个什么样的结果呢？结果是：20Hz的信号每次振动被采样了40K/20=2000次，而20K的信号每次振动只有2次采样。显然，在相同的采样率下，记录低频的信息远比高频的详细。这也是为什么有些音响发烧友指责CD有数码声不够真实的原因，CD的44.1KHz采样也无法保证高频信号被较好记录。要较好的记录高频信号，看来需要更高的采样率，于是有些朋友在捕捉CD音轨的时候使用48KHz的采样率，这是不可取的！这其实对音质没有任何好处，对抓轨软件来说，保持和CD提供的44.1KHz一样的采样率才是最佳音质的保证之一，而不是去提高它。较高的采样率只有相对模拟信号的时候才有用，如果被采样的信号是数字的，请不要去尝试提高采样率。

　　5、流特征
　　随着网络的发展，人们对在线收听音乐提出了要求，因此也要求音频文件能够一边读一边播放，而不需要把这个文件全部读出后然后回放，这样就可以做到不用下载就可以实现收听了。也可以做到一边编码一边播放，正是这种特征，可以实现在线的直播，架设自己的数字广播电台成为了现实。
Posted by rainn at 2006-03-05 00:55:03 Read More Edit Comments(0) Trackback(0)
扫盲2··········IT业界名词解释：多媒体视频编码方式MPEG-2 -[勤奋的小白兔]

MPEG组织于1994年推出MPEG-2压缩标准，以实现视/音频服务与应用互操作的可能性。　MPEG-2标准是针对标准数字电视和高清晰度电视在各种应用下的压缩方案和系统层的详细规定，编码码率从每秒3兆比特～100兆比特，标准的正式规范在ISO/IEC13818中。MPEG-2不是MPEG-1的简单升级，MPEG-2在系统和传送方面作了更加详细的规定和进一步的完善。 MPEG-2特别适用于广播级的数字电视的编码和传送，被认定为SDTV和HDTV的编码标准。

　　MPEG-2图像压缩的原理是利用了图像中的两种特性：空间相关性和时间相关性。这两种相关性使得图像中存在大量的冗余信息。如果我们能将这些冗余信息去除，只保留少量非相关信息进行传输，就可以大大节省传输频带。而接收机利用这些非相关信息，按照一定的解码算法，可以在保证一定的图像质量的前提下恢复原始图像。一个好的压缩编码方案就是能够最大限度地去除图像中的冗余信息。

　　MPEG-2的编码图像被分为三类，分别称为I帧，P帧和B帧。

　　I帧图像采用帧内编码方式，即只利用了单帧图像内的空间相关性，而没有利用时间相关性。P帧和B帧图像采用帧间编码方式，即同时利用了空间和时间上的相关性。P帧图像只采用前向时间预测，可以提高压缩效率和图像质量。P帧图像中可以包含帧内编码的部分，即P帧中的每一个宏块可以是前向预测，也可以是帧内编码。B帧图像采用双向时间预测，可以大大提高压缩倍数。

　　MPEG-2的编码码流分为六个层次。为更好地表示编码数据，MPEG-2用句法规定了一个层次性结构。它分为六层，自上到下分别是：图像序列层、图像组(GOP)、图像、宏块条、宏块、块。

　　MPEG-2标准在广播电视领域中的主要应用如下：

　　(1)视音频资料的保存

　　一直以来，电视节目、音像资料等都是用磁带保存的。这种方式有很多弊端：易损，占地大，成本高，难于重新使用。更重要的是难以长期保存，难以查找、难以共享。随着计算机技术和视频压缩技术的发展，高速宽带计算机网络以及大容量数据存储系统给电视台节目的网络化存储、查询、共享、交流提供了可能。

　　采用MPEG-2压缩编码的DVD视盘，给资料保存带来了新的希望。电视节目、音像资料等可通过MPEG-2编码系统编码，保存到低成本的CD-R光盘或高容量的可擦写DVD-RAM上，也可利用DVD编著软件(如Daikin Scenarist NT、Spruce DVDMaestro等)制作成标准的DVD视盘，既可节约开支，也可节省存放空间。

　　(2)电视节目的非线性编辑系统及其网络

　　在非线性编辑系统中，节目素材是以数字压缩方式存储、制作和播出的, 视频压缩技术是非线性编辑系统的技术基础。目前主要有M-JPEG和MPEG-2两种数字压缩格式。

　　M-JPEG技术即运动静止图像(或逐帧)压缩技术，可进行精确到帧的编辑，但压缩效率不高。

　　MPEG-2采用帧间压缩的方式，只需进行I帧的帧内压缩处理，B帧和P帧通过侦测获得，因此，传输和运算的数据大多由帧之间的时间相关性得到，相对来说，数据量小，可以实现较高的压缩比。随着逐帧编辑问题的解决，MPEG-2将广泛应用于非线性编辑系统，并大大地降低编辑成本，同时MPEG-2的解压缩是标准的,不同厂家设计的压缩器件压缩的数据可由其他厂家设计解压缩器来解压缩,这一点保证了各厂家的设备之间能完全兼容。

　　由于采用MPEG-2 IBP视频压缩技术，数据量成倍减少，降低了存储成本，提高了数据传输速度，减少了对计算机总线和网络带宽的压力，可采用纯以太网组建非线性编辑网络系统已成为可能，而在目前以太网是最为成熟的网络，系统管理比较完善，价格也比较低廉。

　　基于MPEG-2的非线性编辑系统及非线性编辑网络将成为未来的发展方向。

　　(3)卫星传输

　　MPEG-2已经通过ISO认可，并在广播领域获得广泛的应用，如数字卫星视频广播 (DVB-S)、DVD视盘和视频会议等。目前，全球有数以千万计的DVB-S用户，DVB-S信号采用MPEG-2压缩格式编码，通过卫星或微波进行传输，在用户端经MPEG-2卫星接收解码器解码，以供用户观看。此外，采用MPEG-2压缩编码技术，还可以进行远程电视新闻或节目的传输和交流。

　　(4)电视节目的播出

　　在整个电视技术中播出是一个承上启下的环节，对播出系统进行数字化改造是非常必要的，其中最关键一步就是构建硬盘播出系统。MPEG-2硬盘自动播出系统因编播简便、储存容量大、视频指标高等优点，而为人们所青睐。但以往MPEG-2 播出设备因非常昂贵，而只有少量使用。随着MPEG-2技术的发展和相关产品成本的下降，MPEG-2硬盘自动系统播出可望得到普及。

编码与文件格式的对应关系及用途

1、Audodesk FLC
这是一种古老的编码方案，常见的文件后缀为FLC和FLI。由于FLC仅仅支持256色的调色板，因此它会在编码过程中尽量使用抖动算法（也可以设置不抖动），以模拟真彩的效果。这种算法在色彩值差距不是很大的情况下几乎可以达到乱真的地步，例如红色A（R:255,G:0,B:0）到红色B（R:255,G:128,B:0）之间的抖动。这种格式现在已经很少被采用了，但当年很多这种格式被保留下来，这种格式在保存标准256色调色板或者自定义256色调色板是是无损的，这种格式可以清晰到像素，非常适合保存线框动画，例如CAD模型演示。现在这种格式很少见了。

　　2、Microsoft RLE
　　这是微软开发为AVI格式开发的一种编码，文件扩展名为AVI，使用了RLE压缩算法，这是一种无损的压缩算法，我们常见的tga格式的图像文件就使用了RLE算法。
　　什么是RLE算法呢？这是一种很简单的算法，举一个很简单的例子：
假设一个图像的像素色彩值是这样排列的：红红红红红红红红红红红红蓝蓝蓝蓝蓝蓝绿绿绿绿，经过RLE压缩后就成为了：红12蓝6绿4。这样既保证了压缩的可行性，而且不会有损失。而且可以看到，但颜色数越少时，压缩效率会更高。由于Microsoft RLE仅仅支持256色，而且没有抖动算法，在色彩处理方面，FLC明显的比Microsoft RLE要好很多。当然这也不表示Microsoft RLE一无是处，和FLC一样，Microsoft RLE在处理相邻像素时也没有色染，可以清晰的表现网格。因此同样可以优秀的表现单色字体和线条。只要色彩不是很复杂，FLC能做的，Microsoft RLE也可以做到。由于AVI可以拥有一个音频流，而且Windows系统给与了直接的支持，Microsoft RLE最常用的用途是，在256色显示模式下，通过配合抓屏生成AVI的工具制作一个软件的操作演示过程，以达到图文并茂，形声兼备的效果。

　　3、Microsoft Video1
这也是由微软提供的一个AVI编码，任何Windows系统都自带了了它的Codec，这个编码支持真彩，画面质量很不错，Microsoft Video1的压缩效率非常低下，编码后的文件庞大得让人受不了。这个Microsoft Video1究竟有什么用呢？一般被用在保存一些没有渐变的小型视频素材方面。

　　4、Indeo video R3.2
这个编码由intel架构实验室开发，对应的文件格式是AVI，相对之前的流行的编码，Indeo video R3.2最大的特点就是高压缩比（当然，比起现在的压缩方案，实在是不值得一提），intel声称压缩比可达8:1而没有明显的质量损失，解码速度也非常快，对系统要求不高，由于Windows9X中自带Indeo video R3.2的Codec，所以Indeo video R3.2一度成为了最流行的AVI编码方案。有不少游戏的过场动画和启动动画都是Indeo video R3.2编码的。Indeo video R3.2同样不适合高要求的环境，在要表现细线条或大色彩值变化的渐变时，Indeo video R3.2会表现得非常糟糕。如果画面的色彩值差异不是很大，也没有明显的色彩区域界限，Indeo video R3.2还是合适的，例如海天一色的场景。Indeo video R3.2已经基本被淘汰，如果不是为了播放以前遗留的一些Indeo video R3.2编码视频，恐怕Windows ME/2000都不会有Indeo video R3.2的Codec了。

5、Indeo video 5.10
这个编码方案同样也是intel架构实验室开发的，它继承了Indeo video R3.2的优点，对应的文件格式仍然是AVI，解码速度同样非常快。Windows ME/2000自带了Indeo video 5.1的Codec，很多游戏也适用Indeo video 5.10来编码自己的演示动画。在没有DivX普及前，这几乎是最流行的AVI编码了，由于微软和intel的同时支持，这种编码方案被广泛采用。

　　6、None
顾名思义，这是一个没有损失的视频编码方案，对应的文件扩展名为AVI。这种编码几乎是不压缩的，文件大得惊人！那么这种编码有什么用途呢？用途就是保存视频素材，因为是无损的，保存素材非常合适，代价就是大量的存储空间。

　　7、MPEG1
我们熟知的VCD就是MPEG1编码的，对应的文件扩展名为MPG、MPEG或者DAT。事实上MPEG1可以工作于非PAL制和非NTSC制标准下。它可以自由设置数据流量和画面尺寸，只是这样非标准的文件无法直接刻录成VCD。

8、MPEG2
DVD的视频部分就是采用的MPEG2，SVCD同样也采用了MPEG2编码。对应的文件扩展名一般为VOB、MPG。MPEG2的设计目标就是提供接近广播级的高品质输出。

9、DivX
DivX是近2年开始被大家认识的，DivX 视频编码技术可以说是一种对 DVD 造成威胁的新生视频压缩格式（有人说它是 DVD 杀手）对应的文件扩展名为AVI或者DivX，它由 Microsoft mpeg-4v3 修改而来，使用 MPEG-4 压缩算法。据说是美国禁止出口的编码技术。DivX最大的特点就是高压缩比和不错的画质，更可贵的是，DivX的对系统要求也不高，只要主频300的CPU就基本可以很流畅的播放了，因此从DivX诞生起，立刻吸引了大家的注意力。DivX拥有比Indeo video 5.10高太多的压缩效率，编码质量也远远比Indeo video 5.10好，我实在想不出Indeo video 5.10还会有什么前途。

10、PICVideo MJPEG
MJPEG是很多视频卡支持的一种视频编码，随卡提供了Codec，安装完成后可以象使用其它编码一样生成AVI文件。MJPEG编码常用于非线性系统，批上了一层很专业的外衣。MJPEG的编码质量是相当高的，是一种以质量为最高要求的编码，这种编码的设置比较复杂，可以得到很高的压缩比，但牺牲了解码速度，如果要保证解码速度，编码后的压缩比确不是很理想，如果您希望从专业的非线性系统上捕捉视频，然后自行进行处理，这种格式是很有必要去了解一些的。

11、RealNetworks RealVideo
REAL VIDEO（RA、RAM）格式由Real Networks公司开发的，一开始就定位在视频流应用方面的，也可以说是视频流技术的始创者。它可以在用 56K MODEM 拨号上网的条件实现不间断的视频播放。从RealVideo的定位来看，就是牺牲画面质量来换取可连续观看性。其实RealVideo也可以实现不错的画面质量，由于RealVideo可以拥有非常高的压缩效率，很多人把VCD编码成RealVideo格式的，这样一来，一张光盘上可以存放好几部电影。REAL VIDEO存在颜色还原不准确的问题，RealVideo就不太适合专业的场合，但RealVideo出色的压缩效率和支持流式播放的特征，使得RealVideo在网络和娱乐场合占有不错的市场份额。

12、Windows Media video
Windows Media video就是微软为了和现在的Real Networks的RealVideo竞争而发展出来的一种可以直接在网上观看视频节目的文件压缩格式！由于它使用了MPEG4的压缩算法，所以压缩率和图像的质量都很不错。我们经常看到的ASF和WMV就是Windows Media video。Windows Media video的编码质量明显好于RealVideo，因为Windows Media video是微软的杰作，所以Windows系统给Windows Media video给与了很好的支持，Windows Media Player可以直接播放这些文件。

流媒体协议

● RTP

RTP（Real-time Transport Protocol）是用于Internet上针对多媒体数据流的一种传输协议。RTP被定义为在一对一或一对多的传输情况下工作，其目的是提
供时间信息和实现流同步。RTP通常使用UDP来传送数据，但RTP也可以在TCP或ATM等其他协议之上工作。RTP本身并不能为按顺序传送数据包提供可靠的传送机制，也不提供流量控制或拥塞控制，它依靠RTCP提供这些服务。

● RTCP

实时传输控制协议(RTCP,Real-time Transport Control Protocol)和RTP一起提供流量控制和拥塞控制服务。在RTP会话期间，各参与者周期性地传送RTCP包。RTCP包中含有已发送数据包的数量、丢失数据包的数量等统计资料，因此，服务器可以利用这些信息动态地改变传输速率，甚至改变有效载荷类型。RTP和RTCP配合使用，它们能以有效的反馈和最小的开销使传输效率最佳化，因而特别适合传送网上的实时数据。

● RTSP

实时流协议(RTSP,Real Time Streaming Protocol)是由Real Networks和Netscape共同提出的，该协议定义了一对多应用程序如何有效地通过IP网络传送多媒体数据。RTSP在体系结构上位于RTP和RTCP之上，它使用TCP或RTP完成数据传输。

● SDP

媒体描述协议(SDP，Session Description Protocol ）文件是服务器端生成的描述媒体文件的编码信息以及所在的服务器的链接等信息。客户端通过它来配置播放软件的设置，如音视频解码器，接受音频视频数据的端口等。
Posted by rainn at 2006-03-05 01:08:08 Read More Edit Comments(0) Trackback(0)
扫盲5···深刻认识Pv6下的QoS体系 -[勤奋的小白兔]
IPv6的提出首先是由于IPv4的地址空间不足引起的，而其所涉及的领域远不止于此。越来越多的应用加载在IP网络之上，而对更高的质量保证等要求是网络应用的一个关键因素，对QoS问题认识的深刻程度将直接影响IPv6在今后网络中的实际应用效果。
　　
　　视频应用为时间灵敏性特别高的应用，其要求实时性和服务质量管理(QoS)，但是网上众多的应用多为尽力而为类数据。此类数据的特点是突发性强，这种突发性严重影响时间灵敏性特别高的应用，使这些应用的时延加大，同时出现抖动，从而产生严重的后果。例如，视频会议无法正常进行，产生图像马赛克效应，声音时断时续，甚至没有图像和声音。
　　
　　1981 年制定的IPv4协议正面临许多挑战：地址空间匮乏；网络安全漏洞多；服务质量难以保证；不易开展新业务；移动性支持有限，难以满足3G网络发展需求等等。因此，为了解决上述问题，下一代互联网协议IPv6的发展应运而生。
　　
　　IPv6以其超大地址容量可以轻松解决这个问题。解决了地址问题，实现端到端级实时通信基本上就不会有什么瓶颈了。而除了地址问题，IPv6对网络服务质量的作用也作了重大改进，将很大程度上改善服务质量。
　　
　　从“4”到“6”的主要变化
　　
　　扩展编址功能和自动配置机制
　　
　　IPv6的地址大小增加到128位。这解决了IPv4地址空间有限的问题，并提供了一个更深层次的编址层级以及更简单的配置。终有一天，你会忘却32位IP地址的感觉。网络管理员会喜欢协议内置的自动配置机制；多播路由得到了改进，多播地址通过一个范围字段得到了扩展；此外，还引进了一种新的地址类型，叫做Anycast(任播)地址，可以向工作组最近的单个成员发送消息。
　　
　　报头格式的简化
　　
　　IPv6的报头固定为40字节。这刚好容下8字节的报头和两个16字节的IP地址(源地址和目的地址)。IPv6的报头中去掉了IPv4报头中的一些字段，或者是将其变为可选项。这样，数据包可以在低处理消耗下更快地进行操作。
　　
　　改进的扩展和选项支持
　　
　　对于IPv4，选项集成于基本的IPv4报头中。而对于IPv6，这些选项被作为扩展报头(Extension header)来处理。
　　
　　扩展报头是可选项，如果有必要，可以插入到IPv6报头和实际数据之间。这样，IPv6数据包的生成变得很灵活且高效。IPv6数据包的转发效率要高很多。将来，要定义的新选项能够很容易地进行集成。
　　
　　身份验证和私密性的扩展
　　
　　IPv6指定了固有的对身份验证的支持，以及对数据完整性和数据机密性的支持。
　　
　　流标签功能
　　
　　属于同一传输流，且需要特别处理或需要服务质量的数据包，可以由发送者进行标记。实时服务就是这种应用的典型例子。
　　
　　更简单的报头更快的处理速度
　　
　　即使IPv6报头的总长度是默认的IPv4报头的两倍长，达到了40字节，但它实际上还是被简化了的，因为报头的绝大部分被两个16字节的IPv6地址占据。这样，只剩8个字节可供其他报头信息使用。
　　
　　IPv4报头的长度可以从最小的20字节扩展为60字节，以便指定选项，如安全选项(Security Option)、源路由(Source Routing)或时间戳(Timestamping)。这项功能很少使用，因为会降低性能。例如，IPv4硬件转发实现必须把包含选项的数据包传递给予主处理程序(软件处理)。
　　
　　数据包的报头越简单，处理过程就越快。IPv6采用新方法来处理选项，显著地改善了处理速度，保证对数据报文的高速转发和较低的延时，提高了QoS。
　　
　　
　　IPv6下的ICMP变化
　　
　　IPv4试图通过IP报头的服务类型(Type of Service, ToS)字节对流量进行分类，却没有在整个互联网范围内取得成功，因为ToS字节是基于应用程序，根据业务流量属性进行公正的自我分类。在互联网早期的多媒体应用还少，因此对于解决此问题并没有实质性进展，并且从来没有统一地使用ToS字节。
　　
　　IP的重新设计为解决QoS以及其他一些新增功能等问题提供了契机。在IPv6中，不同的服务类别同样可以由不同的多播组实现，比如，可以定义同一音频流量的四种不同类别，每种都按不同品质进行编码(如5.5KHz、11KHz、22KHz和44KHz)。在这种范例下，甚至无须显式地表示优先级，因为它是和各多播组(必须通过由路由器和终端系统执行的不同的队列和处理来操作)隐式绑定的。
　　
　　现有的IPv6 ICMP(多播回放控制消息机制)可被用来塑造发送方和中间路由器的流量特点。不利的方面是，发送者将不得不多次提供基本相同的数据(但品质不同)，接收方需要知道预订哪个组，以便匹配特定的传输和终端系统功能。使用此范例的智能本地决定也包括对流量特征的监督以及在不同品质的多播信道之间动态切换。例如，要传输高品质(44KHz)的音频，分级编码可以用于编码为基本音频数据包的数据，其中包含5.5KHz品质的数据，第二个数据包包含5.5KHz～11KHz的数据，第三个数据包包含11KHz～22KHz的数据，而第四个数据包包含22～44KHz的数据。路由器则可以在拥塞的情况下，按第四、第三、第二和第一的顺序进行丢包处理。音频品质可能不同，但音频数据包只会在所有数据包都被丢弃的情况下才完全丢失。基于分类/优先级的QoS的副作用是，额外增加了发送者的负担(例如，IP报头管理和分级编码)，并且接收方得到的服务质量不同，也得不到保障。
　　
　　与QoS直接相关的元素
　　
　　IPv6协议在IP Base (基本) 和Extension(扩展)报头中包含了少量与特定于QoS的服务元素，可以按不同方式使用并可综合应用。
　　
　　IPv6基本报头中与QoS直接有关的服务元素包括流和相应的流标签。
　　
　　Traffic Class (流量类别)
　　
　　该节段代替了IPv4中的Type of Service字段，它有助于处理实时数据以及任何需要特别处理的数据。发送节点和转发路由器可以使用该字段来识别和分辨IPv6数据包的类别和优先级。
　　
　　流是从某个特定源发送到某个特定(单播或多播)目的地的一系列数据包，源需要由中间路由器进行特殊处理。该特殊处理的类型可以通过相应的控制协议(如RSVP)传送给路由器，或者通过流数据包自身的信息，如IP Base报头或Hop-by-Hop Extension报头。从发送者到接收者之间可能有多个活动流，以及和任何流都无关的数据流量。IP协议中的流通过源IP地址和非零流标签标识符的组合惟一地进行识别。不属于流的数据包的流标签为全零。
　　
　　Flow Label(流标签)
　　
　　该字段区分需要相同处理的数据包，以此来促进实时性流量的处理。发送主机能够用一组选项标记数据包的顺序。路由器跟踪数据流并更有效地处理属于相同数据流的数据包，因为他们无须重新处理每个数据包的报头。数据流由流标签和源节点的地址惟一标识。不支持Flow Label字段功能的节点需要在转发数据包时不加改变地传递该字段，并在接收数据包时忽略该字段。属于同一数据流的所有数据包必须具有相同的源IP地址和目的IP地址。
　　
　　IPv6报头中包含了一些关于控制QoS的信息(流类别和流标记)，通过路由器的配置可以实现优先级控制和QoS保证，将很大程度上改善服务质量，保障从VoIP到视频流的高质量传输。这也是美国国防部采用IPv6的重要原因之一。改善的QoS不仅使五角大楼能够获得了更好的传输服务，还允许军方根据不同的需要为信息分配不同的传输路径、所需带宽或者加密等级。例如，在一场战争中，对从战地指挥部发出的一封有关假期的邮件只分配很低的QoS，相反，指挥官与重要军官之间的VoIP电话将分配到很高的QoS。美国国防部将让所有类型的拓扑和平台都使用QoS标记。
　　
　　另外，今天互联网上的QoS还远没有标准化，设备制造商和网络平台采用不同的QoS机制，当数据离开某个IP网络到达下一个网关的时候，QoS的定义会突然发生变化。现在，向IPv6的过渡将给QoS的标准化提供一个很好的机会。因此IPv6产品必须通过产品测试和互操作性公开测试，同时为终端用户提供有关设备互通和一致性测试的信息。
　　
　　11月中旬，美国国防部刚刚完成了其新一轮的IP网络升级测试，内容之一即是在IPv6协议上实现互联网电话应用等。从该项目测试机构发布的消息看，在现实中部署这些IPv6应用仍然存在一些问题，但IPv6网络的整体基础架构表现是稳定可靠的，此次测试还对视频广播、无线局域网、网络安全等技术进行了评估。该测试将IPv6应用带入了一个新的阶段，美国国防部去年公布的计划是在2008年之前实现网络全面支持IPv6标准。
　　
　　在我国，IPv6工作的推进是在CNGI(下一代互联网示范工程)带动下进入全面实际部署应用阶段的。在11月29日新成立的我国首家专门致力于IPv6网络和技术发展的专业委员会——“北京通信信息协会IPv6推广应用专业委员会”更被认为是我国IPv6发展将步入新阶段的一个标志。
　　
　　此次成立的IPv6专业委员会的职责除了致力于积极推进IPv6在北京的应用和发展，实现各企业间的协助互补外，一个主要职责是进行研究IPv6的技术特点和优势，找出IPv6的创新应用，成为IPv6与传统行业有机结合的平台。该委员会已经吸引了中国电信北京研究院、方正科技、神州数码网络、北京软件产业促进中心、普天首信股份有限公司、国家气象信息中心、思科中国有限公司以及安奈特(中国)网络有限公司等四十余家单位参与。

MPEG-4 AVC/H.264 decoder comparison

With AVC/H.264 the MPEG-4 Standard defines one of the newest and technically best available, state-of-the-art Video Coding FormatsThe AVC/H.264 Video Coding Standard was together finalized and identically specified in 2003 by two Groups, the MPEG (Moving Pictures Experts Group) from ISO and the VCEG (Video Coding Experts Group) from ITU (International Telecommunication Union), a suborganisation of the United Nations (UNO), which also standardised the H.263 format (mainly used in video conference software now)The AVC/H.264 Standard itself was developed by the Joint Video Team (JVT), which included experts from both MPEG and VCEGLooking from the MPEG side the standard is called MPEG-4 Part 10 (ISO 14496-10), looking from the ITU side, it is called H.264 (the ITU document number), by which the format is widely known alreadyAs "official" title for the new standard Advanced Video Coding (AVC) was chosen by MPEG - as video counterpart to the Advanced Audio Coding (AAC) audio formatAVC/H.264 ProfilesThe AVC/H.264 standard defines four different Profiles: Baseline, Main, Extended and High Profile (which themselves are subdivided into Levels):- Baseline Profile offers I/P-Frames, supports progressive and CAVLC only - Extended Profile offers I/P/B/SP/SI-Frames, supports progressive and CAVLC only - Main Profile offers I/P/B-Frames, supports progressive and interlaced, and offers CAVLC or CABAC - High Profile (aka FRExt) adds to Main Profile: 8x8 intra prediction, custom quants, lossless video coding, more yuv formats (4:4:4...)It seems the most usable profile for DVD Backups is the High Profile with maybe the following tools (also check out the tool description of MPEG-4 ASP as all, except GMC, are available in AVC too):CAVLC/CABAC:AVC/H.264 defines two, more advanced tools for entropy coding of the bitstream syntax (macroblock-type, motionvectors + reference-index...) than MPEG-4 ASP: Context-Adaptive Variable Length Coding (CAVLC) and Context-Adaptive Binary Arithmetic Coding (CABAC)CABAC, compared to CAVLC (aka UVLC) which is the default method in AVC/H.264, is a more powerful compression method, being said to bring down the bitrate additonally by about 10-15% (especially on high bitrates). CABAC (as CAVLC) is a lossless method and therefore will never hurt the quality, but will slow down encoding and decoding.Loop/Deblocking Filter:in contrary to prefiltering (for example via avisynth, done on the input), or postprocessing/filtering (via the decoder, done on the final output), LoopFiltering is applied during the encoding process on every single frame, after it got encoded, but before it gets used as reference for the following frames. This helps avoiding blocking artifacts, especially on low bitrates, but will slow down en/decodingVariable Block Sizes/Macroblock Partitions:in contrary to MPEG-4 ASP (where, only with Inter4V/4MV, the Block Sizes can varry between 16x16 and 8x8 pixels), AVC/H.264 offers for Motion Search Precision the division of a macroblock down to 4x4 pixels (including steps like 8x4...). The Block Size is adaptive/variable, a good encoder will be smart enough to decide which one is best to use in every specific macroblock Multiple Reference Frames:in contrary to MPEG-4 ASP (which only allows using the frame before the actual frame as reference), AVC/H.264 offers choosing from multiple ones for inter motion search, which means the codec can decide whether he wants to simply refer to the previous frame (like in ASP) or even to a frame before that. Because of that (eg a P-Frame can refer to a frame before the latest I-Frame) a new frametype had to be introduced: IDR-Frames, which are I-Frames before which no following frame is allowed to refer to. Allowing multiple reference frames will slow down encoding and decoding and cutting will be only possible at IDR-FramesWeighted Prediction:With Weigthed Prediction there can be weights applied to a reference frame (eg you can scale (brightness-wise) a previous picture). This helps especially whenever there are fades, where the subsequent picture is very similar to the previous one except that it is darker. WP will not help with cross-fades (eg a fade from one scene to another)Rate Distortion Optimisation (RDO):RDO allows the encoder to make the most efficient coding decisions whenever it has to choose between different choices (for example when it comes to inter/intra decisions, motion search...)RDO is not a tool defined by the AVC/H.264 specs, but it's a new decision making approach which was first introduced by the H.264 reference software. Other codecs can also make use of RDO, like XviD's VHQ Mode enables RDO already for exampleAn overview of AVC/H.264 compared to other popular video coding formats: available AVC/H.264 CodecsAVC/H.264 implementations are available atm already from x264, Nero, Apple, Sorenson, Elecard, Moonlight, VSS, mpegable, Envivio, Hdot264 (binary), DSPR, JM (reference software) (binary), ffmpeg, Philips, FastVDO, Skal, Sony and many more Encoders- x264: the first publically available High Profile encoder, opensource (GPL) (Source), available for VFW: x264vfw, ffdshow (output .avi), as commandline: x264cli (outputs .mp4, raw), mencoder (outputs raw, .avi) (Doom9's MeGUI) or ffmpeg x264 supports 2pass, CABAC, Loop, multiple B-Frames, B-References, multiple Reference Frames, 4x4 P-Frame, 8x8 B-Frame Blocksizes, anamorphic signalling and High Profile: 8x8 dct and intra prediction, lossless and custom quant matrices- NeroDigital AVC: useable in Nero Recode2, outputs .mp4ND AVC supports 2pass, CABAC, (adaptive) Loop, multiple B-Frames, mulitple Reference Frames, weighted prediction, 8x8 P-Frame Blocksizes, 16x16 B-Frame Blocksizes, Adaptive Quant. (Psy High)- Sorenson: useable in Sorenson Squeeze 4, outputs .mp4, Sorenson supports 2pass, max 2 B-Frames, B-References, Loop and multiple Slices- Apple: useable in Quicktime 7, outputs .mp4, .3gp and .mov, totally slowuses 2pass, max 1 B-frame, Loop (0,0), P8x8,B8x8,I4x4, Adapt. Quant, 5 Slices, no CABAC, no Weighted Pred., no multi Ref.- JM: The AVC Reference Software offers in v9.3 Main and High Profile: B/SP-Frames, CABAC, Loop Filter, 4x4 Blocksizes, multiple Reference Frames, Adaptive Quant, Error Resilience, RDO, Lossless Coding, Custom Quants, Rate Control aso...- Hdot264: opensource (GPL) VFW version of the reference software by doom9 member charact3r, still based on a very old version of the reference (JM 4.0c)- VSS: free preview VFW Encoder (limited to 5 days), based on the reference encoder- Elecard: useable in Elecard Mobile Converter, outputs .mp4 and MainConcept's v2 encoder, outputs .264 and .mpg PS/TSnot publically available anymore:- Moonlight: useable in Moonlight's OneClick Compressor v1.1 and CyberLink's PowerEncoder, outputs .mpg Moonlight supports 1pass (VBR/CBR/Fixed Quants), CABAC, Loop, 2 B-Frames, 8x8 P-Frame Sizes, Adapt. Quant, PAR, Interlacing- MainConcept: was useable in the v1 encoder (adds a watermark), outputs .264 and .mpg PS/TS1pass (CBR/VBR/fixed Quants), P-Frame Reorder, CABAC, Loop, Multiple B-Vops, Multiple Ref, 4x4 P-Frame Sizes, PAR, RDO- mpegable: offered for some time a free VFW Encoder (not based on the reference), doesnt handle YV12mpegable supports 1pass (fixed quants) uses P-Frames only, 8x8 P-Frame Blocksizes, CAVLC only, Loop - Envivio: useable in 4Coder, outputs .mp4 Decoders (comparison) - ffmpeg: opensource (LGPL), used e.g. in ffdshow (VFW and DShow decoder), mplayer and VideoLANsupports B-Frames, B-References, CABAC, Loop, Weighted Prediction and High Profile (8x8 dct and intra prediction, lossless)- Apple: AVC decoding inside Quicktime 7, supports .mp4/.mov, very slowsupports only 1 B-Frame, CABAC, Loop but no mixed references, multiple B-frames and no interlacing- NeroDigital AVC: DShow Decoder and .mp4 Parser coming with Recode2supports Main and High Profile- VSS: preview VFW Decoder (limited to 5 days) and a DShow Decoder (limited to 30 days)VSS DShow supports .avi (with VSSH and H264 fourcc), CABAC, Loop, B-Frames - Elecard: available in Elecard's MPEG Player v4.0 and MainConcept's v2 encoder- Envivio: not freely available AVC DShow decoder called EnvivioTV, handling AVC in .mp4 (since 2.0, current version: 2-1-181)- Philips: DShow AVC decoder freely available in the AVC Alliance player (handles raw AVC only)- FastVDO: time limited (5 minutes per video) High Profile DShow Decoder- Pegasus: not really compliant DShow AVC decoder available here- Basic AVC Decoder in C, for an university project available herenot publically available anymore:- Moonlight: DShow decoder/Parser handling AVC in .mpg, .mp4 and .264 available in Moonlight's MPEG Player v3.0 supports Main and High Profile- MainConcept: the v1 preview offered a free DShow AVC decoder (adds watermark) and Parser handling AVC as .mpg PS/TS- mpegable: offered for some time a free VFW decoder (usable also in DShow), supports .avi (with DAVC fourcc)Sample contentNeroDigital: mp4, mp4 Sorenson: mp4AVC Alliance: raw Moonlight: raw/medium bitrates, raw/low bitrates, raw, mpgFastVDO: raw/high profile Apple: mov Videosoft: avi, avi/new, avi/oldLead: ogm current issues with AVC/H.264- interoperability: most implementations support different container formats atm:.mp4: which is the container of AVC defined in the MPEG-4 Standard (ISO 14496-15) and supported by Apple, Nero, Sorenson, Envivio, Elecard/Moonlight and x264 atm.mpg PS/TS: which are the containers of AVC defined in the MPEG-2 Standard (ISO 13818-1, AMD3) and supported by Mainconcept and Elecard/Moonlight atm.avi: using AVC-in-AVI is nowhere standardized and therefore already causes incompatibilies. The limitations of AVI and VFW (eg regarding b-frames or arbitrary frame coding orders), together with the necessary hacks caused by these two formats, hinder the full implementation of all possible features AVC offers and therefore harm the possible quality or at least the speed of the development, the interoperability and therefore also the competition. AVI is currently used by VSS and x264 (mencoder and vfw).264/.h264: the raw bitstream not stored in a container. output for example by the reference, x264cli, mencoder and mainconcept- speed: some current implementations are pretty slowstill x264 and NeroDigital's AVC encoder seems to offer already a nice speed and quality. But this doesnt change the fact that AVC is a very advanced video coding format and therefore encoding and decoding on old CPU's can be very time consumingMPEG-4 AVC/H.264 on Hardware - HD-DVD/Blu-raythe DVD Forum and the Blu-ray Disc Association are currently working on successors for the DVD format, supporting High Definition content (simply larger picture sizes than current DVD): HD-DVD and BD-ROMAs reported here MPEG-4 AVC/H.264 will be mandatory for HD-DVDBlu-ray has also included MPEG-4 AVC/H.264 as written here It is therefore very likely that AVC/H.264 will be THE upcoming video format, which will be widely used and supported, like it is the case with MPEG-2 (used in DVD) todayfurther documentationRead more about the MPEG-4 AVC/H.264 here for a detailed overview, summarized info here or here a list of available implementations The AVC Verification Test Results can be found hereThe whole specs of AVC/H.264 can be downloaded here (Draft from the 7-14 March 2003) Technical Info about Blu-ray is available here
Posted by rainn at 2006-03-05 01:17:59 Read More Edit Comments(5) Trackback(0)
扫盲7··流媒体的概念 -[勤奋的小白兔]
1 流媒体的概念　　数字视频和声音传输所涉及到的一个重要概念是所谓的"流媒体"概念。所谓流媒体是指视频、声音和数据从源端同时向目的地传输，它可以作为连续实时流在目的地被接收。这里的源指的是服务器端的应用，而目的地或称接收端是指客户端应用。流数据从服务器端应用传输后可由客户端应用接收并显示或回放，一般是客户端应用接收到足够的数据并将之存储在缓冲区后便立即将视频显示出来，或将音频回放出来。　　流媒体的一个重要特征是对时间的敏感性，这正是实时性要求高的应用所必需的，所以这类应用与流媒体密不可分就十分自然的了。流媒体的实现主要取决于网络带宽和压缩算法的提高。今天，随着网络协议的改善、网络基础设施和压缩技术的发展，流媒体的实现已经变得越来越容易了。 2 流媒体传输方式　　流媒体的传输技术主要有三种：点对点(unicast)、多址广播(Multicast)和广播(Broadcast)。多址广播又称为组播。点对点的特点是流媒体的源和目的地是一一对应的，即流媒体从一个源(服务器端的应用)发送出去后只能到达一个目的地(客户端应用)。组播是一种基于"组"的广播，其源和目的地是一对多的关系，但这种一对多的关系只能在同一个组内建立，也就是说，流媒体从一个源(服务器端的应用)发送出去后，任何一个已经加入了与源同一个组号的目的地(客户端应用)均可以接收到，但该组以外的其他目的地(客户端应用)均接收不到。广播的源和目的地也是一对多的关系，但这种一对多的关系并不局限于组，也就是说，流媒体从一个源(服务器端的应用)发送出去后，同一网段上的所有目的地(客户端应用)均可以接收到，广播可以看作组播的一个特例。　　广播和组播对于流媒体传输来说是很有意义的，因为流媒体的数据量往往都很庞大，需要占用很大的网络带宽。如果采用点对点方式，那么有多少个目的地就得传输多少份流媒体，所以所需的网络带宽与目的地的数目成正比，如果采用广播或组播方式，那么流媒体在源端只需传输一份，组内或同一网段上的所有客户端应用均可以接收到，这就大大降低了网络带宽的占用。 3 数字视频和声音传输技术　　数字视频和声音传输属于流媒体传输范畴。模拟视频和声音信号经过捕获设备转换成数字形式后，其数据量是非常惊人的，如果没有采用压缩技术，那么要实现数字视频和声音的网络传输是不可想象的。另一方面，数字视频和声音传输对时间的敏感性很强，实时性要求很高，如果不采用特别的网络传输协议是很难满足要求的。所以，实现数字视频和声音传输的一般做法是：在源端先将数字视频和声音信息进行压缩，然后经由诸如ATM这样的有服务质量(即QoS)保证的网络传输到目的地，再在目的地将之进行解压后显示或回放出来。如果需要在诸如IP网络这样的没有QoS保证的网络上传输，则至少也得采用实时传输协议(RTP)进行传输。　　目前已发展和正在发展的数字视频和音频压缩技术有很多种，不同的压缩技术有不同的侧重点，适应不同的应用。这些压缩技术中有的已经标准化，但还有很多并没有标准化。常用的已经标准化的压缩技术有MPEG-1、MPEG-2、H.261/H.263等，正在发展的有MPEG-4等。MPEG-1、MPEG-2适用于高带宽的能够提供高质量低延迟的视频和音频应用，而H.261、H.263以及正在发展MPEG-4则适用于低带宽的对图象质量的延迟要求不高的应用。　　图为数字视频和音频传输原理示意图，它包含了目前基于数字视频和音频流的几种典型的应用领域。由图可知，不同的应用领域基于不同的网络技术和不同的压缩技术。

基础视频知识