第一章 多媒体技术概论
难点分析:
·多媒体的概念
要深入理解多媒体的概念,先从媒体谈起。媒体在计算机领域通常有两种含义:一是指存储信息的实体,如磁盘、光盘、磁带、半导体存储器等;二是指传递信息的载体,如数字、文字、声音、图形和图像等。可见多媒体技术中的媒体是指后者。
所谓“多媒体”从字面理解就是“多种媒体的综合”,相关的技术也就是“怎样进行多种媒体综合的技术”。我们一般认为,“多媒体”是指能同时获取、处理、编辑、存储和展示两个以上不同类型信息媒体(如:文字、声音、图形、图像、动画、视频等)的技术。可见,我们常说的“多媒体”最终被归结为是一种“技术”,常常不是指多种媒体本身,而主要是指处理和应用它的一整套技术。
第二章 多媒体信息的表示
难点分析:
·MIDI的含义、MIDI与数字化声音的比较
MIDI 是乐器数字接口的英文缩写,泛指数字音乐的国际标准,它是音乐与计算机结合的产物。MIDI信息实际上是乐谱的数字描述,这里乐谱完全由音符序列、定时以及被称为合成音色的乐器定义组成。当一组MIDI消息通过音乐合成器芯片演奏时,合成器就会解释这些符号并产生音乐。
选择MIDI还是数字化声音,要考虑计算机处理数字文件的能力,对回放硬件的控制能力以及是否有语言对话的需要等方面因素。
·位图图像、矢量图形的比较
位图图像(Bit-Map Image)是指在空间和亮度上已经离散化的图像。通常把一幅位图图像考虑为一个矩阵,矩阵中的一个元素(像素)对应图像的一个点,相应的值表示该点的灰度或颜色等级。
矢量图形(Vector-Based Image)是用一个指令集合来描述的。这些指令用来描述图中线条的形状、位置、颜色等各种属性和参数。
矢量图与位图比较,主要看空间和性能两方面,一般说来,要看图像的复杂程度,简单的图使用矢量图描述好一些,复杂的图使用位图好一些。
·波形声音与MIDI音乐的比较
MIDI 消息实际上就是乐谱的数字表示。与波形声音相比,MIDI数据不是声音而是指令,因此它的数据量要比波形声音少得多。如30分钟的立体声高品质音乐,用波形文件无压缩录制,约需300MB的存储空间;而同样的MIDI数据,则只需200KB,两者相差1500倍之多。另外,对MIDI的编辑很灵活,可以自由地改变曲调、音色等属性,波形声音就很难做到这一点。
波形声音与设备无关,MIDI数据是与设备有关的,即MIDI音乐文件所产生的声音与用来回放的特定的MIDI设备有关。总的来说,数字化声音最重要的优点是重放质量的一致性、可靠性比较好,可自始至终保证质量,而MIDI在这一点上则比较差。
·波形声音质量与数据量的关系
声卡对声音的处理质量可以用三个基本参数来衡量,即采样频率、采样位数和声道数。
采样频率是指单位时间内的采样次数。采样频率越大,采样点之间的间隔就越小,数字化后得到的声音就越逼真,但相应的数据量就越大。声卡一般提供11.025kHz、22.05kHz和44.1kHz三种不同的采样频率。
采样位数是记录每次采样值数值大小的位数。采样位数通常有8bits或16bits两种,采样位数越大,所能记录声音的变化长度就越细腻,相应的数据量就越大。
采用的声道数是指处理的声音是单声道还是立体声。单声道在声音处理过程中只有单数据流,而立体声则需要左、右声道的两个数据流。显然,立体声的效果要好,但相应的数据量要比单声道的数据量加倍。
·图像与图形文件格式的区别
在计算机科学中,图形和图像这两个概念是有区别的:图形一般指用计算机绘制的画面,如直线、圆、圆弧、任意曲线和图表等;图像则是指由输入设备捕捉的实际场景画面或以数字化形式存储的任意画面。
图像都是由一些排成行列的像素组成的,在计算机中的存储格式有BMP、PCX、TIF、GIFD等,一般数据量都较大。它除了可以表达真实的照片,也可以表现复杂绘画的某些细节,并具有灵活和富于创造力等特点。
与图像文件不同,在图形文件中只记录生成图的算法和图上的某些特征点,也称矢量图。在计算机还原输出时,相邻的特征点之间用特定的很多段小直线连接就形成曲线,若曲线是一条封闭的图形,也可靠着色算法来填充颜色。它的最大优点是容易进行移动、缩放、旋转和扭曲等变换,主要用于表示线框型的图画、工程制图、美术字等。常用的矢量图形文件有3DS(用于3D造型)、DXF(用于CAD)、WMF(用于桌面出版)等。图形只保存算法和特征点,所以相对于位图的大数据量来说,它占用的存储空间也较小。但由于每次屏幕显示时都需重新计算,故显示速度没有图像快。另外在打印输出和放大时,图形的质量较高而点阵图常会发生失真。
·动画与视频有何不同?
动画和视频信息是连续渐变的静态图像或图形序列,沿时间轴顺次更换显示,从而构成运动视觉的媒体。当序列中每帧图像是由人工或计算机产生的图像时,我们常称为动画;当序列中每帧图像是通过实时摄取自然景象或活动对象时,我们常称为影像视频,或简称为视频。
第三章 多媒体信息的压缩
难点分析:
·Huffman编码
Huffman编码体现了统计编码的思想。它对于出现频率大的符号用较少的位数来表示,而对于出现频率小的符号用较多的位数来表示。其编码效率主要取决于需编码的符号出现的概率分布,越集中则压缩比越高。其编码过程见教材41页。
·算术编码、预测编码、变换编码、模型编码的原理
算术编码也是一种统计编码,每个符号对应0 到1上的一段子区间,区间长度为该符号出现的概率。该方法将被编码的符号串(数值串)表示成实数0到1之间的一个区间。初始把它设为整个区间。当出现一个新的待编码符号,先把完整的0到1区间映射到上一次形成的区间,然后新区间取为0到1上的新符号对应区间所映成的像。解码时,根据区间的覆盖性来逐一解出原符号串。
预测编码是根据某一数据模型利用以往的样本值对新样本值进行预测,然后将样本实际值与预测值的差值进行编码。如果模型足够好,且样本序列的时间相关性较强,那么误差信号的幅度将远小于原始信号,可以用较少的值对其差值量化,得到较好的压缩效果。预测编码常用的是差分脉冲编码调制(DPCM)和自适应的差分脉冲编码调制(ADPCM)。
变换编码是将通常在空间域描写的图像信号,变换到另外一些正交矢量空间(即变换域)中进行描写,而且通过选择合适的变换关系使变换域中描写的各信号分量之间相关性很小或者互不相关,从而达到数据压缩的目的。
模型编码是指采用模型的方法对传输的图像进行参数估测。典型的有分形编码。
·简述MPEG和JPEG的主要差别。
MPEG视频压缩技术是针对运动图像的数据压缩技术。为了提高压缩比,帧内图像数据和帧间图像数据压缩技术必须同时使用。
MPEG 通过帧运动补偿有效地压缩了数据的比特数,它采用了三种图像,帧内图、预测图和双向预测图。有效地减少了冗余信息。对于MPEG来说,帧间数据压缩、运动补偿和双向预测,这是和JPEG主要不同的地方。而JPEG和MPEG相同的地方均采用了DCT帧内图像数据压缩编码。
另外,MPEG中视频信号包含有静止画面(帧内图)和运动信息(帧间预测图)等不同的内容,量化器的设计比JPEG压缩算法中量化器的设计考虑的因素要多。
·关于压缩比
衡量一个压缩算法好坏的标准,除了解压后的数据有无失真或失真程度之外,是看压缩比的大小。压缩比常用的定义有两种:
(1)采样压缩比
采样压缩比=压缩前输入的总采样数/压缩后输出的总采样数
由于计算机中信号都是数字信号,通常要增加一些信息,以便顺利解压。因此,下面的比特压缩比更实用。
(2)比特压缩比
比特压缩比=压缩前输入的总比特数/压缩后输出的总比特数
不管具体采用哪种定义来计算压缩比,显然这两种定义都能反映压缩前数同压缩后数据之比。
·数字视频的制式
和电影一样,数字视频也是由一序列静止画面组成的,这些静止画面被称为帧。一般来讲,帧率选择在每秒24~30帧之间,视频的运动就非常光滑连续;而低于每秒15帧,连续运动视频就会有停顿的感觉。
我国采用的电视标准是PAL 制,它规定视频每秒25帧,每帧625个扫描行。625行中用于扫描图像的有效行数只有576行,所以图像在垂直方向上的分辨率为576点。按现行4:3 (宽:高)的电视标准,图像在水平方向上的分辨率应为576*4/3=768点,这就得到了768*576这一常见的图像大小。
对于另一种常见的数字视频格式NTSC制,它规定每秒30帧,每帧525行,同样采用了隔行扫描方式,每一帧由两场组成,其图像大小是720*486。由于PAL制与NTSC制的场频、行频以及色彩处理方式均不同,因此两者是互不兼容的。
·影响数字视频质量的因素
在多媒体数字视频中有五个重要的技术参数将最终影响视频图像的质量,它们分别为帧速、分辨率、颜色数、压缩比和关键帧。
(1) 帧速:常用的有25帧/秒(PAL)、30帧/秒(NTSC)。帧速越高,数据量越大,质量越好。
(2) 分辨率:视频分辨率越大,数据量越大,质量越好。这里要注意区分视频分辨率和视频显示分辨率(显示的像素点数)。
(3) 颜色数:指视频中最多能使用的颜色数。颜色位数越多,色彩越逼真,数据量也越大。
(4) 压缩比:压缩比较小时对图像质量不会有太大影响,而超过一定倍数后,将会明显看出图像质量下降,而且压缩比越大在回放时花费在解压的时间越长。
(5) 关键帧:视频数据具有很强的帧间相关性,动态视频压缩正是利用帧间相关性的特点,通过前后两个关键帧动态合成中间的视频帧。因此对于含有频繁运动的视频图像序列,关键帧数少就会出现图像不稳定的现象。
第五章 多媒体开发环境和工具
与多媒体创作工具相关的几个概念:
(1)创作环境:用于创作的整套硬件、固化软件(永久性内建在硬件里的软件)和软件。
(2)创作系统:环境中所有专用于创作的软件程序。
(3)创作工具:环境中一个专用于创作的软件程序,它可完成一项或多项创作任务。
(4)集成工具:用于安排多媒体对象、处理其时空关系使之集成为一个应用软件的工具。
第六章 多媒体应用系统开发
多媒体应用系统:
多媒体应用系统是由专家或开发人员利用计算机语言或多媒体创作工具制作的最终产品。目前,多媒体应用系统所涉及的应用领域主要有文化教育(教学软件)、电子出版、音像制作、影视制作、影视特技、开发系统、通信和信息咨询服务等。
(1)开发系统:是用来开发应用的工具性或支持类软件系统,如创作工具、数据库系统、著作语言、多媒体编辑器等;
(2)Title是一类多媒体应用的总称,主要是指具有一定主题的应用型光盘产品,如大百科全书、词典、教科书、某一专题的介绍(如风光、古迹、邮票)等;
(3)演示系统:为某一单位或某一应用专门设计的演示系统,更加强调演示上的创意或应用上所要求的特殊效果。例如单位的介绍、产品的演示、某个科研项目表演等;
(4)教育培训:复杂的信息组织格式和交互是此类系统十分重要的特点。因为在教学过程中,不仅仅只是表演信息,而且还要不断地穿插测验、回答、习题等内容。
(5)娱乐:多媒体游戏、影视节目等均属于这一类,更强调交互性和实时性,并不一定要求很大的信息量和准确性;
(6)专门应用系统:此类系统为特定目的而设计,如多媒体会议系统、医学诊断系统等,本身具有鲜明的专业特色。
以上是几类主要的多媒体应用类型。在这些应用中,有的需要按照要求和功能用合适的语言开发,强调很强的程序设计能力,如第(1)类;有的则需要用合适的创作工具进行生成后才能使用,强调多媒体信息的组织和创意,如第(2)、(3)、(4)类;有的则需要更复杂的系统结构设计或技巧设计,如最后两类。这是不同多媒体应用的各自特点。
第七章 多媒体卡
1、音频卡的基本技术指标
(1)采样频率:单位时间内的采样次数,常用的采样频率有11.025kHz、22.05kHz和44.1kHz。
(2)采样值的量化位数:常用的有8位、16位和32位,其中以16位为主。
(3)声道数:音频卡支持单声道与双声道。
(4)合成器:常用的合成方法有波表(Wave Table)查询和频率调制(FM),前者效果好但价格高,后者因低廉的价格而被广泛使用。
(5)MIDI接口:音频卡应支持MIDI标准。
(6)I/O设备支持:包括CD-ROM接口(SCSI接口、AT-BUS接口)、麦克风输入接口、音箱输出接口、MIDI接口、线输入接口等。
(7)即插即用。
(8)兼容性等。
2、 波表
波表合成器是声音信号合成器的一种,采用的是对自然声音进行数字化录音,并将录得的数字化声音信号存储在一张表(ROM)中,播放时再从其中调出声音进行播放的方法。波表合成器播放的是自然音的重现,更自然、逼真,所以现代优秀的声卡都采用波表合成器。
3、DMA通道号、IRQ号和I/O端口号
与PnP 声卡的安装往往要涉及到DMA通道号、IRQ号和I/O端口号等的设置,实际上以上三个参数不是声卡独有的,一般的硬件插卡基本上都有这三个参数。在同一时刻同一个DMA通道号、IRQ号和I/O端口号只能分配给一个设备使用,这是IRQ、DMA、I/O端口地址的分配原则,违反它就会发生冲突,而冲突的后果可能是很严重的:IRQ冲突可能经常引起系统崩溃;DMA冲突则会引起冲突一方设备不能正常工作;I/O端口冲突也如此。
为了解决外部设备之间DMA 通道号、IRQ号和I/O端口号设置的冲突,Microsoft和Intel联合制定了ISA总线的即插即用标准(PnP,PlugandPlay)。符合即插即用标准的外设将不再需要用户自己设置IRQ、DMA、I/O端口地址,系统将自动从可用的系统资源中为设备分配它们。
第八章 光盘与光驱
1、 CD-ROM驱动器的一般特性
(1) 容量:最高达680M字节,可以把中国大百科全书(约12568万字,共74卷,图表49765幅)装入一张CD-ROM盘中。
(2) 内置与外置:依据放置的位置和形式,CD-ROM驱动器有内置、外置和便携式。其中内置式驱动器应用最广泛。
(3) 接口:常见的CD-ROM驱动器接口标准有SCSI接口、专用接口、IDE接口等。
(4) 速度:用存取/寻道时间及平均数据传输率(KB/s)来衡量。
(5) 缓冲区:多数驱动器都带有缓冲区,以提高读写性能,典型的缓冲区大小为64KB、128KB、256KB。
(6) 兼容性:支持Photo CD和CD-ROM XA。
(7) 装盘机制:目前流行的是托盘式装盘机制。
2、 光盘系列的特点
(1)CD-DA:是为激光数字音频唱盘制定的规格。它是CD标准的第一个文本,属于红皮书标准。
(2)CD-ROM:在CD-DA成功的基础上制定的逻辑格式,1988年成为国际标准ISO 9660,称为黄皮书。
(3)CD-I:属于绿皮书标准。它在CD-ROM标准基础上补充了音频、视频和计算机程序方面的规定。
(4) CDROM XA:是Philips、Sony、Microsoft制定的CDROM扩展结构。它扩充了对数字音频信号的编码,目的是为了弥补CDI标准带来的问题。它是CD-ROM和CD-I之间的“桥梁”型产品,实现了将声音、视频和文字等资料同时存在光盘的同一轨上,该标准称为黄皮书的扩展。
3、Photo CD:是一种像片光盘,允许多段追记录入,属于白皮书标准。
4、DVD-ROM与CD-ROM
DVD中文译为“数字视盘”,它采用MPEG2压缩标准,在DVD盘片采用两面工艺,12cm光盘上可存入7~10GB数字信息,可存放播放时间为270~284分钟质量更高的影视节目。成为代替VCD的下一代产品。
DVD-ROM采用DVD盘片的CD-ROM,它能兼容CD、CD-ROM、VCD、DVD等各种盘片。
DVD 与VCD主要有以下几点不同。DVD采用MPEG2编码,视频高达1000线左右的图像解像度;而普通的VCD采用MPEG1编码,仅有不到400线; DVD采用的是杜比AC3环绕立体声,而VCD使用的是普通的双声道立体声输出。DVD单层单面的数据容量为4.7GB,而VCD仅为650MB,DVD 可以制作为双面双层,总容量可达17GB。而VCD标准仅为单面单层。出于保护知识产权的需要,DVD有防复制区位编码保护,而VCD没有。
第九章 常用多媒体设备
1、 扫描仪的结构
扫描仪由电荷耦合器件(CCD)阵列、光源和聚焦透镜组成。CCD排成一行或一个阵列,阵列中的每个器件都能把光信号变为电信号。光敏器件所产生的电量与所接收的光量成正比。
2、 扫描仪的技术指标
(1)扫描分辨率:以每英寸能分辨的像素点来表示,单位为dpi。输入分辨率的高低直接决定了扫描精度,分辨率越高,采样图像的清晰度也就越高。
(2)灰度:它是扫描仪的一个主要技术指标,也称为光电转换精度,是指识别和反映像素明暗程度的能力。若每像点用8位编码,就能反映256个灰度等级。人眼对发光体的分辨能力虽然比256级亮度高,但对256级亮度人已基本感觉不出色差。
(3)色彩精度:彩色扫描仪要对像素分色,把一个像素点分解为红(R)、绿(G)、蓝(B)三基色的组合。对每一基色的深浅程度也要用灰度级表示,称为色彩精度。通常处理时取每色8位,能确保16.7M种颜色再现,称为真彩色。
(4)扫描速度:是指在指定分辨率和图像尺寸下的扫描时间。这对生产型专业扫描仪是一个不容忽视的指标。如果扫描速度过慢,将使其他配套设备出现闲置等待状态。
(5) 扫描幅面:它表示可扫描原稿的最大尺寸,常见的为A4、A3幅面的台式扫描仪。
第十章 多媒体应用
1、 多媒体创作中应注意的问题
多媒体创作的共同特点和基本要素是:生动逼真的音响效果、高清晰度动态视频、灵活便捷的交互手段、和谐统一的友好界面。
进行多媒体创作,除了选择合适的多媒体创作工具外,还要建立多媒体创作工具箱(包括素材采集工具、编辑工具)和常用素材库(如背景库、按钮库、音频库和图片库等)。此外,在创作中还应该注意以下几点:
(1) 屏幕设计应做到均衡、简洁、一致性。
(2) 要注意声音比图像和文字产生的作用更强烈,动态元素(视频、音乐、音效)能引起更多的注意。
(3) 始终使用一种或同类效果的过渡。
(4)要提倡以人为中心的设计,融科学技术和艺术为一体。如构造良好的菜单树,优化用户视觉。合理安排屏幕的显示,确保适宜的显示速率和响应时间,并且简单易学,提示信息、求助信息清晰,字符易懂。