专题四:多媒体专题
多媒体信息一般指用文本、图形、图像、动画、音频和视频影像等形式表示的信息。
多媒体计算机技术是指利用计算机交互地综合处理相互之间有联系的文本、图形、图像、动画、音频、视频等多种信息。
多媒体的主要特性表现在信息载体的多样性、交互性和集成性。
多媒体技术是指能对多种载体上的信息和多种存储体上的信息进行处理的技术;而媒体是指承载信息的载体;
多媒体具有交互性而媒体不具备交互性;
数字化的声音和图像包含了大量的数据。如果不进行数据压缩,实时处理数字化的声音和图像信息所需要的存储容量、传输率和计算速度都是目前计算机难以承受的。所以数据压缩技术一直是多媒体各项研究的重点。
进行声音和图像信息的压缩处理要求进行大量的计算。VLSI技术的发展让我们可以生产低廉的数字信号处理器(DSP)芯片用硬件来完成复杂的计算处理。
多媒体信息虽然经过了压缩处理,但还是含有大量的数据,所以需要有大容量的存储设备来保存这些信息。
多媒体技术需要同时处理声音、文字、图像等多种媒体信息,其中声音和视频图像还要求实时处理,需要有能支持对多媒体信息进行实时处理的操作系统。
通常,多媒体系统由以下4个部分构成。
硬件系统
最重要是根据多媒体技术标准而研制生产的多媒体信息处理芯片、板卡和光盘驱动器等。音频卡,视频卡,光盘驱动器,扫描仪,光学字符阅读器.触摸屏,数字化仪,投影仪.
多媒体操作系统
这是多媒体的核心,具有实时任务调度、多媒体数据转换和同步控制、对多媒体设备的驱动和控制,以及图形用户界面管理等。
媒体处理系统工具 它是多媒体重要的组成部分,也称为多媒体系统开发工具软件。
用户应用软件
◆亮度、色调和饱和度
亮度:表示光的明亮程度,它与被观察物体的发光强度和人类视觉系统的视敏功能有关。
色调:反映的是颜色的种类,是决定颜色的基本特性。
饱和度:指颜色的纯度,即掺入白光的程度,或者说是颜色的深浅程度。色调和饱和度通称为色度。
◆彩色空间
在多媒体技术中,用得最多的是RGB彩色空间表示。而一般在彩色电视系统中,采用的是YUV彩色空间。另外,还有CIE XYZ、CIE LAB、CCIR601-2YCbCr彩色空间等。
<1>.RGB彩色空间(彩色显示器):通过光的相加混合.
<2>.CMY彩色空间(彩色打印机):
用油墨或颜料进行混合得到的彩色称为相减混色.
CMY彩色空间:通过油墨或者颜料的三基色:青, 品红,黄通过不同的比例混合成任何一种油墨或者颜料表现的颜色.
<3>.YUV彩色空间(现代彩色电视系统):
通过3管彩色摄像机或者彩色CCD摄像机.把彩色图像信号通过分色,放大,校正得到RGB三基色,再经过矩阵变化得到亮度信号Y,色差信号(R-Y),和V(B-Y) 最后进行编码发送出去.
◆图形图像文件
图形是指用计算机绘制工具绘制的画面,包括直线、曲线,圆/圆弧,方框等成分。图形一般按各个成分的参数形式存储,可以对各个成分进行移动、缩放、旋转和扭曲等变换,可以在绘图仪上将各个成分输出。
图像是由输入设备捕捉的实际场景或以数字化形式存储的任意画面。图像可以用位图或矢量图形式存储。
●位图
也叫黑白图象,它是按图像点阵形式存储各像素的颜色编码或灰度级。位图适于表现含有大量细节的画面,并可直接、快速地显示或印出。其存储量大,一般需要压缩存储。
●矢量图
它用一组指令或参数来描述其中的各个成分,易于对各个成分进行移动、缩放、旋转和扭曲等变换。矢量图适于描述由多种比较规则的图形元素构成的图形,但输出图像画面时将转换成位图形式。
<1>显示分辨率(输出分辨率)用每英寸行数和列数表示,显示器上所能够显示的像素的点的个数.屏幕更新频率:显示器每秒更新的次数;
<2>图像分辨率(屏幕分辨率)一副图像的像素密度.即每英寸用多少点(dpi)来表示图像的大小.
例如: 200dpi来扫描大小为2*2.5英寸的图像可得到 400*500的图像.
<3>当图像分辨率大于显示分辨率的时候只能显示一部分.小于则只占了屏幕的一部分.
<4>图像的深度:存储每个像素点所占的位数.决定了彩色图像中的最大颜色数和灰度图像中的灰度级别. (bpp是指表示每个像素所需的2进制位数)
例如;深度为8的图像可以表示256种颜色
<5>真彩色和伪彩色:
真彩色: RGB:8:8:8存储.也称全真彩色.
伪彩色: 在图像文件图中包含了彩色索引表.每个像素点采用一个字节指向索引表中的颜色.
<1>图像数据量 =图像的总像素*图像深度/8(Byte)
例如: 640*860的256色图像数据量为: 640*860*8/8 = 300KB
<2>图像的压缩:
*1.无损压缩:
A.行程长度编码 :利用每一行相同颜色像素将其压缩为颜色加个数存储,压缩率取决于图像本身.
B.增量调制编码:利用图像颜色块颜色相近.每一行紧存储第一个像素的实际值和其后每个像素值与第一个像素值只差:增量值.
C.哈夫曼编码
*2.有损压缩:预测编码,变换编码,矢量编码和基于模型的编码.
<3>图像数据压缩编码的国际标准:
*1.JPEG:联合图像专家组. 提供了静态图像数据压缩标准.
(2种算法:以离散余弦变换为基础的有损压缩.以预测技术为基础的无损压缩算法.)
*2.MPEG:动态图像专家组
第一阶段: (MPEG-1)针对传输速率为: 1Mbps到1.5Mbps的普通电视质量视频信号的压缩.应用于VCD。
第二阶段: (MPEG-2) 对每秒30帧 720*572的视频信号进行压缩.DVD
1999年发布了MPEG-4多媒体应用标准.
MPEG分为: MPEG视频,MPEG音频,视音频同步等3个部分.
*3.H.261:电话视频会议建议标准.用于低速率通讯的电视图像编码.
BMP:PC机上最常见的位图格式,尤其在Windows系统中使用特别广泛。
GIF:以数据块来存取图像信息.采用了字串表编码按扫描行压缩图像数据.主要用于在不同平台上进行图像交换,是经过压缩的图形格式。GIF文件最大64MB,颜色数最多256色。在HTML文档中得到广泛应用。
PNG:作为GIF文件替代开发.
1.避免使用GIF文件所遇到的常见问题.
2.灰度可达16位,彩色深度可达48位.
3.采用那个LZ77的派生无损压缩算法.
JPEG:文件压缩比较高,文件比较小。虽然它采用的是有损压缩算法,但对图形图像的损失影响并非很大。其色彩数最高可达到24位。
TIF:为扫描仪和桌面出版系统研制的一种较为通用的图像文件格式.是CD-Rom中重要的一种图片格式,有压缩和非压缩两大类,是许多图像应用软件所支持的主要文件格式之一,其最高支持的色彩数可达16M。
PSD:Photoshop中的标准文件格式,专门为Photoshop而优化。
CDR:CorelDraw的文件格式。
注:Photoshop和CorelDraw都是目前最流行的图形图像处理软件。
模拟录音方式直接记录音频信号的波形,重放时用磁头拾取信号。目前模拟录音动态范围可达到80db(分贝,信噪比的单位),为进一步提高音质,采用数字音频技术。
计算机内的音频必须是数字形式的。数字声音是一个数据序列,是一种采样的声音,它是由模拟声音经采样、量化和编码后得到的。
步骤: <1>采样:把时间连续的模拟信息号转化成时间离散,幅度连续的物理信号.
*1.取样周期:时间采样的间隔
*2.采样频率:取样周期的倒数.
*3.采样定律:为了不产生失真.采样频率不低于声音信号频率的两倍.
*4.语音信号采样频率一般为:8kHz. 音乐:40kHz.
*5.采样频率越高.保真性越好.
<2>量化(模数转换):
*1.量化精度(量化分辨率):
例如,每个声音样本用16bit存储.那么精度为1/取值范围= 1/65536
<3>编码
<1>.波形声音:通过取样和量化得到的声音.
例如: 44.1kHz*16Bit CD
数据传输率(bps) = 采样频率(Hz)*量化位数(Bit)*声道数
三种压缩方法(从语音质量、数据率和计算量3个方面来加以考虑):
*1.波形编码.
脉冲编码调试(PCM),自适应差分脉冲编码(ADPCM),子带编码(SBC)
特点:通用性强,音质好,但压缩率不高,数据率不易降低.
*2.参数编码.
特点:高压缩比,但是信号源必须已知,受到声音生成模型的限制且质量不理想.
*3混合编码.
码激励线性预测(CELP),混合激励线性预测(MELP)
特点:能达到高的压缩比,且能保证一定的质量.但是算法复杂.
<2>. 合成声音:使用符号对声音进行描述并通过合成方法生成的声音.
语音合成从合成采用的技术来讲可分为:
发音参数合成
声道模型参数合成
波形编辑合成
如果从合成策略上又可分为:
频谱逼近
波形逼近
实现计算机语音输出有两种方法:一.录音/重放;二.文-语转换;
语言合成目前和仅处于文字到语音转换的层次上。文-语转换(TTS)是一种智能型的语音合成,需要建立语音参数数据库、发音规则库等。
音乐合成技术有两种。
◆调频(FM)合成
FM合成方式是将多个频率的简单声音合成复合音来模拟各种乐器的声音。FM合成方式是早期使用的方法,用这种方法产生的声音音色少、音质差。
◆波形表(WaveTable)合成
这种方法是先把各种真正乐器的声音录下来,再进行数字化处理形成波形数据,然后将各种波形数据存储在只读存储器中。发音时通过查表找到所选乐器的波形数据,再经过调制、滤波、再合成等处理形成立体声送去发音。存储声音样本的ROM容量的大小对波表合成效果影响很大。
MIDI: MIDI(musical instrumentdigital interface)是数字乐器接口的国际标准,它定义了电子音乐设备与计算机的通讯接口,规定了使用数字编码来描述音乐乐谱的规范。
常见的MIDI设备有电子琴等。计算机中以MID为扩展名的文件称为MIDI文件,其中存放的是对MIDI设备的命令,即每个音符的频率、音量、通道号等指示信息。最后播出的声音是由MIDI设备根据这些信息产生的。
MIDI声音可以用于配音,它的缺点是对回放设备的依赖太强,还有就是不能记录人声;
名称 扩展名 特点 缺点
WAVE WAV 完整记录声音的波形,不使用压缩 文件太大
MOD MOD、ST3、XT、S3M、FAR和669等 文件中不仅存放了乐谱,还存放了乐曲使用 的各种音色样本。回放效果明确,音色种类永无止境。 低音效果差
MPEG-3 MP3 目前最流行的格式,压缩较大。 有损压缩,音质不完美
Real Audio RA 压缩比高,失真度小 有损压缩,音质并不好
Create Musical Format CMF Creative公司专用音乐格式。 兼容性差
CD Audio CDA 唱片采用格式,记录的是波形流 无法编辑、文件太大
MIDI MID 音乐工业的数据标准 不能记录语音
动态图像,包括动画和视频信息,是连续渐变的静态图像或图形序列,沿时间轴顺次更换显示,从而构成运动视感的媒体。
当序列中每帧图像是由人工或计算机产生的图像时,称为动画(实时动画, 逐帧动画,矢量动画,二维动画,三维动画)。
当序列中每帧图像是通过实时摄取自然景象或活动对象时,称为视频( 模拟视频.数字视频)。
<1>无损压缩与有损压缩
<2>帧间压缩和帧内压缩.
帧内压缩:空间内压缩原理和图像压缩一样.
帧间压缩:前后两帧存在大量的冗余信息.
<3>对称压缩和不对称压缩.
对称压缩;压缩和解压时间一样.适用于实时压缩和传输视频.如视频会议应用.
不对称压缩:压缩时间要比解压时间长很多.
动画是以每秒15~20帧的速度顺序的播放静止图像帧来产生运动的错觉。
<1>.AVI: 符合RIFF文件规范的数字音频和视频文件格式.允许视频和音频交错在一起播放.特点是可伸缩性
<2>.Quick Time: 苹果系统上运行的视频播放文件
<3>. MPEG: 运动图像压缩算法的国际标准.压缩率好,质量高.
<4>. RealVideo(RM) : 新型流式视频文件格式.主要用于低速率的广域网上实时传输活动视频影像.
◆H.261
H.261是用于音频视频服务的视频编码解码器,也称为P×64标准。由CCITT(ITU-T)制定。其应用目标是可视电话和视频会议系统。含有此标准的系统必须能实时的按标准进行编码和解码。
H.261于JPEG、MPEG标准的区别在于它是为动态使用而设计的,并提供完全包含的组织的高水平的交互控制。
◆JPEG
JPEG是静止图像压缩和解压缩算法的标准,它是基于DCT的有损算法,是ISO的国际标准。
MPEG在三方面优于其他的压缩/解压方案:
开始就是一个国际化的标准,兼容性很好;
比其他算法有更高的压缩比,最高可达到200:1;
在提供高压缩比的同时,对数据的损失很小;
◆MPEG MPEG-X是一组由ITU和ISO制定发布的视频、音频和数据的压缩标准。
◆MPEG-1 制定于1992年,传输率最高可达4Mbps~5Mbps,质量级别与VHS相当。可用于记录媒体或是在Internet上传输音频。
◆MPEG-2 制定于1994年,传输率在3Mbps~10Mbps之间,DVD指定标准。
◆MPEG-4 传输率要求在4800bps~64000bps之间。其主要特点是交互性和综合性。更适合交互AV服务记忆即远程监控,,是第一个使观众由被动变主动的动态图象标准。
◆DVI DVI视频图像压缩算法的性能与MPEG相当,图像质量可达到VHS的水平。压缩以后的图像传输率约为1.5Mbps。
多媒体创作系统是多媒体电脑技术的严格重要组成部分,它介于多媒体工作平台于应用软件之间,是支持应用开发人员进行多媒体应用软件创作的工具,因此也称为多媒体创作工具。
多媒体创作工具的初衷是非计算机领域的专家对计算机技术的不了解,因此就需要一种工具,使应用开发人员不用编程也能做出很优秀的多媒体软件产品,这种工具称之为多媒体创作工具,用这种工具做出来的产品称为——节目。
多媒体创作工具是能够用来集成各种媒体、并可设计阅读信息内容方式的软件。其功能日趋完善,总结起来,以下几个方向和功能是多媒体创作工具应具备的:
1. 编辑能力及环境
编辑能力主要是支持用户对节目所需要的外部媒体资料的生成、增删、修改与管理能力。这些功能不是通过用户编程来实现,而是在系统中通过可视化的界面,帮助用户使用简便操作来达到相同的效果。
2. 媒体数据输入能力 即处理静态和动态的多媒体的能力,支持的格式越多越好。
3. 交互能力
从最简单的设置按钮来连接事件,到后来的超链接功能,再到现在的菜单交互、可视媒体对象交互、文字输入交互等,随着多媒体创作工具对系统硬件的控制能力的加强,语音交互、触控交互、三维立体触控交互以及未来的智能判断交互都是交互能力的新技术。
4. 功能扩充能力
为了满足高层次节目的需求,媒体创作工具提供外部接口,可以连入其他的高级对象和组件,这样就实现了三级用户开发环境,这三级用户是不懂编程的普通用户、稍懂编程的用户和富有丰富编程经验的用户。
5. 调试能力
目前还制停留再放映节目的范围,未来的调试工具应该是多断点、逆向回放等功能,再调试过程中显示调试信息。
6.动态数据交换能力
使用变量给某些媒体构件赋予属性,并且可以通过程序改变变量,从而达到动态改变媒体属性的目的。
7.数据库功能 应具有数据库的查询、排序、更新、删除和增加等功能。
8.网络组件及模板套用能力
能有效支持一组人通力制作一个节目的创作工具称为组件版本,支持异构电脑系统之间的互连和资料传递,。模板功能是提高拥护编辑效率的一个重要手段,方便用户大量制作某一类型的节目。
9.其他能力
1.图形和图象的各种格式、几个主要的概念:
2.音频采集计算:声音文件的存储量=采样频率×采样位数×声道数
3.视频图象的容量计算和国家标准:图像文件的存储量=分辨率×色彩数(位)。
4.视频的几种集中压缩格式:
例题1: MPEG-I编码器输出视频的数据率大约为__C__。PAL制式下其图像亮度信号的分辨率为_A__,帧速为__B__。(多媒体)
(44)A.128Kb/s B.320Kb/s C.1.5Mb/s D.15Mb/s
(45)A.352×288 B.576×352 C.720×576 D.1024×720
(46)A.16帧/秒 B.25帧/秒 C.30帧/秒 D.50帧/秒
例题2: 在多媒体的音频处理中,由于人所敏感的声频最高为A赫兹(Hz),因此数字音频文件对音频的采样频率为B赫兹(Hz)。对一个双声道的立体声,保持1秒钟声音,其波形文件所需的字节数为C,这里假设每个采样点的量化位数为8位。
MIDI文件是最常用的数字音频文件之一,MIDI是一种D,它是该领域国际上的一个E。
A: ①50 ②10k ③22k ④44k
B: ①44.1k ②20.05k ③10k ④88k
C: ①22050 ②88200 ③176400 ④44100 D: ①语音数字接口 ②乐器数字接口 ③语音模拟接口 ④乐器模拟接口
E: ①控制方式 ②管理规范 ③通信标准 ④输入格式
5 在音频处理中,采样频率是决定音频质量的一个重要因素,它决定了频率响应范围。对声音进行采样的三种标准以及采样频率分别为:语音效果(7kHz)、音乐效果(22 kHz)、高保真效果(44.1 kHz),目前声卡的最高采样率为44.1KHz。
另外,一般人的听觉带宽为20Hz~20kHz,人敏感的声频最高为22kHz。
信号编码的位数是决定音频质量的另一个重要因素,它决定数字采样的可用动态范围和信噪比。16位声卡的采样位数就是16。 声音文件的存储量等于采样频率×采样位数×声道数。如本题所求波形文件的字节数计算公式如下: 44.1kHz×8bit×2×1秒=705.6Mbit/8=88.2MB=88200Byte
[答案] A:③ B:① C:② D:② E:③
例题3: 多媒体应用需要对庞大的数据进行压缩,常见的压缩编码方法可分为两大类,一类是无损压缩法,另一类是有损压缩法,也称__(47)__。__(48)__属于无损压缩法。
(47) A. 熵编码 B. 熵压缩法 C. MPEG压缩法 D. JPEG压缩法
(48) A. MPEG压缩 B.子带编码 C. Huffman编码 D. 模型编码
●若每个像素具有 8 位的颜色深度,则可表示__(49)__种不同的颜色,若某个图像具有 640X480 个像素点,其未压缩的原始数据需占用__(50)__字节的存储空间。
(49) A. 8 B. 128 C. 256 D. 512
(50) A. 1024 B.19200 C. 38400 D. 307200
●声音的三要素为音调、音强和音色,其中音色是由混入基音的__(51)__决定的。 若对声音以22.05kHZ 的采样频率、8 位采样深度进行采样,则 10 分钟双声道立体声的存储量为__(52)__字节。
(51) A. 响度 B. 泛音 C. 高音 D. 波形声音
(52) A. 26460000 B. 441000 C. 216000000 D. 108000000
●在数据压缩编码的应用中,哈夫曼(Huffman)算法可以用来构造具有__(13)__的二叉树,这是一种采用了__(14)__的算法。
(13) A. 前缀码 B. 最优前缀码 C. 后缀码 D. 最优后缀码
(14) A. 贪心 D. 分治 C. 递推 D. 回溯