《多媒体信息技术》复习思考题

《多媒体信息技术》复习思考题

一、思考题 

1. 什么是多媒体?什么是多媒体技术? 多媒体有哪些关键技术?

答:

①多媒体是融合两种或者两种以上媒体的一种人-机交互式的信息交流和传播媒体。

对信息技术而言,多媒体是用多种媒体综合表达信息内容。对计算机而言,多媒体是将图、文、声、像等内容混成在一起的一门计算机技术。

②多媒体技术是利用计算机对文本、图形、图像、声音、动画、视频等多种信息综合处理、建立逻辑关系和人机交互作用的技术。

③多媒体的关键技术有a、视频音频数据压缩/解压缩技术(如今已有压缩编码/解压缩编码的国际标准JPEG和MPEG)b、多媒体专用芯片技术(专用芯片是多媒体计算机硬件体系结构的关键,一种是固定功能的芯片;另一种是可编程的数字信号处理器(DSP)芯片)c、大容量信息存储技术(利用数据压缩技术,在一张CD-ROM光盘上能够存取70多分全运动的视频图像或者十几个小时的语言信息或数千幅静止图像)d、多媒体输入与输出技术(包括媒体变换技术、媒体识别技术、媒体理解技术和综合技术)e、多媒体软件技术(多媒体操作系统、多媒体素材采集与制作技术、多媒体编辑与创作工具、多媒体数据库技术、超文本/超媒体技术、多媒体应用开发技术)f、多媒体通信技术(是多媒体技术与通信技术的有机结合,突破了计算机、通信、电视等传统产业间相对独立发展的界限,是计算机、通信和电视领域的一次革命)g、虚拟现实技术(利用计算机技术生成的一个逼真的视觉、听觉触觉及嗅觉等得感觉世界,用户可以用人的自然技能对这个生成的虚拟实体进行交互考察)

2. 超媒体与超文本之间有什么不同?

答:超媒体与超文本的不同之处在于:超文本主要是以文字的形式表示信息,建立的链接关系主要是文句之间的链接关系。超媒体除了使用文本外,还使用图形、图像、声音、

动画或影视片断等多种媒体来表示信息,建立的链接关系是文本、图形、图像、声音、

动画和影视片断等媒体之间的链接关系。
3. 音频的定义以及分类,声音的三要素。(待定)

答:音频的定义为:1.Audio,指人说话的声音频率,通常指300Hz-3400Hz的频带。 2.指存储声音内容的文件。 3.在某些方面能指作为波滤的振动。

②音频分为四类:非平衡模拟音频、平衡式模拟音频、非平衡数字音频、平衡式数字音频。

③声音三要素:音调,响度,音色。

4. 数字音频的含义,音频信号的数字化处理过程。

答:①数字音频是一个数据序列,在时间上是断续的。数字音频是通过采样和量化,把模拟量表示的音频信号转换成由许多二进制数1和0组成的数字音频信号。

②音频信号数字化分为三个步骤。1、取样:对连续信号按一定的时间间隔取样。奈奎斯特取样定理认为,只要取样频率大于等于信号中所包含的最高频率的两倍,则可以根据其取样完全恢复出原始信号,这相当于当信号是最高频率时,每一周期至少要采取两个点。但这只是理论上的定理,在实际操作中,人们用混叠波形,从而使取得的信号更接近原始信号。2、量化:取样的离散音频要转化为计算机能够表示的数据范围,这个过程称为量化。量化的等级取决于量化精度,也就是用多少位二进制数来表示一个音频数据。一般有8位,12位或16位。量化精度越高,声音的保真度越高。以8位的举例稍微说明一下其中的原理。若一台计算机能够接收八位二进制数据,则相当于能够接受256个十进制的数,即有256个电平数,用这些数来代表模拟信号的电平,可以有256种,但是实际上采样后的某一时刻信号的电平不一定和256个电平某一个相等,此时只能用最接近的数字代码表示取样信号电平。3、编码:对音频信号取样并量化成二进制,但实际上就是对音频信号进行编码,但用不同的取样频率和不同的量化位数记录声音,在单位时间中,所需存贮空间是不一样的。波形声音的主要参数包括:取样频率.量化位数.声道数.压缩编码方案和数码率等,未压缩前,波形声音的码率计算公式为:波形声音的码率=取样频率*量化位数*声道数/8。波形声音的码率一般比较大,所以必需对转换后的数据进行压缩。

5. 什么是非均匀采样?什么是非均匀量化?各有什么优点?

答:①非均匀采样有时又称为随机采样。均匀采样的采样时间间隔是完全相等,而非均匀采样的采样时间间隔是不确定的,完全随机。

②对微小信号采用细量化(Δ小),对大幅度信号,采用粗量化(Δ大)的方法。

③非均匀采样的优点是:具有抗频率混叠的性能,从而可以突破奈奎斯特频率的限制,实现以比较低的采样频率检测到很高频率的信号。

非均匀量化的优点是:a.当输入量化器的信号具有非均匀分布的概率密度时,非均匀量化器的输出端可以较高的平均信号量化噪声功率比。b.非均匀量化时,量化噪声功率的均方根值基本上与信号抽样值成比例。因此,量化噪声对大、小信号的影响大致相同,即改善了小信号时的量化信噪比。

6. 什么是 MIDI? MIDI 文件与 WAV 文件有什么不同?

答:①MIDI是英语Music Instrument Digital Interface 的缩写,翻译过来就是“数字化乐器接口”,也就是说它的真正涵义是一个供不同设备进行信号传输的接口的名称。

②MIDI文件与WAV文件的不同之处在于,表面上,两种文件都可以产生声响效果或音乐,但它们的本质是完全不同的。普通的声音文件(*.wav文件)是计算机直接把声音信号的模拟信号经过取样——量化处理,变成与声音波形对应的数字信号,记录在计算机的储存介质(硬盘或光盘)中。通常,声音文件都比较大,如记录一分钟的声音(立体声、CD音质),大概需要10.5M的储存空间。一首几分钟的歌曲需要几十兆的硬盘,一张CD光盘只能容纳十来首歌曲。为了减少声音文件储存的空间,近年来在计算机技术上采用了压缩技术,把声音文件经过处理,在不太影像播放质量的前提下,把文件的大小压缩到原来的10~12分之一,这就是近年流行的MP3文件格式。而MIDI文件则不是直接记录乐器的发音,而是记录了演奏乐器的各种信息或指令,如用哪一种乐器,什么时候按某个键,力度怎么样等等,至于播放时发出的声音,那是通过播放软件或者音源的转换而成的。因此MIDI文件通常比声音文件小得多,一首乐曲,只有十几K或几十K,只有声音文件的千分之一左右,便于储存和携带。

7. 音频文件大小的计算。

答:

数据传输率=采样频率×量化位数×声道数
音频文件大小=数据传输率×播放时间

8. 简述什么是真彩色及其与伪彩色的不同之处。

答:真彩色(true-color)是指图像中的每个像素值都分成R、G、B三个基色分量,每个基色分量直接决定其基色的强度,这样产生的色彩称为真彩色。

而伪彩色一般是指用颜色查找表(简称CLUT)的索引值来表示。如在MS Windows 16

色位图格式中,图像像素的编码值用色板的索引号0~F表示,在256、216…色图像格式中直接用RGB的真实值进行编码。16色位图格式所记录的图像颜色是伪彩色,256、216…色图像格式所记录的是真彩色。

9. 多媒体数据中的冗余有哪几种?

:多媒体数据中存在多种数据冗余:空间冗余、时间冗余、结构冗余、视觉冗余、知识冗余、图像区域的相同性冗余。

a.空间冗余是静态图像中存在的最主要的一种数据冗余。同一景物表面上采样点的颜色之间往往存在着空间连贯性,但是基于离散像素采样来表示物体颜色的方式通常没有利用这种连贯性。例如:图像中有一片连续的区域,其像素为相同的颜色,空间冗余产生。

b.时间冗余是序列图像中经常包含的冗余。一组连续的画面之间往往存在着时间和空间的相关性,但是基于离散时间采样来表示运动图像的方式通常没有利用这种连贯性。例如:房间里的两个人在聊天,在这个聊天的过程中,背景(房间和家具)一直是相同的,同时也没有移动,而且是同样的两个人在聊天,只有动作和位置的变化。

c.结构冗余是在某些场景中,存在着明显的图像分布模式,这种分布模式称作结构。图像中重复出现或相近的纹理结构,结构可以通过特定的过程来生成。例如:方格状的地板,蜂窝,砖墙,草席等图结构上存在冗余。已知分布模式,可以通过某一过程生成图像。

d.视觉冗余是人类的视觉系统对图像场的敏感性是非均匀和非线性的。对亮度变化敏感,而对色度的变化相对不敏感;在高亮度区,人眼对亮度变化敏感度下降;对物体边缘敏感,内部区域相对不敏感;对整体结构敏感,而对内部细节相对不敏感。可以根据这些视觉特性对图像信息进行取舍。

e.知识冗余。对于图像中重复出现的部分,我们可以构造出基本模型,并创建对应各种特征的图像库,进而使图像的存储只需要保存一些特征参数,从而可以大大减少数据量。知识冗余是模型编码主要利用的特性。

f.图像区域的相同性冗余。它是指在图像中的两个或多个区域所对应的所有像素值相同或相近,从而产生的数据重复性存储,这就是图像区域的相似性冗余。在以上的情况下,当记录了一个区域中各像素的颜色值,则与其相同或相近的其他区域就不需要记录其中各像素的值。采用向量量化(Vector quantization)方法就是针对这种冗余性的图像压缩编码方法。
10.多媒体数据为什么需要压缩?为什么可以压缩? 

答:①由于媒体元素种类繁多、构成复杂,数字化信息的数据量十分庞大。无疑给存储器的存储量、通信干线的信道传输率以及计算机的速度都增加了极大的压力。如果单纯靠扩大存储器容量、增加通信干线传输率的办法来解决问题是不现实的。通过数据压缩技术可以大大降低数据量,以压缩的形式存储和传输,既节约了存储空间,又提高了通信干线的传输效率,同时也使计算机得以实时处理音频、视频信息,保证播放出高质量的视频和音频节目。

②经研究发现,与音频数据一样,图像数据中存在着大量的冗余。通过去除多媒体那些冗余数据可以极大地降低原始图像数据量,从而解决图像数据量巨大的问题。

11.按照信息是否有损失,数据压缩方法分为哪两类?各举出一些压缩技术的例子和应用 例子。

答:数据压缩可分成两种类型,一种叫做无损压缩,另一种叫做有损压缩.
无损压缩是指使用压缩后的数据进行重构(或者叫做还原,解压缩),重构后的数据与原来的数据完全相同;无损压缩用于要求重构的信号与原始信号完全一致的场合.一个很常见的例子是磁盘文件的压缩.根据目前的技术水平,无损压缩算法一般可以把普通文件的数据压缩到原来的1/2~1/4.一些常用的无损压缩算法有霍夫曼(Huffman)算法和LZW(Lenpel-Ziv & Welch)压缩算法. 无损压缩:Huffman编码、游程编码、算术编码、词典编码

有损压缩是指使用压缩后的数据进行重构,重构后的数据与原来的数据有所不同,但不影响人对原始资料表达的信息造成误解.有损压缩适用于重构信号不一定非要和原始信号完全相同的场合.例如,图像和声音的压缩就可以采用有损压缩,因为其中包含的数据往往多于我们的视觉系统和听觉系统所能接收的信息,丢掉一些数据而不至于对声音或者图像所表达的意思产生误解,但可大大提高压缩比. 有损压缩:预测编码、变换编码、模型编码、基于重要性的编码、混合编码(JPEG,MPEG)

12.数据压缩技术的三个重要指标。

压缩比 图像质量 压缩和解压的速度

13.掌握 Huffman 编码过程。理解算术编码、预测编码、变换编码、模型编码的原理。

首先,将符号按照概率由大到小排队,如图所示。编码时,从最小概率的两个符号开始,可选其中一个支路为0,另一支路为1。这里,我们选上支路为0,下支路为1。再将已编码的两支路的概率合并,并重新排队。多次重复使用上述方法直至合并概率归一时为止。从图(a)和(b)可以看出,两者虽平均码长相等,但同一符号可以有不同的码长,即编码方法并不唯一,其原因是两支路概率合并后重新排队时,可能出现几个支路概率相等,造成排队方法不唯一。一般,若将新合并后的支路排到等概率的最上支路,将有利于缩短码长方差,且编出的码更接近于等长码。

14.DPCM 与 APCM 有什么异同。

APCM是一种根据输入信号的幅度大小来改变量化阶距大小的编码技术,分为前向自适应和后向自适应编码两种类型。而DPCM是根据样本与样本之间存在的信息冗余来进行编码的一种数据压缩技术,它先对输入信号进行预测,计算预测值与真值之间的差,对差值进行编码。两者各考虑了问题的一个方面,如提高量化的自适应性、减少信息冗余,未能全面考虑既提高自适应性又减少信息的冗余。将二者的结合形成了ADPCM压缩技术。

DPCM(Differential Pulse Code Modulation——差分脉冲编码调制) 
对输入对相邻样本之差编码而不是对样本本身编码,由于相邻样本之差比实际样本幅度小,所以表示差信号需要较小的位数。

对于有些信号(例如图像信号)由于信号的瞬时斜率比较大,很容易引起过载,因此,不能用简单增量调制(△M编码)进行编码,对于这类瞬时斜率比较大的信号,通常采用一种综合了增量调制和PCM脉冲编码调制两者特点的调制方法进行编码,这种编码方式被简称为脉码增量调制,或称差值脉码调制,用DPCM表示。 
这种调制方式的主要特点是把增量值分为个等级,然后把个不同等级的增量值编为位二进制代码( )再送到信道传输,因此,它兼有增量调制和PCM的各自特点。

此外,在相同比特速率条件下,DPCM比PCM信噪比也有很大的改善。与ΔM相比,由于它增多了量化级,因此,在改善量化噪声方面优于ΔM系统。DPCM的缺点是易受到传输线路上噪声的干扰,在抑制信道噪声方面不如ΔM。

备注:MPEG4里的预测编码方法,简称预测法(DPCM)

APCM(Adaptive Pulse Code Modulation——自适应脉冲编码调制)
自适应脉冲编码调制是一种根据输入信号幅度大小来改变量化阶大小的一种波形编码技术。这种自适应可以是瞬时自适应,即量化阶的大小每隔几个样本就改变;也可以是音节自适应,即量化阶的大小在较长时间周期里发生变化。
改变量化阶大小的方法有两种:前向自适应(forward adaptation)和后向自适应(backward adaptation)。

15.和 Huffman 编码相比,算术编码有什么特点?

算术编码的特点:

      从整个符号序列出发,采用递推形式连续编码的方法

      不存在源符号和码字间的一一对应关系

      1个算术码字要赋给整个信源符号序列,而每个码字本身确定了0和1之间的1个实数区间

      算术编码过程只需用到加法和移位运算   

16.信息熵是什么?熵编码是什么类型的编码?

信息熵是用来度量信息中所含的信息量为信源的平均信息量(不确定性的度量)熵编码即编码过程中按熵原理不丢失任何信息的编码。信息熵为信源的平均信息量(不确定性的度量)。常见的熵编码有:香农(Shannon)编码、哈夫曼(Huffman)编码和算术编码(arithmetic coding)。在视频编码中,熵编码把一系列用来表示视频序列的元素符号转变为一个用来传输或是存储的压缩码流。输入的符号可能包括量化后的变换系数,运动向量,头信息(宏块头,图象头,序列的头等)以及附加信息(对于正确解码来说重要的标记位信息)。是无损数据压缩编码

17.给出 Shannon-Fano 编码的思路。

1. 对于一个给定的符号列表,制定了概率相应的列表或频率计数,使每个符号的相对发生频率是已知。

2. 排序根据频率的符号列表,最常出现的符号在左边,最少出现的符号在右边。

3. 清单分为两部分,使左边部分的总频率和尽可能接近右边部分的总频率和。

4. 该列表的左半边分配二进制数字0,右半边是分配的数字1。这意味着,在第一半符号代都是将所有从0开始,第二半的代码都从1开始。

5. 对左、右半部分递归应用步骤3和4,细分群体,并添加位的代码,直到每个符号已成为一个相应的代码树的叶

Shannon-Fano算法采用从上到下构造二叉树的方法进行编码:首先按照符号出现的概率排序,然后从上到下使用递归方法将符号组分成两个部分,使每一部分具有近似相同的频数,在两边分别标记0和1,最后每个符号从顶至底的0/1序列就是它的二进制编码。

18.给出 Huffman 编码的思路与过程。

首先,将符号按照概率由大到小排队,如图所示。编码时,从最小概率的两个符号开始,可选其中一个支路为0,另一支路为1。这里,我们选上支路为0,下支路为1。再将已编码的两支路的概率合并,并重新排队。多次重复使用上述方法直至合并概率归一时为止。从图(a)和(b)可以看出,两者虽平均码长相等,但同一符号可以有不同的码长,即编码方法并不唯一,其原因是两支路概率合并后重新排队时,可能出现几个支路概率相等,造成排队方法不唯一。一般,若将新合并后的支路排到等概率的最上支路,将有利于缩短码长方差,且编出的码更接近于等长码。

Huffman编码是一种从下到上构造二叉树的统计最优变码长符号编码,让最频繁出现的符号具有最短的编码;Huffman编码的过程=生成一棵二叉树,具体编码步骤:(1) 将符号按概率从小到大排列叶节点、(2) 连接两个概率最小的顶层节点来组成一个父节点,并在到左右子节点的两条连线上分别标记0和1、(3) 重复步骤2,直到得到根节点,形成一棵二叉树、(4) 从根节点开始到相应于每个符号的叶节点的0/1串,就是该符号的二进制编码。

19.Shannon-Fano 编码和 Huffman 编码有哪些共同的优缺点?哪个编码效率更高一些?与

Huffman 编码比较,算术编码有什么优势?给出算术编码的思路与过程。

都属于不对称、无损、变码长的熵编码,都不需要另外附加同步分割符号;都没有错误保护功能、且不能随机定位;哈夫曼编码方法的编码效率一般会更高一些。

算术编码也是一种最优变码长的熵编码,其主要优点是克服了Huffman编码必须为整数位,这与实数的概率值相差大的缺点;思路——区间映射:把输入符号串(数据流)映射成[0,1)区间中的一个实数值;过程:将串中使用的符号表按原编码从小到大顺序排列成表,用[0,1)中的一个宽度等于其出现概率的实数区间来表示表中的每一个符号,设置初始编码区间为[0, 1],根据当前输入字符所对应的区间的端点xi与yi及原编码区间的左端点lj-1和大小dj-1来确定当前编码区间:

lj?lj?1?dj?1?xi, rj?lj?1?dj?1?yi, j ? 1, ..., n

输入串的最后一个符号所对应编码区间的下限ln就是该符号串的算术编码值。

20.RLE 的英文原文与中文译文各是什么RLE 编码的思路什么?其压缩效率如何?

• run-length encoding游程编码又称“运行长度编码”或“行程编码”,是一种统计编码,该编码属于无损压缩编码,是栅格数据压缩的重要编码方法。

• 游程编码的基本原理是:用一个符号值或串长代替具有相同值的连续符号(连续符号构成了一段连续的“行程”。行程编码因此而得名),使符号长度少于原始数据的长度。只在各行或者各列数据的代码发生变化时,一次记录该代码及相同代码重复的个数,从而实现数据的压缩。

RLE = run length encoding 行程编码/游程长度编码; RLE视数字信息为无语义的字符序列(字节流),对相邻重复的字符,用一个数字表示连续相同字符的数目(称为行程长度),可达到压缩信息的目的; RLE所能获得的压缩比主要是取决于图像本身的特点,如果图像中具有相同颜色的图像块越大,图像块数目越少,获得的压缩比就越高(一般为人造的图形)。反之,压缩比就越小(一般为拍摄的图片)。

21电视主要有哪几种制式?并简要叙述。

答: 1NTSCNational Television System Committee)制是最早的彩电制式,1952年由美国国家电视标准委员会制订。它采用正交平衡调幅的技术方式,故也称为正交平衡调幅制。美国、加拿大等大部分西半球国家以及中国的台湾、日本、韩国、菲律宾等均采用这种制式。其优点是解码线路简单、成本低。

2SECAM制,SECAM是法文的缩写,意为顺序传送彩色信号与存储恢复彩色信号制,又称行轮换调频制,是由法国在1956年提出、1966年制订的一种彩电制式。它克服了NTSC制式相位失真的缺点,采用时间分隔法来传送两个色差信号。使用SECAM制的国家主要集中在法国、东欧和中东一带。其优点是在三种制式中受传输中的多径接收的影响最小,色彩最好。

3PALPhase Alternation Line),正交平衡调幅逐行,倒相式简称逐行倒相式。它是当时的西德在1962年制订的彩色电视广播标准,它采用逐行倒相正交平衡调幅的技术方法,也克服了NTSC制相位敏感造成色彩失真的缺点。西德、英国等一些西欧国家,新加坡、中国大陆及香港、澳大利亚、新西兰等国家采用这种制式。其优点是对相位偏差不敏感,并在传输中受多径接收而出现重影彩色的影响较小,是最成功的一种彩电制式,但电视机电路和广播设备比较复杂。

22.彩色电视信号中采用 YIQ 或者 YUV 空间的原理。

答:人眼对彩色细节的分辨能力远比对亮度细节的分辨率低,通常把RGB空间表示的颜色变换到YUV或者YIQ颜色空间。每一种彩色空间都产生一种亮度分量信息和两种色度分量信息,而且亮度信号(Y)和色度信号(U,V)是相互独立的,每一种变换使用的参数都是为了适应某种类型的显示设备。

彩色电视信号中采用YIQ或者YUV空间一是为了兼容黑白电视二是为了实现压缩

YUV模型用于PAL制式的电视系统,Y表示亮度,UV并非任何单词的缩写

Y=0.299R+0.587G+0.114B

U=0.493B-Y

V=0.877R-Y

PUV空降相当于对RGB空间做了一个解相关的线性变换。UV的比值决定色调U2+V2/2代表颜色的饱和度。

YIQ模型与PUV类似,用于NTSC制式的电视系统。YIQ颜色空间中的IQ分量相当于将YUV空间中的U,V分量做了一个33度的旋转。

23.理解彩色电视图像子采样的原理及子采样格式,图像子采样有几种格式?一幅 YUV 彩色图象的分辨率为 352*288,采用 422 格式,计算采样时的样本数。

:1)、图像子采样的格式

(一)4:4:4 YCbCr格式:这种采样格式不是子采样格式,它是指在每条扫描线上每4个连续的采样点取4个亮度Y样本、4个红色差Cr样本和4个蓝色差Cb样本,这就相当于每个像素用3个样本表示。对于消费类和计算机应用,每个分量的每个样本精度为8比特;对于编辑类应用,每个分量的每个样本的精度为10比特。因此每个像素的样本需要24比特或者30比特。

(二)4:2:2 YCbCr 格式 :这种子采样格式是指在每条扫描线上每4个连续的采样点取4个亮度Y样本、2个红色差Cr样本和2个蓝色差Cb样本,平均每个像素用2个样本表示。对于消费类和计算机应用,每个分量的每个样本的精度为8比特;对于编辑类应用,每个分量的每个样本精度为10比特。因此每个像素的样本需要16比特或者20比特。在帧缓存中,每个样本需要16比特或者20比特。显示像素时,对于没有CrCbY样本,使用前后相邻的CrCb样本进行计算得到的CrCb样本。

(三)4:1:1 YCbCr 格式 :这种子采样格式是指在每条扫描线上每4个连续的采样点取4个亮度Y样本、1个红色差Cr样本和1个蓝色差Cb样本,平均每个像素用1.5个样本表示。显示像素时,对于没有CrCbY样本,使用前后相邻的CrCb样本进行计算得到该Y样本的CrCb样本。这是数字电视磁带(DVC digital video cassette)上使用的格式。

(四)4:2:0 YCbCr 格式 :这种子采样格式是指在水平和垂直方向上每2个连续的采样点上取2个亮度Y样本、1个红色差Cr样本和1个蓝色差Cb样本,平均每个像素用1.5个样本表示。在实际实现时,有两种略为不同的形式。

(1) H.261H.263MPEG-1 H.261H.263MPEG-1使用的子采样格式中,在水平方向的2个样本和垂直方向上的2Y样本共4个样本有1Cb样本和一个Cr样本,并且子采样在水平方向上有半个像素的偏移。如果每个分量的每个样本精度为8比特,在帧缓存中每个样本就需要12比特。

(2) MPEG-2 MPEG-2使用的子采样格式中,在水平方向的2个样本和垂直方向上的2Y样本共4个样本有1Cb样本和一个Cr样本,但子采样在水平方向上没有半个像素的偏移(图07-04-7625扫描行系统)。

2)、4:2:2时平均每个像素用2个样本表示,就是说352*288*2就行了

24.DCT 的英文原文与中文译文各是什么?本课中被用在什么地方?

答:DCT = Discrete Cosine Transform,离散余弦变换;本课中被用于 JPEGMPEG-1/2中的图像压缩编码。

25.了解视频信号压缩编码的标准(JPEGMPEG)。

答: 1)、MPEG的全名为[Moving Pictures Experts Group],中文译名是动态图像专家组。MPEG标准主要有以下五个,MPEG-1MPEG-2MPEG-4MPEG-7MPEG-21等。该专家组建于1988年,专门负责为CD建立视频和音频标准,而成员都是为视频、音频及系统领域的技术专家。及后,他们成功将声音和影像的记录脱离了传统的模拟方式,建立了ISO/IEC1172压缩编码标准,并制定出MPEG-格式,令视听传播方面进入了数码化时代。因此,大家现时泛指的MPEG-X版本,就是由ISO(International Organization for Standardization)所制定而发布的视频、音频、数据的压缩标准。)

MPEG标准的视频压缩编码技术主要利用了具有运动补偿的帧间压缩编码技术以减小时间冗余度,利用DCT技术以减小图象的空间冗余度,利用熵编码则在信息表示方面减小了统计冗余度。这几种技术的综合运用,大大增强了压缩性能。

2)、JPEGJoint Photographic Experts Group(联合图像专家组)的缩写,文件后辍名为“.jpg”或“.jpeg”,是最常用的图像文件格式,由一个软件开发联合会组织制定,是一种有损压缩格式,能够将图像压缩在很小的储存空间,图像中重复或不重要的资料会被丢失,因此容易造成图像数据的损伤。尤其是使用过高的压缩比例,将使最终解压缩后恢复的图像质量明显降低,如果追求高品质图像,不宜采用过高压缩比例。但是JPEG压缩技术十分先进,它用有损压缩方式去除冗余的图像数据,在获得极高的压缩率的同时能展现十分丰富生动的图像,换句话说,就是可以用最少的磁盘空间得到较好的图像品质。而且 JPEG是一种很灵活的格式,具有调节图像质量的功能,允许用不同的压缩比例对文件进行压缩,支持多种压缩级别,压缩比率通常在101401之间,压缩比越大,品质就越低;相反地,压缩比越小,品质就越好。比如可以把1.37MbBMP位图文件压缩至20.3KB。当然也可以在图像质量和文件尺寸之间找到平衡点。JPEG格式压缩的主要是高频信息,对色彩的信息保留较好,适合应用于互联网,可减少图像的传输时间,可以支持24bit真彩色,也普遍应用于需要连续色调的图像。

JPEG格式是目前网络上最流行的图像格式,是可以把文件压缩到最小的格式,在 Photoshop软件中以JPEG格式储存时,提供11级压缩级别,以010级表示。其中0级压缩比最高,图像品质最差。即使采用细节几乎无损的10级质量保存时,压缩比也可达 51。以BMP格式保存时得到428MB图像文件,在采用JPG格式保存时,其文件仅为178KB,压缩比达到241。经过多次比较,采用第8级压缩为存储空间与图像质量兼得的最佳比例。

26.基于 DCT JPEG 编码中采用了哪些压缩算法与编码模式?

答:两种压缩算法:基于DCT的有损压缩算法、基于预测技术的无损压缩算法;四种编码模式:无损模式(基于DPCM)、基准模式(基于DCT,一遍扫描)、递进模式(基于DCT,从粗到细多遍扫描)、层次模式(含多种分辨率的2n倍);

27.给出 JPEG 压缩编码算法的主要计算步骤。其中使图像质量下降的是哪一步?

答: 8*8分块正向DCT→量化→Z字形编码使用DPCMDC系数进行编码使用RLEAC系数进行编码熵编码(Huffman/算术)

其中使图像质量下降的是量化。

28.DC 系数和 AC 系数的含义是什么?它们各有什么特点?

答:DC = direct current = 直流系数 = DCT变换F(0, 0),有两个特点——系数的数值比较大、相邻图像块的数值变化不大,宜采用DPCM编码;

AC = alternating current =交流系数 = DCT变换F(u, v),特点——数值小,许多被量化为0,宜采用RLE编码。

29.JPEG 中为什么要进行 Z 字形编码和 RLE 编码?

答:Z字形编码可将二维数据化为一维;且因右下方的高频AC系数值一般较小,许多被量化为0Z字形编码可以将多个0连成串,而连续多个0的串宜采用RLE编码。

30.JPEG 中使用了哪些熵编码?

答:RLEHuffman、算术。

31.JPEG 中给出了哪几种标准量化表?

答:共有6种标准表——亮度与色差的量化表、亮度与色差DC系数差的Huffman编码表、亮度与色差AC系数差的Huffman编码表。

31.在 JPEG 中给出了哪几种标准量化表?

答:JPEG编码中使用了两种标准的量化表:亮度量化表和色差量化表。前者细量化,后者粗量化。

32.小波变换有什么特点?在图像处理中有哪些应用,并举例说明其应用原理。

答:①小波变换具有恒Q性质及自动调节对信号分析的时宽/带宽等一系列突出优点,因此被人们称为信号分析的“数学显微镜”。

②小波变换可用于图像压缩。一幅图像经过一次小波变换之后,概貌信息大多集中在低频部分,而其余部分只有微弱的细节信息。为此,如果只保留占总数据量1/4的低频部分,对其余三个部分的系数不存储或传输,在解压时,这三个子块的系数以0来代替,则就可以省略图像部分细节信息,而画面的效果跟原始图像差别不是很大。这样,就可以得到图像压缩的目的。

33.JPEG2000 的优势所在?

答:JPEG2000 的优势在于:良好的低比特率压缩性能、可实现感兴趣区(region of interest)编码、渐进传输、良好误差鲁棒性等。更重要的是,所有这些都可以在一个统一的算法里实现

34.什么是 MPEG 标准?目前 MPEG 标准有哪些?各使用于什么范围?主要指标有哪些?

:①MPEG标准是活动图象专家组(Moving Picture Expert Group)制定的标准。

②MPEG标准主要有以下五个,MPEG-1、MPEG-2、MPEG-4、MPEG-7及MPEG-21等。

③MPEG-1用于数字盒式录音带,VCD,MP3。MPEG-2用于具有演播室质量标准清晰度电视SDTV中。主要指标有压缩比,图像清晰度。MPEG-4用于视像电话、视像电子邮件,家庭摄影录像,网络实时影像等。MPEG-7可应用于数字图书馆,例如图象编目、音乐词典等;多媒体查询服务,如电话号码簿等;广播媒体选择,如广播与电视频道选取;多媒体编辑,如个性化的电子新闻服务、媒体创作等。MPEG-21为“多媒体框架”或者“数字视听框架”,它致力于为多媒体传输和使用定义一个标准化的、可互操作的和高度自动化的开放框架。

35.在 MPEG 等视频编码算法中,运动补偿的含义和目的, MPEG-Video 在空间和时间方向上分别采用的是什么压缩方法?

:①运动补偿是通过先前的局部图像来预测、补偿当前的局部图像。它的目的是减少帧序列的冗余信息。

②MPEG-Vide在空间上采用JPEG压缩算法来去掉冗余信息。在时间上,采用运动补偿算法来去掉冗余信息。

36.MPEG定义了哪三种图像?它们的含义各是什么?

:①MPEG定义了帧内图像,预测图像和双向预测图像这三种图像。

②帧内图像不参考任何过去的或者将来的其他图像帧。预测图像需要过去的图像帧来进行预测编码。双向预测图像需过去与未来的帧来插值编码。

37.预测图像 P 使用哪两类参数表示?

:预测图像P使用的一类参数是当前要编码的图像宏块与参考图像的宏块之间的差值。另一类参数是宏块的移动矢量。

38.简述 MPEG 的数据流结构及 MPEG 中的宏块的构成。 

:①MPEG 的数据流结构分为序列层,图像组层,图像层,片层,宏块层,块层。

②MPEG中,一个宏块由一个16×16亮度信息和两个8×8的色度信息构成。

39.有哪些最佳宏块搜索法?给出其搜索策略。

二维对数搜索法——沿着最小失真方向搜索,在搜索时,每移动一次就检查5个搜索点。如果最小失真在中央或在边界,就减少搜索点之间的距离。三步搜索法——似上法,但每步测9个点,且搜索距离从3个像素每步减小一个像素,三步完成。对偶搜索法——先行(左中右比较,中或边截止)后列(上中下比较,中或边截止)。

40.视频的图像系列中的 I、P 和 B 帧的数目和位置是固定的吗?是如何排列的?

不固定,可设置;一般每秒2个I帧(距离15)、P帧距离3、剩下为B帧。随机定位(如快进/快退)、阻止误差传播。

41.为什么需要子带编码?它与音感编码有什么关系?

子带编码将输入的宽频声音信号被分成若干(宽度不同的)频带(即子带),对听觉感知比较次要的子带信号,分配较少的位数,可以压缩数据;音感编码利用人的听觉系统的特性来达

到压缩声音数据的目的。由于听阈是随频率变化的,而且掩蔽效应的临界频带也与频率有关,所以音感编码通常都是分子带进行的。

42.请描述听觉系统的感知特性在 MPEG 音频编码中的起到的作用。

1)根据人的听力范围,可以过滤掉频率为 2k~20k 以外的声音信息。 (2)根据“听阈—频率曲线”可以将听阈、痛阈之外的信号信息过滤掉。 (3)根据频域掩蔽特性(①不同纯音的掩蔽效果不同,在 250,1k 和 4k 附近的纯音对 其他纯音的掩蔽效果强。②低频纯音可以有效地掩蔽高频纯音,而高频纯音对低 频纯音的掩蔽效果不明显) ,进行临界频带分割,以较优地进行子带编码。 (4)根据时域掩蔽特性,可以将强掩蔽音的超前掩蔽(一般约为 5~20ms)和滞后掩蔽 (一般约为 50~200ms) 所掩盖的声源信息过滤掉。 如在立体声多路同步录音的情 况下,可以考虑采用时域掩蔽效应。 (5)除上述的几个运用外,MPEG 主要采用了一个称之为“心理声学模型”将各种感 知特性集成起来,处理冗余的声音信息。

43.人类的听觉系统有哪些感知特性?它们是如何被音感编码所利用的?

存在听觉阈值电平和听觉掩饰特性;音感编码可去掉低于听阈的信号;及人听不到强音频率附近的弱音,以消除冗余数据。

44.多媒体数据库管理系统MDBMS)应该具有哪些功能?

① 须能表示和处理各种媒体数据;②必须能反映和管理各种媒体数据的特性;③必须 满足物理数据独立性、逻辑数据独立性、媒体数据独立性;④应该比传统数据库 有更多的数据操作功能;⑤应有较多的网络功能;⑥应具有开放性;⑦应提供事务 和版本管理功能 、

45.简述多媒体数据库管理的特性。

多媒体数据库管理系统 MDBMS 的基本功能概括如下:(1)多媒体数据库管理系统必须能表示和处理各 种媒体的数据。(2)多媒体数据库管理系统必须能反映和管理各种媒体数据的特性,或各种媒体数据之间 的空间或时间的关联。(3)多媒体数据库管理系统除必须满足物理数据独立性和逻辑数据独立性外,还应 满足媒体数据独立性。(4)多媒体数据库管理系统的数据操作新功能。(5)多媒体数据管理系统的网络 功能。(6)多媒体数据库管理系统应具有开放功能,提供多媒体数据库的应用程序接口 API。(7)多媒 体数据库管理系统还应提供事务和版本管理功能等

46.简述基于内容的检索过程,其关键的特征抽取问题主要采用哪些方法解决?

CBR实现方法

1)基于传统的数据库检索方法,即采用人工方法将多媒体信息内容并表达为属性(关键词)

集合,再在传统的数据库管理系统框架内处理。这种方法对信息采用了高度抽象,留给用户选择余地小,查询方式和范围有所限制。

2)基于信号处理理论, 即采用特征抽取和模式识别的方法来克服基于数据库方法的局限

,但全自动地抽取特征和识别时间开销太大,并且过分依赖于领域知识,识别难度大。 基于内容的检索系统的结构:

47.什么是基于颜色直方图检索?

将图像间的距离归结为其颜色直方图间差距,从而将图像检索转化为颜色直方图的匹配

48.在视频检索中,为什么要对镜头分割?主要的方法有哪些?

:要实现基于内容的视频检索,一个基本的问题就是对视频进行分类。对视频分类的关键就是检测出镜头的分隔点,这就是镜头的分割。

镜头切换主要有两种:直接切换和简编切换。对于直接切换,可以用直方图比较的方法。同一镜头中的两幅相邻图象特征相差不多,如果发生镜头切换,直方图的差值就会很明显。可以设定一个阀值来判断是否发生切换。对于渐变的镜头切换,直方图的差值不明显。可以用双重比较法来解决。采用2个阀值,第一个较低阀值来确定出潜在切换的起始帧,确定这个帧后,将它与后续帧比较,得到的差值来取代帧间的差值。这个差值必须是单调的不断增加,直到这个单调过程结束。此时,这个差值与第二个较大的阀值比较,若超过阀值,可认为这个不断比较差值单调增的视频序列对应的就是一个渐变切换点。另外,还可根据帧中的各类型宏块的比例来判断;还有明暗度识别法空间编辑识别法等。

方法有1)基于灰度的镜头分割方法 2)基于边缘的镜头分割方法3)基于彩色直方图的镜头分割方法4MPEG视频的镜头分割方法5)块匹配的镜头分割方法6)统计判决的镜头分割方法7)基于聚类的镜头分割方法

49.简述 MPEG-7 的主要功能和它对多媒体信息的描述方法。

答:1MPEG-7的目标是根据信息的抽象层次,提供一种描述多媒体材料的方法以便表示不同层次上的用户对信息的需求。以视觉内容为例,较低抽象层将包括形状、尺寸、纹理、颜色、运动(轨道)和位置的描述。对于音频的较低抽象层包括音调、调式、音速、音速变化、音响空间位置。抽象层与提取特征的方式有关:许多低层特征能以完全自动的方式提取,而高层特征需要更多人的交互作用。MPEG-7还允许依据视觉描述的查询去检索声音数据,反之也一样。

MPEG-7标准可独立于其它MPEG标准使用,MPEG-4所定义的音频、视频对象的描述适用于MPEG-7MPEG-7适用范围广泛, 既可应用于存储,也可用于流式应用。可在实时或非实时环境应用。

2MPEG-7定义了“标准描述子集合(Standard Set of Descriptors)”用于描述各种类型的多媒体数据,与之相应的“描述方案( Description Schemes)”用于规范多媒体描述子的生成和不同描述子之间的有机联系。这些描述子与所指定的多媒体对象的内容紧密联系,采用提取对象特征的方法为实现基于内容的语义的准确检索提供了接口。在此基础上,MPEG-7定义了一种新的语言──“描述定义语言(Description Definition Language)”用于指定和生成描述方案。

50.流媒体传输的网络协议有哪几种?并做简单介绍。

(1)实时传输协议RTPReal-timeTransportProtocol)是用于Internet 上针对多媒体数据流的一种传输协议。RTP被定义为在一对一或一对多的传 输情况下工作,其目的是提供时间信息和实现流同步。RTP通常使用UDP来传 送数据,但RTP也可以在TCPATM等其他协议之上工作。当应用程序开始一个RTP 会话时将使用两个端口:一个给RTP,一个给RTCPRTP本身并不能为按顺序传 送数据包提供可靠的传送机制,也不提供流量控制或拥塞控制,它依靠RTCP 提供这些服务。通常RTP算法并不作为一个独立的网络层来实现,而是作为应 用程序代码的一部分。

2)实时传输控制协议RTCP (Real-timeTransport ControlProtocol)RTP一起提供流量控制和拥塞控制服务。在RTP会话期 间,各参与者周期性地传送RTCP包。RTCP包中含有已发送的数据包的数量、丢 失的数据包的数量等统计资料,因此,服务器可以利用这些信息动态地改变 传输速率,甚至改变有效载荷类型。RTPRTCP配合使用,它们能以有效的反 馈和最小的开销使传输效率最佳化,因而特别适合传送网上的实时数据。

3)实时流协议RTSP(RealTimeStreamingProtocol)是 由RealNetworksNetscape共同提出的,该协议定义了一对多应用程序如 何有效地通过IP网络传送多媒体数据。RTSP在体系结构上位于RTPRTCP之 上,它使用TCPRTP完成数据传输。HTTPRTSP相比,HTTP传送HTML,而RTP传 送的是多媒体数据。HTTP请求由客户机发出,服务器作出响应;使用RTSP时, 客户机和服务器都可以发出请求,即RTSP可以是双向的。

4RSVP协议(Resource ReserveProtocol)是正在开发的Internet上的资源预订协议,使用RSVP 能在一定程度上为流媒体的传输提供QoS。在某些试验性的系统如网络视频 会议工具vic中就集成了RSVP

5PNMProgressive Networks Audio),这也是Real专用的实时传输协议,它一般采用UDP协议,并占用7070端口,但当你的服务器在防火墙内且7070端口被挡,且你的服务器把SmartingNetwork设为真时,则采用http协议,并占用默认的80端口;

6MMSMicrosoft Media Server protocol),这是微软的流媒体服务器协议,MMS 是连接 Windows Media 单播服务的默认方法。

51.简述流媒体的播放方式有哪几种?

流媒体的播放方式主要有单播、组播、点播、广播和P2P播放。

1)单播是客户机和服务器建立单独的通信信道,服务器发送的每个数据报每次只能传送给一个客户机。一般在广域网上提供音视频直播。

2)组播是IP组播技术构建一种具有组播能力的网络,允许路由器一次将数据包复制到多个通道上。采用组播方式,单台服务器能够对几十万台客户机同时发送连续数据流而无延时。媒体服务器只需要发送一个信息包,而不是多个;所有发出请求的客户端共享同一信息包。信息可以发送到任意地址的客户机。但组播需要网络的支持。

3)点播是指客户机主动连接服务器的连接方式。点播方式,用户可以开始、停止、后退、快进或暂停流,每个客户端占用一路带宽,同时流媒体服务端维护一个客户链接。这要求提供流媒体点播的服务器有富裕的带宽出口。

4)广播是指将数据包的一个拷贝发送给网络上的每个用户,用户是被动接收的,当网络内数据包达到一定数量时就会形成网络风暴,整个网络就肢瘫痪,目前流媒体技术中已很少应用广播,一般都通过组播或单播来实现媒体数据的分发。

5P2P播放是基于P2P技术的流媒体播放方式之一。在使用时候,每一个客户终端既是客户机又是服务器。你在从别人那里下载需要播放的那一片段的同时,你也在给另一个人提供下载另一个片段。因此在线人数越多,播放反而更流畅。

52.流式传输方式与传统的下载方式相比具有哪些优点?

答:启动延时短,对系统缓存容量的需求大大降低,流式传输的实现有特定的实时传输协议。

53.常见流媒体的应用有哪些。

1)将现有视频会议信号录制下来统一保存,同时通过网络进行直播,以便于大规模用户收看会议内容;

2) 将政府和企业会议录制下来统一保存,同时在网上直播,便于下属单位、公众在网络上观看;

3)将电视节目、电台节目在网上进行直播,并设定有特点的节目自动录制计划

4)将政府、企业保存下来的DVD、VCD、VHS转码录制后.统一入库保存.实现媒体资产的数字化、网络化;

5将广电系统中传统媒资库的节目通过网络发布,进行盈利;

6可实现对视频节目的专题管理和发布,以实现对热点节目报道的汇总专题;

7利用流媒体技术与传统视频监控相结合,可以大规模用户访问同一个监控点;

8教育培训,讲师的视频、音频和笔记本内容直播,录制成课件供点播使用;

9企业产品的在线互动营销,如客服人员和网友直接面对面互动。

软件有Real Player、Media Player Classic、超级兔子之快乐影音、Window Media Player、暴风影音、Flash Player

54.多媒体通信的一种典型应用是视频会议系统,它可以应用于哪些领域?试举例说明。

答:1)可视电话:多媒体通信的初级形式主要是可视电话。在相距很远的异地,用户双方在通话的同时还可看到对方的形像并传输所需的各种信息。

2)在家办公:应用多媒体通信技术,使位于不同地点的多个用户可以自由交谈。看到对方的形像,修改同一个文件,讨论同~个图表,检索计算机中的多媒体信息资源等。这时人们就可以在家中上班,并提高工作效率。

3)多媒体邮件:多媒体邮件可以不受时空的限制接收或发送信息,发送者可以建立、编辑并审定某个邮件,然后把它存入一个邮箱系统中,接收者可以在任何方便的时候取出这个邮件,从而极大地扩展了普通邮件系统的功能。

4)电视会议:是为了让不在同一个地方的与会者以直接j实时地参与会议,交流信息。通过多媒体终端,在不同地方的与会者可以同时参与同一会议议题,听到发言者的讲话;就好像所有与会者在一个虚拟的会议室进行面对面的交谈。

5)远距离医疗服务:多媒体通信配合远距离多功能诊断传感器和遥控监测装置可以改变病人不必须去医院看病的传统做法,在家里。身临其境’地接受医生的询问和诊断。利用多媒体通信,身处异地的医生们还能够参与同一病例的会诊讨论,并拟定治疗方案。此外,还可以进行远程医学教育,查询医学信息库,家庭健康护理等。

6)销售与购物:利用多媒体通信技术,销售公司、厂家的销售人员无需把客户带到现场。这就是目前正在兴起的网络购物。利用多媒体终端可以像逛商店一样购物;可以从任何角度观看某种商品;也可以‘试穿’某件时装。利用虚拟现实技术,人们甚至可以获得对某件商品或食品的触觉或嗅觉感受。

7)传播知识:科学博物馆、宇航博物馆、自然博物馆等可以利用多媒体通信向公众形象地介绍科学文化知识,使观众有很强的参与感。

55.通过《多媒体信息技术》 课程的学习,请从文本、 声音、图像、视频等方面总结该课程在自己专业方面的重要性、 必要性及本课程与专业方向的密切性。

 

 

 

应用题

1、对信源 X=进行 Huffman 编码,并计
算平均码长。  

信源符号 概率 编码过程   码字   码长

X1            0.4                     00       2

X2            0.2                     10       2

X3            0.2                     11       2

X4            0.1                     010     3

X5            0.1                     011     3

平均码字长度为:

0.4×2+0.2×2+0.2×2+0.1×3+0.1×3= 2.2(码符号/信源符号)

2、有 5 字符 aei、ou率及范围下:

字符:a             e          i           o           u

概率:0.2        0.3         0.1      0.2       0.2

范围:0,0.2]    [0.2,0.5]   [0.5,0.6]   [0.6,0.8]    [0.8,1)

对数据串eai进行算术编码

初始化high0low0rangehighlow101

①对字符e编码。erangelow0.2rangehigh0.5,因此:

low01×0.20.2high01×0.50.5 rangehighlow0.3

②对字符a编码,使用新的范围[0.20.5]

low0.20.3×00.2high0.20.3×0.20.26rangehighlow0.06

③对字符i编码。

low0.20.06×0.50.23high0.20.06×0.60.236

最终,字符串eai的编码是[0.230.236]

3、有一段音乐,被采样并且无压缩地存储在磁盘上,大小为 52920000 字节。已知其它参 如下:3 分钟 20 秒,立体声, 24 位深度。试计算采样频率是多少。

采样频率是:52920000÷(200×2×)= 44100Hz = 44.1KHz

4、北美和日本采用 NTSC 制式数字电视图像(SIF 格式)30 帧/秒,每帧 352×240,每 点用 3 字节表示。粗略计算一下,如果不压缩的话,每秒钟的数据量是多少?如果不考 音频,一张 650M 字节的存储这种未经压缩的视频的 CD-ROM 光盘可播放多长时间?

每秒钟的数据量是:

352×240 × 3× 30 ≈ 7.603MB

如不压缩,也不考虑音频,那么一张650M字节的CD-ROM光盘可播放

650 ÷ 7.603 ÷ 60 ≈ 1.42分钟

 

 

 

你可能感兴趣的:(《多媒体信息技术》复习思考题)