多媒体技术

多媒体技术复习要点

1.根据CCITT定义,多媒体有哪几种类型?

1). 感觉媒体:直接作用于人的感官 ,使人直接产生感觉。
2). 表示媒体:是为了加工、处理和传输感觉媒体而人为构造出来的一种媒体 ,即各种编码。
3). 显示媒体:是指感觉媒体与用于通信传输的电信号之间转换的一 类媒体,即感觉媒体与计算机的界面。又可分为两种:输入显示媒体和输出显示媒体。
4). 存储媒体:用于存放表示媒体,计算机随时处理和调用存放在存储媒体中的信息编码。
5). 传输媒体:传输的物理载体,即用来将媒体从一处传送到另一处的物理载体。

2.多媒体的几个特征

多维化 ——指计算机处理媒体信息的多样化 ,它使人与计算机之间的交互不再局限于顺序的、单调的、狭小的范围,而有充分自由的余地。
集成性——媒体种类一体化。包括两方面:一方面是指多媒体技术能将各种不同的媒体信息有机地进行同步组合,形成一个完整的多媒体信息;另一方面是指把不同的媒体设备集成在一起,形成多媒体系统。
交互性——人、机对话,是多媒体技术的关键特征。在多媒体系统中,除了操作上控制自如之外,在媒体的综合处理上也可以随心所欲。(人机交互)
数字化——媒体以数字形式存在。
实时性——声音、动态图像(视频)随时间变化。

3.VCD与DVD播放系统分别基于哪种视频编码技术?

VCD:MPEG-1编码技术;DVD:MPEG-2编码技术

4.奈奎斯特采样定理

要想抽样后能够不失真地还原出原信号,则抽样频率必须大于两倍信号谱的最高频率
常用音频采样频率有:8kHz(数字电话),11.025kHz(AM),22.05kHz (FM),44.1kHz (CD),48kHz(演播,数字录音带DAT)
目前有三种方法可以衡量声音的质量。一是用声音信号的带宽来衡量声音的质量,第二种是信噪比,第三种是主观质量度量。

5.分辨率

分辨率指A/D转换器对输入模拟信号的分辨能力。从理论上讲,一个n位二进制数输出的A/D转换器应能区分输入模拟电压的2n个不同量级,能区分输入模拟电压的最小差异 (满量程输入的1/2n)。
例如,A/D转换器的输出为12位二进制数,最大输入模拟信号为10V,则其分辨率为

7. 转换时间

转换时间是指A/D转换器从接到转换启动信号开始,到输出端获得稳定的数字信号所经过的时间。
A/D转换器的转换速度主要取决于转换电路的类型,不同类型A/D转换器的转换速度相差很大。

①双积分型A/D转换器的转换速度最慢,需几百毫秒左右;
②逐次逼近式A/D转换器的转换速度较快,需几十微秒;
③并行比较型A/D转换器的转换速度最快,仅需几十纳秒时间。

8. 转换误差

它表示A/D转换器实际输出的数字量和理论上输出的数字量之间的差别。常用最低有效位的倍数表示。例如,转换误差≤   。就表明实际输出的数字量和理论上应得到的输出数字量之间的误差小于最低位的半个字。
例:某信号采集系统要求用一片A/D转换集成芯片在1s内对16个热电偶的输出电压分数进行A/D转换。已知热电偶输出电压范围为0~25mV(对应于0~450℃温度范围),需分辨的温度为0.1℃,试问应选择几位的A/D转换器?其转换时间为多少?

9.我国具有自主知识产权的音视频压缩标准是什么?

AVS标准

10. 压缩的指标

(1)压缩比:输出数据与输入数据之比。
(2)压缩质量:压缩分为有损压缩和无损压缩;有损压缩采用主观(感受)和客观方式(信噪比等)。
(3)压缩和解压缩速度 :与压缩和解压缩算法密切相关
(4)压缩和解压缩标准化

11.数据冗余(数据可压缩性)(极可能考,理解)

空间冗余(在同一幅图像中,规则物体和规则背景的表面物理特性具有相关性,即对同一景物表面上采样点的颜色之间存在着空间连贯性) 图像灰度或颜色等特性基本相同的视觉区域
时间冗余(序列图像(电视图像、动画)和语音数据中所经常包含的冗余,一组连续的画面之间往往存在着时间和空间的相关性)
① 相邻图幅间(帧间)或相邻音域间的重复与渐变部分
② 人眼视觉暂留特性 ,
信息熵冗余(编码符号序列中的码字冗余)
其它冗余(如结构冗余 ,知识冗余 ,视觉冗余)

12.常见编码与分类

熵编码技术:主要利用数据的熵冗余(统计冗余)来达到压缩目的。
数据压缩标准中常用的熵编码方法:
· Huffman编码(必考计算大题)
· 算术编码(可能考计算大题)
· 行程编码

13.Huffman编码与算术编码

Huffman编码(必考)

① 求出信源符号集{ Xi }中每个符号出现的概率P(Xi),
以建立初始Huffman码表.
② 根据P(Xi)计算值,
按概率递减序把符号集{ Xi }排列成一棵二叉树
a.设置各符号Xi的叶节点位置;
自底向上计算两个最小概率项之和,
作为新的复合项,且以中间节点表示
其中,底层叶节点的概率值为左大右小
b.沿二叉树逐次计算两个最小概率项之和,
并逐次归并成一个复合项,
以作为中间节点;直至最后一项到达顶层的根节点
c.可以验证:根节点的概率值必为1;即
ΣP(Xi)=1

③ 沿Huffman树自顶向下生成码字
a.从根节点开始遍历树,按从左到右顺序
依次给每个节点的路径赋予二进制代码(1,0)值
b.取出从根节点到每个叶节点的路径上的代码组合,
得到该叶节点的码字;这就是信源符号Xi的编码结果
c.各信源符号的码字及码长Li可填列在Huffman码表中
④ 计算信源符号集{Xi}的平均码长La,并与{Xi}的最小码长比较
过程与结果:

算术编码(可能考)
算术编码:在JPEG扩展系统中,取代Huffman编码.优点:
① 用在信源概率分布较均匀的场合;与Huffman编码形成互补;
② 数据压缩效率高出Huffman编码约5%。
⑴ 算术编码的基本原理
基本思想:基于递归概率区间划分的二进制编码.具体过程:
① 把信源符号序列{Xi|i=1,2,…,n}发生的概率
用实数区间[0,1]上的间隔(Xi的取值范围)来表示;
② 按符号概率大小来分配符号间隔,
使[0,1]随迭代计算次数的增加而逐次变窄;
③ 所求最后范围便是替代{Xi}符号串编码的取值范围

14.声音的三个主观属性—音调、音色、音强

15.PCM,DPCM,APCM,ADPCM(理解)

PCM(脉冲编码调制):概念上最简单、理论上最完善的编码系统,它的原理框图下图所示 。

  其中防失真滤波器可以视为低通滤波器,用来滤去声音频带以外的信号,波形编码器可看作采样器,量化器可视为量化阶生成器。
  量化一般分为两种,均匀与非均匀。非均匀量化中μ律压扩算法主要由北美和日本地区采用,A律压扩算法主要是中国大陆和欧洲地区。
 增量调制(DM); 它是一种预测编码技术,是PCM编码的一种变形。DM是对实际的采样信号与预测的采样信号之差的极性进行编码,将极性变成“0”和“1”这两种可能的取值之一。

DPCM: 利用样本与样本之间存在的信息冗余度来进行编码的一种数据压缩技术。差分脉冲编码调制的思想是,根据过去的样本去估算(estimate)下一个样本信号的幅度大小,这个值称为预测值,然后对实际信号值与预测值之差进行量化编码,从而就减少了表示每个样本信号的位数。它与脉冲编码调制(PCM)不同的是,PCM是直接对采样信号进行量化编码,而DPCM是对实际信号值与预测值之差进行量化编码,存储或者传送的是差值而不是幅度绝对值。
APCM: 根据输入信号幅度大小来改变量化阶大小的一种波形编码技术。这种自适应可以是瞬时自适应,即量化阶的大小每隔几个样本就改变,也可以是非瞬时自适应,即量化阶的大小在较长时间才发生变化。
改变量化阶大小的方法有两种:前向自适应和后向自适应 。前者是根据未量化的样本值的均方根值来估算输入信号的电平,以此来确定量化阶的大小,并对其电平进行编码作为边信息(side information)传送到接收端。后者是从量化器刚输出的过去样本中来提取量化阶信息。

ADPCM: 自适应差分脉冲编码调制(一种预测差值最小与自适应量化阶的思想)
综合了APCM的自适应特性和DPCM系统的差分特性,是一种性能比较好的波形编码。它的核心想法是:①利用自适应的思想改变量化阶的大小,即使用小的量化阶(step-size)去编码小的差值,使用大的量化阶去编码大的差值,②使用过去的样本值估算下一个输入样本的预测值,使实际样本值和预测值之间的差值总是最小。它的编码简化框图如下所示。

16. 子带编码(SBC G.722)与线性预测编码(LPC) (了解即可)

SBC:
基本思想:把输入音频信号的频带分成若干个连续的子带,对每个子带中的音频信号采用单独的编码方案去编码。在接收端将每个子带的代码单独译码,然后把它们组合起来,还原成原来的音频信号。
优点:各子带根据能量和感觉分别处理

G.722将子带编码与相ADPCM结合,先分成两个子带再ADPCM。
LPC:
基本思想:声道是惰性腔体,不可能发生突变,因而话音信号具有短时间内的相关性。通过分析话音波形来产生声道激励和转移函数的参数,对声音波形的编码就转化为对这些参数的编码,这就使声音的数据量大大减少。

17.常见颜色空间

(1)RGB
(2)HSI(色调,饱和度,亮度)/HSV
(3)CMY 青色(Cyan)、品红(Magenta)、黄(Yellow) K:Key Plate(blacK) (黑色)(极有可能考)
转换公式(未归一化)为:
C=255-R
M=255-G
Y=255-B
归一化时,255变为1,取值在0~1之间。
(4)YUV、YIQ、YCbCr色彩空间是为电视系统开发的。
YUV适用于PAL和SECAM制式
YIQ适用于NTSC制式
YCbCr适用于数字电视
为兼容黑白和彩色电视信号,亮度Y和色度U、V分离。
应用: RGB: 显示器信号
HSI:人眼识别
YUV:电视信号
CMY:彩色印刷

18.图像格式与一些标准(了解即可)

位图,矢量图对比。
BMP,GIF,TIFF,PNG,JPEG等等

GIF特点:交错显示(下载时,以较粗分辨率显示,看到全貌),GIF可以将多幅图像保存为一个文件,从而实现动画。

声音标准一般以G开头

国际标准化组织ISO和CCITT(ITU-T)联合组成专家组
JPEG( Joint Photographic Experts Group)
JBIG( Joint Bilevel Image Group)
国际电子学委员会IEC和ISO组成的ISO/IEC
MPEG( Motion Picture Experts Group)
国际电信联盟(ITU-T):
H.261, H.263, H.264

19.JPEG算法(必考,选择 填空 简答都有可能涉及)

(1)概述:算法框图

正向离散余弦变换(FDCT)。
量化(quantization)。
Z字形编码(zigzag scan)。
使用差分脉冲编码调制(differential pulse code modulation,DPCM)对直流系数(DC)进行编码。
使用行程长度编码(run-length encoding,RLE)对交流系数(AC)进行编码。
熵编码

(2)正向离散余弦变换:
对每个单独的图像分量,把整个分量图像分成8×8的图像块,并做为两维离散余弦变换。通过DCT变换,把能量集中在少数几个系数上。F(i, j)经DCT变换之后,F(0,0)(左上角第一个值)是直流系数,其他为交流系数。
(3)量化
量化是对经过FDCT变换后的频率系数进行量化。量化的目的是减小非“0”系数的幅度以及增加“0”值系数的数目。量化是图像质量下降的最主要原因。
对于有损压缩算法,JPEG算法使用均匀量化器进行量化,量化步距是按照系数所在的位置和每种颜色分量的色调值来确定。
不同的颜色分量使用不同的量化表。
(4)Z字形编码
量化后的系数要重新编排,目的是为了增加连续的“0”系数的个数,就是“0”的游程长度,方法是按照Z字形的式样编排,如下图所示。这样就把一个8 * 8的矩阵变成一个1* 64的矢量,频率较低的系数放在矢量的顶部。

(5)直流系数(DC)编码
8 *8图像块经过DCT变换之后得到的DC直流系数有两个特点,一是系数的数值比较大,二是相邻8 * 8图像块的DC系数值变化不大(具有一定的相关性)。根据这个特点,JPEG算法使用了差分脉冲调制编码(DPCM)技术,对相邻图像块之间量化DC系数的差值(Delta)进行编码,
Delta=DC(0, 0)i-DC(0, 0)i-1

(6)交流系数(AC)编码
量化AC系数的特点是1*64矢量中包含有许多“0”系数,并且许多“0”是连续的,因此使用非常简单和直观的行程编码(RLE)对它们进行编码。

(7)熵编码
为了进一步压缩数据,需对DC码和AC行程编码的码字再做基于统计特性的熵编码。JPEG建议的熵编码是Huffman编码和自适应二进制算术编码。
熵编码可分成两步进行:
把DC码和AC行程码转换为中间符号序列。
给这些符号赋以变长码字。

JPEG累进编码方式:频谱选择法、按位逼近法
图象编码在多次扫描中完成。这种编码传输时间长,接收端收到的图象是多次扫描由粗糙到清晰的累进过程。需在量化器的输出与熵编码的输入之间,增加一个足以存储量化后DCT系数的缓冲区,对缓冲区中存储的DCT系数多次扫描, 分批编码。
两种累进方式:
频谱选择法: 扫描中只对64个DCT量化系数中某些频带的系数进行编码、传送, 随后对其它频带编码、传送, 直到全部系数传送完毕为止。如,可分组(0,1,2) ,(3,4,5), … (61,62,63)等。
按位逼近法: 沿着DCT量化系数有效位方向分段累进编码。如,对每个系数可分段为7654位,3位,…,0位;首先对最高的4位进行编码、传输,然后对其余段位进行编码和传输。

JPEG分层编码:图象在多个空间分辨率进行编码。在信道速率慢,接受端显示器分辨率也不高的情况下,只需做低分辨率图象解码,不必进行高分辨率解码。

20.MPEG图像子采样的算法(很有可能考)P202

4:4:4 平均每个像素由3个样本表示,即每个点都有Y,Cb,Cr分量
4:2:2 平均每个像素由2个样本表示,水平连续4个点有8个样本,8/4=2
4:1:1 平均每个像素由1.5个样本表示,水平连续4个点有6个样本,6/4=1.5
4:2:0 平均每个像素由1.5个样本表示,水平与竖直2*2的4个点有6个样本6/4=1.58/4=2

21.MPEG视频压缩技术(必考) P272

主要思想:
(1) 帧内图像数据压缩:采用基于DCT的压缩,用于减少每帧图象内部的空间冗余度,算法与JPEG算法大致相同,相当于静态图象压缩。
(2) 帧间图像数据压缩:采用16×16宏块运动补偿技术,消除帧序列的时间冗余度(和一小部分帧间的空间冗余度) 。
三类图像
I帧:帧内图(Intrapictures,I):随机存取的位置,压缩比不大;
P帧:预测帧(Predetected pictures,P):用先前帧,I或P,本身参考预测;
B帧:插补帧即双向预测(Bidirectional Prediction Pictures,B):压缩效果显著,预测时,需要先前和后续的信息.B不能作其他帧的预测参考帧.。
I帧压缩编码(空域压缩)
I帧只存在帧内编码,没有帧间运动估计,不用参考其它帧,所以I帧具有同步作用,付出的代价就是效率。
三个阶段(即类似JPEG算法的基本步骤):
DCT;
变换系数量化(量化,Z字扫描,游程编码)使大部分数据得以压缩,要求通过量化器,编码器使之输出一个与信道传输速率匹配的比特流;
熵编码;

P帧压缩编码
P帧图像的编码是以图像宏块(macroblock)为基本单元,先求两个宏块中相应像素值之差,对所求得的差值进行彩色空间转换,并通过子采样得到Y,Cr和Cb分量值,然后仿照JPEG压缩算法对差值进行编码,计算出的运动矢量也要进行霍夫曼编码。即对当前要编码的宏块与参考图像的宏块之间差值和宏块运动矢量进行编码。
B帧压缩编码
即对在它前后帧的像素值之差进行编码。

时域冗余量减少——宏块运动补偿方法
运动补偿是通过先前的局部图像来预测、补偿当前的局部图像,它是减少帧序列冗余信息的有效方法。
减少帧序列冗余信息(时域),采用16×16宏块的运动补偿:
基于16×16宏块的算法:每个宏块计算出一个2维运动矢量,宏块作为预测单元,当前宏块是先前宏块的位移,位移内容包括运动方向和运动幅度。利用位移信息和先前的图像,可预测当前图像。16×16的预测误差,要编码、传送,供解码端恢复图像用。

注意:传递时应先传送I帧,P帧,再传送B帧,这样接收方才可以依据此算出相关B帧。

22.网络基础

交换技术:
线路交换网络(circuit-switched networks):在开始通信之前通信双方由线路交换中心建立物理连接,维持连接的时间长短取决于信息交换的需要,独占线路。	

信息包交换网络(packet-switched networks):发送端把长消息分割成比较小的信息包之后,使用存储转发方法(store and forward)把信息包转发到输出链路上。

TCP/UDP协议基础知识。
一般来说,应用层协议运行在操作系统之上,而传输层协议集成在操作系统之中。因此,当设计网络应用时,设计人员必需要指定其中的一种网络传输协议,网络多媒体应用通常使用UDP协议。

23.QoS(服务质量)(必考)

QoS是分布式多媒体信息系统为了达到应用要求的能力所需要的一组定量的和定性的特性,它用一组参数表示:

典型的有吞吐量、延时、延时抖动和差错率、服务可用性等。
吞吐量:网络吞吐量是指有效的网络带宽,通常定义成物理链路的传输速率减去各种传输开销,以及网络冲突、瓶颈、拥塞和差错等开销,它反映了网络的最大极限容量
延时(Delay)是衡量网络性能的重要参数。主要有传播延时、发送延时、处理延时、排队延时等。
延时抖动:是指时延变化。
差错率(Error Rate)是一种重要的性能指标,反映了网络传输的可靠性,位差错率、帧差错率、分组差错率分别用于在不同的网络协议层次上计算差错率。
服务可用性:给定时间范围内,网络可提供服务的时间与给定时间之比。
IETF提出了两种QoS保证机制,一是由RSVP提供的保证型服务,综合服务(IntServ);二是在区分服务(DiffServ,DS)中定义的区分型服务。保证型服务具有面向连接的特性,并通过QoS 协商、接纳控制、保留带宽和实时调度等机制来实现。区分型服务具有无连接的特性,主要通过缓冲管理和优先级调度机制来实现,而无需进行QoS协商和保留带宽等控制。区分服务直接使用现有的Ipv4和Ipv6的相关字段。
区分服务相对于综合服务(IntServ)的优点:首先,路由器无须维护每个连接的信息,对系统资源要求低;其次,对网络上的多种业务进行优先级归类合并成有限的几个优先级类别,对于IP网络设备来讲,处理更简单;再次,采用IP包中的ToS字段进行优先级标示,没有附加的标签,这种做法兼容性好,易于实现。另外,随着网络的扩展,优先级类别无须扩展。

24.多媒体通信协议(极可能考)

与多媒体应用密切相关的协议包括网络层的IPv6,传输层的RSVP,和应用层的RTP、RTCP、RTSP等。

实时运输协议 RTP (Real-time Transport Protocol):应用:RTP广泛应用于流媒体通信,电话、视频会议、电视。
RTP 为实时应用提供端到端的运输,但不提供任何服务质量的保证。
多媒体数据块经压缩编码处理后,先送给 RTP 封装成为 RTP 分组,再装入运输层的 UDP 用户数据报,然后再交给 IP 层。
实时运输控制协议 RTCP:
RTCP 是与 RTP 配合使用的协议。RTCP的主要功能是为应用程序提供会话质量或者广播性能质量的信息。每个RTCP信息包不封装声音数据或者电视数据,而是封装发送端和/或者接收端的统计报表。这些信息包括发送的信息包数目、丢失的信息包数目和信息包的抖动等情况,这些反馈信息对发送端、接收端或者网络管理员都是很有用的。
RTCP没有指定应用程序应该使用这个反馈信息做什么,这完全取决于应用程序开发人员。

实时流播协议 RTSP
RTSP协议以客户服务器方式工作,它是一个多媒体播放控制协议,使用户在播放从因特网实时数据时能够进行控制。RTSP描述了与RTP间的交互操作。RTSP控制RTP会话的协议,使得实时流媒体数据的受控和点播变得可能。
其工作原理如下图和P469页所示:(极有可能考)

QoS保证需要一种机制,这种机制允许应用程序保留因特网上的资源。资源保留协议(Resource Reservation Protocol,RSVP)就是这样一个标准。RSVP协议允许应用程序为它们的数据流保留带宽。主机根据数据流的特性使用这个协议向网络请求保留一个特定量的带宽,路由器也使用RSVP协议转发带宽请求。为了执行RSVP协议,在接收端、发送端和路由器中都必需要有执行RSVP协议的软件。

RSVP的特点
RSVP是传输层的协议
RSVP是信令协议
RSVP是接收端启动的协议
需要说明:RSVP标准没有指定网络如何为数据流保留资源,这个协议仅是允许应用程序提出保留必要的链路带宽的一个协议 。一旦提出要求保留资源,实际上是因特网上的路由器来为数据流保留带宽,让路由器接口来维护途经这个接口的各种数据流信息包。

25.超文本与超媒体(必考)

文本最显著的特点是它在信息组织上是线性的和顺序的,超文本的信息网络是一个有向图结构,类似于人脑的联想记忆结构,它采用一种非线性的网状结构来组织块状信息,没有固定的顺序。
超文本是一种信息管理技术,它以节点作为基本单位。抽象地说,它实际是一个信息块;具体地说,它可以是某一字符文本集合,也可是屏幕中某一大小的显示区。节点的大小由实际条件决定,在信息组织方面,则是用链把节点构成网状结构,即非线性结构。
超媒体:超媒体是超文本和多媒体在信息浏览环境下的结合。它是对超文本的扩展,除了具有超文本的全部功能以外,还能够处理多媒体和流媒体信息。

26.多媒体应用实例(IVS)参见最后一章ppt

要点:电子眼+电子脑的智能。

构成:
视频的采集
视频压缩、解压缩
视频的传输
视频的存储
视频的分析
视频的检索

技术领域:计算机视觉,智能分析技术,网络技术。

你可能感兴趣的:(多媒体技术,网络,音视频,媒体)