文章目录
- 一、绪论
-
- 多媒体概念
- 多媒体技术概念
- 媒体分类(CCITT标准)
-
- 多媒体特性
-
- 多媒体是技术与应用发展的必然
- 多媒体技术研究的主要内容
- 二、媒体与媒体技术
-
- 媒体元素
-
- 媒体的性质和特点
- 视觉媒体之颜色
- 颜色空间——描述颜色的术语(按技术角度分类)
- 颜色模型
- 听觉媒体技术
-
- 空间位置追踪技术
- 三、多媒体压缩技术
-
- 数据冗余类型
- 数据压缩技术的性能指标
-
- 数据压缩技术![在这里插入图片描述](https://img-blog.csdnimg.cn/6cb1cc3151de4590aceead3033305795.png)
- 数据压缩方法
-
- 预测编码
- 变换编码
- 统计编码——Huffman编码
- 行程编码
- 算数编码
- 香农-凡诺算法
- 图像和视频压缩标准
-
一、绪论
多媒体概念
多媒体技术是将两种或多种不同媒体集成到计算机上并形成交互能力的计算机技术。
媒 体 指 文 字 (Text) 、 图 形 (Graphics) 、 声 音 (Sound/Audio)、影像(Video)和动画(Animation)以及其相应的编码等。
多媒体技术概念
以数字化为基础,能够对多种媒体信息进行采集、编码、存储、传输、处理和表现,综合处理多种媒体信息并使之建立起有机的逻辑联系,集成为一个系统并能具有良好交互性的技术。
媒体分类(CCITT标准)
感觉媒体
用户接触信息的感觉形式,如视觉、听觉和触觉(包括人类的语言、音乐和自然界的各种声音、活动图像、图形、动画、文本等。)
表示媒体
信息的表现形式,如图像、声音、视频等;
多媒体技术研究的媒体是表示媒体,即各种媒体表示和表现技术。
•声:语音、声响、音乐等 •图:图像、图形等 •像:动画、视频等 •文:文字、符号、数值等 •等等 • 声:语音、声响 、音乐等\\ • 图:图像 、图形等\\ • 像:动画、视频等 \\ • 文:文字、符号、数值等 \\ • 等等 •声:语音、声响、音乐等•图:图像、图形等•像:动画、视频等•文:文字、符号、数值等•等等
显示媒体
指为人们再现信息的物理工具和设备(输出设备),或者指获取信息的工具和设备(输入设备)。如显示器、扬声器、打印机等输出类显示媒体,以及键盘、鼠标、扫描仪等输入类显示媒体 。
存储媒体
指存储数据的物理介质,如磁盘、光盘、磁带等
传输媒体
指传输数据的物理媒介,如光缆、电缆、电磁波等。
多媒体特性
多样性
交互性
交互分为初、中、高三个阶段 –初级阶段:提取信息,如检索数据库。 –中级阶段:用户介入。 –高级阶段:当我们完全地进入到一个与信息环境一体化的虚拟信息空间自由遨游时,这才是交互式应用的高级阶段,这就是虚拟现实( V i r t u a l R e a l i t y ) 交互分为初、中、高三个阶段\\ – 初级阶段:提取信息,如检索数据库。\\ – 中级阶段:用户介入。\\ – 高级阶段:当我们完全地进入到一个与信息环境一体化的虚拟信息空间自由遨游时,这才是交互式应用的高级阶段,这就是虚拟现实 (Virtual Reality) 交互分为初、中、高三个阶段–初级阶段:提取信息,如检索数据库。–中级阶段:用户介入。–高级阶段:当我们完全地进入到一个与信息环境一体化的虚拟信息空间自由遨游时,这才是交互式应用的高级阶段,这就是虚拟现实(VirtualReality)
集成性
- 多媒体信息媒体的集成
各种信息媒体能够同时、统一地表示信息。
这种集成包括:信息的多通道统一获取,多媒体信息的统一存储与组织,多媒体信息表现合成。
每种媒体都会对另一种媒体所传递信号的多种解释产生某种限制作用,因此多种媒体的同时使用可以减少信息理解的多义性。
保留媒体之间的关系及其所蕴含的大量信息。
- 处理这些媒体的设备与设施的集成
硬件上,能处理各种媒体信息的高速及并行的处理系统、大容量存储、适合多媒体多通道的输入输出能力及外设、宽带的通信网络接口,以及多媒体通信网络。
软件上,有多媒体操作系统,系统间媒体交换格式、多媒体数据库管理系统、软件工具以及应用软件等。
多媒体是技术与应用发展的必然
多媒体技术研究的主要内容
- 多媒体技术基础:媒体及媒体技术,多媒体数据压缩;
- 多媒体软硬件平台技术:多媒体硬件环境,多媒体软件基础;
- 多媒体信息管理技术:超媒体与Web系统,基于内容检索。
- 多媒体通信与网络技术:多媒体通信的网络服务及协议,Internet多媒体内容分发,无线和移动网络中的多媒体。
二、媒体与媒体技术
媒体元素
符号媒体:某种抽象的结果,各种描述量、语言、数据、标识符、数值、字符等。
文本:计算机文字处理程序的基础;
图形:计算机绘制的画面,如直线、圆、矩形等。图形是对图象抽象的结果(人工或自动);
图像:指由输入设备捕捉的实际场景画面,或以数字化形式存储的画面。静止图像是一个矩阵,由一些排成行列的点组成,这些点称为像素点(pixel),这种图像称位图(bitmap)。
视频:模拟视频和数字视频。
音频:数字音频可分为波形声音、语音和音乐
动画:运动的图画,实质是一幅幅静态图像的连续播放。动画的连续播放既指时间上的连续,也指图像内容上的连续,即播放的相邻两幅图像之间内容相差不大。
图像的技术参数
- 图像分辨率
每单位打印长度显示的像素数目,通常用ppi(像素/英寸)表示(像素密度)
- 采样
图像采样就是将二维空间上模拟的连续亮度(即灰度)或色彩信息,转化为一系列有限的离散数值来表示
- 图像深度
位图中,记录每个像素点数据(颜色)所占的位数(bit),它决定了彩色图像可出现的最多颜色数,或者灰度图像的最大灰度等级数
- 常用图像格式
BMP(BitMap):与Microsoft Windows系统标准图像文件格式。用光栅图形技术。图像深度可选1 bit、8 bit、16 bit、24bit及32 bit。
TIFF(Tagged Image File Format):普遍用于存储未压缩的数据。
PNG(Portable Network Graphics):最多支持48位色彩信息,支持有损和无损压缩。用于网页,与系统无关。
JPEG (Joint Photographic Experts Group):CCITT和ISO联合制定第一个压缩静态图像的国际标准,广泛使用。压缩比约为1:5至1:50,甚至更高。
GIF(Graphics Interchange Format):采用LZW压缩算法。适用8位彩色图像。一个GIF文件可存多幅彩色图像。把一个文件中多幅图像数据逐幅读出并显示,就构成了一种动画。
EXIT(Exchangeable Image File):数码相机的图像格式。使记录的图像元数据(曝光、光源、闪光,白平衡等) 按照图像标准交换。
图形和图像区别
- 图形是矢量概念,单位是图元;图象是位图概念,单位是象素;
- 图形按图元顺序显示;图象按象素顺序显示;
- 图形变换无失真;图象变换有失真;
- 图形以图元为单位修改属性、编辑;图象只能对象素或图块处理;
- 图形是对图象的抽象,但在屏幕上的显示结果两者无异。
- 两者相互融合
- 图形是对图象抽象的结果(人工或自动);
动画制作方法
- 造型动画:对每一个活动对象分别设计,并构造每一对象特征,然后用这些对象组成完
整的画面。这些对象在设计要求下实时转换,最后形成连续的动画过程。
- 帧动画:由一幅幅连续的画面组成的画像或图形序列,这是产生各种动画的基本方法。
媒体的性质和特点
- 各种媒体具有不同的性质和特点
媒体是有格式的;
不同媒体表达信息的特点和程度各不相同;
媒体之间可以相互转换;
媒体之间的关系也具有丰富的信息。
人在问题求解过程中不同阶段对信息媒体有不同的需要:
– 提供具体信息的媒体适用于最初的探索阶段,能描述抽象概念的文本媒体适用于最后的分析阶段;
– 文本表现概念和刻划细节;图形表达思想的轮廓以及蕴含于大量数值数据内的趋向性信息;视频表现真实的场景;声音作说明和示意,进行效果的渲染和烘托。
- 媒体的空间性质
表现空间:
显示空间:显示的位置、形式、顺序等
声音空间:听觉空间中的表现,与可视媒体同步
媒体空间关系组织,全面反映信息空间结构;
视觉、听觉和触觉三空间相互独立又相互结合:
视觉空间内容通过相机和显示设备采集和表现;
听觉空间通过麦克风和扬声器获取和再现;
触觉空间的跟踪与反馈需要相应的采集和伺服机构;
三者结合构成多媒体的虚拟空间信息环境。
- 媒体的时间顺序
同一地点拍摄的照片,由于时间不同所表现空间效果不同;
- 媒体的语义
媒体的语义是有层次的
多媒体系统具有合成能力,媒体就要有语义知识。
在获得媒体语义过程中,抽象起着重要作用。
抽象与任务有关。有若干抽象层,每层含与具体任务和问题相关模型。从接近具体感官的信息表示层到接近符号的信息表示层,信息的抽象程度递增,数据量递减。语义在从感官数据到符号数据的抽象过程中逐步形成。
抽象的程度不同,语义的重点不同
文本的语义关键是人对语言的理解,而非对字符的解释;
图像的语义在对其抽象上,如轮廓、颜色、纹理等;
如何利用这些语义,对多媒体系统构造十分重要。
- 媒体结合的影响
多媒体的作用在很大程度上是媒体之间结合产生的影响。
低层次结合:如显示窗口提供多种媒体信息,视觉、听觉相互结合,构成比较适合的多媒体表现环境。
高层次结合:各种媒体组成完全沉浸的虚拟空间。
媒体合理结合有利于信息接受和理解。
视觉媒体之颜色
色彩三要素:色调,饱和度,光度
- 色调
色调(hue)指颜色的外观,用于区别颜色的种类。色调是视觉系统对一个区域呈现的颜色的感觉,即视觉系统对光波波长的感觉。色调取决于可见光谱中光波的频率。
色调用红、橙、黄、绿、蓝、靛、紫等术语刻画。色调的种类很多,有一千万种以上,专业人士可辨认出的颜色约三百至四百种。黑、灰、白则为无色彩。
- 饱和度
饱和度(saturation)指颜色的纯度。
当一种颜色渗入其它光成分愈多时,就说颜色愈不饱和。完全饱和的颜色指没有渗入白光所呈现的颜色,例如仅由单一波长组成的光谱色是完全饱和的颜色
- 亮度
亮度(intensity)是人眼对光强度的感受。
人们认为,当从一个物体上反射出来的光增多时,它的亮度也应该增大。但是,目标的亮度与周围环境有关。
视觉有掩蔽现象:很亮的高光周围难以看清
- 三者关系
在饱和的彩色光中增加白光,相当于增加光能,因而变更亮了,但饱和度降低了。若增加黑色光,相当于降低了光能,因而变更暗,饱和度也降低了。
饱和度越高,颜色越鲜明突出,越能发挥颜色的固有特性。但饱和度高的颜色容易让人感到单调刺眼。饱和度低,色感比较柔和协调,可混色太杂容易让人感觉浑浊,色调显得灰暗。
颜色空间——描述颜色的术语(按技术角度分类)
- RGB 型/计算机图形:电视机和计算机的颜色显示系统。如RGB,HSI。
- XYZ 型/CIE :由国际照明委员会定义作为国际的颜色空间标准,用作颜色的基本度量方法。这是与设备无关的颜色表示法。
- YUV 型/电视系统:由广播电视需求的推动而开发的颜色空间,如,YUV,YIQ等。通过压缩色度信息有效播送彩色电视图像。
颜色模型
- 显示彩色图像用RGB相加混合模型
能发出光波的物体,其颜色由所发出的光波决定。即组合这三种光波以产生特定颜色称为相加混色。
三种颜色光强越强,到达人眼的光就越多,它们的比例不同,看到的颜色就不同。
- 打印彩色图像用CMY相减混色模型
不发光物体的颜色由其所吸收或反射的光波决定,用CMY (Cyan青色,Magenta品红, Yellow)相减混色模型。
C、M和Y合成,吸收所有颜色并生成黑色。这些颜色因此称为减色。
听觉媒体技术
声音三要素
- 音调
人耳对声音调子高低的主观感。与声波的频率相关
- 音强
人耳对声音强弱的主观感觉;在频率一定情况下响度取决于声波的振幅
- 音色
人耳对声源发声特色的感受;与声波的波形有关。与发声材料有关,不同的乐器可以产生相同音调和强度的声波,但音色不同。
数字音频的技术指标
声音数字化过程:采样,量化,编码。
- 采样频率:一秒钟内采样的次数。
遵循奈奎斯特(Harry Nyquist)采样理论:采样频率不应低于声音信号最高频率的两倍,就能
把以数字表达的声音还原为原来的声音。
- 量化位数:量化是把某一幅度范围内电压用一个数字表示
对模拟音频信号的幅度轴进行数字化所采
用的位数,决定了模拟信号数字化后的动态范围。一般量化位数8位和16位。量化位越高,信号的动态范围越大,数字化后的音频信号越可能接近原始信号,但所需存贮空间越大。
- 声道数
单声道、双声道、多声道。双声道又称立体声,在硬件中占两条线路,音质、音色好,但立体声数字化后所占存储空间比单声道多一倍。
声音抽象化的类型
音乐,语音
- MIDI
MIDI (Music Instrument Digital Interface)是指乐器数字接口的国际标准。
MIDI是音乐与计算机结合的产物。
MIDI的关键是作为媒体能够记录这些音乐的符号,相应的设备能够产生和解释这些符号。
与波形声音的区别:与波形声音比,MIDI不是声音数据而是指令,数据量少。30分钟音乐, MIDI文件记录200KB,16位CD品质未压缩WAV文件记录317MB。
MIDI可与其他波形声音配合使用,形成伴乐的效果。而两个波形声音一般不能同时使用。
MIDI编辑灵活,可自由改变音调、音色等属性。
MIDI在音质上还不能与真正的乐器完全相似。无法模拟自然界中其它非乐曲类声音。
空间位置追踪技术
- 机械跟踪技术
- 声波跟踪技术
- 磁跟踪技术
- 光学跟踪技术
三、多媒体压缩技术
数据冗余类型
- 空间冗余:同一景物表面,采样点的颜色之间存在空间连续性
- 时间冗余
图像序列中相邻图像之间有较大的相关性,一帧图像中某物体或场景可以由其他帧图像中物体或场景重构出来
空间冗余和时间冗余是把图像信号看作概率信号时所反映出的统计特性,因此,这两种冗余也称为统计冗余。
3. 结构冗余
图像中物体表面纹理等结构往往存在冗余,这种冗余称为结构冗余。当一幅图有很强的结构特性,纹理和色调等与物体表面结构有一定规则时,其结构冗余很大
4. 知识冗余
由图像的记录方式与人对图像的知识差异所产生的冗余称为知识冗余。
人对图像的理解与某些基础知识有很大的相关性。
5. 视觉冗余
人眼对于图像场的注意是非均匀的,人眼不能察觉图像场的所有变化
人视觉分辨力为 2 6 2^6 26级,而图像量化用 2 8 2^8 28级。
6. 听觉冗余
人耳对不同频率的声音的敏感性是不同的,并不能察觉所有频率的变化,对某些频率不必特别关注。存在听觉冗余。
数据压缩技术的性能指标
- 压缩比:输入数据和输出数据比;
- 恢复效果
无损压缩 (质量不变)
有损压缩
- 压缩和解压的速度
许多应用中,压缩和解压在不同时间、不同地点、不同系统中进行。压缩、解压速度分别估计
静态图象,压缩速度没有解压速度严格;
动态图象,压缩、解压速度都有要求。
设从N个数中选任意一个数X的概率为 P(x),假设,选定任意一个数的概率都相等,即 P ( x ) = 1 N P(x)=\frac{1}{N} P(x)=N1,因此信息量定义为
I ( x ) = l o g 2 N = − l o g 2 ( 1 N ) = − l o g 2 P ( x ) I(x) = log_2N=-log_2(\frac{1}{N})=-log_2P(x) I(x)=log2N=−log2(N1)=−log2P(x)
信息量:指从N个相等的可能事件中选出一个事件所需要的信息度量和含量。(用 l o g 2 n 是因为 B i t 位 log_2n是因为Bit位 log2n是因为Bit位)
平均信源所有可能事件的信息量,就得到信息熵(entropy)。熵就是平均信息量。
信源 X X X的熵: 信源 X X X发出 x j ( j = 1 , 2 , … , n ) x_j(j=1,2,…,n) xj(j=1,2,…,n)共n个随机事件的信息数学期望,即
H ( X ) = E H(X)=E H(X)=E { I ( x j ) I(x_j) I(xj)} = ∑ j = 1 n P ( x j ) I ( x j ) = − ∑ j = 1 n P ( x j ) l o g a P ( x j ) =\sum_{j=1}^{n}P(x_j)I(x_j)=-\sum_{j=1}^{n}P(x_j)log_aP(x_j) =∑j=1nP(xj)I(xj)=−∑j=1nP(xj)logaP(xj)
P ( x j ) P(x_j) P(xj)是信源 X X X发出 x j x_j xj的先验概率。事件概率大,发生的可能性大,不确定小,提供的信息量也少。必然事件概率为1,信息量为0。
压缩技术——熵损失
- 无失真压缩,又称无损压缩、熵编码。不会失真,多用于文本、数据压缩,有些非线性视频编辑系统为了保证视频质量,采用无失真压缩方法。
去掉或减少数据中冗余,但这些冗余可重新插入到数据中。这种压缩是可逆的。
为去除数据的冗余度,要考虑信源的统计特性,或建立信源的统计模型。许多适用的冗余度压缩技术均可归结于统计编码方法
- 有失真压缩,又称有损压缩、熵压缩法。大多数图像、声音、动态视频等采用。
压缩了熵,减少信息量。熵是平均信息量,损失的信息不能再恢复。这种压缩法不可逆。
压缩技术——信息语义
- 熵编码
指不考虑被压缩信息性质的编码压缩技术。
基于平均信息量技术,把所有数据当作比特序列,而不根据压缩信息的类型优化压缩。即,平均信息量编码忽略被压缩信息的语义内容。
- 源编码
冗余压缩取决于初始信号类型、前后相关性、信号语义内容等。
压缩程度主要取决于数据的语义内容,比平均信息量编码压缩比更大。
源编码主要有:预测编码、变换编码、向量量化等。
数据压缩技术
数据压缩方法
预测编码
统计冗余数据压缩理论的三个重要分支之一,用预测编码减少数据时间和空间的相关性。
建立一个数学模型,利用以往的样本数据,对新样本值进行预测,将预测值与实际值进行相减,对其差进行编码
差值很小,可以减少编码码位。
优点是可以去除数据的时间和空间冗余,直观、简捷和易实现,特别是硬件实现。
缺点是压缩能力有限,DPCM只能压缩到2-4bit/像素。
变换编码
实质是一种函数变换,从一个信号域变换到另一个信号域,使其更适于压缩;该过程是可逆的
统计编码——Huffman编码
原理:变字长编码(Variable-length Coding)定理。若各码字长度严格按照所对应符号出现概率的大小逆序排列,则其平均码长最小。
根据变字长编码定理,概率大的用短码字表达,反之用长码字表达。如果码字长度严格按照符号概率由小到大顺序排列,则平均码字长一定小于按任何其他符号顺序排列方式得到的码字长度。
行程编码
一串数:000011111000,其行程码为0453。
第一位表示该数码串的首码0;第二位表示有4个连续的0;第三位表示有5个连续的1;第四位表示l以后是3个0。由于二进制数的码非0即 l,因此无须在04后再写1。
算数编码
译码
消息序列:10 00 11 00 10 11 01。编码:输入符号10,其编码范围[0.5, 0.7)。第2个符号00编码范围[0, 0.1),间隔取[0.5, 0.7)的第一个十分之一作为新间隔[0.5, 0.52)。依此类推,编码第3个符号11,取新间隔[0.514, 0.52),编码第4个符号00,取新间隔[0.514, 0.5146),… 。编码输出可以是最后一个间隔的任意数 。
解码
例如,P(A)=0.5, P( C)=0.3, P(G)=0.15, P(T)=0.05; 解码0.9715:A:[0, 0.5); C[0.5, 0.8); G[0.8, 0.95); T[0.95, 1)
(1)0.9715属于T区间,解码T;
(2)0.9715-0.95=0.0215,0.0215/(1-0.95)=0.403,属于A,解码A;
(3)0.403-0 = 0.403, 0.403/0.5=0.806,属于G,解码G;
(4)最终结果 TAG
香农-凡诺算法
(1) 根据每个符号出现的频率对符号排序;
(2) 递归地将这些符号分成两部分,每部分符号具有相似的概率,直到所有部分都只有一个符号为止。
图像和视频压缩标准
静止图像压缩标准JPEG
JPEG算法主要存储颜色变化,尤其是亮度变化,因为人眼对亮度变化比对颜色变化更为
敏感。只要压缩后重建的图像与原来图像在亮度变化、颜色变化上相似,在人眼看来就是同样的图像。
原理:不重建原始画面,生成与原始画面类似的图像,丢掉那些未被注意到的颜色。
MPEG压缩标准
MPEG音频不是一种压缩算法,而是3种音频编码和压缩方案的一个系列。 MPEG 声音编码分为:层-l、层-2、层-3,分别对应MP1、MP2和MP3这三种声音文件。随着层数的增加,算法的复杂度也增大。
MP3压缩率高达10:1~12:1
- MPEG-1标准
包括:视频、音频和系统三部分。通用标准,既考虑了应用要求,又独立于具体应用之上。
有损的,非平衡编码
– 有损意味着为达到低比特率,一些图像和伴音信息将丢失。通常这些是人眼和人耳最不敏感的信息,因此即使以1x CD-ROM速率压缩也能达到VHS图像质量和高保真立体声的效果
– 非平衡编码意味着压缩一幅图像比解压缩慢的多
应用于VCD,MP3音乐领域,数字电话网络上的视频传输,如非对称数字用户线路(ADSL),视频点播(VOD)等。
- MPEG-2标准
视音频资料的保存;电视节目的非线性编辑;卫星传输;电视节目的播出;
- MPEG-4标准
MPEG-4除了压缩,还关注用户交互,使用户利用互联网、无线移动网创建和交流他们的多媒体应用。
因特网视音频广播,无线通信,电视电话,静止图像压缩,计算机图形、动画与仿真,电子游戏