对原始信源的格式、存储形式及表示形式的详解

原始信源采集进来是怎样存储,怎样表示的?

一、视频(图像)

    视频数据,图像数据在存储中的存储格式主要有RGB和YUV。RGB是多媒体数据进行数据存储采用的主流格式;YUV格式所需存储空间一般是RGB格式存储空间的一半,所以YUV格式主要用于多媒体数据传输中。


1. RGB概述

    计算机彩色显示器显示色彩的原理与彩色电视机一样,都是采用R(Red)、G(Green)、B(Blue)相加混色的原理:通过发射出三种不同强度的电子束,使屏幕内侧覆盖的红、绿、蓝磷光材料发光而产生色彩。这种色彩的表示方法称为RGB色彩空间表示。

    根据三基色原理任意一种色光F都可以用不同分量的R、G、B三色相加混合而成。

     F = r [ R ] + g [ G ] + b [ B ]

    其中,r、g、b分别为三基色参与混合的系数。当三基色分量都为0(最弱)时混合为黑色光;而当三基色分量都为k(最强)时混合为白色光。调整r、g、b三个系数的值,可以混合出介于黑色光和白色光之间的各种各样的色光。


2. YUV概述

    在现代彩色电视系统中,通常采用三管彩色摄像机或彩色CCD摄像机进行摄像,然后把摄得的彩色图像信号经分色、分别放大校正后得到 RGB,再经过矩阵变换电路得到亮度信号Y和两个色差信号R-Y(即U)、B-Y(即V),最后发送端将亮度和色差三个信号分别进行编码,用同一信道发送出去。这种色彩的表示方法就是所谓的YUV色彩空间表示。

    采用YUV色彩空间的重要性是它的亮度信号Y和色度信号U、V是分离的。如果只有Y信号分量而没有U、V分量那么这样表示的图像就是黑白灰度图像。彩色电视采用YUV空间正是为了用亮度信号Y解决彩色电视机与黑白电视机的兼容问题使黑白电视机也能接收彩色电视信号。


3. YUV与RGB空间的相互转换

    由电视原理可知,亮度和色差信号的构成如下:

     Y=0.299R + 0.587G + 0.114B

     R-Y=0.701R – 0.587G – 0.114B

     B-Y=–0.299R – 0.587G + 0.886B

     U=0.493(B – Y)

     V=0.877(R – Y)

    由以上可得:

     R = Y + 1.4075 *V – 128

     G = Y – 0.3455 *(U – 128)–0.7169 *(V – 128)

     B = Y + 1.779 *(U – 128)


4. YUV采样格式

    亮度和色度元素被称为YUV(模拟信号)或YCbCr(数字信号)而不是RGB。主要的采样格式有YCbCr 4:2:0、YCbCr 4:2:2、YCbCr 4:1:1和 YCbCr 4:4:4。其中YCbCr 4:1:1 比较常用,其含义为:每个点保存一个 8bit 的亮度值(也就是Y值), 每 2 x 2 个点保存一个 Cr和Cb值, 图像在肉眼中的感觉不会起太大的变化。所以, 原来用 RGB(R,G,B 都是 8bit unsigned) 模型, 每个点需要 8x3=24 bits,而现在仅需要 8+(8/4)+(8/4)=12bits, 平均每个点占12bits。这样就把图像的数据压缩了一半。

    上边仅给出了理论上的示例,在实际数据存储中是有可能是不同的,下面给出几种具体的存储形式:

   (1) YUV 4:4:4

    YUV三个信道的抽样率相同,因此在生成的图像里,每个象素的三个分量信息完整(每个分量通常8比特),经过8比特量化之后,未经压缩的每个像素占用3个字节。

   (2) YUV 4:2:2

    每个色差信道的抽样率是亮度信道的一半,所以水平方向的色度抽样率只是4:4:4的一半。对非压缩的8比特量化的图像来说,每个由两个水平方向相邻的像素组成的宏像素需要占用4字节内存。

   (3) YUV 4:1:1

    4:1:1的色度抽样,是在水平方向上对色度进行4:1抽样。对于低端用户和消费类产品这仍然是可以接受的。对非压缩的8比特量化的视频来说,每个由4个水平方向相邻的像素组成的宏像素需要占用6字节内存。

   (4)YUV 4:2:0

  4:2:0并不意味着只有Y,Cb而没有Cr分量。它指得是对每行扫描线来说,只有一种色度分量以2:1的抽样率存储。相邻的扫描行存储不同的色度分量,也就是说,如果一行是4:2:0的话,下一行就是4:0:2,再下一行是4:2:0...以此类推。对每个色度分量来说,水平方向和竖直方向的抽样率都是2:1,所以可以说色度的抽样率是4:1。对非压缩的8比特量化的视频来说,每个由2x2个2行2列相邻的像素组成的宏像素需要占用6字节内存。

        原始4:4:4            对原始信源的格式、存储形式及表示形式的详解_第1张图片 

    色度取样4:2:2              对原始信源的格式、存储形式及表示形式的详解_第2张图片

    色度取样4:1:1           对原始信源的格式、存储形式及表示形式的详解_第3张图片


    色度取样4:2:0            对原始信源的格式、存储形式及表示形式的详解_第4张图片


5. 色度格式

   4:2:0格式是指色差信号U,V的取样频率为亮度信号取样频率的四分之一,在水平方向和垂直方向上的取样点数均为Y的一半。

 

二、音频(语音)


1.wav文件格式

1.1

   WAVE文件作为多媒体中使用的声波文件格式之一,它是以RIFF格式为标准的。

   RIFF是英文ResourceInterchange File Format的缩写,每个WAVE文件的头四个

   字节便是“RIFF”。

   WAVE文件是由若干个Chunk组成的。按照在文件中的出现位置包括:RIFF WAVE

Chunk, Format Chunk, Fact Chunk(可选), DataChunk。具体见下图:

 

------------------------------------------------

|             RIFF WAVE Chunk                  |

|             ID = 'RIFF'                     |

|             RiffType = 'WAVE'                |

------------------------------------------------

|             Format Chunk                     |

|             ID = 'fmt '                      |

------------------------------------------------

|             Fact Chunk(optional)             |

|             ID = 'fact'                      |

------------------------------------------------

|             Data Chunk                       |

|             ID = 'data'                      |

------------------------------------------------

              Wav格式包含Chunk示例

   以'FIFF'作为标示,然后紧跟着为size字段,该size是整个wav文件大小减去ID和Size所占用的字节数,FileLen- 8 = Size。然后是Type字段,为'WAVE',表示是wav文件。

   以'fmt '作为标示。一般情况下Size为16,此时最后附加信息没有;如果为18则最后多了2个字节的附加信息。主要由一些软件制成的wav格式中含有该2个字节的附加信息。

   Fact Chunk是可选字段,一般当wav文件由某些软件转化而成,则包含该Chunk。

   Data Chunk是真正保存wav数据的地方,以'data'作为该Chunk的标示。然后是数据的大小。紧接着就是wav数据。

   其中除了FactChunk外,其他三个Chunk是必须的。每个Chunk有各自的ID,位于Chunk最开始位置,作为标示,而且均为4个字节。并且紧跟在ID后面的是Chunk大小(去除ID和Size所占的字节数后剩下的其他字节数目),4个字节表示,低字节表示数值低位,高字节表示数值高位。下面具体介绍各个Chunk内容。

   PS:所有数值表示均为低字节表示低位,高字节表示高位。


1.2

   WAVE文件是非常简单的一种RIFF文件,它的格式类型为"WAVE"。RIFF块包含两个子块,这两个子块的ID分别是"fmt"和"data",其中"fmt"子块由结构PCMWAVEFORMAT所组成,其子块的大小就是sizeofof(PCMWAVEFORMAT),数据组成就是PCMWAVEFORMAT结构中的数据。

                                                 对原始信源的格式、存储形式及表示形式的详解_第5张图片

                    

    "data"子块包含WAVE文件的数字化波形声音数据,其存放格式依赖于"fmt"子块中wFormatTag成员指定的格式种类,在多声道WAVE文件中,样本是交替出现的。如16bit的单声道WAVE文件和双声道WAVE文件的数据采样格式分别如下图所示:

    16位单声道:

                                          对原始信源的格式、存储形式及表示形式的详解_第6张图片

                

    16位双声道:

                

                                          对原始信源的格式、存储形式及表示形式的详解_第7张图片

2.PCM编码

    其中,数字信号是对连续变化的模拟信号进行抽样、量化和编码产生的,称为PCM(Pulse-code modulation),即脉冲编码调制。PCM中的声音数据没有被压缩,如果是单声道的文件,采样数据按时间的先后顺序依次存入(它的基本组织单位是BYTE(8bit)或WORD(16bit)),如果是双声道的文件,采样数据按时间先后顺序交叉地存入。如下图所示:

                                    对原始信源的格式、存储形式及表示形式的详解_第8张图片

    PCM的每个样本值包含在一个整数i中,i的长度为容纳指定样本长度所需的最小字节数。首先存储低有效字节,表示样本幅度的位放在i的高有效位上,剩下的位置为0,这样8位和16位的PCM波形样本的数据格式如下所示。

    

                                     对原始信源的格式、存储形式及表示形式的详解_第9张图片



你可能感兴趣的:(对原始信源的格式、存储形式及表示形式的详解)