目前状态:音视频领域知识零基础
已经掌握理论或技能:
1. 数学:高等数学、概率论与数理统计、线性代数
2. 计算机:计算机操作系统原理、计算机网络、C/C++语言
3. 信号处理:数字信号处理、信号与系统
4. 嵌入式:单片机原理与应用、Linux基础知识
本文主要参考资料:
1. 《一代高效视频编码H.265/HEVC:原理、标准与实现》,简称《原理》
2. 《H.265/HEVC视频编码:新标准及其扩展》,简称《扩展》
3. 《数字图像处理》冈萨雷斯版
4. 《电视原理》姜秀华
备注:在阅读或研究H.265的标准文档或是解析文件的时候,要理解“基本语法表示”,参考如下:
《扩展》10.1.2基本语法表示:术语、描述、元素、元素的描述符
掌握知识目标
本次学习,总体上为音视频基础知识:
1. 视频、图像、音频的格式
2. 信息论以及压缩编码入门
3. 音视频质量评价方法
4. 补充知识
1.视频、图像、音频的格式
主要理解各个“层面”的数据格式,及其使用场合。
1.1流媒体:本暂时不提及,留作其他博文编写。
1.2视频文件:
1. 首先理解MP4、FLV两个封装格式,MP4显然是我们日常生活中遇见的视频文件格式类型。
2. 理解H.264、MPEG-2两个编码格式。
1.3图像数据:
一般来说,有L分量、C分量(亮度分量、色度分量),这意味着,一幅完整的图像,将分为几部分来存放。
视频图像格式的理解思路:
无论什么情况,请维基百科,才能接下来:
1.首先,不是马上去看yuv格式,而是看它到底是怎么存储的,因为最终编写代码获取图像,解决一个疑问:图像跨距的基本概念
2.接着,知道图像跨距的概念,它将会出现在哪里?yuv图像的stried和plane,理解一幅图像有效的部分
值得一提的是:上面2还提供了一个转换的例子,帮助理解其原理及其应用场景
3.讨论yuv的格式:yuv格式浅析(Semi-Planar、Planar、Packet)。注意大小端问题
需要针对yuv420sp和yuv420p更详细(计算与图像格式表示,这样就可以理解如何从yuv420sp转换到yuv420p)
4.转换公式yuv与rgb的转换
5.补充yuv格式的两种(packet或planar)的详细表格,提供查阅
2.信息论以及压缩编码入门
视频编码早已有成熟的数学理论支持和工程技术实现,需要理解好理论才能理解开源库,进而修改代码,实现功能。
2.1信息论:
暂时想不到一个好的解析切入点,不想提及太多的信息论的原理(香农三定理等),还是想一针见血地指明:信息论在音视频开发过程中需要使用到的知识点。这样最好,该点以后补充。
经过一段时间的考虑,发现先有问题,再给出信息论定理,然后再讲述压缩编码具体做法,会更好。
提出疑问:
1. 为什么需要压缩,为什么可以压缩,压缩的标准是什么(或者说是压缩的极限是什么)
2. 如何实现压缩
3. 如何评价压缩的实际效果
其实还有一种解释方法:就是根据从实际的编码模型建立所使用到的编码理论来解释几个定理。
1. 在实际编码过程中,我们需要根据实际的网络情况(信道宽带和传输延时)来调整码率。那么,码率控制属于率失真优化范畴,是从率失真理论(香农第三定理)而来的。
2. 率失真理论是对无失真变长信源编码定理(香农第一定理)的补充,能够在能容忍的失真度下进一步减少码率。
2.2压缩编码入门:
备注:以下两部分内容,主要参考《电视原理》姜秀华编 的第8章学习。
JPEG图像压缩过程(变换、量化、编码),作为图像压缩的原始做法,其他压缩都有它的影子。同时,下面讲述的MPEG-2视频正是由一个一个的图像形成的。可见,先理解图像压缩(JPEG),再理解视频压缩(MPEG-2)是合理的。
MPEG-2视频压缩的混合编码模型,作为视频压缩的始祖,必须通解。以后的H.264、H.265都是这个模型的延伸和加强。
备注:下面是补充的一些知识
纹理特征
3.音视频评价方法
在评价之前,同时需要了解一下人眼视觉特性,为主观评价做基础。《电视原理》第一章
视敏特性:不同的波长(7种)的相对视敏函数曲线
光的度量:光能、光通量、发光强度(光源)、面发光度(光源)与照度(被照物体)、亮度(光源与被照物体)
亮度感觉和亮度视觉范围特性:
1. 人眼的感光作用具有适应性:给予人眼很高的亮度范围
2. 亮度视觉范围:在高亮度范围内,人能同时感觉到的上下限亮度
3. 可见度阈值:亮度级差是指在亮度L基础上增加一个最小亮度,人刚好能够感觉到,则这两个亮度差为可见度阈值
4. 视觉掩盖效应:在空间或时间上不均匀的背景中测量可见度阈值,可见度阈值就会增大,即人眼会丧失分辨一些亮度的能力。
5. 视亮度:可见度阈值随亮度变化,即说明人眼的视亮度(即亮度感觉)决定与相对亮度的变化。
1. 相同的亮度感觉,在不同的平均亮度(背景亮度)下是对应不同的亮度。
2. 无需重现景物的真实亮度,只需保证重现图像与实际景物在主观感觉上具有相同的对比度C和亮度级差(亮度层次)n,就能给人以真实的感觉。
3. 人眼不能察觉的亮度差别,比如过量或过暗的部分和变换非常快的细节部分,在重现图像上也无需精确复制出来。
对比度和亮度层次:
1. 景物或重现图像最大、最小亮度Lmax、Lmin的比值称之为对比度。
2. 画面最大亮度与最小亮度之间可分辨的亮度级差数称为亮度层次(灰度层次);
人眼能分辨的亮度层次n与画面对比度C的对数成正比,与对比度灵敏度阈值成反比。
视觉惰性和闪烁感觉:
视觉惰性:
1. 人眼视觉建立和消失过程的滞后效应,称为视觉惰性。
2. 建立时间非常短暂,短暂的光刺激比较长时间的光刺激要更加醒目,海上航标采用断续灯光。
3. 消失过程却有一个稍长的渐衰残留过程(视觉暂留、视觉残留,约0.05~0.2S),电视显示技术。视觉上始终保留有景物存在的印象,此时的重复频率称为融合频率。
闪烁感觉:
1. 即当脉冲光的重复频率不够高时,人眼会产生一明一暗的交替变化的感觉
2. 光源不引起闪烁感觉的最低频率称为临界闪烁频率
1. 脉冲光源亮度和背景亮度差值越大,临界闪烁频率越高;
2. 明亮时间的占空比越大,临界闪烁频率越低。
人眼的分辨力:
音视频质量必须要有一套完善的评价方法,作为验收与测试的依据。
1. 主观评价:
2. 客观评价:
4.补充知识
视频的“分离”与“合成”、“编码”与“解码”浅析,链接
1. 合成与分离的对象和作用?
2. 合并的对象和作用?其反作用:分割(切割、剪切)的对象和作用?
3. 滤镜的组成(此处滤镜并非指对图像效果处理的滤镜)