北航研究生课程遥感图像与视频处理技术期末知识点总结

1.遥感平台

  • 遥感平台是装载传感器的运载工具,按高度分为:
    • 地面平台:为航空和航天遥感作校准和辅助工作
    • 航空平台:80 km以下的平台,包括飞机和气球
    • 航天平台:80 km以上的平台,包括高空探测火箭、人造地球卫星、宇宙飞船、航天飞机。
  • 人造地球卫星是最重要的遥感平台,其类型有:
    • 低高度、短寿命卫星:150~350 km,用于军事
    • 中高度、长寿命卫星:350~1800 km,地球资源
    • 高高度、长寿命卫星:约3600 km,通信气象

2.电磁辐射

可见光

波长范围0.38 μm~0.76 μm,由红、橙、黄、绿、青、蓝、紫色光组成,是摄影方式常用的遥感波段

微波

波长1mm~1m的无线电波

微波和红外两者的特征相似,都属于热辐射性质。微波能穿透云雾小雨,是全天候遥感,昼夜均可进行。微波对植被、冰雪、干沙、干土均有较强的穿透力,常被用来探测被冰雪、植被、沙土所遮掩的地物

遥感常用的电磁波

  • 紫外线
  • 可见光
  • 红外线
  • 微波

3.电磁辐射—大气对电磁波传播的影响

  • 大气传输特性:大气对电磁波的吸收散射透射特性,与波长和大气的成分有关

  • 大气散射:太阳辐射在传播过程中遇到小微粒而改变传播方向,向各方向散开

  • 瑞利散射:微粒的直径比辐射波长小得多时产生的散射,散射率与波长的四次方成反比(蓝紫光散射大,应用少)

  • 大气窗口:电磁波通过大气层未被反射、吸收和散射的那些透射率高的波段范围

  • 电磁波进入地球须通过大气层,约30%被大气反射,17%被吸收,22%被散射,**31%**到达地面

4.遥感图像

空间分辨率:

当分辨率为1km时,一个像元代表地面1kmX1km的面积,即1km2;
当分辨率为30m时,一个像元代表地面30m×30m的面积,即30m2;

载荷:可见光、多光谱、高光谱、SAR等

随着光谱分辨率的不断提高,光学遥感的发展过程可分为:全色(Panchromatic)→彩色(Color Photography)→多光谱(Multispectral)→高光谱(hyspectral)

  • 全色波段:单波段灰度图片。空间分辨率高,但无法显示地物色彩。空间+辐射
  • 多光谱:将地物辐射电磁波分割成若干个较窄的光谱段,以摄影或扫描的方式在同一时间获得同一目标不同波段信息。空间+辐射+光谱
  • 高光谱:在对目标的空间特征成像的同时,对每个空间像元经过色散形成几十乃至几百个窄波段以进行连续的光谱覆盖。空间+辐射+光谱

多光谱和高光谱比较:光谱分辨率在λ/10数量级范围的称为多光谱,光谱分辨率在λ/100的遥感信息称之为高光谱遥感。
高光谱和多光谱实质差别:高光谱的波段较多,谱带较窄;多光谱相对波段较少。高光谱遥感比多光谱遥感的光谱分辨率更高,但光谱分辨率高的同时空间分辨率会降低。
高光谱能够更好地分辨出肉眼甚至普通的光学遥感不能识别的地物,包括内在的物理、化学特性,甚至是物质的分子和原子结构。
在数百公里高度运行的高光谱卫星不仅能观测到地面覆盖的是不是植被,还能探知这些植被的具体种类和长势如何

5.融合的层次

  • 像元级:线性加权法、IHS变换、PCA变换、高通滤波法、小波变换融合算法等。
  • 特征级:Dempster-shafer推理法;聚类分析法;贝叶斯估计法;熵法;带权平均法;表决法及神经网络法等。
  • 决策级:贝叶斯估计法;专家系统;神经网络法;模糊集理论;可靠性理论以及逻辑模板法等。

6.融合方法分类

  • 加性变换
    • 分量替换法(矩阵变换法)
      • 基于IHS变换的融合方法
      • 基于PCA变换的融合方法
      • 基于GS变换的融合方法
    • 频域分解法
      • 基于高通滤波的融合方法
      • 基于小波(Wavelet)变换的融合方法
      • 基于轮廓波(Contourlet)变换的融合方法
  • 乘性变换
    • Brovey变换融合方法(比值变换)
    • SVR(Synthetic Variable Ratio)变换融合方法
    • SFIM变换融合方法(亮度平滑滤波变换Smoothing Filter-based Intensity Modulation)

分量替换融合法

正向变换:将多光谱图像像素值转换至另一个特征空间

  • IHS变换→IHS色彩空间
  • PCA变换→成分分析空间
  • GS变换→正交向量空间

逆向变换:利用全色图像替换第一特征分量,并由特征空间反向变换至像素值空间,得到融合图像

IHS

IHS彩色坐标系统是根据视觉原理定义了3个互不相关的颜色属性:亮度(I)、色调(H)和饱和度(S)

I、H、S3个分量具有相对独立性,可分别进行处理,能够定量地描述颜色特征。因此,IHS系统在定量计算方面具有优势。

IHS变换融合

将低分辨率图像(多光谱)经IHS变换后的强度分量I,用高分辨率图像(全色)来替代

存在的问题

融合后影像颜色值取决于全色影像与IHS变换后的I影像之差

7.特征空间的距离

特征空间距离的本质:特征之间的相似性度量,是图像分类的定量依据。

距离有不同的度量方式:

  • 欧式距离
  • 街区距离
  • 海明距离
  • 相关系数
  • 余弦距离
  • 直方图交
  • 二次式距离
  • 马式距离

8.视频稳定

运动估计:

通过图像匹配的方法获取视频相邻帧间的运动参数,然后以固定帧为基准,将多帧运动参数进行关联进而获取全局运动轨迹。

全局运动轨迹代表摄像机的真实运动轨迹,既包含由人为意识控制产生低频、平滑的主动运动,又包括由非人为意识的外部干扰产生的高频抖动

  • 主动运动:平滑(低频)
  • 抖动运动:剧烈(高频)

运动校正:

通过低通滤波或者路径优化的方法从全局运动中去除抖动分量,获得一条平滑的主动运动轨迹,其中每帧图像在主动运动轨迹中的位置称作平衡位置。

9.图像配准

图像拼接技术主要包括:特征提取图像配准图像融合

其中图像配准是整个图像拼接技术的核心部分,直接决定了图像拼接结果的质量。图像配准算法主要分为3类:

  • 基于灰度图像的匹配
  • 基于变换域的匹配
  • 基于特征的匹配

图像配准:精度、速度

10.滤波示例——噪声去除

噪声是随机量,可以从统计数学的观点来定义噪声。凡是统计特性不随时间变化的噪声称为平稳噪声,而统计特性随时间变化的噪声称作非平稳噪声

以上各种类型的噪声反映在图像画面上,大致可以分为两种典型的图像噪声:

  • 椒盐噪声:噪声的幅值基本相同,但是噪声出现的位置是随机的。
  • 随机噪声:每一点都存在噪声,但噪声的幅值是随机的。

随机噪声根据其幅值的概率密度函数,还可分成:高斯噪声、瑞利噪声

  • 椒盐噪声的特征:
    出现位置是随机的,但噪声的幅值是基本相同的。
  • 高斯噪声的特征:
    出现在位置是一定的(每一点上),但噪声的幅值是随机的。

最常见的9种滤波方式:

  1. 均值滤波器
  2. 中值滤波器
  3. 高斯滤波
  4. KNN滤波
  5. 高通滤波
  6. 低通滤波(3*3)
  7. 最大均值性平滑滤波
  8. 梯度倒数加权滤波及低通滤波(5*5、7*7、9*9、11*11)
  9. Kalman滤波

11.图像灰度直方图

12.条带噪声去除

卫星成像系统中的噪声成分主要有以下几种:

  • 光电散粒噪声
    光电转换时,和物体成像相关的噪声,符合泊松分布
  • 读出噪声
    成像系统本身或者外界环境产生的噪声,分别加性噪声以及乘性噪声
  • 条带噪声
    探元间光电响应差异或者探元成像性能发生突变产生的噪声,分为系统条带噪声以及随机条带噪声

随机条带噪声去除方法

通过对实际卫星影像的统计发现,随机条带噪声主要有四个特点:

  • 噪声出现的空间位置是随机的;
  • 噪声与周围地物之间高度非线性相关;
  • 噪声的灰度跃变较小,一般在3~5个DN值左右
  • 噪声的存在影响地物的判读

13.无人机遥感优势

与传统拍摄技术设备相比的优势:

  • 轻型小型化,快捷方便
  • 时效性强
  • 机动性强
  • 受环境影响小
  • 满足大比例尺要求
  • 成本低廉
  • 条件需求低
  • 低噪节能

特别适合获取带状地区航拍影像(公路、铁路、河流、水库、海岸线等)

14.直方图均衡化(可能考计算)

直方图均衡是根据图像亮度值的出现频率来分配它们的亮度显示范围,使一定灰度范围内的像元的数量大致相等,得到一幅灰度直方图为均匀分布的新图像

其实质是对图像进行非线性变换,重新分配图像像元值,使一定灰度范围内的像元的数量大致相等

直方图均衡化变换函数

设一幅图像总像元数为n,亮度级为L,nk表示第k亮度级rk出现的频数,则第k亮度级出现的概率为:

p r ( r k ) = n k n ( k = 0 , 1 , … , L − 1 ) p_{r}\left(r_{k}\right)=\frac{n_{k}}{n}(k=0,1, \ldots, L-1) pr(rk)=nnk(k=0,1,,L1)

则变换函数可表示为:

S k = ( L − 1 ) ∑ j = 0 k p r ( r j ) = ( L − 1 ) ∑ j = 0 k n j n ( k = 0 , 1 , … , L − 1 ) S_{k}=(L-1) \sum_{j=0}^{k} p_{r}\left(r_{j}\right)=(L-1) \sum_{j=0}^{k} \frac{n_{j}}{n}(k=0,1, \ldots, L-1) Sk=(L1)j=0kpr(rj)=(L1)j=0knnj(k=0,1,,L1)

直方图均衡化使得原图像直方图上亮度值分布密集的部分被拉伸,较稀疏的部分被压缩,从而使图像的对比度得到增强

累积直方图

累积直方图:纵坐标是小于或等于特定灰度级像元在图像中的百分数

直方图均衡化计算步骤

  1. 统计累计频率P
  2. 计算变换函数 S k = ( L − 1 ) × P \mathbf{S}_{\mathbf{k}}=(\mathbf{L}-\mathbf{1}) \times \mathbf{P} Sk=(L1)×P

其中L是亮度级,P是上一步计算的累计频率
3. 变换函数四舍五入得到新亮度值

图像压缩技术

图像压缩:

不丢失或较少丢失(有用)信息的前提下,以较少的比特(有损或无损地)表示或重新组织原始图像信息,实现缩减图像数据量,以减少存储空间,提高其传输、存储和处理效率

数据冗余

主要的数据冗余:

  • 编码(表示)冗余
  • 像素(空间)冗余
  • 心理视觉冗余

编码/表示冗余

如果一个图像的灰度级编码,使用了多于实际需要的编码符号,就称该图像包含了编码冗余

像素/空间冗余

对于一个图像,很多单个像素对视觉的贡献是冗余的,这是建立在对邻居值预测的基础上

图像中存在许多灰度级均匀一致的连续区域,通过行程长度编码和预测编码

视觉冗余

视觉感知时对信息的接受是有选择的

有些信息相对不重要——视觉冗余信息

亮度 vs.色度
人类视觉系统对色度信号的敏感程度低于亮度信号
高频 vs.低频
人类视觉系统对高频信号的敏感程度低于低频信号

去除这些信息不会明显降低对图像质量的感受

图像压缩的技术指标

  • 压缩比:

压缩前后所需的信息存储量之比,越大越好

  • 相对数据冗余
  • 失真度:

图像压缩前后存在的误差(失真)大小度量

  • 平均码字长度

L a v g = ∑ β k P k ( b i t ) {{L}_{avg}}=\sum{{{\beta }_{k}}{{P}_{k}}(bit)} Lavg=βkPk(bit)
β是编码长度,p是出现概率

  • 编码效率

信息论基础

信息量:
I(x)=-lo g 2 p(x)  \text{I(x)=-lo}{{\text{g}}_{2}}\text{p(x) } I(x)=-log2p(x) 

信息熵:
H ( x ) = ∑ p ( x ) I ( x ) H(x)=\sum{p(x)I(x)} H(x)=p(x)I(x)

  • 熵是无失真编码下界

  • 最大离散熵定理:
    如果信源中各符号的出现概率相等,信源熵值达到最大

  • 对非等概率分布的信源,采用不等长编码其平均码长小于等长编码的平均码长

  • 香农信息论已证明,信源熵是进行无失真编码的理论极限。

  • 可以证明,考虑像素间的相关性,使用高阶熵一定可以获得更高的压缩比

保真度标准

客观保真度标准

客观、便于计算或测量

信息丢失的级别,可以表示为原始(或输入)图像与压缩后又解压缩输出的图像的函数

  • 均方误差
  • 峰值信号噪声比

P S N R = 10 log ⁡ 10 ( Peak Signal Value ) 2 M S E ( d B ) P S N R=10 \log _{10} \frac{(\text {Peak Signal Value})^{2}}{M S E}(\mathrm{dB}) PSNR=10log10MSE(Peak Signal Value)2(dB)

主观保真度标准

通过视觉比较两个图像,给出一个定性的评价,如失真严重、失真较大,稍有失真无可察觉失真、完全无失真,这种评价被称为主观保真度标准。

因人而异,受主观影响较大、应用不方便

图像压缩模型

  • 信源编码:完成图像原数据压缩,去除冗余
  • 信道编码:为了抗干扰,增加一些容错、校验位,实际上是增加冗余
  • 信 道:如Internet、广播、通讯、可移动介质

信源编码与解码模型

  • 映射器:减少像素冗余,如使用RLE编码,或进行图像变换(空域-频率)
  • 量化器:减少视觉心理冗余,仅用于有损压缩
  • 符号编码器:减少编码冗余,如使用哈夫曼编码

图像压缩技术分类

无损压缩

  • 重构图像与原图像完全一样
  • 对原始信号的准确程度要求高的场合
  • 压缩倍率低,平均压缩2-8倍左右

有损压缩

  • 解码后重新构造的图像与原始图像存在不同
  • 利用心理冗余和空间冗余
  • 容易取得较好的压缩比,10、100倍!

图像无损压缩

基于字典的压缩

行程编码(RLE)

优势

  • 直观、简单,编解码复杂度低
  • 对有大面积色块的图像,压缩效果好
  • 易于检索、叠加合并等操作

劣势

  • 对于纹理复杂的图像,压缩效果不好,最坏情况下,会加倍图像数据
  • 在传输过程中,如果一位符号发生错误,即可影响整个序列,使行程编码无法还原回原始数据

LZW编码

基本思想:

  • 去除像素冗余
  • 一种无损压缩,称为字串表编码
  • 与RLE类似,通过对字符串进行编码实现压缩
  • 不同点:编码同时动态生成了特定字符串以及与之对应的一个索引字符串表(字典库)

编码原理:

  • 基于字典库查找
  • 读入待压缩的数据,并与字典库(初始为空)中的字符串对比
  • 如果字典中没有该字符串,就把该字符串存到字典中,并用字典的地址(位置索引)作为这个字符串的编码
  • 如果字典中有匹配的字符串,就用字典中的位置索引代替字符串

特点:

  • 能有效利用字符出现频率冗余度进行压缩,且字典是自适应生成的
  • 对于数据流中连续重复出现的字节和字串,具有很高的压缩比,平均压缩比在2:1以上,最高压缩比可达到3:1
  • 算法简单,压缩和解压缩速度较快
  • 除用于图像压缩外,还被用于文本程序等压缩

应用:

  • GIF、TIFF等都使用LZW压缩法

统计编码

统计编码:

  • 根据信息出现概率分布特性进行的压缩编码

变长最佳编码定理:

  • 在变长码中,对出现概率大的信息符号赋予短码字,而对于出现概率小的信息符号赋予长码字。如果码字长度严格按照所对应符号出现概率大小顺序排列,则编码结果平均码字长度一定小于任何其它排列方式
  • 变长编码是统计编码中最为主要的一种方法

霍夫曼编码

基本思想:

  • 霍夫曼编码是根据最佳编码定理,应用霍夫曼算法而产生的一种编码方法
  • 统计符号的出现概率,建立一个概率统计表,将最常出现(概率大的)的符号用最短的编码,最少出现的符号用最长的编码
  • 通过减少编码冗余来达到压缩的目的
  • 是一种最优二元前缀码

静态编码:

  • 在压缩之前就建立好一个概率统计表和编码树
  • 算法速度快,但压缩效果不是最好

动态编码:

  • 对每一个图像,临时建立概率统计表和编码树
  • 算法速度慢,但压缩效果最好

优点:

  • 基础是统计源数据集中各信号的概率分布
  • 在无失真编码方法中效率优于其他方法,是一种最佳变长码,其平均码长接近于熵值,且在符号概率等于2的负整数次幂时能产生最佳编码(平均码长等于信息熵)

缺点:

  • 信源数据成分复杂时,庞大信源集致使码表较大,码表生成计算量增加,编译码速度变慢
  • 不等长编码致使硬件译码电路实现困难,致使Huffman编码的实际应用受到限制

算术编码(可能计算)

算术编码:

  • 根据信源可能发现的不同符号序列的概率,把[0,1]区间划分为互不重叠的子区间,子区间的宽度恰好是各符号序列的概率
  • 这样信源发出的不同符号序列将与各子区间一一对应,因此每个子区间内的任意一个实数都可以用来表示对应的符号序列,这个数就是该符号序列所对应的码字
  • 将整个信源映射为实数[0,1)区间上的一个小区间,根据每个符号出现的概率及其算术运算,对子区间的下界和长度进行递归的分割
  • 信源序列中符号越多,所得到的子区间就越小,就需要更多位数来表示该区间
  • 在该区间内选择一个代表性的小数,转换为二进制作为实际的编码输出
  • 不需采用整数个数的码字,即并不是将单个信源符号映射成一个码字,因此是一种趋近于熵的最佳编码方法

无损预测编码

像素冗余:

  • 反映静止图像中像素间的空间相关(结构、几何关系等)和连续图像中相邻帧间的时间相关
  • 如果图像中像素之间存在空间相关,则任何给定像素的值可以根据与这个像素相邻的像素进行预测,所以单个像素携带的信息相对较少
  • 对于一幅图像,很多单个像素对视觉贡献是冗余的,其值可通过相邻像素值为基础进行预测

编码思想:

  • 认为相邻像素的信息有冗余,当前像素值可以用以前的像素值来预测,从而去除像素冗余
  • 对当前像素值fn,通过预测器得到一个预测值fn’,对当前值和预测值求差,对差编码,作为压缩数据流中的下一个元素。由于差比原数据要小,因而编码要小,可用变长编码

视频压缩技术

视频压缩的必要性与可能性

视频中存在大量信息冗余:

  • 心理视觉冗余
    人类视觉系统(HVS)的分辨率有限
    人类视觉系统对色度信号的敏感程度低于亮度信号
  • 空域冗余
    自然图像的大部分区域是平坦均匀的
    相邻像素之间存在着极强的空间相关性
  • 时域冗余
    视频相邻帧运动变化很小,大量统计发现,其相关系数达80%,也就是说相邻的二幅画面80%左右是一样或近似的
  • 统计冗余
    由于待编码的符号(symbol)的机率分布不均匀(non-uniform)而导致的统计上的信息冗余

    例如:
    字母“e”在英语中比字母“z”更加常用
    字母“q”后面是“z”的可能性非常小
    根据信息理论:“the lower the probability, the higher the entropy.”
    因此,可采用“the higher the entropy, the less bits to express” 来消除这种冗余

视频压缩关键技术

帧内预测编码

色度采样: 去除视觉冗余
帧内预测: 去除空域冗余
帧间预测: 去除时域冗余
变换编码: 去除空域冗余
量化: 去除视觉冗余
熵编码: 去除统计冗余

帧间预测

通过相邻帧内的信号预测当前帧信号,只需保存或传输残差值即可

帧结构

  • I帧:帧内编码帧
  • P帧:前向预测编码帧
  • B帧:双向预测内插编码帧

引入B帧图像:

  • 优点:可更好的预测和压缩、解决对象的遮挡现象、平滑噪声;
  • 缺点:编码器延时增加(不适合实时应用)、复杂性增高、需要更多的缓冲存储单元

去除时域冗余

运动估计:

  • 寻找当前编码块在已编码图像(参考帧)中的最佳对应块,并计算出对应块的位置(即运动矢量)
  • 参数模型:6参数仿射模型
  • 非参数模型:块匹配法

运动补偿:

根据运动矢量和帧间预测方法,求得当前帧的预测值的过程

运动搜索的块大小:

  • 太大:残差大,预测效果差
  • 太小:残差小,但运动矢量多
  • H.264:16*16、8*8、4*4

HEVC:基于递归四叉树的CTU/CU/PU/TU划分

多层四叉树递归,复杂度大幅提升

运动搜索范围:

  • 太大:保证全局最优,但计算量太大
  • 太小:无法找到最佳匹配,预测残差大
  • 折中:16或32

块匹配标准:

  • 差值平方和(Sum of Squared Difference, SSD/SSE)

  • 均方误差(Mean Square Difference, MSD/MSE)

    高精度、高复杂度

  • 绝对误差和(Sum of Absolute Difference, SAD/SAE)

  • 平均绝对差(Mean absolute difference, MAD)

  • SATD(Sum of Absolute Transformed Difference)

    SAD最简单(只需加减法+绝对值),最常用

快速块匹配算法

典型搜索算法:

  • 二维对数搜索法
  • 三步搜索法
  • 菱形搜索法

量化——去除视觉冗余

VBR:可变比特率

  • 开环处理,输入为视频源和一个固定QP值
  • 大动态、高速运动的物体等场景:码率很高
  • 静态的、相对静止缺乏变化的场景:码率很低
  • 问题:比特率不稳定

CBR:恒定比特率

  • 闭环处理,输入为视频源和目标码率
  • 根据对源复杂度估计、解码缓冲的大小及网络带宽估计动态调整QP,得到符合要求的码率
  • 问题:质量不稳定

码率控制: 码率平稳 & 质量平稳

熵编码——去除信息熵冗余

针对数据信息量而言,熵为下限

例:哈夫曼编码(Huffman Coding):对出现概率高的符号分配短的码字,得到符号平均码长最短的码

主要视频压缩技术及其贡献

色彩空间转换->帧内/帧间预测->变换编码与量化->熵编码

客观评价标准

  • 均方误差(Mean Square Error, MSE)
  • 峰值信噪比(PSNR)

标准

H.264/AVC

你可能感兴趣的:(笔记)