内容重点:
问:都说了用计算机处理离散化的图像,为什么还讨论视觉?
答:数字图像处理的基础:数学和概率统计表示方法;但人的主观视觉判断(直觉和分析)可能对数字图像处理技术的选择起核心作用。
1、晶状体-----透镜
构成:60%~70%的水,6%的脂肪和比眼睛中任何其他组织都多的蛋白质
问:为什么人眼敏感区域是可见光
答:晶状体吸收大约8%的可见光谱,对短波长光有较高的吸收率,在晶状体结构中,蛋白质吸收红外光和紫外光,并且过量会伤害眼睛。
2、视网膜-----成像屏
不完全等同于成像屏
两类光接收器:锥状体、杆状体
4、盲点:位置看不见东西因为没有光感应器
眼睛的晶状体和普通光学透镜之间的主要差别在于人眼的适应性强。
晶状体的形状由睫状体韧带和张力来控制,
当晶状体的折射能力由最小变到最大时,晶状体的聚焦中心与视网膜间的距离由17mm缩小到14mm
光接收器的相应刺激作用产生感觉,感觉把辐射能转变为电脉冲,最后由大脑解码颠倒成像。
1.人的视觉系统能适应的光强度级别范围宽,但同时鉴别的光强度级的总范围很小。主观亮度(即由人的视觉系统感觉到的亮度)是进入人眼睛的光强度的对数函数。
2.人的视觉绝对不能同时在一个范围内工作,确切地说,它是利用改变其整个灵敏度来完成这一大变动的,这就是所谓的亮度适应现象。与整个适应范围相比,能同时鉴别的光强度级的总范围很小。
3.对于任何一组给定条件,视觉系统当前的灵敏度级别叫做亮度适应级,比如:所有的刺激都是作为不可分辨的黑色来理解。
4、在任何特定的适应级,考虑人眼辨别光强度之间变化的能力的实验表明:
5、两个现象照明感觉亮度不是简单的强度函数而是对数函数
(中心亮度一样,但是周围环境不同,所以我们感觉中心颜色不一样)
6.视觉错觉
在错觉中,眼睛充上了不存在的信息或者错误地感知物体的几何特点视觉错觉一特性尚未完全了解。
(明明是由一个一个圆形构成的图像,我们看起来却感觉是一个螺旋,扭在一起的东西)
(中心黄色圆圈一样大,但是我们看起来好像是右边的大)
6、电磁波谱可用波长、频率或能量来描述
E = hv
能量与频率成正比,因此,高频率(短波长)电磁波每光子携带更多的能量
能量:波长越短能量越高,对活体组织危害越大
可见光波段:越0.39~0.78(红色)、
每个波段不是突然终止,而是每一个波段混合平滑地过渡到下一个
人从一个物体感受到的颜色由物体反射光的性质决定的。某颜色物体发射该波段的波长的能量,而吸收其他波长的大部分能量。
7、三个基本量用于描述彩色光源:
8、在原理上如果可以开发出一种传感器,它克检测由一种电磁波谱发射的能量,就可以在那一波段上对感兴趣的事件成像。
“观看”一个物体的电磁波的波长必须小于或等于物体的尺寸。例如:水分子的直径是10的负10次方米,这样,要研究分子,我们需要一个能在远红外或软x射线范围发射的光源,而不能选择无线电波。
这个限制与传感材料的物理特性一起确立了成像传感器功能的基本限制。
图像由“照射”源和形成图像的“场景”元素对光能的反射或吸收相结合而产生的。
注意:
1、并不是所有的图像都需要“照射”,如计算机绘制的几何图形
2、遗漏了场景自身辐射电磁波的情况,例如:红外夜视,有的THz测量
把照射量变为数字图像的三种主要传感器装置:
原理 :将输入电功率和特殊类型检测能源敏感的传感器材料组合,把输入能源转变为电压。输出电压波形是传感器的响应,然后,数字化每个传感器的响应得到一个数字量。
(需要控制协调)
图像f(x,y)(二维函数形式),f 的值或幅度是一个非负的标量 f 正比于物体的辐射能量,非零和有限的,0 <= f (x,y) <= 无穷
2、f 可由两个分量来表征:
1. 入射观察场景的**总能量** i(x,y),取决于照射源
2. 场景中物体**反射系数**r(x,y),取决于成像物体的特性
即:f(x,y)= i(x,y)*r(x,y)
3、灰度级
灰度级 L=f(x,y)也是有限的,即 Lmin <= L <= Lmax
理论上,Lmin非负数,Lmax有限大的正数
实际上,Lmin = i (min)* r (min);L max = i (max)* i (max)
区间 Lmin,Lmax通常取为[0,L-1],其中 L = 0 为黑色, L =Lmax -1 为白色,其余是各种灰色调
2、取样方法实际上,由用于产生图像的传感器装置决定的:
1. 由单一**感知单元**结合机械运动产生时,传感器的输出用前边讨论的方式量化。然而,通过选择机械增量的数值来完成采样,原理上可以达到很高的采样精细程度。
2. 当用**感知带**获取图像时,带中传感器的数目由在一个方向上的采样限制决定。在另一个方向上的机械运动可控制得更精确一些,但是,试图在一个方向上达到某个取样密度(该密度超过了在另一个方向上由传感器数目决定的取样限制)没有意义
3. 当**感知阵**用于图像获取时,没有运动且阵列中传感器的数量决定在两个方向上的取样限制。
注意:数字图像的质量很大程度上取决于取样和量化中所运用的取样数和灰度
1、 图像的表示
一幅图像f (x,y)被取样,产生的数字图像有M行和N列,表达式的右侧定义了一幅数字图像,矩阵中的没个元素称为图像单元、图像元素或像素。
注意:
2、传统矩阵可以表示为
3、数字化过程对于M、N值和每个像素允许的离散灰度级 L的规定
M和 N为正整数
灰度级典型的取值是2的整数次幂 (是因为出于处理、存储和取样硬件的考虑)L = 2^k
这里,假设离散灰度级是等间隔的,在区间 [0,L-1] 内的整数
4、灰度级取值范围成为图像的动态范围:
数字b是存储数字图像需要的比特数,
有 b = M * N * k,当M=N时,上式变为:b = N^2 * k
当一幅图像有 2^k 灰度级时,实际上通常称为该图像是k比特图像
1、 概念
取样值决定一幅图像空间分辨率的主要参数,空间分辨率是图像中可以分辨的最小细节。
广泛使用的分辨率:每单位距离上可分辨的最小线对数目,例如,每毫米100线对(lp/mm)
灰度级分辨率:是指在灰度级别中可分辨的最小变化。
灰度级数通常是2的整数次幂。大多数情况8比特,某些应用场合可能用16比特图像软件常用BPP表示。
2、 通常把大小为M x N,灰度为L级的数字图像称为:空间分辨率为M x N像素、灰度级分辨率为L的数字图像。
3、灰度级不足引起伪轮廓,之所以这样叫是因为山脊地图中的地形等值线
结论:N和k越大,图像的质量就越好。
放大可看做采样,收缩可看做欠采样
这两种操作与取样和量化一幅原始连续图像之间的关键区别是放大和收缩适用于数字图像。
1、放大
放大的两步操作:创立新的像素位置和对这些新位置赋灰度值。
灰度赋值法:
双线性插值显示效果优于最近领域内插。
更多领点的内插会产生平滑的结果,但是对于计算负担大,因此双线性内插通常是首选。
2、收缩
图像收缩可以与放大相类似的方法操作
为了减小可能的混淆效应,可以在收缩之前稍微模糊一下图像。
给定像素p和q,进行讨论
给定p(x,y)有4个水平和垂直的相邻像素、其坐标轴下由下式给出:
(x+1,y),(x-1,y),(x,y+1),(x,y-1)
这个像素集称为p的4领域,用 N4(p)表示。
每个像素距 p 一个单位距离,如果p位于图像的边界,则 p 的某一领像素位于数字图像的外部。
p的4个对角邻像素有如下坐标:并用ND(p)表示
ND(p)的点与4个领域点一起,叫做p的8领域,用N8(p)表示。
与前边一样,如果(x,y)位于图像的边界,则ND和N8中的某些点落入图像的外边。
连接比邻接要求高,同时需要考虑空间和灰度关系。
与点(x,y)的D4距离小于或等于某一值r的像素形成一个中心在(x,y)的菱形。
1、令H是一种算子,其输入和输出都是图像,如果对于任何两幅图像 f 和 g 及任何两个标量 a 和 b 有如下关系为线性算子/运算/操作。
满足:H(af + bg)= aH(f) + bH(g)
同时具有两个方面的性质:
2、非线性算子
不能通过式:H(af + bg)= aH(f) + bH(g)变换检验的算子就定义为非线性算子。
总结:对x幅图像求和的算子是一个线性算子,计算两幅图像差分绝对值的算子就不是线性算子。
线性算子在图像处理中特别重要,是充分了解理论和实践结果的主要基础。虽然非线性算子也会提供较好的性能,但是它们不是总可以预测的,大部分不能在理论上很好地理解。