原文
总得来说,低频分量(低频信号)代表着图像中亮度或者灰度值变化缓慢的区域,也就是图像中大片平坦的区域,描述了图像的主要部分。高频分量(高频信号)对应着图像变化剧烈的部分,也就是图像的边缘(轮廓)或者噪声以及细节部分。
之所以说噪声也对应着高频分量,是因为图像噪声在大部分情况下都是高频的。
低频分量:主要对整幅图像强度的综合度量。高频分量:主要是对图像边缘和轮廓的度量。而人眼对高频分量比较敏感。
我们试着用傅立叶变换站在另外一个角度观察图像,将图像从灰度分布转化到频率分布(频谱图)上去观察图像的特征。需要了解的是,图像进行二维傅立叶变换之后得到的频谱图,就是图像梯度的分布图。具体的,傅立叶频谱图上我们能看到明暗不一的亮点,实际是图像上某一点与邻域点差异的强弱,即梯度的大小。
所以说,如果一幅图像的各个位置的强度大小相等,则图像只存在低频分量。从图像的频谱图上看,只有一个主峰,且位于频率为零的位置.。需要提一句的是,图像的频谱图可以由傅里叶变换得到。
如果一幅图像的各个位置的强度变化剧烈,则图像不仅存在低频分量,同时也存在多种高频分量。从图像的频谱上看,不仅有一个主峰,同时也存在多个旁峰。可以这样理解:图像中的低频分量就是图像中梯度较小的部分,高频分量则相反。
从直方图上看,低频分量对应直方图内大块区域,而小块或者离散的区域就是高频分量。这说明低频分量占据了图像的主要部分。
从二维函数上理解,变化剧烈的地方就是高频分量,变化少的地方就是低频分量。
样定理是美国电信工程师H.奈奎斯特在1928年提出的,在数字信号处理领域中,采样定理是连续时间信号(通常称为“模拟信号”)和离散时间信号(通常称为“数字信号”)之间的基本桥梁。该定理说明采样频率与信号频谱之间的关系,是连续信号离散化的基本依据。 它为采样率建立了一个足够的条件,该采样率允许离散采样序列从有限带宽的连续时间信号中捕获所有信息。
采样过程所应遵循的规律,又称取样定理、抽样定理。采样定理说明采样频率与信号频谱之间的关系,是连续信号离散化的基本依据。
在进行模拟/数字信号的转换过程中,当采样频率fs.max大于信号中最高频率fmax的2倍时(fs.max>2fmax),采样之后的数字信号完整地保留了原始信号中的信息,一般实际应用中保证采样频率为信号最高频率的2.56~4倍;采样定理又称奈奎斯特定理。
如果对信号的其它约束是已知的,则当不满足采样率标准时,完美重建仍然是可能的。 在某些情况下(当不满足采样率标准时),利用附加的约束允许近似重建。 这些重建的保真度可以使用Bochner定理来验证和量化。
PCM(Pulse Code Modulation)脉冲编码调制是数字通信的编码方式之一。主要过程是将话音、图像等模拟信号每隔一定时间进行取样,使其离散化,同时将抽样值按分层单位四舍五入取整量化,同时将抽样值按一组二进制码来表示抽样脉冲的幅值。
图像分辨率指图像中存储的信息量,是每英寸图像内有多少个像素点,分辨率的单位为PPI(Pixels Per Inch),通常叫做像素每英寸。图像分辨率一般被用于ps中,用来改变图像的清晰度。
数码图像有两大类,一类是矢量图,也叫向量图;另一类是点阵图,也叫位图。矢量图比较简单,它是由大量数学方程式创建的,其图形是由线条和填充颜色的块面构成的,而不是由像素组成的,对这种图形进行放大和缩小,不会引起图形失真。
点阵图很复杂,是通过摄像机、数码相机和扫描仪等设备,利用扫描的方法获得,由像素组成的,是以每英寸的像素数(PPI)来衡量。点阵图具有精细的图像结构、丰富的灰度层次和广阔的颜色阶调。当然,矢量图经过图像软件的处理,也可以转换成点阵图。家庭影院所使用的图像,动画片的原图属于矢量图一类,但经过制作中的转化,已经和其他电影片一样,也属于点阵图一类了。
显示分辨率是显示器在显示图像时的分辨率,分辨率是用点来衡量的,显示器上这个“点”就是指像素(pixel)。显示分辨率的数值是指整个显示器所有可视面积上水平像素和垂直像素的数量。例如800×600的分辨率,是指在整个屏幕上水平显示800个像素,垂直显示600个像素。
像素深度是指存储每个像素所用的位数,也用它来度量图像的分辨率。像素深度决定彩色图像的每个像素可能有的颜色数,或者确定灰度图像的每个像素可能有的灰度级数。
例如,一幅彩色图像的每个像素用R,G,B三个分量表示,若每个分量用8位,那么一个像素共用24位表示,就说像素的深度为24,每个像素可以是16 777 216(2的24次方)种颜色中的一种。在这个意义上,往往把像素深度说成是图像深度。表示一个像素的位数越多,它能表达的颜色数目就越多,而它的深度就越深。
一幅图像的位面数量相当于组成图像的像素矩阵维数。
灰度图像一个位面
彩色图像三个位面:红色分量、蓝色分量、绿色分量
假定图像尺寸、,每个像素所具有的离散灰度级数为,,那么存储这幅图像所需的位数以及所需的字节数如下:
邻域:数字图像中,邻域分为4邻域和8邻域,4邻域就是某个(x,y)点的上下左右四个点,8邻域再加上左上右上左下右下四个点。如果p在q周围的8个点内,就是p在q的8邻域内。
4邻域和对角邻域的并集就是8邻域
邻接:邻接算是包含了邻域,如果说p和q是邻接,那么p和q必须互在邻域内,而且这两个的像素还要都在同一个集合V1内。(什么叫都在集合V1内:假如集合V1包含{012345},这五个数代表的是像素值,而p值为2,q值为6,那它们两个就不在同一个集合V1内,当然如果有个集合V2,它俩可能也在另一个集合V2内)数字图像中常见的邻接有三种,4邻接、8邻接和m邻接。如果p在q的4邻域内,且q和p的值都在V中,那么p和q是4邻接的,8邻接概念一样。m邻接(mixed,混合邻接)不太一样,如果q和p互在8邻域内,p和q都在V内,且q的4邻域和p的4邻域的共同覆盖的点不在V内,则p和q是m邻接的。m邻接是为了消除8邻接的二义性而引进的。比如有个3*3矩阵{0,1,1;0,1,0;0,0,1},假设对于V={1}的集合而言,如果两个点能构成邻接,就算有一条路可以通过,那么右上角的1走到右下角的1,如果按照8邻接有两条路,而按照m邻接,只有一条路,这就是m邻接提出的意义。
2个像素p和q在V中取值且满足下列条件之一
1.q在中p的4-邻域中
2.q在中p的对角邻域中且集合N(4)§和N(4)(q)是空集
实质:
当像素间同时存在4-邻接和8-邻接时,优先采用4-邻接,屏蔽两个和统一像素间存在4-邻接的像素之间的8-邻接。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Uh3sbFkn-1641869310047)(https://jums.club/images/article/55454.png)]
用数学公式描述的图像,用一系列绘图指令表示图像;图像中每个形状都用一个完整的公式描述,称为一个对象。
优点:
A.文件数据量很小;
B.图像质量与分辨率无关;
无论图像放大或缩小多少倍,总是以显示设备允许的最大清晰度显示。计算机计算与显示图像时,往往能看到画图的过程。
缺点:
A.不易制作色调丰富或色彩变化太多的图像;
B.绘出来的图像不是很逼真;
C.不易在不同的软件间交换文件。
通过像素点表示图像,每个像素具有颜色属性和位置属性。
优点:
A.显示速度快;
B.真实世界的图像可以通过扫描仪、数码相机、摄像机等设备方便的转化为点位图
缺点:
A.存储和传输时数据量比较大;
B.缩放、旋转时算法复杂且容易失真
从技术上说,就是具有从黑到白的若干种灰度的单色图像。
若灰度图像像素的灰度级用8bit表示,则每个像素都是介于黑色和白色之间的256(28=256)种灰度种的一种.
通常所说的黑白图片,其实包含了黑白之间的所有灰度色调。
索引颜色通常也称为映射颜色。在这种模式下,颜色是一组预先定义的、有限的颜色。
索引颜色的图像最多只能显示256中颜色。
索引颜色图像在图像文件里定义索引颜色。打开该文件时,构成该图像具有颜色的索引值就被读入程序里,然后根据索引值找到最终的颜色。
自然界中几乎所有颜色都可以有红、绿、蓝(R、G、B)组合而成。
真彩色图像中,每一个像素由红、绿和蓝三个字节组成,每个字节为8bit,表示0到255之间的不同的亮度值。
256×256×256,能表示约1670万种颜色。
颜色深度为每个像素24位的数字图像是目前所能获取、浏览和保存的颜色信息最丰富的彩色图像,由于它所表达的颜色远远超出了人眼所能辨别的范围,故将其称为“真彩色”。
真彩色图并不是说一幅图包含了所有的颜色,而是说它具有所有颜色的能力,即最多可以包含所有的颜色。
常见RGB颜色:
图像文件的格式,即图像文件的数据构成。
一般每种图像文件均有一个文件头,在文件头之后是图像数据。
文件头:一般包含文件类型、文件制作者、制作时间、版本号、文件大小等内容。内容由制作该图像文件的公司决定
图像数据:各种图像文件的制作还涉及到图像文件的压缩方式和存储效率等。
数字图像有多种存储格式,每种格式一般由不同的开发商支持。随着信息技术的发展和图像应用领域的不断拓宽,还会出现新的图像格式。
图像文件格式体系
1.互联网用:GIF、JPG、PNG
2.印刷用:TIF、JPG、TAG、PCX
3.国际标准:TIF、JPG
位图文件图是一个结构,其定义如下:结构长度固定,为14个字节(WORD为无符号16位整数,DWORD为无符号32位整数)
实际上是一个数组,共有biClrUsed个元素。数组中每个元素的类型是是一个RGBQUAD结构,占4个字节。真彩色图像不需要调色板,BITMAPINFOHEADER后直接是位图数据。
真彩色图像,图像数据就是实际的R、G、B值,三个字节表示1个像素。
对于用到调色板的位图,图像数据就是该像素颜色在调色板中的索引值。
2色位图,用1位就可以表示该像素的颜色(一般0表示黑,1表示百=白),所以一个字节可以表示8个像素。
16色位图,用4位可以表示一个像素的颜色,所以一个字节可以表示2个像素。
256色位图,一个字节刚好可以表示1个像素。
下面两点需注意:
(1)每一行的字节数必须是4的整数倍,如果不是,则需要补齐。
(2)BMP文件的数据存放是从下到上,从左到右的。
从文件中最先读到的是图像最下面一行的左边第一个像素,然后是左边第二个像素,接下来是倒数第二行左边第一个像素,左边第二个像素。以此类推,最后得到的是最上面一行的最右边的一个像素。
例1:
200×200×3×8bit,每个像素需要用3个字节 120k字节
图像中最多只有16中颜色。用一个表:表中的每一行记录一种颜色RGB值。当表示一个像素的颜色时,只需要指出该颜色是在第几行,即该颜色在表中的索引值。
表占用的字节为3(RGB) ×8(bit) ×16(颜色)=48字节
16种颜色可以用4bit表示,一个像素要用半个字节。整个图像要用200×200×0.5,约20k字节,约为前面的1/6。
RGB表,即调色板。
例2:
反色(invert):就是形成底片效果。
反色的实际含义是将R、G、B值反转。
若颜色的量化级别是256,则新图的R、G、B值为255减去原图的R、G、B值。包括真彩图、带调色板的彩色图(伪彩色图)和灰度图。
真彩图:把反转后的R、G、B值写入新图即可。
带调色板彩色图:只需要将调色板中的颜色反转,形成新调色板,位图数据不动。
灰度图:直接反转。
算子是一个函数空间到函数空间上的映射O:X→X。广义上的算子可以推广到任何空间,如内积空间等。
广义的讲,对任何函数进行某一项操作都可以认为是一个算子,甚至包括求幂次,开方都可以认为是一个算子,只是有的算子我们用了一个符号来代替他所要进行的运算罢了,所以大家看到算子就不要纠结,他和 的 没区别,它甚至和加减乘除的基本运算符号都没有区别,只是他可以对单对象操作罢了(有的符号比如大于、小于号要对多对象操作)。又比如取概率P{X
在泛函分析中,卷积、旋积或摺积(英语:Convolution)是通过两个函数f 和g 生成第三个函数的一种数学算子,表征函数f 与g经过翻转和平移的重叠部分函数值乘积对重叠长度的积分。
如果将参加卷积的一个函数看作区间的指示函数,卷积还可以被看作是“滑动平均”的推广。
梯度下降是迭代法的一种,可以用于求解最小二乘问题(线性和非线性都可以)。在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(Gradient Descent)是最常采用的方法之一,另一种常用的方法是最小二乘法。在求解损失函数的最小值时,可以通过梯度下降法来一步步的迭代求解,得到最小化的损失函数和模型参数值。反过来,如果我们需要求解损失函数的最大值,这时就需要用梯度上升法来迭代了。在机器学习中,基于基本的梯度下降法发展了两种梯度下降方法,分别为随机梯度下降法和批量梯度下降法。
- 靠近极小值时收敛速度减慢。
- 直线搜索时可能会产生一些问题。
- 可能会“之字形”地下降。
概率指事件随机发生的机率,对于均匀分布函数,概率密度等于一段区间(事件的取值范围)的概率除以该段区间的长度,它的值是非负的,可以很大也可以很小。
分布函数(英文Cumulative Distribution Function, 简称CDF),是概率统计中重要的函数,正是通过它,可用数学分析的方法来研究随机变量。分布函数是随机变量最重要的概率特征,分布函数可以完整地描述随机变量的统计规律,并且决定随机变量的一切其他概率特征。
直方图性质
1.无空间信息;
2.直方图与图像一对多关系;
3.可叠加性(全图与子图像)
直方图的作用:
直方图反映了图像清晰程度。直方图均匀分布时,图像最清晰。
判断一幅图像是否清晰,查看是否合理的利用了全部被允许的灰度级。
一幅图像应该尽可能利用全部可能的灰度级。
例题:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Ld1zahKp-1641869310066)(https://jums.club/images/article/012121.png)]
经过直方图处理后,出现了伪轮廓:
直方图处理图像不适用的情况:
修改一幅图像的直方图,使得它与另一幅图像的直方图匹配或具有一种预先规定的函数形状。
目标: 突出感兴趣的灰度范围,使图像质量改善。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-dD3AzlpZ-1641869310076)(https://jums.club/images/article/56.png)]
图像亮度增加:
图像亮度降低:
对比度降低:
图像的反转公式:
反转例子:
阈值化(thresholding) 可以看作是削波的一个特例。
阈值化后的图像是黑白二值图。阈值化是灰度图像转二值图像的一种常用方法。
阈值化处理后的结果,是一幅二值图像图。
灰度窗口变换是将某一区间的灰度级和其它部分(背景) 分开。
灰度窗口变换可以检测出在某一灰度窗口范围内的所有像素,是图像灰度分析中的一个有力工具。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-SUqu9rHZ-1641869310100)(https://jums.club/images/article/46.png)]
- 加法、减法
- 乘法、除法
- 与
- 或、异或
公式:
主要应用举例:
(1)求两个子图像的相交子图
比较运算:
上图从左到右执行平均、最大值、最小值、Clear if >、Clear if =、Clear if <操作。
图像生成过程中,由于系统本身具有非线性或拍摄角度不同,会使生成的图像产生几何失真。几何失真一般分为系统失真和非系统失真,系统失真是有规律的、能预测的;非系统失真则是随机的。
例如:
(1)镜头畸变;
(2)遥感图像校正;
(3)图像配准(配准:同一目标两幅图像间的空间对准。)
几何变换不改变像素值,仅改变像素所在位置!
几何变换可以改变图像中物体之间的空间关系。这种运算可以看成是图像内的各物体在图像内移动的过程。例如,物体的转动、扭曲、倾斜、拉伸等,都是几何运算的结果。
绕原点旋转-α度
通常的做法是以图像的中心为圆心旋转
旋转出现的问题:
原因:
图像旋转后,出现了两个问题:
1)像素的排列不是完全按照原有的相邻关系。相邻像素之间只有8个方向。
2)会出现许多的空洞点。
图像旋转出现的两个问题,本质都是因为像素值的填充不连续的。
采用插值填充的方法解决
公式:
a.缩小
图像缩小实际上就是对原有的多个数据进行抽取,获得期望缩小尺寸的数据,并且尽量保持原有的特征不丢失。
最简单的方法就是等间隔地选取数据。
图像缩小后承载的信息量减小,所以画布可相应缩小。
b.放大
图像放大从字面上看,是图像缩小的逆操作,但是,从信息处理的角度来看,则难易程度完全不一样。
图像缩小是从多个信息中选出所需要的信息,而图像放大则是需要对多出的空位填入适当的新值,是信息的统计。
放大最简单的思想是,如果需要将原图像方法k倍,则将原图像中的每个像素值,填在新图像中对应的k*k大小字块中。
放大倍数太大,会出现马赛克效应。
旋转与放大图像时,产生了新的像素(漏点)。采用插值法,即利用邻域的像素来估计新的像素值。
双线性插值是对最近邻的一种改进,即用线性内插方法,根据点的四个相邻点的灰度值,分别在x和y方向上进行两次插值,计算新值。
定义:n级实矩阵A称为正交矩阵,如果AA=E。(A表示A的共轭转置,E是单位矩阵)
傅立叶变换,表示能将满足一定条件的某个函数表示成三角函数(正弦和/或余弦函数)或者它们的积分的线性组合。在不同的研究领域,傅立叶变换具有多种不同的变体形式,如连续傅立叶变换和离散傅立叶变换。最初傅立叶分析是作为热过程的解析分析的工具被提出的。
快速傅里叶变换 (fast Fourier transform), 即利用计算机计算离散傅里叶变换(DFT)的高效、快速计算方法的统称,简称FFT。快速傅里叶变换是1965年由J.W.库利和T.W.图基提出的。采用这种算法能使计算机计算离散傅里叶变换所需要的乘法次数大为减少,特别是被变换的抽样点数N越多,FFT算法计算量的节省就越显著。
FFT的基本思想是把原始的N点序列,依次分解成一系列的短序列。充分利用DFT计算式中指数因子 所具有的对称性质和周期性质,进而求出这些短序列相应的DFT并进行适当组合,达到删除重复计算,减少乘法运算和简化结构的目的。此后,在这思想基础上又开发了高基和分裂基等快速算法,随着数字技术的高速发展,1976年出现建立在数论和多项式理论基础上的维诺格勒傅里叶变换算法(WFTA)和素因子傅里叶变换算法。它们的共同特点是,当N是素数时,可以将DFT算转化为求循环卷积,从而更进一步减少乘法次数,提高速度。
离散余弦变换(DCT for Discrete Cosine Transform)是与傅里叶变换相关的一种变换,它类似于离散傅里叶变换(DFT for Discrete Fourier Transform),但是只使用实数。离散余弦变换相当于一个长度大概是它两倍的离散傅里叶变换,这个离散傅里叶变换是对一个实偶函数进行的(因为一个实偶函数的傅里叶变换仍然是一个实偶函数),在有些变形里面需要将输入或者输出的位置移动半个单位(DCT有8种标准类型,其中4种是常见的)。
离散余弦变换,尤其是它的第二种类型,经常被信号处理和图像处理使用,用于对信号和图像(包括静止图像和运动图像)进行有损数据压缩。这是由于离散余弦变换具有很强的"能量集中"特性:大多数的自然信号(包括声音和图像)的能量都集中在离散余弦变换后的低频部分,而且当信号具有接近马尔科夫过程(Markov processes)的统计特性时,离散余弦变换的去相关性接近于K-L变换(Karhunen-Loève 变换–它具有最优的去相关性)的性能。
例如,在静止图像编码标准JPEG中,在运动图像编码标准MJPEG和MPEG的各个标准中都使用了离散余弦变换。在这些标准制中都使用了二维的第二种类型离散余弦变换,并将结果进行量化之后进行熵编码。这时对应第二种类型离散余弦变换中的n通常是8,并用该公式对每个8x8块的每行进行变换,然后每列进行变换。得到的是一个8x8的变换系数矩阵。其中(0,0)位置的元素就是直流分量,矩阵中的其他元素根据其位置表示不同频率的交流分量。
一个类似的变换, 改进的离散余弦变换被用在高级音频编码(AAC for Advanced Audio Coding),Vorbis 和 MP3 音频压缩当中。
离散余弦变换也经常被用来使用谱方法来解偏微分方程,这时候离散余弦变换的不同的变量对应着数组两端不同的奇/偶边界条件。
沃尔什变换(Walsh transform) 以沃尔什函数为基本函数的一种非正弦正交变换
一篇较好的关于灰度变换的博客more details