直方图是对数据进行统计的一种方法,用于显示数据中各个数值或数值范围的分布情况。它将数据划分为一系列的区间(也称为“箱子”或“bin”),然后统计每个区间中数据出现的频次(或频率)。bin的数值可以是梯度、方向、色彩或任何其他特征。直方图可以帮助我们更好地理解数据的分布特征,包括集中趋势、离散程度等。
直方图在许多领域有重要的应用,包括统计学、图像处理、数据分析等。在图像处理中,直方图可以用来分析图像的像素值分布,从而进行图像增强、对比度调整、图像分割等操作。在统计学中,直方图可以帮助我们了解数据的分布情况,如正态分布、偏态分布等。通过观察直方图,我们可以对数据的特征有更深入的了解,从而做出更准确的决策和分析
直方图的主要特点如下:
横轴(X 轴): 横轴表示数据的数值范围或区间。每个区间通常由两个数值来表示,例如,0-10、10-20 等。
纵轴(Y 轴): 纵轴表示每个区间中数据的频次(或频率),也就是该区间内数据出现的次数。
条形图: 直方图的图形由一系列的矩形条组成,每个矩形条的宽度表示区间的宽度,高度表示该区间内数据的频次。
连续数据: 直方图适用于连续型数据,例如测量数据、时间数据等。对于离散型数据,柱状图可能更为适合。
图像直方图
(Image Histogram)是用以表示数字图像中亮度分布的直方图,标绘了图像中每个亮度值的像素个数。在图像直方图中,横坐标的左侧为纯黑、较暗的区域,而右侧为较亮、纯白的区域。因此一张较暗图片的直方图中的数据多集中于左侧和中间部分,而整体明亮、只有少量阴影的图像则相反(图像里各种灰度级出现的次数作出的图形)。
横坐标: 图像中各个像素点的灰度级.(比如像素的值都是在0-255之间,每个具体的数值就是一个灰度级)
纵坐标: 具有该灰度级的像素个数.
注意: 直方图是根据灰度图进行绘制的,而不是彩色图像。
例如,有一幅图像如图 13-1 所示。该图中只有 9 个像素点,存在 1、2、3、4、5,共 5 个灰度级。
统计各个灰度级出现的次数,如表 13-1 所示
在绘制直方图时,将灰度级作为 x 轴处理,该灰度级出现的次数作为 y 轴处理,则可知:
根据上述关系,可以绘制出如图 13-2 所示的折线图(左图)和直方图(右图)。一般情况下,我们把左侧的直线图和右侧直方图都称为直方图。
在实际处理中,图像直方图的 x 轴区间一般是[0, 255],对应的是 8 位位图的 256 个灰度级;y 轴对应的是具有相应灰度级的像素点的个数。
例如在图 13-3 中,上图是一张图像,下图则是其对应的直方图。图中圆点表示这些像素点会被统计到对应的灰度级上。
虽然 8 位的图像都具有 256 个灰度级(每一个像素可以有 256 个灰度值),但是属于不同灰度级的像素数量是很不一样的。
例如图 13-4,从图中可以看出,图像的不同部分直方图是不一样的。
有时为了便于表示,也会采用归一化直方图。在归一化直方图中,x 轴仍然表示灰度级;y轴不再表示灰度级出现的次数,而是灰度级出现的频率。
例如,针对图 13-1,统计各个灰度级出现的频率:
灰度级出现的频率 = 灰度级出现的次数/总像素数
在图 13-1 中共有 9 个像素,所以统计结果如表 13-2 所示。
在归一化直方图中,各个灰度级出现的频率之和为 1。例如,本例中:
在绘制直方图时,将灰度级作为 x 轴数据处理,将其出现的频率作为 y 轴数据处理,则可知:
x 轴的数据为 x=[1 2 3 4 5]
y 轴的数据为 y=[3/9 1/9 2/9 1/9 2/9]
根据上述关系,可以绘制出如图 13-5 所示的归一化直方图。对比图 13-4 与图 13-5,可以看到,归一化直方图与直方图在外观上是一致的,只是 y 轴的标签不同而已。
本例中,在直方图内,y 轴显示的标签是 1、2、3;在归一化直方图中,y 轴显示的标签是 1/9、2/9、3/9。
在 OpenCV 的官网上,特别提出了要注意三个概念:DIMS、BINS、RANGE。
DIMS:表示在绘制直方图时,收集的参数的数量。一般情况下,直方图中收集的数据只有一种,就是灰度级。因此,该值为 1。
RANGE:表示要统计的灰度级范围,一般为[0, 255]。0 对应的是黑色,255 对应的是白色。
BINS:参数子集的数目。在处理数据的过程中,有时需要将众多的数据划分为若干个组,再进行分析。
例如,针对图 13-1 中的灰度级,你可能希望将两个像素值作为一组讨论。这样,整个灰度级被划分为三组,具体为{ {1,2} , {3,4} , {5} }。图 13-6 所示的是划分前后的直方图情况。
也可以按照上述方式对灰度图像进行划分。例如,在灰度图像中,将[0, 255]区间内的 256个灰度级,按照每 16 个像素一组划分为子集:
[0, 255] = [0, 15] ∪ [16, 31] ∪…∪[240, 255]
按照上述方式,整个灰度级范围可以划分为 16 个子集,具体为:
整个灰度级范围 = bin1 ∪ bin2 ∪…∪ bin16
子集划分完以后,某灰度图像生成的直方图如图 13-7 所示(图中的 b1 代表 bin1,b2 代表bin2,以此类推)。
针对图 13-1,在原始图像中,共有 5 个灰度级,其 BINS 值为 5。在以 2 个灰度级为一个小组划分子集后,得到 3 个子集,其 BINS 值为 3。
针对灰度图像,灰度级区间为[0, 255],共有 256 个灰度级,其 BINS 值为 256;在以 16个灰度级为一个小组划分子集后,其 BINS 值为 16。
BINS就是柱子的数量。
图像直方图是图像处理和分析中的一个基本工具,它统计了图像中每个像素强度值的频率分布。图像直方图在多个方面对于理解和操作图像至关重要。
图像增强
对比度调整: 直方图可以用于增强图像的对比度。例如,直方图均衡化是一种常用的技术,通过均匀分布直方图中的像素强度,可以提高图像的全局对比度。如果是曝光过度可以减少补光,如果光线不够,可以补光
自动亮度和对比度调整: 分析直方图,自动确定最佳的亮度和对比度设置,以改善图像质量。
阈值处理
图像分割: 直方图可以用于确定分割图像的最佳阈值,特别是在二值化处理中。这在文档扫描和对象识别等领域特别有用。
背景和前景分离: 在简单背景的图像中,直方图可以帮助区分背景和前景对象。
图像分析
灰度分布分析: 直方图提供了图像中像素强度的分布情况,有助于分析图像的明暗结构和内容。
纹理分析: 直方图的形状和分布可以用来分析图像的纹理特征。
颜色处理
颜色平衡: 在彩色图像处理中,可以分别对红、绿、蓝三个颜色通道的直方图进行调整,以实现颜色平衡。
颜色分割和识别: 利用颜色直方图来识别和分割图像中的特定颜色区域。
图像恢复
噪声识别和过滤: 直方图有助于识别图像中的噪声模式,并可以指导选择适当的噪声过滤技术。
模块 matplotlib.pyplot 提供了一个类似于 MATLAB 绘图方式的框架,可以使用其中的matplotlib.pyplot.hist()函数
(以下简称为 hist()函数)来绘制直方图。
此函数的作用是根据数据源和灰度级分组绘制直方图。其基本语法格式为:
matplotlib.pyplot.hist(X,BINS)
参数描述:
X:数据源,必须是一维的。图像通常是二维的,需要使用 ravel()函数将图像处理为一维数据源以后,再作为参数使用。
BINS:BINS 的具体值,表示灰度级的分组情况。
函数 ravel()的作用是将二维数组降维成一维数组。
import cv2
import matplotlib.pyplot as plt
image = cv2.imread("../data/ship.jpg")
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
plt.hist(image.ravel(), 256)
plt.show()
运行代码显示:
使用函数 hist()将一幅图像的灰度级划分为 16 组后,绘制该图像的直方图。
import cv2
import matplotlib.pyplot as plt
image = cv2.imread("../data/ship.jpg")
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
plt.hist(image.ravel(), 16)
plt.show()
运行代码显示:
OpenCV 提供了函数 cv2.calcHist()用来计算图像的统计直方图,该函数能统计各个灰度级的像素点个数。利用matplotlib.pyplot 模块中的 plot()函数,可以将函数 cv2.calcHist()的统计结果绘制成直方图
hist = cv2.calcHist( images, channels, mask, histSize, ranges, accumulate )
参数及返回值:
hist:返回的统计直方图,是一个一维数组,数组内的元素是各个灰度级的像素个数。
images:原始图像,该图像需要使用“[ ]”括起来。
channels:指定通道编号。通道编号需要用“[ ]”括起来,如果输入图像是单通道灰度图像,该参数的值就是[0]。对于彩色图像,它的值可以是[0]、[1]、[2],分别对应通道B、G、R。
mask:掩模图像。当统计整幅图像的直方图时,将这个值设为 None。当统计图像某一部分的直方图时,需要用到掩模图像。
histSize:BINS 的值,该值需要用“[ ]”括起来。例如,BINS 的值是 256,需要使用“[256]”作为此参数值。
ranges:即像素值范围。例如,8 位灰度图像的像素值范围是[0, 255]。
accumulate:累计(累积、叠加)标识,默认值为 False。如果被设置为 True,则直方图在开始计算时不会被清零,计算的是多个直方图的累积结果,用于对一组图像计算直方图。该参数允许从多个对象中计算单个直方图,或者实时更新直方图。该参数是可选的,一般情况下不需要设置。
示例代码:
import cv2
import matplotlib.pyplot as plt
img = cv2.imread("../data/ship.jpg")
hist = cv2.calcHist([img], [0], None, [16], [0, 255])
print(type(hist))
print(hist.shape)
print(hist.size)
print(hist)
plt.plot(hist, color='b')
plt.show()
运行代码显示:
(16, 1)
16
[[7.855000e+03]
[1.507600e+04]
[8.501000e+03]
[9.885000e+03]
[9.599000e+03]
[5.452000e+03]
[6.495000e+03]
[1.184100e+04]
[2.672000e+04]
[1.451440e+05]
[3.919380e+05]
[1.306336e+06]
[1.253990e+05]
[3.002000e+03]
[3.080000e+02]
[4.400000e+01]]
如果一幅图像拥有全部可能的灰度级,并且像素值的灰度均匀分布,那么这幅图像就具有高对比度和多变的灰度色调,灰度级丰富且覆盖范围较大。在外观上,这样的图像具有更丰富的色彩,不会过暗或过亮。
图 13-22 展示了对一幅图像进行直方图均衡化前后的对比,左图是原始图像,比较暗;右图是均衡化后的图像,色彩比较均衡。
在 OpenCV 的官网上,对图像均衡化(即直方图均衡化)前后的直方图进行了对比,如图13-23 所示。其中,左图是原始图像的直方图,可以看到灰度级集中在中间,图像中没有较暗和较亮的像素点;右图是对原图均衡化后的直方图,像素分布更均衡。
直方图均衡化的主要目的是将原始图像的灰度级均匀地映射到整个灰度级范围内,得到一个灰度级分布均匀的图像。这种均衡化,既实现了灰度值统计上的概率均衡,也实现了人类视觉系统(Human Visual System,HVS)上的视觉均衡。
OpenCV 使用函数 cv2.equalizeHist()实现直方图均衡化
。该函数的语法格式为:
dst = cv2.equalizeHist( src )
dst 是直方图均衡化处理的结果。
src 是 8 位单通道原始图像。
示例代码:
import cv2
import matplotlib.pyplot as plt
img = cv2.imread('../data/girl_008.jpg', cv2.IMREAD_GRAYSCALE)
equ_img = cv2.equalizeHist(img)
plt.subplot(1, 2, 1)
plt.imshow(img, cmap='gray')
plt.subplot(1, 2, 2)
plt.imshow(equ_img, cmap='gray')
plt.figure("原始图像直方图")
plt.hist(img.ravel(), 256)
plt.figure("均衡化结果直方图")
plt.hist(equ_img.ravel(), 256)
plt.show()
运行代码显示:
图片均衡化效果很明显:在直方图均衡化之前,图像整体比较亮;均衡化以后,图像的亮度变得比较均衡。而两幅图像的直方图的对比,则不太明显。这实际上体现了,均衡化是指综合考虑了统计概率和 HVS 的结果。
补充说明:
原始图像的直方图,大部分的像素值集中在右侧(线条密集)。这说明图像中位于[200,255]区间的像素点很多,图像比较亮。
在均衡化后的直方图中,左侧的像素点比较密集而右侧的相对比较稀疏。但是,实际上人眼并不能明显感受到像素值的细微差别,所以我们可以将相近的像素值看成同一个像素值,这样就会得到类似于图 13-29 的直方图。此时,直方图内灰度级的分布就比较均衡了,是均衡一致的直方图。
直方图均衡化中,考虑的是图像全局的对比度,许多情况下,会由于均衡化而丢失许多信息,为了解决此问题,需要使用自适应的直方图均衡化,此时,整幅图片被分成许多小块,称为tiles(在OpenCV中tiles的大小默认是8x8),然后再对每一个小块分别进行直方图均衡化。如果有噪声的话,噪声会被放大。为了避免这种情况的出现要使用对比度限制。对于每个小块来说,如果直方图中的bin超过对比度的上限的话,就把其中的像素点均匀分散到其他bins中,然后在进行直方图均衡化。最后使用双线性差值,对每一小块进行拼接
cv.createCLAHE(clipLimit,tileGridSize)
参数:
clipLimit:对比度限制,默认是40
tileGridSize:分块的大小,默认8*8
示例代码:
import matplotlib.pyplot as plt
import cv2
img = cv2.imread('../data/girl_008.jpg', cv2.IMREAD_GRAYSCALE)
# 创建一个自适应均衡化对象
cl = cv2.createCLAHE(2.0, (8, 8))
# 将其应用于图像
clahe = cl.apply(img)
plt.subplot(1, 2, 1)
plt.imshow(img, cmap='gray')
plt.subplot(1, 2, 2)
plt.imshow(clahe, cmap='gray')
plt.show()
运行代码显示:
掩膜,对图片的某一个区域进行操作
如何生成掩膜
示例代码:
import cv2
import matplotlib.pyplot as plt
import numpy as np
lena = cv2.imread('../data/lena.jpeg')
gray = cv2.cvtColor(lena, cv2.COLOR_BGR2GRAY)
# 生成掩膜图像, shape的形状要和gray一致
mask = np.zeros(gray.shape, np.uint8)
# 设置想要统计直方图的区域
mask[400:800, 400: 800] = 255
# 对mast和gray进行直方图统计对比
hist_mask = cv2.calcHist([gray], [0], mask, [256], [0, 255])
hist_gray = cv2.calcHist([gray], [0], None, [256], [0, 255])
plt.plot(hist_mask, label='mask')
plt.plot(hist_gray, label='gray')
plt.show()
plt.subplot(1, 3, 1)
plt.imshow(mask, cmap='gray')
plt.subplot(1, 3, 2)
plt.imshow(gray, cmap='gray')
plt.subplot(1, 3, 3)
plt.imshow(cv2.bitwise_and(gray, mask), cmap='gray')
plt.show()
运行代码显示: