> 课源:Python机器学习应用 BIT嵩天,本文作为个人课堂笔记。
利用图像的灰度、颜色、纹理、形状等特征,把图像分成若 干个互不重叠的区域,并使这些特征在同一区域内呈现相似性,在不同的区域之间存在明显的差异性。然后就可以将分割的图像中具有独特性质的区域 提取出来用于不同的研究。
图像分割技术已在实际生活中得至旷泛的应用。例如:在机车检验领域, 可以应用到轮毂裂纹图像的分割,及时发现裂纹,保证行车安全;在生物医学工程方面,对肝脏CT图像进行分割,为临床治疗和病理学研究提供帮助。
图像分割常用方法:
1. 阈值分割:对图像灰度值进行度量,设置不同类别的阈值,达到分割的目的。
2. 边缘分割:对图像边缘进行检测,即检测图像中灰度值发生跳变的地方,则为一片 区域的边缘。
3. 直方图法:对图像的颜色建立直方图,而直方图的波峰波谷能够表示一块区域的颜 色值的范围,来达到分割的目的。
4. 特定理论:基于聚类分析、小波变换等理论完成图像分割。
目标:
利用K-means聚类算法对图像像素点颜色进行聚类,实现简单的图像分割 。
输出:同一聚类中的点使用相同颜色标记,不同聚类颜色不同。
实例数据 :
本实例中的数据可以是任意大小的图片,为了使效果更佳直观, 可以采用区分度比较明显的图片。
实验过程:(需要PIL模块)
注意:
- 安装PIL 的库,不是写pip install pil;而应该写:pip install pillow;
如果遇见"Traceback (most recent call last):XXXX"错误,这时应该以管理官身份运行命令行cmd。
实现步骤
1.建立工程并导入sklearn包
import numpy as np
import PIL.Image as image #加载PIL包
from sklearn.cluster import KMeans #加载Kmeans算法
2.加载图片并进行预处理
ef loadData(filePath):
f = open(filePath,'rb') #二进制形式打开文件
data = []
img = image.open(f) #列表形式返回像素值
m,n = img.size #获得图片大小
for i in range(m): #每个像素点RGB处理
for j in range(n): #RGB信息放入data
x,y,z = img.getpixel((i,j))
data.append([x/256.0,y/256.0,z/256.0])
f.close()
return np.mat(data),m,n #矩阵形式返回data和图片大小
imgData,row,col = loadData('kmeans/bull.jpg') #加载数据
3.加载Kmeans聚类算法
km = KMeans(n_clusters=3) #n_clusters表示聚类中心
4 .对像素点进行聚类并输出
#聚类获得每个像素的类别
label = KMeans(n_clusters=4).fit_predict(imgData)
label = label.reshape([row,col])
#穿件一张新的灰度图片并保存
pic_new = image.new("L", (row, col))
#根据所属类别给图片添加灰度值
for i in range(row):
for j in range(col):
pic_new.putpixel((i,j), int(256/(label[i][j]+1)))
#以JPEG格式保存图像
pic_new.save("result-bull-4.jpg", "JPEG")
#完整代码
import numpy as np
import PIL.Image as image
from sklearn.cluster import KMeans
def loadData(filePath):
f = open(filePath,'rb')
data = []
img = image.open(f)
m,n = img.size
for i in range(m):
for j in range(n):
x,y,z = img.getpixel((i,j))
data.append([x/256.0,y/256.0,z/256.0])
f.close()
return np.mat(data),m,n
imgData,row,col = loadData('bull.jpg')
label = KMeans(n_clusters=4).fit_predict(imgData)
label = label.reshape([row,col])
pic_new = image.new("L", (row, col))
for i in range(row):
for j in range(col):
pic_new.putpixel((i,j), int(256/(label[i][j]+1)))
pic_new.save("result-bull-4.jpg", "JPEG")
实验结果
n_clusters=3
n_clusters=5
实验分析
通过设置不同的k值,能够得到不同的聚类结果。同时,k值的不确定也 是Kmeans算法的一个缺点。往往为了达到好的实验结果,需要进行多次尝试才能够选取最优的k值。而像层次聚类的算法,就无需指定k值,只要给定限制条件,就能自动地得到类别数k。