泰迪智能科技(数据挖掘平台:TipDM数据挖掘平台)最新推出的数据挖掘实战专栏
专栏将数据挖掘理论与项目案例实践相结合,可以让大家获得真实的数据挖掘学习与实践环境,更快、更好的学习数据挖掘知识与积累职业经验
专栏中每四篇文章为一个完整的数据挖掘案例。案例介绍顺序为:先由数据案例背景提出挖掘目标,再阐述分析方法与过程,最后完成模型构建,在介绍建模过程中同时穿插操作训练,把相关的知识点嵌入相应的操作过程中。
为方便读者轻松地获取一个真实的实验环境,本专栏使用大家熟知的Python语言对样本数据进行处理以进行挖掘建模。
————————————————
下面进入第一篇,基于水色图像的水质评价(一)
随着工业技术的日益提升,人类的生活变得越来越便利。但与此同时环境污染问题日趋严重,大气、土壤、水质污染是各个工业国家不得不面对的问题。污染需要治理,因此对于污染物的评价与监测十分重要。水产养殖业是我国国民经济的一个重要组成部分,在水产养殖过程中,选择没有污染的水域进行养殖十分重要。
本章使用拍摄的池塘水样图片数据,结合图像切割和特征提取技术,使用决策树算法,对图样的水质进行预测,以辅助生产人员对水质状况进行判断。
背景与挖掘目标
从事渔业生产有经验的从业者可通过观察水色变化调控水质,以维持养殖水体生态系统中浮游植物、微生物类、浮游动物等合理的动态平衡。由于这些多是通过经验和肉眼观察进行判断,存在主观性引起的观察性偏倚,使观察结果的可比性、可重复性降低,不易推广应用。当前,数字图像处理技术为计算机监控技术在水产养殖业的应用提供更大的空间。在水质在线监测方面,数字图像处理技术是基于计算机视觉,以专家经验为基础,对池塘水色进行优劣分级,达到对池塘水色的准确快速判别。
结合某地区的多个罗非鱼池塘水样的数据,实现以下目标。
(1) 对水样图片进行切割,提取水样图片中的特征。
(2) 基于提取的特征数据,构建水质评价模型。
(3) 对构建的模型进行评价,评价模型对于水色的识别效率。
分析方法与过程
通过拍摄水样,采集得到水样图像,而图像数据的维度过大,不容易分析,需要从中提取水样图像的特征,提取反映图像本质的一些关键指标,以达到自动进行图像识别或分类的目的。显然,图像特征提取是图像识别或分类的关键步骤,图像特征提取的效果如何直接影响到图像识别和分类的好坏。
图像特征主要包括有颜色特征、纹理特征、形状特征、空间关系特征等。与几何特征相比,颜色特征更为稳健,对于物体的大小和方向均不敏感,表现出较强的鲁棒性。本案例中由于水色图像是均匀的,故主要关注颜色特征。颜色特征是一种全局特征,描述了图像或图像区域所对应的景物的表面性质。一般颜色特征是基于像素点的特征,所有属于图像或图像区域的像素都有各自的贡献。在利用图像的颜色信息进行图像处理、识别、分类的研究中,在实现方法上已有大量的研究成果,主要采用颜色处理常用的直方图法和颜色矩方法等。
颜色直方图是最基本的颜色特征表示方法,它反映的是图像中颜色的组成分布,即出现了哪些颜色以及各种颜色出现的概率。其优点在于它能简单描述一幅图像中颜色的全局分布,即不同色彩在整幅图像中所占的比例,特别适用于描述那些难以自动分割的图像和不需要考虑物体空间位置的图像。其缺点在于它无法描述图像中颜色的局部分布及每种色彩所处的空间位置,即无法描述图像中的某一具体的对象或物体。
基于颜色矩提取图像特征的数学基础在于图像中任何的颜色分布均可以用它的矩来表示。根据概率论的理论,随机变量的概率分布可以由其各阶矩唯一的表示和描述。一副图像的色彩分布也可认为是一种概率分布,那么图像可以由其各阶矩来描述。颜色矩包含各个颜色通道的一阶距、二阶矩和三阶矩,对于一副RGB颜色空间的图像,具有R、G和B三个颜色通道,则有9个分量。
颜色直方图产生的特征维数一般大于颜色矩的特征维数,为了避免过多变量影响后续的分类效果,在本案例中选择采用颜色矩来提取水样图像的特征,即建立水样图像与反映该图像特征的数据信息关系,同时由有经验的专家对水样图像根据经验进行分类,建立水样数据信息与水质类别的专家样本库,进而构建分类模型,得到水样图像与水质类别的映射关系,并经过不断调整系数优化模型,最后利用训练好的分类模型,用户就能方便地通过水样图像,自动判别出该水样的水质类别。
分析步骤与流程
基于水色图像特征提取的水质评价流程如图1所示:
图 1 基于水色图像特征提取的水质评价流程
主要步骤如下:
(1) 从采集到的原始水样图像中进行选择性抽取形成建模数据。
(2) 对步骤(1)形成的数据集进行数据预处理,包括图像切割和颜色矩特征提取。
(3) 利用步骤(2)形成的已完成数据预处理的建模数据,划分为训练集与测试集。
(4) 利用步骤(3)的训练集构建分类模型。
(5) 利用步骤(4)的构建好的分类模型进行水质评价。
下一篇预告:
数据挖掘十大经典算法之一关联规则挖掘的应用(二)-数据探索分析