基于Hadoop和Mahout的K_Means算法设计与实现

基于Hadoop和Mahout的K_Means算法设计与实现_王继重.caj

2.3.2数据挖掘的方法分类
数据挖掘常用的方法有多种多样,它们从不同的方面、不同的角度对数据进行
挖掘分析。相关的方法介绍如下:
(1)分类。此方法通过训练数据找出数据对象的共同特点,然后W此创建分类
或者模型,然后通过它们将数据集中的数据项映射到特定的类别中去。其中具有代
表性的分类方法有:决策树分类法、支持向量机、神经网络法和贝叶斯法等。
(2)回归分析。回归分析方法主要是将数据映射到一个值的预测变量,进而来
发现变量或者各种属性之间的依赖关系。它反映的是事务数据库中的属性在时间序
列上的特征。
(3)聚类。聚类分析是把数据集按照相似性和差异性分口别类。对于任意两个
数据对象,如果是处于相同的类中,那么两者的相似度应该尽量的相近,而如果
处于不同的类中,那么两者之间的相似度要尽量的高。
(4)关联规则。关联规则需要揭示的是数据库中数据项之间存在的相互关系,
也就是要发现符合如下条件的一些事务,如果某个事务出现,这个事务也会随之
出现,那么说明后者与前者之间隐藏着关联规则,也就是相互关系紧密。
(5)特征分析。特征分析也称为特征提取,目的是要从数据库中的数据对象中
提取出特定的与之相关的特征式,这种特征式是该数据集的抽象显示,是为了便
于计算机的理解与识别分析。

(6)变化和偏差分析。在偏差分析中也包含有大量的隐藏的潜在知识,这些知
识对于决策者也是有用的,比如分类分析中的反常实例、模式的例外和观察结果
对期望的偏差等。
(7)预测。预测实际上是对未来行为的某种估计。与分类和回归相同,预测的
效果只能通过等待才能看出。在预测中,历史数据用于解特现在的行为,当模型
训练完成,应用于现行输入时得到的结果是对未来的预测。预测应用包括水灾预
报、机器学习等。解释现在的行为。


2.3.3数据挖掘的基本步驟
数据挖掘是从海量数据中发现并总结出事物发展的规律,得出一个可W利用的
结论的过程。一个功能完整的数据挖掘操作一般都含有如下步骤:
(1)数据选择;基于不同的用户要求,从数据库中选取与该目标有关联的数
据,进行知识提取。
(2)数据预处理:主要是对上一步的数据进行再加工,检查数据的完整性,清
理噪声数据,完成变换和集成数据等工作。
(3)发现模式:是从数据中提炼用户需要的模式的过程。
(4)评估模式:通过不同的标准来对得出的模式进行评估。
(5)表示知识:将发现的模式结合可视化技术呈现给用户。


2.3.4数据挖掘基本算法
数据挖掘中有很多经典的算法,也正是送些经典的算法推动了数据挖掘领域
的发展,常见的经典算法如下图2.5所示。

基于Hadoop和Mahout的K_Means算法设计与实现_第1张图片
Paste_Image.png

(1)决策树算法。算法主要是通过构造决策树来寻找数据集中隐藏的划分规
律。其主要目的就是要找到高精度、小规模的决策树。
(2)K巧值算法。用户指定的K值,聚类的时候{^欧几里德距离来划分数
据。算法简单易用应用广泛,在处理大数据集时表现出色。
(3)支持向量机算法。它是一种建立在统计学习理论基础上机器学习方法。它
能够发现对聚类有很强划分作用的支持向量,从而能找出使类与类的间隔距离最
大的分类器。
(4)向量空间模型法。它的主要目的就是将数据转换为加权的特征向量,然后
经过计算数据相似度来划分类别。
(5)K最近邻法。算法根据最邻近的几个数据样本所属的类别来判定待分样本
数据所属的类别。K最近邻法的原理就是极限定理,但类别划分的原则只和相邻
的样本有关。
(6)贝叶斯分类算法。它是一种根据概率统计知识来对数据进行聚类划分的统
计学分类方法。在人脸识别、指纹识别中应用广泛。
(7)模糊聚类算法。算法根据隶属度值最大原则来划分类别,在涉及事物之间
的模糊界限的场合用得比较多。
(8)神经网络算法。神经网络算法是模拟人思维的一种方法。这种非线性思维
方法的特点是分布式存储信息,然后并行协同处理。
(9)网格计算法。网格计算充分利用了汁算机资源,提高了计算机的处理能
力,为计算量庞大的项目提供了有效计算方案。


你可能感兴趣的:(基于Hadoop和Mahout的K_Means算法设计与实现)