数据挖掘解答题

数据挖掘对聚类分析的要求

可扩展性:大多数来自于机器学习和统计学领域的聚类算法在处理百条数据时表现出高效率
处理不同数据类型的能力:数字型、二元型、分类型、标称型、比率标度型等等
发现任意形状的能力:基于距离的聚类往往发现的是球形的聚类,现实中的聚类是任意形状的
用于决定输入参数的领域知识最小化:对于高维数据,参数很难决定,聚类的质量也很难控制。
处理噪声数据的能力:对空缺值、孤立点、数据噪声不敏感
对输入数据的顺序不敏感:同一个数据集合,以不同次序提交给同一个算法,应该产生相似的结果。
高维度:高维度的数据往往比较稀疏,而且高度倾斜。
基于约束的聚类:找到既满足约束条件,又有良好的聚类特性的数据分组。
可解释性和可用性:聚类要和特点的语义解释和应用相联系。

常用的聚类方法

  • 划分方法
  • 层次方法
  • 基于密度的方法
  • 基于网格的方法
  • 基于模型的方法

划分聚类方法:对于给定的数据集。划分聚类方法通过选择适当的初始代表点将数据样本进行初始聚类,之后通过迭代过程,对聚类结果进行不断地调整,直到使评价聚类性能的准则函数达到最优为止。

层次聚类方法:将给定的数据集分层进行划分,形成一个以各个聚类为结点的树形结构。层次聚类方法分为自底向上的凝绝层次聚类,和自顶向下的分裂层次聚类两种。

基于密度的聚类算法:只要邻近区域的密度超过某个阈值就必须聚类。也就是说,对于某个给特定类的数据点,在某个特定的区域内,必须至少包含某个数目的点。这个方法用来过滤噪声和孤立点,发现任意形状的类。

基于网格的聚类:首先把数据空间划分成有限个单元的网状结构。所有的处理都是以单个单元为对象的。这种方法的优点是:处理速度快,处理时间独立于数据对象数目,仅与划分数据空间的单元数有关。

基于模型的聚类:为每个簇假定一个模型,然后去寻找能更好满足这个模型的数据集,这样的算法经常基于这样的假定:数据集由一系列的概率分布所决定。

朴素贝叶斯分类流程

朴素贝叶斯分类流程可分为三个阶段:

  • 第一阶段是准备工作阶段,这个阶段的主要任务是为朴素贝叶斯分类做必要的准备,主要是根据具体情况确定特征属性,并对每个特征属性进行适当的划分,然后由人工对一部分待分类项进行分类,形成训练样本集合。
  • 第二阶段是分类器训练阶段,这个阶段的任务是生成分类器,主要工作是计算每个类别在训练样本集合中出现的频率及每个特征属性划分对每个类别的条件概率估计,并将结果进行记录。
  • 第三阶段是应用阶段,这个阶段的主要任务是使用分类器对带待分类项进行分类,其输入是分类器和待分类项,输出是待分类项和类别的映射关系。

后向传播分类

后向传播是一种神经网络学习算法,神经网络是一组连接的输入输出单元,每一组连接都与权相连。在学习阶段,通过调整神经网络的权,使得能够预测输入样本的正确标号来学习。
优点:

  • 预测精度总的来说较高
  • 健壮性好,训练样本中包含错误时也可正常工作
  • 输出可能是离散值、连续值或者是离散或量化属性的向量值
  • 对目标进行分类速度较快
    缺点:
  • 训练(学习)时间较长
  • 蕴含在学习的权中的符号含义很难理解
  • 很难跟专业领域知识相整合

支持向量机主要思想

SVM主要思想是针对两类分类问题的,寻找一个超平面作为两类训练样本点的分割,以保证最小的错误率。在线性可分的情况下,存在一个或多个超平面使得训练样本完全分开,SVM的目标是找到其中的最优超平面,最优超平面是使得每一类数据与超平面距离最近的向量与超平面之间的距离最大的平面。对于线性不可分的情况,可使用非线性核函数将低维输入空间线性不可分的样本转换为高位特征空间使其线性可分。

你可能感兴趣的:(数据挖掘解答题)