数据挖掘的功能总结

总的来说,数据挖掘任务可以分为两类:描述性的和预测性的。描述性的数据挖掘任务是对目标数据集中数据的属性进行特征描述,而预测性的挖掘任务是对当前数据进行归纳以进行预测。

1,特征描述和区分

    特征描述是对某类的数据的一般特征或属性的总结。特征描述的结果可以以多种方式进行展现,例如饼状图,条形图,曲线,多维数据立方体,多维表等。

    数据区分是将某类的数据的一般特征与另一个或多个类别的数据的一般特征进行比较。

2,挖掘频繁模式和相关性

    在一些商业交易中,有些商品会被同时购买,例如在超市里,很多顾客在购买牛奶的同时,也会购买面包,这样的经常一起出现的事物就是一种频繁项集。另外有些事物可能是相继出现的,例如很多消费者先买了一台笔记本电脑,然后会买数码相继,再接着他们会买内存卡,这就是一种(频繁)顺序模式。对频繁模式的挖掘有利于发现数据之中的一些有趣的关联。

3,分类和回归

    分类是通过对一些已知类别标号的训练数据进行分析,找到一种可以描述和区分数据类别或概念的模型,然后用这个模型来预测未知类别标号的数据所属的类别。这个分类模型的形式有多种,例如分类规则,决策树,数学公式或者神经网络。此外还有朴素贝叶斯分类器,支持向量机和KNN分类器等。

    分类器处理的类别是离散而无序的,回归则是具有连续取值的函数进行建模。回归分析是一种统计方法,常用于数值预测。

4,聚类分析

    分类和回归分析都有处理训练数据的过程,训练数据的类别标号已知。而聚类分析则是对未知类别标号的数据进行直接处理。在很多情况下,类别标号已知的训练数据可能在最开始是无法获得的。在聚类过程中,聚类的原则是使类内数据的相似性最大,而使类间数据的相似性最小。每一个聚类可以看成是一个类别,从中可以导出分类的规则。

5,离群点分析

    一个数据集可能包含一些对象,它们与数据模型的总体行为不一致,这样的对象就是利群点。很多数据挖掘方法将离群点视为噪声或例外而抛弃,然而在一些应用中例如谎言检测,这些稀有的事件可能更应该引起关注。

    离群点可以通过统计测试进行检测,即假设数据集服从某一个概率分布,看某个对象是否在该分布范围之内。也可以使用距离测量,将那些与任何聚类都很远的对象当做离群点。除此之外,基于密度的方法可以检测局部区域内的离群点。

6,是否所有的模式都值得关注?

    一个数据挖掘系统可能产生成千上万中模式或者规则,然而对一个特定用户来说,只有一小部分的模式是他感兴趣的。

    这里有三个重要的问题,1,是什么使得一个模式令人关注?

你可能感兴趣的:(数据挖掘的功能总结)