数据挖掘导论学习总结——第一章

数据挖掘基本知识

Data Mining,即数据挖掘,是指从大量数据中挖掘或抽取知识,又称从数据库中知识发现(Knowledge Discovery from Database,KDD),它是指从大量数据抽取挖掘出未知的、有价值的模式或规律等,包括以下几个主要步骤:

  • 数据清洗(Data Cleaning):清楚数据噪声和挖掘主题明显无关的数据
  • 数据集成(Data Integration):将来自多数据源中的相关数据组合到一起
  • 数据转换(Data Transformation):将数据转换为易于进行数据挖掘的数据存储形式
  • 数据挖掘(Data Mining):利用智能方法挖掘数据模式或规律知识
  • 模式评估(Pattern Evaluation):根据一定的评估标准从挖掘结果中筛选出有意义的模式知识
  • 知识表示(Knowledge Presentation):利用可视化和知识表达技术,向客户展示所挖掘出的相关知识。

    KDD与机器学习的区别:KDD是从现实世界中存在的一些具体数据中提取知识,这些数据在KDD出现之前早已存在。而机器学习所使用的数据是专门为机器学习而特别准备的数据,这些数据在现实世界中可能毫无意义。由于KDD使用的数据来自于实际的数据库,且处理的数据量可能巨大,因此KDD中的学习算法的效率和可扩充性就显得尤为重要。且数据的完整性、一致性和正确性都很难保证。此外,KDD可以利用目前数据库技术所取得的研究成果来加快学习过程,提高学习的效率。最后,由于KDD处理的数据来自于实际的数据库,可能存在一些背景知识可供使用。

数据挖掘功能

  1. 概念描述,定性与对比:对一个包含大量数据的数据集合总体情况的概述。定性描述是指利用更为广义的属性对所分析的数据进行概要总结,被分析的数据成为目标数据集;对比是指对两类所分析的数据特点进行对比并对结果做出概要性总结,其中两类被分析的数据集分别称为目标数据集与对比数据集。数据,要总结(data charaterization)是利用数据描述属性中更加广义的树形内容对其进行归纳描述,其中被分析的数据常常可以通过简单的数据库查询来获得,通常用更广义的关系表或特征描述规则来加以输出表示、(第三章)
  2. 关联分析(association analysis):从给定的数据集发现频繁出现的项集模式知识,也称为关联规则(association rules)。(第五章)
  3. 分类与预测:分类就是找出一组能够描述数据集合典型特征的模型或函数,以便能够分类识别未知数据的归属或类别,即将未知事例映射到某种离散类别之一。分类模型可以通过分类挖掘算法从一组训练样本数据中学习获得。分类挖掘所获得的分类模型主要表示方法有:分类规则、决策树、数学公式和神经网络。分类通常用于预测位置数据实例的归属类别(有限离散值),例如一个银行客户的信用等级是属于A、B还是C级。但在一些情况下,需要预测某数值属性的值(连续值),这样的分类被称为预测。一般来说,使用prediction来表示对连续数值的预测,而使用classification来表示对有限离散值的预测。(第四章)
    1. 聚类分析(clustering analysis):聚类与分类预测方法明显不同之处在于,分类预测模型所使用的数据是已知类别归属(class-labled data),属于监督学习方法。而聚类分析,无论是在学习还是在归类预测时,所分析处理的数据均是无事先确定的类别归属的,属无无监督学习方法。聚类分析中,首先需要根据clusters内部数据对象间的相似度最大化,和clusters对象间的相似度最小化的基本聚类分析原则,以及度量数据对象之间相似度的计算公式,将聚类分析的数据划分为若干组。(第六章)
    2. 异类分析:一个数据库中的数据一般不可能都符合分类预测或聚类分析所获得的模型,即outlier异类。许多数据挖掘方法都在正式进行数据挖掘之前就将这些异类作为噪声或意外而将其排除在数据挖掘的分析处理范围指内。但在一些应用场合,例如商业欺诈行为的自动检测中,小概率发生的事件往往比经常发生的时间更有挖掘价值。数据中的异类可以利用数理统计方法分析获得,即利用已知数据所获得的概率统计分布模型,或利用相似度计算所获得的相似数据对象分布,分析确认异类数据。而偏离检测就是从数据已有或期望值中找出某些关键测度显著的变化。(第七章)
    3. 演化分析(evolution analysis):随时间变化的数据对象的变化规律和趋势进行建模描述,包括概念描述、对比概念描述、关联分析、分类分析、时间相关数据分析。(第七章)

数据挖掘结果的评估
在得到数据挖掘的结果后,我们需要对挖掘结果进行有效评估,一般有以下标准
1. 易于用户理解
2. 对新数据或测试数据能够确定有效程度
3. 具有潜在价值
4. 新奇的

数据挖掘系统分类
我们可以根据所挖掘的知识类型对数据挖掘系统进行分类,因此可以根据概念描述知识、对比概念描述知识、关联知识、分类知识、聚类知识、异类知识、趋势与演化分析知识等进行划分。一个较成熟的数据挖掘系统通常提供多种数据挖掘结果。
实际上数据挖掘技术从一开始就是面向应用的。目前在很多重要的领域,例如银行、电信、保险、交通、零售等商业应用领域,包括数据库营销、客户群体划分、背景分析、交叉销售等市场分析行为,以及客户流失性分析、客户信用评分、欺诈发现等等。
数据挖掘的目的就是为企业决策提供正确依据,从分析数据发现问题作出决策采取行动这一系列操作,利用计算机及信息技术完成这这项行动是发挥机构活力和赢得竞争优势的唯一手段。因此人们将这种机构行为称为Bussiness Intelligent,BI。SAS公司的Enterprise Miner就是将数据源、数据预处理、数据存贮、数据分析与发掘、信息表示与应用等方面技术结合起来行程一个复杂数据挖掘系统的有机整体。

你可能感兴趣的:(数据挖掘导论学习总结——第一章)