数据挖掘

 

数据库技术发展与用户需求对比:

进化阶段 支持技术 产品特点
数据搜集(20世纪60年代) 计算机、磁带和磁盘 提供历史性的、静态的数据信息
数据访问(20世纪80年代) 关系型数据库 在记录级提供历史性的、动态的数据信息
数据仓库;决策树支持(20世纪90年代) 数据分析处理,多维数据库、数据仓库 在各种层次上提供回溯的、动态的数据信息
数据挖掘(正在流行) 高级算法、多处理器计算机、海量数据库 挖局数据中反映的内在规律

数据挖掘概念:

数据挖掘(英语:Data mining),又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。

狭义的定义:数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性(属于Association rule learning)的信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。

广义的定义:数据挖掘就是一个完整的知识发现,包括数据清理、建模、评估全过程。

数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的应用数据中,提取出潜在并且有用的信息的过程。

数据挖掘的核心是利用算法·模型对预处理后的数据进行训练,训练后获得数据模型。

数据挖掘预知识发现:

1.确定知识发现的目标:这一步是确定知识发现的目的,要发现哪些知识。

2.数据采集:这一步是将可能与知识发现目标相关的数据采集到指定的系统中。

3.书籍探索:探索主要包括数据特征的基本统计描述、数据特征间的相似、相同性等。(找到数据之间的关联性)

4.数据预处理:

(1)数据清洗:数据清理主要包括缺失值与异常值的清理(数据中可能会有错误的数据,需要找出然后处理)

(2)数据集成:讲多种数据源汇聚到一起,放在一个数据仓库的过程。(不同数据源可能存在一个实体丶不同属性)

(3)数据归纳:保证原始数据信息不丢失的前提下,减少分析使用的数据量。(从高维降到低维,特征提取)

(4)数据的变化是将原始的特征数据进行归一化和标准化的操作。

5:.数据挖掘(模型选择)

数据挖掘(模型选择)是对预处理后的数据进行挖掘的过程。分为有监督学习和无监督学习两种。

6.模型评估:对数据挖掘结果的评价,也是评价这个算法模式效果好与坏的标准。

数据挖掘_第1张图片

你可能感兴趣的:(数据挖掘与机器学习)