数据挖掘笔记(一)

1.数据挖掘定义:从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

2.不能在原数据库上做决策而要建造数据仓库的原因:传统数据库的处理方式和决策分析中的数据需求不相称,主要表现在:⑴决策处理的系统响应问题⑵决策数据需求的问题⑶决策数据操作的问题     

3.数据仓库的定义

W.H.Inmon的定义:数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合,用来支持管理人员的决策。

公认的数据仓库概念基本上采用了W.H.Inmon的定义:数据仓库是面向主题的、集成的、不可更新的(稳定性)随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程。 

4.数据仓库与数据挖掘的关系:⑴数据仓库系统的数据可以作为数据挖掘的数据源。数据仓库系统能够满足数据挖掘技术对数据环境的要求,可以直接作为数据挖掘的数据源。⑵数据挖掘的数据源不一定必须是数据仓库系统。数据挖掘的数据源不一定必须是数据仓库,可以是任何数据文件或格式,但必须事先进行数据预处理,处理成适合数据挖掘的数据。

5. 数据挖掘的功能——7个方面:

⑴概念描述:对某类对象的内涵进行描述,并概括这类对象的有关特征。①特征性描述②区别性描述

⑵关联分析:若两个或多个变量间存在着某种规律性,就称为关联。关联分析的目的就是找出数据中隐藏的关联网。

⑶分类与预测①分类②预测

⑷聚类分析:客观的按被处理对象的特征分类,将有相同特征的对象归为一类。

⑸趋势分析:趋势分析——时间序列分析,从相当长的时间的发展中发现规律和趋势。

⑹孤立点分析:孤立点:数据库中包含的一些与数据的一般行为或模型不一致的数据。

⑺偏差分析:偏差分析——比较分析,是对差异和极端特例的描述,揭示事物偏离常规的异常现象。

6. 数据挖掘常用技术:

⑴数据挖掘算法是数据挖掘技术的一部分。⑵数据挖掘技术用于执行数据挖掘功能。⑶一个特定的数据挖掘功能只适用于给定的领域。

按照上述思想,数据挖掘技术主要包含以下几种:⑴聚类检测方法⑵决策树方法⑶人工神经网络方法。

人工神经网络方法:前馈式网络、反馈式网络和自组织网络。 

7. 遗传算法基本算子:繁殖、交叉和变异。

8.数据挖掘应用领域:

⑴金融业⑵保险业⑶零售业⑷科学研究⑸其他领域

9. 数据挖掘研究方向:

(1)专门用于知识发现的形式化和标准化的数据挖掘语言;

(2)数据挖掘过程中的便于用户理解的及人机交互的可视化方法;

(3)网络环境下的数据挖掘技术;

(4)加强对各种非结构化数据的挖掘。  

10. 数据挖掘应用的热点:

(1)网站的数据挖掘(2)生物信息或基因的数据挖掘(3)文本的数据挖掘    

11. 数据挖掘技术是一门综合性的技术领域,主要涉及数据库、人工智能和数理统计3个技术领域。

12. 数据挖掘产生的前提是:从大量数据中找出隐藏在其中的、有用的信息和规律;计算机技术和信息技术的发展使其有能力处理这样大量的数据。

你可能感兴趣的:(数据挖掘)