走进数据挖掘(入门)

文章目录

          • 1、什么是数据挖掘
          • 2、可以挖掘什么类型的数据
            • 2.1 数据库数据
            • 2.2 数据仓库
            • 2.3 事务数据
            • 2.4 其他数据
          • 3、可以挖掘什么模式的数据
            • 3.1 类/概念描述:特征化与区分
            • 3.2 基于频繁模式的关联分析
            • 3.2 分类分析
            • 3.2 聚类分析
            • 3.2 离群点分析

1、什么是数据挖掘
数据挖掘就是从大量的、有噪声的数据中提取出潜在的、有利用价值的数据。

(1)数据清理 (消除噪声、删除不一致的数据)
(2)数据集成 (多种数据源组合在一起)
(3)数据选择(从数据库中提取分析与任务相关的数据)extract
(4)数据变换(把数据统一和变换成适合挖掘的形式)
(5)数据挖掘 (使用智能方法提取数据模式)AI
(6) 模式评估(根据某种兴趣度度量,识别代表知识的真正有趣的模式)
(7)知识表示(可视化)

2、可以挖掘什么类型的数据
2.1 数据库数据
2.2 数据仓库

面向主题的、集成的、与时间相关且不可修改的数据集合。

点此处查看:数据库和数据仓库的区别

2.3 事务数据

顾客的一次购物,一个航班订票或一个用户的网页点击,都可视为事务数据。事务数据可用来做“购物篮分析”。

2.4 其他数据
3、可以挖掘什么模式的数据
3.1 类/概念描述:特征化与区分

特征化

eg.汇总一年之内在AllElecttronics花费5000美元以上的顾客特征

区分

eg.比较两组顾客:定期购买计算机产品的顾客和不经常购买计算机产品的顾客,通过增维,来发现更多的区分特征

3.2 基于频繁模式的关联分析

eg.哪些商品经常一起被购买

3.2 分类分析

找出描述和区分数据类/概念的模型,以便能使用模型预测未知类标号的对象的类标号。

3.2 聚类分析

把类似的事件聚集在一起。

3.2 离群点分析

分析与数据一般行为或模式不一致的数据。

你可能感兴趣的:(数据挖掘)