《数据挖掘导论》学习

《数据挖掘导论》笔记

第一章

1、数据挖掘是什么
数据挖掘时在大型数据存储苦衷,自动地发现有用信息的过程。
数据挖掘还可以预测未来,观测结果
2、不要弄混了【数据挖掘】和【信息检索】
使用数据库查找一个信息,这是信息检索。
3、数据挖掘要解决的问题
【可伸缩】 由于数据集太大,处理的数据不能放进内存,
可能需要非内存算法(抽样技术或者开发并行和分布算法)
【高维性】 数据唯独增脏正比于测量的次数,需要进行数据降维处理
【异种数据和复杂数据】 
【数据的所有权和分布】 
【非传统的分析】
4、数据挖掘的起源
来自统计学的抽样、估计和假设检验
人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论
其他(最优化、进化计算、信息论、信号处理、可视化、信息检索)
5、数据挖掘人物分类
【预测任务】被预测的属性称为 目标变量或因变量 用来做预测的属性称 说明变量或自变量
【描述任务】目标是怪扩初数据中潜在联系发的模式(相关、趋势、聚类、轨迹和异常)
  主要的数据挖掘任务(聚类分析,预测建模,关联分析,异常检测
【预测建模】涉及以说明变量函数的方式为目标变量建立模型。
有两类预测建模任务:分类(用于预测离散的目标变量)、回归(用于预测连续的目标变量)
egg:花类型预测
【关联分析】用来发现描述数据中强关联特征的模式。用于搜索空间是指数规模的。
egg:购物篮分析
【聚类分析】 发现紧密相关的观测值组群,使得与属于不同簇的观测值相比,属于同一簇的观测值相互之间尽可量类似。
(可用来对相关的顾客分组、找出显著英雄地球气候的海洋区域以及压缩数据)
egg:文档聚类,根据新闻标题归类为经济新闻还是健康资讯
【异常检测】识别其特征显著不同于其他数据的观测值(称为异常点或离群点)。
作用:发现真正的异常点,而避免错误的将正常的对象标注为异常点;
egg:信用卡欺诈检测、网络攻击、疾病的不寻常模式等


第二章(数据)
1、数据类型
数据集可以看做数据对象的集合。数据对象有时也叫做记录、点、向量、模式、事件、案例、样本、观测或实体。
数据对象有一组刻画对象基本信息的属性描述;属性有时候也叫作变量、特性、字段、特征或维。
2、数据预处理
【聚集】
将两个或者多个对象合并承担个对象。
【抽样】
使用抽样可以压缩数据量,以便使用更好但开销较大的数据挖掘算法
有效抽样原理:如果样本是有代表性的,则使用样本与使用整个数据集的效果几乎一样。
抽样方法:
简单随机抽样:(1)无放回抽样(2)有放回抽样 
缺点:当分析需要所有类型的代表时,因为其不能充分地代表不太频繁出现的对象对类型
分层抽样:从预先制定的组开始抽样。缺点:
【维归约】
【特征子集选择】
【特征创建】
【离散化和二元化】

【变量变换】



未完待续

你可能感兴趣的:(读书笔记)