【笔记】数据挖掘导论(持续更新)

第一章 绪论

数据分析技术的应用: 商务、医学、科学与工程

数据挖掘:在大型数据存储库中,自动地发现有用信息的过程。
与信息检索不同。
KDD:knowledge discovery in database 数据库中知识发现。
【笔记】数据挖掘导论(持续更新)_第1张图片

1.2 数据挖掘要解决的问题

  • 可伸缩
  • 高维性
  • 一种数据与复杂数据
  • 数据的所有权与分布
  • 非传统的分析

1.3 数据挖掘的起源
统计学的抽样、估计和假设检验;
人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论;
数据库技术、并行计算、分布式计算 ;
其他领域的思想:最优化、进化计算、信息论、信号处理、可视化和信息检索。

1.4 数据挖掘任务

  • 预测任务:根据其他属性的值(明变量explanatory variable),预测特定属性的值(目标变量 target variable)。
  • 描述任务:到处概括数据中潜在联系的模式(相关、趋势、聚类、轨迹和异常)。本质上 描述性数据挖掘任务通常是碳叉形的,且常需要 后处理技术验证和解释结果。
    【笔记】数据挖掘导论(持续更新)_第2张图片

    • 预测建模
    • 关联分析
    • 聚类分析
    • 异常检测

第二章 数据

考虑 数据类型、数据的质量、使数据适合挖掘的预处理步骤、根据数据联系分析数据

2.1 数据类型

属性与度量:
属性: 对象的性质或特征,它因对象而异,或随时间而变化。
测量标度: 将数值或符号值与对象的属性相关联的规则(函数)。
- 将人分为男女;
- 庆典会议室的椅子数目,确定是否能够为所有与会者提供足够的座位。(???)

P16

你可能感兴趣的:(笔记)