数据挖掘概念与技术——读书笔记(1)

原书第三版
Jiawei Han     Micheline Kamber     Jian Pei  著


第一章 引论

为什么进行数据挖掘

解决“数据丰富,但信息贫乏”的问题。
数据的爆炸式增长,广泛可用,巨大数量  ——>   数据时代  ——>   需要功能强大和通用的工具,从海量数据中发现有价值的信息。

什么是数据挖掘

从数据中挖掘知识。

  • 数据清理(消除噪声和删除不一致的数据)
  • 数据集成(多种数据源可以组合在一起)
  • 数据选择(从数据库中提取与分析任务相关的数据)
  • 数据变换(通过汇总或聚集操作,把数据变换和统一成适合挖掘的形式)
  • 数据挖掘(基本步骤,使用智能方法提取数据模式)
  • 模式评估(根据某种兴趣度度量,识别代表知识的真正有趣的数据)
  • 知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)
    数据挖掘概念与技术——读书笔记(1)_第1张图片

可以挖掘什么类型的数据

  • 数据库数据
    • 由一组内部相关的数据和一组管理和存取数据的软件程序组成。
    • 关系数据库是表的汇集(属性—>字段或列,元祖—>记录或行)。对象被唯一关键字标识,被一组属性值描述。
  • 数据仓库
    • 从多个数据源收集的信息储存库(例如分部遍布全世界的公司的数据库)
      数据挖掘概念与技术——读书笔记(1)_第2张图片
  • 事务数据
    • 每个记录代表一个事务。
    • 包含一个唯一的事务标识号,以及一个组成事务的项。
      • 例如商场的第50条交易记录,用户购买了A,D,F这三件物品。
  • 其他类型的数据
    • 空间数据,超文本和多媒体数据……等等

可以挖掘什么类型的模式

  • 描述性(刻画目标数据中数据的一般性质)
  • 预测性(在当前数据上做出归纳,以便进行预测)

类/概念描述:特征化与区分
数据特征化:目标类数据的一般特性或特征的汇总
数据区分:将目标类,与一个或多个可比较类进行比较。
                 例如:定期购买电脑产品的客户和不购买电脑产品的客户进行比较。

挖掘频繁模式、关联和相关性
频繁模式:在数据中频繁出现的模式。

  • 频繁项集:频繁在事务数据集中一起出现(顾客在小卖部总是一起买牛奶和面包)
  • 频繁子序列:顾客先买数码相机,再买内存卡。
  • 频繁子结构

关联分析(例如分析,哪些商品总是一起被购买)

  • “computer”=>“software”[1% , 50%] 表示所有事务的1%显示计算机和软件被同时购买。购买了计算机的人,有50%的可能性会选择购买软件。

相关性(相关联的属性-值对之间的统计相关性)

用于预测分析的分类和回归

  • 分类:找出描述和区分数据类或概念的模型(或函数),预测类别标号。
  • 回归:建立连续值函数模型,预测缺失的或难以获得的数值数据值。

相关分析可能需要在分类和回归之前进行,它试图识别与分类和回归过程显著相关的属性。

聚类分析
聚类分析:分析数据对象,而不考虑类标号。可以使用聚类产生数据组群的类标号。
—>“最大化类内相似性,最小化类间相似性”

离群点分析
异常挖掘。有时看做噪声而丢弃,但是在比如欺诈检测等应用中,罕见事件的出现,更令人感兴趣。

所有模式都是有趣的吗?

  • 易于被人理解
  • 在某种确信度上,对于新的或检验数据是有效的
  • 潜在有用的
  • 新颖的

客观度量:支持度,置信度。公式  书P14

使用什么技术

数据挖掘概念与技术——读书笔记(1)_第3张图片

  • 统计学:例如建立分类或预测模型之后,统计假设检验来验证模型
  • 机器学习:监督学习(基本上是分类的同义词),无监督学习(本质上是聚类的同义词),半监督学习,主动学习
  • 信息检索:搜索文档或文档中信息的科学

面向什么类型的应用

商务智能、Web搜索、生物信息学、卫生保健信息学、金融、数字图书馆……

数据挖掘的主要问题

  • 挖掘方法
    • 新的知识类型、多维空间中的知识、跨学科、网络环境下的挖掘能力、模式评估
  • 用户交互
    • 结合背景知识
    • 表示和可视化,使知识更容易理解
  • 有效性与可伸缩性
  • 处理多种多样的数据类型
    • 动态的、复杂的。
  • 数据挖掘与社会
    • 保护隐私
    • 社会影响

自己加油加油 笨鸟后飞也要飞呀飞

你可能感兴趣的:(数据挖掘)