数据挖掘 知识梳理 学习笔记 复习

chapter 1 导论

  1. 什么是大数据

    • Volume
    • Velocity
    • Variety
    • Veracity
  2. 数据挖掘任务

    • 关联分析
    • 聚类
    • 分类/预测
    • 离群点分析
  3. 数据挖掘定义

    从大量的数据中挖掘那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识

  4. 知识发现流程

    1. 数据清理: 消除噪声和删除不一致数据
    2. 数据集成: 多种数据源可以组合在一起
    3. 数据选择: 从数据库中提取和分析任务相关的数据
    4. 数据变换: 把数据变换和统一成适合挖掘的形式
    5. 数据挖掘: 核心步骤, 使用智能方法提取数据模式
    6. 模式评估: 根据兴趣度度量, 识别代表知识真正有趣的模式
    7. 知识表示: 使用可视化和知识表示技术, 向用户提供挖掘的知识
  5. 数据挖掘与其他学科关系

    • 数据库系统
    • 统计学
    • 物理学
    • 机器学习
    • 信息检索
    • 其他

chapter 2 认识数据 数据预处理

  1. 属性分类

    • 标称 二元
    • 序数
    • 数值
  2. 统计描述

    • 中心趋势: 中位数 均值 众数
    • 散布: 极差 四分位数 方差 标准差
  3. 相似性度量

    • 标称
    • 二元: 非对称 Jaccard系数
    • 数值: 先规范化 曼哈顿 欧式
    • 序数: 转化为数值[0, 1] 用数值距离计算
    • 马氏距离 相关系数 KL散度 余弦相似性
  4. 数据预处理: 特征工程

    • 数据清理
      • 缺失值: 忽略 中位数填充 最可能的值填充(决策树)
      • 噪声:光滑分箱 离群点分析聚类 回归
    • 数据集成:实体识别 冗余分析 数值相关分析 离散 χ 2 \chi ^2 χ2分析
    • 数据规约:
      • 维度规约:PCA 小波 特征筛选
      • 数量规约:采样 聚类 回归
    • 数据变换
      • 规范化: 最小最大规范 z-score规范
      • 离散化: 分箱 聚类
    • 数据离散化
    • 信息增益

chapter 3 关联规则

  1. 基本定义:什么是关联规则 支持
  2. P ( A ∪ B ) P(A\cup B) P(AB) 置信度 P ( B ∣ A ) P(B|A) P(BA)
  3. 关联规则挖掘
    1. 寻找频繁项集(支持度)
    2. 从频繁项集中找出强规则(置信度)
  4. Apriori流程
    1. 扫描计数
    2. 与最小支持度计数比较
    3. 连接, 剪枝 (从 L k − 1 L_{k-1} Lk1生成 C k C_k Ck)
  5. 提升Apriori的方法
    • 基于散列
    • 事务压缩
    • 划分
    • 抽样
  6. FP-growth

与Apriori区别: 不同于"产生-测试", 使用FP紧凑数据结构, 直接提取频繁项集

  1. 事务项按支持度排序, 除去支持度不够的项
  2. 构建FP树
  3. 倒序寻找条件模式基: 子数据库
  4. 对子数据库构建FP树
  5. 若为单个路径 产生所有模式 若为多条路径 递归
  • 优点 对长短都是有效可伸缩的 效率快

  • 缺点 内存要求大, 算法复杂

  1. 提升度
    P ( A ∪ B ) P ( A ) P ( B ) \frac{P(A\cup B)}{P(A)P(B)} P(A)P(B)P(AB)

chapter 4 分类

  1. 监督学习(分类/预测) 无监督学习(关联规则 聚类)
  2. 生成模型 判别模型
    • 生成模型: 学习联合概率分布 朴素贝叶斯 隐马尔科夫模型 容量大时, 生成模型容易接近真实模型 能处理具有隐含变量的情景
    • 判别模型: 学习到不同概念从而分类 KNN SVM ANN DT 速度快 准确率高
  3. 分类 回归
  4. DT
    • 如何构建 贪心算法
      • 节点代表属性测试
      • 边代表输出
      • 叶子代表类
    • 属性选择度量
      • 信息增益 倾向于有大量不同的取值属性
        G a i n ( A ) = I n f o ( D ) − I n f o A ( D ) Gain(A)=Info(D)-Info_A(D) Gain(A)=Info(D)InfoA(D)
  • 信息增益率
    S p l i t I n f o A ( D ) = − ∑ j = 1 v ∣ D j ∣ ∣ D ∣ × log ⁡ 2 ( ∣ D j ∣ ∣ D ∣ ) SplitInfo_A(D)=-\sum_{j=1}^{v} \frac{\left|D_{j}\right|}{|D|} \times \log _{2}\left(\frac{\left|D_{j}\right|}{|D|}\right) SplitInfoA(D)=j=1vDDj×log2(DDj)
  • 基尼指数
    gini ⁡ ( D ) = 1 − ∑ j = 1 n p j 2 \operatorname{gini}(D)=1-\sum_{j=1}^{n} p_{j}^{2} gini(D)=1j=1npj2
  • 过拟合解决: 控制树高度 控制dt叶子结点 剪枝:先剪枝 后剪枝
  1. 过拟合:如何避免?

    • 增加样本量 去除噪声
    • 降低模型复杂度
    • train-validation-test
    • 加正则项
  2. KNN(懒惰)

    • 算距离 找邻居 做分类
    • 优点: 简单 易于实现 特别适合处理多分类问题 多标记 在线学习 流形学习
    • 缺点: 类不平衡 可解释性 k值选取 噪声 运算时间
  3. NaiveBayes

    • 类条件独立假设
      P ( X ∣ C i ) = ∏ k = 1 n P ( x k ∣ C i ) P(X|C_i)=\prod_{k=1}^n P(x_k|C_i) P(XCi)=k=1nP(xkCi)
    • 最大化 P ( X ∣ C i ) P ( C i ) P(X|C_i)P(C_i) P(XCi)P(Ci)
    • 邮件欺诈
  4. SVM

    • 基本思想:类的间隔最大化
    • 小样本效果同样很好
    • 决策面只与支持向量相关
    • 泛化能力:结构风险最小化
    • 核函数:非线性问题
  5. ANN
    BP

  6. 集成学习

    • 准则: 基分类器足够好 多样性
    • bagging:RF:当某个节点需要分裂时, 先随机选择一个包含k属性的属性子集 基本思想
    • boosting:Adaboost
    • stacking: 初学习器的输出作为次学习器的输入, 标记不变
  7. 分类评估

    • 准确率 识别率 T P + T N A L L \frac{TP+TN}{ALL} ALLTP+TN
    • 误差率 F P + F N A L L \frac{FP+FN}{ALL} ALLFP+FN
    • 精度 T P T P + F P \frac{TP}{TP+FP} TP+FPTP
    • 召回率 灵敏度 T P T P + F N \frac{TP}{TP+FN} TP+FNTP
    • 特效性 T N N \frac{TN}{N} NTN
    • 类不平衡 精度低

chapter 5 聚类 离群点检测

  1. 什么是聚类
    将数据分为多个簇(Clusters),使得在同一个簇内对象之间具有较高的相似度,而不同簇之间的对象差别较大

    聚类分析是获得数据内部结构的有效方法。

  2. 种类: 划分 层次 网格 密度

  3. k-means

  • 任意分配k个初始值

  • 将每个点划分到距离最近的

  • 重新计算mean点

  • 计算误差

  • 简单快速, 可伸缩 必须实现给出k 对初值敏感 不适合发现非球状的簇 对噪声 孤立点敏感

  1. DBSCAN

    1. ϵ \epsilon ϵ邻域
    2. 核心对象
    3. 直接密度可达 密度可达
    4. 密度相连
    • ϵ \epsilon ϵ和Minspt敏感 伸缩性不好 I/O开销大
  2. 网格聚类
    将空间量化为有限数目单元 速度快 利用网格统计信息聚类 STING

  3. 层次

    • 凝聚 AGNES
    • 分裂 DIANA
  4. 什么是离群点及分类

    • 全局离群点
    • 局部离群点
    • 集体离群点
  5. 方法

    • 统计学 要求事先知道统计分布 只能针对单属性
    • 基于距离
    • 基于偏离
    • 基于密度
  6. lof算法

  7. k-距离

  8. k-距离邻域

  9. 可达距离

  10. 局部可达密度

  11. 局部异常因子(LOF)
    可以检测局部离群点.
    密度不同

chapter 6 大数据技术

  1. 哈希
    • minhash: 降低数据容量 同时保留相似度属性
    • 如何计算签名矩阵: Jaccard similarity
    • 近似计算 lsh: 利用hash表降低寻找相同band时间复杂度
    • 哈希桶尽可能避免碰撞
  2. 数据流
    • 挑战: 无限长度 概念漂移
    • 单次扫描 低时间复杂度 低空间复杂度
    • 概念漂移 :real P ( y ∣ X ) P(y|X) P(yX)改变
    • 检测
      • 基于分布 ADWIN 很难决定窗口大小 只能检测到virtual概念漂移
      • 基于错误率 DDM 噪声敏感 无法检测缓慢漂移 错误率显著增加
  3. 分类:
    • Process an example at a time, and inspect it only once
      • Be ready to predict at any point
    • Use a limited amount of memory
    • Work in a limited amount of time
    • cfdt synctree(hoefdig bound)
  4. 聚类 在线 抽象压缩(微簇 特征簇) 线下 dbscan kmeans
  5. 什么是Hadoop?
    Hadoop is a software framework for distributed processing of large datasets across large clusters of computers

Large number of low-end cheap machines working in parallel to solve a computing problem

  1. Hadoop生态:HDFS map reduce
    1. HDFS: master(namenode)-slave(data) node block replication failure tolerance .
    2. MapReduce
  2. MapReduce缺点
    • inefficient for multi pass algorithm
    • No efficient data sharing due to replication
      引入spark
  3. spark是什么
    • generalize MapReduce
    • Apache Spark is a fast and general-purpose cluster computing system.
    • spark SQL Streaming GraphX MLlib
    • Resilient distributed dataset
  4. 优点与MapReduce对比 1 MapReduce单轮迭代 spark多轮 2 MapReduce共享机制 spark扩展rdd 3 spark丰富api 4. Same engine performs data extraction, model training and interactive queries

你可能感兴趣的:(学习笔记)