【数据挖掘】第4章 分类:基本概念与技术

分类:基本概念与技术

4.1 分类的基本概念

  • 分类任务示例
  • 分类的定义:测试集、训练集、预测测试集
  • 建立分类模型的一般方法
    • 第一步:建立模型
      • 步骤一:将样本转化为等维的数据特征
      • 步骤二:选择与类别相关的特征
      • 步骤三:分别得到训练样本集和测试样本集
    • 第二步:用模型进行分类

4.2 模型过拟合

  • 模型过拟合的原因
    • 训练数据少
    • 模型复杂度高:多重比较过程的影响

4.3 分类模型评估

  • 分类模型的评价指标:1234⑤精度⑥召回率

4.4 分类技术

  • 基分类器:决策树、基于规则的方法、最近邻、神经网络、深度学习、贝叶斯网络、支持向量机、softmax
  • 组合分类器:Boosting、Bagging、随机森林

4.4.1 决策树

  • Hunt算法
  • 表示属性测试条件的方法
  • 基于连续属性的样本划分
  • 问题1:如何确定最佳划分
  • 不纯性测量:熵
  • 连续属性:计算基尼指数
  • 增益率:克服信息增益的缺点

你可能感兴趣的:(【数据科学与大数据技术】,数据挖掘,分类,人工智能)