数据仓库与数据挖掘-分类预测与决策树 个人笔记

声明:文中内容基于山东某高校数据挖掘课程的课件,本系列文章为课程内容的个人总结以及笔记内容。

分类预测

分类是一种中重要的数据分析形式,它提取刻画重要数据类的模型。这种模型称为分类器,预测分类的(离散的、无序的)类标号。这些类别可以用离散值表示,其中,值之间的次序没有意义。

分类任务: 通过学习得到一个目标函数F,把每个属性x映射到一个预先定义的类标号y。
注:y为离散变量。
目标函数F也称为分类模型

数据仓库与数据挖掘-分类预测与决策树 个人笔记_第1张图片
解决分类问题的一般方法:
数据仓库与数据挖掘-分类预测与决策树 个人笔记_第2张图片
分类举例:
肿瘤:预测肿瘤是良性还是恶性
根据鸢尾花花瓣、花萼长度和宽度,把鸢尾花进行分类。
新闻:把新闻分为财经、天气、娱乐、体育等

决策树算法

决策树算法是一种归纳分类算法,它通过对训练集的学习,挖掘出有用的规则,用于对新集进行预测。

数据仓库与数据挖掘-分类预测与决策树 个人笔记_第3张图片
决策树的结构
数据仓库与数据挖掘-分类预测与决策树 个人笔记_第4张图片
决策树工作原理
决策树算法以树状结构标识数据分类的结果。
每个决策点实现一个具有离散输出的测试函数。记为分支。
1、根节点
2、非叶子结点(决策点)
3、叶子节点
4、分支
数据仓库与数据挖掘-分类预测与决策树 个人笔记_第5张图片
决策树分类
数据仓库与数据挖掘-分类预测与决策树 个人笔记_第6张图片
决策树分类举例
数据仓库与数据挖掘-分类预测与决策树 个人笔记_第7张图片
数据仓库与数据挖掘-分类预测与决策树 个人笔记_第8张图片
以上两张图表明,对于同一个记录表,可以有多个决策树。
数据仓库与数据挖掘-分类预测与决策树 个人笔记_第9张图片

你可能感兴趣的:(决策树,数据挖掘,机器学习)