机器学习中的决策树的应用

机器学习的基本概念:

训练集:用来进行训练的集合,也可以理解为原始数据。

测试集:用来检测用训练集训练出来的模型的好坏,可以用训练集来测试的集合,就是测试集。

一个简单的例子:

样例 天气 温度 湿度 风力 水温 预报 享受运动
1 普通 一样
2 一样
3 变化
4 变化
小明做某项水上运动,已知的一些数据如上,我们可以将前三行数据认为是训练集。表中的预报表示天气预报和实际的天气相比是一样的还是有变化的。如果用这些训练集去训练,得到一个模型,那么现在用第四行数据去测试这个模型,看看结果是不是一样的,那么第四行的数据就是测试集。

特征向量:在本例中天气,温度,湿度,风力,水温,预报这些构成了特征向量。

分类:目标就是两种情况,非此即彼。例如上例中的小明是否享受运动。

回归:目标是连续的。


一个算法的好坏由以下几个方面来评估:

  1. 准确性
  2. 速度
  3. 强壮性(也就是一些数据缺失的时候,这个算法是不是还是可以用的)
  4. 可规模性(也就是这个算法可不可以支撑起大规模数据的运用)
  5. 可解释性
一个决策树的算法:
机器学习中的决策树的应用_第1张图片


在这个例子中,人们是否购买电脑,取决于四个因素:age(年龄),income(收入),student(是不是学生),credit_rating(信用情况)。
年龄、收入分为三种情况,是不是学生以及信用情况各分为两种情况。
以第一条为例:
特征向量可以表示成
youth   middle_age   senior      high   medium   low    no   yes    fair     excellent                 buy?
    1                0                 0              1             0           0        1      0       1             0                           0
特征向量为[1,0,0,1,0,0,1,0,1,0]
同理
第二行的特征向量可以表示成[1,0,0,1,0,0,1,0,0,1]
以此类推,就可以得到14个特征向量。将这些特征向量用去训练。可以得到一个模型。
最终的决策树如下: 机器学习中的决策树的应用_第2张图片





















你可能感兴趣的:(机器学习中的决策树的应用)