决策树(二)构建数据集

1.决策树构建的一般流程

收集数据:任何你能收集数据的方法
准备数据: 决策树的算法只适用于标称型数据(可理解为离散型的,不连续的),因此数值型的数据(连续的数据)必须离散化。
分析数据: 可以使用任何方法,构造树完成之后,我们要检查图形是否符合预期。
训练算法:构造决策树的数据结构。
测试算法: 使用经验树计算错误率。
使用算法: 此步骤可以适用于任何监督学习算法,而使用决策数可以更好的理解数据的内在含义 (why? 对比于其他算法,比如说k均值算法,就是把给定的数据按照相似度分为一类,每一类表示什么你可能就不知道了。就像我们上一章讲的那个例子,可以用决策树做邮件的分类系统,我们可以根据分类标签知道这个邮件是垃圾邮件还是需要立刻处理的邮件)

2. 数据的构建


首先我们第一步还是收集数据:
决策树(二)构建数据集_第1张图片
海洋生物数据

在这张表中我们可以发现这里有5个数据,这里有两个特征(要不要浮出水面生存,和是否有脚蹼)来划分这5个生物是鱼类还是非鱼类。 现在我们要做的就是是要根据第一个特征还是第二个特征来划分数据,进行分类。
def createDataSet():
    dataSet = [[1,1,'yes'],
              [1,1,'yes'],
              [1,0,'no'],
              [0,1,'no'],
              [0,1,'no']] # 我们定义了一个list来表示我们的数据集,这里的数据对应的是上表中的数据

    labels = ['no surfacing','flippers']

    return dataSet, labels

你可能感兴趣的:(决策树(二)构建数据集)