随机森林1

简介

  本篇主要是对随机森林的笔记记录。

具体实现

  基本原理就不做介绍了,网上很多资料。这里直接根据代码讲解下具体实现流程。

前提准备

  这里用一个数据分类作为讲解,待分类的数据如下:
             
如上所示,最前面的‘+’、‘-’为数据分类标签,这里将数据分为 ‘+样本’和 ‘-样本’。
数据有两组,分别为训练集(2950个数据样本)和测试集(994个数据样本),其中每个样本包含25个(0,1)数据,每个数据就表示该样本的一个特征。


训练流程

  1、设置tree的数量为10,表示我们需要训练10颗随机数。

    2、从训练集中随机抽取2950个样本(数据样本可以重复)样本作为一次训练的训练样本集D。

    3、如果D中所有样本都是‘+’或者都是‘-’,则当前训练树根节点标签属性为‘+’或者‘-’,训练结束。

    4、从25个样本特征中随机抽取25个特征(特征可重复)作为训练特征集A。通过信息熵公式,计算出在哪个特征下,训练样本集D的信息增益最大。
       (比如当前计算第6个特征,则依次抽取集合D中,所有样本的第六个数据,加入计算得到对应信息增益值,根据增益值比较,得到最大增益值对应特征值)。

    5、根据最大信息增益特征值,将训练样本D分为2类,并且tree分别对应创建2个子节点,同时在训练特征集中将当前最大增益特征值删除,并且当前节点特征属性为该最大增益特征值。
       (比如得到特征值为12,则训练样本集D中,每个样本第12个数据,为1的分为1类,为0的分为一类)。

    6、检测新分类出来的的2个训练集中,如果某个集合样本标签全部为‘+’或者全部为‘-’,则该集合对应的节点标签属性为对应的‘+’或者‘-’,该分支训练结束。
       如果当前训练特征集合数据为空,则比较当前训练集中,如果‘+’样本数量大于‘-’样本数量,则当前节点标签属性为‘+’,反之为‘-’。

    7、如果新分类训练集和剩下的训练特征集合不满足第6步,则进入第5步,继续训练计算,知道最后特征集合为空或者所有分类特征集标签全部一致。
       则完成一颗树的训练。

    8、把2-7步循环10,并将训练树结果保存,便得到最终10颗树的训练模型。

测试流程

  1、保证测试样本数据格式需要和训练样本保持一致。

  2、获取一个训练样本,放入一个模型树中,如果树的根节点为‘+’或者‘-’,则返回当前树的标签对应的‘+’或者‘-’。

  3、检测根节点属性(训练时候每个节点保存的当前最大信息增益属性),根据测试样本当前特征属性值为1或者0,进入到树对应分支中。

  4、检测当前节点标签,如果有,则直接返回该标签,表示为该样本的结果标签。

  5、如果没有标签,则检查当前节点属性,找到测试样本对应的特征属性值,进入到树对应分支,跳转到第4步继续检测,直到找到该样本标签返回。

  6、依次循环10次,对应得到10颗随机树对应返回的标签结果,如果标签‘+’>‘-’,则返回当前测试样本分为结果为‘+’,反之为‘-’。

你可能感兴趣的:(图形图像,机器学习)