常言道:“一个篱笆三个桩,一个好汉三个帮”。集成(Ensemble)分类模型便是综合考量多个分类器的预测结果,从而做出决策。
只是这种综合考量的方式大体上分两种:
一种是利用相同的训练数据同时搭建多个独立的分类模型,然后通过投票的方式,以少数服从多数的原则作出最终的分类决策。比较具有代表性的模型为随机森林分类器(Random Forest Classifier),即在相同训练数据上同时搭建多可决策树(Decision tree)。然而,一株标准的决策树会根据每维特征对预测结果的影响程度进行排序,进而决定不同特征从上至下构建分裂节点的顺序如此一来,所有在随机森林的决策树都会受这一策略的影响而构建得完全一致,从而丧失多样性。因此随机森林分类器在构建的过程中,每一棵决策树都会放弃这一固定的排序算法,转而随机选取特征。
另一种则是按照一定次序搭建多个分类模型。这些模型之间彼此存在依赖关系。一般而言,每一个后续模型的加入都需要对现有集成模型的综合性能有所贡献,进而不断提升更新过后的进程模型的性能,并最终期望借助整合多个分类较弱的分类器,搭建出具有根强分类能力的模型。比较有代表性的当属梯度提升决策树(Gradient Tree Boosting)。与构建随机森林分类器模型不同,这里每一棵决策树在生成的过程中都会尽可能降低整体模型在训练机上的拟合误差
数据描述:为了对比单一决策树(Decision tree)与集成模型中随机森林分类器(random forest classifier)以及梯度提升决策树(Gradient tree Boosting)的性能差异,依旧使用泰坦尼克号的乘客数据。
使用相同的训练数据(train)和测试数据(test)并利用单一的决策树,随机森林分类以及梯度上升决策树,三种模型各自的默认配置进行初始化,从事预测活动
(1)集成模型对泰坦尼克号乘客是否生还的预测。
#导入pandas
import pandas as pd
#读取互联网上的泰坦尼克乘客档案,存在titanic中
titanic=pd.read_csv('http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt')
#人工选取pclass、age以及sex作为判别乘客是否能够生还的特征,
X=titanic[['pclass','age','sex']]
y=titanic['survived']
#对确实的年龄信息,我们使用全体乘客的平均年龄代替,这样可以保证顺利训练模型的同时,尽可能不影响预测的任务。
X['age'].fillna(X['age'].mean(),inplace=True)
#对原始数据进行分割,25%的数据用于测试
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.25,random_state=33)
#对类别型特征进行转化,称为特征根向量。
from sklearn.feature_extraction import DictVectorizer
vec=DictVectorize(sparse=False)
X_train=vec.fit_transform(X_train.to_dict(orient='record'))
X_test=vec.transform(X_test.to_dict(orient='record'))
#使用单一决策树进行模型训练以及预测分析
from sklearn.tree import DecisionTreeClassifier
dtc=DecisionTreeClassifier()
dtc.fit(X_train,y_train)
dtc_y_pred=dtc.predict(X_test)
#使用随机森林分类器进行集成模型的训练以及预测分析
from, sklearn.ensemble import RandomForestClassifier
rfc=RandomForestClassifier()
rfc.fit(X_train,y_train)
rfc_y_pred=rfc.predict(X_test)
#使用梯度提升决策树进行集成模型的训练以及预测分析
from sklearn.ensamble import GradientBoostingClassifier
gbc=GradientBoostingClassifier()
gbc.fit(X_train,y_train)
gbc_y_pred=gbc.predict(X_test)
(2)性能测评-----集成模型对泰坦尼克号乘客是否生还的预测性能
from sklearn.metrics import classification_report
#输出单一决策树在测试集上的分类准确性,积极更加详细的精确率、召回率、F1指标
print('The accuracy of decision tree is',dtc.score(X_test,y_test))
print(classification_report(dtc_y_pred,y_test))
#输出随机森林分类器在测试集上的分类准确性,以及里更加详细的精确率、召回率和F1指标
print('The accuracy of random forest classifier is',rfc.score(X_test,y_test))
print(classification_report(rfc_y_pred,y_test))
$输出梯度提升决策树在测试集上的分类准确性,以及更加详细的精确率,召回率和f1指标
print('the accuracy of gradient tree boosting is',gbc.score(X_test,y_test))
print(classification_report(gbc_y_pred,y_test))
说明:在相同的训练和测试数据条件下,仅仅使用模型的默认配置,梯度上升决策树具有最佳的预测性能,其次是随机森林分类器,最后是单一决策树。大量在其它数据上的模型实践也证明了上述结论的普适性。一般而言,工业界为了追求更加强劲的预测性能,经常使用随机森林分类模型作为基线系统(baseline system)
特点分析:集成模型可以说是实战中最为常见的。相比于其他的单一的学习模型,集成模型可以整合多种模型,或者多次就一种模型进行建模。由于模型估计参数的过程也同样受到概率的影响,具有一定的不确定性,因此,集成模型虽然在训练过程中要耗费更多的时间,但是得到的综合模型往往具有更高的表现性能和更好的稳定性。
基线系统:通常指的是那些使用经典模型搭建的机器学习系统。研发人员每提出一个新模型,都需要和基线系统在多个具有代表性的数据及上进行性能比较的测试。随机森林分类模型就是经常以基线系统的身份出现在科研论文中,甚至公开的数据竞赛中。