监督学习-分类模型6-集成模型(Ensemble)

模型介绍

常言道:“一个篱笆三个桩,一个好汉三个帮”。集成分类模型便是综合考量多个分类器的预测结果,从而做出决策。具体分为两种:

  • 一种是利用相同的训练数据同时搭建多个独立的分类模型,然后通过投票的方式,以少数服从多数的原则作出最终的分类决策。代表模型有随机森林分类器(Random Forest Classifier)
  • 另一种是按照一定次序搭建多个分类模型。这些模型之间彼此存在依赖关系。代表模型有梯度提升决策树(Gradient Tree Boosting)

编程实践

依旧使用泰坦尼克号的数据,对比单一决策树、随即森林、梯度提升决策树的性能差异

import pandas as pd

titanic=pd.read_csv('http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt')

X=titanic[['pclass','age','sex']]
y=titanic['survived']

X['age'].fillna(X['age'].mean(),inplace=True)

from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.25,random_state=33)

#对类别特征进行转化,成为特征向量
from sklearn.feature_extraction import DictVectorizer
vec=DictVectorizer(sparse=False)
X_train=vec.fit_transform(X_train.to_dict(orient='record'))
X_test=vec.transform(X_test.to_dict(orient='record'))

#使用单一决策树
from sklearn.tree import DecisionTreeClassifier
dtc=DecisionTreeClassifier()
dtc.fit(X_train,y_train)
dtc_y_pred=dtc.predict(X_test)

#使用随机森林
from sklearn.ensemble import RandomForestClassifier
rfc=RandomForestClassifier()
rfc.fit(X_train,y_train)
rfc_y_pred=rfc.predict(X_test)

#使用梯度提升决策树
from sklearn.ensemble import GradientBoostingClassifier
gbc=GradientBoostingClassifier()
gbc.fit(X_train,y_train)
gbc_y_pred=gbc.predict(X_test)

#输出评估信息
from sklearn.metrics import classification_report
#单一决策树
print('decision tree accuracy:',dtc.score(X_test,y_test))
print(classification_report(dtc_y_pred,y_test))
#随机森林
print('random forest classifier accuracy:',rfc.score(X_test,y_test))
print(classification_report(rfc_y_pred,y_test))
#梯度提升决策树
print('gradient tree boosting accuracy:',gbc.score(X_test,y_test))
print(classification_report(gbc_y_pred,y_test))

监督学习-分类模型6-集成模型(Ensemble)_第1张图片

特点分析

上图表面,相同的训练和测试数据条件下,仅仅使用模型的默认配置,梯度上升决策树具有最佳的预测性能,其次是随机森林,最后是单一决策树。工业界经常使用随机森林分类模型作为基线系统(Baseline System)。

集成模型在训练中要耗费更多的时间,但是得到的综合模型往往具有更高的表现性能和更好的稳定性。

你可能感兴趣的:(机器学习)