随机森林应该是机器学习算法时最先接触到的集成算法,集成学习的家族: Bagging: 个体评估器之间不存在强依赖关系,一系列个体学习器可以并行生成。 代表算法:随机森林(Random Forest) Boosting:个体学习器之间存在强依赖关系,一系列个体学习器基本都需要串行生成。 代表算法:AdaBoost、GBDT、XGBoost、LightGBM
随机森林的生成
每棵树的按照如下规则生成:
1)如果训练集大小为N,对于每棵树而言,
随机且有放回地从训练集中的抽取N个训练样本(这种采样方式称为bootstrap sample方法),作为该树的训练集;
2)如果每个样本的特征维度为M,指定一个常数m<
3)每棵树都尽最大程度的生长,并且没有剪枝过程。
随机森林分类效果(错误率)与两个因素有关
森林中任意两棵树的相关性:相关性越大,错误率越大;
森林中每棵树的分类能力:每棵树的分类能力越强,整个森林的错误率越低。
减小**特征选择个数m**,树的相关性和分类能力也会相应的降低;
增大m,两者也会随之增大。
所以关键问题是**如何选择最优的m**(或者是范围),这也是随机森林唯一的一个参数。
# 参考: https://blog.csdn.net/HRMEMEDA/article/details/125678213
import pandas as pd
import numpy as np
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OrdinalEncoder
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn import ensemble
from sklearn.model_selection import cross_val_score
from sklearn.metrics import roc_curve, auc
import matplotlib.pyplot as plt
# %matplotlib inline
plt.rcParams['font.size'] = 24
# 数据准备
data = sns.load_dataset('titanic') # 导入泰坦尼克号生还数据
# data
# 数据预处理
data.replace(to_replace=r'^\s*$', value=np.nan, regex=True, inplace=True) # 把各类缺失类型统一改为NaN的形式
data.isnull().mean()
del data['deck'] # 删除‘deck’列
del data['who']
del data['adult_male']
del data['class']
del data['alone']
data['age'].fillna(np.mean(data.age), inplace=True) # 年龄特征使用均值对缺失值进行填补
data['embarked'].fillna(data['embarked'].mode(dropna=False)[0], inplace=True) # 文本型特征视同众数进行缺失值填补
x = data.drop(['alive', 'survived', 'embark_town'], axis=1) # 取出用于建模的特征列X
label = data['survived'] # 取出标签列Y
oe = OrdinalEncoder() # 定义特征转化函数
# 把需要转化的特征都写进去
x[['sex', 'embarked']] = oe.fit_transform(x[['sex', 'embarked']])
x.head()
# 划分训练集、测试集
xtrain, xtest, ytrain, ytest = train_test_split(x, label, test_size=0.3)
xtrain.head()
"""
随机森林所有超参数
sklearn.ensemble.RandomForestClassifier (n_estimators=100, criterion=’gini’, max_depth=None, min_samples_split=2, min_samples_leaf=1,
min_weight_fraction_leaf=0.0, max_features=’auto’, max_leaf_nodes=None, min_impurity_decrease=0.0,
min_impurity_split=None, class_weight=None, random_state=None, bootstrap=True, oob_score=False,
n_jobs=None, verbose=0, warm_start=False)
"""
# 下面把随机森林与单个决策树的拟合效果放在一起对比
# 单颗决策树
clf = DecisionTreeClassifier(class_weight='balanced', random_state=37)
clf = clf.fit(xtrain, ytrain) # 拟合训练集
score_c = clf.score(xtest, ytest) # 输出测试集准确率
# 随机森林
rfc = RandomForestClassifier(class_weight='balanced', random_state=37)
rfc = rfc.fit(xtrain, ytrain)
score_r = rfc.score(xtest, ytest)
# 决策树 预测测试集
y_test_proba_clf = clf.predict_proba(xtest)
false_positive_rate_clf, recall_clf, thresholds_clf = roc_curve(ytest, y_test_proba_clf[:, 1])
# 决策树 AUC指标
roc_auc_clf = auc(false_positive_rate_clf, recall_clf)
# 模型效果
# 随机森林 预测测试集
y_test_proba_rfc = rfc.predict_proba(xtest)
false_positive_rate_rfc, recall_rfc, thresholds_rfc = roc_curve(ytest, y_test_proba_rfc[:, 1])
# 随机森林 AUC指标
roc_auc_rfc = auc(false_positive_rate_rfc, recall_rfc)
# 画图 画出俩模型的ROC曲线
plt.plot(false_positive_rate_clf, recall_clf, color='blue', label='AUC_clf=%0.3f' % roc_auc_clf)
plt.plot(false_positive_rate_rfc, recall_rfc, color='orange', label='AUC_rfc=%0.3f' % roc_auc_rfc)
plt.legend(loc='best', fontsize=15, frameon=False)
plt.plot([0, 1], [0, 1], 'r--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.0])
plt.ylabel('Recall')
plt.xlabel('Fall-out')
plt.show()
# 调参
# 定义空列表,用来存放每一个基学习器数量所对应的AUC值
superpa = []
# 循环200次
for i in range(200):
rfc = ensemble.RandomForestClassifier(n_estimators=i + 1, class_weight='balanced', random_state=37, n_jobs=10)
rfc = rfc.fit(xtrain, ytrain) # 拟合模型
y_test_proba_rfc = rfc.predict_proba(xtest) # 预测测试集
false_positive_rate_rfc, recall_rfc, thresholds_rfc = roc_curve(ytest, y_test_proba_rfc[:, 1])
roc_auc_rfc = auc(false_positive_rate_rfc, recall_rfc) # 计算模型AUC
superpa.append(roc_auc_rfc) # 记录每一轮的AUC值
print(max(superpa), superpa.index(max(superpa))) # 输出最大的AUC值和其对应的轮数
plt.figure(figsize=[20, 5])
plt.plot(range(1, 201), superpa)
plt.show()