随机森林分类+随机森林回归+实例:用随机森林回归填补缺失值+机器学习调参思想+实例:随机森林在乳腺癌数据上的调参

文章目录

  • 一、集成算法概述
  • 二、重要参数
    • 1、控制基评估器的参数
    • 2、n_estimators
    • 3、random_state
    • 4、bootstrap & oob_score
  • 三、重要属性和接口
  • 四、随机森林回归器
    • 1、重要参数,属性与接口
    • 2、实例:用随机森林回归填补缺失值
  • 五、机器学习中调参的基本思想
  • 六、 实例:随机森林在乳腺癌数据上的调参

一、集成算法概述

集成学习(ensemble learning)是时下非常流行的机器学习算法,它本身不是一个单独的机器学习算法,而是通过在数据上构建多个模型,集成所有模型的建模结果。基本上所有的机器学习领域都可以看到集成学习的身影,在现实中集成学习也有相当大的作用,它可以用来做市场营销模拟的建模,统计客户来源,保留和流失,也可用来预测疾病的风险和病患者的易感性。在现在的各种算法竞赛中,随机森林,梯度提升树(GBDT),Xgboost等集成 算法的身影也随处可见,可见其效果之好,应用之广。

多个模型集成成为的模型叫做集成评估器(ensemble estimator),组成集成评估器的每个模型都叫做基评估器 (base estimator)。通常来说,有三类集成算法:装袋法(Bagging),提升法(Boosting)和stacking。

**装袋法的核心思想是构建多个相互独立的评估器,然后对其预测进行平均或多数表决原则来决定集成评估器的结 果。装袋法的代表模型就是随机森林。

提升法中,基评估器是相关的,是按顺序一一构建的。其核心思想结合弱评估器的力量一次次对难以评估的样本进行预测,从而构成一个强评估器。提升法的代表模型有Adaboost和梯度提升树。

随机森林分类+随机森林回归+实例:用随机森林回归填补缺失值+机器学习调参思想+实例:随机森林在乳腺癌数据上的调参_第1张图片

二、重要参数

1、控制基评估器的参数

随机森林分类+随机森林回归+实例:用随机森林回归填补缺失值+机器学习调参思想+实例:随机森林在乳腺癌数据上的调参_第2张图片
单个决策树的准确率越高,随机森林的准确率也会越高,因为装袋法是依赖于平均值或 者少数服从多数原则来决定集成的结果的。

2、n_estimators

n_estimators越 大,模型的效果往往越好。但是相应的,任何模型都有决策边界,n_estimators达到一定的程度之后,随机森林的 精确性往往不在上升或开始波动,并且,n_estimators越大,需要的计算量和内存也越大,训练的时间也会越来越 长。对于这个参数,我们是渴望在训练难度和模型效果之间取得平衡。

n_estimators的默认值在现有版本的sklearn中是10,但是在即将更新的0.22版本中,这个默认值会被修正为 100。这个修正显示出了使用者的调参倾向:要更大的n_estimators。

from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_val_score
from matplotlib import pyplot as plt


wine = load_wine()
x_train, x_test, y_train, y_test = train_test_split(wine.data,wine.target, test_size=0.3)

rfc = RandomForestClassifier(n_estimators=25)
rfc = rfc.fit(x_train, y_train)
score = rfc.score(x_test, y_test)
print(score)
#0.9814814814814815

画出随机森林和决策树在一组交叉验证下的效果对比

rfc = RandomForestClassifier(n_estimators=25)
rfc_s = cross_val_score(rfc,wine.data,wine.target,cv=10)
clf = DecisionTreeClassifier()
clf_s = cross_val_score(clf,wine.data,wine.target,cv=10)
plt.plot(range(1,11),rfc_s,label = "RandomForest")
plt.plot(range(1,11),clf_s,label = "Decision Tree")
plt.legend()
plt.show()

随机森林分类+随机森林回归+实例:用随机森林回归填补缺失值+机器学习调参思想+实例:随机森林在乳腺癌数据上的调参_第3张图片

画出随机森林和决策树在十组交叉验证下的效果对比

rfc_l = []
clf_l = []
for i in range(10):
    rfc = RandomForestClassifier(n_estimators=25)
    rfc_s = cross_val_score(rfc,wine.data,wine.target,cv=10).mean()
    rfc_l.append(rfc_s)
    clf = DecisionTreeClassifier()
    clf_s = cross_val_score(clf,wine.data,wine.target,cv=10).mean()
    clf_l.append(clf_s)
    
plt.plot(range(1,11),rfc_l,label = "Random Forest")
plt.plot(range(1,11),clf_l,label = "Decision Tree")
plt.legend()
plt.show()

随机森林分类+随机森林回归+实例:用随机森林回归填补缺失值+机器学习调参思想+实例:随机森林在乳腺癌数据上的调参_第4张图片
n_estimators的学习曲线

superpa = []
for i in range(200):
    rfc = RandomForestClassifier(n_estimators=i+1, n_jobs=-1)
    rfc_s = cross_val_score(rfc, wine.data, wine.target, cv=10).mean()
    superpa.append(rfc_s)
print(max(superpa), superpa.index(max(superpa)))
#0.9888888888888889 23
plt.figure(figsize=[20, 5])
plt.plot(range(1, 201), superpa)
plt.show()

随机森林分类+随机森林回归+实例:用随机森林回归填补缺失值+机器学习调参思想+实例:随机森林在乳腺癌数据上的调参_第5张图片

3、random_state

随机森林的本质是一种装袋集成算法(bagging),装袋集成算法是对基评估器的预测结果进行平均或用多数表决原则来决定集成评估器的结果。在刚才的红酒例子中,我们建立了25棵树,对任何一个样本而言,平均或多数表决原则下,当且仅当有13棵以上的树判断错误的时候,随机森林才会判断错误。单独一棵决策树对红酒数据集的分类准确率在0.85上下浮动,假设一棵树判断错误的可能性为0.2(ε),那20棵树以上都判断错误的可能性是:
在这里插入图片描述
可见,判断错误的几率非常小,这让随机森林在红酒数据集上的表现远远好于单棵决策树。

随机森林中其实也有random_state,用法和分类树中相似,只不过在分类树中,一个random_state只控制生成一 棵树,而随机森林中的random_state控制的是生成森林的模式,而非让一个森林中只有一棵树。

当random_state固定时,随机森林中生成是一组固定的树,但每棵树依然是不一致的,这是 用”随机挑选特征进行分枝“的方法得到的随机性。并且我们可以证明,当这种随机性越大的时候,袋装法的效果一 般会越来越好。用袋装法集成时,基分类器应当是相互独立的,是不相同的。

4、bootstrap & oob_score

要让基分类器尽量都不一样,一种很容易理解的方法是使用不同的训练集来进行训练,而袋装法正是通过有放回的随机抽样技术来形成不同的训练数据,bootstrap就是用来控制抽样技术的参数。
随机森林分类+随机森林回归+实例:用随机森林回归填补缺失值+机器学习调参思想+实例:随机森林在乳腺癌数据上的调参_第6张图片
一般来说,自助集大约平均会包含63%的原始数据。因为每一个样本被抽到某个自助集中的概率为:
在这里插入图片描述
当n足够大时,这个概率收敛于1-(1/e),约等于0.632。因此,会有约37%的训练数据被浪费掉,没有参与建模, 这些数据被称为袋外数据(out of bag data,简写为oob)。

也就是说,在使用随机森林时,我们可以不划分测试集和训练集,只需要用袋外 数据来测试我们的模型即可。

#无需划分训练集和测试集然后进行交叉验证,也可以不划分,直接观察袋外数据的测试分数
rfc = RandomForestClassifier(n_estimators=25, oob_score=True)
rfc = rfc.fit(wine.data, wine.target)
#重要属性oob_score_
print(rfc.oob_score_)
#0.9662921348314607

三、重要属性和接口

除了.estimators_ 和 .oob_score_ 这两个重要属性。随机森林自然也有.feature_importances_这个属性。随机森林的接口与决策树完全一致,因此依然有四个常用接口:apply, fit, predict和score。除此之外,还需要注意随机森林的predict_proba接口,这个接口返回每个测试样本对应的被分到每一类标签的概率,标签有几个分类就返回几个概率。则predict_proba返回的数值大于0.5的,被分为1,小于0.5的,被分为0

rfc = RandomForestClassifier(n_estimators=25)
rfc = rfc.fit(x_train, y_train)
score = rfc.score(x_test, y_test)
print(score)
#0.9814814814814815

print(rfc.feature_importances_)  #得到所有特征值的重要性系数
print(rfc.apply(x_test))  #得到测试集所被分配到的叶子结点
rfc.predict(Xtest)
rfc.predict_proba(Xtest)

Bonus:Bagging的另一个必要条件
之前我们说过,在使用袋装法时要求基评估器要尽量独立。其实,袋装法还有另一个必要条件:基分类器的判断准确率至少要超过随机分类器,即时说,基分类器的判断准确率至少要超过50%。

import numpy as np
x = np.linspace(0,1,20)
y = []
for epsilon in np.linspace(0,1,20):
    E = np.array([comb(25,i)*(epsilon**i)*((1-epsilon)**(25-i)) 
                  for i in range(13,26)]).sum()
    y.append(E)
plt.plot(x,y,"o-",label="when estimators are different")
plt.plot(x,x,"--",color="red",label="if all estimators are same")
plt.xlabel("individual estimator's error")
plt.ylabel("RandomForest's error")
plt.legend()
plt.show()

随机森林分类+随机森林回归+实例:用随机森林回归填补缺失值+机器学习调参思想+实例:随机森林在乳腺癌数据上的调参_第7张图片

四、随机森林回归器

1、重要参数,属性与接口

criterion

回归树衡量分枝质量的指标,支持的标准有三种:
1)输入"mse"使用均方误差mean squared error(MSE),父节点和叶子节点之间的均方误差的差额将被用来作为 特征选择的标准,这种方法通过使用叶子节点的均值来最小化L2损失
在这里插入图片描述

2)输入“friedman_mse”使用费尔德曼均方误差,这种指标使用弗里德曼针对潜在分枝中的问题改进后的均方误差

3)输入"mae"使用绝对平均误差MAE(mean absolute error),这种指标使用叶节点的中值来最小化L1损失

在回归中,我们追求的是,MSE越小越好。 然而,回归树的接口score返回的是R平方,并不是MSE。R平方被定义如下:
随机森林分类+随机森林回归+实例:用随机森林回归填补缺失值+机器学习调参思想+实例:随机森林在乳腺癌数据上的调参_第8张图片
虽然均方误差永远为正,但是sklearn当中使用均方误差作为评判标准时,却是计算”负均方误 差“(neg_mean_squared_error)。

最重要的属性和接口,都与随机森林的分类器相一致,还是apply, fit, predict和score最为核心。值得一提的是,随 机森林回归并没有predict_proba这个接口,因为对于回归来说,并不存在一个样本要被分到某个类别的概率问 题,因此没有predict_proba这个接口。

2、实例:用随机森林回归填补缺失值

我们从现实中收集的数据,几乎不可能是完美无缺的,往往都会有一些缺失值。面对缺失值,很多人选择的方式是 直接将含有缺失值的样本删除,这是一种有效的方法,但是有时候填补缺失值会比直接丢弃样本效果更好,即便我 们其实并不知道缺失值的真实样貌。我们可以使用sklearn.impute.SimpleImputer来轻松地将均 值,中值,或者其他最常用的数值填补到数据中

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.ensemble import RandomForestRegressor
from sklearn.impute import SimpleImputer
from sklearn.datasets import load_boston
from sklearn.model_selection import cross_val_score


boston = load_boston()
#print(boston)
x = boston.data
y = boston.target

#print(x.shape)
#(506, 13)
#print(y.shape)
#(506,)

x_full, y_full = x, y
n_samples = x_full.shape[0]
n_features = x_full.shape[1]

#制造缺失值
rng = np.random.RandomState(0)
missing_rate = 0.5
n_missing_samples = int(np.floor(n_samples * n_features * missing_rate))
#np.floor向下取整,返回.0格式浮点数

#所有数据要随机遍布在数据集的各行各列当中,而一个缺失的数据会需要一个行索引和一个列索引
#如果能够创造一个数组,包含3289个分布在0~506中间的行索引,和3289个分布在0~13之间的列索引,那我们就可以利用索引来为数据中的任意3289个位置赋空值
#然后我们用0,均值和随机森林来填写这些缺失值,然后查看回归的结果如何

missing_features = rng.randint(0, n_features, n_missing_samples)
missing_samples = rng.randint(0, n_samples, n_missing_samples)
#randint(起始值,终止值,产生的随机数个数)

x_missing = x_full.copy()
y_missint = y_full.copy()


x_missing[missing_samples, missing_features] = np.nan
#print(x_missing)

x_missing = pd.DataFrame(x_missing)
#print(x_missing)

#使用0和均值填补缺失值
imp_mean = SimpleImputer(missing_values=np.nan, strategy='mean')
x_missing_mean = imp_mean.fit_transform(x_missing)
#print(x_missing_mean)

#用零来填补
imp_0 = SimpleImputer(missing_values=np.nan, strategy='constant', fill_value=0)
#strategy='constant'r————>填补一个常数,数值为0
x_missing_0 = imp_mean.fit_transform(x_missing)
#print(x_missing_0)

#用随机森林回归来填补缺失值
x_missing_reg = x_missing.copy()
#print(x_missing.isnull().sum(axis=0)) 可以得到每隔列索引上的缺失值个数,但我们要的是缺失值从小到大排列的索引顺序
sort_values = np.sort(x_missing.isnull().sum(axis=0))
#print(sort_index)  #[185 189 196 197 197 200 200 201 201 202 203 204 214]得到的是缺失值个数的排列,这还不是想要的,我们要的是索引值
sort_index = np.argsort(x_missing.isnull().sum(axis=0))
#print(sort_index)  #得到了所有列缺失值个数从小到大的排列顺序,接下来要从缺失值最小的列开始,也就是按照sort_index里面的顺序开始

#建立一个新的pf_0,为了不改变原有的x_missing_reg数值

#print(pf_0) #是datafram格式


for i in sort_index:
    # 构建我们的新特征矩阵和新标签
    df = x_missing_reg.copy()
    fillc = df.iloc[:, i]
    df = pd.concat([df.iloc[:, df.columns != i], pd.DataFrame(y_full)], axis=1)

    # 在新特征矩阵中,对含有缺失值的列,进行0的填补
    df_0 = SimpleImputer(missing_values=np.nan,
                         strategy='constant', fill_value=0).fit_transform(df)

    # 找出我们的训练集和测试集
    Ytrain = fillc[fillc.notnull()]
    Ytest = fillc[fillc.isnull()]
    Xtrain = df_0[Ytrain.index, :]
    Xtest = df_0[Ytest.index, :]

    # 用随机森林回归来填补缺失值
    rfc = RandomForestRegressor(n_estimators=100)
    rfc = rfc.fit(Xtrain, Ytrain)
    Ypredict = rfc.predict(Xtest)

    #将填补好的特征返回到原始特征矩阵中
    x_missing_reg.loc[x_missing_reg.iloc[:, i].isnull(), i] = Ypredict

#对填补好的数据进行建模
#对所有数据进行建模,取得MSE结果
X = [x_full, x_missing_mean, x_missing_0, x_missing_reg]

mse = []
for x in X:
    estimator = RandomForestRegressor(n_estimators=100, random_state=0)
    scorces = cross_val_score(estimator, x, y_full, cv=5, scoring='neg_mean_squared_error').mean()

    mse.append(scorces * -1)


#用所得的结果画图
x_labels = ['full data', 'zero imputation', 'mean imputation', 'regressor imputation']
color = ['r', 'g', 'b', 'orange']
plt.figure(figsize=(12, 6))
ax = plt.subplot(111)
for i in range(len(x_labels)):
    ax.barh(i, mse[i], color=color[i], alpha=0.6, align='center')

ax.set_title('Imputation Techniques with Boston Data')
ax.set_xlim(left=np.min(mse) * 0.9, right=np.max(mse) * 1.1)
ax.set_yticks(np.arange(len(mse)))
ax.set_xlabel('MSE')
ax.set_yticklabels(x_labels)
plt.show()

随机森林分类+随机森林回归+实例:用随机森林回归填补缺失值+机器学习调参思想+实例:随机森林在乳腺癌数据上的调参_第9张图片

五、机器学习中调参的基本思想

用来衡量模型在未知数据上的准确率的指标,叫做泛化误差(Genelization error)

当模型在未知数据(测试集或者袋外数据)上表现糟糕时,我们说模型的泛化程度不够,泛化误差大,模型的效果 不好。泛化误差受到模型的结构(复杂度)影响。看下面这张图,它准确地描绘了泛化误差与模型复杂度的关系, 当模型太复杂,模型就会过拟合,泛化能力就不够,所以泛化误差大。当模型太简单,模型就会欠拟合,拟合能力 就不够,所以误差也会大。只有当模型的复杂度刚刚好的才能够达到泛化误差最小的目标。
随机森林分类+随机森林回归+实例:用随机森林回归填补缺失值+机器学习调参思想+实例:随机森林在乳腺癌数据上的调参_第10张图片
1)模型太复杂或者太简单,都会让泛化误差高,我们追求的是位于中间的平衡点
2)模型太复杂就会过拟合,模型太简单就会欠拟合
3)对树模型和树的集成模型来说,树的深度越深,枝叶越多,模型越复杂
4)树模型和树的集成模型的目标,都是减少模型复杂度,把模型往图像的左边移动
随机森林分类+随机森林回归+实例:用随机森林回归填补缺失值+机器学习调参思想+实例:随机森林在乳腺癌数据上的调参_第11张图片

六、 实例:随机森林在乳腺癌数据上的调参

from sklearn.datasets import load_breast_cancer
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import cross_val_score
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt

breast = load_breast_cancer()
#print(x, y)
x = breast.data
y = breast.target

#单次实验结果
rfc = RandomForestClassifier()
score = cross_val_score(rfc, x, y, cv=10).mean()
print(score)  #0.9578320802005011

#画n_estimator学习曲线,选取最佳参数值
scores = []
for i in range(0, 200, 10):
    rfc = RandomForestClassifier(n_estimators=i+1, n_jobs=-1, random_state=0)
    #做迭代循环的时候,一定要记得加n_jobs=-1这个参数
    score = cross_val_score(rfc, x, y, cv=10).mean()
    scores.append(score)
    #random_state=0时 0.9649122807017545 111
    #random_state=90时 0.9631265664160402 71

print(max(scores), scores.index(max(scores)) * 10 + 1)
plt.figure(figsize=(16, 8))
plt.plot(range(1, 201, 10), scores)
plt.show()

#选定了random_state=0时 0.9649122807017545 111这个结果,我们可以将范围缩小到105到115之间,选定准确的数值
scores = []
for i in range(105, 116):
    rfc = RandomForestClassifier(n_estimators=i, n_jobs=-1, random_state=0)
    #做迭代循环的时候,一定要记得加n_jobs=-1这个参数
    score = cross_val_score(rfc, x, y, cv=10).mean()
    scores.append(score)
print(max(scores), [*range(105, 116)][scores.index(max(scores))])
#0.9666666666666666 110  #将n_estimators设置为110
plt.figure(figsize=(16, 8))
plt.plot(range(105, 116), scores)
plt.show()

#网格搜索,书写网格搜索的参数
#max_depth
param_grid = {'max_depth': np.arange(1, 20, 1)}
# 一般根据数据的大小来进行一个试探,乳腺癌数据很小,所以可以采用1~10,或者1~20这样的试探
# 但对于像digit recognition那样的大型数据来说,我们应该尝试30~50层深度(或许还不足够
#  更应该画出学习曲线,来观察深度对模型的影响
rfc = RandomForestClassifier(n_estimators=110, random_state=0)
GS = GridSearchCV(rfc,param_grid,cv=10)
GS.fit(x, y)
print(GS.best_params_)
print(GS.best_score_) #0.9666666666666666

#score没有变化,说明max_depth调参没有用诶,已经在最大值了

#min_samples_split
param_grid = {'min_samples_split': np.arange(2, 2+20, 1)}
rfc = RandomForestClassifier(n_estimators=110, random_state=0)
GS = GridSearchCV(rfc, param_grid, cv=10)
GS.fit(x, y)
print(GS.best_params_) #{'min_samples_split': 2}
print(GS.best_score_)  #0.9666666666666666
#说明调参没有用···

#min_samples_leaf
param_grid = {'min_samples_leaf': np.arange(1, 1+10, 1)}
rfc = RandomForestClassifier(n_estimators=110, random_state=0)
GS = GridSearchCV(rfc, param_grid, cv=10)
GS.fit(x, y)
print(GS.best_params_) #{'min_samples_leaf': 1}
print(GS.best_score_)  #0.9666666666666666 已经是最大深度了

#max_features
'''
param_grid = {'max_features': np.arange(5, 30, 1)}
rfc = RandomForestClassifier(n_estimators=110, random_state=0)
GS = GridSearchCV(rfc, param_grid, cv=10)
GS.fit(x, y)
print(GS.best_params_) #{'max_features': 7}
print(GS.best_score_)  #0.968421052631579
'''

#调整Criterion
param_grid = {'criterion': ['gini', 'entropy']}
rfc = RandomForestClassifier(n_estimators=110, random_state=0, max_features=7)
GS = GridSearchCV(rfc, param_grid, cv=10)
GS.fit(x, y)
print(GS.best_params_)  #{'criterion': 'entropy'}
print(GS.best_score_)  #0.9719298245614036


#最终参数为n_estimators=110, random_state=0, max_features=7, criterion=entropy
rfc = RandomForestClassifier(n_estimators=110, random_state=0, max_features=7, criterion='entropy')
score = cross_val_score(rfc, x, y, cv=10).mean()
print(score)
#0.9719298245614036

你可能感兴趣的:(机器学习,sklearn,python)