课程地址:《菜菜的机器学习sklearn课堂》_哔哩哔哩_bilibili
目录
概述
(一)集成算法概述
(二)sklearn中的集成算法
随机森林分类器RandomForestClassifier
重要参数
(一)控制基评估器的参数
(二)n_estimators(森林中树木的数量/基评估器的数量)
(三)random_state(生成一个固定的森林的模式,控制随机性的参数)
(四)bootstrap(控制抽样技术) & oob_score(使用oob数据来测试)
重要属性和接口
(一)属性
(二)接口
随机森林回归 RandomForestRegressor
重要参数、属性与接口
(一)criterion(回归树衡量分枝质量的指标)
(二)重要属性和接口
实例:用随机森林回归填补缺失值
(一)导入需要的库
(二)导入完整的数据集并探索
(三)为完整数据集放入缺失值
(四)使用0和均值填补缺失值
(五)使用随机森林回归填补缺失值
(六)对填补好的数据进行建模
(七)用所得结果画出条形图
集成学习(ensemble learning)本身不是一个单独的机器学习算法,而是通过在数据上构建多个模型,集成所有模型的建模结果。如随机森林、梯度提升树(GBDT)、XGBoost等
集成算法的目标:考虑多个评估器的建模结果,汇总之后得到一个综合的结果,以此来获取比单个模型更好的回归或分类表现
有三类集成算法:
Bagging的另一个必要条件
在使用袋装法时要求基评估器要尽量独立袋装法还有另一个必要条件:基分类器的判断准确率至少要超过随机分类器(50%准确率)
基于随机森林的准确率公式:
画出基分类器的误差率 epsilon 和随机森林的误差率之间的图像:import numpy as np from scipy.special import comb # 求组合 import matplotlib.pyplot as plt x = np.linspace(0,1,20) # 0~1之间变动,按从小到大顺序取出20个数(但不一定等间距) y = [] for epsilon in np.linspace(0,1,20): E = np.array([comb(25,i)*(epsilon**i)*((1-epsilon)**(25-i)) for i in range(13,26)]).sum() y.append(E) plt.plot(x,y,"o-",label="when estimators are different") plt.plot(x,x,"--",color="red",label="if all estimators are same") # 基分类器的表现 plt.xlabel("individual estimator's error") plt.ylabel("RandomForest's error") plt.legend() plt.show()
从图像上可以看出,当基分类器的误差率小于0.5,即准确率大于0.5时,集成的效果是比基分类器好的;相反,当基分类器的误差率大于0.5,袋装的集成算法就失效了
所以,在使用随机森林之前,一定要检查,用来组成随机森林的分类树们是否都有至少50%的预测正确率
sklearn中的集成算法模块ensemble
集成算法中,有一半以上都是树的集成模型,可以想见决策树在集成中必然有很好的效果
决策树:可以同时被用于分类和回归问题。决策树的主要功能是从一张有特征和标签的表格中,通过对特定特征进行提问,总结出一系列决策规则,并用树状图来呈现这些决策规则
- 决策树非常容易过拟合(很容易在训练集上表现优秀,却在测试集上表现糟糕)
- 为了防止决策树的过拟合,要对决策树进行剪枝(sklearn提供了大量的剪枝参数)
随机森林是Bagging集成算法,它所有的基评估器都是决策树,分类树组成的森林就叫做随机森林分类器,回归树组成的森林就叫做随机森林回归器。但随机森林是无法被可视化的
sklearn.ensemble.RandomForestClassifier — scikit-learn 1.2.0 documentation
单个决策树的准确率越高,随机森林的准确率也会越高,因为袋装法是依赖于平均值或少数服从多数原则来决定集成结果的
n_estimators越大,模型的效果往往越好(但要在训练难度和模型效果之间取得平衡)
默认值为100(1~200之间比较合适)
例:随机森林和单个决策树效益的对比(红酒数据集)
# 画图时需要该环境,把页面导入该环境,有助于画图
%matplotlib inline
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_wine # datasets模块导入数据的固有格式是字典
wine = load_wine()
'''
sklearn建模的基本流程:
(1)实例化,即在类里填上参数
(2)把训练集代入实例化后的模型去进行训练,使用的接口是fit
(3)使用其他接口将测试集导入我们训练好的模型,去获取我们希望获取的结果(score或Y_test等)
'''
from sklearn.model_selection import train_test_split
Xtrain, Xtest, Ytrain, Ytest = train_test_split(wine.data,wine.target,test_size=0.3)
clf = DecisionTreeClassifier(random_state=0) # random_state控制树的生成模式。决策树自带随机性,输入random_state后只能生成一棵树
rfc = RandomForestClassifier(random_state=0)
clf = clf.fit(Xtrain,Ytrain)
rfc = rfc.fit(Xtrain,Ytrain)
score_c = clf.score(Xtest,Ytest)
score_r = rfc.score(Xtest,Ytest)
print("Single Tree:{}".format(score_c)
,"Random Forest:{}".format(score_r)
)
画出随机森林和决策树在一组交叉验证(10折即10次)下的效果对比:
#目的是带大家复习一下交叉验证 cross_val_score
#交叉验证:是数据集划分为n份,依次取每一份做测试集,每n-1份做训练集,多次训练模型以观测模型稳定性的方法
from sklearn.model_selection import cross_val_score
import matplotlib.pyplot as plt
rfc = RandomForestClassifier(n_estimators=25)
rfc_s = cross_val_score(rfc,wine.data,wine.target,cv=10) # 交叉验证需要输入完整的特征和标签
clf = DecisionTreeClassifier()
clf_s = cross_val_score(clf,wine.data,wine.target,cv=10)
plt.plot(range(1,11),rfc_s,label = "RandomForest") # range(1,11)为x轴的取值
plt.plot(range(1,11),clf_s,label = "Decision Tree")
plt.legend()
plt.show()
#====================一种更加有趣也更简单的写法===================#
label = "RandomForest"
for model in [RandomForestClassifier(n_estimators=25),DecisionTreeClassifier()]:
score = cross_val_score(model,wine.data,wine.target,cv=10)
print("{}:".format(label)),print(score.mean())
plt.plot(range(1,11),score,label = label)
plt.legend()
label = "DecisionTree"
可以看出RandomForest曲线一直都在DecisionTree曲线上,但差距没有那么大。我们加大训练次数来看看:
# 画出随机森林和决策树在十组交叉验证(10折,100次)下的效果对比
rfc_l = []
clf_l = []
for i in range(10):
rfc = RandomForestClassifier(n_estimators=25)
rfc_s = cross_val_score(rfc,wine.data,wine.target,cv=10).mean()
rfc_l.append(rfc_s)
clf = DecisionTreeClassifier()
clf_s = cross_val_score(clf,wine.data,wine.target,cv=10).mean()
clf_l.append(clf_s)
plt.plot(range(1,11),rfc_l,label = "Random Forest")
plt.plot(range(1,11),clf_l,label = "Decision Tree")
plt.legend()
plt.show()
#是否有注意到,单个决策树的波动轨迹和随机森林一致?
#再次验证了我们之前提到的,单个决策树的准确率越高,随机森林的准确率也会越高
#随着训练次数上升,随机森林的效果会比决策树好很多
# n_estimators的学习曲线
superpa = []
for i in range(200):
rfc = RandomForestClassifier(n_estimators=i+1,n_jobs=-1)
rfc_s = cross_val_score(rfc,wine.data,wine.target,cv=10).mean()
superpa.append(rfc_s)
# list.index(object)返回对象object在列表list当中的索引,返回的是i
print(max(superpa),superpa.index(max(superpa))+1) # 打印出:最高精确度取值,superpa.index(max(superpa))+1指的是森林中树的数量,即n_estimators
plt.figure(figsize=[20,5])
plt.plot(range(1,201),superpa)
plt.show()
Q:随机森林用了什么方法来保证集成的效果一定好于单个分类器?
在刚才的红酒例子中,建立了25棵树。对任何一个样本而言,平均或多数表决原则下,当且仅当有13棵以上的树判断错误的时候,随机森林才会判断错误
单独一棵决策树对红酒数据集的分类准确率在0.85上下浮动。假设一棵树判断错误的可能性为0.2,那13棵树以上都判断错误的可能性是:
import numpy as np
from scipy.special import comb # 求组合
np.array([comb(25,i)*(0.2**i)*((1-0.2)**(25-i)) for i in range(13,26)]).sum()
可见判断错误的几率非常小,这让随机森林在红酒数据集上的表现远远好于单棵决策树
Q:袋装法服从多数表决原则或对基分类器结果求平均,这意味着,默认森林中的每棵树应该是不同的,并且会返回不同的结果(若随机森林里所有的树的判断结果都一致:全判断对或全判断错,那随机森林无论应用何种集成原则来求结果,都应该无法比单棵决策树取得更好的效果)。但我们使用了一样的类DecisionTreeClassifier、一样的参数、一样的训练集和测试集,为什么随机森林里的众多树会有不同的判断结果?
A:sklearn中的分类树DecisionTreeClassifier自带随机性,所以随机森林中的树天生就都是不一样的(决策树从最重要的特征中随机选择出一个特征来进行分枝,因此每次生成的决策树都不一样,这个功能由参数random_state控制)
- 在分类树中,一个random_state只控制生成一棵树
- 而随机森林中的random_state控制的是生成森林的模式(生成一片固定的森林,但森林里的每一棵树是不同的),而非让一个森林中只有一棵树
rfc = RandomForestClassifier(n_estimators=20,random_state=2)
rfc = rfc.fit(Xtrain, Ytrain)
#随机森林的重要属性之一:estimators_,查看森林中树的状况(只有random_state不一样)
for i in range(len(rfc.estimators_)): # len(rfc.estimators_)为20
print(rfc.estimators_[i].random_state)
当random_state固定时,随机森林中生成是一组固定的树,但每棵树依然是不一致的,这是用“随机挑选特征进行分枝”的方法得到的随机性。当这种随机性越大,袋装法的效果一般会越好。用袋装法集成时,基分类器应当是相互独立、不相同的
但这种做法的局限性是很强的,当需要成千上万棵树时,数据不一定能提供成千上万的特征来让我们构建尽量多且不同的树。因此除了random_state,还需要其他随机性
要让基分类器尽量都不一样,可以使用不同的训练集来进行训练,而袋装法正是通过有放回的随机抽样技术来形成不同的训练数据
在一个含有n个样本的原始训练集中,进行有放回的随机抽样,采集n次,最终得到一个和原始训练集一样大的、n个样本组成的自助集。每次的自助集和原始数据集以及其他采样集都不同,用这些自助集来训练基分类器,自然基分类器也就不同了
bootstrap参数默认True,代表采用这种有放回的随机抽样技术(通常不会被设置为False)
由于是有放回,一些样本可能在同一自助集中出现多次,而其他一些却可能被忽略。一般来说,自助集大约平均会包含63%的原始数据,因此会有约37%的训练数据被浪费掉,没有参与建模,这些数据被称为袋外数据(out of bag data,缩写为oob)
除了最开始就划分好的测试集外,oob也可以被用来作为集成算法的测试集。即:在使用随机森林时,可以不划分测试集和训练集,只需要用袋外数据来测试模型即可(但当训练集样本数n 和 基评估器数n_estimators 都不够大的时候,很可能就没有数据掉落在袋外,自然也就无法使用 oob数据来测试模型了)
- 一个自助集里(n个样本),n次抽样都抽到这个样本的概率为:(1/n)^n
一个自助集里,只要n次中有一次抽到这个样本,这个样本就算是被抽到
- 一个自助集里,这个样本永远不会被抽到的概率是:(1-1/n)^n
- 每一个样本被抽到某个自助集中的概率为:1 - (1-1/n)^n 。 当n足够大时,这个概率收敛于 1-1/e ≈ 0.632
#无需划分训练集和测试集
rfc = RandomForestClassifier(n_estimators=25,oob_score=True)#默认为False
rfc = rfc.fit(wine.data,wine.target)
#重要属性oob_score_
rfc.oob_score_
总结:四个参数n_estimators、random_state、boostrap、oob_score(装袋法)
- 传统的随机森林是利用装袋法中的规则,平均或少数服从多数来决定集成的结果
- sklearn中的随机森林是平均每个样本对应的predict_proba返回的概率,得到一个平均概率,从而决定测试样本的分类
rfc = RandomForestClassifier(n_estimators=25)
rfc = rfc.fit(Xtrain, Ytrain)
rfc.score(Xtest,Ytest)
rfc.feature_importances_#结合zip可以对照特征名字查看特征重要性,参见上节决策树
[*zip(wine.feature_names,rfc.feature_importances_)]
rfc.apply(Xtest)#apply返回每个测试样本所在的叶子节点的索引
rfc.predict(Xtest)#predict返回每个测试样本的分类/回归结果
rfc.predict_proba(Xtest)
sklearn.ensemble.RandomForestRegressor — scikit-learn 1.2.0 documentation
与 RandomForestClassifier 的不同:
三种:
回归树的接口score返回的是R²(可正可负),不是MSE(永远为正,但sklearn中使用的是负均方误差 neg_mean_squared_error)
from sklearn.datasets import load_boston #一个标签是连续型变量的数据集
from sklearn.model_selection import cross_val_score #导入交叉验证模块
from sklearn.ensemble import RandomForestRegressor #导入随机森林回归
boston = load_boston()
regressor = RandomForestRegressor(n_estimators=100,random_state=0)#实例化
cross_val_score(regressor, boston.data, boston.target, cv=10
,scoring = "neg_mean_squared_error" #如果不写scoring,回归评估默认是R平方
)
返回十次交叉验证的结果。如果不填写 scoring="neg_mean_squared_error",交叉验证默认的模型衡量指标是R²(可正可负);而如果写上 scoring,则衡量标准是负MSE(只能为负)
#sklearn当中的模型评估指标(打分性质)列表
import sklearn
sorted(sklearn.metrics.SCORERS.keys()) #这些指标是scoring可选择的参数
使用 sklearn.impute.SimpleImputer 将均值、中值、或者其他最常用的数值填补到数据中
本案例以波士顿数据集为例,使用均值、0和随机森林回归来填补缺失值,并验证三种情况的拟合状况,找出对使用的数据集来说最佳的缺失值填补方法
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.datasets import load_boston
from sklearn.impute import SimpleImputer #填补缺失值的类
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import cross_val_score
dataset = load_boston() #是一个字典
dataset.data #数据的特征矩阵
dataset.target #查看数据标签
dataset.data.shape #数据的结构
#总共506*13=6578个数据
X_full, y_full = dataset.data, dataset.target
n_samples = X_full.shape[0] #506
n_features = X_full.shape[1] #13
rng = np.random.RandomState(0) #设置一个随机种子,方便观察
missing_rate = 0.5
n_missing_samples = int(np.floor(n_samples * n_features * missing_rate)) #3289
#np.floor向下取整,返回.0格式的浮点数
missing_features = rng.randint(0,n_features,n_missing_samples) #randint(下限,上限,n)指在下限和上限之间取出n个整数
len(missing_features) #3289
missing_samples = rng.randint(0,n_samples,n_missing_samples)
len(missing_samples) #3289
对比 np.random.RandomState(0).randint() 和 np.random.RandomState(0).choice()
- .randint(下限,上限,n):在下限和上限之间取出n个整数
我们现在采样了3289个数据,远远超过我们的样本量506,所以我们使用随机抽取的函数randint
但如果我们需要的数据量小于我们的样本量506,那我们可以采用np.random.choice来抽样
- choice会随机抽取不重复的随机数,因此可以帮助我们让数据更加分散,确保数据不会集中在一些行中
这里我们不采用np.random.choice,因为我们现在采样了3289个(n_missing_samples)数据,远远超过我们的样本量506(n_samples),使用np.random.choice会报错
missing_samples = rng.choice(n_samples,n_missing_samples,replace=False) # replace=False意味着不重复
X_missing = X_full.copy()
y_missing = y_full.copy()
X_missing[missing_samples,missing_features] = np.nan
X_missing = pd.DataFrame(X_missing)
#转换成DataFrame是为了后续方便各种操作,numpy对矩阵的运算速度快到拯救人生,但是在索引等功能上却不如pandas来得好用
X_missing.head()
#并没有对y_missing进行缺失值填补,原因是有监督学习,不能缺标签啊
#使用0进行填补
imp_0 = SimpleImputer(missing_values=np.nan, strategy="constant",fill_value=0)
# strategy有mean均值/median中位数/most_frequent众数/constant常数等
X_missing_0 = imp_0.fit_transform(X_missing)
#使用均值进行填补
imp_mean = SimpleImputer(missing_values=np.nan, strategy='mean') #实例化
X_missing_mean = imp_mean.fit_transform(X_missing) #特殊的接口fit_transform = 训练fit + 导出predict
# 检查是否还有缺失值
pd.DataFrame(X_missing_mean).isnull() # isnull()是对DataFrame类型,而输出的X_missing_mean是ndarray类型
# 上述方法在数据量大的时候还是看不全
pd.DataFrame(X_missing_mean).isnull().sum() # 布尔值False为0,True为1. 如果求和为0可以彻底确认没有NaN
回归填补缺失值的基本思想:任何回归都是从特征矩阵中学习,然后求解连续型标签y的过程。实际上,特征和标签是可以相互转换的
对于一个有n个特征的数据来说,其中特征T有缺失值,就把特征T当做标签,其他的n-1个特征和原本的标签组成新的特征矩阵。对于T来说,它没有缺失的部分就是Y_test,这部分数据既有标签也有特征,而它缺失的部分,只有特征没有标签,就是我们需要预测的部分
这种做法对于某一个特征大量缺失,其他特征却很完整的情况,非常适用。但是如果数据中除了特征T之外,其他特征也有缺失值怎么办?
X_missing_reg = X_missing.copy()
# 值越大,表明该列NaN越多
X_missing_reg.isnull().sum(axis=0) # axis=0表示按列
# 返回缺失值数量从小到大的特征列的索引
np.argsort(X_missing_reg.isnull().sum(axis=0))
# 转化成ndarray格式
sortindex = np.argsort(X_missing_reg.isnull().sum(axis=0)).values
for i in sortindex:
#构建我们的新特征矩阵(没有被选中去填充的特征 + 原始的标签)和新标签(被选中去填充的特征)
df = X_missing_reg
fillc = df.iloc[:,i] #新标签
df = pd.concat([df.iloc[:,df.columns != i],pd.DataFrame(y_full)],axis=1)#新特征矩阵
#在新特征矩阵中,对含有缺失值的列,进行0的填补
df_0 =SimpleImputer(missing_values=np.nan,strategy='constant',fill_value=0).fit_transform(df)
#找出我们的训练集和测试集
Ytrain = fillc[fillc.notnull()]# Ytrain是被选中要填充的特征中(现在是我们的标签),存在的那些值:非空值
Ytest = fillc[fillc.isnull()]#Ytest 是被选中要填充的特征中(现在是我们的标签),不存在的那些值:空值。注意我们需要的不是Ytest的值,需要的是Ytest所带的索引
Xtrain = df_0[Ytrain.index,:]#在新特征矩阵上,被选出来的要填充的特征的非空值所对应的记录
Xtest = df_0[Ytest.index,:]#在新特征矩阵上,被选出来的要填充的特征的空值所对应的记录
#用随机森林回归来填补缺失值
rfc = RandomForestRegressor(n_estimators=100)#实例化
rfc = rfc.fit(Xtrain, Ytrain)#导入训练集进行训练
Ypredict = rfc.predict(Xtest)#用predict接口将Xtest导入,得到我们的预测结果(回归结果),就是我们要用来填补空值的这些值
#将填补好的特征返回到我们的原始的特征矩阵中
X_missing_reg.loc[X_missing_reg.iloc[:,i].isnull(),i] = Ypredict
#检验是否有空值
X_missing_reg.isnull().sum() # 全部为0则没有空值
以索引为6的特征列(sortindex的第一个)为例,看一下随机森林回归的填充过程:
df = X_missing_reg
fillc = df.iloc[:,6]
fillc # 新标签(被选中去填充的特征)
df = pd.concat([df.iloc[:,df.columns != 6],pd.DataFrame(y_full)],axis=1) # pd.concat()第一个参数是列表
df # 新特征矩阵(没有被选中去填充的特征+原始的标签)
#在新特征矩阵中,对含有缺失值的列,进行0的填补
df_0 = SimpleImputer(missing_values=np.nan,strategy='constant',fill_value=0).fit_transform(df)
df_0
#找出训练集和测试集
Ytrain = fillc[fillc.notnull()] # Ytrain是被选中要填充的特征中(现在是我们的标签),存在的那些值:非空值
Ytest = fillc[fillc.isnull()] # Ytest是被选中要填充的特征中(现在是我们的标签),不存在的那些值:空值。注意我们需要的不是Ytest的值,需要的是Ytest所带的索引
Xtrain = df_0[Ytrain.index,:] # 在新特征矩阵上,被选出来的要填充的特征的非空值所对应的记录
Xtest = df_0[Ytest.index,:] # 在新特征矩阵上,被选出来的要填充的特征的空值所对应的记录
#用随机森林回归来填补缺失值
rfc = RandomForestRegressor(n_estimators=100) #实例化
rfc = rfc.fit(Xtrain, Ytrain) #导入训练集进行训练
Ypredict = rfc.predict(Xtest) #用predict接口将Xtest导入,得到我们的预测结果(回归结果),就是我们要用来填补空值的这些值
#将填补好的特征返回到原始的特征矩阵中(用Ypredict去覆盖Ytest里的空值)
#取出X_missing_reg.iloc[:,6].isnull()为True的行
X_missing_reg.loc[X_missing_reg.iloc[:,6].isnull(),6] = Ypredict
#对所有数据进行建模,取得MSE结果
X = [X_full,X_missing_mean,X_missing_0,X_missing_reg] # X_full = dataset.data
mse = [] # 越小越好
std = []
for x in X:
estimator = RandomForestRegressor(random_state=0, n_estimators=100)#实例化
scores = cross_val_score(estimator,x,y_full,scoring='neg_mean_squared_error', cv=5).mean() # y_full是标签
mse.append(scores * -1)
[*zip(['Full data','Mean Imputation','Zero Imputation','Regressor Imputation'],mse)]
x_labels = ['Full data',
'Mean Imputation',
'Zero Imputation',
'Regressor Imputation']
colors = ['r', 'g', 'b', 'orange']
plt.figure(figsize=(12, 6)) #画出画布
ax = plt.subplot(111) #添加子图
for i in np.arange(len(mse)): # i为0,1,2,3
ax.barh(i, mse[i],color=colors[i], alpha=0.6, align='center') #bar为条形图,barh为横向条形图(horizon),alpha表示条的粗度
ax.set_title('Imputation Techniques with Boston Data')
ax.set_xlim(left=np.min(mse) * 0.9,
right=np.max(mse) * 1.1) #设置x轴取值范围(不希望x的刻度从0开始)
ax.set_yticks(np.arange(len(mse)))
ax.set_xlabel('MSE')
ax.set_yticklabels(x_labels)
plt.show()
这个例子有点难,第一次看有点懵,要多看几遍