通过在数据集上构建多个模型,集成所有模型的建模结果,得到一个综合的结果,以此来获得比单个
模型更好的分类或回归表现
装袋法bagging:
构建多个相互独立的基评估器(base estimator),然后对其预测进行平均或多数表决原则来决定
集成评估器的结果。装袋法的代表模型就是随机森林
提升法boosting:
基评估器是相关的,是按顺序一一构建的。其核心思想是结合弱评估器的力量一次次对难以评估的样本
进行预测,从而构成一个强评估器。提升法的代表模型有Adaboost和梯度提升树GBDT。
装袋法bagging | 提升法boosting | |
---|---|---|
评估器 | 相互独立,同时运行 | 相互关联,按顺序依次构建,后建模型会在先建模型的预测失败的样本上有更多权重 |
抽样数集 | 有放回随机抽样 | 有放回抽样,但每次抽样时,会给预测失败的样本更多的权重 |
决定集成的结果 | 平均或多数表决 | 加权平均,训练集上表现更好的模型会得到更多的权重 |
目标 | 降低方差,提高模型整体稳定性 | 降低偏差,提高模型整体精确度 |
单个评估器过拟合问题 | 能一定程度上避免过拟合 | 可能会加剧过拟合 |
单个评估器的效力比较弱时 | 不是非常有帮助 | 可能会提升模型表现 |
代表算法 | RF | GBDT和adabooost |
控制基评估器参数:
与决策树类似
n_estimators:
决策树的数量,越大,模型的效果往往越好。但是相应的,任何模型都有决策边界,n_estimators达到
一定的程度之后,随机森林的精确性往往不再上升或开始波动
%matplotlib inline
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_wine
wine = load_wine()
from sklearn.model_selection import train_test_split
Xtrain, Xtest, Ytrain, Ytest = train_test_split(wine.data,wine.target,test_size=0.3)
clf = DecisionTreeClassifier(random_state=0)
rfc = RandomForestClassifier(random_state=0)
clf = clf.fit(Xtrain,Ytrain)
rfc = rfc.fit(Xtrain,Ytrain)
score_c = clf.score(Xtest,Ytest)
score_r = rfc.score(Xtest,Ytest)
print("Single Tree:{}".format(score_c)
,"Random Forest:{}".format(score_r)
)
Single Tree:0.9444444444444444 Random Forest:1.0
from sklearn.model_selection import cross_val_score
import matplotlib.pyplot as plt
rfc = RandomForestClassifier(n_estimators=25)
rfc_s = cross_val_score(rfc,wine.data,wine.target,cv=10)
clf = DecisionTreeClassifier()
clf_s = cross_val_score(clf,wine.data,wine.target,cv=10)
plt.plot(range(1,11),rfc_s,label = "RandomForest")
plt.plot(range(1,11),clf_s,label = "Decision Tree")
plt.legend()
plt.show()
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-X1SsirVY-1587530490929)(output_12_0.png)]
rfc_l = []
clf_l = []
for i in range(10):
rfc = RandomForestClassifier(n_estimators=25)
rfc_s = cross_val_score(rfc,wine.data,wine.target,cv=10).mean()
rfc_l.append(rfc_s)
clf = DecisionTreeClassifier()
clf_s = cross_val_score(clf,wine.data,wine.target,cv=10).mean()
clf_l.append(clf_s)
plt.plot(range(1,11),rfc_l,label = "Random Forest")
plt.plot(range(1,11),clf_l,label = "Decision Tree")
plt.legend()
plt.show()
#是否有注意到,单个决策树的波动轨迹和随机森林一致?
#再次验证了我们之前提到的,单个决策树的准确率越高,随机森林的准确率也会越高
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rGAG65xY-1587530490936)(output_14_0.png)]
#####【TIME WARNING: 2mins 30 seconds】#####
superpa = []
for i in range(200):
rfc = RandomForestClassifier(n_estimators=i+1,n_jobs=-1)
rfc_s = cross_val_score(rfc,wine.data,wine.target,cv=10).mean()
superpa.append(rfc_s)
print(max(superpa),superpa.index(max(superpa))+1)#打印出:最高精确度取值,max(superpa))+1指的是森林数目的数量n_estimators
plt.figure(figsize=[20,5])
plt.plot(range(1,201),superpa)
plt.show()
0.9888888888888889 32
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5ATU1OOh-1587530490942)(output_16_1.png)]
随机森林的本质是一种装袋集成算法(bagging),装袋集成算法是对基评估器的预测结果进行平均
或用多数表决原则来决定集成评估器的结果。
在刚才的红酒例子中,我们建立了25棵树,对任何一个样本而言,平均或多数表决原则下,当且仅当
有13棵以上的树判断错误的时候,随机森林才会判断错误。单独一棵决策树对红酒数据集的分类准确
率在0.85上下浮动,假设一棵树判断错误的可能性为0.2,那13棵树以上都判断错误的可能性是
import numpy as np
from scipy.special import comb
np.array([comb(25,i)*(0.2**i)*((1-0.2)**(25-i)) for i in range(13,26)]).sum()
0.00036904803455582827
可以看到:远小于一棵树的错误率。同时也注意到,如果随机森林中每棵树都是一样的话,
那么一棵树判断错误,则整个森林就判读错误,也就和决策树没有区别。
所以随机森林的基分类器是相互独立的,互不相同的
rfc = RandomForestClassifier(n_estimators=20,random_state=2)
rfc = rfc.fit(Xtrain, Ytrain)
#重要属性:estimators_ 存储所有树信息的列表
#查看所有树的random_state
for i in range(len(rfc.estimators_)):
print(rfc.estimators_[i].random_state)
2056096140
1078729000
602442957
1514174439
1458549053
904046564
1214918618
655921571
139775012
293793817
864952371
2116213231
963777025
861270369
1156416813
2032972974
583060530
1909517413
1341241096
2058549495
533227000
1803803348
2056406370
1190856758
132094869
当random_state固定时,随机森林中生成是一组固定的树,但每棵树依然是不一致的,这是用
”随机挑选特征进行分枝“的方法得到的随机性。并且我们可以证明,当这种随机性越大的时
候,袋装法的效果一般会越来越好。
但这种做法的局限性是很强的,当我们需要成千上万棵树的时候,数据不一定能够提供成千上
万的特征来让我们构筑尽量多尽量不同的树
要让基分类器尽量都不一样,一种很容易理解的方法是使用不同的训练集来进行训练,而袋装
法正是通过有放回的随机抽样技术来形成不同的训练数据。
参数bootstrap默认为True,即默认使用有放回的随机抽样
有放回随机抽样:
在一个含有n个样本的原始训练集中,我们进行随机采样,每次采样一个样本,并在抽取下
一个样本之前将该样本放回原始训练集,也就是说下次采样时这个样本依然可能被采集到,
这样采集n次,最终得到一个和原始训练集一样大的,n个样本组成的自助集
然而,由于是有放回,一些样本可能在同一个自助集中出现多次,而其他一些却可能被忽略,
因为每一个样本被抽到某个自助集中的概率为:
一般来说,一个自助集大约平均会包含63%的原始数据。会有约37%的训练数据被浪费掉,没有
参与建模,这些数据被称为袋外数据(out of bag data,简写为oob)。除了我们最开始就划分好
的测试集之外,这些数据也可以被用来作为集成算法的测试集
也就是说,在使用随机森林时,我们可以不划分测试集和训练集,只需要用袋外数据来测试我们
的模型即可
rfc = RandomForestClassifier(n_estimators=25,oob_score=True) #默认为False
rfc = rfc.fit(wine.data,wine.target)
#重要属性 oob_score_ 使用袋外数据的模型评分
rfc.oob_score_
0.9719101123595506
当然,这也不是绝对的,当n和n_estimators都不够大的时候,很可能就没有数据掉落在袋外
,自然也就无法使用oob数据来测试模型了
fit:
训练模型,输入训练集特征和标签
score:
返回分类准确率,可以是测试集也可以使训练集。注意,指标是不能修改的,如果想使用其他
衡量指标,则不用score,使用交叉验证。
apply:
返回每个样本所在叶子节点索引,可以是测试集也可以使训练集
predict:
返回每个样本的分类结果,可以是测试集也可以使训练集
predict_proba:
返回每个样本的分类到某一类的概率,可以是测试集也可以使训练集
rfc = RandomForestClassifier(n_estimators=25,random_state=20)
rfc = rfc.fit(Xtrain, Ytrain)
rfc.score(Xtest,Ytest)
rfc.apply(Xtest)
array([[10, 16, 16, ..., 8, 4, 6],
[26, 18, 20, ..., 20, 14, 20],
[10, 16, 16, ..., 8, 4, 2],
...,
[26, 22, 20, ..., 20, 14, 15],
[15, 4, 4, ..., 10, 11, 14],
[19, 16, 16, ..., 19, 7, 2]], dtype=int64)
rfc.predict(Xtest)
array([2, 0, 2, 1, 0, 1, 0, 1, 0, 0, 2, 0, 1, 1, 0, 1, 0, 0, 1, 1, 2, 1,
0, 0, 0, 1, 0, 1, 2, 0, 0, 2, 0, 0, 1, 1, 2, 0, 1, 2, 2, 1, 2, 2,
2, 1, 0, 1, 1, 0, 0, 0, 1, 2])
rfc.predict_proba(Xtest)
array([[0. , 0. , 1. ],
[1. , 0. , 0. ],
[0. , 0. , 1. ],
[0. , 1. , 0. ],
[0.84, 0.16, 0. ],
[0. , 0.96, 0.04],
[0.88, 0.12, 0. ],
[0.12, 0.88, 0. ],
[0.96, 0.04, 0. ],
[1. , 0. , 0. ],
[0.04, 0.08, 0.88],
[1. , 0. , 0. ],
[0. , 1. , 0. ],
[0. , 1. , 0. ],
[0.96, 0.04, 0. ],
[0.12, 0.76, 0.12],
[0.96, 0.04, 0. ],
[0.96, 0.04, 0. ],
[0. , 1. , 0. ],
[0. , 1. , 0. ],
[0. , 0. , 1. ],
[0. , 1. , 0. ],
[0.96, 0.04, 0. ],
[1. , 0. , 0. ],
[1. , 0. , 0. ],
[0. , 1. , 0. ],
[1. , 0. , 0. ],
[0. , 0.88, 0.12],
[0. , 0.04, 0.96],
[1. , 0. , 0. ],
[1. , 0. , 0. ],
[0. , 0. , 1. ],
[1. , 0. , 0. ],
[0.88, 0.12, 0. ],
[0. , 1. , 0. ],
[0.08, 0.84, 0.08],
[0. , 0.04, 0.96],
[0.96, 0.04, 0. ],
[0. , 1. , 0. ],
[0. , 0.08, 0.92],
[0. , 0. , 1. ],
[0. , 1. , 0. ],
[0.04, 0. , 0.96],
[0. , 0.08, 0.92],
[0. , 0.08, 0.92],
[0.08, 0.92, 0. ],
[0.8 , 0.2 , 0. ],
[0.08, 0.92, 0. ],
[0. , 1. , 0. ],
[1. , 0. , 0. ],
[0.96, 0.04, 0. ],
[1. , 0. , 0. ],
[0. , 1. , 0. ],
[0.04, 0.04, 0.92]])
[*zip(wine.feature_names,rfc.feature_importances_)]
[('alcohol', 0.12198679686258679),
('malic_acid', 0.02762880277046342),
('ash', 0.020429313443862722),
('alcalinity_of_ash', 0.04431583357245361),
('magnesium', 0.033968954054681415),
('total_phenols', 0.038263957377275275),
('flavanoids', 0.1408080229991804),
('nonflavanoid_phenols', 0.010215119630325406),
('proanthocyanins', 0.005887369287630495),
('color_intensity', 0.18147980477356618),
('hue', 0.0848840620720855),
('od280/od315_of_diluted_wines', 0.14228838485786396),
('proline', 0.14784357829802486)]
import numpy as np
x = np.linspace(0,1,20)
y = []
for epsilon in np.linspace(0,1,20):
E = np.array([comb(25,i)*(epsilon**i)*((1-epsilon)**(25-i)) for i in range(13,26)]).sum()
y.append(E)
plt.plot(x,y,"o-",label="when estimators are different")
plt.plot(x,x,"--",color="red",label="if all estimators are same")
plt.xlabel("individual estimator's error")
plt.ylabel("RandomForest's error")
plt.legend()
plt.show()
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5e7eavXS-1587530490955)(output_48_0.png)]
与分类树有两点不同:
from sklearn.datasets import load_boston#一个标签是连续西变量的数据集
from sklearn.model_selection import cross_val_score#导入交叉验证模块
from sklearn.ensemble import RandomForestRegressor#导入随机森林回归系
boston = load_boston()
regressor = RandomForestRegressor(n_estimators=100,random_state=0)
cross_val_score(regressor, boston.data, boston.target, cv=10
,scoring = "neg_mean_squared_error"#如果不写scoring,回归评估默认是R平方
)
array([-10.72900447, -5.36049859, -4.74614178, -20.84946337,
-12.23497347, -17.99274635, -6.8952756 , -93.78884428,
-29.80411702, -15.25776814])
import sklearn
sorted(sklearn.metrics.SCORERS.keys())#这些指标是scoring可选择的参数
['accuracy',
'adjusted_mutual_info_score',
'adjusted_rand_score',
'average_precision',
'balanced_accuracy',
'completeness_score',
'explained_variance',
'f1',
'f1_macro',
'f1_micro',
'f1_samples',
'f1_weighted',
'fowlkes_mallows_score',
'homogeneity_score',
'jaccard',
'jaccard_macro',
'jaccard_micro',
'jaccard_samples',
'jaccard_weighted',
'max_error',
'mutual_info_score',
'neg_brier_score',
'neg_log_loss',
'neg_mean_absolute_error',
'neg_mean_gamma_deviance',
'neg_mean_poisson_deviance',
'neg_mean_squared_error',
'neg_mean_squared_log_error',
'neg_median_absolute_error',
'neg_root_mean_squared_error',
'normalized_mutual_info_score',
'precision',
'precision_macro',
'precision_micro',
'precision_samples',
'precision_weighted',
'r2',
'recall',
'recall_macro',
'recall_micro',
'recall_samples',
'recall_weighted',
'roc_auc',
'roc_auc_ovo',
'roc_auc_ovo_weighted',
'roc_auc_ovr',
'roc_auc_ovr_weighted',
'v_measure_score']
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.datasets import load_boston
from sklearn.impute import SimpleImputer #填补缺失值的类
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import cross_val_score
dataset = load_boston()
dataset.data#数据的特征矩阵,全部为数值类型
dataset.data.shape#数据的结构 总共506*13=6578个数据
(506, 13)
X_full, y_full = dataset.data, dataset.target
n_samples = X_full.shape[0]#506
n_features = X_full.shape[1]#13
#首先确定我们希望放入的缺失数据的比例,在这里我们假设是50%,那总共就要有3289个数据缺失
rng = np.random.RandomState(0)#设置一个随机种子,方便观察
missing_rate = 0.5
n_missing_samples = int(np.floor(n_samples * n_features * missing_rate))
#np.floor向下取整,返回.0格式的浮点数
#所有数据要随机遍布在数据集的各行各列当中,而一个缺失的数据会需要一个行索引和一个列索引
#如果能够创造一个数组,包含3289个分布在0~506中间的行索引,和3289个分布在0~13之间的列索引,那我们就可以利用索引来为数据中的任意3289个位置赋空值
#然后我们用0,均值和随机森林来填写这些缺失值,然后查看回归的结果如何
missing_features = rng.randint(0,n_features,n_missing_samples)
#randint(下限,上限,n)指在下限和上限之间取出n个整数
len(missing_features)#3289
missing_samples = rng.randint(0,n_samples,n_missing_samples)
len(missing_samples)#3289
3289
X_missing = X_full.copy()
y_missing = y_full.copy()
#置空
X_missing[missing_samples,missing_features] = np.nan
#转化为DataFrame
X_missing = pd.DataFrame(X_missing)
X_missing.head()
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | NaN | 18.0 | NaN | NaN | 0.538 | NaN | 65.2 | 4.0900 | 1.0 | 296.0 | NaN | NaN | 4.98 |
1 | 0.02731 | 0.0 | NaN | 0.0 | 0.469 | NaN | 78.9 | 4.9671 | 2.0 | NaN | NaN | 396.9 | 9.14 |
2 | 0.02729 | NaN | 7.07 | 0.0 | NaN | 7.185 | 61.1 | NaN | 2.0 | 242.0 | NaN | NaN | NaN |
3 | NaN | NaN | NaN | 0.0 | 0.458 | NaN | 45.8 | NaN | NaN | 222.0 | 18.7 | NaN | NaN |
4 | NaN | 0.0 | 2.18 | 0.0 | NaN | 7.147 | NaN | NaN | NaN | NaN | 18.7 | NaN | 5.33 |
#使用均值进行填补
from sklearn.impute import SimpleImputer
imp_mean = SimpleImputer(missing_values=np.nan, strategy='mean')#实例化
X_missing_mean = imp_mean.fit_transform(X_missing)#特殊的接口fit_transform = 训练fit + 导出predict
#查看是否含有null
#布尔值False = 0, True = 1
# pd.DataFrame(X_missing_mean).isnull().sum()#如果求和为0可以彻底确认是否有NaN
#使用0进行填补
imp_0 = SimpleImputer(missing_values=np.nan, strategy="constant",fill_value=0)#constant指的是常数
X_missing_0 = imp_0.fit_transform(X_missing)
1. 如果只有一个特征含有缺失值
2. 如果多个特征含有缺失值
# 复制数据
X_missing_reg = X_missing.copy()
#找出数据集中,缺失值从小到大排列的特征们的顺序,并且有了这些的索引
sortindex = np.argsort(X_missing_reg.isnull().sum()).values#np.argsort()返回的是从小到大排序的顺序所对应的索引
for i in sortindex:
#构建我们的新特征矩阵(没有被选中去填充的特征 + 原始的标签)和新标签(被选中去填充的特征)
df = X_missing_reg
fillc = df.iloc[:,i]#新标签
df = pd.concat([df.iloc[:,df.columns != i],pd.DataFrame(y_full)],axis=1)#新特征矩阵
#在新特征矩阵中,对含有缺失值的列,进行0的填补
df_0 =SimpleImputer(missing_values=np.nan,strategy='constant',fill_value=0).fit_transform(df)
#找出我们的训练集和测试集
Ytrain = fillc[fillc.notnull()]# Ytrain是被选中要填充的特征中(现在是我们的标签),存在的那些值:非空值
Ytest = fillc[fillc.isnull()]#Ytest 是被选中要填充的特征中(现在是我们的标签),不存在的那些值:空值。注意我们需要的不是Ytest的值,需要的是Ytest所带的索引
Xtrain = df_0[Ytrain.index,:]#在新特征矩阵上,被选出来的要填充的特征的非空值所对应的记录
Xtest = df_0[Ytest.index,:]#在新特征矩阵上,被选出来的要填充的特征的空值所对应的记录
#用随机森林回归来填补缺失值
rfc = RandomForestRegressor(n_estimators=100)#实例化
rfc = rfc.fit(Xtrain, Ytrain)#导入训练集进行训练
Ypredict = rfc.predict(Xtest)#用predict接口将Xtest导入,得到我们的预测结果(回归结果),就是我们要用来填补空值的这些值
#将填补好的特征返回到我们的原始的特征矩阵中
X_missing_reg.loc[X_missing_reg.iloc[:,i].isnull(),i] = Ypredict
#检验是否有空值
X_missing_reg.isnull().sum()
0 0
1 0
2 0
3 0
4 0
5 0
6 0
7 0
8 0
9 0
10 0
11 0
12 0
dtype: int64
#比较 原数据建模结果 用均值填补结果 用0值填补结果 用随机森林回归填补 4中情况建模的效果
X = [X_full,X_missing_mean,X_missing_0,X_missing_reg]
mse = []
std = []
for x in X:
estimator = RandomForestRegressor(random_state=0, n_estimators=100)#实例化
scores = cross_val_score(estimator,x,y_full,scoring='neg_mean_squared_error', cv=5).mean()
mse.append(scores * -1)
[*zip(['Full data','Zero Imputation','Mean Imputation','Regressor Imputation'],mse)]
[('Full data', 21.62860460743544),
('Zero Imputation', 40.84405476955929),
('Mean Imputation', 49.50657028893417),
('Regressor Imputation', 18.255872365734806)]
x_labels = ['Full data',
'Zero Imputation',
'Mean Imputation',
'Regressor Imputation']
colors = ['r', 'g', 'b', 'orange']
plt.figure(figsize=(12, 6))#画出画布
ax = plt.subplot(111)#添加子图
for i in np.arange(len(mse)):
ax.barh(i, mse[i],color=colors[i], alpha=0.6, align='center')#bar为条形图,barh为横向条形图,alpha表示条的粗度
#条形图的一些主要设置
ax.set_title('Imputation Techniques with Boston Data') #子图的设置加上set_前缀
ax.set_xlim(left=np.min(mse) * 0.9,
right=np.max(mse) * 1.1)#设置x轴取值范围
ax.set_xlabel('MSE') #x轴的标签
ax.set_yticks(np.arange(len(mse))) #y轴的刻度,长条的数量构成的整数列表
ax.set_yticklabels(x_labels) #y轴每个刻度上的标签
plt.show()
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-M1rSNYly-1587530490960)(output_74_0.png)]
泛化误差:
一个集成模型(f)在位置数据集(D)上的泛化误差:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-FBkijwdY-1587530490962)(./泛化误差.png)]
一个好的模型应当要对绝大多数未知数据预测的既准又稳
偏差大 | 偏差小 | |
---|---|---|
方差大 | 模型不适合数据,换模型 | 过拟合,模型很复杂,有的数据预测很准,有的预测很糟糕 |
方差小 | 欠拟合,模型相对简单,预测很稳定,但对所有数据预测都不太准确 | 泛化误差小,理想的模型 |
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-C6g9UKbZ-1587530490965)(./偏差方差.png)]|
基于经验,根据随机森林参数对模型复杂度的影响程度,调参的顺序为:
from sklearn.datasets import load_breast_cancer
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import cross_val_score
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
data = load_breast_cancer()
rfc = RandomForestClassifier(n_estimators=100,random_state=90)
score_pre = cross_val_score(rfc,data.data,data.target,cv=10).mean()#交叉验证的分类默认scoring='accuracy'
score_pre
0.9648809523809524
在这里我们选择学习曲线,可以使用网格搜索吗?可以,但是只有学习曲线,才能看见趋势
我个人的倾向是,要看见n_estimators在什么取值开始变得平稳,是否一直推动模型整体准
确率的上升等信息。第一次的学习曲线,可以先用来帮助我们划定范围,我们取每十个数作
为一个阶段,来观察n_estimators的变化如何引起模型整体准确率的变化
scorel = []
for i in range(0,200,10):
rfc = RandomForestClassifier(n_estimators=i+1,
n_jobs=-1,
random_state=90)
score = cross_val_score(rfc,data.data,data.target,cv=10).mean()
scorel.append(score)
print(max(scorel),(scorel.index(max(scorel))*10)+1)
plt.figure(figsize=[20,5])
plt.plot(range(1,201,10),scorel)
plt.show()
0.9631265664160402 71
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-roKwcX8i-1587530490968)(output_89_1.png)]
scorel = []
for i in range(65,75):
rfc = RandomForestClassifier(n_estimators=i,
n_jobs=-1,
random_state=90)
score = cross_val_score(rfc,data.data,data.target,cv=10).mean()
scorel.append(score)
print(max(scorel),([*range(65,75)][scorel.index(max(scorel))]))
plt.figure(figsize=[20,5])
plt.plot(range(65,75),scorel)
plt.show()
0.9666353383458647 73
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mq5Njl6W-1587530490971)(output_90_1.png)]
#调整max_depth
param_grid = {'max_depth':np.arange(1, 20, 1)}
# 一般根据数据的大小来进行一个试探,乳腺癌数据很小,所以可以采用1~10,或者1~20这样的试探
# 但对于像digit recognition那样的大型数据来说,我们应该尝试30~50层深度(或许还不足够
# 更应该画出学习曲线,来观察深度对模型的影响
rfc = RandomForestClassifier(n_estimators=73
,random_state=90
)
GS = GridSearchCV(rfc,param_grid,cv=10)#网格搜索
GS.fit(data.data,data.target)
GS.best_params_#显示调整出来的最佳参数
GS.best_score_#返回调整好的最佳参数对应的准确率
0.9666353383458647
#调整max_features
param_grid = {'max_features':np.arange(5,30,1)}
rfc = RandomForestClassifier(n_estimators=73
,random_state=90
)
GS = GridSearchCV(rfc,param_grid,cv=10)
GS.fit(data.data,data.target)
GS.best_params_
GS.best_score_
0.9666666666666668
#调整min_samples_leaf
param_grid={'min_samples_leaf':np.arange(1, 1+10, 1)}
#对于min_samples_split和min_samples_leaf,一般是从他们的最小值开始向上增加10或20
#面对高维度高样本量数据,如果不放心,也可以直接+50,对于大型数据,可能需要200~300的范围
#如果调整的时候发现准确率无论如何都上不来,那可以放心大胆调一个很大的数据,大力限制模型的复杂度
rfc = RandomForestClassifier(n_estimators=39
,random_state=90
)
GS = GridSearchCV(rfc,param_grid,cv=10)
GS.fit(data.data,data.target)
GS.best_params_
GS.best_score_
f:\Anaconda3\lib\site-packages\sklearn\model_selection\_search.py:841: DeprecationWarning: The default of the `iid` parameter will change from True to False in version 0.22 and will be removed in 0.24. This will change numeric results when test-set sizes are unequal.
DeprecationWarning)
0.9718804920913884
#调整min_samples_split
param_grid={'min_samples_split':np.arange(2, 2+20, 1)}
rfc = RandomForestClassifier(n_estimators=39
,random_state=90
)
GS = GridSearchCV(rfc,param_grid,cv=10)
GS.fit(data.data,data.target)
GS.best_params_
GS.best_score_
f:\Anaconda3\lib\site-packages\sklearn\model_selection\_search.py:841: DeprecationWarning: The default of the `iid` parameter will change from True to False in version 0.22 and will be removed in 0.24. This will change numeric results when test-set sizes are unequal.
DeprecationWarning)
0.9718804920913884
#调整Criterion
param_grid = {'criterion':['gini', 'entropy']}
rfc = RandomForestClassifier(n_estimators=39
,random_state=90
)
GS = GridSearchCV(rfc,param_grid,cv=10)
GS.fit(data.data,data.target)
GS.best_params_
GS.best_score_
0.9718804920913884
rfc = RandomForestClassifier(n_estimators=39,random_state=90)
score = cross_val_score(rfc,data.data,data.target,cv=10).mean()
score
score - score_pre
0.005264238181661218