“本文内容的诉求为实用、易上手,所以理论的内容以及公式只做少量的解释,并不着重涉及。“
本节内容:
1。评价函数 —— 如何评价模型的好坏
2。测试集、验证集、训练集 —— 防止过拟合的验证集
3。RF 的超参数设置 —— 如何 tune 模型
- 一颗决策树的形成 n_estimators
- 随机森林 bootstrapping
- 数据量太小怎么办 oob_score
- max_samples_leaf, max_features
上一节我们是讲了 RF 的使用条件及优劣,这一节就继续来讲讲如何使用 RF,尤其是在 Kaggle 建模,或者是其他的生产环境中。
Notes:这里记录一个 data scientist 的好习惯
1。在使用 notebook 的时候,建议先在 cell 中书写函数 function,测试通过后,将 function 写上 notes 之后搬到 .py 文件当中,在 cell 中通过 import 来导入。在后期的 .py 文件中,可以遵循 PEP8 格式进行程序书写,以满足多人合作的工程或学术研究的需求。
2。在模型中,也是首先提取 dataset 中的一部分,来先跑同测试,记录效果好的模型和参数,在晚上让电脑跑整个数据集来获得针对全模型的估计。
3。在数据读入以后(如 pandas.read_csv() ),
在上述 notes2 中,“哪个模型效果好“ 就成了很重要的问题,回答这个问题的就是评价函数 evaluation metrics。
1。评价函数 —— 如何评价模型的好坏
由于这里主要讨论一些实用的方法,因此我们主要来回答 sklearn 里面 RandomForrestRegression 对象函数生成后,自带的 score 是什么。其实 sklearn 每个 Regression 模型对象都会带这个 score 函数。
Regression 模型中的 score 函数指的是 :
我们先假设有一个 naive 模型,仅仅计算 y 的均值作为我们需要预测的 y。
那我们的模型与这个 naive 模型相比,是否提高了精度。
提高了越多,值越接近 1 。
可以来看一下公式,,SS 此处表示 RMSE 为 ,这个的 可以是模型均值也可以是模型的预测值,两者相除表示当前模型比均值的 naive 模型优化的程度,因此优化的越好,score 越接近 1 。
m = RandomForestRegressor(n_jobs=-1)
m.fit(X_train, y_train)
m.score(X_valid, y_valid)
当然除了这个模型自带的 score 以外,我们也是需要查看 Kaggle 自己需要的模型验证函数的确保我们的成绩在 leaderboard 上排名好。这个部分,Sklearn 提供了 metrics module 来计算各种评价指标,详见 sklearn metrics。
2。测试集、验证集、训练集 —— 防止过拟合的验证集
既然有了评价指标,那我们就能从模型数据里面看到过拟合问题。
一般我们把数据集分为训练集、验证集和测试集三个部分,测试集是完全不相关的数据,绝对绝对不会在训练模型时使用。在 Kaggle 中,这部分 test 数据就是 public leaderboard 以及 private leaderboard 里面给你排名的数据,你是不可能接触到的。在真实的工程环境中,这部分数据就是投入使用之后的真实模型效果,比如市场对于明日股票走势的预测等。
然后,在模型训练中,会使用到的就是 训练集和验证集,注意到我在验证集和训练集之间画了虚线,因为这个分割是可以重新绘制的,在每个模型,甚至单个模型里面都可以重新组合这个分割(比如 k-fold),但是单次训练里面,两者的数据是不重叠的,上面的示意图里面展示了不同的分割方法的数据情况。
训练集用于 fit 模型,而验证集就用来直接验证该模型的有效性,减少过拟合的影响。
小技巧:
如果你需要训练的是时间序列模型,则可以针对训练集和验证集进行时间排序后的分割。
def split_vals(a,n):
return a[:n].copy(), a[n:].copy()
这样你就可以用训练集和验证集来真实模拟时间序列上的预测“未来”,而不因为 random_split 的方法,由于引入未来函数的原因来导致了模型估计误差。
3。RF 的超参数设置 —— 如何 tune 模型
RF 是随机森林,为了理解超参数,我们先取森林里面的一棵树。
a。一棵决策树
m = RandomForestRegressor(n_estimators=1, max_depth=3, bootstrap=False, n_jobs=-1)
m.fit(X_train, y_train)
m.score(y_test, m.predict(y_test))
在这里,n_estimators 是树的棵树,max_depth 是树的深度,bootstrap 是是否需要重采样,n_jobs 是你需要的 CPU 个数。
决策数的本质就是找到所有参数中一个参数里面最容易区分数据的分割点,将数据集切分成在这个分割点的左右两个区域,符合(大于)该切割点,或者不符合(小于)该切割点。
max_depth 就是这个树的深度,决定了能够决策的条件树,默认就是分割到每个子结点仅省一个数据,这样就是最精确的,所以决策树的问题往往就是过拟合、范化能力差。
为了解决这个问题,就需要引入 bagging。
b。bagging 集合树,即森林
m = RandomForestRegressor(n_jobs=-1)
m.fit(X_train, y_train)
m.score(y_test, m.predict(y_test))
在 RF 里面,RandomForrestRegressor 的默认 n_estimators 是 10,也就是 10 棵树。
“随机森林假设基于一个理论,多个独立不相关模型都各自获取了数据本身的特征,因此他们的特征是有意义的,但是他们的误差是随机的。当他们叠加的时候,这些特征就变得明显,而误差则由于是随机的,因此被抵消了!”
这个理论在数学上是可以被证明的,超级超级经典,这也是“随机“的由来。具体的实现方式,就是每棵树都随机获得数据集中的一个子集(这个子集是可以 bootstrapping 来重复抽取相同数据的),来得到关于这个子集的特征。预测的时候,把每个都模型的预测都线性相加,就能得到比较好的预测结果。这是简单的数学模拟,但是在工业应用中得到了非常好的效果!简直就是天才的发明。
c。out-of-bagging score - 数据集过小不能留出验证集怎么办?
在 b 的随机森林中,你会发现一个构建树的方式是使用数据的不同子集来得到不同的数据特征,那么每个树自然而然就不会用到全部的数据集,因此我们这里就可以自然的使用这些没有用到训练的子集来得到评价score,非常聪明的办法哦!
他的参数设置就是,oob_score 。
m = RandomForestRegressor(n_estimators=40, n_jobs=-1, oob_score=True)
m.fit(X_train, y_train)
d。更多超参数 - min_sample、max_feature
m = RandomForestRegressor(n_estimators=40, min_samples_leaf=3, max_features=0.5, n_jobs=-1, oob_score=True)
m.fit(X_train, y_train)
min_samples_leaf 也是常用的超参数,代表了最小每个子叶子需要包含几个数据点,也是常用的限制参数,往往设置 1、3、5、15、25 等奇数。
另一个有效的参数是 max_feature,这个参数是对决策树中条件的设置,因为我们担心如果某个特征过于明显,那么每个决策树就都会使用这个特征,那每个决策树就会变得趋同,而无法更好的获得不相关的关系评估,因此 max_feature 这个参数就会每次随机在所有的特征中选取 50% 来考察其中的关系。你可以理解为,每棵树随机选择了数据集的不同行来训练,而这个 max_feature 随机选择不同的列来训练。
其他的推荐参数也包含了 1, 0.5, log2,或者 sqrt,可以参阅文档 sklearn 文档。
最后的建议:尽量在小的subset上进行条参,尽可能尝试更多的模型,随后在全数据上进行训练来获得完整的模型!加油!