从最简单的Voting说起,这可以说是一种最直观、简单的模型融合。假设对于一个二分类问题,有3个基础模型,那么就采取投票制的方法,投票多者确定为最终的分类
对于回归问题,一个简单直接的思路是取平均。稍稍改进的方法是进行加权平均。权值可以用排序的方法确定,举个例子,比如A、B、C三种基本模型,模型效果进行排名,假设排名分别是1,2,3,那么给这三个模型赋予的权值分别是3/6、2/6、1/6
这两种方法看似简单,其实后面的高级算法也可以说是基于此而产生的,Bagging或者Boosting都是一种把许多弱分类器这样融合成强分类器的思想
Bagging就是采用有放回的方式进行抽样,用抽样的样本建立子模型,对子模型进行训练,这个过程重复多次,最后进行融合。大概分为这样两步:
重复K次,有放回地重复抽样建模,训练子模型
模型融合,分类问题:voting,回归问题:average
随机森林就是基于Bagging算法的一个典型例子,采用的基分类器是决策树
Bagging算法可以并行处理,而Boosting的思想是一种迭代的方法,每一次训练的时候都更加关心分类错误的样例,给这些分类错误的样例增加更大的权重,下一次迭代的目标就是能够更容易辨别出上一轮分类错误的样例。最终将这些弱分类器进行加权相加
同样地,基于Boosting思想的有AdaBoost、GBDT等
satcking融合的步骤
:
step1:训练T个初级学习器,要使用交叉验证的方法在Train Set上面训练(因为第二阶段建立元学习器的数据是初级学习器输出的,如果初级学习器的泛化能力低下,元学习器也会过拟合)
step2:T个初级学习器在Train Set上输出的预测值,作为元学习器的训练数据D,有T个初级学习器,D中就有T个特征。D的label和训练初级学习器时的label一致
step3:T个初级学习器在Test Set上输出的预测值,作为训练元学习器时的测试集,同样也是有T个模型就有T个特征
step4:训练元学习器,元学习器训练集D的label和训练初级学习器时的label一致
下面是stacking融合的代码,可以保存成py文件,直接调用
def stack_model(oof_1, oof_2, oof_3, predictions_1, predictions_2, predictions_3, y, eval_type='regression'):
# Part 1.数据准备
# 按行拼接列,拼接验证集所有预测结果
# train_stack就是final model的训练数据
train_stack = np.hstack([oof_1, oof_2, oof_3])
# 按行拼接列,拼接测试集上所有预测结果
# test_stack就是final model的测试数据
test_stack = np.hstack([predictions_1, predictions_2, predictions_3])
# 创建一个和验证集行数相同的全零数组,
oof = np.zeros(train_stack.shape[0])
# 创建一个和测试集行数相同的全零数组
predictions = np.zeros(test_stack.shape[0])
# Part 2.多轮交叉验证(对于stacking第二步骤的交叉验证):划分为5折,每一折训练集上面用贝叶斯回归来训练模型(模型融合过程)
#在验证集上
from sklearn.model_selection import RepeatedKFold
folds = RepeatedKFold(n_splits=5, n_repeats=2, random_state=2020)
# fold_为折数,trn_idx为每一折训练集index,val_idx为每一折验证集index
for fold_, (trn_idx, val_idx) in enumerate(folds.split(train_stack, y)):
# 打印折数信息
print("fold n°{}".format(fold_+1))
# 训练集中划分为训练集的样本和标签
trn_data, trn_y = train_stack[trn_idx], y[trn_idx]
# 训练集中划分为验证集的样本和标签
val_data, val_y = train_stack[val_idx], y[val_idx]
# 开始训练时提示
print("-" * 10 + "Stacking " + str(fold_+1) + "-" * 10)
# 采用贝叶斯回归作为结果融合的模型(final model)
clf = BayesianRidge()
# 在训练数据上进行训练
clf.fit(trn_data, trn_y)
# 在验证数据上进行预测,并将结果记录在oof对应位置(用来计算评估指标)
oof[val_idx] = clf.predict(val_data)
# 对测试集数据进行预测,每一轮预测结果占比额外的1/10(多轮交叉验证:n_splits=5, n_repeats=2)
predictions += clf.predict(test_stack) / (5 * 2)
if eval_type == 'regression':
print('mean: ',np.sqrt(mean_squared_error(y, oof)))
if eval_type == 'binary':
print('mean: ',log_loss(y, oof))
# 返回测试集的预测结果
return oof, predictions
十年磨剑,与君共勉!
更多代码:Gitee主页:https://gitee.com/GZHzzz
博客主页:CSDN:https://blog.csdn.net/gzhzzaa
基于pytorch的经典模型:基于pytorch的典型智能体模型
强化学习经典论文:强化学习经典论文
while True:
Go life