众所周知,机器学习可以通过多个模型融合来提升模型的性能,近些年的各种算法大赛中前几名几乎都是多模型融合,比如在kaggle上的otto产品分类挑战赛中取得冠军和亚军成绩的模型都是融合了1000+模型的“庞然大物”。某种层面上讲,多模型融合是一种对数据的“暴力”解法,通过若干模型来提升性能,当然也有大神通过数据前期处理+单模型也能达到多模型同样的效果,不过楼主还是比较懒,懒得分析数据之间的关系,以及特征分析等工作。废话不多说,进入我们的正题吧!
真实标签 | 1 | 0 | 1 | 0 | 1 | 1 | 0 | 1 | 1 | 1 |
---|---|---|---|---|---|---|---|---|---|---|
分类器1 | 1 | 0 | 1 | 0 | 1 | 0 | 0 | 0 | 1 | 1 |
分类器2 | 1 | 1 | 1 | 0 | 1 | 1 | 1 | 1 | 1 | 1 |
分类器3 | 1 | 1 | 0 | 0 | 1 | 1 | 1 | 1 | 1 | 0 |
从上表我们可以看出:
分类器1的accuracy=0.8
分类器2的accuracy=0.8
分类器3的accuracy=0.6
如果按照少数服从多数的原则,则模型融合后的accuracy=0.8
你可能发现使用多模型融合后,模型的性能并没有提升,这一方面可能是投票的模型太少,某些模型恰好都把某个样本分错了,导致模型融合后性能提升不明显,另一方面,也可能与模型之间的差异过小有关,我们再来看一个例子。
真实标签 | 1 | 0 | 1 | 0 | 1 | 1 | 0 | 1 | 1 | 1 |
---|---|---|---|---|---|---|---|---|---|---|
分类器1 | 1 | 0 | 1 | 0 | 1 | 0 | 0 | 0 | 1 | 1 |
分类器2 | 0 | 1 | 1 | 0 | 1 | 1 | 0 | 1 | 0 | 1 |
分类器3 | 1 | 0 | 0 | 0 | 1 | 1 | 1 | 0 | 1 | 0 |
从上表我们可以看出:
分类器1的accuracy=0.8
分类器2的accuracy=0.7
分类器3的accuracy=0.6
如果按照少数服从多数的原则,则模型融合后的accuracy=0.9
通过观察我们发现后面的实验中,模型的差异更大,换句话说,就是模型在不同的样本上出错,第一个实验accuracy低或者无提升的原因是模型之间的相关性较高,都在同一个或者几个样本上出错,这样就会导致融合模型性能无提升甚至下降。
对于模型融合,模型之间差异越大,融合所得的结果将会更好。这里所指模型之间的差异,并不是指正确率的差异,而是指模型之间相关性的差异。
通过上面的实验,我们利用sklearn中的Voting包来实现一个多模型融合的例子
import numpy as np
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import RandomForestClassifier, VotingClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split, StratifiedKFold
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score
iris = load_iris()
data = iris.data
labels = iris.target
x_train, x_test, y_train, y_test = train_test_split(data, labels, test_size=0.3, random_state=10)
kfold = StratifiedKFold(n_splits=10, shuffle=True, random_state=10)
# 模型
cls_knn = KNeighborsClassifier(n_neighbors=3)
cls_gnb = GaussianNB()
cls_dt = DecisionTreeClassifier(random_state=10)
这里只用到了3种分类器,分别是K近邻、高斯贝叶斯和决策树,没有选择很多分类器的原因是,其他的分类器和这3种算法原理差不多,不能达到我们一开始说的模型差异要大。
# 投票
voting = VotingClassifier(estimators=[('knn', cls_knn), ('gnb', cls_gnb),
('dt', cls_dt)], voting='hard', weights=[2, 1, 1])
# 比较性能(10折交叉验证)
acc_list = []
for clf in (cls_knn, cls_gnb, cls_dt, voting):
for k, (train, test) in enumerate(kfold.split(x_train, y_train)):
clf.fit(x_train[train], y_train[train])
y_pred = clf.predict(x_test)
acc = accuracy_score(y_test, y_pred)
acc_list.append(acc)
print(clf.__class__.__name__, np.mean(acc_list))
acc_list.clear()
KNeighborsClassifier 0.9577777777777777
GaussianNB 0.9533333333333334
DecisionTreeClassifier 0.9333333333333333
VotingClassifier 0.9488888888888889
第一次给出的结果如上所示,我们发现投票后的acc竟然不如K近邻以及高斯贝叶斯,这可能还是出现了分类器之间差异过小的问题,他们不约而同的在部分数据上集体出错,所以,换一种思路,现在我让投票的权重发生改变,优先训练KNN,使其acc最大化,然后赋予其较大的权重,这有点像班里的好学生做的题正确率高,另外2名同学正确率低一些,那我们就让成绩最好的同学的比例大一些,同时调整模型超参数,进一步提升模型性能。
KNeighborsClassifier 0.9844444444444445
GaussianNB 0.9888888888888889
DecisionTreeClassifier 0.96
VotingClassifier 0.9911111111111112
按照2:1:1的权重我们发现模型融合准确率确有提升,目的达成!