一一张xi

【集成学习】Blending和Stacking

Stacking，这个集成方法在比赛中被称为“懒人”算法，因为它不需要花费过多时间的调参就可以得到一个效果不错的算法
。 stacking严格来说并不是一种算法，而是精美而又复杂的，对模型集成的一种策略。Stacking集成算法可以理解为一个两层的集成，第一层含有多个基础分类器，把预测的结果(元特征)提供给第二层，而第二层的分类器通常是逻辑回归，他把一层分类器的结果当做特征做拟合输出预测结果。

1. Blending

Blending是Stacking的简化版，其思想可以理解为上课开小差被老师提问不知道答案，周围同学告诉了你答案，你便将他们的答案综合下告诉了老师。
Blending的工作过程如下：

(1) 将数据划分为训练集和测试集(test_set)，其中训练集需要再次划分为训练集(train_set)和验证集(val_set)；
(2) 创建第一层的多个模型，这些模型可以是同质的也可以是异质的；
(3) 使用train_set训练步骤2中的多个模型，然后用训练好的模型预测val_set和test_set得到val_predict, test_predict1；
(4) 创建第二层的模型,使用val_predict作为训练集训练第二层的模型；
(5) 使用第二层训练好的模型对第二层测试集test_predict1进行预测，该结果为整个测试集的结果。

(图片来源：https://blog.csdn.net/sinat_35821976/article/details/83622594)

下面来梳理下这个过程

假设现在我们已经有了数据集

（1）将数据集划分为训练集和测试集，如80%训练集和20%测试集，然后在这80%的训练集中再拆分训练集70%和验证集30%，因此拆分后的数据集由三部分组成
- 训练集80%* 70%，用来训练模型
- 验证集80%* 30% ，用来调整模型(调参)
- 验证集20%，用来检验模型的优度
在(2)-(3)步中，我们使用训练集创建了K个模型，如SVM、random forests、XGBoost等，这个是第一层的模型。训练好模型后将验证集输入模型进行预测，得到K组不同的输出，我们记作 $A_1,...,A_K$ ，然后将测试集输入K个模型也得到K组输出，我们记作 $B_1,...,B_K$ ，其中 $A_i$ 的样本数与验证集一致， $B_i$ 的样本数与测试集一致。
如果总的样本数有10000个样本，那么使用5600个样本训练了K个模型，输入验证集2400个样本得到K组2400个样本的结果 $A_1,...,A_K$ ，输入测试集2000个得到K组2000个样本的结果 $B_1,...,B_K$ 。
(4)步中，使用K组2400个样本的验证集结果 $A_1,...,A_K$ 作为第二层分类器的特征，验证集的2400个标签为因变量，训练第二层分类器，得到2400个样本的输出。
在(5)步中，将输入测试集2000个得到K组2000个样本的结果 $B_1,...,B_K$ 放入第二层分类器，得到2000个测试集的预测结果。

Blending优点 : 实现简单粗暴，没有太多的理论的分析
Blending缺点：只使用了一部分数据集作为留出集进行验证，也就是只能用上数据中的一部分，实际上这对数据来说是很奢侈浪费的。

代码实现

#加载相关工具包
import numpy as np
import pandas as pd 
import matplotlib.pyplot as plt 
plt.style.use('ggplot')
%matplotlib inline
import seaborn as sns 
import warnings
warnings.filterwarnings('ignore')

#创建数据
from sklearn import datasets
from sklearn.datasets import make_blobs
from sklearn.model_selection import train_test_split
data,target=make_blobs(n_samples=1000,centers=2,random_state=1,cluster_std=1.0)

#创建训练集和测试集
X_train1,X_test,y_train1,y_test=train_test_split(data,target,test_size=0.2,random_state=1)
#创建训练集和验证集
X_train,X_val,y_train,y_val = train_test_split(X_train1, y_train1, test_size=0.3, random_state=1)
print("The shape of training X:",X_train.shape)
print("The shape of training y:",y_train.shape)
print("The shape of test X:",X_test.shape)
print("The shape of test y:",y_test.shape)
print("The shape of validation X:",X_val.shape)
print("The shape of validation y:",y_val.shape)

# 输出第一层的验证集结果与测试集结果
val_features = np.zeros((X_val.shape[0],len(clfs)))  # 初始化验证集结果
test_features = np.zeros((X_test.shape[0],len(clfs)))  # 初始化测试集结果

for i,clf in enumerate(clfs):
    clf.fit(X_train,y_train)
    val_feature = clf.predict_proba(X_val)[:, 1]
    test_feature = clf.predict_proba(X_test)[:,1]
    val_features[:,i] = val_feature
    test_features[:,i] = test_feature
    
# 将第一层的验证集的结果输入第二层训练第二层分类器
lr.fit(val_features,y_val)
# 输出预测的结果
from sklearn.model_selection import cross_val_score
cross_val_score(lr,test_features,y_test,cv=5)

2. Stacking

Blending在集成的过程中只会用到验证集的数据，对数据实际上是一个很大的浪费。在Blending中，我们产生验证集的方式是使用分割的方式，产生一组训练集和一组验证集，针对此问题，我们可以使用交叉验证的方式，因而出现了Stacking集成学习算法

首先将所有数据集生成测试集和训练集（假如训练集为10000,测试集为2500行），那么上层会进行5折交叉检验，使用训练集中的8000条作为训练集，剩余2000行作为验证集（橙色）。
每次验证相当于使用了蓝色的8000条数据训练出一个模型，使用模型对验证集进行验证得到2000条数据，并对测试集进行预测，得到2500条数据，这样经过5次交叉检验，可以得到中间的橙色的5* 2000条验证集的结果(相当于每条数据的预测结果)，5* 2500条测试集的预测结果。
接下来会将验证集的5* 2000条预测结果拼接成10000行长的矩阵，标记为 $A_1$ ，而对于5* 2500行的测试集的预测结果进行加权平均，得到一个2500一列的矩阵，标记为 $B_1$ 。
上面得到一个基模型在数据集上的预测结果 $A_1$ 、 $B_1$ ,这样当我们对3个基模型进行集成的话，相于得到了 $A_1$ 、 $A_2$ 、 $A_3$ 、 $B_1$ 、 $B_2$ 、 $B_3$ 六个矩阵。
之后我们会将 $A_1$ 、 $A_2$ 、 $A_3$ 并列在一起成10000行3列的矩阵作为training data, $B_1$ 、 $B_2$ 、 $B_3$ 合并在一起成2500行3列的矩阵作为testing data，让下层学习器基于这样的数据进行再训练。
再训练是基于每个基础模型的预测结果作为特征（三个特征），次学习器会学习训练如果往这样的基学习的预测结果上赋予权重w，来使得最后的预测最为准确。

具体实现过程如下（参考https://www.cnblogs.com/Christina-Notebook/p/10063146.html）
这里用到的三个基模型是xgb，lgb和rf

代码实现
由于sklearn中没有直接对Stacking的方法，因此我们需要下载mlxtend工具包（pip install mlxtend）

StackingClassifier使用API和参数说明：

StackingClassifier(classifiers, meta_classifier, use_probas=False, average_probas=False, verbose=0, use_features_in_secondary=False)


`classifiers`	基分类器，数组形式，[cl1, cl2, cl3]. 每个基分类器的属性被存储在类属性 self.clfs_.
`meta_classifier`	目标分类器，即将前面分类器合起来的分类器
`use_probas`	bool (default: False) ，如果设置为True，那么目标分类器的输入就是前面分类输出的类别概率值而不是类别标签
`average_probas`	bool (default: False)，当上一个参数use_probas = True时需设置，average_probas=True表示所有基分类器输出的概率值需被平均，否则拼接。
`verbose`	int, optional (default=0)。用来控制使用过程中的日志输出，当 verbose = 0时，什么也不输出， verbose = 1，输出回归器的序号和名字。verbose = 2，输出详细的参数信息。verbose > 2, 自动将verbose设置为小于2的，verbose -2.
`use_features_in_secondary`	bool (default: False). 如果设置为True，那么最终的目标分类器就被基分类器产生的数据和最初的数据集同时训练。如果设置为False，最终的分类器只会使用基分类器产生的数据训练。

2.1 简单堆叠三层CV分类

#1.简单堆叠三层CV分类
from sklearn import datasets
iris=datasets.load_iris()
X, y = iris.data[:, 1:3], iris.target
print(X.shape,y.shape)

from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.ensemble import RandomForestClassifier
from mlxtend.classifier import StackingCVClassifier

RANDOM_SEED=42 
#基学习器
clf1 = KNeighborsClassifier(n_neighbors=1)
clf2 = RandomForestClassifier(random_state=RANDOM_SEED)
clf3 = GaussianNB()
#元学习器
lr = LogisticRegression()

sclf = StackingCVClassifier(classifiers=[clf1, clf2, clf3],  # 第一层分类器
                            meta_classifier=lr,   # 第二层分类器
                            random_state=RANDOM_SEED)

print('3-fold cross validation:\n')

for clf, label in zip([clf1, clf2, clf3, sclf], ['KNN', 'Random Forest', 'Naive Bayes','StackingClassifier']):
    scores=cross_val_score(clf,X,y,cv=3,scoring='accuracy')
    print('Accuracy:%0.2f(+/-%0.2f)[%s]'%(scores.mean(),scores.std(),label))

# 我们画出决策边界
from mlxtend.plotting import plot_decision_regions
import matplotlib.gridspec as gridspec
import itertools

gs = gridspec.GridSpec(2, 2)
fig = plt.figure(figsize=(10,8))
for clf, lab, grd in zip([clf1, clf2, clf3, sclf], 
                         ['KNN', 
                          'Random Forest', 
                          'Naive Bayes',
                          'StackingCVClassifier'],
                          itertools.product([0, 1], repeat=2)):
    clf.fit(X, y)
    ax = plt.subplot(gs[grd[0], grd[1]])
    fig = plot_decision_regions(X=X, y=y, clf=clf)
    plt.title(lab)
plt.show()

2.2 使用概率作为元特征

clf1 = KNeighborsClassifier
使用第一层所有基分类器所产生的类别概率值作为meta-classfier的输入。需要在StackingClassifier 中增加一个参数设置：use_probas = True。

另外，还有一个参数设置average_probas = True,那么这些基分类器所产出的概率值将按照列被平均，否则会拼接。

例如：

基分类器1：predictions=[0.2,0.2,0.7]
基分类器2：predictions=[0.4,0.3,0.8]
基分类器3：predictions=[0.1,0.4,0.6]

1）若use_probas = True，average_probas = True，

则产生的meta-feature 为：[0.233, 0.3, 0.7]

2）若use_probas = True，average_probas = False，则产生的meta-feature 为：[0.2,0.2,0.7,0.4,0.3,0.8,0.1,0.4,0.6]

# 2.使用概率作为元特征
clf1 = KNeighborsClassifier(n_neighbors=1)
clf2 = RandomForestClassifier(random_state=1)
clf3 = GaussianNB()
lr = LogisticRegression()

sclf = StackingCVClassifier(classifiers=[clf1, clf2, clf3],
                            use_probas=True,  #更改了此处
                            meta_classifier=lr,
                            random_state=42)

print('3-fold cross validation:\n')

for clf, label in zip([clf1, clf2, clf3, sclf], 
                      ['KNN', 
                       'Random Forest', 
                       'Naive Bayes',
                       'StackingClassifier']):

    scores = cross_val_score(clf, X, y, 
                                              cv=3, scoring='accuracy')
    print("Accuracy: %0.2f (+/- %0.2f) [%s]" 
          % (scores.mean(), scores.std(), label))

2.3 堆叠5折CV分类与网格搜索(结合网格搜索调参优化)

# 3. 堆叠5折CV分类与网格搜索(结合网格搜索调参优化)
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB 
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV
from mlxtend.classifier import StackingCVClassifier

# Initializing models

clf1 = KNeighborsClassifier(n_neighbors=1)
clf2 = RandomForestClassifier(random_state=RANDOM_SEED)
clf3 = GaussianNB()
lr = LogisticRegression()

sclf = StackingCVClassifier(classifiers=[clf1, clf2, clf3], 
                            meta_classifier=lr,
                            random_state=42)

params = {
     'kneighborsclassifier__n_neighbors': [1, 5],
          'randomforestclassifier__n_estimators': [10, 50],
          'meta_classifier__C': [0.1, 10.0]}

grid = GridSearchCV(estimator=sclf, 
                    param_grid=params, 
                    cv=5,
                    refit=True)
grid.fit(X, y)

cv_keys = ('mean_test_score', 'std_test_score', 'params')

for r, _ in enumerate(grid.cv_results_['mean_test_score']):
    print("%0.3f +/- %0.2f %r"
          % (grid.cv_results_[cv_keys[0]][r],
             grid.cv_results_[cv_keys[1]][r] / 2.0,
             grid.cv_results_[cv_keys[2]][r]))

print('Best parameters: %s' % grid.best_params_)
print('Accuracy: %.2f' % grid.best_score_)

每个基学习器设置了两个取值结果，所以最后有八个结果，最优结果为{'kneighborsclassifier__n_neighbors': 5, 'meta_classifier__C': 0.1, 'randomforestclassifier__n_estimators': 10}

# 如果我们打算多次使用回归算法，我们要做的就是在参数网格中添加一个附加的数字后缀，如下所示：
from sklearn.model_selection import GridSearchCV

# Initializing models

clf1 = KNeighborsClassifier(n_neighbors=1)
clf2 = RandomForestClassifier(random_state=RANDOM_SEED)
clf3 = GaussianNB()
lr = LogisticRegression()

sclf = StackingCVClassifier(classifiers=[clf1, clf1, clf2, clf3], 
                            meta_classifier=lr,
                            random_state=RANDOM_SEED)

params = {
     'kneighborsclassifier-1__n_neighbors': [1, 5],
          'kneighborsclassifier-2__n_neighbors': [1, 5],
          'randomforestclassifier__n_estimators': [10, 50],
          'meta_classifier__C': [0.1, 10.0]}

grid = GridSearchCV(estimator=sclf, 
                    param_grid=params, 
                    cv=5,
                    refit=True)
grid.fit(X, y)

cv_keys = ('mean_test_score', 'std_test_score', 'params')

for r, _ in enumerate(grid.cv_results_['mean_test_score']):
    print("%0.3f +/- %0.2f %r"
          % (grid.cv_results_[cv_keys[0]][r],
             grid.cv_results_[cv_keys[1]][r] / 2.0,
             grid.cv_results_[cv_keys[2]][r]))

print('Best parameters: %s' % grid.best_params_)
print('Accuracy: %.2f' % grid.best_score_)

2.4 在不同特征子集上运行的分类器的堆叠

这一种方法是对基分类器训练的特征维度进行操作的，并不是给每一个基分类器全部的特征，而是赋予不同的基分类器不同的特征。比如：基分类器1训练前半部分的特征，基分类器2训练后半部分的特征。这部分的操作是通过sklearn中的pipelines实现。最终通过StackingClassifier组合起来

# 4.在不同特征子集上运行的分类器的堆叠
##不同的1级分类器可以适合训练数据集中的不同特征子集。以下示例说明了如何使用scikit-learn管道和ColumnSelector：
from sklearn.datasets import load_iris
from mlxtend.classifier import StackingCVClassifier
from mlxtend.feature_selection import ColumnSelector
from sklearn.pipeline import make_pipeline
from sklearn.linear_model import LogisticRegression

iris = load_iris()
X = iris.data
y = iris.target

pipe1 = make_pipeline(ColumnSelector(cols=(0, 2)),  # 选择第0,2列
                      LogisticRegression())
pipe2 = make_pipeline(ColumnSelector(cols=(1, 2, 3)),  # 选择第1,2,3列
                      LogisticRegression())

sclf = StackingCVClassifier(classifiers=[pipe1, pipe2], 
                            meta_classifier=LogisticRegression(),
                            random_state=42)

sclf.fit(X, y)

2.5 ROC曲线

分类策略：
针对多类问题的分类中，有两种分类情况：

multiclass是指分类任务中包含不止一个类别时，每条数据仅仅对应其中一个类别，不会对应多个类别
multilabel是指分类任务中不止一个分类时，每条数据可能对应不止一个类别标签，例如一条新闻，可以被划分到多个板块。

无论是multiclass，还是multilabel，做分类时都有两种策略

one-vs-the-rest(one-vs-all)
在one-vs-all策略中，假设有n个类别，那么就会建立n个二项分类器，每个分类器针对其中一个类别和剩余类别进行分类。进行预测时，利用这n个二项分类器进行分类，得到数据属于当前类的概率，选择其中概率最大的一个类别作为最终的预测结果。
one-vs-one
在one-vs-one策略中，同样假设有n个类别，则会针对两两类别建立二项分类器，得到k=n*(n-1)/2个分类器。对新数据进行分类时，依次使用这k个分类器进行分类，每次分类相当于一次投票，分类结果是哪个就相当于对哪个类投了一票。在使用全部k个分类器进行分类后，相当于进行了k次投票，选择得票最多的那个类作为最终分类结果。

在scikit-learn框架中，分别有sklearn.multiclass.OneVsRestClassifier和sklearn.multiclass.OneVsOneClassifier完成两种策略

# 5.ROC曲线 decision_function
### 像其他scikit-learn分类器一样，它StackingCVClassifier具有decision_function可用于绘制ROC曲线的方法。
### 请注意，decision_function期望并要求元分类器实现decision_function。
###decison_function就是用来衡量待预测样本到分类模型各个分隔超平面的距离
from sklearn import model_selection
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier
from mlxtend.classifier import StackingCVClassifier
from sklearn.metrics import roc_curve, auc
from sklearn.model_selection import train_test_split
from sklearn import datasets
from sklearn.preprocessing import label_binarize #标签二值化，比如可以把yes和no转化为0和1，或是把incident和normal转化为0和1。它对于两类以上的标签也是适用的
from sklearn.multiclass import OneVsRestClassifier

iris = datasets.load_iris()
X, y = iris.data[:, [0, 1]], iris.target #X只取了前两个特征

#二值化输出
y=label_binarize(y,classes=[0,1,2])
n_classes=y.shape[1]
y

RANDOM_SEED=42 
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.33, random_state=RANDOM_SEED)

clf1 =  LogisticRegression()
clf2 = RandomForestClassifier(random_state=RANDOM_SEED)
clf3 = SVC(random_state=RANDOM_SEED)
lr = LogisticRegression()

sclf = StackingCVClassifier(classifiers=[clf1, clf2, clf3],
                            meta_classifier=lr)

classifiers=OneVsRestClassifier(sclf)
y_score=classifiers.fit(X_train,y_train).decision_function(X_test) 
y_score

#绘制ROC曲线
fpr=dict()
tpr=dict()
roc_auc=dict()

for i in range(n_classes):
    fpr[i], tpr[i], _ = roc_curve(y_test[:, i], y_score[:, i])
    roc_auc[i] = auc(fpr[i], tpr[i])
    
fpr["micro"], tpr["micro"], _ = roc_curve(y_test.ravel(), y_score.ravel())
roc_auc["micro"] = auc(fpr["micro"], tpr["micro"])

plt.figure()
lw = 2
plt.plot(fpr[2], tpr[2], color='darkorange',
         lw=lw, label='ROC curve (area = %0.2f)' % roc_auc[2])
plt.plot([0, 1], [0, 1], color='navy', lw=lw, linestyle='--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver operating characteristic example')
plt.legend(loc="lower right")
plt.show()

3. Blending和Stacking对比

Blending与Stacking对比：

blending比stacking简单（因为不用进行k次的交叉验证来获得stacker feature）
blending使用了很少的数据（是划分hold-out作为测试集，并非cv）
blender可能会过拟合（其实大概率是第一点导致的）
stacking使用多次的CV会比较稳健

深入详解：随机森林算法——概念、原理、实现与应用场景猿享天开算法随机森林机器学习
深入详解：随机森林算法——概念、原理、实现与应用场景随机森林（RandomForest,RF）是一种经典的集成学习算法，广泛应用于机器学习任务。本文将通过图文结合的方式，全面解析随机森林的核心原理、实现细节和应用实践，帮助读者建立系统认知。1.核心概念与直观理解1.1什么是随机森林？随机森林是一种基于决策树的集成学习算法，通过构建多棵决策树进行协同预测。其核心思想是"三个臭皮匠，顶个诸葛亮"——多
随机森林详解：原理、优势与应用实践大千AI助手人工智能 Python #OTHER 随机森林算法机器学习决策树人工智能 DecisionTree 数据挖掘
本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！随机森林介绍1.定义：随机森林是一种强大的、高度灵活的集成学习（EnsembleLearning）算法，主要用于分类和回归任务。它的核心思想是构建多棵决策树（DecisionTree），并将这些树的预测结果进行组合（例如，分类任务采用投票，回归任务采用
集成学习基础：Bagging 原理与应用大千AI助手人工智能 Python #OTHER 集成学习机器学习人工智能算法决策树 Bagging
本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！Bagging介绍1.定义与全称：Bagging是BootstrapAggregating的缩写，中文常译为装袋法。它是一种并行式的集成学习方法。核心目标是通过构建多个基学习器的预测结果进行组合（通常是投票或平均），来获得比单一基学习器更稳定、更准确、
Boosting：从理论到实践——集成学习中的偏差征服者大千AI助手人工智能 Python #OTHER 集成学习 boosting 机器学习 tree 人工智能 ML
核心定位：一种通过串行训练弱学习器、自适应调整数据权重，将多个弱模型组合成强模型的集成学习框架，专注于降低预测偏差。本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！一、Boosting的本质目标：将一系列弱学习器（仅比随机猜测略好，如浅层决策树）组合成强学习器核心思想：错误驱动学习：后续模型重点修正
GBDT：梯度提升决策树——集成学习中的预测利器大千AI助手人工智能 Python #OTHER 决策树集成学习算法 GBDT 梯度提升人工智能机器学习
核心定位：一种通过串行集成弱学习器（决策树）、以梯度下降方式逐步逼近目标函数的机器学习算法，在结构化数据预测任务中表现出色。本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！一、GBDT是什么？全称：GradientBoostingDecisionTree（梯度提升决策树）本质：Boosting集成学
梯度增强与XGBoost算法解析 weixin_47233946 算法算法
##一、梯度增强（GradientBoosting）原理###1.1集成学习与Boosting集成学习通过结合多个弱模型提升整体性能，主要包括Bagging（如随机森林）和Boosting两类方法。**梯度增强**属于Boosting家族，核心思想是**串行训练模型，每一步修正前序模型的残差**，最终形成强预测器。###1.2算法核心流程1.**初始化基模型**：用常数（如目标变量均值）预测。2.
机器学习15-XGBoost 吹风看太阳机器学习机器人人工智能
XGBOOST学习笔记一、引言在机器学习的集成学习算法中，XGBoost（eXtremeGradientBoosting）凭借其高效性、可扩展性和卓越的性能，成为数据科学竞赛和工业界应用的热门选择。XGBoost本质上是一种基于梯度提升框架（GradientBoostingFramework）的机器学习算法，它通过不断拟合残差来构建多个弱学习器（通常是决策树），并将这些弱学习器进行累加，从而形成一
CART算法全解析：分类回归双修的决策树之王大千AI助手人工智能 Python #OTHER 算法分类回归决策树数据挖掘 CART DecisionTree
CART（ClassificationandRegressionTrees）是决策树领域的里程碑算法，由统计学家Breiman等人在1984年提出。作为当今最主流的决策树实现，它革命性地统一了分类与回归任务，其二叉树结构和剪枝技术成为现代集成学习（如随机森林、XGBoost）的基石。本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕
解锁决策树：数据挖掘的智慧引擎
目录一、决策树：数据挖掘的基石二、决策树原理剖析2.1决策树的基本结构2.2决策树的构建流程2.2.1特征选择2.2.2数据集划分2.2.3递归构建三、决策树的实践应用3.1数据准备3.2模型构建与训练3.3模型评估四、决策树的优化策略4.1剪枝策略4.1.1预剪枝4.1.2后剪枝4.2集成学习五、案例分析5.1医疗诊断案例5.2金融风险评估案例六、总结与展望一、决策树：数据挖掘的基石在当今数字化
【机器学习】机器学习重要分支——集成学习：理论、算法与实践 E绵绵 Everything 机器学习集成学习算法 python AIGC 人工智能应用
文章目录引言第一章集成学习的基本概念1.1什么是集成学习1.2集成学习的类型1.3集成学习的优势第二章集成学习的核心算法2.1Bagging方法2.2Boosting方法2.3Stacking方法第三章集成学习的应用实例3.1图像分类3.2文本分类第四章集成学习的未来发展与挑战4.1模型多样性与集成策略4.2大规模数据与计算资源4.3集成学习的解释性与可视化结论引言集成学习（EnsembleLea
【项目实训#05】DeepSeek API客户端开发与集成学习实践 elon_z 创新项目实践-个人 python oneapi llama 语言模型
【项目实训#05】DeepSeekAPI客户端开发与集成学习实践文章目录【项目实训#05】DeepSeekAPI客户端开发与集成学习实践一、背景简介二、技术方案与实现2.1整体架构2.2配置管理模块实现2.3模型列表获取2.4OneAPI客户端实现2.5Ollama客户端实现三、高级功能实现3.1格式化输出3.2代码补全四、应用场景与示例4.1基本对话示例4.2代码生成示例五、总结与展望一、背景简
机器学习与深度学习07-随机森林01 my_q 机器学习与深度学习机器学习深度学习随机森林
目录前文回顾1.随机森林的定义2.随机森林中的过拟合3.随机森林VS单一决策树4.随机森林的随机性前文回顾上一篇文章链接：地址1.随机森林的定义随机森林（RandomForest）是一种集成学习算法，用于解决分类和回归问题。它基于决策树（DecisionTrees）构建，并通过组合多个决策树来提高模型的性能和稳定性。随机森林的主要思想是通过随机选择样本和特征来构建多棵决策树，然后综合它们的预测结果
机器学习之集成学习算法文柏AI共享机器学习集成学习算法
集成学习算法一概述二Bagging方法2.1思想2.2代表算法2.3API三Boosting方法3.1AdaBoost3.1.1思想3.1.2API3.2GBDT3.2.1思想3.2.2API3.3XGBoost3.3.1思想3.3.2API机器学习算法很多,今天和大家聊一个很强悍的算法-集成学习算法,基本上是处理复杂问题的首选.话不多说,直奔主题.一概述集成学习（EnsembleLearning
机器学习模型——集成算法（一）梦想成为一名机器学习高手机器学习算法人工智能决策树集成学习
集成学习的定义：集成学习，顾名思义通过将多个单个学习器集成/组合在一起，使它们共同完成学习任务，以达到提高预测准确率的目的。有时也被称为“多分类器系统(multi-classifiersystem)”。集成学习概述：集成学习是一种机器学习方法，它通过组合多个弱学习器来形成一个强学习器，以提高预测性能。以下是一些集成学习的关键点：结合多个学习器：集成学习的核心思想是通过训练多个学习器（基学习器）并结
Python实战：随机森林 python游乐园 python 随机森林机器学习
随机森林（RandomForest）是一种集成学习方法，由多个决策树组成，可用于分类和回归任务。基本原理随机森林的核心思想是构建多个决策树，并将这些决策树的结果进行综合。在构建每棵决策树时，采用了两种随机化策略：数据采样随机：使用自助采样法（BootstrapSampling）从原始训练数据集中有放回地抽取一定数量的样本，形成一个新的训练子集，用于训练每一棵决策树。这意味着每棵树的训练数据可能会有
利用Python构建随机森林模型及其性能优化缑宇澄 python
在机器学习的众多算法中，随机森林（RandomForest）凭借其出色的稳定性、强大的抗噪声能力以及良好的解释性，成为数据挖掘和预测分析的常用工具。它通过集成多个决策树模型，不仅能有效解决单一决策树容易过拟合的问题，还能在分类和回归任务中展现优异的性能。本文将深入解析随机森林的原理，并通过Python代码实现从模型构建到性能优化的完整过程。一、随机森林模型原理随机森林是一种基于集成学习（Ensem
机器学习与深度学习14-集成学习
目录前文回顾1.集成学习的定义2.集成学习中的多样性3.集成学习中的Bagging和Boosting4.集成学习中常见的基本算法5.什么是随机森林6.AdaBoost算法的工作原理7.如何选择集成学习中的基础学习器或弱分类器8.集成学习中常见的组合策略9.集成学习中袋外误差和交叉验证的作用10.集成学习的优势和局限性前文回顾上一篇文章链接：地址1.集成学习的定义集成学习（EnsembleLearn
秒懂Boosting和Bagging算法来自于狂人 boosting 算法集成学习
一、故事开头：考试现场的启示想象一下期末考试现场：Bagging班的学生每人独立做题，最后举手投票决定答案：“这道题选A的举手！”Boosting组的学霸们却玩起接力赛：“你先做第一题→我检查后改第二题→她再优化第三题”这就是机器学习中两种经典集成学习策略的生存之道！二、Bagging：民主投票的"乌合之众"逆袭战1.核心思想Bootstrap抽样：让每个模型在随机子数据集上训练（就像蒙着眼睛抓阄
随机森林硬核解析：从原理到实战（Python代码+案例+可视化）老唐777 机器学习集成学习随机森林机器学习 python 算法人工智能深度学习
为什么你的模型总过拟合？试试这个集成学习神器！‌在实际项目中，你是否被复杂数据搞得头秃？随机森林（RandomForest）作为‌装袋法（Bagging）的经典实现‌，能有效降低方差、提升泛化能力。本文将手把手带你吃透原理，并完成‌数据采集→建模→可视化→调优‌的全流程实战！‌一、3分钟搞懂随机森林核心原理（附数学公式）‌‌1.1双随机机制：为什么比单棵决策树强？‌‌样本随机（Bootstrap）
【机器学习】【集成学习——决策树、随机森林】从零起步：掌握决策树、随机森林与GBDT的机器学习之旅宸码机器学习模式识别机器学习集成学习决策树算法 python 随机森林人工智能
这里写目录标题一、引言机器学习中集成学习的重要性二、决策树(DecisionTree)2.1基本概念2.2组成元素2.3工作原理分裂准则2.4决策树的构建过程2.5决策树的优缺点（1）决策树的优点（2）决策树的缺点（3）过拟合问题及解决方法2.6举例说明三、随机森林(RandomForest)3.1基本概念3.2工作原理构建过程随机森林的预测过程数学公式说明3.3应用场景实例说明3.4随机森林的优
sklearn基础教程：从入门到精通洛秋_ 机器学习
文章目录sklearn基础教程：从入门到精通一、sklearn简介二、安装与配置三、数据预处理数据导入数据清洗特征选择数据标准化与归一化四、常用模型介绍与应用线性回归逻辑回归决策树支持向量机K近邻算法随机森林集成学习五、模型评估与调优交叉验证网格搜索模型评估指标六、实战案例波士顿房价预测手写数字识别客户流失预测七、测试接口与详细解释单元测试接口测试八、总结个人博客【洛秋小站】洛秋资源小站【洛秋资源
机器学习——随机森林（Random Forest）知舟不叙机器学习随机森林人工智能
文章目录一、随机森林的介绍1.核心思想2.随机森林的特点3.随机森林的构建过程4.随机森林的优缺点二、.随机森林算法三、随机森林的实现1.导入库2.描绘可视化混淆矩阵3.数据预处理4.模型训练5.绘制混淆矩阵并打印评分报告6.绘制特征排名四、总结前面一节我们学习了一种简单高效的算法——决策树学习算法（DecisionTree），下面来介绍一种基于决策树的集成学习算法——随机森林算法（RandomF
机器学习——集成学习基础 m0_62060781 机器学习集成学习人工智能
一、鸢尾花数据训练模型1.使用鸢尾花数据分别训练集成模型：AdaBoost模型，GradientBoosting模型2.对别两个集成模型的准确率以及报告3.两个模型的预测结果进行可视化需要进行降维处理，两个图像显示在同一个坐标系中代码展示：fromsklearn.datasetsimportload_irisimportnumpyasnpimportpandasaspdimportmatplotl
泰迪杯特等奖案例学习资料：基于卷积神经网络与集成学习的网络问政平台留言文本挖掘与分析学习的锅泰迪杯实战案例 cnn 集成学习网络实战案例泰迪杯
（第八届“泰迪杯”数据挖掘挑战赛A题特等奖案例深度解析）一、案例背景与核心挑战1.1应用场景与行业痛点随着“互联网+政务”的推进，网络问政平台成为政府与民众沟通的重要渠道。某市问政平台日均接收留言超5000条，涉及民生、环保、交通等20余类诉求。然而，传统人工分类与处理模式存在以下问题：效率瓶颈：人工标注员日均处理量仅200条，且需具备政策理解能力，响应延迟常超过48小时。语义复杂性：留言文本包含
深入解析 Stacking：集成学习的“超级英雄联盟从零开始学习人工智能集成学习机器学习人工智能
在机器学习的世界里，我们常常面临一个挑战：单一模型往往难以完美地解决复杂问题。就像漫威电影中的超级英雄们一样，每个模型都有自己的独特能力，但也有局限性。那么，如何让这些模型“联手”发挥更大的力量呢？今天，我们就来深入探讨一种强大的集成学习方法——Stacking（堆叠）。1.Stacking是什么？Stacking是一种集成学习方法，它通过组合多个不同类型的模型，来提高整体的预测性能。想象一下，你
十大机器学习算法：理论与实战 Android洋芋人工智能机器学习算法深度学习实战 Kubernetes部署 AI模型优化图神经网络决策树分析
简介机器学习技术持续演进，算法应用场景不断扩展。在众多算法中，有十种算法因其广泛的适用性和强大的表现力被公认为机器学习领域的核心力量。本文将从零开始，系统讲解这些算法的数学原理、应用场景和企业级开发实战，帮助初学者和工程师快速掌握这些算法，并能够将其应用于实际项目中。关键词：机器学习算法、集成学习、图神经网络、逻辑回归、决策树、支持向量机、KNN、k-means、PCA、强化学习一、集成学习算法（
随机森林在数学建模中的应用自由自在2004 随机森林数学建模 python
随机森林在数学建模中的应用随机森林是一种强大的集成学习方法，通过组合多个决策树来进行分类和回归任务。其核心思想是通过对训练数据和特征的随机子集进行多次训练，生成一组决策树，并通过对这些树的预测结果进行集成来提高模型的准确性和鲁棒性。在分类问题中，随机森林的最终预测结果是基于所有树的投票决定的，而在回归问题中，结果则是所有树预测值的平均。随机森林具有出色的泛化能力和抗噪声能力，适用于处理各种数据类型
大连理工大学选修课——机器学习笔记（7）：集成学习及随机森林江安的猪猪大连理工大学选修：机器学习机器学习笔记集成学习
集成学习及随机森林集成学习概述泛化能力的局限每种学习模型的能力都有其上限限制于特定结构受限于训练样本的质量和规模如何再提高泛化能力？研究新结构扩大训练规模提升模型的泛化能力创造性思路组合多个学习模型集成学习集成学习不是特定的学习模型，而实一种构建模型的思路，一种训练学习的思想强可学习和弱可学习强可学习：对于一个概念或者一个类，如果存在一个多项式学习算法可以学习它，正确率高，则该概念是强可学习的。弱
集成学习详解 Chaos_Wang_ NLP/大模型八股集成学习机器学习人工智能
一、概念篇集成学习的核心思想是什么？集成学习通过组合多个单一模型的预测结果，综合各模型的优势，以提高整体的泛化能力和预测性能。它建立在“群策群力”的原理上，即多个弱模型的组合能够表现出比单一强模型更好的性能。集成学习与传统单一模型相比的本质区别？传统单一模型的学习过程是从训练数据中找到一个最佳的假设，而集成学习则是构建多个模型，再通过某种策略（如投票、加权平均、模型融合）组合各模型的输出结果来降低
文件内容课堂总结 2301_79975534 人工智能
集成学习通过构建并结合多个学习器完成任务，结合策略有简单平均法和加权平均法，结果可通过投票法产生。集成学习分类包括：Bagging：个体学习器无强依赖关系，可并行生成，代表为随机森林。随机森林具有处理高维数据、给出特征重要性、并行化快、可可视化等优点。Boosting：个体学习器有强依赖关系，需串行生成（如AdaBoost），通过调整数据权重提升模型性能。Stacking：聚合多个分类或回归模型，
Java实现的简单双向Map，支持重复Value superlxw1234 java 双向map
关键字：Java双向Map、DualHashBidiMap 有个需求，需要根据即时修改Map结构中的Value值，比如，将Map中所有value=V1的记录改成value=V2，key保持不变。数据量比较大，遍历Map性能太差，这就需要根据Value先找到Key，然后去修改。即：既要根据Key找Value，又要根据Value
PL/SQL触发器基础及例子百合不是茶 oracle数据库触发器 PL/SQL编程
触发器的简介; 触发器的定义就是说某个条件成立的时候，触发器里面所定义的语句就会被自动的执行。因此触发器不需要人为的去调用，也不能调用。触发器和过程函数类似过程函数必须要调用, 一个表中最多只能有12个触发器类型的,触发器和过程函数相似触发器不需要调用直接执行, 触发时间：指明触发器何时执行，该值可取： before：表示在数据库动作之前触发
[时空与探索]穿越时空的一些问题 comsci 问题
我们还没有进行过任何数学形式上的证明,仅仅是一个猜想..... 这个猜想就是; 任何有质量的物体(哪怕只有一微克)都不可能穿越时空,该物体强行穿越时空的时候,物体的质量会与时空粒子产生反应,物体会变成暗物质,也就是说,任何物体穿越时空会变成暗物质..(暗物质就我的理
easy ui datagrid上移下移一行商人shang js 上移下移 easyui datagrid
/** * 向上移动一行 * * @param dg * @param row */ function moveupRow(dg, row) { var datagrid = $(dg); var index = datagrid.datagrid("getRowIndex", row); if (isFirstRow(dg, row)) {
Java反射 oloz 反射
本人菜鸟，今天恰好有时间，写写博客，总结复习一下java反射方面的知识，欢迎大家探讨交流学习指教首先看看java中的Class package demo; public class ClassTest { /*先了解java中的Class*/ public static void main(String[] args) { //任何一个类都
springMVC 使用JSR-303 Validation验证杨白白 spring mvc
JSR-303是一个数据验证的规范，但是spring并没有对其进行实现，Hibernate Validator是实现了这一规范的，通过此这个实现来讲SpringMVC对JSR-303的支持。 JSR-303的校验是基于注解的，首先要把这些注解标记在需要验证的实体类的属性上或是其对应的get方法上。登录需要验证类 public class Login { @NotEmpty
log4j 香水浓 log4j
log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, HTML, DATABASE #log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, ROLLINGFILE, HTML #console log4j.appender.STDOUT=org.apache.log4j.ConsoleAppender log4
使用ajax和history.pushState无刷新改变页面URL agevs jquery 框架 Ajax html5 chrome
表现如果你使用chrome或者firefox等浏览器访问本博客、github.com、plus.google.com等网站时，细心的你会发现页面之间的点击是通过ajax异步请求的，同时页面的URL发生了了改变。并且能够很好的支持浏览器前进和后退。是什么有这么强大的功能呢？ HTML5里引用了新的API，history.pushState和history.replaceState，就是通过
centos中文乱码 AILIKES centos OS ssh
一、CentOS系统访问 g.cn ，发现中文乱码。于是用以前的方式：yum -y install fonts-chinese CentOS系统安装后，还是不能显示中文字体。我使用 gedit 编辑源码，其中文注释也为乱码。后来，终于找到以下方法可以解决，需要两个中文支持的包： fonts-chinese-3.02-12.
触发器 baalwolf 触发器
触发器(trigger)：监视某种情况，并触发某种操作。触发器创建语法四要素：1.监视地点(table) 2.监视事件(insert/update/delete) 3.触发时间(after/before) 4.触发事件(insert/update/delete) 语法： create trigger triggerName after/before
JS正则表达式的i m g bijian1013 JavaScript 正则表达式
g:表示全局（global)模式，即模式将被应用于所有字符串，而非在发现第一个匹配项时立即停止。 i:表示不区分大小写（case-insensitive）模式，即在确定匹配项时忽略模式与字符串的大小写。 m:表示
HTML5模式和Hashbang模式 bijian1013 JavaScript AngularJS Hashbang模式 HTML5模式
我们可以用$locationProvider来配置$location服务（可以采用注入的方式，就像AngularJS中其他所有东西一样）。这里provider的两个参数很有意思，介绍如下。 html5Mode 一个布尔值，标识$location服务是否运行在HTML5模式下。 ha
[Maven学习笔记六]Maven生命周期 bit1129 maven
从mvn test的输出开始说起当我们在user-core中执行mvn test时，执行的输出如下： /software/devsoftware/jdk1.7.0_55/bin/java -Dmaven.home=/software/devsoftware/apache-maven-3.2.1 -Dclassworlds.conf=/software/devs
【Hadoop七】基于Yarn的Hadoop Map Reduce容错 bit1129 hadoop
运行于Yarn的Map Reduce作业，可能发生失败的点包括 Task Failure Application Master Failure Node Manager Failure Resource Manager Failure 1. Task Failure 任务执行过程中产生的异常和JVM的意外终止会汇报给Application Master。僵死的任务也会被A
记一次数据推送的异常解决端口解决 ronin47 记一次数据推送的异常解决
　　需求：从db获取数据然后推送到B 程序开发完成，上jboss,刚开始报了很多错，逐一解决，可最后显示连接不到数据库。机房的同事说可以ping 通。　　自已画了个图，逐一排除，把linux 防火墙　和　setenforce　设置最低。　　　service iptables stop
巧用视错觉-UI更有趣 brotherlamp UI ui视频 ui教程 ui自学 ui资料
我们每个人在生活中都曾感受过视错觉（optical illusion）的魅力。视错觉现象是双眼跟我们开的一个玩笑，而我们往往还心甘情愿地接受我们看到的假象。其实不止如此，视觉错现象的背后还有一个重要的科学原理——格式塔原理。格式塔原理解释了人们如何以视觉方式感觉物体，以及图像的结构，视角，大小等要素是如何影响我们的视觉的。在下面这篇文章中，我们首先会简单介绍一下格式塔原理中的基本概念，
线段树-poj1177-N个矩形求边长（离散化+扫描线） bylijinnan 数据结构算法线段树
package com.ljn.base; import java.util.Arrays; import java.util.Comparator; import java.util.Set; import java.util.TreeSet; /** * POJ 1177 (线段树+离散化+扫描线)，题目链接为http://poj.org/problem?id=1177
HTTP协议详解 chicony http协议
引言
Scala设计模式 chenchao051 设计模式 scala
Scala设计模式我的话：在国外网站上看到一篇文章，里面详细描述了很多设计模式，并且用Java及Scala两种语言描述，清晰的让我们看到各种常规的设计模式，在Scala中是如何在语言特性层面直接支持的。基于文章很nice，我利用今天的空闲时间将其翻译，希望大家能一起学习，讨论。翻译
安装mysql daizj mysql 安装
安装mysql (1)删除linux上已经安装的mysql相关库信息。rpm -e xxxxxxx --nodeps (强制删除) 执行命令rpm -qa |grep mysql 检查是否删除干净 (2)执行命令 rpm -i MySQL-server-5.5.31-2.el
HTTP状态码大全 dcj3sjt126com http状态码
完整的 HTTP 1.1规范说明书来自于RFC 2616，你可以在http://www.talentdigger.cn/home/link.php?url=d3d3LnJmYy1lZGl0b3Iub3JnLw%3D%3D在线查阅。HTTP 1.1的状态码被标记为新特性，因为许多浏览器只支持 HTTP 1.0。你应只把状态码发送给支持 HTTP 1.1的客户端，支持协议版本可以通过调用request
asihttprequest上传图片 dcj3sjt126com ASIHTTPRequest
NSURL *url =@"yourURL"; ASIFormDataRequest*currentRequest =[ASIFormDataRequest requestWithURL:url]; [currentRequest setPostFormat:ASIMultipartFormDataPostFormat];[currentRequest se
C语言中，关键字static的作用 e200702084 C++c C#
在C语言中，关键字static有三个明显的作用： 1)在函数体，局部的static变量。生存期为程序的整个生命周期，（它存活多长时间）；作用域却在函数体内（它在什么地方能被访问（空间））。一个被声明为静态的变量在这一函数被调用过程中维持其值不变。因为它分配在静态存储区，函数调用结束后并不释放单元，但是在其它的作用域的无法访问。当再次调用这个函数时，这个局部的静态变量还存活，而且用在它的访
win7/8使用curl geeksun win7
1. WIN7/8下要使用curl，需要下载curl-7.20.0-win64-ssl-sspi.zip和Win64OpenSSL_Light-1_0_2d.exe。下载地址： http://curl.haxx.se/download.html 请选择不带SSL的版本，否则还需要安装SSL的支持包 2. 可以给Windows增加c
Creating a Shared Repository; Users Sharing The Repository hongtoushizi git
转载自： http://www.gitguys.com/topics/creating-a-shared-repository-users-sharing-the-repository/ Commands discussed in this section: git init –bare git clone git remote git pull git p
Java实现字符串反转的8种或9种方法 Josh_Persistence 异或反转递归反转二分交换反转 java字符串反转栈反转
注：对于第7种使用异或的方式来实现字符串的反转，如果不太看得明白的，可以参照另一篇博客： http://josh-persistence.iteye.com/blog/2205768 /** * */ package com.wsheng.aggregator.algorithm.string; import java.util.Stack; /**
代码实现任意容量倒水问题 home198979 PHP 算法倒水
形象化设计模式实战 HELLO!架构 redis命令源码解析倒水问题：有两个杯子，一个A升，一个B升，水有无限多，现要求利用这两杯子装C
Druid datasource zhb8015 druid
推荐大家使用数据库连接池 DruidDataSource. http://code.alibabatech.com/wiki/display/Druid/DruidDataSource DruidDataSource经过阿里巴巴数百个应用一年多生产环境运行验证，稳定可靠。它最重要的特点是：监控、扩展和性能。下载和Maven配置看这里： http
两种启动监听器ApplicationListener和ServletContextListener spjich java spring 框架
引言:有时候需要在项目初始化的时候进行一系列工作，比如初始化一个线程池，初始化配置文件，初始化缓存等等，这时候就需要用到启动监听器，下面分别介绍一下两种常用的项目启动监听器 ServletContextListener 特点: 依赖于sevlet容器，需要配置web.xml 使用方法: public class StartListener implements
JavaScript Rounding Methods of the Math object 何不笑 JavaScript Math
The next group of methods has to do with rounding decimal values into integers. Three methods — Math.ceil(), Math.floor(), and Math.round() — handle rounding in differen