theSerein

【机器学习】集成学习（实战）

集成学习（实战）

- 一、准备工作（设置 jupyter notebook 中的字体大小样式等）
- 二、集成算法的基本思想
- 三、集成算法的简单实现：硬投票与软投票
- - 1、构建测试数据集
  - 2、硬投票
  - 3、软投票
- 四、集成学习：Bagging 模型
- - 1、实验：对比 Bagging 模型与传统算法的差异
  - 2、OOB 策略（out of bag）
  - 3、随机森林（Random Forest）
- 五、集成学习：Boosting 模型
- - 1、AdaBoost 算法
  - 2、Gradient Boosting 算法
  - - (1) Gradient Boosting 的算法流程
    - (2) 可视化展示 Gradient Boosting 流程
    - (3) 实验：练习 sklearn 中现成的 GBDT 模型
    - (4) 提前停止策略
- 六、集成学习：Stacking 模型

实战部分将结合着理论部分进行，旨在帮助理解和强化实操（以下代码将基于 jupyter notebook 进行）。

一、准备工作（设置 jupyter notebook 中的字体大小样式等）

import numpy as np
import os
%matplotlib inline
import matplotlib
import matplotlib. pyplot as plt
plt.rcParams['axes.labelsize'] = 14
plt.rcParams['xtick.labelsize'] = 12
plt.rcParams['ytick.labelsize'] = 12
import warnings
warnings.filterwarnings('ignore')
np. random. seed(43)

二、集成算法的基本思想

训练时用多种分类器一起完成同一任务：

测试时，对待测样本分别选取不同分类器进行，然后再汇总最后的结果：

三、集成算法的简单实现：硬投票与软投票

硬投票：将每个分类器的结果汇总，以类似于少数服从多数的策略
软投票：将各分类器的结果进行加权平均（要求各分类器能得到概率值）

1、构建测试数据集

# 导入切分数据集的库
from sklearn.model_selection import train_test_split

# 导入“双月牙”数据集库
from sklearn.datasets import make_moons

# 构建测试数据
X, y = make_moons(n_samples = 500, noise = 0.3, random_state = 43)

# 划分训练集与测试集
X_train, X_test,y_train, y_test = train_test_split(X, y ,random_state = 43)

# 画图展示构建的数据集
plt.plot(X[:,0][y==0],X[:,1][y==0],'yo', alpha = 0.7)
plt.plot(X[:,0][y==1],X[:,1][y==1],'bs', alpha = 0.7)

[Out]

2、硬投票

# 导入分类器模型以及一个投票器
from sklearn.ensemble import RandomForestClassifier,VotingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC

# 创建三个不同的分类器
log_clf = LogisticRegression(random_state = 6)
rnd_clf = RandomForestClassifier(random_state = 6)
svm_clf = SVC(random_state = 6)

# 将三个分类器放入投票器中，并指定投票方式：Hard or Soft
# 此时，就可以视 voting_clf 为一个集成模型
voting_clf = VotingClassifier(estimators =[('lr', log_clf),('rf' ,rnd_clf), ('svc' , svm_clf)], voting='hard')

# 导入用于评估分类问题的库
from sklearn.metrics import accuracy_score

# 分别查看各分类器以及构建的集成模型的得分
for clf in (log_clf, rnd_clf, svm_clf, voting_clf):
    
    # 训练模型
    clf.fit(X_train, y_train)
    
    # 测试模型
    y_pred = clf.predict(X_test)
    
    # 查看预测结果
    print("分类器 {} 得分为：{}".format(clf.__class__.__name__, accuracy_score(y_test, y_pred)))

[Out]
	分类器 LogisticRegression 得分为：0.864
	分类器 RandomForestClassifier 得分为：0.896
	分类器 SVC 得分为：0.92
	分类器 VotingClassifier 得分为：0.912

结果说明：硬投票以牺牲时间为代价企图换取更好的分类效果，但在这个例子中，其提升并不是特别大（甚至相较 SVM 还略有下降）。

3、软投票

# 导入分类器模型以及一个投票器
from sklearn.ensemble import RandomForestClassifier,VotingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC

# 创建三个不同的分类器
log_clf = LogisticRegression(random_state = 6)
rnd_clf = RandomForestClassifier(random_state = 6)
# 软投票要求每个分类器都能给出概率值，因此这里必须让 SVM 返回一个概率，需调整一下参数
svm_clf = SVC(probability = True, random_state = 6)

# 将三个分类器放入投票器中，并指定投票方式：Hard or Soft
# 此时，就可以视 voting_clf 为一个集成模型
voting_clf = VotingClassifier(estimators =[('lr', log_clf),('rf' ,rnd_clf), ('svc' , svm_clf)], voting='soft')

# 导入用于评估分类问题的库
from sklearn.metrics import accuracy_score

# 分别查看各分类器以及构建的集成模型的得分
for clf in (log_clf, rnd_clf, svm_clf, voting_clf):
    
    # 训练模型
    clf.fit(X_train, y_train)
    
    # 测试模型
    y_pred = clf.predict(X_test)
    
    # 查看预测结果
    print("分类器 {} 得分为：{}".format(clf.__class__.__name__, accuracy_score(y_test, y_pred)))

[Out]
	分类器 LogisticRegression 得分为：0.864
	分类器 RandomForestClassifier 得分为：0.896
	分类器 SVC 得分为：0.92
	分类器 VotingClassifier 得分为：0.896

结果说明：从理论上说，软投票取得的效果应该要比硬投票更好，但在这个例子中，软投票策略并没有展现出它的优势。

四、集成学习：Bagging 模型

首先对训练数据集进行多次采样，保证每次得到的采样数据都是不同的。
分别训练多个同质模型，例如树模型。
预测时需得到所有模型的预测结果再进行集成。

1、实验：对比 Bagging 模型与传统算法的差异

# 引入 Bagging 分类器的库
from sklearn.ensemble import BaggingClassifier

# 引入决策树的库
from sklearn.tree import DecisionTreeClassifier

# 构建 Bagging 分类器
# 参数一：以决策树作为基学习器
# 参数二：基学习器的数量
# 参数三：单个基学习器最多传入多少样本
# 参数四：对样本数据是否进行有放回的采样
# 参数五：是否进行多线程（设置参数为 -1 表示启用全部 GPU）
bag_clf = BaggingClassifier(DecisionTreeClassifier(),
                  n_estimators = 500,
                  max_samples = 100,
                  bootstrap = True,
                  n_jobs = -1,
                random_state = 42
)

# 训练分类器
bag_clf.fit(X_train, y_train)

# 执行预测
y_pred = bag_clf.predict(X_test)

# 查看分类效果
accuracy_score(y_test,y_pred)

[Out]
	0.912

# 定义一个树模型（用于对比）
tree_clf = DecisionTreeClassifier(random_state = 42)

# 训练模型
tree_clf.fit(X_train, y_train)

# 执行预测
y_pred_tree = tree_clf.predict(X_test)

# 查看分类效果
accuracy_score(y_test, y_pred_tree)

[Out]
	0.872

结果说明：以上结果表明，集成算法相较于单个基学习器（传统算法）而言，其提升效果还是很不错的。

下面以可视化的方式（绘制决策边界）展示 Bagging 与传统算法的差异：

# 导入与颜色相关的库
from matplotlib.colors import ListedColormap

# 参数一：分类器
# 参数二：数据集（特征值 X）
# 参数三：数据集（标签值 y）
# 参数四：绘制的图像取值范围
# 参数五：透明程度
# 参数六：是否展示轮廓并进行填充
def plot_decision_boundary(clf, X, y, axes = [-1.5, 2.5, -1, 1.5], alpha = 0.5, contour = True):
    
    # 构建棋盘数据
    x1s=np.linspace (axes[0], axes[1],100)
    x2s=np.linspace (axes[2], axes[3],100)
    x1,x2 = np.meshgrid(x1s,x2s)
    X_new = np.c_[x1.ravel(), x2.ravel()]
    
    # 得到对指定特征的预测值
    y_pred = clf.predict(X_new).reshape(x1.shape)
    
    # 构建轮廓参数
    custom_cmap = ListedColormap(['#fafab0', '#9898ff', '#a0faa0'])
    plt.contourf(x1,x2,y_pred,cmap = custom_cmap,alpha = 0.3)
    
    # 判断是否展示轮廓
    if contour :
        custom_cmap2 = ListedColormap(['#7d7d58','#4c4c7f', '#507d50'])
        plt.contour(x1,x2,y_pred, cmap = custom_cmap2, alpha=0.8)
        plt.plot(X[:, 0][y==0],X[:,1][y==0], 'yo', alpha = 0.6)
        
    # 绘制原始数据
    plt.plot(X[:,0][y==0],X[:,1][y==1], 'bs',alpha = 0.6)
    plt.axis(axes)
    plt.xlabel('x1')
    plt.ylabel('x2')

备注： 对于颜色参数的设置，可参考此博客：https://blog.csdn.net/zhaogeng111/article/details/78419015

# 绘图展示
plt.figure(figsize = (12,5))
plt. subplot(121)
plot_decision_boundary (tree_clf,X, y)
plt.title('Decision Tree')
plt.subplot(122)
plot_decision_boundary (bag_clf,X, y)
plt.title('Decision Tree With Bagging')

结果说明： 上图中，决策树绘制出的决策边界很复杂，表示其出现了一定程度的过拟合现象；而 Bagging 模型绘制的决策边界更简单、平稳，表示其拟合效果也更好。

2、OOB 策略（out of bag）

在 Bagging 方法中， Bootstrap 每次都有一定比例的样本不会出现在其所采集的样本集合中，当然也就没有参加决策树的建立，此时，可以考虑将这部分数据用于取代测试集进行测试，而这部分数据就被称为袋外数据 OOB (Out of Bag)。

# 构建 Bagging 分类器（将 oob_score 参数置为 True）
bag_clf = BaggingClassifier(DecisionTreeClassifier(),
                  n_estimators =500,
                  max_samples = 100,
                  bootstrap = True,
                  n_jobs = -1,
                  random_state = 42,
                  oob_score = True
)

# 训练分类器
bag_clf.fit(X_train, y_train)

#  查看基于包外数据进行测试而得到的得分
bag_clf.oob_score_

[Out]
	0.8933333333333333

# 利用训练好的分类器对测试数据进行预测
y_pred = bag_clf.predict(X_test)

# 查看基于测试数据而得到的得分
accuracy_score(y_test,y_pred)

[Out]
	0.912

# 可以通过 oob_decision_function_ 属性来查看每个数据属于各分类的概率值
bag_clf.oob_decision_function_

3、随机森林（Random Forest）

随机森林是Bagging算法的典型代表，它有一个很重要的属性是可以查看数据集的“特征重要性”，下面将通过 iris 数据集对此进行实验。

# 导入随机森林的库
from sklearn. ensemble import RandomForestClassifier

# 导入鸢尾花数据集
from sklearn.datasets import load_iris

# 加载数据集
iris = load_iris()

# 建立一个基于随机森林的分类器
rf_clf = RandomForestClassifier(n_estimators=500,n_jobs=-1)

# 训练数据
rf_clf.fit(iris['data'],iris['target'])

# 查看各个特征的重要性程度
for name, score in zip(iris['feature_names'],rf_clf.feature_importances_):
    print(name, score)

[Out]
	sepal length (cm) 0.10786529772603491
	sepal width (cm) 0.026114910898121808
	petal length (cm) 0.44377248611730075
	petal width (cm) 0.42224730525854254

上面显示了各特征其重要程度的绝对占比（总和为 1），可以看出，在鸢尾花数据集中，特征：petal length 和 petal width 是相对重要的。

为了更清楚地查看各特征的影响因子，下面通过热度图来展示 Mnist 数据集中，比较重要的特征（像素点）。

# 手写数据集 Mnist 的导入有问题
# from sklearn.datasets import fetch_openml
# mnist = fetch_openml('MNIST original')

# from sklearn.datasets import fetch_openml
# mnist = fetch_openml('mnist_784')
# x = mnist.data
# y = mnist.target

# 导入本地下载好的 Mnist 数据（该数据集中，每个图片的规格为 28 × 28 = 784）
import scipy.io
mnist = scipy.io.loadmat('./resources/mnist-original.mat')

# 建立一个基于随机森林的分类器
rf_clf = RandomForestClassifier(n_estimators=500,n_jobs=-1)

# 训练分类器
rf_clf.fit(mnist['data'].T,mnist['label'].T)

# 查看 Mnist 数据集的 feature_importances_ 规格
rf_clf.feature_importances_.shape

[Out]
	(784,)

该属性反馈了 Mnist 图像数据中，每个像素点重要性的占比。接下来我们将这个数据还原为 28 × 28 的规格并基于这些数据值绘制热度图。

# 定义一个函数
def plot_digit(data):
    # 重设数据规格
    image = data.reshape (28,28)
    
    # 绘制指定数据的图像，第二个参数指定的是选择绘制热度图
    plt.imshow(image, cmap = matplotlib.cm.hot)
    
    # 去除坐标轴
    plt.axis('off')
    
# 调用定义的的函数进行图像绘制
plot_digit(rf_clf.feature_importances_)

# 绘制 colorbar（说明深色和浅色各自代表的含义）
colorbar = plt.colorbar(ticks=[rf_clf.feature_importances_.min(),rf_clf.feature_importances_.max()])

# 对前面绘制的 colorbar 进行解释
colorbar.ax.set_yticklabels(['Not important', 'Very important'])

[Out]

五、集成学习：Boosting 模型

1、AdaBoost 算法

上一次分类错误的数据，接下来需要重点关注（就像上学时，我们的错题本）。
即：在当前集成模型中，预测错误的观测数据的权重将增加，而预测正确的观测数据的权重则减小。

下面以 SVM 为例来演示 Adaboost 的算法流程（SVM也是一种机器学习算法，此处不知道它的细节没关系，后面会更新博客专门对其进行讲解，这里你只要知道它是一个分类器就 OK 了）：

# 导入 SVM 的库
from sklearn.svm import SVC

# 获取训练数据的规格
m = len(X_train)

# 画图展示集成策略每步做了什么工作
plt.figure(figsize=(14,5))

# 循环
for subplot,learning_rate in ((121,1),(122,0.5)):
    
    # 设置权重项：算法开始，将全部样本的权重都设为相同值
    sample_weights = np.ones(m) 
    
    # 绘制子图
    plt.subplot(subplot)
    
    # 构建 5 次模型（绘制 5 条决策边界曲线）
    for i in range(5):
        
        # 设置 SVM 分类器的核函数为 高斯核、软间隔（控制过拟合）为0.05
        svm_clf = SVC(kernel = 'rbf', C=0.05, random_state = 43)
        
        # 训练分类器
        svm_clf.fit(X_train,y_train,sample_weight = sample_weights)
        
        # 预测
        y_pred = svm_clf.predict(X_train)
        
        # 更新权重参数
        sample_weights[y_pred != y_train] *= (1+learning_rate)
        
        # 绘制决策边界
        plot_decision_boundary(svm_clf, X, y, alpha=0.2)
        
    # 绘制图像标题
    plt.title('learning_rate = {}'.format(learning_rate))
    
    # 展示每条线对应模型的第几次构建
    if subplot == 121:
        plt.text(-0.5,-0.65,"1", fontsize=15)
        plt.text(-0.6,-0.30,"2", fontsize=15)
        plt.text(-0.5,0.10,"3", fontsize=15)
        plt.text(-0.4,0.55,"4", fontsize=15)
        plt.text(-0.3,0.90,"5", fontsize=15)

其输出如下：

上面的过程演示了如何用基学习器手动实现 AdaBoost 算法，下面我们用封装好的函数直接实现：

# 接下来直接调用 AdaBoost 的库
from sklearn. ensemble import AdaBoostClassifier

# 构建基于 AdaBoost 模型的分类器
# max_depth：模型的深度
# n_estimators：模型的迭代次数
# learning_rate：学习率
ada_clf = AdaBoostClassifier(DecisionTreeClassifier(max_depth = 2),
            n_estimators = 200,
            learning_rate = 0.5,random_state = 42
)

# 训练模型
ada_clf.fit(X_train,y_train)

# 绘制决策边界
plot_decision_boundary(ada_clf,X,y)

2、Gradient Boosting 算法

把所有学习器的结果累加起来得出最终结论!

(1) Gradient Boosting 的算法流程

下面以决策回归树为例来演示 Gradient Boosting 的算法流程：

# 构建新的样本数据集
np.random.seed(42)
X = np.random.rand(100,1) - 0.5
y =3*X[:,0]**2 + 0.05*np.random.randn(100)

# 导入决策回归树的库
from sklearn.tree import DecisionTreeRegressor

# 建立第一棵决策回归树
tree_reg1 = DecisionTreeRegressor(max_depth = 2)

# 训练模型
tree_reg1.fit(X,y)

[Out]

# 接下来算出残差
y2 = y - tree_reg1.predict(X)

# 然后利用 y2 建立第二棵决策回归树
tree_reg2 = DecisionTreeRegressor(max_depth = 2)

# 训练模型
tree_reg2.fit(X, y2)

[Out]

# 继续计算残差
y3 = y2 - tree_reg2.predict(X)

# 建立第三棵决策回归树
tree_reg3 = DecisionTreeRegressor(max_depth = 2)

# 训练模型
tree_reg3.fit(X, y3)

[Out]

# 接下来构建一个测试数据
X_new = np.array([[0.25]])

# 基于前面 3 棵树模型对该测试数据进行预测
y_pred = sum(tree.predict(X_new) for tree in (tree_reg1,tree_reg2,tree_reg3))

# 查看预测结果
print("{} 对应的真实值大致为 {}，预测值为 {}".format(X_new[0],3*X_new[0]**2,y_pred))

[Out]
	[0.25] 对应的真实值大致为 [0.1875]，预测值为 [0.17052257]

上面的实验演示了 Gradient Boosting 的工作流程，为了更直观地查看这个过程，下面对其进行可视化。

(2) 可视化展示 Gradient Boosting 流程

# 定义绘图函数
def plot_predictions(regressors,X, y, axes,label=None,style="r-",data_style="b.", data_label=None):
    
    # 定义样本数据点（X 轴）
    x1 = np.linspace(axes[0],axes[1],500)
    
    # 得到最终的预测值
    y_pred = sum(regressor.predict(x1.reshape(-1,1)) for regressor in regressors)
    
    # 绘制样本数据点
    plt.plot(X[:,0], y, data_style, label=data_label)
    
    # 绘制预测值
    plt.plot(x1,y_pred,style,linewidth=2,label=label)
    
    # 绘制图像标签
    if label or data_label:
        plt.legend(loc="upper center", fontsize=16)
        
    # 绘制图像的坐标轴
    plt.axis(axes)

# 下面进行画图展示
plt.figure(figsize=(11,11))

plt.subplot(321)
plot_predictions([tree_reg1],X, y, axes=[-0.5,0.5,-0.1,0.8],label="$h_1(x_1)$", style="g-",data_label="Training set")
plt.ylabel("$y$", fontsize=16, rotation=0)
plt.title("Residuals and tree predictions", fontsize=16)

plt.subplot(322)
plot_predictions([tree_reg1],X, y, axes=[-0.5,0.5,-0.1,0.8], label="$h(x_1) = h_1(x_1)$",data_label="Training set")
plt.ylabel ("$y$",fontsize=16, rotation=0)
plt.title("Ensemble predictions", fontsize=16)

plt.subplot(323)
plot_predictions([tree_reg2],X, y2, axes=[-0.5,0.5,-0.5,0.5],label="$h_2(x_1)$", style="g-" , data_style ="k+ ", data_label= "Residuals")
plt.ylabel("$y - h_1(x_1)$",fontsize=16)

plt.subplot(324)
plot_predictions([tree_reg1,tree_reg2],X, y, axes=[-0.5,0.5,-0.1,0.8],label="$h(x_1) = h_1(x_1) + h_2(x_1)$")
plt.ylabel("$y$", fontsize=16,rotation=0)

plt.subplot (325)
plot_predictions([tree_reg3],X, y3,axes=[-0.5,0.5,-0.5,0.5],label="$h_3(x_1)$",style="g-",data_style="k+", data_label= "Residuals")
plt.ylabel("$y - h_1(x_1) - h_2(x_1)$",fontsize=16)
plt.xlabel("$x_1$", fontsize=16)

plt.subplot(326)
plot_predictions([tree_reg1,tree_reg2,tree_reg3],X,y,axes=[-0.5,0.5,-0.1,0.8],label = "$h(x_1) = h_1(x_1) + h_2(x_1) + h_3(x_1)$")
plt.xlabel("$x_1$", fontsize=16)
plt.ylabel("$y$", fontsize=16, rotation=0)

plt.show ()

[Out]

上图中，第一次拟合得到的决策树预测出的数据大致符合原始数据曲线的分布情况（图1）；而第二棵树基于第一棵树，在对残差数据进行拟合，其得到的拟合曲线也大致符合残差数据的分布情况（图3）；第三棵树基于第一、二棵树，在对残差数据进行拟合，其得到的拟合曲线也大致符合残差数据的分布情况（图5）。图 2、4、6 则分别给出了在对当前已构建决策树进行叠加后，其得到的集成模型。

现实中，有许多现成框架实现了 Gradient Boosting 的工作，需要时可以直接调用相关库。如：

第一代 sklearn-GBDT（不常用，过去式了）
第二代 Xgboost
第三代 lightgbm
……

下面选取 sklearn 中现成的 GBDT 模型进行演示

(3) 实验：练习 sklearn 中现成的 GBDT 模型

# 导入 GBDT 库
from sklearn.ensemble import GradientBoostingRegressor

# 构建一个 GBDT 模型
# max_depth：树的最大深度
# n_estimators：子树的数量
# learning_rate：学习率（这个学习率和梯度下降中的不一样，这里的学习率主要是控制每棵树的所占权重）
# 这些参数和树模型的参数类似
gbdt = GradientBoostingRegressor(max_depth = 2,
                         n_estimators = 3,
                         learning_rate = 1.0,
                         random_state = 42
                         )

# 训练模型
gbdt.fit(X,y)

[Out]

# 为了便于做对比试验，接下来再建立两个 GBDT 模型
gbdt_slow_1 = GradientBoostingRegressor(max_depth = 2,
                         n_estimators = 3,
                         learning_rate = 0.1,
                         random_state = 42
                         )

# 训练模型
gbdt_slow_1.fit(X,y)

# 构建模型
gbdt_slow_2 = GradientBoostingRegressor(max_depth = 2,
                         n_estimators = 200,
                         learning_rate = 0.1,
                         random_state = 42
                         )

# 训练模型
gbdt_slow_2.fit(X,y)

[Out]

# 对比试验 1：探究在相同迭代次数下，不同学习率的差异
plt.figure(figsize = (11,4))
plt.subplot(121)
plot_predictions([gbdt],X,y,axes=[-0.5,0.5,-0.1,0.8],label='GBDT Predictions')
plt.title('learning_rate={}, n_estimators={}'.format(gbdt.learning_rate,gbdt.n_estimators))

plt.subplot(122)
plot_predictions([gbdt_slow_1],X,y,axes=[-0.5,0.5,-0.1,0.8],label='GBDT Predictions')
plt.title('learning_rate={}, n_estimators={}'.format(gbdt_slow_1.learning_rate,gbdt_slow_1.n_estimators))

[Out]

上图表明，当子树个数较小时，学习率要尽可能大才能得到较好的拟合效果。但是，在实际使用时，我们通常是让学习率偏低（防止过拟合），并设置更多的子树来提高拟合效果。

# 对比试验 2：探究在相同学习率的条件下，不同子树数量的差异
plt.figure(figsize = (11,4))
plt.subplot(121)
plot_predictions([gbdt_slow_2],X,y,axes=[-0.5,0.5,-0.1,0.8],label='GBDT Predictions')
plt.title('learning_rate={}, n_estimators={}'.format(gbdt_slow_2.learning_rate,gbdt_slow_2.n_estimators))

plt.subplot(122)
plot_predictions([gbdt_slow_1],X,y,axes=[-0.5,0.5,-0.1,0.8],label='GBDT Predictions')
plt.title('learning_rate={}, n_estimators={}'.format(gbdt_slow_1.learning_rate,gbdt_slow_1.n_estimators))

[Out]

上图表明，当学习率较低时（且每棵子树的深度较小），则子树数量越多，其拟合效果越好。

(4) 提前停止策略

在 GDBT 中，随着 n_estimators（集成模型中子树数量）的增加，损失函数的值并不一定总是严格单减；另一方面，集成模型中子树数量较多的模型也并不一定总是比子树较少的模型更具性价比（即更多的训练时间并没有换到差距足够大的训练效果）。因此，我们必须找到一个合适的时机终止算法，降低时间开销。

# 引入计算均方误差的库
from sklearn.metrics import mean_squared_error

# 切分数据集得到新的训练集和测试集
X_train,X_val,y_train,y_val = train_test_split(X, y, random_state=49)

# 构建新的 GDBT 模型
gbdt = GradientBoostingRegressor(max_depth = 2,
                         n_estimators = 120,
                         random_state = 42
                         )

# 训练数据
gbdt.fit(X_train,y_train)

# 查看模型的训练结果（这里查看的结果是分阶段的，即模型在测试数据规模为：1、2、3、…… 时的）
# 这里需要用到一个分阶段预测的函数：staged_predict
errors = [mean_squared_error(y_val,y_pred) for y_pred in gbdt.staged_predict(X_val)]

# 取出均方误差最小的的那一次（即在测试集上取得最佳效果）的子树数量
bst_n_estimators = np.argmin(errors) + 1
min_error = np.min(errors)
print("在 GBDT 模型中，当总的子树数量为 {} 时，\n取得最佳效果的子树数量为 {}，\n其在测试集上的均方误差为 {}。".format(len(errors),bst_n_estimators,min_error))

[Out]
	在 GBDT 模型中，当总的子树数量为 120 时，
	取得最佳效果的子树数量为 56，
	其在测试集上的均方误差为 0.002712853325235463。

# 接下来绘图展示最佳子树数量的 GBDT 模型的拟合效果
# 构建最佳子树数量的 GBDT 模型（控制其他参数不变）
gbdt_best = GradientBoostingRegressor(max_depth = 2,
                         n_estimators = bst_n_estimators,
                         random_state = 42
                         )

# 训练新模型
gbdt_best.fit(X_train, y_train)

# 绘图展示
# 设置图像规格
plt.figure(figsize = (11,4))

plt.subplot(121)

# 绘制原始 GBDT 模型分阶段的均方误差
plt.plot(errors,'b-')

# 绘制最佳子树数量的虚线
plt.plot([bst_n_estimators,bst_n_estimators],[0,min_error],'k--')
plt.plot([0,120],[min_error,min_error],'k--')
plt.axis([0,120,0,0.01])
plt.title('Val Error')

# 绘制最佳 GBDT 模型的拟合情况
plt.subplot(122)
plot_predictions([gbdt_best],X,y,axes=[-0.5,0.5,-0.1,0.8])
plt.title('Best Model(%d trees)'%bst_n_estimators)

[Out]

如何实现提前停止？

一种比较直观的方式就是上面演示的那样：训练全部子树，最后分阶段统计出在测试集合上均方误差最小的子树数量，然后再以该数量为 n_estimators 参数训练模型。但是，这样的方式本质上还是训练了全部数量的子树。最好的办法是：每次训练仅训练一棵子树，接下来统计出该 GBDT 模型在测试集上的效果；当下一次训练时，依然仅训练一棵子树，然后将该子树加入之前已经构建好的集成模型中再进行测试。这样叠加式的训练其实只需要在构建 GBDT 模型时加入一个热启动参数 warm_start 即可：

# 通过 “热启动” 参数实现提前停止
gbdt_auto = GradientBoostingRegressor(max_depth = 2,
                         # 打开热启动参数（此时，就不需要 n_estimators 参数了，而是在循环中自行寻找并动态调整）
                         warm_start = True,
                         random_state = 42
                         )

# 最大上浮次数
MAX_FLAW = 5

# 当前上浮次数
error_going_up = 0

# 设置用于记录“在验证集上取到的最小均方误差”，初始值要足够大
min_val_error = float('inf')

# 设置取得最小均方误差时的 n_estimators 值
min_val_error_estimators = 0

# 循环查找最佳子树数量
for n_estimators in range(1,120):
    
    # 动态设置 GBDT 模型的 n_estimators 参数
    gbdt_auto.n_estimators = n_estimators
    
    # 训练模型
    gbdt_auto.fit(X_train,y_train)
    
    # 对验证集进行预测
    y_pred = gbdt_auto.predict(X_val)
    
    # 计算在验证集上的均方误差
    val_error = mean_squared_error(y_val, y_pred)
    
    # 如果该误差值低于指定值则记录下该值
    if val_error < min_val_error:
        min_val_error = val_error
        min_val_error_estimators = n_estimators
        error_going_up = 0
        
    # 否则说明：此次新加入一棵子树，反而使得整个集成模型的预测能力降低
    # 这种情况暗示接下来继续加入新的子树是在“梯度上升”
    # 此时，我们可以对这种情况进行统计（并规定：当上升次数超过最大上浮次数 MAX_FLAW 时就退出循环）    
    else:
        error_going_up += 1
        if(error_going_up == MAX_FLAW):
            break

# 输出最终得到的最佳子树数量 n_estimators
print("在验证集上取得最小均方误差时，子树数量为 {}，均方误差为 {}。".format(min_val_error_estimators,min_val_error))

[Out]
	在验证集上取得最小均方误差时，子树数量为 56，均方误差为 0.002712853325235463。

六、集成学习：Stacking 模型

Stacking 策略在预测时主要有两个阶段：

将原始数据集分别交给 L 个异质弱学习器进行预测；
将 L 个异质弱学习器的预测结果作为输入再交给一个元模型进行汇总，并由该元模型输出最终结果。

阶段一：训练异质学习器

# 导入用于加载本地资源的库
import scipy.io

# 加载本地 Mnist 数据集（十分类任务）
# 没有该数据集的小伙伴可以去此专栏下 “ 【机器学习】Sklearn导入手写数字数据集 Mnist 失败的解决办法 ” 中下载
mnist = scipy.io.loadmat('./resources/mnist-original.mat')

# 划分训练集与验证集
X_train,X_val, y_train,y_val = train_test_split (
    mnist['data'].T,mnist['label'].T,test_size=10000,random_state=42)

# 选择几种不同的分类器（导入库）
from sklearn.ensemble import RandomForestClassifier,ExtraTreesClassifier
from sklearn.svm import LinearSVC
from sklearn.neural_network import MLPClassifier

# 构建异质弱学习器
random_forest_clf = RandomForestClassifier(random_state = 42)
extra_trees_clf = ExtraTreesClassifier(random_state = 42)
svm_clf = LinearSVC(random_state = 42)
mlp_clf = MLPClassifier(random_state = 42)

# 将异质弱学习器加入一个列表
estimators = [random_forest_clf,extra_trees_clf,svm_clf,mlp_clf]

# 接下来分别训练这些分类器
for estimator in estimators:
    print("Training the", estimator)
    estimator.fit(X_train, y_train)

[Out]
	Training the RandomForestClassifier(random_state=42)
	Training the ExtraTreesClassifier(random_state=42)
	Training the LinearSVC(random_state=42)
	Training the MLPClassifier(random_state=42)

阶段二：用异质学习器的预测结果作为输入，训练组合它们的元模型

# 设置用于存放“不同学习器的预测结果”的数组
X_val_predictions = np.empty((len(X_val),len(estimators)), dtype=np.float32)

# 获取不同学习器的预测结果（基于验证集，这里一定要用与前面训练阶段不同的数据集）
for index,estimator in enumerate(estimators):
    X_val_predictions[:,index] = estimator.predict(X_val)
    
# 查看不同学习器的预测结果
X_val_predictions

[Out]
	array([[7., 7., 7., 7.],
	       [8., 8., 8., 8.],
	       [6., 6., 6., 6.],
	       ...,
	       [9., 9., 9., 9.],
	       [1., 1., 1., 1.],
	       [6., 6., 6., 6.]], dtype=float32)

# 构建用于组合异质学习器预测结果的元模型（这里选择的是随机森林）
rnd_forest_blender = RandomForestClassifier(n_estimators=200, oob_score=True,random_state=42)

# 基于对验证集的预测结果（另一组数据），训练用于汇总的元模型
rnd_forest_blender.fit(X_val_predictions,y_val)

# 查看 OOB 指标
rnd_forest_blender.oob_score_

[Out]
	0.9701

END

你可能感兴趣的:(机器学习,机器学习,集成学习,Bagging模型,Boosting模型,Stacking模型)

deepseek本地部署指南（解决下载速度慢）灶龙人工智能 deepseek 人工智能本地部署
很多人都照着网上的教程去下载，但是网上的下载Ollama模型都下载不了，所以我打算写一篇不同的deepseek本地部署指南。第一步：下载奇游加速器奇游加速器下载网址下载奇游加速器后进行安装，然后搜索Deepseek点击进去，不要着急充值，点击右上角口令，输入奇游111就可以白嫖三天的有效期。第二步：下载Ollama框架点进Deepseek后，先点击一键加速（中途不要关闭），在点击右边的游戏服务中的
理论一、大模型—概念伯牙碎琴大模型自然语言处理 ai
一、总述大模型通常指的是参数规模庞大、训练难度较高的人工智能模型。随着深度学习技术的发展，研究人员和企业越来越倾向于构建更大的模型，以提高模型的性能和泛化能力。这些大模型往往需要大量的数据和计算资源来训练，并且在实际应用中通常表现出色。大模型全称是大型语言模型（LLM，LargeLanguageModel），这个“大”主要指模型结构容量大，结构中的参数多，用于预训练大模型的数据量大。一个大模型可以
一、大模型微调的前沿技术与应用伯牙碎琴大模型微调人工智能大模型微调 Deepseek
大模型微调的前沿技术与应用随着大规模预训练模型（如GPT、BERT、T5等）的广泛应用，大模型微调（Fine-Tuning,FT）成为了提升模型在特定任务中性能的关键技术。通过微调，开发者可以根据实际需求调整预训练模型的参数，使其更好地适应特定应用场景。本文将介绍大模型微调技术的前沿发展，分析不同微调方法的特点、适用场景以及优缺点，并对它们进行系统分类。微调技术的重要性大模型微调能够帮助开发者根据
Python：第三方库衍生星球 python 第三方库
1.第三方Python库库名用途pip安装指令NumPy矩阵运算pipinstallnumpyMatplotlib产品级2D图形绘制pipinstallmatplotlibPIL图像处理pipinstallpillowsklearn机器学习和数据挖掘pipinstallsklearnRequestsHTTP协议访问pipinstallrequestsJieba中文分词pipinstalljieba
根据deepseek模型微调训练自动驾驶模型及数据集的思路 ywfwyht 自动驾驶深度学习人工智能自动驾驶人工智能机器学习
以下是使用DeepSeek模型微调训练自动驾驶模型的详细步骤和代码示例。本流程假设你已有自动驾驶领域的数据集（如驾驶指令、传感器数据等），并基于PyTorch框架实现。Step1:环境准备#安装依赖库pipinstalltorchtransformersdatasetsnumpypandasStep2:数据准备假设数据集格式为JSON，包含输入文本（传感器/场景描述）和输出控制指令：//data/
领域驱动设计（DDD）是什么？——从理论到实践的全方位解析小胡说技书 Java+SSM+DB java 领域驱动设计（DDD）架构领域模型微服务
文章目录一、引言二、核心概念与定位2.1DDD定义与核心理念2.2DDD关键元素三、底层原理与技术细节3.1领域模型与普适语言3.1.1领域模型3.1.2普适语言（UbiquitousLanguage）3.2战术设计模式详解3.2.1实体、值对象、聚合与领域服务3.2.2无状态函数在领域服务中的应用3.2.3工厂与仓储模式3.3战略设计：限界上下文与防腐层3.3.1限界上下文（BoundedCon
揭秘DeepSeek内幕：清华教授剖析AI模型技术原理大模型. 人工智能 chatgpt 安全 agi gpt 大模型 deepseek
从ChatGPT到各种新兴的AI模型，每一次技术突破都能引发广泛的关注和讨论——而最近AI界的“新宠”，无疑是DeepSeek。在本文中，清华大学长聘副教授将深入剖析DeepSeekR1背后的大规模强化学习技术及其基本原理，并进一步展望大模型技术未来的发展方向。1、透过DeepSeekR1，看大模型技术的发展趋势今天我将从宏观角度为大家介绍DeepSeekR1所代表的大规模强化学习技术，及其基本原
【科普】大模型应用中一个 Token 占多少汉字？答案超乎想象！大模型. easyui 前端人工智能程序人生语言模型文心一言自然语言处理
先说答案：不同模型可能采用各自的切分方法，因此，一个Token所对应的汉字数量也会有所不同。如腾讯1token≈1.8个汉字，通义千问、千帆大模型等1token=1个汉字，对于英文文本来说，1个token通常对应3至4个字母，不同的模型对相同的输入分词，分词结果是不一样的。同样可以说，一个汉字占约0.5个Token。‌Token是大模型中最基础、最常见的概念，它既可以是一个完整的单词，也可以是一个
解决Deepseek服务器繁忙的两种高效方案：本地部署与平替平台实测小真— 自然语言处理 ai 人工智能
近期爆火的Deepseek访问量激增频繁出现服务器繁忙提示，严重影响工作效率。本人实测了两种有效解决方案，整理了出这份保姆级指南。方案一：本地化部署核心优势说白了就是模型部署在自己本地，只有自己一个人用了没人挤了，但是对电脑硬件要求高部署步骤详解环境准备系统要求：Linux/Windows10+（推荐Ubuntu20.04）硬件配置：NVIDIA显卡（显存≥8GB）、内存≥16GB安装依赖：Pyt
当 Deepseek 频繁提示 “服务器繁忙“，我们该如何破局？晚风る AI人工智能网络
在使用Deepseek的过程中，不少用户都遭遇过“服务器繁忙”的提示，这无疑给我们的使用体验带来了极大的困扰。那么，当这种情况频繁出现时，我们究竟该如何应对呢？本文将为大家提供一些有效的解决方案。一、原因分析DeepSeek服务器繁忙的原因可能有以下几点：用户流量过大：如用户量激增，高峰时段访问。技术性能瓶颈：如算力瓶颈、带宽限制、模型优化不足。安全问题：如外部恶意攻击。服务维护与限制：如服务维护
大模型产品Deepseek（七）、可视化本地知识库搭建详细教程（Cherry Studio）伯牙碎琴大模型 DeepSeek AI 大模型知识库
完整教程：使用CherryStudio配置OllamaAPI并搭建知识库在本节教程中，我们将通过CherryStudio配置OllamaAPI，并安装嵌入模型bge-m3，以实现知识库的搭建与智能问答功能。具体内容包括CherryStudio的安装、嵌入模型配置、OllamaAPI配置、创建知识库及基于该知识库和通用大模型的提问示例。CherryStudio介绍看这篇文章1.准备工作在开始之前，确
”人货场”模型搞懂没？数据分析大部分场景都能用！接地气的陈老师人工智能数据分析大数据机器学习推荐系统
做数据分析的同学，很多都听过：人、货、场的分析模型。然而，这东西又是个只闻其名，不见真身的东西。到底该怎么结合实际分析？今天我们系统讲解下。问题场景：某生鲜电商，用户复购率较低，60%的用户在30天内无二次购买行为，运营领导非常着急，要求通过数据分析提升复购率，请问你作为数据分析师该怎么做？建立人工智能精准推荐算法（40%概率用协同过滤，60%用关联分析）把过往6个月月初复购率做成折线图，然后写下
Forrester发布2024年五大网络安全新威胁岛屿旅人网络安全 web安全网络安全网络安全
文章目录前言一、大选年的叙事（舆论）操控攻击二、深度伪造引发身份安全危机三、生成式人工智能数据泄露四、人工智能软件供应链攻击五、太空成为安全战略高点数据泄露平均成本高达218万美元前言人工智能正重塑网络安全格局，武器化大语言模型正成为首选攻击工具，安全团队在应对武器化人工智能攻击方面将面临日益严峻的挑战。Forrester近日发布《2024年网络安全威胁预测报告》指出，人工智能正重塑网络安全格局，
YOLOv11 火焰识别：智能时代的火灾预警新利器星际编程喵 Python探索之旅 YOLO python 目标检测机器学习人工智能开发语言
前言随着人工智能（AI）在各个领域如火如荼发展，图像识别技术也跟着飞速进步。从最初的传统算法到如今的深度学习模型，图像识别在准确性和效率上提升令人惊叹。而在这场技术革命中，YOLO（YouOnlyLookOnce）系列模型无疑扮演举足轻重的角色。今天，我们将目光聚焦在最新的版本——YOLOv11。别误会，YOLOv11可不是什么随便升级。它远不止数字上多了个“1”那么简单。YOLOv11集成许多先
如何使用DeepSeek训练模型 LCG元大模型人工智能
目录准备工作硬件要求软件环境数据收集与预处理数据收集数据预处理模型构建与训练模型构建模型训练模型评估与调优评估指标调优方法部署与应用部署方式应用集成✍️相关问答DeepSeek模型在医疗领域的具体应用案例有哪些？临床辅助诊疗：医患关系的连接桥梁：医疗科研的学术助手：医疗服务体系革新：医学影像诊断：药物研发：基层医疗能力提升：医疗机器人智能化：如何利用DeepSeek进行多模态数据分析？脑图使用De
AI —— 文字生成图片的逻辑鱼不知海 AI写作 AI作画
事情的起因是我在做一个自用软件时，需要测试文字生成图像的功能。于是就对现在能使用的ai大模型去做了一些尝试。输入几组我的描述性文字其中的一张图片令我大为震撼。（师妹师兄温酒毛驴）问题大家应该可以发现，一位图像人物的下半身时有问题的。同时从人的逻辑上，这种图缺少内核逻辑。在NLP的成熟度如此高的情况下，对描述性文字进行逻辑上的重构并不是太麻烦的事情。豆包扩充文字（在一个宁静的日子里，师兄与师妹并辔而
【AI中的数学-人工智能的数学基石】AI的心脏：探索人工智能的算法与核心技术云博士的AI课堂 AI中的数学人工智能算法数学 AI数学大模型
第一章人工智能的数学基石第二节AI的心脏：探索人工智能的算法与核心技术人工智能（AI）的迅猛发展离不开其背后的复杂算法与核心技术。这些算法不仅决定了AI系统的性能和能力，也构成了AI应用的基础。从基础的机器学习算法到先进的深度学习模型，AI的算法生态系统丰富多样，涵盖了广泛的数学原理和计算方法。本节将深入探讨驱动AI进步的关键算法与技术，揭示其工作机制及在实际应用中的重要性。一、机器学习：智能的基
文本生成型人工智能：逻辑算法与文字组合的重构艺术 Somnolence.·.·.·. 人工智能人工智能算法重构人机交互 ai chatgpt
引言在数字化浪潮的推动下，文本生成型人工智能（如GPT系列、Claude、Deepseek等）正逐步从技术工具演化为人类社会的"数字镜像"。其本质并非简单的文字堆砌，而是基于算法逻辑对海量语言数据的学习与重组。这一过程既模仿了人类的思维模式，又受制于技术基础设施的物理边界。以下从三个维度解析其运行逻辑与技术哲学。一、数据训练：从概率统计到仿生逻辑的跨越文本生成型AI的核心在于通过神经网络模型对语言
轻量级CAD编辑器CADEditorX发布15.2新版本，新增3D模型爆炸视图新工具等 CodeCraft Studio 3D/2D CAD 图像处理编辑器 3d 计算机视觉
CADEditorX是一个ActiveX组件，用于在支持ActiveX和COM技术的任何开发环境中，将CAD功能添加到网页或正在开发的应用程序中。同时可以查看、编辑、转换、打印和测量DWG、DXF、SVG、HPGL、PDF、STEP、IGES、STL和其他CAD文件。CADEditorX15.2版本现已全新发布，包含许多增强功能和有价值的新功能。下面，让我们看看新版本都有哪些更新：CADEdito
DeepSeek崛起：中国AI产业的颠覆者与重构者 :MNongSciFans 人工智能
当DeepSeek以"中国版ChatGPT"的标签横空出世时，这个诞生于杭州的AI新贵仅用三个月时间就完成了从行业黑马到颠覆者的蜕变。其开源大模型DeepSeek-R1在HuggingFace开源大模型排行榜的登顶，不仅意味着技术指标的超越，更预示着中国AI产业格局的深层裂变。这场始于技术突破的产业地震，正在引发资本市场的恐慌性迁徙、技术路线的集体转向以及商业模式的根本性重构。###一、技术奇点的
DeepSeek正重构具身大模型和人形机器人赛道！ Robot251 重构机器人人工智能科技自动驾驶
中国人工智能公司DeepSeek（深度求索）以“低成本、高效率、强开放”的研发范式横空出世，火遍并震撼全球科技圈；DeepSeek展现出来的核心竞争力，除了低成本及推理能力，更重要的是开源模型能力追赶上了最新的闭源模型；而对具身智能领域影响最大的当属于其开源大模型DeepSeek-R1。2024年1月20日，公司发布全球首个完全通过强化学习训练的专注于推理任务的高性能语言模型DeepSeek-R1
《云智算：BI 领域的卓越之选》 thank_lxy 数据仓库 etl finebi powerbi etl工程师数据库开发
在数据分析的漫长征程中，我作为一名资深的数据分析师，多年来接触和使用过众多BI工具。然而，当我邂逅云智算之后，它的卓越表现让我深感惊艳，今天就来为大家详细介绍这款极具潜力的BI工具。一、功能齐全，一站式BI体验云智算涵盖了ETL、建模、分析、可视化、自助分析等整个BI流程环节的功能。从数据的抽取、转换和加载，到建立数据模型，再到深入分析和直观的可视化呈现，以及让业务人员能够自主进行分析，它提供了一
预测股票走势的ai模型 roxxo AI模型人工智能深度学习金融
AI股票走势预测模型用深度学习+时间序列分析来构建一个股票预测AI，基于历史数据预测未来走势。1.关键功能✅AI选股（基于财务数据+技术指标）✅股票走势预测（LSTM/Transformer）✅智能筛选高增长潜力股✅可视化分析2.关键技术数据来源：YahooFinance/AlphaVantage财务分析：PE、EPS、ROE、PB、成交量机器学习选股：随机森林/XGBoost深度学习预测：LST
大语言模型常用微调与基于SFT微调DeepSeek R1指南知来者逆 LLM 深度学习人工智能自然语言处理 DeepSeek SFT 微调
概述大型语言模型（LLM，LargeLanguageModel）的微调（Fine-tuning）是指在一个预训练模型的基础上，使用特定领域或任务的数据对模型进行进一步训练，以使其在该领域或任务上表现更好。微调是迁移学习的一种常见方法，能够显著提升模型在特定任务上的性能。在大型语言模型（LLM）的微调中，有几种常见的方法，包括SFT（监督微调）、LoRA（低秩适应）、P-tuningv2和**Fre
Deepseek详细的自我介绍 welcome_123_ 人工智能
###**DeepSeek：中国自研AGI大模型的深度解析**---####**1.技术背景与研发理念**DeepSeek由国内顶尖AI科学家团队领衔，核心技术成员来自清华大学、北京大学及国际顶级AI实验室，团队在NLP、分布式训练、模型压缩等领域发表顶会论文超200篇。研发理念聚焦三个核心：-**高效性**：通过模型架构创新（如MoE）实现“小参数量，大性能”。-**可控性**：内置可解释性模块
（15-3）DeepSeek混合专家模型初探：模型微调码农三叔训练 RAG 多模态)人工智能 Deekseep 深度学习大模型 transformer
3.4模型微调在本项目中，微调脚本文件finetune.py提供了一套全面的工具，用于对DeepSeek-MoE预训练语言模型进行微调。支持加载特定任务的数据、对数据进行预处理和编码，以及通过多种配置选项（如LoRA量化、分布式训练等）对模型进行高效训练。用户可以根据自己的需求，通过命令行参数或配置文件调整微调策略，以优化模型在特定任务或数据集上的性能。3.4.1微调原理在DeepSeek-MoE
清华大学：DeepSeek 如何赋能职场应用（35 页 PDF）伟贤AI之路 AI应用 pdf
原来已经分享过清华大学的DeepSeek：从入门到精通（100页PDF）现在又来第二弹：《DeepSeek如何赋能职场应用？从提示语技巧到多场景应用》PDF里介绍了DeepSeek这一人工智能工具及其在职场中的应用，从基础模型到深度思考模型，再到联网搜索模型，展示了其在不同情境下的强大功能。通过提示语技巧和多场景应用，DeepSeek能够实现人机高效协同，提高工作效率和创作质量。文章不仅讲述了De
全国通用初中数学《50大几何模型精讲》免费分享！小小怪下士yeah 算法
自取链接：https://pan.baidu.com/s/1Mj_nJitAqNnYdX7gWvN_qA?pwd=Qx6a提取码：Qx6a【涵盖中考必考模型】手把手教你吃透初中几何！✅8字型旋转妙解✅将军饮马最短路✅截长补短技巧大全✅手拉手模型全拆解......（共50种核心解题模板）【为什么你需要这份资料？】❶全网独家中考高频模型合集❷图解+口诀记忆零基础也能开窍❸附赠典型例题详解拒绝一听就会一
关于django __str__ 与 __unicode__ 问题 weixin_40105587 python
因为所有字符串都作为Unicode字符串从数据库返回，基于字符的模型字段(CharField、TextField、URLField等)在Django从数据库检索数据时将包含Unicode值。即使数据可以放入ASCII字节字符串，也总是如此。您可以在创建模型或填充字段时传入bytestring，并且Django会在需要时将其转换为Unicode。¶选择__str__()和__unicode__()请
AWS上基于Llama 3模型检测Amazon Redshift里文本数据的语法和语义错误的设计方案 weixin_30777913 数据仓库云计算 aws llama
一、技术栈选型核心服务：AmazonRedshift：存储原始文本和检测结果AmazonBedrock：托管Llama370B模型AWSLambda：无服务计算（Python运行时）AmazonS3：中间数据存储AWSStepFunctions：工作流编排辅助工具：psycopg2：RedshiftPython连接器boto3：AWSSDKforPythonPandas：数据批处理JSONSche
集合框架天子之骄 java 数据结构集合框架
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
Table Driven（表驱动）方法实例 bijian1013 java enum Table Driven 表驱动
实例一： /** * 驾驶人年龄段 * 保险行业，会对驾驶人的年龄做年龄段的区分判断 * 驾驶人年龄段：01-[18,25);02-[25,30);03-[30-35);04-[35,40);05-[40,45);06-[45,50);07-[50-55);08-[55,+∞) */ public class AgePeriodTest { //if...el
Jquery 总结 cuishikuan java jquery Ajax Web jquery方法
1.$.trim方法用于移除字符串头部和尾部多余的空格。如：$.trim(' Hello ') // Hello2.$.contains方法返回一个布尔值，表示某个DOM元素（第二个参数）是否为另一个DOM元素（第一个参数）的下级元素。如：$.contains(document.documentElement, document.body); 3.$
面向对象概念的提出麦田的设计者 java 面向对象面向过程
面向对象中，一切都是由对象展开的，组织代码，封装数据。在台湾面向对象被翻译为了面向物件编程，这充分说明了，这种编程强调实体。下面就结合编程语言的发展史，聊一聊面向过程和面向对象。 c语言由贝尔实
linux网口绑定被触发 linux
刚在一台IBM Xserver服务器上装了RedHat Linux Enterprise AS 4，为了提高网络的可靠性配置双网卡绑定。一、环境描述我的RedHat Linux Enterprise AS 4安装双口的Intel千兆网卡，通过ifconfig -a命令看到eth0和eth1两张网卡。二、双网卡绑定步骤： 2.1 修改/etc/sysconfig/network
XML基础语法肆无忌惮_ xml
一、什么是XML？ XML全称是Extensible Markup Language，可扩展标记语言。很类似HTML。XML的目的是传输数据而非显示数据。XML的标签没有被预定义，你需要自行定义标签。XML被设计为具有自我描述性。是W3C的推荐标准。二、为什么学习XML？用来解决程序间数据传输的格式问题做配置文件充当小型数据库三、XML与HTM
为网页添加自己喜欢的字体知了ing 字体秒表 css
@font-face { font-family: miaobiao;//定义字体名字 font-style: normal; font-weight: 400; src: url('font/DS-DIGI-e.eot');//字体文件 } 使用： <label style="font-size:18px;font-famil
redis范围查询应用-查找IP所在城市矮蛋蛋 redis
原文地址： http://www.tuicool.com/articles/BrURbqV 需求根据IP找到对应的城市原来的解决方案 oracle表（ip_country）：查询IP对应的城市： 1.把a.b.c.d这样格式的IP转为一个数字，例如为把210.21.224.34转为3524648994 2. select city from ip_
输入两个整数，计算百分比 alleni123 java
public static String getPercent(int x, int total){ double result=(x*1.0)/(total*1.0); System.out.println(result); DecimalFormat df1=new DecimalFormat("0.0000%");
百合——————>怎么学习计算机语言百合不是茶 java 移动开发
对于一个从没有接触过计算机语言的人来说，一上来就学面向对象，就算是心里上面接受的了，灵魂我觉得也应该是跟不上的，学不好是很正常的现象，计算机语言老师讲的再多，你在课堂上面跟着老师听的再多，我觉得你应该还是学不会的，最主要的原因是你根本没有想过该怎么来学习计算机编程语言，记得大一的时候金山网络公司在湖大招聘我们学校一个才来大学几天的被金山网络录取，一个刚到大学的就能够去和
linux下tomcat开机自启动 bijian1013 tomcat
方法一：修改Tomcat/bin/startup.sh 为: export JAVA_HOME=/home/java1.6.0_27 export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar:. export PATH=$JAVA_HOME/bin:$PATH export CATALINA_H
spring aop实例 bijian1013 java spring AOP
1.AdviceMethods.java package com.bijian.study.spring.aop.schema; public class AdviceMethods { public void preGreeting() { System.out.println("--how are you!--"); } } 2.beans.x
[Gson八]GsonBuilder序列化和反序列化选项enableComplexMapKeySerialization bit1129 serialization
enableComplexMapKeySerialization配置项的含义 Gson在序列化Map时，默认情况下，是调用Key的toString方法得到它的JSON字符串的Key，对于简单类型和字符串类型，这没有问题，但是对于复杂数据对象，如果对象没有覆写toString方法，那么默认的toString方法将得到这个对象的Hash地址。 GsonBuilder用于
【Spark九十一】Spark Streaming整合Kafka一些值得关注的问题 bit1129 Stream
包括Spark Streaming在内的实时计算数据可靠性指的是三种级别： 1. At most once，数据最多只能接受一次，有可能接收不到 2. At least once, 数据至少接受一次，有可能重复接收 3. Exactly once 数据保证被处理并且只被处理一次，具体的多读几遍http://spark.apache.org/docs/lates
shell脚本批量检测端口是否被占用脚本 ronin47
#!/bin/bash cat ports |while read line do#nc -z -w 10 $line nc -z -w 2 $line 58422>/dev/null2>&1if[ $?-eq 0]then echo $line:ok else echo $line:fail fi done 这里的ports 既可以是文件
java-2.设计包含min函数的栈 bylijinnan java
具体思路参见：http://zhedahht.blog.163.com/blog/static/25411174200712895228171/ import java.util.ArrayList; import java.util.List; public class MinStack { //maybe we can use origin array rathe
Netty源码学习-ChannelHandler bylijinnan java netty
一般来说，“有状态”的ChannelHandler不应该是“共享”的，“无状态”的ChannelHandler则可“共享” 例如ObjectEncoder是“共享”的, 但 ObjectDecoder 不是因为每一次调用decode方法时，可能数据未接收完全（incomplete），它与上一次decode时接收到的数据“累计”起来才有可能是完整的数据，是“有状态”的 p
java生成随机数 cngolon java
方法一： /** * 生成随机数 * @author [email protected] * @return */ public synchronized static String getChargeSequenceNum(String pre){ StringBuffer sequenceNum = new StringBuffer(); Date dateTime = new D
POI读写海量数据 ctrain 海量数据
import java.io.FileOutputStream; import java.io.OutputStream; import org.apache.poi.xssf.streaming.SXSSFRow; import org.apache.poi.xssf.streaming.SXSSFSheet; import org.apache.poi.xssf.streaming
mysql 日期格式化date_format详细使用 daizj mysql date_format 日期格式转换日期格式化
日期转换函数的详细使用说明 DATE_FORMAT(date,format) Formats the date value according to the format string. The following specifiers may be used in the format string. The&n
一个程序员分享8年的开发经验 dcj3sjt126com 程序员
在中国有很多人都认为IT行为是吃青春饭的，如果过了30岁就很难有机会再发展下去!其实现实并不是这样子的，在下从事.NET及JAVA方面的开发的也有8年的时间了，在这里在下想凭借自己的亲身经历，与大家一起探讨一下。明确入行的目的很多人干IT这一行都冲着“收入高”这一点的，因为只要学会一点HTML, DIV+CSS，要做一个页面开发人员并不是一件难事，而且做一个页面开发人员更容
android欢迎界面淡入淡出效果 dcj3sjt126com android
很多Android应用一开始都会有一个欢迎界面，淡入淡出效果也是用得非常多的，下面来实现一下。主要代码如下： package com.myaibang.activity; import android.app.Activity;import android.content.Intent;import android.os.Bundle;import android.os.CountDown
linux 复习笔记之常见压缩命令 eksliang tar解压 linux系统常见压缩命令 linux压缩命令 tar压缩
转载请出自出处:http://eksliang.iteye.com/blog/2109693 linux中常见压缩文件的拓展名 *.gz gzip程序压缩的文件 *.bz2 bzip程序压缩的文件 *.tar tar程序打包的数据，没有经过压缩 *.tar.gz tar程序打包后，并经过gzip程序压缩 *.tar.bz2 tar程序打包后，并经过bzip程序压缩 *.zi
Android 应用程序发送shell命令 gqdy365 android
项目中需要直接在APP中通过发送shell指令来控制lcd灯，其实按理说应该是方案公司在调好lcd灯驱动之后直接通过service送接口上来给APP，APP调用就可以控制了，这是正规流程，但我们项目的方案商用的mtk方案，方案公司又没人会改，只调好了驱动，让应用程序自己实现灯的控制，这不蛋疼嘛！！！！发就发吧！一、关于shell指令：我们知道，shell指令是Linux里面带的
java 无损读取文本文件 hw1287789687 读取文件无损读取读取文本文件 charset
java 如何无损读取文本文件呢？以下是有损的 @Deprecated public static String getFullContent(File file, String charset) { BufferedReader reader = null; if (!file.exists()) { System.out.println("getFull
Firebase 相关文章索引 justjavac firebase
Awesome Firebase 最近谷歌收购Firebase的新闻又将Firebase拉入了人们的视野，于是我做了这个 github 项目。 Firebase 是一个数据同步的云服务，不同于 Dropbox 的「文件」，Firebase 同步的是「数据」，服务对象是网站开发者，帮助他们开发具有「实时」（Real-Time）特性的应用。开发者只需引用一个 API 库文件就可以使用标准 RE
C++学习重点 lx.asymmetric C++笔记
1.c++面向对象的三个特性：封装性，继承性以及多态性。 2.标识符的命名规则：由字母和下划线开头，同时由字母、数字或下划线组成；不能与系统关键字重名。 3.c++语言常量包括整型常量、浮点型常量、布尔常量、字符型常量和字符串性常量。 4.运算符按其功能开以分为六类：算术运算符、位运算符、关系运算符、逻辑运算符、赋值运算符和条件运算符。 &n
java bean和xml相互转换 q821424508 java bean xml xml和bean转换 java bean和xml转换
这几天在做微信公众号做的过程中想找个java bean转xml的工具，找了几个用着不知道是配置不好还是怎么回事，都会有一些问题，然后脑子一热谢了一个javabean和xml的转换的工具里，自己用着还行，虽然有一些约束吧，还是贴出来记录一下顺便你提一下下，这个转换工具支持属性为集合、数组和非基本属性的对象。 packag
C 语言初级位运算 1140566087 位运算 c
第十章位运算 1、位运算对象只能是整形或字符型数据，在VC6.0中int型数据占4个字节 2、位运算符：运算符作用 ~ 按位求反 << 左移 >> 右移 & 按位与 ^ 按位异或 | 按位或他们的优先级从高到低； 3、位运算符的运算功能： a、按位取反： ~01001101 = 101
14点睛Spring4.1-脚本编程 wiselyman spring4
14.1 Scripting脚本编程脚本语言和java这类静态的语言的主要区别是:脚本语言无需编译,源码直接可运行; 如果我们经常需要修改的某些代码,每一次我们至少要进行编译,打包,重新部署的操作,步骤相当麻烦; 如果我们的应用不允许重启,这在现实的情况中也是很常见的; 在spring中使用脚本编程给上述的应用场景提供了解决方案,即动态加载bean; spring支持脚本

【机器学习】集成学习（实战）

集成学习（实战）

目录

一、准备工作（设置 jupyter notebook 中的字体大小样式等）

二、集成算法的基本思想

三、集成算法的简单实现：硬投票与软投票

1、构建测试数据集

2、硬投票

3、软投票

四、集成学习：Bagging 模型

1、实验：对比 Bagging 模型与传统算法的差异

2、OOB 策略（out of bag）

3、随机森林（Random Forest）

五、集成学习：Boosting 模型

1、AdaBoost 算法

2、Gradient Boosting 算法

(1) Gradient Boosting 的算法流程

(2) 可视化展示 Gradient Boosting 流程

(3) 实验：练习 sklearn 中现成的 GBDT 模型

(4) 提前停止策略

六、集成学习：Stacking 模型

END

你可能感兴趣的:(机器学习,机器学习,集成学习,Bagging模型,Boosting模型,Stacking模型)