S1406793

Bagging的随机森林；Boosting的AdaBoost和GBDT

集成学习应用实践

import numpy as np 
import os 
%matplotlib inline
import matplotlib
import matplotlib.pyplot as plt
plt.rcParams['axes.labelsize'] = 14
plt.rcParams['xtick.labelsize'] = 12
plt.rcParams['ytick.labelsize'] = 12
import warnings
warnings.filterwarnings ('ignore')
np.random.seed (42)

1. 单个模型和集成模型的硬/软投票比较

from sklearn.model_selection import train_test_split
from sklearn.datasets import make_moons

X, y = make_moons(n_samples=500, noise=0.30, random_state=42)
X_train, X_test, y_train, y_test = train_test_split (X, y, random_state=42)

plt.plot(X[:,0][y==0], X[:, 1][y==0],'yo', alpha = 0.6)
plt.plot(X[:,0][y==1], X[:, 1][y==1],'bs', alpha = 0.6)

硬投票实验

from sklearn.ensemble import RandomForestClassifier, VotingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
# 构建分类器
log_clf = LogisticRegression()
rnd_clf = RandomForestClassifier()
svm_clf = SVC()

voting_clf = VotingClassifier(estimators=[('lr' ,log_clf),('rf',rnd_clf),('svm',svm_clf)], voting='hard')

voting_clf.fit(X_train,y_train)

VotingClassifier(estimators=[('lr', LogisticRegression()),
                             ('rf', RandomForestClassifier()), ('svm', SVC())])

from sklearn.metrics import accuracy_score 
for clf in (log_clf , rnd_clf, svm_clf, voting_clf):  #比较单个模型和集成模型的分类结果
    clf.fit(X_train,y_train)
    y_pred = clf.predict(X_test)
    print(clf.__class__.__name__, accuracy_score(y_test, y_pred))

LogisticRegression 0.864
RandomForestClassifier 0.88
SVC 0.896
VotingClassifier 0.904

软投票实验: 效果比硬投票更靠谱

from sklearn.ensemble import RandomForestClassifier, VotingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
# 构建分类器
log_clf = LogisticRegression(random_state=42)
rnd_clf = RandomForestClassifier(random_state=42)
# 逻辑回归和随机森林都可以得到一个概率值，SVM中需要加一个参数
svm_clf = SVC(random_state=42,probability = True)

voting_clf = VotingClassifier(estimators=[('lr' ,log_clf),('rf',rnd_clf),('svm',svm_clf)], voting='soft')

voting_clf.fit(X_train,y_train)

VotingClassifier(estimators=[('lr', LogisticRegression(random_state=42)),
                             ('rf', RandomForestClassifier(random_state=42)),
                             ('svm', SVC(probability=True, random_state=42))],
                 voting='soft')

from sklearn.metrics import accuracy_score 
for clf in (log_clf , rnd_clf, svm_clf, voting_clf):
    clf.fit(X_train,y_train)
    y_pred = clf.predict(X_test)
    print(clf.__class__.__name__, accuracy_score(y_test,y_pred))

LogisticRegression 0.864
RandomForestClassifier 0.896
SVC 0.896
VotingClassifier 0.92

2. 单个树模型和Bagging比较

from sklearn.ensemble import BaggingClassifier 
from sklearn.tree import DecisionTreeClassifier
bag_clf = BaggingClassifier(DecisionTreeClassifier(), 
                 n_estimators = 500,
                 max_samples = 100,
                bootstrap = True,  #是否进行又放回抽样
                n_jobs = -1,
                 random_state = 42)
bag_clf.fit(X_train, y_train)
y_pred = bag_clf.predict(X_test)

from sklearn.metrics import accuracy_score 
print(bag_clf.__class__.__name__, accuracy_score(y_test,y_pred))

BaggingClassifier 0.904

tree_clf = DecisionTreeClassifier()
tree_clf.fit(X_train,y_train)
y_pred_tree = tree_clf.predict(X_test)
print(bag_clf.__class__.__name__, accuracy_score(y_test,y_pred_tree))

BaggingClassifier 0.864

决策边界：

集成和传统方法对比

from matplotlib.colors import ListedColormap  
def plot_decision_boundary(clf, X, y, axes=[-1.5, 2.5, -1, 1.5], alpha=0.5, contour=True):
    x1s = np.linspace(axes[0], axes[1], 100)  # 在x1范围内生成100个均匀间隔的值
    x2s = np.linspace(axes[2], axes[3], 100)  # 在x2范围内生成100个均匀间隔的值
    x1, x2 = np.meshgrid(x1s, x2s)  # 创建一个网格，将x1和x2的值组合成所有可能的坐标点
    X_new = np.c_[x1.ravel(), x2.ravel()]  # 将x1和x2的坐标点展平并连接在一起，得到新的特征矩阵
    y_pred = clf.predict(X_new).reshape(x1.shape)  # 使用分类器预测新的特征矩阵的类别，并将结果重塑为与x1形状相同的数组

    # 绘制决策边界的背景颜色
    custom_cmap1 = ListedColormap(['#FFF0F5', '#E6E6FA', '#6A5ACD'])
    plt.contourf(x1, x2, y_pred, cmap=custom_cmap1, alpha=0.3)
    
    if contour:
        # 绘制决策边界的线条
        custom_cmap2 = ListedColormap(['#7d7d58', '#4c4c7f', '#507d50'])
        plt.contour(x1, x2, y_pred, cmap=custom_cmap2, alpha=0.6)
    
    # 绘制样本点
    plt.plot(X[:, 0][y == 0], X[:, 1][y == 0], 'yo', alpha=0.6)  # 类别为0的样本点用黄色圆圈表示
    plt.plot(X[:, 0][y == 1], X[:, 1][y == 1], 'bs', alpha=0.6)  # 类别为1的样本点用蓝色方块表示

    plt.axis(axes)  # 设置坐标轴范围
    plt.xlabel('x1')  # 设置x轴标签
    plt.ylabel('x2')  # 设置y轴标签

plt.figure(figsize = (12,5))
plt.subplot(121)
plot_decision_boundary(tree_clf,X,y)
plt.title('Decision Tree')
plt.subplot(122)
plot_decision_boundary(bag_clf,X,y)
plt.title('Decision Tree With Bagging')

Text(0.5, 1.0, 'Decision Tree With Bagging')

Colormap顔色：https://blog.csdn.net/qq_42804678/article/details/99607026

OOB策略

Out Of Bag

bag_clf = BaggingClassifier(DecisionTreeClassifier(), 
                n_estimators = 500,
                max_samples = 100,
                bootstrap = True,  #是否进行又放回抽样
                n_jobs = -1,
                random_state = 42,
                oob_score=True)
bag_clf.fit(X_train,y_train)
bag_clf.oob_score_   #计算袋外（Out-of-Bag）分数，即使用未在训练中使用的样本进行评估的准确率

0.9253333333333333

和测试集上的结果是否一致呢？
一般来说，验证集都比测试集高一些

y_pred = bag_clf.predict(X_test)
from sklearn.metrics import accuracy_score 
print(bag_clf.__class__.__name__, accuracy_score(y_test,y_pred))

BaggingClassifier 0.904

bag_clf.oob_decision_function_ 
#返回每个训练样本在两个类别上的概率值

array([[0.35579515, 0.64420485],
       [0.43513514, 0.56486486],
       [1.        , 0.        ],
       [0.01030928, 0.98969072],
       [0.03174603, 0.96825397],
       [0.07672634, 0.92327366],
       [0.39189189, 0.60810811],
       [0.06145251, 0.93854749],
       [0.92689295, 0.07310705],
       [0.88205128, 0.11794872],
       [0.59850374, 0.40149626],
       [0.04896907, 0.95103093],
       [0.7565445 , 0.2434555 ],
       [0.81377551, 0.18622449],
       [0.88528678, 0.11471322],
       [0.07407407, 0.92592593],
       [0.04738155, 0.95261845],
       [0.92051282, 0.07948718],
       [0.69974555, 0.30025445],
       [0.94358974, 0.05641026],
       [0.06100796, 0.93899204],
       [0.224     , 0.776     ],
       [0.9125964 , 0.0874036 ],
       [0.98746867, 0.01253133],
       [0.95967742, 0.04032258],
       [0.        , 1.        ],
       [0.94255875, 0.05744125],
       [1.        , 0.        ],
       [0.03466667, 0.96533333],
       [0.7020202 , 0.2979798 ],
       [0.        , 1.        ],
       [1.        , 0.        ],
       [0.01262626, 0.98737374],
       [0.07772021, 0.92227979],
       [0.09350649, 0.90649351],
       [0.97889182, 0.02110818],
       [0.01827676, 0.98172324],
       [0.53191489, 0.46808511],
       [0.02122016, 0.97877984],
       [0.98979592, 0.01020408],
       [0.10242588, 0.89757412],
       [0.33773087, 0.66226913],
       [0.98684211, 0.01315789],
       [0.98714653, 0.01285347],
       [0.00755668, 0.99244332],
       [1.        , 0.        ],
       [1.        , 0.        ],
       [0.05691057, 0.94308943],
       [0.97727273, 0.02272727],
       [0.05420054, 0.94579946],
       [0.9443038 , 0.0556962 ],
       [0.78740157, 0.21259843],
       [0.92467532, 0.07532468],
       [0.81794195, 0.18205805],
       [0.01758794, 0.98241206],
       [0.09511568, 0.90488432],
       [0.78296703, 0.21703297],
       [0.01897019, 0.98102981],
       [0.01344086, 0.98655914],
       [0.01492537, 0.98507463],
       [0.82170543, 0.17829457],
       [0.66666667, 0.33333333],
       [0.71900826, 0.28099174],
       [0.9921875 , 0.0078125 ],
       [0.01049869, 0.98950131],
       [0.7513369 , 0.2486631 ],
       [0.97727273, 0.02272727],
       [0.99230769, 0.00769231],
       [0.60367454, 0.39632546],
       [0.98461538, 0.01538462],
       [0.35824742, 0.64175258],
       [0.30666667, 0.69333333],
       [0.41621622, 0.58378378],
       [0.72922252, 0.27077748],
       [0.        , 1.        ],
       [0.25      , 0.75      ],
       [0.9015544 , 0.0984456 ],
       [1.        , 0.        ],
       [0.0302267 , 0.9697733 ],
       [0.95844156, 0.04155844],
       [0.00512821, 0.99487179],
       [0.18441558, 0.81558442],
       [0.13554987, 0.86445013],
       [0.40502793, 0.59497207],
       [0.98704663, 0.01295337],
       [0.04381443, 0.95618557],
       [0.67307692, 0.32692308],
       [0.07341772, 0.92658228],
       [0.01578947, 0.98421053],
       [0.        , 1.        ],
       [0.38046272, 0.61953728],
       [1.        , 0.        ],
       [0.01754386, 0.98245614],
       [0.05277045, 0.94722955],
       [0.01028278, 0.98971722],
       [0.80851064, 0.19148936],
       [0.7115903 , 0.2884097 ],
       [0.07407407, 0.92592593],
       [1.        , 0.        ],
       [0.34473684, 0.65526316],
       [0.66402116, 0.33597884],
       [0.01542416, 0.98457584],
       [0.12266667, 0.87733333],
       [0.42746114, 0.57253886],
       [0.97142857, 0.02857143],
       [0.03899721, 0.96100279],
       [0.97493734, 0.02506266],
       [0.44235925, 0.55764075],
       [0.27968338, 0.72031662],
       [0.9974026 , 0.0025974 ],
       [0.24403183, 0.75596817],
       [0.85233161, 0.14766839],
       [0.26329114, 0.73670886],
       [0.77653631, 0.22346369],
       [0.9893617 , 0.0106383 ],
       [0.98663102, 0.01336898],
       [0.        , 1.        ],
       [0.        , 1.        ],
       [0.48849105, 0.51150895],
       [0.99162011, 0.00837989],
       [0.06793478, 0.93206522],
       [0.9895288 , 0.0104712 ],
       [0.97704082, 0.02295918],
       [1.        , 0.        ],
       [0.95561358, 0.04438642],
       [0.97777778, 0.02222222],
       [0.03580563, 0.96419437],
       [0.95760599, 0.04239401],
       [0.96508728, 0.03491272],
       [0.02887139, 0.97112861],
       [0.23306233, 0.76693767],
       [0.85529716, 0.14470284],
       [0.4015544 , 0.5984456 ],
       [0.91948052, 0.08051948],
       [0.002457  , 0.997543  ],
       [0.0265252 , 0.9734748 ],
       [0.82849604, 0.17150396],
       [0.76863753, 0.23136247],
       [0.5390625 , 0.4609375 ],
       [0.88664987, 0.11335013],
       [0.93814433, 0.06185567],
       [0.1171875 , 0.8828125 ],
       [0.76923077, 0.23076923],
       [0.08136483, 0.91863517],
       [0.01282051, 0.98717949],
       [0.1227154 , 0.8772846 ],
       [0.73969072, 0.26030928],
       [0.96946565, 0.03053435],
       [1.        , 0.        ],
       [0.03403141, 0.96596859],
       [0.00265957, 0.99734043],
       [0.0620155 , 0.9379845 ],
       [0.02325581, 0.97674419],
       [0.9924812 , 0.0075188 ],
       [0.98373984, 0.01626016],
       [0.86449864, 0.13550136],
       [0.99730458, 0.00269542],
       [1.        , 0.        ],
       [0.87598945, 0.12401055],
       [0.00775194, 0.99224806],
       [0.64925373, 0.35074627],
       [0.32994924, 0.67005076],
       [0.07336957, 0.92663043],
       [0.01534527, 0.98465473],
       [0.38961039, 0.61038961],
       [1.        , 0.        ],
       [0.97554348, 0.02445652],
       [0.        , 1.        ],
       [1.        , 0.        ],
       [0.07027027, 0.92972973],
       [0.00520833, 0.99479167],
       [0.92553191, 0.07446809],
       [0.02077922, 0.97922078],
       [0.        , 1.        ],
       [1.        , 0.        ],
       [0.04347826, 0.95652174],
       [0.82994924, 0.17005076],
       [0.90526316, 0.09473684],
       [0.033241  , 0.966759  ],
       [0.94559585, 0.05440415],
       [0.90185676, 0.09814324],
       [0.9611399 , 0.0388601 ],
       [0.01312336, 0.98687664],
       [0.01856764, 0.98143236],
       [0.99212598, 0.00787402],
       [0.24427481, 0.75572519],
       [0.98958333, 0.01041667],
       [0.12634409, 0.87365591],
       [0.01808786, 0.98191214],
       [0.98969072, 0.01030928],
       [0.        , 1.        ],
       [0.19945355, 0.80054645],
       [0.88713911, 0.11286089],
       [0.90600522, 0.09399478],
       [0.61741425, 0.38258575],
       [0.67733333, 0.32266667],
       [0.03826531, 0.96173469],
       [0.2421875 , 0.7578125 ],
       [0.98933333, 0.01066667],
       [0.92875989, 0.07124011],
       [0.9171123 , 0.0828877 ],
       [0.98387097, 0.01612903],
       [0.04232804, 0.95767196],
       [0.01041667, 0.98958333],
       [0.09974425, 0.90025575],
       [0.5127551 , 0.4872449 ],
       [0.        , 1.        ],
       [0.02046036, 0.97953964],
       [0.97474747, 0.02525253],
       [0.08918919, 0.91081081],
       [0.12144703, 0.87855297],
       [0.88549618, 0.11450382],
       [0.04557641, 0.95442359],
       [0.37073171, 0.62926829],
       [0.01355014, 0.98644986],
       [1.        , 0.        ],
       [0.01302083, 0.98697917],
       [0.01369863, 0.98630137],
       [0.91052632, 0.08947368],
       [0.9012987 , 0.0987013 ],
       [0.95897436, 0.04102564],
       [0.0188172 , 0.9811828 ],
       [0.05670103, 0.94329897],
       [0.96524064, 0.03475936],
       [0.11671088, 0.88328912],
       [0.        , 1.        ],
       [0.22955145, 0.77044855],
       [0.97333333, 0.02666667],
       [0.84594595, 0.15405405],
       [0.11948052, 0.88051948],
       [0.71621622, 0.28378378],
       [0.92838875, 0.07161125],
       [0.15860215, 0.84139785],
       [0.13953488, 0.86046512],
       [0.98982188, 0.01017812],
       [0.        , 1.        ],
       [0.01358696, 0.98641304],
       [0.01315789, 0.98684211],
       [0.38324873, 0.61675127],
       [0.85263158, 0.14736842],
       [0.04113111, 0.95886889],
       [0.9893617 , 0.0106383 ],
       [0.85236769, 0.14763231],
       [0.0025641 , 0.9974359 ],
       [0.76363636, 0.23636364],
       [0.98737374, 0.01262626],
       [0.00527704, 0.99472296],
       [0.98971722, 0.01028278],
       [0.06182796, 0.93817204],
       [0.01044386, 0.98955614],
       [0.11653117, 0.88346883],
       [0.24274406, 0.75725594],
       [0.8956743 , 0.1043257 ],
       [0.06169666, 0.93830334],
       [0.98694517, 0.01305483],
       [0.59850374, 0.40149626],
       [0.08080808, 0.91919192],
       [0.616     , 0.384     ],
       [0.88688946, 0.11311054],
       [0.00787402, 0.99212598],
       [0.99492386, 0.00507614],
       [0.01041667, 0.98958333],
       [0.        , 1.        ],
       [0.77114428, 0.22885572],
       [0.        , 1.        ],
       [0.98918919, 0.01081081],
       [0.10649351, 0.89350649],
       [0.73846154, 0.26153846],
       [0.13513514, 0.86486486],
       [0.9972973 , 0.0027027 ],
       [0.90104167, 0.09895833],
       [0.01285347, 0.98714653],
       [0.05540897, 0.94459103],
       [0.13350785, 0.86649215],
       [0.08695652, 0.91304348],
       [0.        , 1.        ],
       [0.96899225, 0.03100775],
       [0.84615385, 0.15384615],
       [0.15013405, 0.84986595],
       [0.93384224, 0.06615776],
       [0.04221636, 0.95778364],
       [0.61265823, 0.38734177],
       [0.13917526, 0.86082474],
       [0.95064935, 0.04935065],
       [0.90027701, 0.09972299],
       [0.00789474, 0.99210526],
       [0.94041451, 0.05958549],
       [0.8987013 , 0.1012987 ],
       [0.        , 1.        ],
       [0.05053191, 0.94946809],
       [1.        , 0.        ],
       [0.03183024, 0.96816976],
       [0.98963731, 0.01036269],
       [0.09189189, 0.90810811],
       [0.88235294, 0.11764706],
       [1.        , 0.        ],
       [0.01066667, 0.98933333],
       [0.0458221 , 0.9541779 ],
       [0.688     , 0.312     ],
       [0.        , 1.        ],
       [1.        , 0.        ],
       [0.67435897, 0.32564103],
       [0.86956522, 0.13043478],
       [0.99230769, 0.00769231],
       [0.66753927, 0.33246073],
       [0.47733333, 0.52266667],
       [0.01362398, 0.98637602],
       [0.82531646, 0.17468354],
       [0.01591512, 0.98408488],
       [1.        , 0.        ],
       [0.77513228, 0.22486772],
       [0.9871134 , 0.0128866 ],
       [1.        , 0.        ],
       [0.84771574, 0.15228426],
       [0.27720207, 0.72279793],
       [0.1689008 , 0.8310992 ],
       [0.2382199 , 0.7617801 ],
       [0.        , 1.        ],
       [0.75065617, 0.24934383],
       [0.90649351, 0.09350649],
       [0.05882353, 0.94117647],
       [1.        , 0.        ],
       [0.97837838, 0.02162162],
       [0.98992443, 0.01007557],
       [0.00507614, 0.99492386],
       [0.06887755, 0.93112245],
       [0.91282051, 0.08717949],
       [0.93782383, 0.06217617],
       [1.        , 0.        ],
       [0.24129353, 0.75870647],
       [0.98933333, 0.01066667],
       [0.13      , 0.87      ],
       [0.95103093, 0.04896907],
       [0.04522613, 0.95477387],
       [0.98777506, 0.01222494],
       [0.99479167, 0.00520833],
       [0.98271605, 0.01728395],
       [0.        , 1.        ],
       [0.93882979, 0.06117021],
       [0.01591512, 0.98408488],
       [0.06958763, 0.93041237],
       [0.05637255, 0.94362745],
       [0.        , 1.        ],
       [1.        , 0.        ],
       [0.98913043, 0.01086957],
       [0.        , 1.        ],
       [0.96524064, 0.03475936],
       [0.0802139 , 0.9197861 ],
       [0.9872449 , 0.0127551 ],
       [0.1875    , 0.8125    ],
       [0.0156658 , 0.9843342 ],
       [0.04569892, 0.95430108],
       [0.        , 1.        ],
       [0.81693989, 0.18306011],
       [0.07518797, 0.92481203],
       [0.1292876 , 0.8707124 ],
       [1.        , 0.        ],
       [0.92708333, 0.07291667],
       [0.22751323, 0.77248677],
       [0.93939394, 0.06060606],
       [0.0536193 , 0.9463807 ],
       [0.12834225, 0.87165775],
       [1.        , 0.        ],
       [0.92183288, 0.07816712],
       [0.61170213, 0.38829787],
       [0.86863271, 0.13136729],
       [1.        , 0.        ],
       [0.02150538, 0.97849462],
       [0.94666667, 0.05333333],
       [0.0298103 , 0.9701897 ],
       [0.13874346, 0.86125654],
       [0.91435768, 0.08564232],
       [1.        , 0.        ],
       [0.0859375 , 0.9140625 ],
       [0.69086022, 0.30913978]])

3. 随机森林

from sklearn.ensemble import RandomForestClassifier
rf_clf = RandomForestClassifier()
rf_clf.fit(X_train,y_train)

RandomForestClassifier()

特征重要性

训练完模型之后才能展示特征重要性
- sklearn中是看每个特征的平均深度：特征在不同树中的深度越靠近根节点，则越重要
- 打乱某个特征的样本顺序，看结果（误差/准确率）变化

from sklearn.datasets import load_iris
iris = load_iris()
rf_clf = RandomForestClassifier(n_estimators = 500, n_jobs=-1)
rf_clf.fit(iris['data'], iris['target'])
for name,score in zip(iris['feature_names'], rf_clf.feature_importances_):
    print(name, score)

sepal length (cm) 0.10755321374941752
sepal width (cm) 0.02339907592628136
petal length (cm) 0.41895084074926525
petal width (cm) 0.4500968695750358

Mnist中哪些特征比较重要呢？

未下载成功

from skle arn.datasets import fetch_mldata
mnist = fetch_mldata['MNIST original']

rf_clf.fit(mnist['data'], mnist['target'])
rf_clf.feature_importances_.shape

def plot_digit(data):
    image = data.reshape (28, 28) 
    plt.imshow(image, cmap = matplotlib.cm.hot)
    plt.axis ('off')
    
plot_digit(rf_clf.feature_importances_)
char = plt.colorbar(ticks=[rf_clf.feature_importances_.min(), rf_clf.feature_importances_.max () ])
char.ax.set_yticklabels([' Not important', 'Very important' ])

---------------------------------------------------------------------------

ImportError                               Traceback (most recent call last)

/var/folders/hb/ryvkn_gd1xsdt_hts17mz8mc0000gn/T/ipykernel_8861/1829106262.py in 
----> 1 from sklearn.datasets import fetch_mldata
      2 mnist = fetch_mldata['MNIST original']


ImportError: cannot import name 'fetch_mldata' from 'sklearn.datasets' (/Users/shangwy/opt/anaconda3/lib/python3.9/site-packages/sklearn/datasets/__init__.py)

4. Boosting-提升策略

AdaBoost

以SVM分类器来演示AdaBoost的基本策略

from sklearn.svm import SVC
m = len(X_train)  #一共多少样本

# 随着集成策略的进行，决策边界会发生什么变化？
plt.figure(figsize=(16,5))
for subplot, learning_rate in ((121,1),(122,0.5)):
    sample_weights = np.ones(m)
    plt.subplot(subplot)
    for i in range(5):  
        svm_clf = SVC(kernel='rbf', C = 0.05, random_state = 42)
        svm_clf.fit(X_train,y_train,sample_weight = sample_weights)
        y_pred = svm_clf.p redict(X_train)
        sample_weights[y_pred != y_train] *= (1+learning_rate)
        plot_decision_boundary(svm_clf,X,y,alpha=0.2)
        plt.title('learning_rate ={}'.format(learning_rate))
    if subplot == 121:
        plt.text(-0.7, -0.65, '1', fontsize=14)
        plt.text(-0.6, -0.15, '2', fontsize=14)
        plt.text(-0.5, 0.10, '3', fontsize=14)
        plt.text(-0.4, 0.55, '4', fontsize=14)
        plt.text(-0.3, 0.90, '5', fontsize=14)
plt.show()

from sklearn.ensemble import AdaBoostClassifier
ada_clf = AdaBoostClassifier(DecisionTreeClassifier(max_depth=1),
                   n_estimators = 200,
                   learning_rate = 0.5,
                   random_state = 42
                  )

ada_clf.fit(X_train,y_train)
plot_decision_boundary(ada_clf,X,y)

Gradient Boosting Decision Trees

在GBDT中，每一棵决策树都是在前一棵树的残差基础上进行训练。首先，使用一个简单的初始模型（比如均值）作为预测值，计算实际值与预测值之间的残差，然后训练第一棵决策树来拟合这些残差。接着，计算当前模型对于训练样本的预测值，并将其与实际值之间的残差作为下一棵决策树的训练目标。如此重复迭代，每一轮迭代都会使模型的预测值逐渐接近真实值，从而不断改进整体的预测能力。

GBDT在训练过程中采用了梯度下降算法来最小化损失函数，通常使用平方误差或绝对误差作为损失函数。相比于普通的决策树算法，GBDT能够更好地处理非线性、高维度和大规模数据，并具有较强的泛化能力。

类似的GBDT算法：Xgboost和Lightboost

GBDT-sklearn
Xgboost
Lightboost

Adaboost和Gradient Boosting都是集成学习中的重要算法，它们的目标都是通过组合多个弱学习器来构建一个更强的分类器或回归器。

下面是它们的联系和区别：

相同点

都是通过迭代训练多个弱分类器或回归器，并将它们组合成一个强分类器或回归器。
都可以用于分类和回归问题。

不同点

Adaboost 是一种加法模型，每一轮迭代都会将新的基分类器加入到模型中，而且每个基分类器的权重取决于前面的基分类器的分类准确率。在每一轮迭代中，Adaboost 会调整样本权重，让分类错误的样本得到更高的权重，这样可以使得后续的基分类器更关注于难以分类的样本。因此，Adaboost 可以有效地处理数据不平衡问题。
Gradient Boosting 是一种梯度下降模型，每一轮迭代都会训练一个新的基模型，然后将其加入到模型中，但是每个基模型的权重并不是固定的，而是根据残差的梯度来确定的。在每一轮迭代中，Gradient Boosting 会调整样本的权重，并使用残差来训练新的基模型，这样可以使得模型越来越关注于难以拟合的样本。因此，Gradient Boosting 能够有效地处理高维数据和非线性关系。
区别在于它们的迭代方式和损失函数。Adaboost使用加权数据样本进行迭代，每一轮迭代都调整权重以便更关注被错误分类的样本。Gradient Boosting使用前一轮模型的残差来训练下一轮模型，通过最小化残差的损失函数来逐步改进模型的预测能力。

简单来说，Adaboost通过调整样本权重来改进模型，而Gradient Boosting通过迭代地拟合残差来改进模型。

import numpy as np
np.random.seed(20)
X = np.random.rand(100,1) - 0.5
y = 3*X[:,0]**2 +0.05*np.random.randn(100)

y.shape

(100,)

from sklearn.tree import DecisionTreeRegressor

# GBDT通常的流程
# 第一个弱学习器的迭代
tree_reg1 = DecisionTreeRegressor(max_depth=2)
tree_reg1.fit(X,y)

DecisionTreeRegressor(max_depth=2)

# 第二个弱学习器的迭代
y2 = y - tree_regl.predict(X)
tree_reg2 = DecisionTreeRegressor(max_depth=1)
tree_reg2.fit(X,y2)

DecisionTreeRegressor(max_depth=1)

# 第三个弱学习器的迭代
y3 = y2 - tree_reg2.predict(X)
tree_reg3 = DecisionTreeRegressor(max_depth=2)
tree_reg3.fit(X,y3)

DecisionTreeRegressor(max_depth=2)

X_new = np.array([[0.8]])  #测试数据
y_pred = sum(tree.predict(X_new) for tree in (tree_reg1,tree_reg2,tree_reg3))
y_pred

array([0.4995486])

import numpy as np
import matplotlib.pyplot as plt

def plot_predictions(regressors, X, y, axes, label=None, style="r-", data_style="b.", data_label=None):
    # 生成用于预测的 x 值
    x1 = np.linspace(axes[0], axes[1], 500)
    # 对每个回归器进行预测，并将结果相加
    y_pred = sum(regressor.predict(x1.reshape(-1,1)) for regressor in regressors) 
    # 绘制训练集数据点
    plt.plot(X[:, 0], y, data_style, label=data_label)
    # 绘制预测结果曲线
    plt.plot(x1, y_pred, style, linewidth=2, label=label)
    # 添加图例
    if label or data_label:
        plt.legend(loc="upper center", fontsize=16)
    # 设置坐标轴范围
    plt.axis(axes)

# 创建一个图形窗口
plt.figure(figsize=(11, 11))

# 第一个子图
plt.subplot(321)
plot_predictions([tree_reg1], X, y, axes=[-0.5, 0.5, -0.1, 0.8], label='$h_1(x_1)$', style="g-", data_label="Training set")
plt.ylabel('$y$', fontsize=16, rotation=0)
plt.title("Residuals and tree predictions", fontsize=16)

# 第二个子图
plt.subplot(322)
plot_predictions([tree_reg1], X, y, axes=[-0.5, 0.5, -0.1, 0.8], label="$h(x_1) = h_1(x_1)$", data_label="Training set")
plt.ylabel("$y$", fontsize=16, rotation=0)
plt.title("Ensemble predictions", fontsize=16)

# 第三个子图
plt.subplot(323)
plot_predictions([tree_reg2], X, y2, axes=[-0.5, 0.5, -0.5, 0.5], label="$h_2(x_1)$", style="g-", data_style="k+", data_label="Residuals")
plt.ylabel("$y-h_1(x_1)$", fontsize=16)

# 第四个子图
plt.subplot(324)
plot_predictions([tree_reg1, tree_reg2], X, y, axes=[-0.5, 0.5, -0.1, 0.8], label="$h(x_1) = h_1(x_1) + h_2(x_1)$")
plt.ylabel("$y$", fontsize=16, rotation=0)

# 第五个子图
plt.subplot(325)
plot_predictions([tree_reg3], X, y3, axes=[-0.5, 0.5, -0.5, 0.5], label="$h_3(x_1)$", style="g-", data_style="k+")
plt.ylabel("$y-h_1(x_1) - h_2(x_1)$", fontsize=16)
plt.xlabel("$x_1$", fontsize=16)

# 第六个子图
plt.subplot(326)
plot_predictions([tree_reg1, tree_reg2, tree_reg3], X, y, axes=[-0.5, 0.5, -0.1, 0.8], label="$h(x_1) = h_1(x_1) + h_2(x_1) + h_3(x_1)$")
plt.xlabel("$x_1$", fontsize=16)
plt.ylabel("$y$", fontsize=16, rotation=0)

# 显示图形
plt.show()

GBDT中的参数：实践中使用Xgboost和Lightboost

from sklearn.ensemble import GradientBoostingRegressor
# 模型1
gbdt_rgl1 = GradientBoostingRegressor(max_depth=2,
                         n_estimators = 3,
                         learning_rate = 1,  #树的权重
                         random_state = 41)
gbdt_rgl1.fit(X,y)

GradientBoostingRegressor(learning_rate=1, max_depth=2, n_estimators=3,
                          random_state=41)

# 模型2
gbdt_slow_rgl2 = GradientBoostingRegressor(max_depth=2,
                         n_estimators = 3,
                         learning_rate = 0.1,  #树的权重
                         random_state = 41)
gbdt_slow_rgl2.fit(X,y)

GradientBoostingRegressor(max_depth=2, n_estimators=3, random_state=41)

#模型3
gbdt_slow_rgl3 = GradientBoostingRegressor(max_depth=2,
                         n_estimators = 200,
                         learning_rate = 1,  #树的权重
                         random_state = 41)
gbdt_slow_rgl3.fit(X,y)

GradientBoostingRegressor(learning_rate=1, max_depth=2, n_estimators=200,
                          random_state=41)

三种情况的对比：参数的作用

def plot_predictions(regressors, X, y, axes, label=None, style="r-", data_style="b.", data_label=None):
    # 生成用于预测的 x 值
    x1 = np.linspace(axes[0], axes[1], 500)
    # 对每个回归器进行预测，并将结果相加
    y_pred = sum(regressor.predict(x1.reshape(-1,1)) for regressor in regressors) 
    # 绘制训练集数据点
    plt.plot(X[:, 0], y, data_style, label=data_label)
    # 绘制预测结果曲线
    plt.plot(x1, y_pred, style, linewidth=2, label=label)
    # 添加图例
    if label or data_label:
        plt.legend(loc="upper center", fontsize=16)
    # 设置坐标轴范围
    plt.axis(axes)
    

# 学习率的对比
plt.figure(figsize= (12,8))
plt.subplot(221)
plot_predictions([gbdt_rgl1], X, y, axes = [-0.5,0.5,-0.1,0.8], label='Ensamble predictions')
plt.title('learning_rate={},n_estimators={}'.format(gbdt_rgl1.learning_rate,gbdt_rgl1.n_estimators))
 
plt.subplot(222)
plot_predictions([gbdt_slow_rgl2], X, y, axes = [-0.5,0.5,-0.1,0.8], label='Ensamble predictions')
plt.title('learning_rate={},n_estimators={}'.format(gbdt_slow_rgl2.learning_rate,gbdt_slow_rgl2.n_estimators))
# 迭代轮数 
plt.subplot(223)
plot_predictions([gbdt_slow_rgl3], X, y, axes = [-0.5,0.5,-0.1,0.8], label='Ensamble predictions')
plt.title('learning_rate={},n_estimators={}'.format(gbdt_slow_rgl3.learning_rate,gbdt_slow_rgl3.n_estimators))

提前停止策略

在机器学习中，提前停止策略指的是在模型训练过程中，提前终止迭代以避免过拟合和提高模型泛化能力的一种策略。

常见的提前停止策略包括两种：

固定迭代次数：在训练开始前，设定一个固定的迭代次数，当迭代次数达到预设值时，停止训练。这种方式有时不太可靠，因为不同的问题和数据集需要不同的训练时间和复杂度。

监测验证集误差：在每个迭代中，使用一个独立的验证集来估计模型的泛化误差，并监测其变化情况。当验证集误差不再下降或开始上升时，可以选择停止模型的训练，避免过拟合。在这种情况下，模型的最佳迭代次数是在验证集上得到最小误差的时刻。这种方法需要注意，因为如果不小心，可能会使模型过于依赖验证集，从而得到一个过拟合的模型。

提前停止策略可以帮助避免过拟合，提高模型的泛化能力，并减少训练时间和计算成本。

from sklearn.metrics import mean_squared_error     

X_train, X_val,y_train, y_val =  train_test_split(X,y,random_state=42)
gbdt = GradientBoostingRegressor(max_depth=2,
                         n_estimators = 120,
                         random_state = 39)
gbdt.fit(X_train,y_train)

# 计算每次迭代的验证集上的均方误差
errors = [mean_squared_error(y_val,y_pred) for y_pred in gbdt.staged_predict(X_val)]
# 找到具有最小误差的迭代次数
best_n_estimators = np.argmin(errors)

# 使用最佳迭代次数初始化一个新的 GradientBoostingRegressor 模型
gbdt_best = GradientBoostingRegressor(max_depth=2,
                         n_estimators = best_n_estimators,
                      random_state = 42)
gbdt_best.fit(X_train,y_train)

GradientBoostingRegressor(max_depth=2, n_estimators=52, random_state=42)

min_error = np.min(errors)
min_error

0.002535247745146343

# 绘制误差变化
plt.figure(figsize=(11,4))

plt.subplot(121)
plt.plot(errors,'b.-') #绘制每次迭代的验证集上的均方误差
plt.plot([best_n_estimators,best_n_estimators],[0,min_error],'k--')# 绘制最佳迭代次数
plt.plot([0,120],[min_error,min_error],'k--')# 绘制最小误差
plt.plot([best_n_estimators,best_n_estimators],[min_error,min_error],'ro')# 标记最佳迭代次数
plt.axis([0,120,0,0.01])# 设置坐标轴范围
plt.title('Val Error')# 设置子图标题

plt.subplot(122)
plot_predictions([gbdt_best],X,y,axes=[-0.5,0.5,-0.1,0.8])# 绘制最佳模型的预测结果
plt.title('Best Model(%d trees)'%best_n_estimators)

Text(0.5, 1.0, 'Best Model(52 trees)')

Xgboost和Lightboost中都有一个early_stoping的参数，那么怎么实现提前停止呢？

但是GradientBoostingRegressor中没有，怎么在GradientBoostingRegressor中实现提前停止策略呢？

warm_start：bool, default=False

开启了热启动模式。热启动模式允许在模型已经训练过的基础上继续进行训练，而不是从头开始训练。这对于逐步增加模型复杂度或使用增量数据进行训练时很有用。

 gbdt = GradientBoostingRegressor(max_depth=2,
                        random_state = 42,
                        warm_start=True)

error_going_up = 0
min_val_error = float('inf')

for n_estimators in range(1,200):
    gbdt.n_estimators = n_estimators
    gbdt.fit(X_train,y_train)
    y_pred = gbdt.predict(X_val)
    
    val_error = mean_squared_error(y_val,y_pred)
    if val_error < min_val_error:
        min_val_error = val_error
        error_going_up = 0
    else:  #如果误差不再下降的计数达到5次（连续5次验证集误差没有下降），则停止训练，跳出循环。
        error_going_up +=1
        if error_going_up == 5:  
            break

print(gbdt.n_estimators)

5. Stacking（堆叠集成）

Stacking介绍

你可能感兴趣的:(数据分析面试,机器学习,随机森林,boosting,算法)

基于Python根据两个字符串给出相似度/近似度_Python实现字符串语义相似度算法（附上多种实现算法）袁袁袁袁满 Python实用技巧大全 python 算法开发语言相似度自然语言处理相似度算法 sklearn
以下是几种基于语义的字符串相似度计算方法，每种方法都会返回0.0到1.0之间的相似度分数（保留一位小数）。文章目录方法1：计算Levenshtein距离(基于字符的相似度)方法2：使用Sentence-BERT预训练模型方法3：使用spaCy进行语义相似度比较方法4：使用spaCy和词向量方法5：使用UniversalSentenceEncoder(USE)方法6：使用BERT-as-Servic
跑的快的代码应该是什么样子思绪漂移代码规范代码效率
跑的快的代码应该是什么样子一、算法与数据结构的选择算法复杂度算法是解决问题的步骤和方法，其时间复杂度和空间复杂度直接影响代码的执行速度。例如，在排序算法中，冒泡排序的时间复杂度为O(n²)，而快速排序的平均时间复杂度为O(nlogn)。当处理大规模数据时，快速排序显然会比冒泡排序快得多。因此，在编写代码前，根据具体问题的特点，选择合适的时间复杂度和空间复杂度的算法是非常重要。数据结构合适的数据结构
计算机视觉算法实战——车辆速度检测喵了个AI 计算机视觉实战项目计算机视觉算法人工智能
✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨1.引言随着智能交通系统和自动驾驶技术的快速发展，车辆速度检测成为了计算机视觉领域的一个重要研究方向。车辆速度检测不仅可以帮助交通管理部门实时监控道路状况，还可以为自动驾驶汽车提供关键的环境感知能力。本文将深入探讨车辆速度检测的相关算法、数据集、代码实现以及未来的研究方向。2.当前相关
什么职业最赚钱适合男生的? 高省飞智导师
男生想要找到挣钱多的工作，可以考虑以下几个方向：1.科技行业：随着科技的不断发展，科技行业对高素质人才的需求越来越大。男生可以考虑学习相关的技能，如编程、数据分析、人工智能等，进入科技公司工作，获得高薪。2.金融行业：金融行业是一个高薪的行业，男生可以考虑进入银行、证券公司、保险公司等工作，从事投资、风险管理、客户服务等方面的工作。3.医疗行业：随着人口老龄化的加剧，医疗行业对高素质人才的需求也越
Java领域事务管理：Spring事务机制详解 AI应用架构探索者 AI人工智能与大数据应用开发 AI实战 java spring 网络 ai
Java领域事务管理：Spring事务机制详解关键词：Java、Spring事务机制、事务管理、ACID、传播行为摘要：本文深入探讨了Java领域中Spring事务机制的相关内容。首先介绍了事务管理的背景知识，包括事务的基本概念、目的和范围等。接着详细阐述了Spring事务机制的核心概念，如事务的传播行为、隔离级别等，并给出了相应的架构示意图和流程图。然后对Spring事务的核心算法原理进行了分析
代码随想录算法训练营第二十九天天天开心(∩_∩) 算法
LeetCode.134加油站题目链接加油站题解classSolution{publicintcanCompleteCircuit(int[]gas,int[]cost){intcurSum=0;inttargetSum=0;intstartIndex=0;for(inti=0;iratings[i-1]){res[i]=res[i-1]+1;}elseres[i]=1;}for(inti=n-2
算法竞赛备赛——【图论】拓扑排序 Aurora_wmroy 算法竞赛备赛算法图论 c++蓝桥杯数据结构
拓扑排序算法前置知识：1.DAG图：一个无环的有向图，即有向无环图。2.AOV网络：在⼀个表示⼯程的有向图中，⽤顶点表示活动，⽤弧表示活动之间的优先关系的有向图称为顶点表示活动的⽹（ActivityOnVertexNetwork），简称AOV⽹。拓扑排序：其实就是对⼀个DAG图构造拓扑序列的过程。拓扑排序算法：kahn（卡恩）算法（基于BFS）和基于DFS的算法。kahn（卡恩）算法可以判环时间复
什么是商业智能BI数据分析的指标爆炸？派可数据商业智能数据仓库数据可视化数据分析数据挖掘商业智能BI 大数据数据库
指标爆炸这个词大家可能都是第一次听说，指标怎么会爆炸呢？其实这个是我们很多年前在一些商业智能BI项目上总结出来的一种场景或者现象，就是过于的开放给业务人员在BI自助分析过程中创造了很多衍生性的分析指标，结果就造成了前端指标过于臃肿的局面。什么是指标爆炸简单来说，指标爆炸具体的表现主要是：第一，每个人都有能力自己造指标，造成指标的定义在不同的部门或者业务领域出现重复，但实际指标的含义相差甚远。比如名
深入解析 Pandas：Python 数据分析的强大工具 chy存钱罐 pandas python 数据分析
引言在当今数据驱动的时代，数据分析成为了从各个领域挖掘价值的关键手段。Python作为一种广泛应用于数据科学的编程语言，拥有众多强大的库来支持数据分析任务。其中，Pandas无疑是最为耀眼的明星之一。Pandas为Python提供了快速、灵活、明确的数据结构，旨在简单、直观地处理关系型、标记型数据。无论是数据清洗、预处理，还是复杂的数据分析和建模，Pandas都能发挥巨大的作用，极大地提升数据处理
20250108-实验+神经网络（实现见绑定资源）陈晨辰熟稳重实验报告神经网络人工智能深度学习
实验3.神经网络与反向传播算法（实现见绑定资源）3.1计算图：复合函数的计算图实验要求1：基于numpy实现(y1,y2)=f(x1,x2,x3)(y_1,y_2)=f(x_1,x_2,x_3)(y1,y2)=f(x1,x2,x3)的反向传播算法（不允许使用自动微分），程序应能够正确计算函数的雅克比矩阵.实验要求2：基于pytorch实现(y1,y2)=f(x1,x2,x3)(y_1,y_2)=f
2020-11-14：银行家算法（Java）——操作系统陈晨辰熟稳重实验报告 java 操作系统算法
操作系统——银行家算法1实验目的：2实验内容：3源代码：4测试数据：(部分的主要数据)5运行结果1实验目的：银行家算法是避免死锁的一种重要方法，本实验要求用高级语言编写和调试一个简单的银行家算法程序。加深了解有关资源申请、避免死锁等概念，并体会和了解死锁和避免死锁的具体实施方法。2实验内容：1)设计进程对各类资源最大申请表示及初值确定。2)设定系统提供资源初始状况。3)设定每次某个进程对各类资源的
python爬虫入门：批量下载图片有盐、在见 python 爬虫开发语言
引言：爬虫也被称为网络蜘蛛（Spider），是一种自动化的软件程序，能够在互联网上漫游，按照一定的规则和算法抓取数据。爬虫技术广泛应用于搜索引擎、数据挖掘、信息提取等领域，是互联网技术的重要组成部分。摘要：很多初学者对于一个这样新奇的事务当然愿意去探索，我也一样，突然想要学一点关于python爬虫的知识，说干就干！那就学！如果以下说的有错误，及时指出，定会修改。本文将介绍如何从图片网站批量下载图片
写给职场新鲜人的话范珺
不知不觉到了可以给步入职场的新鲜人给予鼓励和建议的年纪。今天又从招聘网站上下载了一堆年轻的简历，他们都有着不同的相貌，来自不同的地方，擅长不同的专业，有着各自的目标；但他们都近乎于偏执的执着、热情、善于思考，且对未来有自己的规划；透过简历，我似乎能看到他们开心的哭、爽朗的笑，以及在夜晚灯下与自己独处的日子；经过面试的沟通，更加确定了我的想法；都说现有的教育体制是机器，把形状各异的人磨平棱角；很庆幸
强化学习在AI Agent资源调度中的应用 AI大模型应用实战人工智能 ai
强化学习在AIAgent资源调度中的应用关键词：强化学习、AIAgent、资源调度、马尔可夫决策过程、策略梯度算法摘要：本文聚焦于强化学习在AIAgent资源调度中的应用。首先介绍了强化学习和AIAgent资源调度的背景知识，明确了文章的目的、范围和预期读者。接着详细阐述了核心概念及其联系，包括强化学习和AIAgent资源调度的原理和架构，并通过Mermaid流程图进行直观展示。深入讲解了核心算法
Java 大视界 -- Java 大数据机器学习模型在金融市场波动预测与资产配置动态调整中的应用（355）青云交大数据新视界 Java 大视界 java 大数据机器学习金融市场波动预测资产配置 LSTM
Java大视界--Java大数据机器学习模型在金融市场波动预测与资产配置动态调整中的应用（355））引言：正文：一、Java构建的金融数据处理架构1.1多源数据实时融合与清洗1.2跨市场数据关联（风险传导分析）二、Java驱动的市场波动预测模型2.1LSTM+随机森林融合预测（股市案例）2.2资产配置动态调整（风险预算模型）三、实战案例：从“被动亏损”到“主动盈利”3.1公募基金：加息波动中的1.
R语言基本操作易易前端 R语言基础实践 r语言开发语言
R语言基本操作为什么选择R？丰富的资源涵盖了多种行业数据分析中几乎所有的方法；良好的扩展性十分方便的编写函数和程序包，跨平台，可以胜任复杂的数据分析、绘制精美的图形；完备的帮助系统每个函数都有统一格式的帮助，运行实例；GNU软件免费、软件本身及程序包的源代码公开；R的特点：多领域的统计资源目前在R网站上约有4000个程序包，涵盖了基础统计学、社会学、经济学、生态学、空间分析、系统发育分析、生物信息
Go语言学习笔记【15】排序算法之堆排序、桶排序、基数排序 LC520730 排序算法 go语言学习之路排序算法学习算法 golang 数据结构
【声明】非完全原创，部分内容来自于学习其他人的理论。如果有侵权，请联系我，可以立即删除掉。一、堆排序1、方法和复杂度1.1、核心思想利用堆这种数据结构所设计的一种排序算法。堆是一个近似完全二叉树的结构，并同时满足堆积的性质：即子结点的键值或索引总是小于（或者大于）它的父节点根据这个特点，先将待排序的序列构造成一个小顶堆，则堆顶就是序列中最小的元素取出堆顶元素，用最后一个元素填充堆顶，然后重新构建小
算法-比较排序 Yvonne爱编码算法算法数据结构
本系列可作为算法学习系列的笔记，小编会将代码记录下来，大家复制下来就可以练习了，方便大家学习。小编作为新晋码农一枚，会定期整理一些写的比较好的代码，作为自己的学习笔记，会试着做一下批注和补充，如转载或者参考他人文献会标明出处，非商用，如有侵权会删改！欢迎大家斧正和讨论！系列文章目录计算矩阵的鞍点个数算法-比较排序为什么比较排序算法的时间复杂度下界是Ω(nlogn)？算法笔记之堆排序算法笔记之归并排
【C++进阶】揭秘list迭代器：从底层实现到极致优化 TravisBytes 编程问题档案 c++list 开发语言
目录一、迭代器：list的灵魂纽带二、list迭代器的底层实现1.节点结构设计2.迭代器核心实现三、关键优化技术1.内联函数优化2.循环展开优化3.尾节点缓存优化四、迭代器失效的雷区五、性能对比实验六、C++17新特性加持1.结构化绑定遍历2.并行算法支持七、最佳实践指南总结与思考一、迭代器：list的灵魂纽带list作为双向链表容器，其迭代器必须满足双向迭代器要求，具备以下核心能力：前向/后向移
机器学习—交叉验证 hwang_zhic
1、经验误差与过拟合通常我们把分类错误的样本数占样本总数的比例称为"错误率”，学习器在训练集上的误差称为“经验误差”或“训练误差”，在新样本上的误差称为“泛化误差”。我们需要的是泛化误差低的学习器，但是我们只能习得一个经验误差很小、在训练集上表现很好的学习器。然而，如果学习器把训练样本的自身的一些特点当做了所有潜在样本都具有的一般性质，会导致泛化性能下降，这称为“过拟合”，相对的“欠拟合”是指对样
PyTorch深度学习工具箱整理总结前网易架构师-高司机深度学习+AI pytorch
一、pytorch简介Pytorch是torch的python版本，是由Facebook开源的神经网络框架，专门针对GPU加速的深度神经网络（DNN）编程。Torch是一个经典的对多维矩阵数据进行操作的张量（tensor）库，在机器学习和其他数学密集型应用有广泛应用。与Tensorflow的静态计算图不同，pytorch的计算图是动态的，可以根据计算需要实时改变计算图。但由于Torch语言采用Lu
网络分层模型和TCP/IP协议族 —— 以太网 zhangjingbibibi
网络分层模型和TCP/IP协议——以太网以太网其实讲的就是：怎么传IP协议讲的就是：解决往哪里传的问题UDP和TCP：解决可靠性的问题怎么传输的？最初是通过同轴电缆。image.png然后发现了一种算法来解决这个问题。CSMA/CD也就是载波监听多路访问/冲突检测我用大白话来讲解一下，大概就是这样的：一条同轴电缆上，串联着许多台计算机，如果说computerA想发送数据（data），那么它会这样做
计算机毕业设计——springboot的准妈妈孕期交流平台
**欢迎来到琛哥的技术世界！**博主小档案：琛哥，一名来自世界500强的资深程序猿，毕业于国内知名985高校。技术专长：琛哥在深度学习任务中展现出卓越的能力，包括但不限于java、python等技术。近年来，琛哥更是将触角延伸至AI领域，对于机器学习、自然语言处理、智能推荐等前沿技术都有独到的见解和实践经验。博客亮点：琛哥坚信“授人以渔胜于授人以鱼”，因此我的博客中，你不仅可以找到关于技术的深入解
从感知到决策：虚拟仿真系统与视觉算法融合下的多路RTSP视频接入技术探究
1️⃣背景概述随着国防信息化和智能化进程的不断加快，虚拟仿真系统与智能视觉算法平台正逐步成为现代化装备研发、测试验证与战术训练的重要技术支撑。相比传统的静态建模或离线推演，新一代作战仿真与智能系统更强调实时性、感知能力与动态交互，这对前端传感器接入、视频数据处理与系统集成提出了更高的要求。核心应用领域涵盖：装备级虚拟作战环境仿真构建高仿真的虚拟战场环境，接入真实或仿真的传感器数据，提升推演与训练的
R 和 Hadoop 大数据分析（一）
原文：annas-archive.org/md5/b7f3a14803c1b4d929732471e0b28932译者：飞龙协议：CCBY-NC-SA4.0前言企业每天获取的数据量呈指数增长。现在可以将这些海量信息存储在像Hadoop这样的低成本平台上。这些组织目前面临的难题是如何处理这些数据，以及如何从中提取关键见解。因此，R就成为了关键工具。R是一个非常强大的工具，它使得在数据上运行高级统计模
信而泰×DeepSeek：AI推理引擎驱动网络智能诊断迈向 “自愈”时代
DeepSeek-R1：强大的AI推理引擎底座DeepSeek是由杭州深度求索人工智能基础技术研究有限公司开发的新一代AI大模型。其核心优势在于强大的推理引擎能力，融合了自然语言处理（NLP）、深度学习、大规模数据分析等前沿技术。DeepSeek-R1具备卓越的逻辑推理、多模态分析（文本/图像/语音）和实时交互能力，能够高效处理代码生成、复杂问题求解、跨模态学习等高阶任务。凭借其开源、高效、多模态
AI深度噪音抑制技术
这两年人工智能快速发展，AI已经渗透到了各行各业。在噪音抑制技术领域，AI也同样发挥了巨大的作用。AI深度噪音抑制技术是一种利用人工智能和深度学习算法来动态处理和减少音频信号中的噪声，从而提升音频的清晰度和质量。与传统的噪音抑制技术相比，AI深度噪音抑制能够更智能、更精准地分辨出背景噪音与有用的语音或音乐信号，尤其在复杂、多样的环境下表现尤为出色。1.工作原理AI深度噪音抑制技术基于深度神经网络（
Python 大数据分析（二）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/5058e6970bd2a8d818ecc1f7f8fef74a译者：飞龙协议：CCBY-NC-SA4.0第六章：第五章处理缺失值和相关性分析学习目标到本章结束时，你将能够：使用PySpark检测和处理数据中的缺失值描述变量之间的相关性计算PySpark中两个或多个变量之间的相关性使用PySpark创建相关矩阵在本章中，我们将使用Iris数据集处理
Python机器学习：从零基础到项目实战 Yuner2000 Python 机器学习人工智能
目录第一部分：思想与基石——万法归宗，筑基问道第1章：初探智慧之境——机器学习世界观1.1何为学习？从人类学习到机器智能1.2机器学习的“前世今生”：一部思想与技术的演进史1.3为何是Python？——数据科学的“通用语”1.4破除迷思：AI是“神”还是“器”？第2章：工欲善其事——Python环境与核心工具链2.1“乾坤在握”：Anaconda与JupyterNotebook的安装与配置2.2“
快速排序Java代码简洁实现 SKY技术修炼指南算法
学习过数据结构的同学们都知道，快速排序算法是一种时间复杂度为O(nlogn)的排序算法，在各种排序算法中算是较为高效的方法，企业面试中也经常有手撕快排的环节。本文将阐述算法的基本思想，并用Java代码的形式实现快速排序代码。算法思想快速排序主要采用分治的基本思想，每次将一个位置上的数据归位，此时该数左边的所有数据都比该数小，右边所有的数据都比该数大，然后递归将已归位的数据左右两边再次进行快排，从而
ztree异步加载 3213213333332132 JavaScript Ajax json Web ztree
相信新手用ztree的时候,对异步加载会有些困惑，我开始的时候也是看了API花了些时间才搞定了异步加载，在这里分享给大家。我后台代码生成的是json格式的数据，数据大家按各自的需求生成，这里只给出前端的代码。设置setting，这里只关注async属性的配置 var setting = { //异步加载配置
thirft rpc 具体调用流程 BlueSkator 中间件 rpc thrift
Thrift调用过程中，Thrift客户端和服务器之间主要用到传输层类、协议层类和处理类三个主要的核心类，这三个类的相互协作共同完成rpc的整个调用过程。在调用过程中将按照以下顺序进行协同工作：（1）将客户端程序调用的函数名和参数传递给协议层（TProtocol），协议
异或运算推导, 交换数据 dcj3sjt126com PHP 异或 ^
/* * 5 0101 * 9 1010 * * 5 ^ 5 * 0101 * 0101 * ----- * 0000 * 得出第一个规律: 相同的数进行异或, 结果是0 * * 9 ^ 5 ^ 6 * 1010 * 0101 * ---- * 1111 * * 1111 * 0110 * ---- * 1001
事件源对象周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
MySql配置及相关命令 g21121 mysql
MySQL安装完毕后我们需要对它进行一些设置及性能优化，主要包括字符集设置，启动设置，连接优化，表优化，分区优化等等。一修改MySQL密码及用户
[简单]poi删除excel 2007超链接 53873039oycg Excel
采用解析sheet.xml方式删除超链接，缺点是要打开文件2次,代码如下: public void removeExcel2007AllHyperLink(String filePath) throws Exception { OPCPackage ocPkg = OPCPac
Struts2添加 open flash chart 云端月影
准备以下开源项目： 1. Struts 2.1.6 2. Open Flash Chart 2 Version 2 Lug Wyrm Charmer (28th, July 2009) 3. jofc2，这东西不知道是没做好还是什么意思，好像和ofc2不怎么匹配，最好下源码，有什么问题直接改。 4. log4j 用eclipse新建动态网站，取名OFC2Demo，将Struts2 l
spring包详解 aijuans spring
下载的spring包中文件及各种包众多，在项目中往往只有部分是我们必须的，如果不清楚什么时候需要什么包的话，看看下面就知道了。 aspectj目录下是在Spring框架下使用aspectj的源代码和测试程序文件。Aspectj是java最早的提供AOP的应用框架。 dist 目录下是Spring 的发布包，关于发布包下面会详细进行说明。 docs&nb
网站推广之seo概念 antonyup_2006 算法 Web 应用服务器搜索引擎 Google
持续开发一年多的b2c网站终于在08年10月23日上线了。作为开发人员的我在修改bug的同时，准备了解下网站的推广分析策略。所谓网站推广，目的在于让尽可能多的潜在用户了解并访问网站，通过网站获得有关产品和服务等信息，为最终形成购买决策提供支持。网站推广策略有很多，seo，email，adv
单例模式,sql注入,序列百合不是茶单例模式序列 sql注入预编译
序列在前面写过有关的博客,也有过总结,但是今天在做一个JDBC操作数据库的相关内容时需要使用序列创建一个自增长的字段居然不会了,所以将序列写在本篇的前面 1,序列是一个保存数据连续的增长的一种方式; 序列的创建; CREATE SEQUENCE seq_pro 2 INCREMENT BY 1 -- 每次加几个 3
Mockito单元测试实例 bijian1013 单元测试 mockito
Mockito单元测试实例： public class SettingServiceTest { private List<PersonDTO> personList = new ArrayList<PersonDTO>(); @InjectMocks private SettingPojoService settin
精通Oracle10编程SQL(9)使用游标 bijian1013 oracle 数据库 plsql
/* *使用游标 */ --显示游标 --在显式游标中使用FETCH...INTO语句 DECLARE CURSOR emp_cursor is select ename,sal from emp where deptno=1; v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; begin ope
【Java语言】动态代理 bit1129 java语言
JDK接口动态代理 JDK自带的动态代理通过动态的根据接口生成字节码(实现接口的一个具体类)的方式，为接口的实现类提供代理。被代理的对象和代理对象通过InvocationHandler建立关联 package com.tom; import com.tom.model.User; import com.tom.service.IUserService;
Java通信之URL通信基础白糖_ java jdk webservice 网络协议 ITeye
java对网络通信以及提供了比较全面的jdk支持，java.net包能让程序员直接在程序中实现网络通信。在技术日新月异的现在，我们能通过很多方式实现数据通信，比如webservice、url通信、socket通信等等，今天简单介绍下URL通信。学习准备：建议首先学习java的IO基础知识 URL是统一资源定位器的简写，URL可以访问Internet和www，可以通过url
博弈Java讲义 - Java线程同步 (1) boyitech java 多线程同步锁
在并发编程中经常会碰到多个执行线程共享资源的问题。例如多个线程同时读写文件，共用数据库连接，全局的计数器等。如果不处理好多线程之间的同步问题很容易引起状态不一致或者其他的错误。同步不仅可以阻止一个线程看到对象处于不一致的状态，它还可以保证进入同步方法或者块的每个线程，都看到由同一锁保护的之前所有的修改结果。处理同步的关键就是要正确的识别临界条件（cri
java-给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 bylijinnan java
public class DeleteExtraSpace { /** * 题目：给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 * 方法1.用已有的String类的trim和replaceAll方法 * 方法2.全部用正则表达式，这个我不熟 * 方法3.“重新发明轮子”，从头遍历一次 */ public static v
An error has occurred.See the log file错误解决！ Kai_Ge MyEclipse
今天早上打开MyEclipse时，自动关闭！弹出An error has occurred.See the log file错误提示！很郁闷昨天启动和关闭还好着！！！打开几次依然报此错误，确定不是眼花了！打开日志文件！找到当日错误文件内容： --------------------------------------------------------------------------
[矿业与工业]修建一个空间矿床开采站要多少钱? comsci
地球上的钛金属矿藏已经接近枯竭........... 我们在冥王星的一颗卫星上面发现一些具有开采价值的矿床..... 那么,现在要编制一个预算,提交给财政部门..
解析Google Map Routes dai_lm google api
为了获得从A点到B点的路劲，经常会使用Google提供的API，例如 [url] http://maps.googleapis.com/maps/api/directions/json?origin=40.7144,-74.0060&destination=47.6063,-122.3204&sensor=false [/url] 从返回的结果上，大致可以了解应该怎么走，但
SQL还有多少“理所应当”？ datamachine sql
转贴存档，原帖地址：http://blog.chinaunix.net/uid-29242841-id-3968998.html、http://blog.chinaunix.net/uid-29242841-id-3971046.html！ ------------------------------------华丽的分割线--------------------------------
Yii使用Ajax验证时，如何设置某些字段不需要验证 dcj3sjt126com Ajax yii
经常像你注册页面,你可能非常希望只需要Ajax去验证用户名和Email,而不需要使用Ajax再去验证密码,默认如果你使用Yii 内置的ajax验证Form,例如: $form=$this->beginWidget('CActiveForm', array( 'id'=>'usuario-form',&
使用git同步网站代码 dcj3sjt126com crontab git
转自:http://ued.ctrip.com/blog/?p=3646?tn=gongxinjun.com 管理一网站，最开始使用的虚拟空间，采用提供商支持的ftp上传网站文件，后换用vps，vps可以自己搭建ftp的，但是懒得搞，直接使用scp传输文件到服务器，现在需要更新文件到服务器，使用scp真的很烦。发现本人就职的公司，采用的git+rsync的方式来管理、同步代码，遂
sql基本操作蕃薯耀 sql sql基本操作 sql常用操作
sql基本操作 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:30:33 星期一 &
Spring4+Hibernate4+Atomikos3.3多数据源事务管理 hanqunfeng Hibernate4
Spring3+后不再对JTOM提供支持，所以可以改用Atomikos管理多数据源事务。Spring2.5+Hibernate3+JTOM参考：http://hanqunfeng.iteye.com/blog/1554251Atomikos官网网站：http://www.atomikos.com/ 一.pom.xml <dependency> <
jquery中两个值得注意的方法one()和trigger()方法 jackyrong trigger
在jquery中，有两个值得注意但容易忽视的方法，分别是one()方法和trigger()方法,这是从国内作者<<jquery权威指南》一书中看到不错的介绍 1） one方法 one方法的功能是让所选定的元素绑定一个仅触发一次的处理函数，格式为 one(type,${data},fn) &nb
拿工资不仅仅是让你写代码的 lampcy 工作面试咨询
这是我对团队每个新进员工说的第一件事情。这句话的意思是，我并不关心你是如何快速完成任务的，哪怕代码很差，只要它像救生艇通气门一样管用就行。这句话也是我最喜欢的座右铭之一。这个说法其实很合理：我们的工作是思考客户提出的问题，然后制定解决方案。思考第一，代码第二，公司请我们的最终目的不是写代码，而是想出解决方案。话粗理不粗。付你薪水不是让你来思考的，也不是让你来写代码的，你的目的是交付产品
架构师之对象操作----------对象的效率复制和判断是否全为空 nannan408 架构师
1.前言。如题。 2.代码。 (1)对象的复制，比spring的beanCopier在大并发下效率要高，利用net.sf.cglib.beans.BeanCopier Src src=new Src(); BeanCopier beanCopier = BeanCopier.create(Src.class, Des.class, false);
ajax 被缓存的解决方案 Rainbow702 JavaScript jquery Ajax cache 缓存
使用jquery的ajax来发送请求进行局部刷新画面，各位可能都做过。今天碰到一个奇怪的现象，就是，同一个ajax请求，在chrome中，不论发送多少次，都可以发送至服务器端，而不会被缓存。但是，换成在IE下的时候，发现，同一个ajax请求，会发生被缓存的情况，只有第一次才会被发送至服务器端，之后的不会再被发送。郁闷。解决方法如下： ① 直接使用 JQuery提供的 “cache”参数，
修改date.toLocaleString()的警告 tntxia String
我们在写程序的时候，经常要查看时间，所以我们经常会用到date.toLocaleString()，但是date.toLocaleString()是一个过时的API，代替的方法如下： package com.tntxia.htmlmaker.util; import java.text.SimpleDateFormat; import java.util.
项目完成后的小总结 xiaomiya js 总结项目
项目完成了，突然想做个总结但是有点无从下手了。做之前对于客户端给的接口很模式。然而定义好了格式要求就如此的愉快了。先说说项目主要实现的功能吧 1，按键精灵 2，获取行情数据 3，各种input输入条件判断 4，发送数据（有json格式和string格式） 5，获取预警条件列表和预警结果列表， 6，排序， 7，预警结果分页获取 8，导出文件（excel，text等） 9，修