七个邹鸭梨

matlab 集成学习,集成学习

假设你去随机问很多人一个很复杂的问题，然后把它们的答案合并起来。通常情况下你会发现这个合并的答案比一个专家的答案要好。这就叫做群体智慧。同样的，如果你合并了一组分类器的预测(像分类或者回归)，你也会得到一个比单一分类器更好的预测结果。这一组分类器就叫做集成；因此，这个技术就叫做集成学习，一个集成学习算法就叫做集成方法。

例如，你可以训练一组决策树分类器，每一个都在一个随机的训练集上。为了去做预测，你必须得到所有单一树的预测值，然后通过投票(例如第六章的练习)来预测类别。例如一种决策树的集成就叫做随机森林，它除了简单之外也是现今存在的最强大的机器学习算法之一。

向我们在第二章讨论的一样，我们会在一个项目快结束的时候使用集成算法，一旦你建立了一些好的分类器，就把他们合并为一个更好的分类器。事实上，在机器学习竞赛中获得胜利的算法经常会包含一些集成方法。

在本章中我们会讨论一下特别著名的集成方法，包括bagging,boosting,stacking，和其他一些算法。我们也会讨论随机森林。

1 投票分类

假设你已经训练了一些分类器，每一个都有 80% 的准确率。你可能有了一个逻辑斯蒂回归、或一个 SVM、或一个随机森林，或者一个 KNN，或许还有更多(详见图 7-1)

一个非常简单去创建一个更好的分类器的方法就是去整合每一个分类器的预测然后经过投票去预测分类。这种分类器就叫做硬投票分类器(详见图 7-2)。

令人惊奇的是这种投票分类器得出的结果经常会比集成中最好的一个分类器结果更好。事实上，即使每一个分类器都是一个弱学习器(意味着它们也就比瞎猜好点)，集成后仍然是一个强学习器(高准确率)，只要有足够数量的弱学习者，他们就足够多样化。

这怎么可能？接下来的分析将帮助你解决这个疑问。假设你有一个有偏差的硬币，他有 51% 的几率为正面，49% 的几率为背面。如果你实验 1000 次，你会得到差不多 510 次正面，490 次背面，因此大多数都是正面。如果你用数学计算，你会发现在实验 1000 次后，正面概率为 51% 的人比例为 75%。你实验的次数越多，正面的比例越大(例如你试验了 10000 次，总体比例可能性就会达到 97%)。这是因为大数定律：当你一直用硬币实验时，正面的比例会越来越接近 51%。图 7-3 展示了始终有偏差的硬币实验。你可以看到当实验次数上升时，正面的概率接近于 51%。最终所有 10 种实验都会收敛到 51%，它们都大于 50%。

heads_proba = 0.51coin_tosses = (np.random.rand(10000, 10) < heads_proba).astype(np.int32)cumulative_heads_ratio = np.cumsum(coin_tosses, axis=0) / np.arange(1, 10001).reshape(-1, 1)# law_of_large_numbers_plotplt.figure(figsize=(8,3.5))plt.plot(cumulative_heads_ratio)plt.plot([0, 10000], [0.51, 0.51],"k--", linewidth=2, label="51%")plt.plot([0, 10000], [0.5, 0.5],"k-", label="50%")plt.xlabel("Number of coin tosses")plt.ylabel("Heads ratio")plt.legend(loc="lower right")plt.axis([0, 10000, 0.42, 0.58])plt.show()

同样的，假设你创建了一个包含 1000 个分类器的集成模型，

其中每个分类器的正确率只有 51%(仅比瞎猜好一点点)。如果你用投票去预测类别，你可能得到 75% 的准确率！

然而，这仅仅在所有的分类器都独立运行的很好、不会发生有相关性的错误的情况下才会这样，然而每一个分类器都在同一个数据集上训练，导致其很可能会发生这样的错误。

他们可能会犯同一种错误，所以也会有很多票投给了错误类别导致集成的准确率下降。

如果使每一个分类器都独立自主的分类，那么集成模型会工作的很好。去得到多样的分类器的方法之一就是用完全不同的算法，这会使它们会做出不同种类的错误，这会提高集成的正确率

接下来的代码创建和训练了在sklearn中的投票分类器。这个分类器由三个不同的分类器组成：

fromsklearn.model_selectionimporttrain_test_splitfromsklearn.datasetsimportmake_moonsX, y = make_moons(n_samples=500, noise=0.30, random_state=42)X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

fromsklearn.ensembleimportRandomForestClassifierfromsklearn.ensembleimportVotingClassifierfromsklearn.linear_modelimportLogisticRegressionfromsklearn.svmimportSVClog_clf = LogisticRegression(random_state=42)rnd_clf = RandomForestClassifier(random_state=42)svm_clf = SVC(random_state=42)voting_clf = VotingClassifier( estimators=[('lr', log_clf), ('rf', rnd_clf), ('svc', svm_clf)], voting='hard')

让我们看一下在测试集上的准确率：

fromsklearn.metricsimportaccuracy_scoreforclfin(log_clf, rnd_clf, svm_clf, voting_clf): clf.fit(X_train, y_train) y_pred = clf.predict(X_test) print(clf.__class__.__name__, accuracy_score(y_test, y_pred))LogisticRegression0.864RandomForestClassifier0.872SVC0.888VotingClassifier0.896

你看！投票分类器比其他单独的分类器表现的都要好。

# 软投票log_clf = LogisticRegression(random_state=42)rnd_clf = RandomForestClassifier(random_state=42)svm_clf = SVC(probability=True, random_state=42)voting_clf = VotingClassifier( estimators=[('lr', log_clf), ('rf', rnd_clf), ('svc', svm_clf)], voting='soft')voting_clf.fit(X_train, y_train)VotingClassifier(estimators=[('lr', LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True, intercept_scaling=1, max_iter=100, multi_class='ovr', n_jobs=1, penalty='l2', random_state=42, solver='liblinear', tol=0.0001, verbose=0, warm_start=False)), ('rf', RandomFor...bf',

max_iter=-1, probability=True, random_state=42, shrinking=True,

tol=0.001, verbose=False))],

flatten_transform=None, n_jobs=1, voting='soft', weights=None)

如果所有的分类器都能够预测类别的概率(例如他们有一个predict_proba()方法)，那么你就可以让sklearn以最高的类概率来预测这个类，平均在所有的分类器上。这种方式叫做软投票。

他经常比硬投票表现的更好，因为它给予高自信的投票更大的权重。你可以通过把voting="hard"设置为voting="soft"来保证分类器可以预测类别概率。然而这不是 SVC 类的分类器默认的选项，所以你需要把它的probability hyperparameter设置为True(这会使SVC使用交叉验证去预测类别概率，其降低了训练速度，但会添加predict_proba()方法)。如果你修改了之前的代码去使用软投票，你会发现投票分类器正确率高达91%

2 Bagging 和 Pasting

换句话说，Bagging和Pasting都允许在多个分类器间对训练集进行多次采样。

Bagging可以通过使用不同的训练算法去得到一些不同的分类器。

Pasting就是对每一个分类器都使用相同的训练算法，但是在不同的训练集上去训练它们。

有放回采样被称为装袋(Bagging，是bootstrap aggregating的缩写)。

无放回采样称为粘贴(pasting)。

换句话说，Bagging和Pasting都允许在多个分类器上对训练集进行多次采样，但只有Bagging允许对同一种分类器上对训练集进行进行多次采样。采样和训练过程如图7-4所示。

当所有的分类器被训练后，集成可以通过对所有分类器结果的简单聚合来对新的实例进行预测。聚合函数通常对分类是*统计模式*(例如硬投票分类器)或者对回归是平均。每一个单独的分类器在如果在原始训练集上都是高偏差，但是聚合降低了偏差和方差。通常情况下，集成的结果是有一个相似的偏差，但是对比与在原始训练集上的单一分类器来讲有更小的方差。

正如你在图 7-4 上所看到的，分类器可以通过不同的CPU 核或其他的服务器一起被训练。相似的，分类器也可以一起被制作。这就是为什么 Bagging 和 Pasting 是如此流行的原因之一：它们的可扩展性很好。

2.1 在 sklearn 中的 Bagging 和 Pasting

sklearn为Bagging和Pasting提供了一个简单的API：BaggingClassifier类(或者对于回归可以是BaggingRegressor。接下来的代码训练了一个500个决策树分类器的集成，每一个都是在数据集上有放回采样100个训练实例下进行训练(这是Bagging的例子，如果你想尝试Pasting，就设置bootstrap=False)。n_jobs参数告诉sklearn用于训练和预测所需要CPU核的数量。(-1代表着sklearn会使用所有空闲核)：

fromsklearn.ensembleimportBaggingClassifierfromsklearn.treeimportDecisionTreeClassifierfromsklearn.metricsimportaccuracy_scorebag_clf = BaggingClassifier( DecisionTreeClassifier(random_state=42), n_estimators=500, max_samples=100, bootstrap=True, n_jobs=-1, random_state=42)bag_clf.fit(X_train, y_train)y_pred = bag_clf.predict(X_test)print(accuracy_score(y_test, y_pred))tree_clf = DecisionTreeClassifier(random_state=42)tree_clf.fit(X_train, y_train)y_pred_tree = tree_clf.predict(X_test)print(accuracy_score(y_test, y_pred_tree))0.9040.856

如果基分类器可以预测类别概率(例如它拥有predict_proba()方法)，那么BaggingClassifier会自动的运行软投票，这是决策树分类器的情况。

图 7-5 对比了单一决策树的决策边界和Bagging集成500个树的决策边界，两者都在moons数据集上训练。正如你所看到的，集成的分类比起单一决策树的分类产生情况更好：集成有一个可比较的偏差但是有一个较小的方差(它在训练集上的错误数目大致相同，但决策边界较不规则)。

Bootstrap在每个预测器被训练的子集中引入了更多的分集，所以Bagging结束时的偏差比Pasting更高，但这也意味着预测因子最终变得不相关，从而减少了集合的方差。总体而言，Bagging通常会导致更好的模型，这就解释了为什么它通常是首选的。然而，如果你有空闲时间和CPU功率，可以使用交叉验证来评估Bagging和Pasting哪一个更好。

2.2 Out-of-Bag 评价

对于Bagging来说，一些实例可能被一些分类器重复采样，但其他的有可能不会被采样。BaggingClassifier默认采样。BaggingClassifier默认是有放回的采样m个实例 (bootstrap=True)，其中m是训练集的大小，这意味着平均下来只有63%的训练实例被每个分类器采样，剩下的37%个没有被采样的训练实例就叫做Out-of-Bag实例。注意对于每一个的分类器它们的37%不是相同的。

因为在训练中分类器从来没有看到过oob实例，所以它可以在这些实例上进行评估，而不需要单独的验证集或交叉验证。你可以拿出每一个分类器的oob来评估集成本身。

在sklearn中，你可以在训练后需要创建一个BaggingClassifier来自动评估时设置oob_score=True来自动评估。接下来的代码展示了这个操作。评估结果通过变量oob_score_来显示：

bag_clf = BaggingClassifier( DecisionTreeClassifier(random_state=42), n_estimators=500, bootstrap=True, n_jobs=-1, oob_score=True, random_state=40)bag_clf.fit(X_train, y_train)bag_clf.oob_score_0.90133333333333332

根据这个obb评估，BaggingClassifier可以再测试集上达到93.1%的准确率，让我们修改一下：

fromsklearn.metricsimportaccuracy_scorey_pred = bag_clf.predict(X_test)accuracy_score(y_test, y_pred)0.91200000000000003

我们在测试集上得到了91.2%的准确率，足够接近了！

对于每个训练实例oob决策函数也可通过oob_decision_function_变量来展示。在这种情况下(当基决策器有predict_proba()时)决策函数会对每个训练实例返回类别概率。例如，oob评估预测第二个训练实例有60.6%的概率属于正类(39.4%属于负类)：

bag_clf.oob_decision_function_array([[0.31746032, 0.68253968],[0.34117647, 0.65882353],[1. , 0. ],[0. , 1. ],[0. , 1. ],[0.08379888, 0.91620112],[0.31693989, 0.68306011],[0.02923977, 0.97076023],[0.97687861, 0.02312139],[0.97765363, 0.02234637],

3 随机贴片与随机子空间

BaggingClassifier也支持采样特征。它被两个超参数max_features和bootstrap_features控制。他们的工作方式和max_samples和bootstrap一样，但这是对于特征采样而不是实例采样。因此，每一个分类器都会被在随机的输入特征内进行训练。

当你在处理高维度输入下(例如图片)此方法尤其有效。对训练实例和特征的采样被叫做随机贴片。保留了所有的训练实例(例如bootstrap=False和max_samples=1.0)，但是对特征采样(bootstrap_features=True并且/或者max_features小于 1.0)叫做随机子空间。

采样特征导致更多的预测多样性，用高偏差换低方差。

4 随机森林

正如我们所讨论的，随机森林是决策树的一种集成，通常是通过bagging方法(有时是pasting方法)进行训练，通常用max_samples设置为训练集的大小。与建立一个BaggingClassifier然后把它放入DecisionTreeClassifier相反，你可以使用更方便的也是对决策树优化够的RandomForestClassifier(对于回归是RandomForestRegressor)。接下来的代码训练了带有500个树(每个被限制为16叶子结点)的决策森林，使用所有空闲的 CPU 核：

fromsklearn.ensembleimportRandomForestClassifierrnd_clf = RandomForestClassifier(n_estimators=500, max_leaf_nodes=16, n_jobs=-1, random_state=42)rnd_clf.fit(X_train, y_train)y_pred_rf = rnd_clf.predict(X_test)

除了一些例外，RandomForestClassifier使用DecisionTreeClassifier的所有超参数(决定数怎么生长)，把BaggingClassifier的超参数加起来来控制集成本身。

随机森林算法在树生长时引入了额外的随机；与在节点分裂时需要找到最好分裂特征相反(详见第六章)，它在一个随机的特征集中找最好的特征。它导致了树的差异性，并且再一次用高偏差换低方差，总的来说是一个更好的模型。以下是BaggingClassifier大致相当于之前的randomforestclassifier：

bag_clf = BaggingClassifier( DecisionTreeClassifier(splitter="random", max_leaf_nodes=16, random_state=42), n_estimators=500, max_samples=1.0, bootstrap=True, n_jobs=-1, random_state=42)bag_clf.fit(X_train, y_train)y_pred = bag_clf.predict(X_test)

np.sum(y_pred == y_pred_rf) / len(y_pred)# almost identical predictions0.976

4.1 极端随机树

当你在随机森林上生长树时，在每个结点分裂时只考虑随机特征集上的特征(正如之前讨论过的一样)。相比于找到更好的特征我们可以通过使用对特征使用随机阈值使树更加随机(像规则决策树一样)。

这种极端随机的树被简称为Extremely Randomized Trees(极端随机树)，或者更简单的称为Extra-Tree。再一次用高偏差换低方差。它还使得Extra-Tree比规则的随机森林更快地训练，因为在每个节点上找到每个特征的最佳阈值是生长树最耗时的任务之一。

你可以使用sklearn的ExtraTreesClassifier来创建一个Extra-Tree分类器。他的API跟RandomForestClassifier是相同的，相似的，ExtraTreesRegressor跟RandomForestRegressor也是相同的 API。

我们很难去分辨ExtraTreesClassifier和RandomForestClassifier到底哪个更好。通常情况下是通过交叉验证来比较它们(使用网格搜索调整超参数)。

4.2 特征重要度

最后，如果你观察一个单一决策树，重要的特征会出现在更靠近根部的位置，而不重要的特征会经常出现在靠近叶子的位置。因此我们可以通过计算一个特征在森林的全部树中出现的平均深度来预测特征的重要性。sklearn 在训练后会自动计算每个特征的重要度。你可以通过feature_importances_变量来查看结果。例如如下代码在 iris 数据集(第四章介绍)上训练了一个RandomForestClassifier模型，然后输出了每个特征的重要性。看来，最重要的特征是花瓣长度(44%)和宽度(42%)，而萼片长度和宽度相对比较是不重要的(分别为 11% 和 2%)：

fromsklearn.datasetsimportload_irisiris = load_iris()rnd_clf = RandomForestClassifier(n_estimators=500, n_jobs=-1, random_state=42)rnd_clf.fit(iris["data"], iris["target"])forname, scoreinzip(iris["feature_names"], rnd_clf.feature_importances_): print(name, score)sepal length (cm)0.112492250999sepal width (cm)0.0231192882825petal length (cm)0.441030464364petal width (cm)0.423357996355

rnd_clf.feature_importances_array([0.11249225, 0.02311929, 0.44103046, 0.423358 ])

相似的，如果你在 MNIST 数据及上训练随机森林分类器(在第三章上介绍)，然后画出每个像素的重要性，你可以得到图 7-6 的图片。

from scipy.io import loadmatmnist = loadmat('./datasets/mnist-original.mat')mnist{'__globals__': [],'__header__':b'MATLAB 5.0 MAT-file Platform: posix, Created on: Sun Mar 30 03:19:02 2014','__version__':'1.0','data':array([[0,0,0, ...,0,0,0], [0,0,0, ...,0,0,0], [0,0,0, ...,0,0,0], ..., [0,0,0, ...,0,0,0], [0,0,0, ...,0,0,0], [0,0,0, ...,0,0,0]], dtype=uint8),'label':array([[0.,0.,0., ...,9.,9.,9.]]),'mldata_descr_ordering':array([[array(['label'], dtype='

X,y = mnist['data'].T,mnist['label'].TX.shape(70000, 784)y.shape(70000, 1)

rnd_clf = RandomForestClassifier(random_state=42)rnd_clf.fit(X, y)RandomForestClassifier(bootstrap=True, class_weight=None, criterion='gini', max_depth=None, max_features='auto', max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, min_samples_leaf=1, min_samples_split=2, min_weight_fraction_leaf=0.0, n_estimators=10, n_jobs=1, oob_score=False, random_state=42, verbose=0, warm_start=False)

# mnist_feature_importance_plotdefplot_digit(data):image = data.reshape(28,28) plt.imshow(image, cmap = matplotlib.cm.hot, interpolation="nearest") plt.axis("off") plot_digit(rnd_clf.feature_importances_)cbar = plt.colorbar(ticks=[rnd_clf.feature_importances_.min(), rnd_clf.feature_importances_.max()])cbar.ax.set_yticklabels(['Not important','Very important'])plt.show()

随机森林可以非常方便快速得了解哪些特征实际上是重要的，特别是你需要进行特征选择的时候。

5 提升

提升(Boosting，最初称为假设增强)指的是可以将几个弱学习者组合成强学习者的集成方法。对于大多数的提升方法的思想就是按顺序去训练分类器，每一个都要尝试修正前面的分类。现如今已经有很多的提升方法了，但最著名的就是Adaboost(适应性提升，是Adaptive Boosting的简称) 和Gradient Boosting(梯度提升)。让我们先从Adaboost说起。

5.1 Adaboost

使一个新的分类器去修正之前分类结果的方法就是对之前分类结果不对的训练实例多加关注。这导致新的预测因子越来越多地聚焦于这种情况。这是Adaboost使用的技术。

举个例子，去构建一个Adaboost分类器，

第一个基分类器(例如一个决策树)被训练然后在训练集上做预测，在误分类训练实例上的权重就增加了;

第二个分类机使用更新过的权重然后再一次训练，权重更新，以此类推(详见图 7-7)

图 7-8 显示连续五次预测的moons数据集的决策边界(在本例中，每一个分类器都是高度正则化带有RBF核的SVM)。

第一个分类器误分类了很多实例，所以它们的权重被提升了。

第二个分类器因此对这些误分类的实例分类效果更好，以此类推。

右边的图代表了除了学习率减半外(误分类实例权重每次迭代上升一半)相同的预测序列。

你可以看出，序列学习技术与梯度下降很相似，除了调整单个预测因子的参数以最小化代价函数之外，AdaBoost 增加了集合的预测器，逐渐使其更好。

一旦所有的分类器都被训练后，除了分类器根据整个训练集上的准确率被赋予的权重外，集成预测就非常像Bagging和Pasting了。

序列学习技术的一个重要的缺点就是：它不能被并行化(只能按步骤)，因为每个分类器只能在之前的分类器已经被训练和评价后再进行训练。因此，它不像Bagging和Pasting一样。

让我们详细看一下Adaboost算法。每一个实例的权重wi初始都被设为1/m第一个分类器被训练，然后他的权重误差率r1在训练集上算出，详见公式 7-1。

sklearn通常使用Adaboost的多分类版本SAMME(这就代表了分段加建模使用多类指数损失函数)。如果只有两类别，那么SAMME是与Adaboost相同的。如果分类器可以预测类别概率(例如如果它们有predict_proba())，如果sklearn可以使用SAMME叫做SAMME.R的变量(R 代表“REAL”)，这种依赖于类别概率的通常比依赖于分类器的更好。

接下来的代码训练了使用sklearn的AdaBoostClassifier基于200个决策树桩Adaboost分类器(正如你说期待的，对于回归也有AdaBoostRegressor)。一个决策树桩是max_depth=1的决策树-换句话说，是一个单一的决策节点加上两个叶子结点。这就是AdaBoostClassifier的默认基分类器：

fromsklearn.ensembleimportAdaBoostClassifierada_clf = AdaBoostClassifier( DecisionTreeClassifier(max_depth=1), n_estimators=200, algorithm="SAMME.R", learning_rate=0.5, random_state=42)ada_clf.fit(X_train, y_train)

如果你的Adaboost集成过拟合了训练集，你可以尝试减少基分类器的数量或者对基分类器使用更强的正则化。

5.2 梯度提升

另一个非常著名的提升算法是梯度提升。与Adaboost一样，梯度提升也是通过向集成中逐步增加分类器运行的，每一个分类器都修正之前的分类结果。然而，它并不像Adaboost那样每一次迭代都更改实例的权重，这个方法是去使用新的分类器去拟合前面分类器预测的残差。

让我们通过一个使用决策树当做基分类器的简单的回归例子(回归当然也可以使用梯度提升)。这被叫做梯度提升回归树(GBRT，Gradient Tree Boosting或者Gradient Boosted Regression Trees)。

首先我们用DecisionTreeRegressor去拟合训练集(例如一个有噪二次训练集)：

fromsklearn.treeimportDecisionTreeRegressor tree_reg1 = DecisionTreeRegressor(max_depth=2) tree_reg1.fit(X, y)

现在在第一个分类器的残差上训练第二个分类器：

y2 = y - tree_reg1.predict(X)

tree_reg2 = DecisionTreeRegressor(max_depth=2, random_state=42)

tree_reg2.fit(X, y2)

随后在第二个分类器的残差上训练第三个分类器：

y3 = y2 - tree_reg2.predict(X)

tree_reg3 = DecisionTreeRegressor(max_depth=2, random_state=42)

tree_reg3.fit(X, y3)

现在我们有了一个包含三个回归器的集成。它可以通过集成所有树的预测来在一个新的实例上进行预测。

X_new = np.array([[0.8]])y_pred = sum(tree.predict(X_new)fortreein(tree_reg1, tree_reg2, tree_reg3))y_pred

# gradient_boosting_plotdef plot_predictions(regressors, X, y, axes, label=None, style="r-", data_style="b.", data_label=None): x1 = np.linspace(axes[0], axes[1], 500) y_pred = sum(regressor.predict(x1.reshape(-1, 1))forregressorinregressors) plt.plot(X[:, 0], y, data_style, label=data_label) plt.plot(x1, y_pred, style, linewidth=2, label=label)iflabel or data_label: plt.legend(loc="upper center", fontsize=16) plt.axis(axes)plt.figure(figsize=(11,11))plt.subplot(321)plot_predictions([tree_reg1], X, y, axes=[-0.5, 0.5, -0.1, 0.8], label="$h_1(x_1)$", style="g-", data_label="Training set")plt.ylabel("$y$", fontsize=16, rotation=0)plt.title("Residuals and tree predictions", fontsize=16)plt.subplot(322)plot_predictions([tree_reg1], X, y, axes=[-0.5, 0.5, -0.1, 0.8], label="$h(x_1) = h_1(x_1)$", data_label="Training set")plt.ylabel("$y$", fontsize=16, rotation=0)plt.title("Ensemble predictions", fontsize=16)plt.subplot(323)plot_predictions([tree_reg2], X, y2, axes=[-0.5, 0.5, -0.5, 0.5], label="$h_2(x_1)$", style="g-", data_style="k+", data_label="Residuals")plt.ylabel("$y- h_1(x_1)$", fontsize=16)plt.subplot(324)plot_predictions([tree_reg1, tree_reg2], X, y, axes=[-0.5, 0.5, -0.1, 0.8], label="$h(x_1) = h_1(x_1) + h_2(x_1)$")plt.ylabel("$y$", fontsize=16, rotation=0)plt.subplot(325)plot_predictions([tree_reg3], X, y3, axes=[-0.5, 0.5, -0.5, 0.5], label="$h_3(x_1)$", style="g-", data_style="k+")plt.ylabel("$y- h_1(x_1) - h_2(x_1)$", fontsize=16)plt.xlabel("$x_1$", fontsize=16)plt.subplot(326)plot_predictions([tree_reg1, tree_reg2, tree_reg3], X, y, axes=[-0.5, 0.5, -0.1, 0.8], label="$h(x_1) = h_1(x_1) + h_2(x_1) + h_3(x_1)$")plt.xlabel("$x_1$", fontsize=16)plt.ylabel("$y$", fontsize=16, rotation=0)plt.show()

图7-9在左栏展示了这三个树的预测，在右栏展示了集成的预测。

在第一行，集成只有一个树，所以它与第一个树的预测相似。

在第二行，一个新的树在第一个树的残差上进行训练。在右边栏可以看出集成的预测等于前两个树预测的和。

相同的，在第三行另一个树在第二个数的残差上训练。你可以看到集成的预测会变的更好。

我们可以使用sklean中的GradientBoostingRegressor来训练GBRT集成。与RandomForestClassifier相似，它也有超参数去控制决策树的生长(例如max_depth，min_samples_leaf等等)，也有超参数去控制集成训练，例如基分类器的数量(n_estimators)。接下来的代码创建了与之前相同的集成：

fromsklearn.ensembleimportGradientBoostingRegressorgbrt = GradientBoostingRegressor(max_depth=2, n_estimators=3, learning_rate=1.0, random_state=42)gbrt.fit(X, y)gbrt_slow = GradientBoostingRegressor(max_depth=2, n_estimators=200, learning_rate=0.1, random_state=42)gbrt_slow.fit(X, y)

# gbrt_learning_rate_plotplt.figure(figsize=(11,4))plt.subplot(121)plot_predictions([gbrt], X, y, axes=[-0.5, 0.5, -0.1, 0.8], label="Ensemble predictions")plt.title("learning_rate={}, n_estimators={}".format(gbrt.learning_rate, gbrt.n_estimators), fontsize=14)plt.subplot(122)plot_predictions([gbrt_slow], X, y, axes=[-0.5, 0.5, -0.1, 0.8])plt.title("learning_rate={}, n_estimators={}".format(gbrt_slow.learning_rate, gbrt_slow.n_estimators), fontsize=14)plt.show()

超参数learning_rate确立了每个树的贡献。如果你把它设置为一个很小的树，例如0.1，在集成中就需要更多的树去拟合训练集，但预测通常会更好。这个正则化技术叫做shrinkage。

图 7-10 展示了两个在低学习率上训练的GBRT集成：其中左面是一个没有足够树去拟合训练集的树，右面是有过多的树过拟合训练集的树。

早停技术

为了找到树的最优数量，你可以使用早停技术(第四章讨论)。

最简单使用这个技术的方法就是使用staged_predict()：

它在训练的每个阶段(用一棵树，两棵树等)返回一个迭代器。加下来的代码用120个树训练了一个GBRT集成，然后在训练的每个阶段验证错误以找到树的最佳数量，最后使用GBRT树的最优数量训练另一个集成：

importnumpyasnpfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportmean_squared_errorX_train, X_val, y_train, y_val = train_test_split(X, y, random_state=49)gbrt = GradientBoostingRegressor(max_depth=2, n_estimators=120, random_state=42)gbrt.fit(X_train, y_train)errors = [mean_squared_error(y_val, y_pred)fory_predingbrt.staged_predict(X_val)]bst_n_estimators = np.argmin(errors)gbrt_best = GradientBoostingRegressor(max_depth=2,n_estimators=bst_n_estimators, random_state=42)gbrt_best.fit(X_train, y_train)min_error = np.min(errors)# early_stopping_gbrt_plotplt.figure(figsize=(11,4))plt.subplot(121)plt.plot(errors,"b.-")plt.plot([bst_n_estimators, bst_n_estimators], [0, min_error],"k--")plt.plot([0,120], [min_error, min_error],"k--")plt.plot(bst_n_estimators, min_error,"ko")plt.text(bst_n_estimators, min_error*1.2,"Minimum", ha="center", fontsize=14)plt.axis([0,120,0,0.01])plt.xlabel("Number of trees")plt.title("Validation error", fontsize=14)plt.subplot(122)plot_predictions([gbrt_best], X, y, axes=[-0.5,0.5,-0.1,0.8])plt.title("Best model (%d trees)"% bst_n_estimators, fontsize=14)plt.show()

验证错误在图 7-11 的左面展示，最优模型预测被展示在右面。

你也可以早早的停止训练来实现早停(与先在一大堆树中训练，然后再回头去找最优数目相反)。你可以通过设置warm_start=True来实现，这使得当fit()方法被调用时sklearn保留现有树，并允许增量训练。接下来的代码在当一行中的五次迭代验证错误没有改善时会停止训练：

gbrt = GradientBoostingRegressor(max_depth=2, warm_start=True, random_state=42)min_val_error =float("inf")error_going_up = 0forn_estimatorsinrange(1, 120): gbrt.n_estimators = n_estimators gbrt.fit(X_train, y_train) y_pred = gbrt.predict(X_val) val_error = mean_squared_error(y_val, y_pred)ifval_error < min_val_error: min_val_error = val_error error_going_up = 0else: error_going_up += 1iferror_going_up == 5:break# early stoppingprint(gbrt.n_estimators)print("Minimum validation MSE:", min_val_error)61Minimum validation MSE: 0.00271285332524

GradientBoostingRegressor也支持指定用于训练每棵树的训练实例比例的超参数subsample。例如如果subsample=0.25，那么每个树都会在25%随机选择的训练实例上训练。你现在也能猜出来，这也是个高偏差换低方差的作用。它同样也加速了训练。这个技术叫做随机梯度提升。

也可能对其他损失函数使用梯度提升。这是由损失超参数控制(见sklearn文档)。

6 Stacking

本章讨论的最后一个集成方法叫做Stacking(stacked generalization的缩写)。这个算法基于一个简单的想法：不使用琐碎的函数(如硬投票)来聚合集合中所有分类器的预测，我们为什么不训练一个模型来执行这个聚合？

图 7-12 展示了这样一个在新的回归实例上预测的集成。底部三个分类器每一个都有不同的值(3.1，2.7 和 2.9)，然后最后一个分类器(叫做blender或者meta learner)把这三个分类器的结果当做输入然后做出最终决策(3.0)。

为了训练这个blender，一个通用的方法是采用保持集。让我们看看它怎么工作。

首先，训练集被分为两个子集，第一个子集被用作训练第一层(详见图 7-13).

接下来，第一层的分类器被用来预测第二个子集(保持集)(详见 7-14)。这确保了预测结果很“干净”，因为这些分类器在训练的时候没有使用过这些事例。现在对在保持集中的每一个实例都有三个预测值。我们现在可以使用这些预测结果作为输入特征来创建一个新的训练集(这使得这个训练集是三维的)，并且保持目标数值不变。随后blender在这个新的训练集上训练，因此，它学会了预测第一层预测的目标值。

显然我们可以用这种方法训练不同的blender(例如一个线性回归，另一个是随机森林等等)：我们得到了一层blender。诀窍是将训练集分成三个子集：第一个子集用来训练第一层，第二个子集用来创建训练第二层的训练集(使用第一层分类器的预测值)，第三个子集被用来创建训练第三层的训练集(使用第二层分类器的预测值)。以上步骤做完了，我们可以通过逐个遍历每个层来预测一个新的实例。详见图 7-15.

然而不幸的是，sklearn并不直接支持stacking，但是你自己组建是很容易的(看接下来的练习)。或者你也可以使用开源的项目例如brew(网址为https://github.com/viisar/brew)

安装brew

pip install git+https://github.com/viisar/brew.git

importnumpyasnpimportmatplotlib.pyplotaspltimportmatplotlib.gridspecasgridspecimportitertoolsimportsklearnfromsklearn.linear_modelimportLogisticRegressionfromsklearn.svmimportSVCfromsklearn.ensembleimportRandomForestClassifierfrombrew.baseimportEnsemble, EnsembleClassifierfrombrew.stacking.stackerimportEnsembleStack, EnsembleStackClassifierfrombrew.combination.combinerimportCombinerfrommlxtend.dataimportiris_datafrommlxtend.plottingimportplot_decision_regions# Initializing Classifiersclf1 = LogisticRegression(random_state=0)clf2 = RandomForestClassifier(random_state=0)clf3 = SVC(random_state=0, probability=True)# Creating Ensembleensemble = Ensemble([clf1, clf2, clf3])eclf = EnsembleClassifier(ensemble=ensemble, combiner=Combiner('mean'))# Creating Stackinglayer_1 = Ensemble([clf1, clf2, clf3])layer_2 = Ensemble([sklearn.clone(clf1)])stack = EnsembleStack(cv=3)stack.add_layer(layer_1)stack.add_layer(layer_2)sclf = EnsembleStackClassifier(stack)clf_list = [clf1, clf2, clf3, eclf, sclf]lbl_list = ['Logistic Regression','Random Forest','RBF kernel SVM','Ensemble','Stacking']# Loading some example dataX, y = iris_data()X = X[:,[0,2]]# WARNING, WARNING, WARNING# brew requires classes from 0 to N, no skipping allowedd = {yi : ifori, yiinenumerate(set(y))}y = np.array([d[yi]foryiiny])# Plotting Decision Regionsgs = gridspec.GridSpec(2,3)fig = plt.figure(figsize=(10,8))itt = itertools.product([0,1,2], repeat=2)forclf, lab, grdinzip(clf_list, lbl_list, itt): clf.fit(X, y) ax = plt.subplot(gs[grd[0], grd[1]]) fig = plot_decision_regions(X=X, y=y, clf=clf, legend=2) plt.title(lab)plt.show()

7 思考题

如果你在相同训练集上训练 5 个不同的模型，它们都有 95% 的准确率，那么你是否可以通过组合这个模型来得到更好的结果？如果可以那怎么做呢？如果不可以请给出理由。

软投票和硬投票分类器之间有什么区别？

是否有可能通过分配多个服务器来加速 bagging 集成系统的训练？pasting 集成，boosting 集成，随机森林，或 stacking 集成怎么样？

out-of-bag 评价的好处是什么？

是什么使 Extra-Tree 比规则随机森林更随机呢？这个额外的随机有什么帮助呢？那这个 Extra-Tree 比规则随机森林谁更快呢？

如果你的 Adaboost 模型欠拟合，那么你需要怎么调整超参数？

如果你的梯度提升过拟合，那么你应该调高还是调低学习率呢？

导入 MNIST 数据(第三章中介绍)，把它切分进一个训练集，一个验证集，和一个测试集(例如 40000 个实例进行训练，10000 个进行验证，10000 个进行测试)。然后训练多个分类器，例如一个随机森林分类器，一个 Extra-Tree 分类器和一个 SVM。接下来，尝试将它们组合成集成，使用软或硬投票分类器来胜过验证集上的所有集合。一旦找到了，就在测试集上实验。与单个分类器相比，它的性能有多好？

从练习 8 中运行个体分类器来对验证集进行预测，并创建一个新的训练集并生成预测：每个训练实例是一个向量，包含来自所有分类器的图像的预测集，目标是图像类别。祝贺你，你刚刚训练了一个blender，和分类器一起组成了一个叠加组合！现在让我们来评估测试集上的集合。对于测试集中的每个图像，用所有分类器进行预测，然后将预测馈送到blender以获得集合的预测。它与你早期训练过的投票分类器相比如何？

作者：7125messi

链接：https://www.jianshu.com/p/7ea1b77ecb51

來源：简书

简书著作权归作者所有，任何形式的转载都请联系作者获得授权并注明出处。

你可能感兴趣的:(matlab,集成学习)

基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
matlab mle 优化,MLE+: Matlab Toolbox for Integrated Modeling, Control and Optimization for Buildings... Simon Zhong matlab mle 优化
摘要：FollowingunilateralopticnervesectioninadultPVGhoodedrat,theaxonguidancecueephrin-A2isup-regulatedincaudalbutnotrostralsuperiorcolliculus(SC)andtheEphA5receptorisdown-regulatedinaxotomisedretinalgan
如何用matlab灵活控制feko的求解 NingrLi matlab 开发语言
https://bbs.rfeda.cn/read.php?tid=3778Feko中的模型和求解设置等都可以通过editfeko进行设置，其文件存储为.pre文件，该文件可以用文本打开，因此，我们可以通过VB、VC、matlab等工具对.pre文件进行读写操作，以达到更灵活的使用feko。同样，对于.out文件，我们也可以进行读操作。熟练使用对.pre文件和.out文件的操作后，我们可以方便的计
matlab delsat = setdiff(1:69,unique(Eph(30,:)))；语句含义黄卷青灯77 matlab 开发语言 setdiff
这行MATLAB代码用于计算在范围1:69中不包含在Eph矩阵第30行的唯一值集合中的所有元素。具体解释如下：delsat=setdiff(1:69,unique(Eph(30,:)));解释Eph(30,:)Eph(30,:)提取矩阵Eph的第30行的所有列元素。这是一个行向量，包含了第30行的所有值。unique(Eph(30,:))unique函数返回Eph(30,:)中的唯一元素。这意味着
matlab设置图像窗口大小,matlab 图形窗口大小的设置 weixin_39534002 matlab设置图像窗口大小
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%常用选项和小技巧%%%%%%画等值线[cchh]=contour(peaks(30),'LINESPEC','b-')clabel(cc,hh,'manual')%写文本text(5,10,'\bfmath\slmath\itmath\rmmath\alpha','color',[0.10.10.9],'fonts
Matlab在工业机器人中的运用,基于MATLAB的工业机器人建模与仿真.docx weixin_34518801
摘要：机器人运动系统作为机器人系统中最重要的组成部分之一，其重要性不言而喻，因为它影响着机器人的主要性能，因此为了提高机器人的质量，对机器人进行运动学分析和仿真是不可或缺的。本次毕业设计主要对KUKA机器人的三维仿真进行了一系列的分析，主要是以下几个内容：(1)研究了机器人运动学仿真的背景意义及发展趋势。(2)通过对齐次坐标变换理论的研究,说明了KUKA机器人结构及参数,并且建立了相应的D-H参数
matlab游标标注移动,matlab实现图形窗口的数据游标莫白想 matlab游标标注移动
DatacursorsforfigurewindowSeveralrelatedfunctions:CreateCursorsetsupaverticalcursoronallaxesinafigure.Thecursorscanbemovedaroundusingthemouse.MultiplecursorsaresupportedineachfigureGetCursorLocationre
MATLAB语言基础教程、小项目1：简单的计算器、小项目2：有页面的计算器、使用App Designer创建GUI计算器 azuredragonz 学习教程 matlab 开发语言
MATLABMATLAB语言基础教程1.MATLAB简介2.基本语法变量与赋值向量与矩阵矩阵运算数学函数控制流3.函数4.绘图案例：简单方程求解小项目1：简单的科学计算器功能代码项目说明小项目2：有页面的计算器使用AppDesigner创建GUI计算器主要步骤：完整代码（使用MATLAB编写）说明：如何运行：小项目总结MATLAB语言基础教程1.MATLAB简介MATLAB（矩阵实验室）是一种用于
MATLAB在无线通信系统测试和验证中的应用 2401_85812053 matlab 开发语言
在无线通信系统的开发过程中，测试和验证是确保系统性能满足设计要求的关键步骤。MATLAB提供了一系列的工具和功能，这些工具在无线通信系统的测试和验证中发挥着重要作用。本文将详细介绍MATLAB在无线通信系统测试和验证中的应用，包括信道建模、调制解调、射频（RF）链路分析以及硬件验证等方面。1.信道建模信道建模是无线通信系统设计中的关键环节，它影响着信号的传输质量和系统的整体性能。MATLAB提供了
MATLAB中的函数编写有哪些最佳实践 2401_85812053 matlab 算法人工智能
在MATLAB中，函数是执行特定任务的代码块，可以通过自定义函数来提高代码的可重用性和模块化。以下是一些关于MATLAB函数编写的最佳实践：函数结构和语法：MATLAB函数由函数名、参数列表和函数体组成。函数名必须以字母开头，后面可以跟字母、数字或下划线。参数列表包含函数接收的输入变量，用逗号分隔。函数体包含要执行的代码。functiony=my_function(x)%函数体y=x^2;end参
Python和MATLAB及C++信噪比导图(算法模型) 亚图跨际算法交叉知识 Python 视频图像修复模数转换信号链噪音频谱计算量化周期性视觉刺激高斯噪声的矩形脉冲心率失常检测算法
要点视频图像修复模数转换中混合信号链噪音测量频谱计算和量化周期性视觉刺激脑电图高斯噪声的矩形脉冲总谐波失真周期图功率谱密度各种心率失常检测算法胶体悬浮液跟踪检测计算交通监控摄像头图像噪音计算Python信噪比信噪比是科学和工程中使用的一种测量方法，用于比较所需信号水平与背景噪声水平。信噪比定义为信号功率与噪声功率之比，通常以分贝表示。高于1:1（大于0dB）的比率表示信号大于噪声。信噪比是影响处理
Python(PyTorch)和MATLAB及Rust和C++结构相似度指数测量导图亚图跨际 Python 交叉知识算法量化检查图像压缩质量低分辨率多光谱峰值信噪比端到端优化图像压缩手术机器人三维实景实时可微分渲染重建三维可视化
要点量化检查图像压缩质量低分辨率多光谱和高分辨率图像实现超分辨率分析图像质量图像索引/多尺度结构相似度指数和光谱角映射器及视觉信息保真度多种指标峰值信噪比和结构相似度指数测量结构相似性图像分类PNG和JPEG图像相似性近似算法图像压缩，视频压缩、端到端优化图像压缩、神经图像压缩、GPU变速图像压缩手术机器人深度估计算法重建三维可视化推理图像超分辨率算法模型三维实景实时可微分渲染算法MATLAB结构
含光热电站、有机有机朗肯循环、P2G的综合能源优化调度（Matlab代码实现）冒泡芳能源 matlab 开发语言
‍个人主页：研学社的博客欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录1概述2运行结果3参考文献4Matlab代码实现1概述光热发电(concentratingsolarpower，CSP）是一种新型可再生能源发电技术，具有低碳发电和高效储能的优势，但当前光热电站常充当单一发电源进行能源供应，其供能潜力未得到充分
Day25_0.1基础学习MATLAB学习小技巧总结（25）——四维图形的可视化非常规定义M 0.1基础学习MATLAB 学习 matlab 开发语言 SIMULINK 数学建模
利用空闲时间把碎片化的MATLAB知识重新系统的学习一遍，为了在这个过程中加深印象，也为了能够有所足迹，我会把自己的学习总结发在专栏中，以便学习交流。参考书目：1、《MATLAB基础教程(第三版)(薛山)》2、《MATLABR2020a完全自学一本通》之前的章节都是基础的数据运算用法，对于功课来说更加重要的内容是建模、绘图、观察数据趋势，接下来我会结合自己的使用经验，来为大家分享绘图、建模使用的小
matlab时域离散信号与系统,时域离散信号和系统的频域分析远方有城 matlab时域离散信号与系统
信号与系统的分析方法有两种：时域分析方法和频域分析方法。在连续时间信号与系统中，信号一般用连续变量时间t的函数表示，系统用微分方程描述，其频域分析方法是拉普拉斯变换和傅立叶变换。在时域离散信号与系统中，信号用序列表示，其自变量仅取整数，非整数时无定义，系统则用差分方程描述，频域分析方法是Z变换和序列傅立叶变换法。Z变换在离散时间系统中的作用就如同拉普拉斯变换在连续时间系统中的作用一样，它把描述离散
基于matlab的离散系统变换域分析实验,实验3 离散时间系统的变换域分析 mmjang
电子科技大学实验报告学生姓名：项阳学号：2010231060011指导教师：邓建一、实验项目名称：离散时间系统的变换域分析二、实验目的：线性时不变(LTI)离散时间系统的特性可以用其冲击响应序列来表示，也可以用传递函数和频率响应来表示,本实验通过使用MATLAB函数对离散时间系统的一些特性进行仿真分析，以加深对离散时间系统的零极点、稳定性，频率响应等概念的理解。三、实验内容：1、设X1(z)23z
matlab上下标如何输入,在Matlab中怎样输入特殊符号或者上标、下标李一舟DESIGN matlab上下标如何输入
Matlab的text/title/xlabel/ylabel对象支持简单的TeX排版语法，如希腊字母，上下标等例如text(0.5,0.5,'\alpha^\beta_2');Matlab图形中允许用TEX文件格式来显示字符。使用\bf，\it，\rm表示黑体，斜体，正体字符，特别注意大括号{}的用法。实例：在存在的图形上写一段有黑体、有斜体、有整体的句子。1、画图x=0:0.01:8;y=si
matlab带下标的字母,matlab的特殊字符（上下标和希腊字母等）赤脚大仙儿 matlab带下标的字母
‘T=25\circC‘，(摄氏度)下标用_(下划线)上标用^(尖号)希腊字母等特殊字符用α\alphaβ\betaγ\gammaθ\thetaΘ\ThetaГ\Gammaδ\deltaΔ\Deltaξ\xiΞ\Xiη\eltaε\epsilonζ\zetaμ\miuυ\nuτ\tauλ\lamdaΛ\Lamdaπ\piΠ\Piσ\sigmaΣ\Sigmaφ\phiΦ\Phiψ\psiΨ\Psiχ
掌握MATLAB中的图形用户界面布局管理器原机小子 matlab 前端开发语言
在MATLAB中，图形用户界面（GUI）的设计对于创建专业且用户友好的应用至关重要。布局管理器在GUI设计中扮演着核心角色，它们负责在窗口中自动管理和调整控件的位置和大小。本文将详细介绍MATLAB中的布局管理器，包括它们的使用方法和实际代码示例。1.布局管理器的基本概念布局管理器是GUI设计中的一个关键组件，它允许控件根据窗口的大小变化自动调整布局。MATLAB提供了多种布局管理器，如网格布局（
Matlab2024a安装教程是阿宇呢信息可视化开发语言
MATLAB是一款商业数学软件，用于算法开发、数据可视化、数据分析以及数值计算的高级技术计算语言和交互式环境，主要包括MATLAB和Simulink两大部分，可以进行矩阵运算、绘制函数和数据、实现算法、创建用户界面、连接其他编程语言的程序等，主要应用于工程计算、控制设计、信号处理与通讯、图像处理、信号检测、金融建模设计与分析等领域。1.解压安装包：①鼠标右击【MATLABR2024a(64bit)
MATLAB中的控制系统工具箱：深入指南与实践应用 2401_85812026 matlab
MATLAB的控制系统工具箱（ControlSystemToolbox）是一个强大的工具集，它为工程师和研究人员提供了全面的控制系统设计、分析和仿真解决方案。本文将详细介绍如何在MATLAB中使用控制系统工具箱，包括系统建模、控制器设计、系统仿真和分析等方面。1.系统建模在控制系统工具箱中，可以通过多种方式对系统进行建模，包括状态空间模型、传递函数模型和零极点模型。1.1状态空间模型状态空间模型是
MATLAB中的代码覆盖测试：深入指南与实践应用 2401_85812026 matlab 开发语言
在软件测试领域，代码覆盖测试是一种重要的技术，用于评估测试用例的完整性和有效性。在MATLAB环境中，代码覆盖测试可以帮助开发者确保他们的代码在各种条件下都能正常工作，并且能够发现可能被忽视的错误。本文将详细介绍如何在MATLAB中进行代码覆盖测试，包括测试的类型、工具和实践方法。1.代码覆盖测试的基本概念代码覆盖测试旨在通过测试用例执行代码中的不同部分，以确保代码的每个部分都经过了验证。在MAT
连通无向图一般中心的算法及其matlab程序详解夏天天天天天天天# 图论算法 matlab 图论
#################本文为学习《图论算法及其MATLAB实现》的学习笔记#################若服务点只允许取在各顶点上,而服务对象却取在各顶点及各边(或弧)上的点,则在所有顶点中选定一个顶点作为图的一般中心其条件是该点离它本身的最远服务对象(包括顶点及各边(或弧)上的点)的距离达到极小值。寻找无向图的一般中心对解决网络最佳服务点确定的问题是十分有效的，使得服务对象的范围
基于matlab的水下航行器建模与仿真,水下自主航行器(AUV)建模仿真探究.doc 蒙眼说
水下自主航行器(AUV)建模仿真探究水下自主航行器(AUV)建模仿真探究【摘要】本文对鱼雷形状的水下自主航行器的六自由度非线性动态模型的研制作了较为详细的介绍。该动态模型充分考虑了各方面的因素，其中包括静水力学，超重，流体力学，操舵、推进力和力矩等。此外模型还考虑了航行器动力学和环境的影响。【关键词】水下自主航行器；建模；仿真研究1.引言水下自主航行体是一种重要的用于水下勘探的机器人，同时也是用于
MATLAB|基于多时段动态电价的电动汽车有序充电策略优化科研工作站电动汽车 matlab 电动汽车动态电价场景分析无序充电有序充电粒子群
目录主要内容模型研究一、蒙特卡洛模拟部分代码部分结果一览下载链接主要内容该模型参考文献《基于多时段动态电价的电动汽车有序充电策略优化》，采用蒙特卡洛随机抽样方法来模拟电动汽车无序充电状态下的负荷曲线，并设置三个对比算例--基础场景（无电动汽车）、电动汽车无序充电和电动汽车有序充电场景，有序充电场景以电网端负荷差最小和用户侧充电成本最经济为目标，通过粒子群算法进行求解，程序采用matlab+matp
2-91基于matlab的LQR倒立摆控制仿真 'Matlab学习与应用 matlab工程应用算法 LQR 倒立摆控制仿真 matlab
基于matlab的LQR倒立摆控制仿真。对于x=Ax+Bu和y=Cx+du标准方程，文件qiuk中用LQR函数求解控制数组K，将K值带入fangzhen文件中（文件中已代入），得到倒立摆稳定曲线。程序已调通，可直接运行。下载源程序请点链接：2-91基于matlab的LQR倒立摆控制仿真
刚接触无处下手？水下航行器AUV/UUV六自由度模型/控制器设计matlab/simulink参考代码，基础的/进阶的，入门到顺利毕业/完成课题/发表论文。得鹿梦鱼c AUV UUV 水下航行器水下机器人
导师不管？无人指导？无代码可参考？毫无头绪？换条思路借鉴一下吧，金钱买不到时间，但可以让你更多的支配你自己的时间，没错的，条条大路通罗马，毕竟前程是自己的，只能自己上心。有需要的点进去看看吧->闲鱼有需要的点进去看看吧->闲鱼
2-93 基于matlab的无人机FMCW（频率调制连续波）毫米波高度计雷达仿真 'Matlab学习与应用 matlab工程应用 matlab 无人机开发语言毫米波高度计雷达仿真频率调制连续波 FMCW
基于matlab的无人机FMCW（频率调制连续波）毫米波高度计雷达仿真，不考虑环境杂波和收发信号隔离泄漏。通过考虑雷达天线、波束形成、信号传播、回波接收等环节影响。建立FMCW毫米波雷达系统的数学模型，评估无人机在不同高度下的高度测量性能。程序已调通，可直接运行。下载源程序请点链接：2-93基于matlab的无人机FMCW（频率调制连续波）毫米波高度计雷达仿真
逆radon变换matlab,Radon变换及其Matlab代码实现少年商学院逆radon变换matlab
Radon变换和Hough变换类似，最初是用于检测图像中的直线(例如笔直的街道边沿、房屋的边沿、笔直的电线等)。关于Hough变换，可以参考OpenCV中的代码和示例(其实除了HoughLines还有HoughCircles等等变种)，此处不再赘述。关于Radon变换，可以参考wiki或者百科，或者网络上的其他资料介绍。这里做一个简单的总结。首先准备一张灰度化的图像，及黑白图像，然后检测图像的边缘
使用SVD将图像压缩四分之一（MATLAB） superdont matlab 开发语言
SVD压缩前后数据量减少的原因在于，通过奇异值分解（SVD），我们将原始数据（如图像）转换成了一种更加紧凑的表示形式。这种转换依赖于数据内部的结构和相关性，以及数据中信息的不均匀分布。让我们简单分析一下这个过程为何能减少所需的数据量：数据的结构和相关性高度相关的数据：图像数据往往包含大量的空间相关性，即图像中相邻的像素点在颜色和亮度上通常非常接近。这种高度的相关性意味着原始图像可以通过更少的信息来
java的(PO,VO,TO,BO,DAO,POJO) Cb123456 VO TO BO POJO DAO
转: http://www.cnblogs.com/yxnchinahlj/archive/2012/02/24/2366110.html ------------------------------------------------------------------- O/R Mapping 是 Object Relational Mapping（对象关系映
spring ioc原理（看完后大家可以自己写一个spring） aijuans spring
最近，买了本Spring入门书：spring In Action 。大致浏览了下感觉还不错。就是入门了点。Manning的书还是不错的，我虽然不像哪些只看Manning书的人那样专注于Manning,但怀着崇敬的心情和激情通览了一遍。又一次接受了IOC 、DI、AOP等Spring核心概念。先就IOC和DI谈一点我的看法。IO
MyEclipse 2014中Customize Persperctive设置无效的解决方法 Kai_Ge MyEclipse2014
高高兴兴下载个MyEclipse2014，发现工具条上多了个手机开发的按钮，心生不爽就想弄掉他！结果发现Customize Persperctive失效！！有说更新下就好了，可是国内Myeclipse访问不了，何谈更新... so~这里提供了更新后的一下jar包，给大家使用！ 1、将9个jar复制到myeclipse安装目录\plugins中 2、删除和这9个jar同包名但是版本号较
SpringMvc上传 120153216 springMVC
@RequestMapping(value = WebUrlConstant.UPLOADFILE) @ResponseBody public Map<String, Object> uploadFile(HttpServletRequest request,HttpServletResponse httpresponse) { try { //
Javascript----HTML DOM 事件何必如此 JavaScript html Web
HTML DOM 事件允许Javascript在HTML文档元素中注册不同事件处理程序。事件通常与函数结合使用，函数不会在事件发生前被执行！注：DOM：指明使用的 DOM 属性级别。 1.鼠标事件属性
动态绑定和删除onclick事件 357029540 JavaScript jquery
因为对JQUERY和JS的动态绑定事件的不熟悉，今天花了好久的时间才把动态绑定和删除onclick事件搞定!现在分享下我的过程。在我的查询页面，我将我的onclick事件绑定到了tr标签上同时传入当前行(this值)参数，这样可以在点击行上的任意地方时可以选中checkbox，但是在我的某一列上也有一个onclick事件是用于下载附件的，当
HttpClient|HttpClient请求详解 7454103 apache 应用服务器网络协议网络应用 Security
HttpClient 是 Apache Jakarta Common 下的子项目，可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包，并且它支持 HTTP 协议最新的版本和建议。本文首先介绍 HTTPClient，然后根据作者实际工作经验给出了一些常见问题的解决方法。HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了，越来越多的 Java 应用程序需
递归逐层统计树形结构数据 darkranger 数据结构
将集合递归获取树形结构: /** * * 递归获取数据 * @param alist:所有分类 * @param subjname:对应统计的项目名称 * @param pk:对应项目主键 * @param reportList: 最后统计的结果集 * @param count:项目级别 */ public void getReportVO(Arr
访问WEB-INF下使用frameset标签页面出错的原因 aijuans struts2
<frameset rows="61,*,24" cols="*" framespacing="0" frameborder="no" border="0">
MAVEN常用命令 avords
Maven库： http://repo2.maven.org/maven2/ Maven依赖查询： http://mvnrepository.com/ Maven常用命令： 1. 创建Maven的普通java项目： mvn archetype:create -DgroupId=packageName
PHP如果自带一个小型的web服务器就好了 houxinyou apache 应用服务器 Web PHP 脚本
最近单位用PHP做网站，感觉PHP挺好的，不过有一些地方不太习惯，比如，环境搭建。PHP本身就是一个网站后台脚本，但用PHP做程序时还要下载apache，配置起来也不太很方便，虽然有好多配置好的apache+php+mysq的环境，但用起来总是心里不太舒服，因为我要的只是一个开发环境，如果是真实的运行环境，下个apahe也无所谓，但只是一个开发环境，总有一种杀鸡用牛刀的感觉。如果php自己的程序中
NoSQL数据库之Redis数据库管理(list类型) bijian1013 redis 数据库 NoSQL
3.list类型及操作 List是一个链表结构，主要功能是push、pop、获取一个范围的所有值等等，操作key理解为链表的名字。Redis的list类型其实就是一个每个子元素都是string类型的双向链表。我们可以通过push、pop操作从链表的头部或者尾部添加删除元素，这样list既可以作为栈，又可以作为队列。 &nbs
谁在用Hadoop？ bingyingao hadoop 数据挖掘公司应用场景
Hadoop技术的应用已经十分广泛了，而我是最近才开始对它有所了解，它在大数据领域的出色表现也让我产生了兴趣。浏览了他的官网，其中有一个页面专门介绍目前世界上有哪些公司在用Hadoop，这些公司涵盖各行各业，不乏一些大公司如alibaba,ebay,amazon,google,facebook,adobe等，主要用于日志分析、数据挖掘、机器学习、构建索引、业务报表等场景,这更加激发了学习它的热情。
【Spark七十六】Spark计算结果存到MySQL bit1129 mysql
package spark.examples.db import java.sql.{PreparedStatement, Connection, DriverManager} import com.mysql.jdbc.Driver import org.apache.spark.{SparkContext, SparkConf} object SparkMySQLInteg
Scala: JVM上的函数编程 bookjovi scala erlang haskell
说Scala是JVM上的函数编程一点也不为过，Scala把面向对象和函数型编程这两种主流编程范式结合了起来，对于熟悉各种编程范式的人而言Scala并没有带来太多革新的编程思想，scala主要的有点在于Java庞大的package优势，这样也就弥补了JVM平台上函数型编程的缺失，MS家.net上已经有了F#，JVM怎么能不跟上呢？对本人而言
jar打成exe bro_feng java jar exe
今天要把jar包打成exe，jsmooth和exe4j都用了。遇见几个问题。记录一下。两个软件都很好使，网上都有图片教程，都挺不错。首先肯定是要用自己的jre的，不然不能通用，其次别忘了把需要的lib放到classPath中。困扰我很久的一个问题是，我自己打包成功后，在一个同事的没有装jdk的电脑上运行，就是不行，报错jvm.dll为无效的windows映像，如截图最后发现
读《研磨设计模式》-代码笔记-策略模式-Strategy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 策略模式定义了一系列的算法，并将每一个算法封装起来，而且使它们还可以相互替换。策略模式让算法独立于使用它的客户而独立变化简单理解： 1、将不同的策略提炼出一个共同接口。这是容易的，因为不同的策略，只是算法不同，需要传递的参数
cmd命令值cvfM命令 chenyu19891124 cmd
cmd命令还真是强大啊。今天发现jar -cvfM aa.rar @aaalist 就这行命令可以根据aaalist取出相应的文件例如：在d：\workspace\prpall\test.java 有这样一个文件，现在想要将这个文件打成一个包。运行如下命令即可比如在d：\wor
OpenJWeb(1.8) Java Web应用快速开发平台 comsci java 框架 Web 项目管理企业应用
OpenJWeb(1.8) Java Web应用快速开发平台的作者是我们技术联盟的成员，他最近推出了新版本的快速应用开发平台 OpenJWeb(1.8)，我帮他做做宣传 OpenJWeb快速开发平台以快速开发为核心，整合先进的java 开源框架，本着自主开发+应用集成相结合的原则，旨在为政府、企事业单位、软件公司等平台用户提供一个架构透
Python 报错：IndentationError: unexpected indent daizj python tab 空格缩进
IndentationError: unexpected indent 是缩进的问题，也有可能是tab和空格混用啦 Python开发者有意让违反了缩进规则的程序不能通过编译，以此来强制程序员养成良好的编程习惯。并且在Python语言里，缩进而非花括号或者某种关键字，被用于表示语句块的开始和退出。增加缩进表示语句块的开
HttpClient 超时设置 dongwei_6688 httpclient
HttpClient中的超时设置包含两个部分： 1. 建立连接超时，是指在httpclient客户端和服务器端建立连接过程中允许的最大等待时间 2. 读取数据超时，是指在建立连接后，等待读取服务器端的响应数据时允许的最大等待时间在HttpClient 4.x中如下设置： HttpClient httpclient = new DefaultHttpC
小鱼与波浪 dcj3sjt126com
一条小鱼游出水面看蓝天，偶然间遇到了波浪。　　小鱼便与波浪在海面上游戏，随着波浪上下起伏、汹涌前进。　　小鱼在波浪里兴奋得大叫：“你每天都过着这么刺激的生活吗？简直太棒了。”　　波浪说：“岂只每天过这样的生活，几乎每一刻都这么刺激！还有更刺激的，要有潮汐变化，或者狂风暴雨，那才是兴奋得心脏都会跳出来。”　　小鱼说：“真希望我也能变成一个波浪，每天随着风雨、潮汐流动，不知道有多么好！”　　很快，小鱼
Error Code: 1175 You are using safe update mode and you tried to update a table dcj3sjt126com mysql
快速高效用：SET SQL_SAFE_UPDATES = 0；下面的就不要看了！今日用MySQL Workbench进行数据库的管理更新时，执行一个更新的语句碰到以下错误提示： Error Code: 1175 You are using safe update mode and you tried to update a table without a WHERE that
枚举类型详细介绍及方法定义 gaomysion enum javaee
转发 http://developer.51cto.com/art/201107/275031.htm 枚举其实就是一种类型，跟int, char 这种差不多，就是定义变量时限制输入的，你只能够赋enum里面规定的值。建议大家可以看看，这两篇文章，《java枚举类型入门》和《C++的中的结构体和枚举》，供大家参考。枚举类型是JDK5.0的新特征。Sun引进了一个全新的关键字enum
Merge Sorted Array hcx2013 array
Given two sorted integer arrays nums1 and nums2, merge nums2 into nums1 as one sorted array. Note:You may assume that nums1 has enough space (size that is
Expression Language 3.0新特性 jinnianshilongnian el 3.0
Expression Language 3.0表达式语言规范最终版从2013-4-29发布到现在已经非常久的时间了；目前如Tomcat 8、Jetty 9、GlasshFish 4已经支持EL 3.0。新特性包括：如字符串拼接操作符、赋值、分号操作符、对象方法调用、Lambda表达式、静态字段/方法调用、构造器调用、Java8集合操作。目前Glassfish 4/Jetty实现最好，对大多数新特性
超越算法来看待个性化推荐 liyonghui160com 超越算法来看待个性化推荐
一提到个性化推荐，大家一般会想到协同过滤、文本相似等推荐算法，或是更高阶的模型推荐算法，百度的张栋说过，推荐40%取决于UI、30%取决于数据、20%取决于背景知识，虽然本人不是很认同这种比例，但推荐系统中，推荐算法起的作用起的作用是非常有限的。就像任何
写给Javascript初学者的小小建议 pda158 JavaScript
　　一般初学JavaScript的时候最头痛的就是浏览器兼容问题。在Firefox下面好好的代码放到IE就不能显示了，又或者是在IE能正常显示的代码在firefox又报错了。　　如果你正初学JavaScript并有着一样的处境的话建议你：初学JavaScript的时候无视DOM和BOM的兼容性，将更多的时间花在了解语言本身（ECMAScript）。只在特定浏览器编写代码（Chrome/Fi
Java 枚举 ShihLei java enum 枚举
注：文章内容大量借鉴使用网上的资料，可惜没有记录参考地址，只能再传对作者说声抱歉并表示感谢！一基础 1）语法枚举类型只能有私有构造器（这样做可以保证客户代码没有办法新建一个enum的实例）枚举实例必须最先定义 2）特性 &nb
Java SE 6 HotSpot虚拟机的垃圾回收机制 uuhorse java HotSpot GC 垃圾回收 VM
官方资料，关于Java SE 6 HotSpot虚拟机的garbage Collection，非常全，英文。 http://www.oracle.com/technetwork/java/javase/gc-tuning-6-140523.html Java SE 6 HotSpot[tm] Virtual Machine Garbage Collection Tuning &