飞翔的蓝鲸

scikit-learn中集成学习（ensemble learn）的例子与实践

在我的上一篇博客中集成学习基本原理：Adaboost，Bagging和Stacking介绍了一些集成学习的基本原理，所以在这一篇我准备介绍一下scikit-learn中的一些例子，在官方文档中集成学习的例子很多，我当然不可能全部写在博客里面，在这里我只挑一些典型的大致讲一下。

AdaBoost

import numpy as np
import matplotlib.pyplot as plt

from sklearn.ensemble import AdaBoostClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import make_gaussian_quantiles

# Construct dataset
X1, y1 = make_gaussian_quantiles(cov=2.,
n_samples=200, n_features=2,
n_classes=2, random_state=1)
X2, y2 = make_gaussian_quantiles(mean=(3, 3), cov=1.5,
n_samples=300, n_features=2,
n_classes=2, random_state=1)
X = np.concatenate((X1, X2))
#将产生的两个样本集合连在一起，形成总的数据集
y = np.concatenate((y1, - y2 + 1))

# Create and fit an AdaBoosted decision tree
bdt = AdaBoostClassifier(DecisionTreeClassifier(max_depth=1),algorithm="SAMME",
n_estimators=200)

bdt.fit(X, y)

plot_colors = "br"
plot_step = 0.02
class_names = "AB"

plt.figure(figsize=(10, 5))

# Plot the decision boundaries
plt.subplot(121)
x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
xx, yy = np.meshgrid(np.arange(x_min, x_max, plot_step),
np.arange(y_min, y_max, plot_step))

Z = bdt.predict(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)
cs = plt.contourf(xx, yy, Z, cmap=plt.cm.Paired)
plt.axis("tight")
#上面依然是很常见的画图步骤，画出的是决策平面

# Plot the training points
for i, n, c in zip(range(2), class_names, plot_colors):
    idx = np.where(y == i)
    #得到第i类的点的索引
    plt.scatter(X[idx, 0], X[idx, 1],
        c=c, cmap=plt.cm.Paired,
        s=20, edgecolor='k',
        label="Class %s" % n)
plt.xlim(x_min, x_max)
plt.ylim(y_min, y_max)
plt.legend(loc='upper right')
plt.xlabel('x')
plt.ylabel('y')
plt.title('Decision Boundary')

# Plot the two-class decision scores
twoclass_output = bdt.decision_function(X)
plot_range = (twoclass_output.min(), twoclass_output.max())
plt.subplot(122)
for i, n, c in zip(range(2), class_names, plot_colors):
    plt.hist(twoclass_output[y == i],
        bins=10,
        range=plot_range,
        facecolor=c,
        label='Class %s' % n,
        alpha=.5,
        edgecolor='k')
x1, x2, y1, y2 = plt.axis()
#上面这是将两类点的决策函数值画成的直方图画在了一张图里面。
plt.axis((x1, x2, y1, y2 * 1.2))
plt.legend(loc='upper right')
plt.ylabel('Samples')
plt.xlabel('Score')
plt.title('Decision Scores')

plt.tight_layout()
plt.subplots_adjust(wspace=0.35)
plt.show()

其中make_gaussian_quantiles是用来产生多维的高斯分布的函数
sklearn.datasets.make_gaussian_quantiles(mean=None, cov=1.0, n_samples=100,
n_features=2, n_classes=3, shuffe=True, random_state=None)
Generate isotropic Gaussian and label samples by quantile
This classiﬁcation dataset is constructed by taking a multi-dimensional standard normal distribution and deﬁning classes separated by nested concentric multi-dimensional spheres such that roughly equal numbers of samples are in each class .
其中主要的参数为
mean：array of shape of [n_feature]。就是正态分布的均值，是一个数组。
cov:float.代表了多维正态分布的协方差矩阵，但是这里只能输入float的值，最后的协方差矩阵为该值乘以一个单位矩阵。
n_classes:类别的个数。
其余的参数按照名字就能够看出来含义。

返回值X为产生的样本， y为对应的样本的类别。

下面是AdaBoostClassifier的API
class sklearn.ensemble.AdaBoostClassifier(base_estimator=None, n_estimators=50, learning_rate=1.0, algorithm=’SAMME.R’, random_state=None)
An AdaBoost classifer.
An AdaBoost [1] classifer is a meta-estimator that begins by ﬁtting a classiﬁer on the original dataset and then
fts additional copies of the classifer on the same dataset but where the weights of incorrectly classifed instances
are adjusted such that subsequent classiﬁers focus more on diffcult cases.
This class implements the algorithm known as AdaBoost-SAMME [2]

主要参数：
base_estimator：就是用来提升的基学习器，默认是决策树，也可以用其他的学习器，但是要支持样本权重，以及有classes_和n_classes_这些特征
learning_rate:这个到后面还会讲一下，主要就是按照原来的AdaBoost算法，在每一轮我们得到一个新的学习器以及它的权重，但是不是直接就加上原来的总的学习器，还要在乘以一个learning_rate，就是减少新的学习器的贡献，这种做法叫做shrink。较小的learning_rate确实可以减小最终的误差，但是它比较小的话，学习也比较慢，那么总的学习器个数就需要比较大,因此learning_rate和n_eatimators之间关系比较强
algorithm：只有两种算法SAMME和SAMME.R。说实话两者具体有什么差别我也不是很清楚，其中SAMME就是我在上一篇中讲的基本的AdaBoost的算法，SAMME.R中的R代表的probability，它使用概率估计来更新加性模型（就是总的那个把基本学习器加起来的模型）。总之最后SAMME.R算法能够得到更小的测试误差以及更快的收敛速度。

函数
decision_function计算输入数据的决策函数，返回的其实是一个array，大小为shape=[n_samples, k]。对于二分类问题，k==1，这时候输出的score数值分别靠近-1或者1代表样本可能是第一类或者第二类。如果不是而分类，那么k==n_classes.

上图是最终的结果，左边是决策平面和数据点，右边是决策函数的值所画成的直方图，数值大于0的被判定成B类，小于0的被判定成A类。可以看到有一些点在0到正负0.2之间是被判定错误的。至于分数为0的我理解是在边界上的点，就像SVM里面，决策平面上的点的决策函数为0.

Gradient Boosting

梯度提升回归树（GBRT）我在上一篇博客中没有讲，后来发现他还是有些用处的，所以在这里稍微讲一下。
梯度提升跟AdaBoost还是有一定的不同，对于基础的提升树，提升树模型可以表示为决策树的加法模型：

f M (x) = \sum m = 1 M T (x; Θ m) (1)

在生成过程中，第m步的模型是

f m (x) = f m - 1 (x) + T (x; Θ m) (2)

通过经验风险极小化可以确定下一棵树的参数

Θ^m = a r g min Θ m \sum i = 1 N L (y i, f m - 1 (x i) + T (x i; Θ m)) (3)

实际中使用决策树桩就可以有很好的效果。
当我们采用平方误差损失函数的时候，损失变成

L (y i, f m - 1 (x i) + T (x i; Θ m)) = [y - f m - 1 (x) - T (x; Θ m)] 2 = [r - T (x; Θ m)] 2 (4)

其中

r=y−fm(x) 即为拟合之后的数据的残差，所以对于回归问题来说，实际就是不断拟合残差，使得残差尽量趋向于0。可以说这个思想是非常直观，简单的。
梯度提升方法：对于一般的损失函数，每一步的优化可能并不容易，因此梯度提升就把损失函数的负梯度在当前模型的值作为回归问题中残差的近似，也就是令

r m i = - [\partial L ( y i , f ( x i ) ) \partial f ( x i )] f (x) = f m - 1 (x) (5)

这个求导其实是有公式的，没必要一定自己去求。
然后用这个负梯度代替上面提升树里面的残差，之后求解就得到梯度提升树。

我在看《The Elements of Statical Learning》的时候发现它还有一种思路，在这里写下来供人参考。
不论是提升树还是梯度提升树，式(3)是基本的式子，在每一轮我们要求出一个能够最小化总体风险的决策树，但是这个是比较难求的。这里我们转换一下思路，在忽略约束条件的情况下，我们要求的最终的决策函数就是

f^= a r g min f L (f) (6)

类比我们印象中的一些优化问题，我们就可以用最速下降法来求解这个问题。另外值得注意的是

f={f(x1),f(x2),⋯,f(xN)} 完全可以看作是一个向量，那么使用最速下降就更容易理解了。
那么最速下降的公式为

f m = f m - 1 - ρ m g m (7)

其中

gm 为一个向量，每一个分量为

g i m = \partial L \partial f ( x i ) = [\partial L ( y i , f ( x i ) ) \partial f ( x i )] f (x i) = f m - 1 (x i) (8)

也就是在每个样本点处

L 关于

f 的梯度的分量
步长

ρm 可以通过搜索得到，也就是

ρ m = arg min ρ L (f m - 1 - ρ g m) (9)

上面看似解决了问题，但是梯度只定义在训练的样本点上，最后不能用于预测新的点，为了解决这个问题，我们用平方损失函数再拟合一个决策树来逼近这个梯度，也就是

Θ ~ m = arg min Θ = \sum i = 1 N (- g i m - T (x i; Θ)) 2 (10)

上式求出来的划分区域

R~jm 可能和（3）式有所不同，但是是足够相似的。
在每一轮求出决策树和在每一个叶节点代表的区域

Rjm 上的

γjm=argminγ∑si∈RjmL(yi,fm−1(xi)+γ) 之后我们就得到

fm 的更新公式

f m (x) = f m - 1 (x) + \sum j = 1 J m γ j m I (x \in R j m) (11)

以上就是在《The Elements of Statical Learning》中的思路。

下面是一个例子

import numpy as np
import matplotlib.pyplot as plt
from sklearn import ensemble
from sklearn import datasets

X, y = datasets.make_hastie_10_2(n_samples = 12000, random_state = 1)
#产生数据的函数，例子是hastie 的《统计学习基础》的example 10.2
X = X.astype(np.float32)
labels,y = np.unique(y, return_inverse = True)
#np.unique返回不同的数值，这里就是类别，return_inverse = True的话，还返回原来的数据对应的
#类别的编号
X_train, X_test = X[:2000], X[2000:]
y_train, y_test = y[:2000], y[2000:]
#划分训练集和测试集
original_params = {'n_estimators':1000, 'max_leaf_nodes':4, 'max_depth':None,
                  'random_state':2, 'min_samples_split':5}

#上面是原始的参数，下面可以更改 'max_leaf_nodes'即代表每个树的最大叶节点                 

plt.figure()
for label, color, setting in [('No shrinkage', 'orange', {'learning_rate':1.0, 'subsample':1.0}),
                             ('learning_rate = 0.1','turquoise',{'learning_rate':0.1, 'subsample':1.0}),
                             ('subsample = 0.5','blue',{'learning_rate':1.0, 'subsample':0.5}),
                             ('learning_rate = 0.1,subsample = 0.5','gray',{'learning_rate':0.1, 'subsample':0.5}),
                             ('learning_rate = 0.1, max_feature=2', 'magenta',{'learning_rate':0.1,'max_features':2})]:
    params = dict(original_params)
    params.update(setting)
    #更新参数
    clf = ensemble.GradientBoostingClassifier(**params)
    clf.fit(X_train, y_train)
    #声明分类器并训练
    test_deviance = np.zeros((params['n_estimators'],), dtype = np.float64)

    for i, y_pred in enumerate(clf.staged_decision_function(X_test)):
        test_deviance[i] =clf.loss_(y_test, y_pred)
     #在每一轮训练中计算误差   staged_decision_function计算每一轮的决策函数，返回的是一个
     #数组的生成器，大小为shape = [n_samples, n_features]

    plt.plot((np.arange(test_deviance.shape[0])+1), test_deviance,'-', color = color, label = label)
plt.legend(loc='upper left')
plt.xlabel('Boosting Iterations')
plt.ylabel('Test Set Deviance')
plt.show()

最后的结果为

Shrinkage即为将learning_rate设为小于1.0大于0的数，从图中可以看出进行shrinkage之后误差有所减小。
所谓的shrinkage算法就是上面最后得到的更新公式中，降低每次决策树的贡献

f m (x) = f m - 1 (x) + ν \sum j = 1 J m γ j m I (x \in R j m) (12)

其中

0<ν<1 ，

ν 越小代表每次学习的越慢，所以需要越大的总学习器个数M，或者叫循环个数，但是M太大可能影响计算速度，所以每个小的决策树需要尽量小。比较好的策略是，选择非常小的

ν ，然后通过早停决定M。

Subsample是指每次训练新的决策树的时候，只取一部分的训练数据进行训练，通常取0.5或者更少，这种方式不仅能够加快训练速度，还能够提高准确度。从上图就能看到，进行shrinkage和subsample的线是最低的。

max_features是指决策树每次分割的时候考虑的特征个数，可以是整数，就是具体考虑几个特征，也可以是其他比如”sqrt”“log2”，都是对n_features求的，比如sqrt(n_features)。max_features < n_features可以减小方差但是提高了偏差。其实它和subsample都是在一定程度上引入了多样性，使得各个基学习器之间的独立性更大。所以max_features < n_features也能减小一定的误差，但是从图中可以看出并不明显。

Random Forest

random forest 的原理我在上一篇博客里面已经介绍过了，原理很简单，就是在Bagging的基础上加入属性的随机选择，在总的属性集合的子集合中选择最佳属性。但是效果很好，一个很好的优点就是速度快，应该是由于基学习器是并行产生的原因。而这方面AdaBoost的速度就慢很多了。下面是一个比较综合性的一个例子

import numpy as np
import matplotlib.pyplot as plt
from matplotlib.colors import ListedColormap
from sklearn import clone
from sklearn.datasets import load_iris
from sklearn.ensemble import (RandomForestClassifier, ExtraTreesClassifier,
AdaBoostClassifier)
from sklearn.tree import DecisionTreeClassifier

# Parameters
n_classes = 3
n_estimators = 30
cmap = plt.cm.RdYlBu
plot_step = 0.02 # fine step width for decision surface contours
plot_step_coarser = 0.5 # step widths for coarse classifier guesses
RANDOM_SEED = 13 # fix the seed on each iteration

# Load data
iris = load_iris()

plot_idx = 1

models = [DecisionTreeClassifier(max_depth=None),
RandomForestClassifier(n_estimators=n_estimators),
ExtraTreesClassifier(n_estimators=n_estimators),
AdaBoostClassifier(DecisionTreeClassifier(max_depth=3),
n_estimators=n_estimators)]

for pair in ([0, 1], [0, 2], [2, 3]):
    for model in models:
# We only take the two corresponding features
        X = iris.data[:, pair]
        y = iris.target
#选择不同的特征
        # Shuffle
        idx = np.arange(X.shape[0])
        np.random.seed(RANDOM_SEED)
        np.random.shuffle(idx)
        X = X[idx]
        y = y[idx]
        #把数据随机打散
# Standardize
        mean = X.mean(axis=0)
        std = X.std(axis=0)
        X = (X - mean) / std
        #按照正态分布归一化
# Train
        clf = clone(model)
        #这一步好像没啥作用，删了结果也是对的
        clf = model.fit(X, y)
        #拟合模型
        scores = clf.score(X, y)
        #得出分数
# Create a title for each column and the console by using str() and
# slicing away useless parts of the string
        model_title = str(type(model)).split(
        ".")[-1][:-2][:-len("Classifier")]
        #这一步是在处理字符串，把classifier的名字提取出来
        model_details = model_title
        if hasattr(model, "estimators_"):
            model_details += " with {} estimators".format(
                len(model.estimators_))
        print(model_details + " with features", pair,
            "has a score of", scores)

        plt.subplot(3, 4, plot_idx)
        if plot_idx <= len(models):
        # Add a title at the top of each column
            plt.title(model_title)

# Now plot the decision boundary using a fine mesh as input to a
# filled contour plot
        x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
        y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
        xx, yy = np.meshgrid(np.arange(x_min, x_max, plot_step),
            np.arange(y_min, y_max, plot_step))
#上面这还是老套路，画网格
# Plot either a single DecisionTreeClassifier or alpha blend the
# decision surfaces of the ensemble of classifiers
        if isinstance(model, DecisionTreeClassifier):
            Z = model.predict(np.c_[xx.ravel(), yy.ravel()])
            Z = Z.reshape(xx.shape)
            cs = plt.contourf(xx, yy, Z, cmap=cmap)
        else:
# Choose alpha blend level with respect to the number
# of estimators
# that are in use (noting that AdaBoost can use fewer estimators
# than its maximum if it achieves a good enough fit early on)
            estimator_alpha = 1.0 / len(model.estimators_)
            for tree in model.estimators_:
                Z = tree.predict(np.c_[xx.ravel(), yy.ravel()])
                Z = Z.reshape(xx.shape)
                cs = plt.contourf(xx, yy, Z, alpha=estimator_alpha, cmap=cmap)

# Build a coarser grid to plot a set of ensemble classifications
# to show how these are different to what we see in the decision
# surfaces. These points are regularly space and do not have a
# black outline
        xx_coarser, yy_coarser = np.meshgrid(
            np.arange(x_min, x_max, plot_step_coarser),
            np.arange(y_min, y_max, plot_step_coarser))
        Z_points_coarser = model.predict(np.c_[xx_coarser.ravel(),
            yy_coarser.ravel()]).reshape(xx_coarser.shape)
        cs_points = plt.scatter(xx_coarser, yy_coarser, s=15,
            c=Z_points_coarser, cmap=cmap, edgecolors="none")
#画粗网格
# Plot the training points, these are clustered together and have a
# black outline
        plt.scatter(X[:, 0], X[:, 1], c=y,
            cmap=ListedColormap(['r', 'y', 'b']),
            edgecolor='k', s=20)
plot_idx += 1 # move on to the next plot in sequence

plt.suptitle("Classifiers on feature subsets of the Iris dataset")
plt.axis("tight")

plt.show()

看起来代码很长，但是其实思路非常清晰，也没有什么值得说的东西。下面是最终的结果

在我将n_estimators设的比较大的时候就可以明显的感觉出来，其他几个分类器都比较慢，只有Random Forest 很快就计算完。

综上，是集成学习的几个例子，但是我还有很多没有讲到，感兴趣的可以继续深入学习。

李宏毅机器学习笔记——反向传播算法小陈phd 机器学习机器学习算法神经网络
反向传播算法反向传播（Backpropagation）是一种用于训练人工神经网络的算法，它通过计算损失函数相对于网络中每个参数的梯度来更新这些参数，从而最小化损失函数。反向传播是深度学习中最重要的算法之一，通常与梯度下降等优化算法结合使用。反向传播的基本原理反向传播的核心思想是利用链式法则（ChainRule）来高效地计算损失函数相对于每个参数的梯度。以下是反向传播的基本步骤：前向传播（Forwa
Python机器学习笔记：CART算法实战战争热诚
完整代码及其数据，请移步小编的GitHub传送门：请点击我如果点击有误：https://github.com/LeBron-Jian/MachineLearningNote前言在python机器学习笔记：深入学习决策树算法原理一文中我们提到了决策树里的ID3算法，C4.5算法，并且大概的了
机器学习笔记 rl染离机器学习笔记人工智能
什么是机器学习：机器学习是一门多学科交叉专业，涵盖概率论知识，统计学知识，近似理论知识和复杂算法知识，使用计算机作为工具并致力于真实实时的模拟人类学习方式，并将现有内容进行知识结构划分来有效提高学习效率。机器学习有下面几种定义：（1）机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能。（2）机器学习是对能通过经验自动改进的计算机算法的研究。（3）
机器学习笔记（KNN算法）空木幻城机器学习 python 机器学习算法
情景分析现在一个二维平面上有众多点(x1,y1),(x2,y2)...(xn,yn)(x_1,y_1),(x_2,y_2)...(x_n,y_n)(x1,y1),(x2,y2)...(xn,yn)，我也知道它们所属哪个类别，现在给出一个点(x,y)(x,y)(x,y)，问这个点是属于哪个类的。这是一个典型的分类问题重要概念相邻点的个数K相邻点的个数Kknn中最重要的概念就是这个了，也是唯一需要理解
【机器学习笔记】 9 集成学习 RIKI_1 机器学习机器学习笔记集成学习
集成学习方法概述Bagging从训练集中进行子抽样组成每个基模型所需要的子训练集，对所有基模型预测的结果进行综合产生最终的预测结果：假设一个班级每个人的成绩都不太好，每个人单独做的考卷分数都不高，但每个人都把自己会做的部分做了，把所有考卷综合起来得到成绩就会比一个人做的高Boosting训练过程为阶梯状，基模型按次序一一进行训练（实现上可以做到并行），基模型的训练集按照某种策略每次都进行一定的转化
吴恩达机器学习全课程笔记第二篇亿维数组 Machine Learning 机器学习笔记人工智能学习
目录前言P31-P33logistics（逻辑）回归决策边界P34-P36逻辑回归的代价函数梯度下降的实现P37-P41过拟合问题正则化代价函数正则化线性回归正则化logistics回归前言这是吴恩达机器学习笔记的第二篇，第一篇笔记请见：吴恩达机器学习全课程笔记第一篇完整的课程链接如下：吴恩达机器学习教程（bilibili）推荐网站：scikit-learn中文社区吴恩达机器学习学习资料（gith
【机器学习笔记】7 KNN算法 RIKI_1 机器学习机器学习笔记算法
距离度量欧氏距离(Euclideandistance)欧几里得度量（EuclideanMetric）（也称欧氏距离）是一个通常采用的距离定义，指在维空间中两个点之间的真实距离，或者向量的自然长度（即该点到原点的距离）。在二维和三维空间中的欧氏距离就是两点之间的实际距离。曼哈顿距离(Manhattandistance)想象你在城市道路里，要从一个十字路口开车到另外一个十字路口，驾驶距离是两点间的直线
【机器学习笔记】14 关联规则 RIKI_1 机器学习机器学习笔记人工智能
关联规则概述关联规则（AssociationRules）反映一个事物与其他事物之间的相互依存性和关联性。如果两个或者多个事物之间存在一定的关联关系，那么，其中一个事物就能够通过其他事物预测到。关联规则可以看作是一种IF-THEN关系。假设商品A被客户购买，那么在相同的交易ID下，商品B也被客户挑选的机会就被发现了。有没有发生过这样的事：你出去买东西，结果却买了比你计划的多得多的东西？这是一种被称为
【机器学习笔记】13 降维 RIKI_1 机器学习机器学习笔记人工智能
降维概述维数灾难维数灾难(CurseofDimensionality)：通常是指在涉及到向量的计算的问题中，随着维数的增加，计算量呈指数倍增长的一种现象。在很多机器学习问题中，训练集中的每条数据经常伴随着上千、甚至上万个特征。要处理这所有的特征的话，不仅会让训练非常缓慢，还会极大增加搜寻良好解决方案的困难。这个问题就是我们常说的维数灾难。维数灾难涉及数字分析、抽样、组合、机器学习、数据挖掘和数据库
【机器学习笔记】8 决策树 RIKI_1 机器学习机器学习笔记决策树
决策树原理决策树是从训练数据中学习得出一个树状结构的模型。决策树属于判别模型。决策树是一种树状结构，通过做出一系列决策（选择）来对数据进行划分，这类似于针对一系列问题进行选择。决策树的决策过程就是从根节点开始，测试待分类项中对应的特征属性，并按照其值选择输出分支，直到叶子节点，将叶子节点的存放的类别作为决策结果。以下小美相亲的例子就是决策树决策树算法是一种归纳分类算法，它通过对训练集的学习，挖掘出
【机器学习笔记】 15 机器学习项目流程 RIKI_1 机器学习机器学习笔记人工智能
机器学习的一般步骤数据清洗数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序，包括检查数据一致性，处理无效值和缺失值等。与问卷审核不同，录入后的数据清理一般是由计算机而不是人工完成。探索性数据分析(EDA探索性数据分析（EDA）是一个开放式流程，我们制作绘图并计算统计数据，以便探索我们的数据。目的是找到异常，模式，趋势或关系。这些可能是有趣的（例如，找到两个变量之间的相关性），或者它们可用
【机器学习笔记】5 机器学习实践 RIKI_1 机器学习机器学习笔记人工智能
数据集划分子集划分训练集（TrainingSet）：帮助我们训练模型，简单的说就是通过训练集的数据让我们确定拟合曲线的参数。验证集（ValidationSet）：也叫做开发集（DevSet），用来做模型选择（modelselection），即做模型的最终优化及确定的，用来辅助我们的模型的构建，即训练超参数，可选；测试集（TestSet）：为了测试已经训练好的模型的精确度。三者划分：训练集、验证集、
【机器学习笔记】11 支持向量机 RIKI_1 机器学习机器学习笔记支持向量机
支持向量机（SupportVectorMachine,SVM）支持向量机是一类按监督学习（supervisedlearning）方式对数据进行二元分类的广义线性分类器（generalizedlinearclassifier），其决策边界是对学习样本求解的最大边距超平面（maximum-marginhyperplane）。与逻辑回归和神经网络相比，支持向量机，在学习复杂的非线性方程时提供了一种更为清
【机器学习笔记】12 聚类 RIKI_1 机器学习机器学习笔记聚类
无监督学习概述监督学习在一个典型的监督学习中，训练集有标签，我们的目标是找到能够区分正样本和负样本的决策边界，需要据此拟合一个假设函数。无监督学习与此不同的是，在无监督学习中，我们的数据没有附带任何标签，无监督学习主要分为聚类、降维、关联规则、推荐系统等方面。主要的无监督学习方法聚类（Clustering）如何将教室里的学生按爱好、身高划分为5类？降维（DimensionalityReductio
【机器学习笔记】4 朴素贝叶斯 RIKI_1 机器学习机器学习笔记人工智能
贝叶斯方法贝叶斯分类贝叶斯分类是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。朴素贝叶斯分类是这一类算法中最简单的较为常见的算法。先验概率根据以往经验和分析得到的概率。我们用()来代表在没有训练数据前假设拥有的初始概率。后验概率根据已经发生的事件来分析得到的概率。以(|)代表假设成立的情下观察到数据的概率，因为它反映了在看到训练数据后成立的置信度。联合概率是指在多元的概率分
【机器学习笔记】 6 机器学习库Scikit-learn RIKI_1 机器学习机器学习笔记 scikit-learn
Scikit-learn概述Scikit-learn是基于NumPy、SciPy和Matplotlib的开源Python机器学习包,它封装了一系列数据预处理、机器学习算法、模型选择等工具,是数据分析师首选的机器学习工具包。自2007年发布以来，scikit-learn已经成为Python重要的机器学习库了，scikit-learn简称sklearn，支持包括分类，回归，降维和聚类四大机器学习算法。
【机器学习笔记】10 人工神经网络 RIKI_1 机器学习机器学习笔记人工智能
人工神经网络发展史1943年，心理学家McCulloch和逻辑学家Pitts建立神经网络的数学模型，MP模型每个神经元都可以抽象为一个圆圈，每个圆圈都附带特定的函数称之为激活函数，每两个神经元之间的连接的大小的加权值即为权重。1960年代，人工网络得到了进一步地发展感知机和自适应线性元件等被提出。M.Minsky仔细分析了以感知机为代表的神经网络的局限性，指出了感知机不能解决非线性问题，这极大影响
【机器学习笔记】3 逻辑回归 RIKI_1 机器学习机器学习笔记逻辑回归
分类问题分类问题监督学习最主要的类型，主要特征是标签离散，逻辑回归是解决分类问题的常见算法，输入变量可以是离散的也可以是连续的二分类先从用蓝色圆形数据定义为类型1，其余数据为类型2；只需要分类1次，步骤：①->②多分类问题先定义其中一类为类型1（正类），其余数据为负类（rest）；接下来去掉类型1数据，剩余部分再次进行二分类，分成类型2和负类；如果有类，那就需要分类-1次,步骤：①->②->③->
【百面机器学习笔记】模型评估葡萄肉多
模型评估指标准确率（Accuracy）准确率是指分类正确的样本占总样本个数的比例。Accuracy=n(correct)/n(total)当负样本占99%时，分类器把所有样本都预测为负样本也可以获得99%的准确率。所以，当不同类别的样本比例非常不均衡时，占比大的类别往往成为影响准确率的最主要因素。精确率（Precision）&召回率（Recall）精确率是指分类正确的正样本个数占分类器判定为正样本
李宏毅机器学习笔记 2.回归 Simone Zeng 机器学习机器学习
最近在跟着Datawhale组队学习打卡，学习李宏毅的机器学习/深度学习的课程。课程视频：https://www.bilibili.com/video/BV1Ht411g7Ef开源内容：https://github.com/datawhalechina/leeml-notes本篇文章对应视频中的P3。另外，最近我也在学习邱锡鹏教授的《神经网络与深度学习》，会补充书上的一点内容。通过上一次课1.机器
【机器学习笔记】基于实例的学习住在天上的云机器学习机器学习笔记学习 KNN 实例学习
基于实例的学习文章目录基于实例的学习1基本概念与最近邻方法2K-近邻（KNN）3距离加权KNN4基于实例/记忆的学习器5局部加权回归5多种回归方式对比6懒惰学习与贪婪学习动机：人们通过记忆和行动来推理学习。1基本概念与最近邻方法名词概念参数化设定一个特定的函数形式优点：简单，容易估计和解释可能存在很大的偏置：实际的数据分布可能不遵循假设的分布非参数化：分布或密度的估计是数据驱动的（data-dri
fast.ai 机器学习笔记（一）绝不原创的飞龙人工智能人工智能 python
机器学习1：第1课原文：medium.com/@hiromi_suenaga/machine-learning-1-lesson-1-84a1dc2b5236译者：飞龙协议：CCBY-NC-SA4.0来自机器学习课程的个人笔记。随着我继续复习课程以“真正”理解它，这些笔记将继续更新和改进。非常感谢Jeremy和Rachel给了我这个学习的机会。简要课程大纲根据时间和班级兴趣，我们将涵盖类似以下内容
fast.ai 机器学习笔记（四）绝不原创的飞龙人工智能人工智能 python
机器学习1：第11课原文：medium.com/@hiromi_suenaga/machine-learning-1-lesson-11-7564c3c18bbb译者：飞龙协议：CCBY-NC-SA4.0来自机器学习课程的个人笔记。随着我继续复习课程以“真正”理解它，这些笔记将继续更新和改进。非常感谢Jeremy和Rachel给了我这个学习的机会。使用SGD优化多层函数的回顾[0:00]这个想法是
机器学习笔记（3）：误差、复杂度曲线、学习曲线等链原力
本文来自之前在Udacity上自学机器学习的系列笔记。这是第3篇，介绍了模型的误差类型、误差的由来、找到模型适合的参数、以及避免欠拟合和过拟合的方法。1.诊断误差1.1.误差类型我们的预测或者分类的结果与实际结果相比较，会存在一定的误差，误差越小，表示结果越好。一般有两种误差来源，欠拟合和过拟合。将问题看得过于简单导致了欠拟合（Underfitting），将问题看得过于复杂导致了过拟合（Overf
fast.ai 机器学习笔记（三）绝不原创的飞龙人工智能人工智能 python
机器学习1：第8课原文：medium.com/@hiromi_suenaga/machine-learning-1-lesson-8-fa1a87064a53译者：飞龙协议：CCBY-NC-SA4.0来自机器学习课程的个人笔记。随着我继续复习课程以“真正”理解它，这些笔记将继续更新和改进。非常感谢Jeremy和Rachel给了我这个学习的机会。广义定义的神经网络视频/笔记本正如我们在上一课结束时讨
fast.ai 机器学习笔记（二）绝不原创的飞龙人工智能人工智能 python
机器学习1：第5课原文：medium.com/@hiromi_suenaga/machine-learning-1-lesson-5-df45f0c99618译者：飞龙协议：CCBY-NC-SA4.0来自机器学习课程的个人笔记。随着我继续复习课程以“真正”理解它，这些笔记将继续更新和改进。非常感谢Jeremy和Rachel给了我这个学习的机会。视频复习测试集，训练集，验证集和OOB我们有一个数据集
政安晨：示例演绎机器学习中（深度学习）神经网络的数学基础——快速理解核心概念（一）{两篇文章讲清楚} 政安晨政安晨的机器学习笔记神经网络人工智能深度学习 Python 数学基础机器学习 Conda
进入人工智能领域免不了与算法打交道，算法依托数学基础，很多小伙伴可能新生畏惧，不用怕，算法没那么难，也没那么玄乎，未来人工智能时代说不得人人都要了解算法、应用算法。本文试图以一篇文章，用程序演绎的方式给大家把这里面的数学基础先讲清楚，以便于咱们未来深入，呵呵。第一次接触机器学习的小伙伴，环境搭建参考我的这篇文章（只参考这个里面关于环境搭建的部分就可以）：政安晨的机器学习笔记——跟着演练快速理解Te
【机器学习笔记】贝叶斯学习住在天上的云机器学习机器学习笔记学习贝叶斯学习人工智能
贝叶斯学习文章目录贝叶斯学习1贝叶斯学习背景2贝叶斯定理3最大后验假设MAP(MaxAPosterior)4极大似然假设ML(MaximumLikelihood)5朴素贝叶斯NB6最小描述长度MDL1贝叶斯学习背景试图发现两件事情的关系（因果关系，先决条件&结论）。执果索因：肺炎→肺癌？不好确定，换成确诊肺癌得肺炎的概率2贝叶斯定理贝叶斯定理是一种用先验慨率来推断后验慨率的公式，它可以表示为：P(
【机器学习笔记】决策树住在天上的云机器学习机器学习笔记决策树
决策树文章目录决策树1决策树学习基础2经典决策树算法3过拟合问题1决策树学习基础适用决策树学习的经典目标问题带有非数值特征的分类问题离散特征没有相似度概念特征无序例子：SkyTempHumidWindWaterForecastEnjoySunnyWarmNormalStrongWarmSameYesSunnyWarmHighStrongWarmSameYesRainyColdHighStrongW
【机器学习笔记】回归算法住在天上的云机器学习笔记回归线性回归人工智能
回归算法文章目录回归算法1线性回归2损失函数3多元线性回归4线性回归的相关系数1线性回归回归分析(Regression)回归分析是描述变量间关系的一种统计分析方法例：在线教育场景因变量Y：在线学习课程满意度自变量X：平台交互性、教学资源、课程设计预测性的建模技术，通常用于预测分析，预测的结果多为连续值（也可为离散值，二值）线性回归(Linearregression)因变量和自变量之间是线性关系，就
HQL之投影查询归来朝歌 HQL Hibernate 查询语句投影查询
在HQL查询中，常常面临这样一个场景，对于多表查询，是要将一个表的对象查出来还是要只需要每个表中的几个字段，最后放在一起显示？针对上面的场景，如果需要将一个对象查出来： HQL语句写“from 对象”即可 Session session = HibernateUtil.openSession();
Spring整合redis bylijinnan redis
pom.xml <dependencies>  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redi
org.hibernate.NonUniqueResultException: query did not return a unique result: 2 0624chenhong Hibernate
参考：http://blog.csdn.net/qingfeilee/article/details/7052736 org.hibernate.NonUniqueResultException: query did not return a unique result: 2 在项目中出现了org.hiber
android动画效果不懂事的小屁孩 android动画
前几天弄alertdialog和popupwindow的时候，用到了android的动画效果，今天专门研究了一下关于android的动画效果，列出来，方便以后使用。 Android 平台提供了两类动画。一类是Tween动画，就是对场景里的对象不断的进行图像变化来产生动画效果（旋转、平移、放缩和渐变）。第二类就是 Frame动画，即顺序的播放事先做好的图像，与gif图片原理类似。
js delete 删除机理以及它的内存泄露问题的解决方案换个号韩国红果果 JavaScript
delete删除属性时只是解除了属性与对象的绑定，故当属性值为一个对象时，删除时会造成内存泄露（其实还未删除）举例： var person={name:{firstname:'bob'}} var p=person.name delete person.name p.firstname -->'bob' // 依然可以访问p.firstname，存在内存泄露
Oracle将零干预分析加入网络即服务计划蓝儿唯美 oracle
由Oracle通信技术部门主导的演示项目并没有在本月较早前法国南斯举行的行业集团TM论坛大会中获得嘉奖。但是，Oracle通信官员解雇致力于打造一个支持零干预分配和编制功能的网络即服务（NaaS）平台，帮助企业以更灵活和更适合云的方式实现通信服务提供商（CSP）的连接产品。这个Oracle主导的项目属于TM Forum Live!活动上展示的Catalyst计划的19个项目之一。Catalyst计
spring学习——springmvc（二） a-john springMVC
Spring MVC提供了非常方便的文件上传功能。 1，配置Spring支持文件上传： DispatcherServlet本身并不知道如何处理multipart的表单数据，需要一个multipart解析器把POST请求的multipart数据中抽取出来，这样DispatcherServlet就能将其传递给我们的控制器了。为了在Spring中注册multipart解析器，需要声明一个实现了Mul
POJ-2828-Buy Tickets aijuans ACM_POJ
POJ-2828-Buy Tickets http://poj.org/problem?id=2828 线段树，逆序插入 #include<iostream>#include<cstdio>#include<cstring>#include<cstdlib>using namespace std;#define N 200010struct
Java Ant build.xml详解 asia007 build.xml
1,什么是antant是构建工具2,什么是构建概念到处可查到，形象来说，你要把代码从某个地方拿来，编译，再拷贝到某个地方去等等操作，当然不仅与此，但是主要用来干这个3,ant的好处跨平台 --因为ant是使用java实现的，所以它跨平台使用简单--与ant的兄弟make比起来语法清晰--同样是和make相比功能强大--ant能做的事情很多，可能你用了很久，你仍然不知道它能有
android按钮监听器的四种技术百合不是茶 android xml配置监听器实现接口
android开发中经常会用到各种各样的监听器,android监听器的写法与java又有不同的地方; 1,activity中使用内部类实现接口 ,创建内部类实例使用add方法与java类似创建监听器的实例 myLis lis = new myLis(); 使用add方法给按钮添加监听器
软件架构师不等同于资深程序员 bijian1013 程序员架构师架构设计
本文的作者Armel Nene是ETAPIX Global公司的首席架构师，他居住在伦敦，他参与过的开源项目包括 Apache Lucene,，Apache Nutch， Liferay 和 Pentaho等。如今很多的公司
TeamForge Wiki Syntax & CollabNet User Information Center sunjing TeamForge How do Attachement Anchor Wiki Syntax
the CollabNet user information center http://help.collab.net/ How do I create a new Wiki page? A CollabNet TeamForge project can have any number of Wiki pages. All Wiki pages are linked, and
【Redis四】Redis数据类型 bit1129 redis
概述 Redis是一个高性能的数据结构服务器，称之为数据结构服务器的原因是，它提供了丰富的数据类型以满足不同的应用场景，本文对Redis的数据类型以及对这些类型可能的操作进行总结。 Redis常用的数据类型包括string、set、list、hash以及sorted set.Redis本身是K/V系统，这里的数据类型指的是value的类型，而不是key的类型，key的类型只有一种即string
SSH2整合-附源码白糖_ eclipse spring tomcat Hibernate Google
今天用eclipse终于整合出了struts2+hibernate+spring框架。我创建的是tomcat项目，需要有tomcat插件。导入项目以后，鼠标右键选择属性，然后再找到“tomcat”项，勾选一下“Is a tomcat project”即可。具体方法见源码里的jsp图片，sql也在源码里。补充1：项目中部分jar包不是最新版的，可能导
[转]开源项目代码的学习方法 braveCS 学习方法
转自： http://blog.sina.com.cn/s/blog_693458530100lk5m.html http://www.cnblogs.com/west-link/archive/2011/06/07/2074466.html 1）阅读features。以此来搞清楚该项目有哪些特性2）思考。想想如果自己来做有这些features的项目该如何构架3）下载并安装d
编程之美-子数组的最大和（二维） bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; import java.util.Random; public class MaxSubArraySum2 { /** * 编程之美子数组之和的最大值（二维） */ private static final int ROW = 5; private stat
读书笔记-3 chengxuyuancsdn jquery笔记 resultMap配置 ibatis一对多配置
1、resultMap配置 2、ibatis一对多配置 3、jquery笔记 1、resultMap配置当<select resultMap="topic_data"> <resultMap id="topic_data">必须一一对应。 (1)<resultMap class="tblTopic&q
[物理与天文]物理学新进展 comsci
如果我们必须获得某种地球上没有的矿石,才能够进行某些能量输出装置的设计和建造,而要获得这种矿石,又必须首先进行深空探测,而要进行深空探测,又必须获得这种能量输出装置,这个矛盾的循环,会导致地球联盟在与宇宙文明建立关系的时候,陷入困境怎么办呢?
Oracle 11g新特性:Automatic Diagnostic Repository daizj oracle ADR
Oracle Database 11g的FDI（Fault Diagnosability Infrastructure）是自动化诊断方面的又一增强。 FDI的一个关键组件是自动诊断库（Automatic Diagnostic Repository-ADR）。在oracle 11g中，alert文件的信息是以xml的文件格式存在的，另外提供了普通文本格式的alert文件。这两份log文
简单排序:选择排序 dieslrae 选择排序
public void selectSort(int[] array){ int select; for(int i=0;i<array.length;i++){ select = i; for(int k=i+1;k<array.leng
C语言学习六指针的经典程序，互换两个数字 dcj3sjt126com c
示例程序，swap_1和swap_2都是错误的，推理从1开始推到2，2没完成，推到3就完成了 # include <stdio.h> void swap_1(int, int); void swap_2(int *, int *); void swap_3(int *, int *); int main(void) { int a = 3; int b =
php 5.4中php-fpm 的重启、终止操作命令 dcj3sjt126com PHP
php 5.4中php-fpm 的重启、终止操作命令: 查看php运行目录命令：which php/usr/bin/php 查看php-fpm进程数：ps aux | grep -c php-fpm 查看运行内存/usr/bin/php -i|grep mem 重启php-fpm/etc/init.d/php-fpm restart 在phpinfo()输出内容可以看到php
线程同步工具类 shuizhaosi888 同步工具类
同步工具类包括信号量（Semaphore）、栅栏（barrier）、闭锁（CountDownLatch）闭锁（CountDownLatch） public class RunMain { public long timeTasks(int nThreads, final Runnable task) throws InterruptedException { fin
bleeding edge是什么意思 haojinghua DI
不止一次，看到很多讲技术的文章里面出现过这个词语。今天终于弄懂了——通过朋友给的浏览软件，上了wiki。我再一次感到，没有辞典能像WiKi一样，给出这样体贴人心、一清二楚的解释了。为了表达我对WiKi的喜爱，只好在此一一中英对照，给大家上次课。 In computer science, bleeding edge is a term that
c中实现utf8和gbk的互转 jimmee c iconv utf8&gbk编码
#include <iconv.h> #include <stdlib.h> #include <stdio.h> #include <unistd.h> #include <fcntl.h> #include <string.h> #include <sys/stat.h> int code_c
大型分布式网站架构设计与实践 lilin530 应用服务器搜索引擎
1.大型网站软件系统的特点？ a.高并发，大流量。 b.高可用。 c.海量数据。 d.用户分布广泛，网络情况复杂。 e.安全环境恶劣。 f.需求快速变更，发布频繁。 g.渐进式发展。 2.大型网站架构演化发展历程？ a.初始阶段的网站架构。应用程序，数据库，文件等所有的资源都在一台服务器上。 b.应用服务器和数据服务器分离。 c.使用缓存改善网站性能。 d.使用应用
在代码中获取Android theme中的attr属性值 OliveExcel android theme
Android的Theme是由各种attr组合而成, 每个attr对应了这个属性的一个引用, 这个引用又可以是各种东西. 在某些情况下, 我们需要获取非自定义的主题下某个属性的内容 (比如拿到系统默认的配色colorAccent), 操作方式举例一则: int defaultColor = 0xFF000000; int[] attrsArray = { andorid.r.
基于Zookeeper的分布式共享锁 roadrunners zookeeper 分布式共享锁
首先，说说我们的场景，订单服务是做成集群的，当两个以上结点同时收到一个相同订单的创建指令，这时并发就产生了，系统就会重复创建订单。等等......场景。这时，分布式共享锁就闪亮登场了。共享锁在同一个进程中是很容易实现的，但在跨进程或者在不同Server之间就不好实现了。Zookeeper就很容易实现。具体的实现原理官网和其它网站也有翻译，这里就不在赘述了。官
两个容易被忽略的MySQL知识 tomcat_oracle mysql
1、varchar(5)可以存储多少个汉字，多少个字母数字？　　相信有好多人应该跟我一样，对这个已经很熟悉了，根据经验我们能很快的做出决定，比如说用varchar(200)去存储url等等，但是，即使你用了很多次也很熟悉了，也有可能对上面的问题做出错误的回答。　　这个问题我查了好多资料，有的人说是可以存储5个字符，2.5个汉字（每个汉字占用两个字节的话），有的人说这个要区分版本，5.0
zoj 3827 Information Entropy(水题) 阿尔萨斯 format
题目链接：zoj 3827 Information Entropy 题目大意：三种底，计算和。解题思路：调用库函数就可以直接算了，不过要注意Pi = 0的时候，不过它题目里居然也讲了。。。limp→0+plogb(p)=0，因为p是logp的高阶。 #include <cstdio> #include <cstring> #include <cmath&

scikit-learn中集成学习（ensemble learn）的例子与实践

AdaBoost

Gradient Boosting

Random Forest

你可能感兴趣的:(机器学习笔记)