sevieryang

集成学习笔记整理1

集成学习（集成方法）是一种解决问题的思想（不是具体的算法）。操作为将若干个基本评估器(分类器&回归器)进行组合，然后使用这些基本评估器来综合对未知样本进行预测。通过这种“集思广益”的行为，比起使用单个基本评估器进行预测，集成学习具有更好的泛化能力与稳健性。

1. 集成学习分类

集成学习可以分为以下两类：

平均方法
训练多个独立的基本评估器（评估器之间没有关联），然后对多个评估器的预测结果进行平均化。如果是分类任务，则使用多个评估器预测结果中，类别最多的作为预测结果。如果是回归任务，则使用多个评估器预测结果的均值作为预测结果。
平均方法通过综合考量的行为，可以有效的减少方差，因此，其预测结果通常可以优于任何一个基本评估器。
增强方法
多个基本评估器是按顺序训练的，然后将若干个模型（通常是弱评估器）进行组合，进而产生一个预测能力强的模型。与平均方法不同，增强方法的多个基本评估器不是独立的，后续评估器需要依赖于之前评估器，训练过程中，会试图减少组合之后评估器的偏差。

2. 集成学习效果

我们以二分类为例，如果存在n个分类器，每个分类器的错误率都为e且各个分类器之间是独立的。因此，多个分类器集成之后的错误率服从二项分布，其中，k个分类器出错的概率密度可表示为：
$P(y=k) = C_n^ke^k(1-e)^{n-k}$
假设现有11个分类器，单个分类器的错误率为0.25，则如果集成分类器出错，则至少需要6个（或6个以上）的分类器出错，集成后分类器出错的概率密度为：
$P(y\geqslant k) = \sum_{k=6}^{n}C_{11}^k0.25^k * 0.75^{11-k} = 0.034$
可见，集成后分类器的出错率要远小于单个分类器的出错率。

# 计算组合值。
from scipy.special import comb
import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt

mpl.rcParams["font.family"] = "SimHei"
mpl.rcParams["axes.unicode_minus"] = False

# 用来计算集成分类器发生错误的概率密度值。
# n：基本评估器的数量。
# error：每一个基本评估器发生错误的概率。
def ensemble_error(n, error):
    # 如果要使集成评估器预测错误，则需要半数以上的基本评估器发生错误。
    # 这里计算半数评估器的值。
    start = np.ceil(n / 2.0)
    # 计算令集成评估器发生错误，基本评估器错误个数的区间。
    k = np.arange(start, n + 1)
    v = comb(n, k) * error ** k * (1-error) ** (n - k)
    return np.sum(v, axis=1)

# 定义基本评估器发生错误的概率区间。
error = np.arange(0.0, 1.01, 0.01)
# 计算在不同error取值的情况下，集成评估器发生错误的概率。
ens_errors = ensemble_error(n=11, error=error[:, np.newaxis])
plt.plot(error, ens_errors, label="集成分类器")
plt.plot(error, error, linestyle="--", label="基本分类器")
plt.xlabel("基本分类器错误率")
plt.ylabel("基本/集成分类器错误率")
plt.legend(loc="best")
plt.title("集成分类器效果")
plt.grid()
plt.show()

def ensemble_error(n, error):
    # 如果要使集成评估器预测错误，则需要半数以上的基本评估器发生错误。
    # 这里计算半数评估器的值。
    start = np.ceil(n / 2.0)
    # 计算令集成评估器发生错误，基本评估器错误个数的区间。
    k = np.arange(start, n + 1)
    v = comb(n, k) * error ** k * (1-error) ** (n - k)
    print(v)
    return np.sum(v, axis=1)

ensemble_error(11, np.array([[0.25], [0.35]]))

3. Bagging

Bagging方法也称为汇聚法(Bootstrap Aggregating)，该模型是一种元评估器。方法过程为：在原始数据集上进行随机抽样（抽样可以是放回抽样与不放回抽样），使用得到的随机子集来训练评估器，该过程重复若干次。然后使用得到的若干个评估器（一次训练获取一个评估器），最后聚合每个单独的评估器的预测，形成最终的预测结果。
预测会使用多数投票（分类）或者求均值（回归）的方式来统计最终的结果（平均方法）。

3.1 优势

bagging方法通过随机抽样来构建原始数据集的子集，来训练不同的基本评估器，然后再将多个基本评估器进行组合来预测结果，这样可以有效减小基本评估器的方差。因此，通过bagging方法，就可以非常便捷的对基本评估器进行改进，而无需去修改基本评估器底层的实现。
因为bagging方法可以有效的降低过拟合，因此，bagging方法适用于强大而复杂的模型。

3.2 bagging分类示例

from sklearn.datasets import make_classification
from sklearn.linear_model import LogisticRegression
# sklearn.ensemble 该模块存放的都是关于集成算法相关的内容。 
# BaggingClassifier sklearn中提供用于分类的bagging模型。
# RandomForestClassifier sklearn中体用用于分类的随机森林模型。
from sklearn.ensemble import BaggingClassifier, RandomForestClassifier
from sklearn.model_selection import train_test_split

X, y = make_classification(n_samples=1000, n_features=20, n_informative=15, n_classes=3, random_state=0)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=0)

lr = LogisticRegression()
lr.fit(X_train, y_train)
print("逻辑回归准确率：")
print(lr.score(X_train, y_train))
print(lr.score(X_test, y_test))
print("bagging准确率：")
# base_estimator：指定基本评估器。即bagging算法所组合的评估器。
# n_estimators：基本评估器的数量。（有多少个评估器，就会进行多少次随机采样，就会产生多少个原始数据集的子集。）
# max_samples：每次随机采样的样本数量。该参数可以是int类型或float类型。如果是int类型，则指定采样的样本数量。
# 如果是float类型，则指定采样占原始数据集的比例。
# max_features：每次随机采样的特征数量。可以是int类型或float类型。
# bootstrap：指定是否进行放回抽样。默认为True。
# bootstrap_features：指定对特征是否进行重复抽取。默认为False。
bag = BaggingClassifier(lr, n_estimators=100, max_samples=0.5, max_features=0.75)
bag.fit(X, y)
print(bag.score(X_train, y_train))
print(bag.score(X_test, y_test))
print("随机森林准确率：")
# n_estimators：随机森林评估器（决策树）的数量。
# criterion不存度度量方式。
# max_depth：树的最大深度。
# min_samples_split：节点最小分裂的样本数量。
# max_features：选择特征的数量。
# bootstrap：是否放回抽样。
rf = RandomForestClassifier(n_estimators=100, criterion="gini", random_state=0)
rf.fit(X, y)
print(rf.score(X_train, y_train))
print(rf.score(X_test, y_test))

3.3 bagging回归示例

from sklearn.datasets import load_diabetes
from sklearn.linear_model import LinearRegression
# sklearn提供的用于回归的bagging模型。
# sklearn提供的用于回归的随机深林模型。
from sklearn.ensemble import BaggingRegressor, RandomForestRegressor
from sklearn.model_selection import train_test_split

X, y = load_diabetes(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=0)

lr = LinearRegression()
lr.fit(X_train, y_train)
print("线性回归R ^ 2值：")
print(lr.score(X_train, y_train))
print(lr.score(X_test, y_test))
bag = BaggingRegressor(lr, n_estimators=100, max_samples=0.5, max_features=0.75)
bag.fit(X, y)
print("bagging R ^ 2值：")
print(bag.score(X_train, y_train))
print(bag.score(X_test, y_test))
print("随机森林准确率：")
rf = RandomForestRegressor(n_estimators=100, criterion="mse", random_state=0)
rf.fit(X, y)
print(rf.score(X_train, y_train))
print(rf.score(X_test, y_test))

3.4 结论

从以上两例的运行结果可知，bagging算法可以降低模型的方差，但是，在降低模型偏差方面，作用不大。

4. 随机森林(Random Forest)

随机森林(Random Forest)是一种元评估器，其使用原始数据集的子集来训练多棵决策树，并使用平均方法来计算预测结果。在随机森林中，用于训练决策树的子集样本数量与原始数据集的样本数量是相同的，其实现为：

从原始数据集中选出m个样本用于训练（原始数据集的样本数量也为m）。
使用这m个样本来构建一棵决策树。
- 从所有特征中随机选择K个特征（特征不重复）。
- 根据目标函数的要求（如最大信息增益），使用选定的特征对节点进行划分。
重复以上两步n次，即建立n棵决策树。
这n棵决策树形成随机森林，通过投票表决结果或均值决定最终的预测值。

关于随机森林，具有如下的说明：

用于训练决策树（基本评估器）的数据子集，其样本数量与原始数据集的样本数量相同。
默认情况下，随机森林中的决策树在拆分节点时，不再从所有特征中选择最优的特征，而是从随机的特征子集中，选择最优的一个特征。
由于这种随机性，随机森林的偏差通常会略微增加（相对于单个非随机决策树的偏差），但由于使用多棵决策树平均预测，其方差也会减小，从而从整体上来讲，模型更加优秀。
在分类预测时，scikit-learn中使用概率的平均值进行预测，而不是让每个分类器对单个类别进行投票。
对于回归任务，通常设置max_features=n_features，对于分类任务，通常设置max_features=sqrt(n_features)。
max_depth=None结合min_samples_split=2，通常可以获得很好的结果，但是，这往往会消耗大量的内存。

4.1 随机森林程序(with codes)

将之前bagging的两个示例，去掉注释，查看随机森林模型在分类与回归问题上的效果。

from sklearn.datasets import make_regression
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split

X, y = make_regression(n_samples=1000, noise=10, random_state=0, bias=5.5)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)
lr = LinearRegression()
lr.fit(X_train, y_train)
print("线性回归结果：")
print(lr.score(X_train, y_train))
print(lr.score(X_test, y_test))
rf = RandomForestRegressor(n_estimators=100, criterion="mse")
rf.fit(X_train, y_train)
print("随机森林结果：")
print(rf.score(X_train, y_train))
print(rf.score(X_test, y_test))

# 葡萄酒数据集
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn.ensemble import BaggingClassifier, RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier

X, y = load_wine(return_X_y=True)
# 为了可视化方便，简化操作，我们只取两个特征。
X = X[:, [0, 10]]
# 我们过滤掉0的类别，只取两个类别。
X = X[y != 0]
y = y[y != 0]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=0)

tree = DecisionTreeClassifier(criterion="entropy", max_depth=None)
tree = tree.fit(X_train, y_train)
print("决策树分类准确率：")
print(tree.score(X_train, y_train))
print(tree.score(X_test, y_test))
# n_jobs 开辟进程的数量。如果指定-1，则表示利用现有的所有CPU来实现并行化。
bag = BaggingClassifier(base_estimator=tree, n_estimators=100, max_samples=1.0, max_features=1.0,
        bootstrap=True, bootstrap_features=False, n_jobs=-1, random_state=1)
bag = bag.fit(X_train, y_train)
print("bagging准确率：")
print(bag.score(X_train, y_train))
print(bag.score(X_test, y_test))
rf = RandomForestClassifier(n_estimators=100, criterion="gini", random_state=0, max_depth=None)
rf.fit(X_train, y_train)
print("随机森林准确率：")
print(rf.score(X_train, y_train))
print(rf.score(X_test, y_test))

import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt
from matplotlib.colors import ListedColormap

mpl.rcParams["font.family"] = "SimHei"
mpl.rcParams["axes.unicode_minus"] = False

cmap = ListedColormap(["r", "g"])
marker = ["o", "v"]
x1_min, x2_min = np.min(X_test, axis=0)
x1_max, x2_max = np.max(X_test, axis=0)
x1 = np.linspace(x1_min - 1, x1_max + 1, 100)
x2 = np.linspace(x2_min - 1, x2_max + 1, 100)
X1, X2 = np.meshgrid(x1, x2)
plt.figure(figsize=(18, 6))
name = ["决策树", "bagging", "随机森林"]
for index, estimator in enumerate([tree, bag, rf], start=1):
    plt.subplot(1, 3, index)
    for i, class_ in enumerate(np.unique(y)):
        Z = estimator.predict(np.array([X1.ravel(), X2.ravel()]).T).reshape(X1.shape)
        plt.contourf(X1, X2, Z, cmap=cmap, alpha=0.5)
        plt.scatter(x=X_test[y_test == class_, 0], y=X_test[y_test == class_, 1], 
                c=cmap(i), label=class_, marker=marker[i])
    plt.title(name[index - 1])
    plt.xlabel("色度")
    plt.ylabel("酒精含量")
    plt.legend()
plt.show()

5. boosting

在之前的bagging与随机森林的构建过程中，各个评估器之间没有关系，是相对独立的。例如，在随机森林构建的过程中，构建第m棵子树的时候，不会考虑前面的m-1棵树。
如果在构建过程中，后面的评估器是建立在之前的评估器上的，则就是另外一种集成学习——boosting。
提升学习（Boosting）是一种机器学习技术，可以用于回归和分类的问题，其每一步产生弱预测模型，并加权累加到总模型中。

6. AdaBoost

Adaptive Boosting（AdaBoost）是一种迭代算法。每轮迭代中会在训练集上产生一个新的学习器，然后使用该学习器对所有样本进行预测，以评估每个样本的重要性。
算法会为每个样本赋予一个权重，每次用训练好的学习器标注/预测各个样本，如果某个样本点被预测的越正确，则将其权重降低；否则提高样本的权重。权重越高的样本在下一个迭代训练中所占的比重就越大，也就是说越难区分的样本在训练过程中会变得越重要。整个迭代过程直到错误率足够小或者达到一定的迭代次数为止。

Adaboost算法将基本学习器的线性组合作为强学习器，同时给误差率较小的基本学习器以较大的权重，给误差率较大的基本学习器以较小的权重。构建的线性组合为：
$\sum_{i=1}^{m}\alpha_iG_i(x)$
其中， $\alpha$ 就是每个基本学习器的权重。
对于分类，则在最终的结果上进行sign函数的转换即可：
$sign(\sum_{i=1}^{m}\alpha_iG_i(x))$

6.1 权重说明

Adaboost算法含有两个权重，一个是样本的权重，一个是评估器（基本的学习器）的权重，不要混淆。

6.2 AdaBoost算法步骤

AdaBoost算法步骤如下（以分类为例）：

初始化每个样本的权重 $w$ ，使得所有样本的权重初始值相同，并且权重和为1。
在第m轮操作中，使用具有权重 $w_m$ 的样本训练基本学习器 $G_m(x)$ 。
使用基本学习器 $G_m(x)$ 预测样本输出值 $\hat{y}$ 。
计算含有权重的错误率： $\epsilon_m=w_m \cdot (y \neq \hat{y})$
计算基本学习器 $G_m(x)$ 的权重系数： $\alpha_m=0.5 * log\frac{1-\epsilon_m}{\epsilon_m}$
更新权重： $w_m = w_m * e^{-\alpha_m * y * \hat{y}}$
对权重 $w_m$ 进行归一化，使其和为1： $w_m = w_j / \sum_{j} w_j$
构建基本学习器的线性组合：$f(x) =\sum_{i=1}^{m}\alpha_iG_i(x) $
重复步骤2 ~ 8若干次，获得最终的学习器： $sign(\sum_{i=1}^{m}\alpha_iG_i(x))$

6.3 AdaBoost示例

假设给定的数据集，如下：

X	0	1	2	3	4	5	6	7	8	9
y	1	1	1	-1	-1	-1	1	1	1	-1

我们假设基本学习器使用决策树，并且不存度衡量标准使用信息熵。

第1轮

在初始状态，所有样本的权值w相同，且和为1。

X	0	1	2	3	4	5	6	7	8	9
y	1	1	1	-1	-1	-1	1	1	1	-1
$w_1$	0.1	0.1	0.1	0.1	0.1	0.1	0.1	0.1	0.1	0.1

训练学习器

分割点可以为2.5、5.5与8.5。
$G_1(x) = \left\{\begin{matrix} 1 & x < 2.5\\ -1 & x > 2.5 \end{matrix}\right.$

预测输出值

使用训练好的学习器对样本进行预测：

X	0	1	2	3	4	5	6	7	8	9
y	1	1	1	-1	-1	-1	1	1	1	-1
$w_1$	0.1	0.1	0.1	0.1	0.1	0.1	0.1	0.1	0.1	0.1
G1(x)- $\hat{y}$	1	1	1	-1	-1	-1	-1	-1	-1	-1

计算错误率

$\epsilon_1=w_1 \cdot (y \neq \hat{y}) = 0.3$

计算权重系数

$\alpha_1=0.5 * log\frac{1-\epsilon_1}{\epsilon_1} \approx 0.424$

更新权重

$w_1 = w_1 * e^{-\alpha_1 * y * \hat{y}}$
如果预测正确，则 $y$ 与 $\hat{y}$ 符号相同，二者的乘积为正，否则，二者的乘积为负。而 $\alpha$ 的值大于0，因此，预测正确时，权重降低，预测错误时，权重提高。
因此，降低后的权重为：
$e^{-\alpha_1} \approx 0.065$
提高后的权重为：
$e^{\alpha_1} \approx 0.153$
更新后的结果如下：

X	0	1	2	3	4	5	6	7	8	9
y	1	1	1	-1	-1	-1	1	1	1	-1
$w_1$	0.065	0.065	0.065	0.065	0.065	0.065	0.153	0.153	0.153	0.065
G1(x)- $\hat{y}$	1	1	1	-1	-1	-1	-1	-1	-1	-1

权重归一化

$w_m = w_j / \sum_{j} w_j$
$\sum_{j} w_j = 7 * 0.065 + 3 * 0.153 = 0.914$ ，因此，归一化的结果为：
预测正确的样本： $\approx 0.071$
预测错误的样本： $\approx 0.167$

X	0	1	2	3	4	5	6	7	8	9
y	1	1	1	-1	-1	-1	1	1	1	-1
$w_1$	0.071	0.071	0.071	0.071	0.071	0.071	0.167	0.167	0.167	0.071
G1(x)- $\hat{y}$	1	1	1	-1	-1	-1	-1	-1	-1	-1

线性组合

经过第1轮后，学习器的线性组合为：
$f_1(x) = 0.424 * G_1(x)$

X	0	1	2	3	4	5	6	7	8	9
y	1	1	1	-1	-1	-1	1	1	1	-1
$w_1$	0.071	0.071	0.071	0.071	0.071	0.071	0.167	0.167	0.167	0.071
G1(x)- $\hat{y}$	1	1	1	-1	-1	-1	-1	-1	-1	-1
G- $\hat{y}$	1	1	1	-1	-1	-1	-1	-1	-1	-1

第2轮

在第2轮初始时，数据如下：

X	0	1	2	3	4	5	6	7	8	9
y	1	1	1	-1	-1	-1	1	1	1	-1
$w_2$	0.071	0.071	0.071	0.071	0.071	0.071	0.167	0.167	0.167	0.071

训练学习器

$
prop_1(D_p) = 0.071 * 3 + 0.167 * 3 = 0.714 \
prop_{-1}(D_p) = 1 - 0.714 = 0.286 \
I_H(D_p) = -(0.714 * log_20.714 + 0.286 * log_20.286) = 0.863 \
I_H(D_{x < 2.5}) = 0 \
prop_1((x >=2.5) = (0.167 * 3) / (0.071 * 4 + 0.167 * 3) = 0.638 \
prop_{-1}(x >= 2.5) = 1 - 0.638 = 0.362 \
I_H(D_{x >= 2.5}) = -(0.638 * log_20.638 + 0.362 * log_20.362) = 0.944 \
prop(x < 2.5) = 0.071 * 3 = 0.213 \
prop(x >= 2.5) = 1 - 0.213 = 0.787 \
IG_H(x=2.5) = 0.863 - 0.213 * 0 - 0.787 * 0.944 = 0.120
$

$
I_H(D_{x < 5.5}) = 1 \
prop_1((x >=5.5) = (0.167 * 3) / (0.071 * 1 + 0.167 * 3) = 0.876 \
prop_{-1}(x >= 5.5) = 1 - 0.876 = 0.124 \
I_H(D_{x >= 5.5}) = -(0.876 * log_20.876 + 0.124 * log_20.124) = 0.541 \
prop(x < 5.5) = 0.071 * 6 = 0.426 \
prop(x >= 5.5) = 1 - 0.213 = 0.574 \
IG_H(x=5.5) = 0.863 - 0.426 * 1 - 0.574 * 0.541 = 0.126
$

$
prop_1((x < 8.5) = (0.071 * 3 + 0.167 * 3) / (0.071 * 6 + 0.167 * 3) = 0.770 \
prop_{-1}(x < 8.5) = 1 - 0.770 = 0.230 \
I_H(D_{x < 8.5}) = -(0.770 * log_20.770 + 0.230 * log_20.230) = 0.778 \
I_H(D_{x >= 8.5}) = 0 \
prop(x < 8.5) = 0.071 * 6 + 0.167 * 3 = 0.927 \
prop(x >= 8.5) = 1 - 0.927 = 0.073 \
IG_H(x=8.5) = 0.863 - 0.927 * 0.770 - 0.073 * 0 = 0.149
$
$G_2(x) = \left\{\begin{matrix} 1 & x < 8.5\\ -1 & x > 8.5 \end{matrix}\right.$

预测输出值

使用训练好的学习器对样本进行预测：

X	0	1	2	3	4	5	6	7	8	9
y	1	1	1	-1	-1	-1	1	1	1	-1
$w_2$	0.071	0.071	0.071	0.071	0.071	0.071	0.167	0.167	0.167	0.071
G2(x)- $\hat{y}$	1	1	1	1	1	1	1	1	1	-1

计算错误率

$\epsilon_2=w_2 \cdot (y \neq \hat{y}) = 0.071 * 3 = 0.213$

计算权重系数

$\alpha_2=0.5 * log\frac{1-\epsilon_2}{\epsilon_2} \approx 0.653$

更新权重

$w_2 = w_2 * e^{-\alpha_2 * y * \hat{y}}$
更新后的结果如下：

X	0	1	2	3	4	5	6	7	8	9
y	1	1	1	-1	-1	-1	1	1	1	-1
$w_2$	0.037	0.037	0.037	0.136	0.136	0.136	0.087	0.087	0.087	0.037
G2(x)- $\hat{y}$	1	1	1	1	1	1	1	1	1	-1

权重归一化

$w_m = w_j / \sum_{j} w_j$
$\sum_{j} w_j = 0.037 * 4 + 0.136 * 3 + 0.087 * 3 = 0.818$
因此，归一化的结果为：

X	0	1	2	3	4	5	6	7	8	9
y	1	1	1	-1	-1	-1	1	1	1	-1
$w_2$	0.045	0.045	0.045	0.167	0.167	0.167	0.106	0.106	0.106	0.045
G2(x)- $\hat{y}$	1	1	1	1	1	1	1	1	1	-1

线性组合

经过第2轮后，学习器的线性组合为：
$f_2(x) = 0.424 * G_1(x) + 0.653 * G_2(x)$

X	0	1	2	3	4	5	6	7	8	9
y	1	1	1	-1	-1	-1	1	1	1	-1
$w_2$	0.045	0.045	0.045	0.167	0.167	0.167	0.106	0.106	0.106	0.045
G1(x)- $\hat{y}$	1	1	1	-1	-1	-1	-1	-1	-1	-1
G2(x)- $\hat{y}$	1	1	1	1	1	1	1	1	1	-1
G- $\hat{y}$	1	1	1	1	1	1	1	1	1	-1

第3轮

在第3轮初始时，数据如下：

X	0	1	2	3	4	5	6	7	8	9
y	1	1	1	-1	-1	-1	1	1	1	-1
$w_3$	0.045	0.045	0.045	0.167	0.167	0.167	0.106	0.106	0.106	0.045

训练学习器

$prop_1(D_p) = 0.045 * 3 + 0.106 * 3 = 0.453 \
prop_{-1}(D_p) = 1 - 0.453 = 0.547 \
I_H(D_p) = -(0.453 * log_20.453 + 0.547 * log_20.547) = 0.994 \
I_H(D_{x < 2.5}) = 0 \
prop_1((x >=2.5) = (0.106 * 3) / (0.106 * 3 + 0.167 * 3 + 0.045) = 0.368 \
prop_{-1}(x >= 2.5) = 1 - 0.368 = 0.632 \
I_H(D_{x >= 2.5}) = -(0.368 * log_20.368 + 0.632 * log_20.632) = 0.949 \
prop(x < 2.5) = 0.045 * 3 = 0.135 \
prop(x >= 2.5) = 1 - 0.135 = 0.865 \
IG_H(x=2.5) = 0.994 - 0.135 * 0 - 0.865 * 0.949 = 0.173
$

$
prop_1((x < 5.5) = (0.045 * 3) / (0.045 * 3 + 0.167 * 3) = 0.212 \
prop_{-1}(x < 5.5) = 1 - 0.212 = 0.788 \
I_H(D_{x < 5.5}) = -(0.212 * log_20.212 + 0.788 * log_20.788) = 0.745 \
prop_1((x >=5.5) = (0.106 * 3) / (0.106 * 3 + 0.045 * 1) = 0.876 \
prop_{-1}(x >= 5.5) = 1 - 0.876 = 0.124 \
I_H(D_{x >= 5.5}) = -(0.876 * log_20.876 + 0.124 * log_20.124) = 0.541 \
prop(x < 5.5) = 0.045 * 3 + 0.167 * 3 = 0.636 \
prop(x >= 5.5) = 1 - 0.636 = 0.364 \
IG_H(x=5.5) = 0.994 - 0.636 * 0.745 - 0.364 * 0.541 = 0.323
$

$
prop_1((x < 8.5) = (0.045 * 3 + 0.106 * 3) / (0.045 * 3 + 0.106 * 3 + 0.167 * 3) = 0.475 \
prop_{-1}(x < 8.5) = 1 - 0.475 = 0.525 \
I_H(D_{x < 8.5}) = -(0.475 * log_20.475 + 0.525 * log_20.525) = 0.998 \
I_H(D_{x >= 8.5}) = 0 \
prop(x < 8.5) = 0.045 * 3 + 0.106 * 3 + 0.167 * 3 = 0.954 \
prop(x >= 8.5) = 1 - 0.954 = 0.046 \
IG_H(x=8.5) = 0.994 - 0.954 * 0.998 - 0.046 * 0 = 0.042
$
$G_3(x) = \left\{\begin{matrix} 1 & x < 5.5\\ -1 & x > 5.5 \end{matrix}\right.$

预测输出值

如果按照之前的方式进行预测，则错误率大于0.5，因此，我们按照相反的方式进行预测，即：
$G_3(x) = \left\{\begin{matrix} 1 & x > 5.5\\ -1 & x < 5.5 \end{matrix}\right.$
使用训练好的学习器对样本进行预测：

X	0	1	2	3	4	5	6	7	8	9
y	1	1	1	-1	-1	-1	1	1	1	-1
$w_3$	0.045	0.045	0.045	0.167	0.167	0.167	0.106	0.106	0.106	0.045
G3(x)- $\hat{y}$	-1	-1	-1	-1	-1	-1	1	1	1	1

计算错误率

$\epsilon_3=w_3 \cdot (y \neq \hat{y}) = 0.045 * 4 = 0.180$

计算权重系数

$\alpha_3=0.5 * log\frac{1-\epsilon_3}{\epsilon_3} \approx 0.758$

更新权重

$w_3 = w_3 * e^{-\alpha_3 * y * \hat{y}}$
更新后的结果如下：

X	0	1	2	3	4	5	6	7	8	9
y	1	1	1	-1	-1	-1	1	1	1	-1
$w_3$	0.152	0.152	0.152	0.033	0.033	0.033	0.078	0.078	0.078	0.152
G3(x)- $\hat{y}$	-1	-1	-1	-1	-1	-1	1	1	1	1

权重归一化

$w_m = w_j / \sum_{j} w_j$
$\sum_{j} w_j = 0.152 * 4 + 0.033 * 3 + 0.078 * 3 = 0.941$
因此，归一化的结果为：

X	0	1	2	3	4	5	6	7	8	9
y	1	1	1	-1	-1	-1	1	1	1	-1
$w_3$	0.152	0.152	0.152	0.033	0.033	0.033	0.078	0.078	0.078	0.152
G3(x)- $\hat{y}$	-1	-1	-1	-1	-1	-1	1	1	1	1

线性组合

经过第3轮后，学习器的线性组合为：
$f_3(x) = 0.424 * G_1(x) + 0.653 * G_2(x) + 0.758 * G_3(x)$

X	0	1	2	3	4	5	6	7	8	9
y	1	1	1	-1	-1	-1	1	1	1	-1
$w_3$	0.152	0.152	0.152	0.033	0.033	0.033	0.078	0.078	0.078	0.152
G1(x)- $\hat{y}$	1	1	1	-1	-1	-1	-1	-1	-1	-1
G2(x)- $\hat{y}$	1	1	1	1	1	1	1	1	1	-1
G3(x)- $\hat{y}$	-1	-1	-1	-1	-1	-1	1	1	1	1
G- $\hat{y}$	1	1	1	-1	-1	-1	1	1	1	-1

import numpy as np
import matplotlib.pyplot as plt
from sklearn.tree import DecisionTreeRegressor
# AdaBoostRegressor sklearn中提供的关于AdaBoost回归的模型。
from sklearn.ensemble import AdaBoostRegressor

rng = np.random.RandomState(1)
X = np.linspace(0, 6, 100)[:, np.newaxis]
y = np.sin(X).ravel() + np.sin(6 * X).ravel() + rng.normal(0, 0.1, X.shape[0])


regr_1 = DecisionTreeRegressor(max_depth=4)

regr_2 = AdaBoostRegressor(DecisionTreeRegressor(max_depth=4),
                          n_estimators=50, random_state=rng)
regr_3 = AdaBoostRegressor(DecisionTreeRegressor(max_depth=4),
                          n_estimators=300, random_state=rng)

regr_1.fit(X, y)
regr_2.fit(X, y)
regr_3.fit(X, y)
y_1 = regr_1.predict(X)
y_2 = regr_2.predict(X)
y_3 = regr_3.predict(X)

plt.figure(figsize=(18, 6))
plt.scatter(X, y, c="k", label="训练样本")
plt.plot(X, y_1, c="r", label="n_estimators=1")
plt.plot(X, y_2, c="g", label="n_estimators=50")
plt.plot(X, y_3, c="b", label="n_estimators=300")
plt.xlabel("数据")
plt.ylabel("值")
plt.title("Boosted Decision Tree Regression")
plt.legend()
plt.show()

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
每日一题——第八十九题互联网打工人no1 C语言程序设计每日一练 c语言
题目：在字符串中找到提取数字，并统计一共找到多少整数，a123xxyu23&8889，那么找到的整数为123，23，8889//思想：#include#include#includeintmain(){charstr[]="a123xxyu23&8889";intcount=0;intnum=0;//用于临时存放当前正在构建的整数。boolinNum=false;//用于标记当前是否正在读取一个整
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
展现思维导图魅力，不断挖掘人生宝藏思维导图讲师Mandy
第13期最强思维导图训练营已经结束一周了，但是我依旧是感觉所有学员还在努力的学习，这些学员中有教师、学生、白领、公务员、宝妈等等，只要你努力，只要你想改变自己，任何行业，任何岗位都可以参与进来，28天足以让你见成效，在这28天中，我们的学员不仅仅是收获了一枚毕业证，最重要的是让自己的思维方式得到升级，今天的你为自己投资，明天的你就会感谢你今天的付出，我们来听一听来自13期最强思维导图训练营优秀学员
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
4招写出高价值文章 zhiliner
文章写得泛泛是因为思考得不够深，思考得越深文章会越有价值。拿到一个主题一定要去深入挖掘事件背后的东西，比如人物困境以及趋势性的东西。写作过程中有几个深度思考的方法一、解剖，让旧素材焕发新意作为一个写作者，我们能够做的最大贡献，就是给出自己看世界的角度。解剖其实就是把这个话题相关的信息都列出来，详细的列出来，看清楚它的内部。我们看到一个老话题或者一段旧素材的时候，不要只看这个素材或者话题本身，一定要
自然语言处理_tf-idf _feivirus_ 算法机器学习和数学自然语言处理 tf-idf 逆文档频率词频
importpandasaspdimportmath1.数据预处理docA="Thecatsatonmyface"docB="Thedogsatonmybed"wordsA=docA.split("")wordsB=docB.split("")wordsSet=set(wordsA).union(set(wordsB))print(wordsSet){'on','my','face','sat',
Java面试题精选：消息队列(二) 芒果不是芒 Java面试题精选 java kafka
一、Kafka的特性1.消息持久化：消息存储在磁盘，所以消息不会丢失2.高吞吐量：可以轻松实现单机百万级别的并发3.扩展性：扩展性强，还是动态扩展4.多客户端支持：支持多种语言（Java、C、C++、GO、）5.KafkaStreams（一个天生的流处理）:在双十一或者销售大屏就会用到这种流处理。使用KafkaStreams可以快速的把销售额统计出来6.安全机制：Kafka进行生产或者消费的时候会
用Python实现读取统计单词个数程序媛了了 python 游戏 java
完整实例代码：fromcollectionsimportCounterdefpythonit():danci={}withopen("pythonit.txt","r",encoding="utf-8")asf:foriinf:words=i.strip().split()forwordinwords:ifwordnotindanci:danci[word]=1else:danci[word]+=
进销存小程序源码 PHP网络版ERP进销存管理系统全开源可二开摸鱼小号 php
可直接源码搭建部署发布后使用：一、功能模块介绍该系统模板主要有进，销，存三个主要模板功能组成，下面将介绍各模块所对应的功能；进：需要将产品采购入库，自动生成采购明细台账同时关联财务生成付款账单；销：是指对客户的销售订单记录，汇总生成产品销售明细及回款计划；存：库存的日常盘点与统计，库存下限预警、出入库台账、库存位置等。1.进购管理采购订单：采购下单审批→由上级审批通过采购入库；采购入库：货品到货>
Python实现关联规则推荐这孩子谁懂哈 Python Machine Learning python 关联规则机器学习
1.什么关联规则关联规则（AssociationRules）是反映一个事物与其他事物之间的相互依存性和关联性，如果两个或多个事物之间存在一定的关联关系，那么，其中一个事物就能通过其他事物预测到。关联规则是数据挖掘的一个重要技术，用于从大量数据中挖掘出有价值的数据项之间的相关关系。关联规则挖掘的最经典的例子就是沃尔玛的啤酒与尿布的故事，通过对超市购物篮数据进行分析，即顾客放入购物篮中不同商品之间的关
如何给QQ邮箱自动发邮件？无惧「小爱」下线！代码全公开，两步搞定 AI码上来 AI实战微信人工智能 python
前两天，搞了个微信AI小助理-小爱(AI)，爸妈玩的不亦乐乎。零风险！零费用！我把AI接入微信群，爸妈玩嗨了，附教程（下）最近一直在迭代中，挖掘小爱的无限潜力:链接丢给它，精华吐出来！微信AI小助理太强了，附完整提示词拥有一个能倾听你心声的「微信AI小助理」，是一种什么体验？小爱打工，你躺平！让「微信AI小助理」接管你的文件处理，一个字：爽！我把多模态大模型接入了「小爱」，痛快来一场「表情包斗图」
分布式锁和spring事务管理暴躁的鱼锁及事务分布式 spring java
最近开发一个小程序遇到一个需求需要实现分布式事务管理业务需求用户在使用小程序的过程中可以查看景点，对景点地区或者城市标记是否想去，那么需要统计一个地点被标记的人数，以及记录某个用户对某个地点是否标记为想去，用两个表存储数据，一个地点表记录改地点被标记的次数，一个用户意向表记录某个用户对某个地点是否标记为想去。由于可能有多个用户同时标记一个地点，每个用户在前端点击想去按钮之后，后台接收到请求，从数据
新媒体运营小白，有哪些书籍可以推荐？ y耳朵
为了转行运营，我曾花了3个月的时间，看了不下百本书，可以说市面上大部分跟运营有关的书籍，我都看过了，因此关于书的推荐也有一些自己的小见解。看书不一定要多，但一定要****精，我根据豆瓣评分、推荐热度和自己的转行经历，挑出了13本值得运营小白看的书，收藏好这份书单，不需要你浪费时间去找书了。先看下统计好的书单：整理不易，看完记得点个赞哦！感谢你的支持。入门篇：1.《运营之光》（豆瓣评分：8.0)推荐
向着明亮那方12.7 向着明亮那方的我们
【水晶泥的妙用】在地上捡到一滩水晶泥，本想扔进垃圾桶，发现水晶泥上附着了些许蓝色钢笔墨水。我脑洞大开，水晶泥可不可以用来处理钢笔墨渍呢？正好垃圾桶那面瓷砖墙上有蓝色钢笔水痕迹，我用水晶泥沾了沾墨迹，很轻易地把墨色粘了下来，好干净。【长跑报名】我让同学们自愿报名参加冬季长跑比赛，课间将名字报给班长。班长把名字统计在本子上，把本子拿来给我看：“老师，我晚上回去给你做张电子表，发给你。”看来班长又学了新
python编写直方图和饼图 2301_80421078 python 开发语言
1.直方图#直方图的绘制#语法格式：plt.hist(x,bins),其中x:数据集；bins:统计数据的分布区间importmatplotlib.pyplotaspltimportpandasaspd#导入文件excel=pd.read_excel('成绩.xlsx')#print(excel)#避免乱码plt.rcParams['font.sans-serif']=['SimHei']x=ex
病毒式传播?游戏行业才是真正的鼻祖 0浩
图片发自App以前，一则广告可以引发病毒式传播，大家几乎都知道挖掘机技术哪家强，几乎都知道古天乐和张家辉代言的贪玩蓝月。现在，一篇文章可以引发病毒式传播，大家能看到的阅读量十万+的文章已不在少数。但游戏行业才是传播的鼻祖。一、游戏行业的暴利登录过苹果应用商店的人都知道现在手游是最赚钱的，根据数据显示，每年手机游戏的收入数额可达数百亿美元。再来看一组数据，来自旧金山的手游市场营销公司Swrve发布报
跟着黑马学mysql（5）小杜不吃糖 mysql 数据库
17.DQL-聚合函数DQL-聚合函数介绍将一列数据作为一个整体，进行纵向计算。常见聚合函数函数功能count统计数量max最大值min最小值avg平均值sum求和语法SELECT聚合函数(字段列表)FROM表名;注意：所有的null值不参与聚合函数的运算18.DQL-分组查询语法SELECT字段列表FROM表名[WHERE条件]GROUPBY分组字段名[HAVING分组后的过滤条件];where
梧桐数据库（WuTongDB）：数据库技术中都有哪些常见的优化器鲁鲁517 梧桐数据库梧桐数据库
以下是一些常见的数据库优化器：1.CBO（Cost-BasedOptimizer）应用场景：广泛应用于关系型数据库中，如Oracle、PostgreSQL、MySQL等。工作原理：通过计算不同执行计划的代价（如CPU、I/O等资源消耗），选择最低代价的执行计划。代表数据库：Oracle、PostgreSQL、MySQL。特点：CBO使用统计信息（如表大小、索引分布）来评估查询的代价。2.RBO（R
淘宝优惠券返利app 软件？淘宝返利app哪个佣金高日常购物小技巧
今天有朋友问莉莉：淘宝优惠券返利app软件？淘宝返利app哪个佣金高目前市面上出现越来越多的淘客返利APP，比如花桃、粉象生活、花生日记、好省、高佣联盟、美逛、芬香、蜜源、果冻宝盒、悦拜等等。据不完全统计，可能已经多达上千家了。那面对众多的返利软件，作为用户，我们该如何选择呢？其实返利APP的主要功能就是查券和返利，而券可以说每个平台也都是一样的，如果有那都有，如果没有，那么都没有。所不同的就是返
DISC性格分析在职业发展中的重要性 2401_87247149 职场发展职场和发展求职招聘单一职责原则
DISC个性测验是国外企业广泛应用的一种人格测验，用于测查、评估和帮助人们改善其行为方式、人际关系、工作绩效、团队合作、领导风格等。‌提升团队效能‌：‌了解团队成员的DISC类型，‌有助于更好地沟通协作，‌增强信任感，‌发挥每个人优势‌。‌深入了解自己‌：‌帮助个体更好地洞察自己的特质和偏好，‌认清优势和劣势，‌挖掘潜能‌。‌‌改善人际关系‌：‌通过分析自己和他人的行为反应模式，‌适应不同的沟通风
财富自由之路读书笔记2 Elaine_a963
继续财富自由读书笔记，今天就第十-二十三章进行归纳总结思考。这本书可以说是边学边练的武功秘籍。秘籍一：注意力。先从认知上刷新，先前谈到价值的重要性及单位价值提升的必要性。这里就引出了：“注意力”是在任何地方“挖掘”价值的最基本工具。那么，要自如运用注意力，就得练习。这里李老师给的无他，就是基本功训练扎实-坐享。秘籍二：活在未来。再一次颠覆认知，大众的思维是活在当下，而这里指引我们要活在未来。用正确
Github 2024-09-12 Go开源项目日报Top10 老孙正经胡说 github golang 开源 Github趋势分析开源项目 Python Golang
根据GithubTrendings的统计，今日(2024-09-12统计)共有10个项目上榜。根据开发语言中项目的数量，汇总情况如下：开发语言项目数量Go项目10C项目1Terraform：基础设施即代码的开源工具创建周期：3626天开发语言：Go协议类型：OtherStar数量：40393个Fork数量：9397次关注人数：40393人贡献人数：358人OpenIssues数量：1943个Git
matlab设置图像窗口大小,matlab 图形窗口大小的设置 weixin_39534002 matlab设置图像窗口大小
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%常用选项和小技巧%%%%%%画等值线[cchh]=contour(peaks(30),'LINESPEC','b-')clabel(cc,hh,'manual')%写文本text(5,10,'\bfmath\slmath\itmath\rmmath\alpha','color',[0.10.10.9],'fonts
Sentinel实时监控不展示问题朱杰jjj sentinel sentinel
问题官方插件Endpoint支持，可以实时统计出SpringBoot的健康状况和请求的调用信息在使用Endpoint特性之前需要在Maven中添加spring-boot-starter-actuator依赖，并在配置中允许Endpoints的访问。SpringBoot1.x中添加配置management.security.enabled=false。暴露的endpoint路径为/sentinelS
如何做好人生的选择题？百科全书式天才——赫伯特·西蒙给你答案伽马有话说
赫伯特·西蒙是谁？想必知道的人非常少。但当看到他的履历后，相信没有人再怀疑他是个“天才”。西蒙出生于1916年6月15日，是个美国人，他的名字全称为赫伯特·亚历山大·西蒙，在2001年2月9日与世长辞，在这84年的岁月中，西蒙以27岁时取得的政治学博士学位为开端，先后步入了政治学、管理学、认知心理学、信息科学、人工智能、科学哲学、应用数学、统计学、运筹学、控制论、数理经济学、公共管理等领域，在这些
《你的顾客需要一个好故事》有感皮皮爱世界
“让顾客成为故事的主人公”，就是营销的终极秘籍。这也是今年罗胖的跨年演讲的“接口理论”的验证和诠释，我们必须要在我们与要解决的问题之间，找到接口，然后深度链接。顶级的营销是要打造一种闭环，简而言之就是发现或者挖掘痛点，然后构建思路和程序来解决痛点，而其中的角色定位，就是两方，即顾客和营销人员，现实中这种对立面的关系让营销加大了难度，顾客更多置身于产品之外，很难完全融入产品细节中，而通过这本书，我们
认识世界陈陈_19b4
9月16日，雨。阅读书目:《真相》。作者:瑞典统计学家和医学教授汉斯·罗斯林，他的儿子奥拉·罗斯林，google公共数据团队的负责人。汉斯·罗斯林还是一位全球知名的教育家，是世界健康组织和联合国儿童基金会的顾问。他与儿子儿媳共同创办了Gapminder基金会，开发了Trendalyzer软件，将国际统计数据转化成交互式的生动有趣的图表，帮助人们以事实为基础来观察世界，被称为“可视化数据之父”。图片
10月16日学习健身抖音定投一乐日记
一乐日记今天以下是每天定投数据：第一项：学习数据今天学习理论法5小时。第二项：健身数据今天走路微信统计5124步。另外抱着一乐在房子走路有2000步，因为没有带手机，所以没统计上去。俯卧撑40个，仰卧起坐30个。第三项：快手数据每天发一幅图片配文字今日更新数据：（发布后24小时数据）播放140次，点赞0次，总粉丝数8个。………………………………特别说明：关注一乐日记，免费领取书籍！每天更新一篇文章
python数据分析知识点大全编程零零七 python数据分析 python 开发语言 python数据分析数据分析知识点大全 python数据分析知识点 python教程 python基础
Python数据分析知识点大全可以归纳为以下几个主要方面：一、基础概念与目的数据分析定义：数据分析是指用适当的统计分析方法对收集来的大量数据进行分析，提取有用信息和形成结论，对数据加以详细研究和概括总结的过程。其目的在于从数据中挖掘规律、验证猜想、进行预测。Python在数据分析中的优势：Python因其易学性、快速开发、丰富的扩展库（如NumPy、Pandas等）和成熟的框架，成为数据分析领域的
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio

集成学习笔记整理1

1. 集成学习分类

2. 集成学习效果

3. Bagging

3.1 优势

3.2 bagging分类示例

3.3 bagging回归示例

3.4 结论

4. 随机森林(Random Forest)

4.1 随机森林程序(with codes)

5. boosting

6. AdaBoost

6.1 权重说明

6.2 AdaBoost算法步骤

6.3 AdaBoost示例

第1轮

训练学习器

预测输出值

计算错误率

计算权重系数

更新权重

权重归一化

线性组合

第2轮

训练学习器

预测输出值

计算错误率

计算权重系数

更新权重

权重归一化

线性组合

第3轮

训练学习器

预测输出值

计算错误率

计算权重系数

更新权重

权重归一化

线性组合

你可能感兴趣的:(Math=统计,挖掘=)