chinaherolts2008

Python 机器学习实战 —— 监督学习（下）

前言

近年来AI人工智能成为社会发展趋势，在IT行业引起一波热潮，有关机器学习、深度学习、神经网络等文章多不胜数。从智能家居、自动驾驶、无人机、智能机器人到人造卫星、安防军备，无论是国家级军事设备还是广泛的民用设施，都充斥着AI应用的身影。接下来的一系列文章将会由浅入深从不同角度分别介绍机器学习、深度学习之间的关系与区别，通过一系统的常用案例讲述它们的应用场景。
在上一篇文章中已经讲述了机械学习的相关概念与基础知识，监督学习的主要流程。对损失函数进行了基础的介绍，并对常用的均方误差与递度下降法的计算过程进行演示，并对常用的 LogisticRegression , LinearSVC、SGDClassifier、 LinearRegression、Ridge、Lasso 、SGDRegressor 等线性模型进行了介绍，讲解了非线性 PolynomialFeatures 多项式转换器以及管道 Pipe 的基本用法。
本文将介绍支持向量机、k近邻、朴素贝叶斯分类、决策树、决策树集成等模型的应用。

五、支持向量机

支持向量机（Support Vector Machine，SVM）是一个功能强大的模型，它概支持线性分类和非线性分类（SVC），也支持回归（SVR），是机器学习中最常用的模型之一。所介绍的 LinearSVC 线性支持向量机就是属于 SVC 的一种，可把它看作是 SVC 的一个特殊类型。

5.1 SVM 的由来

回顾在上一章节介绍 LogisticRegression 线性分类模型，可以知道在同一组二分类数据当中，有不止一条的直线可以把它们完美地分割，从中很难判断哪一条分割线能更好地让新的数据点分配到正确的标签。

 1 def logistic(c=1.0):
 2     #生成数据集
 3     X,y=datasets.make_forge()
 4     X_train,X_test,y_train,y_test=train_test_split(X,y)
 5     #对Logistic模型进行训练
 6     logistic=LogisticRegression(C=c,random_state=1)
 7     logistic.fit(X_train,y_train)
 8     #输入正确率
 9     print('logistic\n  train data:{0}'.format(logistic.score(X_train,y_train)))
10     print('  test data:{0}'.format(logistic.score(X_test,y_test)))
11     #输出模型点
12     plt.scatter(X[:,0], X[:,1],c=y,s=100)
13     plt.legend(['model','data'])
14     #输出模型决策边界
15     line = np.linspace(7, 13, 100)
16     y=(-logistic.coef_[0][0]*line-logistic.intercept_)/logistic.coef_[0][1]
17     plt.plot(line,y,'-')
18 
19 logistic(1)
20 logistic(2)
21 logistic(3)
22 plt.show()

运行结果

支持向量机就是为了改进这个问题而产生的模型，它提供的不再是一条直线来区分类型，而是画出一条到最接近点边界且有宽度的线条（决策边界线），边界最大的那条线就是模型的最优选答案。

因此，支持向量机也可以看作为边界最大化的评估器。

5.2 SVC 分类模型

5.2.1 线性 SVM 分类

第四节介绍的 LinearSVC 线性支持向量机就是属于线性分类模型，事实上它是属于一种特殊的 SVC 模型，在编写代码时把 SVC 模型的 ”kernel” 值设置 “linear ” 即：SVC (kernel='linear') ，也可得到与 LinearSVC 类似的效果。由运行结果可以观察到，LinearSVC 可以根据测试数据生成一条决策边界线，边界线的紧密程度可以通过参数C调节。

 1 def linearSVC_test(c=100):
 2     # 训练数据
 3     X,y=dataset.make_blobs(centers=2,random_state=2,n_features=2)
 4     # 使用 LinearSVC 模型，使用默认值 C=100
 5     linear=LinearSVC(C=c)
 6     linear.fit(X,y)
 7     # 画出数据点
 8     plt.scatter(X[:,0],X[:,1],c=y,marker='^',s=50)
 9     # 建立网格数据
10     xx=np.linspace(-5,6,100)
11     yy=np.linspace(-13,3,100)
12     XX,YY=np.meshgrid(xx,yy)
13     ZZ=np.c_[XX.ravel(),YY.ravel()]
14     # 根据网络数据推算出预测值
15     zz=linear.decision_function(ZZ)
16     # 显示决策分界线
17     plt.contour(xx,yy,zz.reshape(XX.shape),levels=[-1,0,1],
18                 linestyles=['--','-','--'],alpha=0.7,cmap='jet')
19     plt.show()

运行结果

5.2.2 非线性 SVM 分类

5.2.2.1 多项式转换器

在处理线性分类时可以使用 LinearSVC，然而它受到了线性分类的限制，当处理非线性数据集时，LinearSVC 则无法单独支撑，此时可以使用上一章介绍python教程过的多项式转换器 PolynomialFeatures 与管道 Pipe 来解决此问题。

 1 def polynomialFeatures_linearSVC_test():
 2     # 获取数据集，通过求余方式把输出值变为2个
 3     X,y=dataset.make_blobs(centers=4,random_state=8,n_features=2)
 4     y=y%2
 5     # 通过管道使用多项转换器PolynomialFeatures和线性支持向量机LinearSVC
 6     pipe=make_pipeline(PolynomialFeatures(degree=2),LinearSVC(C=10))
 7     model=pipe.fit(X,y)
 8     # 建立网格数组
 9     xx=np.linspace(-9,11,100)
10     yy=np.linspace(-14,14,100)
11     XX,YY=np.meshgrid(xx,yy)
12     ZZ=np.c_[XX.ravel(),YY.ravel()]
13     # 计算网络中的输出值
14     zz=model.decision_function(ZZ)
15     # 显示分类决策边界线
16     plt.contourf(xx,yy,zz.reshape(XX.shape),alpha=0.7)
17     # 显示测试数据点
18     plt.scatter(X[:,0],X[:,1],c=y,s=50,marker='^')
19     plt.show()

运行结果

上面例子的运行结果可以看出，通过多项式转换器可以有效地利用 LinearSVC 解决非线性数据的问题。

5.2.2.2 核技巧的定义

通过某种非线性映射将原始数据嵌入到合适的高维特征空间，利用通用的线性学习器在这个新的空间中分析和处理的模式被称为核函数技巧。
常用的核函数有：

遗憾的是常用的 LinearSVC 模型并不支持核函数，为此 sklearn 特意开发了支持核函数的 SVC 模型。

5.2.2.3 SVC 模型

上面用到的 LinearSVC 模型是基于 liblinear 库实现的 SVM 算法，它并不支持核技巧，因此它所训练的数据基本都是线性数据，处理数据的速度较快，运行时间为O (m*n) ，适合处理量大的数据集。当遇到非线性数据时，也可使用多项式转换器来处理。
下面说到的 SVC 模型则是基于 libsvm 库实现的，它本身就支持核技巧，使用时只需要通过 kernel 参数进行设置。但不幸的是它的处理速度比较慢，运行时间O(m3*n)从指数级上升，因此只适合处理中小型的数据集。
下表就统计了 LinearSVC 与 SVC 两个模型的区别，时间O公式中的 m 和 n 分别表示未知数的行数和列数。

模型	时间	核技巧	需要缩放
LinearSVC	O(m*n)	不支持	是
SVC	O(m2n)到O(m3n)	支持	是

SVC 构造函数

1 class SVC(BaseSVC):
2     @_deprecate_positional_args
3     def __init__(self, *, C=1.0, kernel='rbf', degree=3, gamma='scale',
4                  coef0=0.0, shrinking=True, probability=False,
5                  tol=1e-3, cache_size=200, class_weight=None,
6                  verbose=False, max_iter=-1, decision_function_shape='ovr',
7                  break_ties=False,
8                  random_state=None):
9     ......

参数说明：

C: float参数默认值为1.0，错误项的惩罚系数。C越大，即对分错样本的惩罚程度越大，因此在训练样本中准确率越高，但是泛化能力降低，也就是对测试数据的分类准确率降低。相反，减小C的话，容许训练样本中有一些误分类错误样本，泛化能力强。对于训练样本带有噪声的情况，一般采用后者，把训练样本集中错误分类的样本作为噪声。
kernel: str参数默认为‘rbf’，算法中采用的核函数类型，可选参数有：‘linear’:线性核函数、‘poly’：多项式核函数、‘rbf’：径像核函数/高斯核、‘sigmod’:sigmod核函数、‘precomputed’:核矩阵，precomputed表示自己提前计算好核函数矩阵，这时候算法内部就不再用核函数去计算核矩阵，而是直接用你给的核矩阵。除了上面限定的核函数外，还可以给出自己定义的核函数。
degree: int型参数默认为3，这个参数只对 poly 多项式核函数有用，是指多项式核函数的阶数 n，如果给的核函数参数是其他核函数，则会自动忽略该参数。
gamma: 可选 scale、auto 或 float参数，默认为 scale，可调节决策边界的影响范围。值越大决策边界越窄，每个实例影响范围越小。反之值越小，决策边界越大，影响范围越广。只对 kernel为：‘rbf’,‘poly’,‘sigmod’有效，当使用线性核函数 linear 时无效。如果gamma为auto，代表其值为样本特征数的倒数，即1/n_features。
coef0: float参数默认为0.0，核函数中的独立项，控制模型受高阶多项式的影响程度，只有对 kernel为 ‘poly’和‘sigmod’ 核函数有用
probability：bool参数默认为False，是否启用概率估计。这必须在调用fit()之前启用，并且会fit()方法速度变慢。
shrinking：bool参数默认为True，是否采用启发式收缩方式
tol: float参数默认为1e^-3，svm停止训练的误差精度
cache_size：float参数默认为200，指定训练所需要的内存，以MB为单位，默认为200MB。
class_weight：字典类型或者‘balance’字符串。默认为None，给每个类别分别设置不同的惩罚参数C，如果没有给，则会给所有类别都给C=1，即前面参数指出的参数C.如果给定参数‘balance’，则使用y的值自动调整与输入数据中的类频率成反比的权重。
verbose ：bool参数默认为False，是否启用详细输出。此设置利用libsvm中的每个进程运行时设置，如果启用，可能无法在多线程上下文中正常工作。一般情况都设为False，不用管它。
max_iter ：int参数默认为-1，最大迭代次数，如果为-1，表示不限制
decision_function_shape: 可选 'ovo' 或 'ovr'，默认值为 ‘ovr'。多分类时需要进行选择的两种不同策略。ovo：one versus one，一对一，即一对一的分类器，这时对K个类别需要构建K * (K - 1) / 2个分类器; ovr：one versus rest，一对其他，这时对K个类别只需要构建K个分类器。
break_ties：默认值为False。如果选择 True 当decision_function_shape 为’ovr' ，且测试数据类型大于2，系统将根据 decision_function 的值计算 predict 的类型输出值。
random_state：int 型参数默认为None，伪随机数发生器的种子,在混洗数据时用于概率估计。

常用属性：

svc.support_vectors_：位于边界上的点，称为支持向量，SVM 支持向量机也是由此得名
svc.n_support_：获取不同类型的支持向量的数据
svc.support_：支持向量在训练样本中的索引
dual_coef_ : 决策函数中支持向量的系数，分类器为 ‘ovo’ 一对一的系数
coef_ : 返回每个特征的权重，仅在使用 linear 线性核函数时有效

（1）线性（ Linear）核函数

使用 SVC 模型时，可以通过设置 kernel 参数得到不同的核函数，当使用 linear 核函数时，其结果与直接使用 LinearSVC 相仿，也是无法对非线性数据集进行精准的训练。不同的是使用 SVC 可以通过 support_vectors_ 参数获取支持向量，能够更准备地预知决策边界。

 1 def svc_test(c=0.01):
 2     #测试数据集
 3     X, y = dataset.make_blobs(centers=2, random_state=2, n_features=2)
 4     #生成SVC模型，使用Linear核函数，把C设置为0.01
 5     svc = SVC(C=c,kernel='linear')
 6     svc.fit(X, y)
 7     #生成矩形网络数据
 8     xx = np.linspace(-5, 7, 1000)
 9     yy = np.linspace(-14, 4, 1000)
10     XX, YY = np.meshgrid(xx, yy)
11     ZZ = np.c_[XX.ravel(), YY.ravel()]
12     #计算分隔平面距离
13     zz = svc.decision_function(ZZ)
14     #划出分隔线
15     plt.contour(xx, yy, zz.reshape(XX.shape), levels=[-1,0,1],linestyles=['--','-','--'])
16     #划出数据点
17     plt.scatter(X[:, 0], X[:, 1], c=y,marker='^',s=80)
18     #划出支持向量
19     sv=svc.support_vectors_
20     plt.scatter(sv[:,0],sv[:,1],marker='.',color='red',s=300)
21     #坐标标识
22     plt.legend(['data point','supper vector'])
23     plt.xlabel('feature0')
24     plt.ylabel('feature1')
25     plt.show()

运行结果

通过调节 C 参数，可以调节惩罚程度。
上面代码当 C 为默认值 0.01时，support_vectors_ 就有14个。C 值越小，能容纳的训练样本中误分类错误样本越多，泛化能力强，这被称为边界软化。
C 越大对分错样本的惩罚程度越大，因此在训练样本中准确率越高，但是泛化能力降低，也就是对测试数据的分类准确率会降低，这被称之为边界硬化。
下面试着把 C 设置为100 时，support_vectors_ 则只有2个，由此可知 C 对调节惩罚程度的作用。

（2）多项式 Poly 核函数

当把 kernel 参数设置为 poly 时，可无需通过多项式转换器 PolynomialFeatures 就可得到类似的效果。
使用 poly 核函数时有两个重要参数，degree 用于控制多项式的阶数，coef0 可控制高阶多项式与低阶多项式对模型的影响。
把 degree 设置为2，coef0 设置为0.1 时，支持向量点 support_vectors_有66个之多，可见模型欠拟合。

 1 def svc_test():
 2     #测试数据集
 3     X, y = dataset.make_blobs(centers=8, random_state=18, n_features=2)
 4     y=y%2
 5     #生成SVC模型，使用poly核函数，把C设置为2，degree
 6     svc = SVC(C=2,kernel='poly',degree=2,coef0=0.1)
 7     svc.fit(X, y)
 8     #生成矩形网络数据
 9     xx = np.linspace(-10, 11, 1000)
10     yy = np.linspace(-14, 14, 1000)
11     XX, YY = np.meshgrid(xx, yy)
12     ZZ = np.c_[XX.ravel(), YY.ravel()]
13     #计算分隔平面距离
14     zz = svc.decision_function(ZZ)
15     #划出分隔线
16     plt.contourf(xx, yy, zz.reshape(XX.shape),)
17     #划出数据点
18     plt.scatter(X[:, 0], X[:, 1], c=y,marker='^',s=80)
19     #划出支持向量
20     sv=svc.support_vectors_
21     plt.scatter(sv[:,0],sv[:,1],marker='.',color='red',s=150)
22     #标签
23     plt.xlabel('feature0')
24     plt.ylabel('feature1')
25     print('support_vectors_ shape:{0}'.format(sv.shape))
26     plt.show()

运行结果

把degree设置为3，coef0设置为10后，运行结果如下，此支持向量点只剩11个，且模型的边界更明确，拟合度有所提升。

（3）高斯 RBF 核函数

使用高斯RBF核函数时，可把 kerenl 设置为 rbf，此时通过调节 gamma 参数可调节决策边界。值越大决策边界越窄，每个实例影响范围越小。反之值越小，决策边界越大，影响范围越广。下面的例子使用环形数据集，把 gamma 设置为10。

 1 def svc_test():
 2     #测试数据集
 3     X, y = dataset.make_circles(random_state=2,noise=0.1,factor=0.1)
 4     #生成SVC模型，使用RBF核函数
 5     svc = SVC(C=2,kernel='rbf',gamma=10)
 6     svc.fit(X, y)
 7     #生成矩形网络数据
 8     xx = np.linspace(-1.5, 1.5, 1000)
 9     yy = np.linspace(-1.5, 1.5, 1000)
10     XX, YY = np.meshgrid(xx, yy)
11     ZZ = np.c_[XX.ravel(), YY.ravel()]
12     #计算分隔平面距离
13     zz = svc.decision_function(ZZ)
14     #划出分隔线
15     plt.contourf(xx, yy, zz.reshape(XX.shape),alpha=0.8)
16     #划出数据点
17     plt.scatter(X[:, 0], X[:, 1], c=y,marker='^',s=50)
18     #划出支持向量
19     sv=svc.support_vectors_
20     plt.scatter(sv[:,0],sv[:,1],marker='.',color='red',s=150)
21     #标签
22     plt.xlabel('feature0')
23     plt.ylabel('feature1')
24     print('support_vectors_ shape:{0}'.format(sv.shape))
25     plt.show()

运行结果

尝试把把 gamma 设置改 0.5，测试结果如下，很明显其决策边界加宽了，支持向量点也减小到18个。

注意：gamma 配置只有在 kernel 为：‘rbf’,‘poly’,‘sigmod’ 时有效，当使用线性核函数 linear 时则无效。

当使用支持向量机时，如果数据量不大时，建议使用高斯RBF核函数，大部分情况下其准确率较高。当数据量较大时，可使用 LinearSVC ，其效率较高。

5.3 SVR 回归模型

SVM 除了支持 SVC 分类外，还支持 SVR 回归模型。使用方法与 SVC 模型类似，可以通过 kernel 参数选择核函数，使用 poly 核函数时可通过 degree 设置阶数。使用 ‘rbf’,‘poly’,‘sigmod’ 等核函数时，可能通过 gamma 设置决策边界的影响范围。

构造函数

1 class SVR(RegressorMixin, BaseLibSVM):
2     @_deprecate_positional_args
3     def __init__(self, *, kernel='rbf', degree=3, gamma='scale',
4                  coef0=0.0, tol=1e-3, C=1.0, epsilon=0.1, shrinking=True,
5                  cache_size=200, verbose=False, max_iter=-1):
6     ......

C: float参数默认值为1.0，错误项的惩罚系数。C越大，即对分错样本的惩罚程度越大，因此在训练样本中准确率越高，但是泛化能力降低，也就是对测试数据的分类准确率降低。相反，减小C的话，容许训练样本中有一些误分类错误样本，泛化能力强。对于训练样本带有噪声的情况，一般采用后者，把训练样本集中错误分类的样本作为噪声。
kernel: str参数默认为‘rbf’，算法中采用的核函数类型，可选参数有：‘linear’:线性核函数、‘poly’：多项式核函数、‘rbf’：径像核函数/高斯核、‘sigmod’:sigmod核函数、‘precomputed’:核矩阵，precomputed表示自己提前计算好核函数矩阵，这时候算法内部就不再用核函数去计算核矩阵，而是直接用你给的核矩阵。除了上面限定的核函数外，还可以给出自己定义的核函数。
degree: int型参数默认为3，这个参数只对 poly 多项式核函数有用，是指多项式核函数的阶数 n，如果给的核函数参数是其他核函数，则会自动忽略该参数。
gamma: 可选 scale、auto 或 float参数，默认为 scale，可调节决策边界的影响范围。值越大决策边界越窄，每个实例影响范围越小。反之值越小，决策边界越大，影响范围越广。只对 kernel为：‘rbf’,‘poly’,‘sigmod’有效，当使用线性核函数 linear 时无效。如果gamma为auto，代表其值为样本特征数的倒数，即1/n_features。
coef0: float参数默认为0.0，核函数中的独立项，控制模型受高阶多项式的影响程度，只有对 kernel为 ‘poly’和‘sigmod’ 核函数有用
shrinking：bool参数默认为True，是否采用启发式收缩方式
tol: float参数默认为1e^-3，svm停止训练的误差精度
cache_size：float参数默认为200，指定训练所需要的内存，以MB为单位，默认为200MB。
verbose ：bool参数默认为False，是否启用详细输出。此设置利用libsvm中的每个进程运行时设置，如果启用，可能无法在多线程上下文中正常工作。一般情况都设为False，不用管它。
max_iter ：int参数默认为-1，最大迭代次数，如果为-1，表示不限制

下面例子尝试使用多项式核函数 poly 对测试集进行计算，因为数据量较少，为了提高准确率，把 C 惩罚程度调高到 2，把阶数 degree 设置为 2，此时测试数据的准确率已接近 99%，线条更接近于一条直线。

 1 def svr_test():

 2     # 测试数据
 3     X, y = dataset.make_regression(n_samples=100,noise=10,n_features=1,random_state=8)
 4     X_train, X_test, y_train, y_test = train_test_split(X, y)
 5     # SVR 模型,使用 poly 核函数，degree为2级
 6     svr = SVR(kernel='poly',C=2,degree=2,coef0=2)
 7     svr.fit(X_train, y_train)
 8     # 准确率
 9     print('SVR:\n  train data:{0}\n  test data:{1}'
10           .format(svr.score(X_train, y_train), svr.score(X_test, y_test)))
11     # 生成线状图
12     line=np.linspace(-3,3,100)
13     result=svr.predict(line.reshape(-1,1))
14     plt.plot(line.reshape(-1,1),result)
15     plt.plot(X,y,'^')
16     plt.show()

运行结果

若改为使高斯核函数RBF，当惩罚系数依然为 C=2 时，准确率将会大幅下降，这是由于可训练的数据量太少，前后数据的误差所造成的。若遇到这种情况，有两种不同的解决方案，一是提高测试集的数据量，让模型得到充分的训练，二是加大惩罚系数。

这里还是使用高斯核函数RBF，但尝试把惩罚系数修改为 C=100，运行则得到以下的结果，可见准确率有明显的提升，而且相对 poly 核函数，线条扭曲程度会更高。

回到目录

六、K 近邻

K 近邻（KNN，K-NearestNeighbor）是比较简单的一种算法，它包含 KNN 分类与回归算法。所谓 K 近邻，就是K个最近的邻居的意思，说的是每个样本都可以用它最接近的K个邻近值来做代表进行计算。

6.1 KNeighborsClassifier 分类

KNeighborsClassifier 近邻分类算法就是将数据集中的每一个记录进行分类的方法。最简单的思路就是通过 n_neighbors 参数（默认值为5）控制近邻的个数，把 n 个近邻看到为同一类型。模型使用的近邻点（n_neightbors）越大模型复杂程度越低，相反近邻点数量越少模型的复杂程度低高。

构造函数

1 class KNeighborsClassifier(KNeighborsMixin,
2                            ClassifierMixin,
3                            NeighborsBase):
4     @_deprecate_positional_args
5     def __init__(self, n_neighbors=5, *,
6                  weights='uniform', algorithm='auto', leaf_size=30,
7                  p=2, metric='minkowski', metric_params=None, n_jobs=None,
8                  **kwargs):
9     ......

n_neighbors: int, 默认为 5 表示默认邻居的数量
weights（权重）: str 类型，默认为 ‘uniform’，用于预测的权重函数。可选参数如下: ‘uniform’ : 统一的权重. 在每一个邻居区域里的点的权重都是一样的。 ‘distance’ : 权重点等于他们距离的倒数。使用此函数，更近的邻居对于所预测的点的影响更大。‘callable’ : 一个用户自定义的方法，此方法接收一个距离的数组，然后返回一个相同形状并且包含权重的数组。
algorithm（算法）: str 类型，默认值为 auto ，可选值 {‘auto’, ‘ball_tree’, ‘kd_tree’, ‘brute’}，代表计算最近邻居用的算法。'ball_tree'：使用BallTree维数大于20时建议使用。kd_tree'：原理是数据结构的二叉树，以中值为划分，每个节点是一个超矩形，在维数小于20是效率高。'brute'：暴力算法，线性扫描。'auto'：自动选取最合适的算法。
leaf_size（叶子数量）: int, 默认为 30，代表使用 BallTree 或者 KDTree 算法时的叶子数量。此参数会影响构建、查询BallTree或者KDTree的速度，以及存储BallTree或者KDTree所需要的内存大小。
p: int，默认为 2，可选值为[1，2]。p=1表示用于使用曼哈顿距离进行度量。p = 2表示使用闵可夫斯基距离。
进行度量
metric（矩阵）: string or callable, 默认为 ‘minkowski’，用于树的距离矩阵。
metric_params（矩阵参数）: dict, 可选参数(默认为 None)，代表给矩阵方法使用的其他的关键词参数。
n_jobs: int, 默认为 1，可并行运行的任务数量。如果为-1, 任务数量设置为CPU核的数量。

knn 适用于集中的同类型数据，测试可见只有临近的几个数据点可能出现错误判断的数据点。

 1 def knn_classifier_test():
 2     # 2类的测试数据100个
 3     X,y= dataset.make_blobs(n_samples=100,n_features=2,
 4                             centers=2,random_state=30)
 5     X_train,X_test,y_train,y_test=train_test_split(X,y)
 6     # 用k近邻算法进行分类
 7     knn_classifier=KNeighborsClassifier(n_neighbors=3)
 8     knn_classifier.fit(X_train,y_train)
 9     knn_classifier.predict(X_test)
10     # 打印测试数据正确率
11     print('KNN Claassifier\n   test data:{0}'
12           .format(knn_classifier.score(X_test,y_test)))
13     # 划出分类图形
14     plt.scatter(X[:,0],X[:,1],c=y,marker='^')
15     plt.title('neighbors 3')
16     plt.xlabel('feature0')
17     plt.ylabel('feature1')
18     plt.show()

运行结果

尝试把近邻点的数量参数调高，测试数据的正确很容易就会上升到100%。

6.2 KNeighborsRegressor 回归

KNeighborsRegressor 的用法基本与 KNeighborsClassifier 类似，主要也是通过 n_neighbors 来控制近邻数量

构造函数

1 class KNeighborsRegressor(KNeighborsMixin,
2                           RegressorMixin,
3                           NeighborsBase):
4     @_deprecate_positional_args
5     def __init__(self, n_neighbors=5, *, weights='uniform',
6                  algorithm='auto', leaf_size=30,
7                  p=2, metric='minkowski', metric_params=None, n_jobs=None,
8                  **kwargs):
9     ......

n_neighbors: int, 默认为 5 表示默认邻居的数量
weights（权重）: str 类型，默认为 ‘uniform’，用于预测的权重函数。可选参数如下: ‘uniform’ : 统一的权重. 在每一个邻居区域里的点的权重都是一样的。 ‘distance’ : 权重点等于他们距离的倒数。使用此函数，更近的邻居对于所预测的点的影响更大。‘callable’ : 一个用户自定义的方法，此方法接收一个距离的数组，然后返回一个相同形状并且包含权重的数组。
algorithm（算法）: str 类型，默认值为 auto ，可选值 {‘auto’, ‘ball_tree’, ‘kd_tree’, ‘brute’}，代表计算最近邻居用的算法。'ball_tree'：使用BallTree维数大于20时建议使用。kd_tree'：原理是数据结构的二叉树，以中值为划分，每个节点是一个超矩形，在维数小于20是效率高。'brute'：暴力算法，线性扫描。'auto'：自动选取最合适的算法。
leaf_size（叶子数量）: int, 默认为 30，代表使用 BallTree 或者 KDTree 算法时的叶子数量。此参数会影响构建、查询BallTree或者KDTree的速度，以及存储BallTree或者KDTree所需要的内存大小。
p: int，默认为 2，可选值为[1，2]。p=1表示用于使用曼哈顿距离进行度量。p = 2表示使用闵可夫斯基距离。
进行度量
metric（矩阵）: string or callable, 默认为 ‘minkowski’，用于树的距离矩阵。
metric_params（矩阵参数）: dict, 可选参数(默认为 None)，代表给矩阵方法使用的其他的关键词参数。
n_jobs: int, 默认为 1，可并行运行的任务数量。如果为-1, 任务数量设置为CPU核的数量。

下面以简单的单特征数据集测试，把 n_neighbors 设置为1时，训练数据的正确率为100%，而测试数据的正确率只有71%左右，可见数据的拟合度过高，线条基本上会经过所有的数据点。

 1 def knn_regressor_test():
 2     #测试数据集
 3     X,y=dataset.make_regression(n_features=1,noise=25,random_state=2)
 4     X_train,X_test,y_train,y_test=train_test_split(X,y,random_state=0)
 5     #训练KNeighborsRegressor模型
 6     knn_regressor=KNeighborsRegressor(n_neighbors=1)
 7     knn_regressor.fit(X_train,y_train)
 8     #输出训练数据集、测试数据集的正确率
 9     print('KNN_Regressor:\n     train data:{0}\n     test data:{1}'
10           .format(knn_regressor.score(X_train,y_train),
11                   knn_regressor.score(X_test,y_test)))
12     #画出数据点与数据线
13     line=np.linspace(-3,3,1000).reshape(-1,1)
14     plt.plot(line,knn_regressor.predict(line))
15     plt.plot(X,y,'v')
16     plt.legend(['model predict','train data'])
17     plt.show()

运行结果

把 n_neighbors 设置为 3 时，可见线条会更加平滑，数据的拟合度有所降低。

k 近邻是一种很好理解的模型，它比较适用于特征量较少的集合型数据，当特征数上到几个百个甚至更多时，k 近邻的准确率就是急剧下降。使用时主要是控制好 n_neighbors 的数量，一般为 3 到 5 个比较合理。

回到目录

七、朴素贝叶斯分类器

朴素贝叶斯模型是一个简单快速的分类算法，适用于维度较高的的数据集，因为它可调的参数少，运行速度快，所以多用于初步的数据分类。它基于 “ 贝叶斯定理 ” 而得名，是关于随机事件 A 和 B 的条件概率的数学定理。其中 P(A|B）是在 B 发生的情况下 A 发生的可能性。这个数学定理十分有趣，并且跟生活有着密切的关联，有兴趣的朋友可以百度科普一下，在此不作详述。

在 sklearn 中常用的朴素贝叶斯分类器有高斯朴素贝叶斯分类器（Gaussian naive Bayes）、多项式朴素贝叶斯分类器（Multinomial naive Bayes）和伯努利贝叶斯分类器（Bernoulli naive Bayes）。

7.1 GaussianNB 分类器

高斯朴素贝叶斯分类是最常用一种朴素贝叶斯分类器，它可以应用于任意连续的数据，而且会保存每个类别中每个特征的平均值与标准差值。而且可以通过快节的方法 predict_proba() 找到测试数据所属类型的概率。其构造函数简单易用，只有两个参数。

构造函数

1 class GaussianNB(_BaseNB):
2     @_deprecate_positional_args
3     def __init__(self, *, priors=None, var_smoothing=1e-9):
4     ....

prior：表示类的先验概率。如果指定，则不根据数据调整先验，如果不指定，则自行根据数据计算先验概率P(Y)。
var_smoothing：float 类型，默认值为： 1e-9，在估计方差时，为了追求估计的稳定性，将所有特征的方差中最⼤大的方差以某个比例添加到估计的方差中。

假设测试数据集服从高斯分布，且变量无方差关系，则只要找到每个标签样本点的均值和标准差，就可以通过高斯分布找到拟合的模型。从高斯模型的分界可以看出，它是一个二次方的曲线形成的。因为GaussianNB 模型的运算速度较快，测试的数据量较大，所以模型特意准备了一个 partial_fit() 方法，可以分批处理训练数据。

 1 def gaussianNB():
 2    X, y = dataset.make_blobs(centers=4, random_state=2, n_features=2)
 3    X_train,X_test,y_train,y_test=train_test_split(X,y)
 4    #训练数据
 5    gaussina=GaussianNB()
 6    model=gaussina.fit(X_train,y_train)
 7    #输出准确率
 8    print('GaussianNB\n    train data:{0}\n    test data:{1}'
 9          .format((gaussina.score(X_train,y_train)),
10                   gaussina.score(X_test,y_test)))
11    #画出数据点
12    plt.scatter(X[:,0],X[:,1],c=y,s=100,marker='^')
13    #画出分界
14    xx=np.linspace(-8,4,100)
15    yy=np.linspace(-12,5,100)
16    XX,YY=np.meshgrid(xx,yy)
17    ZZ=np.c_[XX.ravel(),YY.ravel()]
18    zz=gaussina.predict(ZZ)
19    plt.contourf(xx,yy,zz.reshape(XX.shape),alpha=0.4)
20    #画出坐标
21    plt.xlabel('feature0')
22    plt.ylabel('feature1')
23    #输出数据所属类型的概率
24    print('\ndata probability:\n{0}'.format(gaussina.predict_proba(X[1:3].reshape(-1,1))))
25    plt.show()

运行结果

7.2 MultinomialNB 分类器

高斯朴素贝叶斯分类器适用于连续型的数据分类，而 MultinomialNB 多项式朴素贝叶斯分类器更适用于分布型的数据分类，例如在玩筛子的时候，1，2，3，4，5，6 出现的机率均为1/6，其出现的情况互不干扰也没有相关性，它的特点在于所涉及的特征往往是次数，频率，计算等，不会有负值。因此，MultinomialNB 分类往往用于文本数据的分析。与 GaussianNB 类似，MultinomialNB 也可以通过快节的方法 predict_proba() 找到测试数据所属类型的概率。通过 partial_fit() 方法对数据量大的数据进行分批处理。

构造函数

1 class MultinomialNB(_BaseDiscreteNB):
2     @_deprecate_positional_args
3     def __init__(self, *, alpha=1.0, fit_prior=True, class_prior=None):
4     ......

alpha: float 类型，默认为1.0，表示平滑值
fit_prior: bool类型，默认为True。如果为True，则不去学习类别先验概率，以均匀分布替代；如果为False，则去学习
class_prior: 数组类型，默认为空。它指定了每个分类的先验概率，如果指定了该参数，则每个分类的先验概率不再从数据集中学得

常用参数

class_log_prior_: 一个数组对象，形状为(n_classes,)。给出了每个类别调整后的经验概率分布的对数值
feature_log_prob_: 一个数组对象，形状为(n_classes, n_features)。给出了P(wi|c)的经验概率分布的对数值
class_count_: 一个数组，形状为(n_classes,)，是每个类别包含的训练样本数量
feature_count_: 一个数组，形状为(n_classes, n_features)。训练过程中，每个类别每个特征遇到的样本数
coef_ :将多项式模型解释为线性模型后的系数序列w1,w2,…,wn，每个类别的词语多项式权值向量，shpae=[类别数量，词汇表长度]
intercept_:将多项式模型解释为线性模型后的截距值b，每个类别的先验概率，shape=[类别数量]

下面就是文本分析为案例，首先从 fetch_20newsgroups 测试集中获取6类的文件做测试，通过管道 pipe 把数据先通过 TF-IDF 做文本分析，再使用 MultinomialNB 进行分类，最后用混淆矩阵把各类数据的数据显示出来。可见，数据的准确率达到 88.8% 左右。

 1 def multinomialNB_test():
 2    #获取6类文章做测试
 3    categories=['rec.autos','soc.religion.christian','talk.politics.guns'
 4       ,'sci.electronics','sci.med','sci.crypt']
 5    #获取训练数据和测试数据
 6    train=fetch_20newsgroups(subset='train',categories=categories)
 7    test=fetch_20newsgroups(subset='test',categories=categories)
 8    #通过pipe管道用TF_IDF文本统计器和MultinomialNB进行训练
 9    pipe=make_pipeline(TfidfVectorizer(),MultinomialNB())
10    pipe.fit(train.data,train.target)
11    y_model=pipe.predict(test.data)
12    #输入准确率
13    print('MultinomialNB\n  test data:{0}'
14          .format(pipe.score(test.data,test.target)))
15    #混淆矩阵
16    matrix=confusion_matrix(test.target,y_model)
17    heatmap(matrix,square=True,annot=True,cbar=False,fmt='d',linewidths=2
18            ,xticklabels=test.target_names,yticklabels=test.target_names)
19    plt.show()

运行结果

至于 BernoulliNB 伯努利贝叶斯分类器的使用方法与 MultinomialNB 十分类似，只不过BernoulliNB 更多用于二元离散值或者稀疏的多元离散值分类，在此就不作详细描述。

回到目录

八、决策树与决策树集成

8.1 决策树

决策树是广泛应用于分类与回归的模型，从本质上说它类似于 if / else 的语句，从是与否中对数据进行分析。打个比方，在现实生活中我们对交通工具的划分，有轮子的是车，没轮子的船，有轮子带油箱的是机动车，有轮子不油箱的是电动车，没轮子带电机的游轮，没轮子不带电机的竹筏。这样子，我们就把交通工具分成三层关系（如下图），交通工具需要根结点，车跟船属于内结点，电动车、机动车、游轮、竹筏属于叶结点。

8.1.1 DecisionTreeClassifier 分类决策树

分类决策树 DecisionTreeClassifier 就是通过二分类的方式对数据进行逐步分割，这表示决策树的每个节点都是根据一个特征的阈值将数据分成两组进行分割的。如果结点进行无限的分枝，必然会引起性能的虚耗，导致数据过分拟合。为避免此类问题，决策树提供了预剪枝的功能，可以通过 max_depth 参数控制树的最大深度。通过 min_samples_split 控制结点的最小样本数量，当样本数量可能小于此值时，节点将不会在划分。通过 min_samples_leaf 限制了叶子节点最少的样本数，如果叶子节点数目小于最小样本数，就会和兄弟节点一起被剪枝。特别是在数据量比较大的时候，通过设置几个参数，将有效提高系统的性能。

构造函数

 1 class DecisionTreeClassifier(ClassifierMixin, BaseDecisionTree):
 2     @_deprecate_positional_args
 3     def __init__(self, *,
 4                  criterion="gini",
 5                  splitter="best",
 6                  max_depth=None,
 7                  min_samples_split=2,
 8                  min_samples_leaf=1,
 9                  min_weight_fraction_leaf=0.,
10                  max_features=None,
11                  random_state=None,
12                  max_leaf_nodes=None,
13                  min_impurity_decrease=0.,
14                  min_impurity_split=None,
15                  class_weight=None,
16                  ccp_alpha=0.0):
17      ......

criterion：str类型，默认值为 ‘gini'。表示特征选择标准，可选 gini 或者 entropy ,前者是基尼系数，后者是信息熵。
splitter：str 类型，默认值为 ’best' 。表示特征划分标准，可选择 best 或 random，”best”是在所有特征中找最好的切分点，适合样本量不大的时候。而random 在部分特征中选择分割点，适用于样本数据量较大时使用。
max_depth： int 类型，默认值为 None。设置决策随机森林中的决策树的最大深度，深度越大，越容易过拟合，推荐树的深度为：5-20之间。
min_samples_split：int 类型，默认值为2。设置结点的最小样本数量，当样本数量可能小于此值时，节点将不会在划分。
min_samples_leaf：int 类型，默认值为1。这个值限制了叶子节点最少的样本数，如果某叶子节点数目小于样本数，则会和兄弟节点一起被剪枝。
min_weight_fraction_leaf： int 类型，默认值为 0。这个值限制了叶子节点所有样本权重和的最小值，如果小于这个值，则会和兄弟节点一起被剪枝默认是0，就是不考虑权重问题。
max_features：类型 int, float or {"auto", "sqrt", "log2"}, 默认值为 None，表示限制的最大特征数。{"auto", "sqrt", "log2"} 一般在特征小于50的时候使用
random_state：随机数种子，推荐设置一个任意整数，同一个随机值，模型可以复现。
max_leaf_nodes： int 类型，默认是"None”。表示限制最大叶子的节点数，可以防止过拟合。当设置为None时，即不限制最大的叶子节点数。
min_impurity_decrease：float 类型，默认值为0.0。表示节点划分最小不纯度，这个值限制了决策树的增长，如果某节点的不纯度(基尼系数，信息增益，均方差，绝对差)小于这个阈值，则该节点不再生成子节点。
min_impurity_split： float 类型，默认值为0.0。功能可用 min_impurity_decrease 参数代替，新版不推荐使用，这个值限制了决策树的增长，如果某节点的不纯度(基尼系数，信息增益，均方差，绝对差)小于这个阈值则该节点不再生成子节点。即为叶子节点。
class_weight：dict 或 list 类型，默认值为 None , 可选 "balanced" 。指定样本各类别的的权重，主要是为了防止训练集某些类别的样本过多导致训练的决策树过于偏向这些类别。这里可以自己指定各个样本的权重，如果使用“balanced”，则算法会自己计算权重，样本量少的类别所对应的样本权重会高。
ccp_alpha：float 类型，默认值为 0.0 。表示使用 CCP 算法的误差率增益率α阈值，小于该值的误差率增益率对应的节点都会被剪枝。

下面以一个4类的数据集作为例子，看一下决策树是如果通过二分类的方式对数据进行逐步分割的。从运行结果可以看到每一层分类时数据的划分情况，深度越大，数据的分类就越仔细，这里把最大深度设置为5，然后进行剪枝。

 1 def decisionTreeClassifier_test():
 2     #测试集，用四类数据
 3     X,y=make_blobs(n_samples=200,centers=4,random_state=0,n_features=2)
 4     X_train,X_test,y_train,y_test=train_test_split(X,y)
 5     #生成决策树模型进行训练
 6     decisiontree=DecisionTreeClassifier(max_depth=5)
 7     decisiontree.fit(X_train,y_train)
 8     #显示准确率
 9     print('DecisionTreeClassifier:\n  train data:{0}\n  test data:{1}'
10         .format(decisiontree.score(X_train,y_train),
11                 decisiontree.score(X_test,y_test)))
12     #打印数据分布图
13     xx=np.linspace(-5,5,200)
14     yy=np.linspace(-2,11,200)
15     XX,YY=np.meshgrid(xx,yy)
16     ZZ=np.c_[XX.ravel(),YY.ravel()]
17     zz=decisiontree.predict(ZZ).reshape(XX.shape)
18     plt.contourf(xx,yy,zz,alpha=0.4,zorder=2)
19     #画出数据点
20     plt.scatter(X[:,0],X[:,1],c=y,marker='^',s=50)
21     plt.show()

运行结果

除此以外，还可以使用 tree.export_graphviz() 保存决策树和重要信息。使用 DecisionTreeClassifier.feature_importances_ 属性查看决策树每个特征的重要性占比，每个特征的重要性比率加起来必然是等于1 。注意，即使特征的重要性为0，并不说明此特征没有提供任何信息，只是表示此次运行中该特征并末被此决策树选中，每次运行同样的数据集，特征的占比均不相同。

 1 def decisionTreeClassifier_test():
 2     #测试集，用四类数据
 3     X,y=make_blobs(n_samples=500,centers=10,random_state=1,n_features=10)
 4     X_train,X_test,y_train,y_test=train_test_split(X,y)
 5     #生成决策树模型进行训练
 6     decisiontree=DecisionTreeClassifier(max_depth=8)
 7     decisiontree.fit(X_train,y_train)
 8     #显示准确率
 9     print('DecisionTreeClassifier:\n  train data:{0}\n  test data:{1}'
10         .format(decisiontree.score(X_train,y_train),
11                 decisiontree.score(X_test,y_test)))
12     #输出 feature 特性重要性比率
13     print('  feature_importance:\n{0}'.format(decisiontree.feature_importances_))
14     #保存决策树重要信息
15     export_graphviz(decisiontree,out_file='data2.dot')

运行结果

8.1.2 DecisionTreeRegressor 回归决策树

回归决策树的原理与分类决策树的原理基本一致，但是有一点必须注意的是，他的测试数据不能在训练范围以外进行预测，一但超出训练范围，测试值就是一定被认定为最后的一个值。

构造函数

 1 class DecisionTreeRegressor(RegressorMixin, BaseDecisionTree):
 2     @_deprecate_positional_args
 3     def __init__(self, *,
 4                  criterion="mse",
 5                  splitter="best",
 6                  max_depth=None,
 7                  min_samples_split=2,
 8                  min_samples_leaf=1,
 9                  min_weight_fraction_leaf=0.,
10                  max_features=None,
11                  random_state=None,
12                  max_leaf_nodes=None,
13                  min_impurity_decrease=0.,
14                  min_impurity_split=None,
15                  ccp_alpha=0.0):
16         ......

criterion：str类型，默认值为 ‘mse'。表示特征选择标准，可选 gini 或者 entropy ,前者是基尼系数，后者是信息熵。
splitter：str 类型，默认值为 ’best' 。表示特征划分标准，可选择 best 或 random，”best”是在所有特征中找最好的切分点，适合样本量不大的时候。而random 在部分特征中选择分割点，适用于样本数据量较大时使用。
max_depth： int 类型，默认值为 None。设置决策随机森林中的决策树的最大深度，深度越大，越容易过拟合，推荐树的深度为：5-20之间。
min_samples_split：int 类型，默认值为2。设置结点的最小样本数量，当样本数量可能小于此值时，节点将不会在划分。
min_samples_leaf：int 类型，默认值为1。这个值限制了叶子节点最少的样本数，如果某叶子节点数目小于样本数，则会和兄弟节点一起被剪枝。
min_weight_fraction_leaf： int 类型，默认值为0。这个值限制了叶子节点所有样本权重和的最小值，如果小于这个值，则会和兄弟节点一起被剪枝默认是0，就是不考虑权重问题。
max_features：类型 int, float or {"auto", "sqrt", "log2"}, 默认值为 None，表示限制的最大特征数。{"auto", "sqrt", "log2"} 一般在特征小于50的时候使用
random_state：随机数种子，推荐设置一个任意整数，同一个随机值，模型可以复现。
max_leaf_nodes： int 类型，默认是"None”。表示限制最大叶子的节点数，可以防止过拟合。当设置为None时，即不限制最大的叶子节点数。
min_impurity_decrease：float 类型，默认值为0.0。表示节点划分最小不纯度，这个值限制了决策树的增长，如果某节点的不纯度(基尼系数，信息增益，均方差，绝对差)小于这个阈值，则该节点不再生成子节点。
min_impurity_split： float 类型，默认值为0.0。功能可用 min_impurity_decrease 参数代替，新版不推荐使用，这个值限制了决策树的增长，如果某节点的不纯度(基尼系数，信息增益，均方差，绝对差)小于这个阈值则该节点不再生成子节点。即为叶子节点。
class_weight：dict 或 list 类型，默认值为 None , 可选 "balanced" 。指定样本各类别的的权重，主要是为了防止训练集某些类别的样本过多导致训练的决策树过于偏向这些类别。这里可以自己指定各个样本的权重，如果使用“balanced”，则算法会自己计算权重，样本量少的类别所对应的样本权重会高。
ccp_alpha：float 类型，默认值为 0.0 。表示使用 CCP 算法的误差率增益率α阈值，小于该值的误差率增益率对应的节点都会被剪枝。

下面的例子使用一个自定义的数据集进行训练，输出测试集的准确率，同时把训练集以外的数据进行测试。从运行结果可以看出，超出训练集以外的数据都会以最后一个值作为输出。

 1 def decisionRegression_test():
 2     # 生成数据集
 3     X = np.linspace(-3, 3, 100)
 4     y = 2*X+1+np.random.ranf(100)
 5     X_train,X_test,y_train,y_test=train_test_split(X.reshape(-1,1),y)
 6     # 使用决策树模型进行训练
 7     decisiontree=DecisionTreeRegressor(max_depth=4)
 8     decisiontree.fit(X_train,y_train)
 9     # 测试数据
10     model_y=decisiontree.predict(X.reshape(-1,1))
11     print('DecisionTreeRegression:\n  train data:{0}\n  test data{1}'
12           .format(decisiontree.score(X_train,y_train),
13                   decisiontree.score(X_test,y_test)))
14     # 画出数据点
15     plt.plot(X_train,y_train,'.')
16     plt.plot(X,model_y,'-')
17 
18     #超越训练范围会取最后一个点值
19     XX=np.linspace(3, 5, 20)
20     YY=decisiontree.predict(XX.reshape(-1,1))
21     plt.plot(XX,YY,'-')
22     plt.legend(['train data','predict data','out tree data'])
23     plt.show()

运行结果

决策树的原理比较容易理解，在计算前不需要对特征进行预处理，当特征独立性较强或多元特征与连续特征同时存在时，决策树的效果会比较好。而且处理时只需要通过调节上述的几个参数： max_depth 、 min_samples_split 、 min_samples_leaf 就可以适应多样性的特征。然而，它的泛化性能较差，有时候即使做了剪枝，也会出现过拟合的情况。

有见及此，sklearn 还提供了决策树集成模型，下面就为大家介绍 2 种常用的决策树集成模型：随机森林与梯度提升决策树。

8.2 随机森林

随机森林顾名思义就是把多棵决策树集成一起同时运行，最后把个运算结果进行合并运算求平均值。类似这种通过多个拟合评估器来降低拟合程度的算法被称作装袋算法，它使用并行评估器对数据进行有效的数据抽取并集成，对本来的过拟合的数量通过求和取平均值，最后通过更好的分类效果。因此，相比起决策树，随机森林的准确率会更高，也是应该最广的模型之一。
随机森林可以通过 n_estimators 参数来设置随机森林中决策树的数量，通过 estimator_ 属性可以获取随机森林中的每一棵决策树。一般情况下，n_estimators 越大越好。还能然后通过 max_features 来控制每个节点的特征数，回归时一般 max_features 可以设置为数据集中所有的特征数，在分类时，max_features=sqrt(n_features)。

8.2.1 RandomForestClassifier 随机森林分类

使用 RandomForestClassifier 进行分类时，通过增加决策树的数量（在默认设置中随机森林往往使用100棵决策树），可以减小数据拟合度，使数据边界更加平滑。在设置特征数时，max_features 直接使用默认值 auto ，则最大特征数 max_features = sqrt（n_features）。

构造函数

 1 class RandomForestClassifier(ForestClassifier):
 2  @_deprecate_positional_args
 3     def __init__(self,
 4                  n_estimators=100, *,
 5                  criterion="gini",
 6                  max_depth=None,
 7                  min_samples_split=2,
 8                  min_samples_leaf=1,
 9                  min_weight_fraction_leaf=0.,
10                  max_features="auto",
11                  max_leaf_nodes=None,
12                  min_impurity_decrease=0.,
13                  min_impurity_split=None,
14                  bootstrap=True,
15                  oob_score=False,
16                  n_jobs=None,
17                  random_state=None,
18                  verbose=0,
19                  warm_start=False,
20                  class_weight=None,
21                  ccp_alpha=0.0,
22                  max_samples=None):
23         ......

n_estimators：类型 int，默认值100，森林中决策树的数量。
criterion：str类型，默认值为 ‘mse'。表示特征选择标准，可选 gini 或者 entropy ,前者是基尼系数，后者是信息熵。
max_depth： int 类型，默认值为 None。设置决策随机森林中的决策树的最大深度，深度越大，越容易过拟合，推荐树的深度为：5-20之间。
min_samples_split：int 类型，默认值为2。设置结点的最小样本数量，当样本数量可能小于此值时，节点将不会在划分。
min_samples_leaf：int 类型，默认值为1。这个值限制了叶子节点最少的样本数，如果某叶子节点数目小于样本数，则会和兄弟节点一起被剪枝。
min_weight_fraction_leaf： int 类型，默认值为0。这个值限制了叶子节点所有样本权重和的最小值，如果小于这个值，则会和兄弟节点一起被剪枝默认是0，就是不考虑权重问题。
max_features：类型 int, float or {"auto", "sqrt", "log2"} 默认值为 auto ，此时 max_features =sqrt（ n_features）。表示最佳分割时要考虑的特征数量，如果为int，则在每个拆分中考虑max_features个特征。如果为float，则max_features是一个分数，并在每次拆分时考虑int（max_features * n_features）个特征。如果为“auto”，则 max_features = sqrt（n_features）。如果为“ sqrt”，则 max_features = sqrt（n_features）。如果为“ log2”，则max_features = log2（n_features）。注意：在找到至少一个有效的节点样本分区之前，分割的搜索不会停止。
max_leaf_nodes：int 类型，默认为None，最大叶子节点数。
min_impurity_decrease：float 类型，默认值为0.0。表示节点划分最小不纯度，这个值限制了决策树的增长，如果某节点的不纯度(基尼系数，信息增益，均方差，绝对差)小于这个阈值，则该节点不再生成子节点。
min_impurity_split：float 类型，默认值为0.0。功能可用 min_impurity_decrease 参数代替，新版不推荐使用，这个值限制了决策树的增长，如果某节点的不纯度(基尼系数，信息增益，均方差，绝对差)小于这个阈值则该节点不再生成子节点。即为叶子节点。
bootstrap：bool类型，默认值为 True，表示是否进行bootstrap操作。当为 True 时，将每次有放回地随机选取样本，只有在extra-trees中，才可设置为 False
oob_score：bool类型，默认值为 False。表示是否使用袋外样本来估计泛化精度。
n_jobs：int, 默认为 None，可并行运行的任务数量。如果为-1, 任务数量设置为CPU核的数量。
random_state：int 默认为 None。随机数种子，推荐设置一个任意整数，同一个随机值，模型可以复现。
verbose：int 默认是0。表示在拟合和预测时控制详细程度。
warm_start：bool 类型，默认值 False，当设置为True时，重用之前调用的解决方案作为初始化，否则，需要删除前面的解决方案。
class_weight：dict 或 list 类型，默认值为 None , 可选 "balanced" 。指定样本各类别的的权重，主要是为了防止训练集某些类别的样本过多导致训练的决策树过于偏向这些类别。这里可以自己指定各个样本的权重，如果使用“balanced”，则算法会自己计算权重，样本量少的类别所对应的样本权重会高。
ccp_alpha：float 类型，默认值为 0.0 。表示使用 CCP 算法的误差率增益率α阈值，小于该值的误差率增益率对应的节点都会被剪枝。
max_samples：bool 类型，默认值为None。如果bootstrap为True，则从X抽取以训练每个基本分类器的样本数。如果为None（默认），则抽取X.shape [0]样本。如果为int，则抽取max_samples样本。如果为float，则抽取max_samples * X.shape [0]个样本。

下面例子尝试使用 6 棵决策树的随机森林，分别把每棵决策树的数据分布与特征权重打印出来作比较。可见每棵决策树的边界并不相同，而且特征权重也有区别。随机森林会根据特征权重求和并取平均值，最后算出的权重更客观平均。

 1 def randomforestclassifier_test():
 2     #测试集，用四类数据
 3     X,y=make_blobs(n_samples=100,centers=4,random_state=1,n_features=2)
 4     X_train,X_test,y_train,y_test=train_test_split(X,y)
 5     #生成随机森林模型进行训练
 6     randomforest=RandomForestClassifier(n_estimators=6,max_features=2)
 7     #训练模型
 8     randomforest.fit(X_train,y_train)
 9     #显示准确率
10     print('RandomForestClassifier:\n  train data:{0}\n  test data:{1}\n'
11         .format(randomforest.score(X_train,y_train),
12                 randomforest.score(X_test,y_test)))
13     #打印数据分布图
14     fig,axes=plt.subplots(2,3)
15     axes1=axes.reshape(1,-1)[0]
16     # 打印每棵决策树的数据分布图
17     for ax,estimator in zip(axes1,randomforest.estimators_):
18         xx=np.linspace(-13,2,200)
19         yy=np.linspace(-11,8,200)
20         XX,YY=np.meshgrid(xx,yy)
21         ZZ=np.c_[XX.ravel(),YY.ravel()]
22         zz=estimator.predict(ZZ).reshape(XX.shape)
23         ax.contourf(xx,yy,zz,alpha=0.4,zorder=2)
24         #画出数据点
25         ax.scatter(X[:,0],X[:,1],c=y,marker='^',s=50)
26         # 显示特征占比
27         print(estimator.feature_importances_)
28     plt.show()

运行结果

8.2.2 RandomForestRegressor 随机森林回归

随机森林也支持回归算法，且 RandomForestRegressor 的构造函数与 RandomForestClassifier 基本一至。由于它是由多棵决策树构成，所以回归曲线会更加平滑。也可进行剪枝等操作，但必须注意超出训练集以外的数据与决策树一样，都会以最后一个值作为输出。而在 max_features 设置方面与 RandomForestClassifier 也有不同，默认情况下 RandomForestClassifier 分类模型 max_features = sqrt（n_features），而在 RandomForestRegressor 回归模型 max_features = n_features。

构造函数

 1 class RandomForestRegressor(ForestRegressor):
 2     @_deprecate_positional_args
 3     def __init__(self,
 4                  n_estimators=100, *,
 5                  criterion="mse",
 6                  max_depth=None,
 7                  min_samples_split=2,
 8                  min_samples_leaf=1,
 9                  min_weight_fraction_leaf=0.,
10                  max_features="auto",
11                  max_leaf_nodes=None,
12                  min_impurity_decrease=0.,
13                  min_impurity_split=None,
14                  bootstrap=True,
15                  oob_score=False,
16                  n_jobs=None,
17                  random_state=None,
18                  verbose=0,
19                  warm_start=False,
20                  ccp_alpha=0.0,
21                  max_samples=None):
22         ......

n_estimators：类型 int，默认值100，森林中决策树的数量。
criterion：str类型，默认值为 ‘mse'。表示特征选择标准，“mse” 表示均方误差，可选 gini 或者 entropy ,前者是基尼系数，后者是信息熵。
max_depth： int 类型，默认值为 None。设置决策随机森林中的决策树的最大深度，深度越大，越容易过拟合，推荐树的深度为：5-20之间。
min_samples_split：int 类型，默认值为2。设置结点的最小样本数量，当样本数量可能小于此值时，节点将不会在划分。
min_samples_leaf：int 类型，默认值为1。这个值限制了叶子节点最少的样本数，如果某叶子节点数目小于样本数，则会和兄弟节点一起被剪枝。
min_weight_fraction_leaf： int 类型，默认值为0。这个值限制了叶子节点所有样本权重和的最小值，如果小于这个值，则会和兄弟节点一起被剪枝默认是0，就是不考虑权重问题。
max_features：类型 int, float or {"auto", "sqrt", "log2"} 默认值为 auto ，此时 max_features = n_features。表示最佳分割时要考虑的特征数量，如果为int，则在每个拆分中考虑 max_features个特征。如果为float，则max_features是一个分数，并在每次拆分时考虑int（max_features * n_features）个特征。如果为“auto”，则 max_features = n_features。如果为“ sqrt”，则max_features = sqrt（n_features）。如果为“ log2”，则max_features = log2（n_features）。注意：在找到至少一个有效的节点样本分区之前，分割的搜索不会停止。
max_leaf_nodes：int 类型，默认为None，最大叶子节点数。
min_impurity_decrease：float 类型，默认值为0.0。表示节点划分最小不纯度，这个值限制了决策树的增长，如果某节点的不纯度(基尼系数，信息增益，均方差，绝对差)小于这个阈值，则该节点不再生成子节点。
min_impurity_split：float 类型，默认值为0.0。功能可用 min_impurity_decrease 参数代替，新版不推荐使用，这个值限制了决策树的增长，如果某节点的不纯度(基尼系数，信息增益，均方差，绝对差)小于这个阈值则该节点不再生成子节点。即为叶子节点。
bootstrap：bool类型，默认值为 True，表示是否进行bootstrap操作。当为 True 时，将每次有放回地随机选取样本，只有在extra-trees中，才可设置为 False
oob_score：bool类型，默认值为 False。表示是否使用袋外样本来估计泛化精度。
n_jobs：int, 默认为 None，可并行运行的任务数量。如果为-1, 任务数量设置为CPU核的数量。
random_state：int 默认为 None。随机数种子，推荐设置一个任意整数，同一个随机值，模型可以复现。
verbose：int 默认是0。表示在拟合和预测时控制详细程度。
warm_start：bool 类型，默认值 False，当设置为True时，重用之前调用的解决方案作为初始化，否则，需要删除前面的解决方案。
ccp_alpha：float 类型，默认值为 0.0 。表示使用 CCP 算法的误差率增益率α阈值，小于该值的误差率增益率对应的节点都会被剪枝。
max_samples：bool 类型，默认值为None。如果bootstrap为True，则从X抽取以训练每个基本分类器的样本数。如果为None（默认），则抽取X.shape [0]样本。如果为int，则抽取max_samples样本。如果为float，则抽取max_samples * X.shape [0]个样本。

用与决策树回归相同的例子对自定义的数据集进行训练，输出测试集的准确率。从输出图片对比可以看到，经过随机森林计算的结果会明显比决策树更平滑，而超出训练集以外的数据高样会以最后一个值作为输出。在多特征数据集中，你会发现随机森林的准确率会更高。

 1 def randomforestregressor_test():
 2     # 生成数据集
 3     X = np.linspace(-3, 3, 100)
 4     y = 2*X+1+np.random.ranf(100)
 5     X_train,X_test,y_train,y_test=train_test_split(X.reshape(-1,1),y)
 6     # 使用随机森林模型进行训练
 7     randomforest=RandomForestRegressor()
 8     randomforest.fit(X_train,y_train)
 9     # 测试数据
10     model_y=randomforest.predict(X.reshape(-1,1))
11     print('randomforestRegression:\n  train data:{0}\n  test data{1}'
12           .format(randomforest.score(X_train,y_train),
13                   randomforest.score(X_test,y_test)))
14     # 画出数据点
15     plt.plot(X_train,y_train,'.')
16     plt.plot(X,model_y,'-')
17 
18     #超越训练范围会取最后一个点值
19     XX=np.linspace(3, 5, 20)
20     YY=randomforest.predict(XX.reshape(-1,1))
21     plt.plot(XX,YY,'-')
22     plt.legend(['train data','predict data','out tree data'])
23     plt.show()

运行结果

8.3 梯度提升回归树

虽然名称中包含回归字样，但其实这模型既支持分类也支持回归。与随机森林不同的地方在于，随机森林是以多棵决策树求平均值的方式得到最终结果，而梯度提升回归树是以连续方式构建决策树，每棵决策树都会试图纠正前一棵树的错误。在默认情况下，每棵决策树都会使用预剪枝，其深度都在1~5之间，以减少内存消耗。

8.3.1 GradientBoostingClassifier 梯度提升分类器

使用梯度提升分类器时，值得注意的是除了常用的 n_estimators 、min_samples_split 、 min_samples_leaf 参数外，会把 max_depth 调节到 3 ~5 之间，以减少内存消耗。一般情况下会使用默认值把max_features 调节为 sqrt(n_features) 或以下，而学习率 learn_rate 会视乎训练数据的多少而设定。如果训练集数量不能确定时，可使用 validation_fraction 和 n_iter_no_change 参数，使训练数据达到某一比例时停止训练，并根据 n_iter_no_change 设置值把部分训练层的数据作为参数值。

构造函数

 1 class GradientBoostingClassifier(ClassifierMixin, BaseGradientBoosting):
 2     @_deprecate_positional_args
 3     def __init__(self, *, loss='deviance', learning_rate=0.1, n_estimators=100,
 4                  subsample=1.0, criterion='friedman_mse', min_samples_split=2,
 5                  min_samples_leaf=1, min_weight_fraction_leaf=0.,
 6                  max_depth=3, min_impurity_decrease=0.,
 7                  min_impurity_split=None, init=None,
 8                  random_state=None, max_features=None, verbose=0,
 9                  max_leaf_nodes=None, warm_start=False,
10                  validation_fraction=0.1, n_iter_no_change=None, tol=1e-4,
11                  ccp_alpha=0.0):
12         ......

loss：str 类型，表示每一次节点分裂所要最小化的损失函数 (loss function)，默认值为 deviance 。可选值 "deviance"和"exponential" ，deviance 代表使用 “logistic” 作为损失函数进行分类与概率输出。exponential 代表使用 “Adaboost” 作为损失函数进行回归。
learning_rate：float 类型，默认值为0.1 ，表示学习率。每一次树分类都会更新这个值，而 learning_ rate控制着每次更新的幅度。只要训练数据足够多，这个值不应该设得太大，因为较小的learning rate使得模型对不同的树更加稳健，就能更好地综合它们的结果。
n_estimators：int 类型，默认值100，森林中决策树的数量。通常会把 n_estimators 与参数 learning_rate 一起考虑，控制学习的质量。
subsample: float 类型，默认值 1.0。代表训练每个决定树所用到的子样本占总样本的比例，因为是对于子样本的，选择是随机的0.5 ~0.8就有更好的调参结果。如果使用默认值1.0，即代表不使用子样本采样。
criterion：str类型，默认值为 ‘friedman_mse'，可选值 {'friedman_mse', 'mse', 'mae'}。friedman_mse” 表示对均方误差改进的“弗里德曼得分”，“mse” 表示均方误差，“mae” 表示平均绝对误差。
min_samples_split：int 类型，默认值为2。设置结点的最小样本数量，当样本数量可能小于此值时，节点将不会在划分。
min_samples_leaf：int 类型，默认值为1。这个值限制了叶子节点最少的样本数，如果某叶子节点数目小于样本数，则会和兄弟节点一起被剪枝。
min_weight_fraction_leaf： int 类型，默认值为0。这个值限制了叶子节点所有样本权重和的最小值，如果小于这个值，则会和兄弟节点一起被剪枝默认是0，就是不考虑权重问题。
max_depth： int 类型，默认值为 3。决策树的最大深度，深度越大，越容易过拟合。每棵决策树都会使用预剪枝，其深度都在1~5之间，以减少内存消耗。
min_impurity_decrease：float 类型，默认值为 0.0。表示节点划分最小不纯度，这个值限制了决策树的增长，如果某节点的不纯度(基尼系数，信息增益，均方差，绝对差)小于这个阈值，则该节点不再生成子节点。
min_impurity_split：float 类型，默认值为 None 。功能可用 min_impurity_decrease 参数代替，新版不推荐使用，这个值限制了决策树的增长，如果某节点的不纯度(基尼系数，信息增益，均方差，绝对差)小于这个阈值则该节点不再生成子节点。即为叶子节点。
init：可选 estimator 或 'zero'，默认值为 None，代表初始化的时候的弱学习器。默认情况下会用训练集样本来做样本集的初始化分类回归预测。否则用init参数提供的学习器做初始化分类回归预测。一般用在对数据已有先检查的经验，或者之前做过一些拟合的时候。
random_state：int 默认为 None。随机数种子，推荐设置一个任意整数，同一个随机值，模型可以复现。
max_features：类型 int, float or {"auto", "sqrt", "log2"} 默认值为 none，此时 max_features = n_features。表示最佳分割时要考虑的特征数量，如果为int，则在每个拆分中考虑 max_features个特征。如果为float，则max_features是一个分数，并在每次拆分时考虑int（max_features * n_features）个特征。如果为“auto”，则 max_features = sqrt（n_features）。如果为“ sqrt”，则max_features = sqrt（n_features）。如果为“ log2”，则max_features = log2（n_features）。注意：在找到至少一个有效的节点样本分区之前，分割的搜索不会停止。
verbose：int 默认是0。表示在拟合和预测时控制详细程度。
max_leaf_nodes：int 类型，默认为None，最大叶子节点数。
warm_start：bool 类型，默认值 False，当设置为True时，重用之前调用的解决方案作为初始化，否则，需要删除前面的解决方案。
validation_fraction：float 类型，默认值0.1 。测试数据占验证集的比例时提前停止工作，必须介于0和1之间 float 类型。只有当 n_iter_no_chang 有效时才起作用。
n_iter_no_change：int 类型，默认值为 None。表示是否在验证集比例达到 validation_fraction 设定值时提前终止训练。由默认情况下，它被设置为 “None” 以禁用提前停止训练。如果设置为 n 时，它将根据 validation_fraction 的设置去训练数据多次，将前 n 次的训练数据作为参考值去修改模型。
tol：float类型，默认值1e-4 ，表示停止训练的误差精度。
ccp_alpha：float 类型，默认值为 0.0 。表示使用 CCP 算法的误差率增益率α阈值，小于该值的误差率增益率对应的节点都会被剪枝。

下面以 breast_cancer 数据集为例，使用 GradientBoostingClassifier 模型进行分类测试。

 1 def gradientboostingclassifier_test():
 2     #测试数据
 3     cancer=dt.load_breast_cancer()
 4     X_train,X_test,y_train,y_test=train_test_split(cancer.data,cancer.target,random_state=1)
 5     #使用GradientBoostingClassifier模型进行学习
 6     gradientBoosting=GradientBoostingClassifier(max_depth=5,learning_rate=0.1)
 7     gradientBoosting.fit(X_train,y_train)
 8     #显示准确率
 9     print('GradientBoostingClassifier:\n  train data:{0}\n  test data:{1}'
10         .format(gradientBoosting.score(X_train,y_train),
11                 gradientBoosting.score(X_test,y_test)))
12     #输出 feature 特性重要性比率
13     print('\n  feature_importance:\n{0}'.format(gradientBoosting.feature_importances_))

运行结果

从运行结果看到训练数据的准确率达到 100%，有可能存在可过拟合的情况。此时可以试着把最大深度调节为 2，把学习率降低到 0.05，可得到下面的结果。可见减小最大深度，调节学习率有利于预防过拟合情况，提高泛化性。

8.3.1 GradientBoostingRegressor 梯度提升回归器

GradientBoostingRegressor 的使用方法与 RandomForestRegressor 类似，要注意的一点是 GradientBoostingRegressor 模型中 n_estimators 并非越大越好，因为值越大，模型的复杂程度就会越大，消耗的硬件资源也会越高。结合数据集的大小、内存情况以及 learning_rate 来设置 n_estimators 是比较好的选择。

构造函数

 1 class GradientBoostingRegressor(RegressorMixin, BaseGradientBoosting):
 2     @_deprecate_positional_args
 3     def __init__(self, *, loss='ls', learning_rate=0.1, n_estimators=100,
 4                  subsample=1.0, criterion='friedman_mse', min_samples_split=2,
 5                  min_samples_leaf=1, min_weight_fraction_leaf=0.,
 6                  max_depth=3, min_impurity_decrease=0.,
 7                  min_impurity_split=None, init=None, random_state=None,
 8                  max_features=None, alpha=0.9, verbose=0, max_leaf_nodes=None,
 9                  warm_start=False, validation_fraction=0.1,
10                  n_iter_no_change=None, tol=1e-4, ccp_alpha=0.0):
11         ......

loss：str 类型，表示每一次节点分裂所要最小化的损失函数 (loss function)，默认值为 ' ls '。可选值 {'ls', 'lad', 'huber', 'quantile'} ，“ls”是使用最小二乘法，‘lad' 是使用最小绝对偏差，‘huber' 则是两者的结合，'quantitle' 则是使用 alpha 的设置值作为分位数进行使用。
learning_rate：float 类型，默认值为0.1 ，表示学习率。每一次树分类都会更新这个值，而 learning_ rate控制着每次更新的幅度。只要训练数据足够多，这个值不应该设得太大，因为较小的learning rate使得模型对不同的树更加稳健，就能更好地综合它们的结果。
n_estimators：int 类型，默认值100，森林中决策树的数量。通常会把 n_estimators 与参数 learning_rate 一起考虑，控制学习的质量。
subsample: float 类型，默认值 1.0。代表训练每个决定树所用到的子样本占总样本的比例，因为是对于子样本的，选择是随机的0.5 ~0.8就有更好的调参结果。如果使用默认值1.0，即代表不使用子样本采样。
criterion：str类型，默认值为 ‘friedman_mse'，可选值 {'friedman_mse', 'mse', 'mae'}。friedman_mse” 表示对均方误差改进的“弗里德曼得分”，“mse” 表示均方误差，“mae” 表示平均绝对误差。
min_samples_split：int 类型，默认值为2。设置结点的最小样本数量，当样本数量可能小于此值时，节点将不会在划分。
min_samples_leaf：int 类型，默认值为1。这个值限制了叶子节点最少的样本数，如果某叶子节点数目小于样本数，则会和兄弟节点一起被剪枝。
min_weight_fraction_leaf： int 类型，默认值为0。这个值限制了叶子节点所有样本权重和的最小值，如果小于这个值，则会和兄弟节点一起被剪枝默认是0，就是不考虑权重问题。
max_depth： int 类型，默认值为 3。决策树的最大深度，深度越大，越容易过拟合。每棵决策树都会使用预剪枝，其深度都在1~5之间，以减少内存消耗。
min_impurity_decrease：float 类型，默认值为 0.0。表示节点划分最小不纯度，这个值限制了决策树的增长，如果某节点的不纯度(基尼系数，信息增益，均方差，绝对差)小于这个阈值，则该节点不再生成子节点。
min_impurity_split：float 类型，默认值为 None 。功能可用 min_impurity_decrease 参数代替，新版不推荐使用，这个值限制了决策树的增长，如果某节点的不纯度(基尼系数，信息增益，均方差，绝对差)小于这个阈值则该节点不再生成子节点。即为叶子节点。
init：可选 estimator 或 'zero'，默认值为 None，代表初始化的时候的弱学习器。默认情况下会用训练集样本来做样本集的初始化分类回归预测。否则用init参数提供的学习器做初始化分类回归预测。一般用在对数据已有先检查的经验，或者之前做过一些拟合的时候。
random_state：int 默认为 None。随机数种子，推荐设置一个任意整数，同一个随机值，模型可以复现。
max_features：类型 int, float or {"auto", "sqrt", "log2"} 默认值为 None，此时 max_features = n_features。表示最佳分割时要考虑的特征数量，如果为int，则在每个拆分中考虑 max_features个特征。如果为float，则max_features是一个分数，并在每次拆分时考虑int（max_features * n_features）个特征。如果为“auto”，则 max_features = n_features。如果为“ sqrt”，则max_features = sqrt（n_features）。如果为“ log2”，则max_features = log2（n_features）。注意：在找到至少一个有效的节点样本分区之前，分割的搜索不会停止。
alpha: float类型，默认值是0.9 。当使用 “quantile” 作为 loss 时，所指定分位数的值。默认是0.9，如果噪音点较多，可以适当降低这个分位数的值。
verbose：int 默认是0。表示在拟合和预测时控制详细程度。
max_leaf_nodes：int 类型，默认为None，最大叶子节点数。
warm_start：bool 类型，默认值 False，当设置为True时，重用之前调用的解决方案作为初始化，否则，需要删除前面的解决方案。
validation_fraction：float 类型，默认值0.1 。测试数据占验证集的比例时提前停止工作，必须介于0和1之间 float 类型。只有当 n_iter_no_chang 有效时才起作用。
n_iter_no_change：int 类型，默认值为 None。表示是否在验证集比例达到 validation_fraction 设定值时提前终止训练。由默认情况下，它被设置为 “None” 以禁用提前停止训练。如果设置为 n 时，它将根据 validation_fraction 的设置去训练数据多次，将前 n 次的训练数据作为参考值去修改模型。
tol：float类型，默认值1e-4 ，表示停止训练的误差精度。
ccp_alpha：float 类型，默认值为 0.0 。表示使用 CCP 算法的误差率增益率α阈值，小于该值的误差率增益率对应的节点都会被剪枝。

使用与 RandomForestRegressor 相同的测试数据，尝试把 n_estimators 降低到 20，把 max_depth 设置为 1，学习率 learning_rate 设置为 0.08 。把参数调低后，也可达到随机森林类似的结果，而且线条的顺滑程度同样比决策树要高。

 1 def gradientbootingregressor_test():
 2     # 生成数据集
 3     X = np.linspace(-3, 3, 100)
 4     y = 2*X+1+np.random.ranf(100)
 5     X_train,X_test,y_train,y_test=train_test_split(X.reshape(-1,1),y)
 6     # 使用梯度提升回归树模型进行训练
 7     gradientbooting=GradientBoostingRegressor(n_estimators=40,max_depth=3,learning_rate=0.08)
 8     gradientbooting.fit(X_train,y_train)
 9     # 测试数据
10     model_y=gradientbooting.predict(X.reshape(-1,1))
11     print('gradientbootingRegression:\n  train data:{0}\n  test data{1}'
12           .format(gradientbooting.score(X_train,y_train),
13                   gradientbooting.score(X_test,y_test)))
14     # 画出数据点
15     plt.plot(X_train,y_train,'.')
16     plt.plot(X,model_y,'-')
17 
18     #超越训练范围会取最后一个点值
19     XX=np.linspace(3, 5, 20)
20     YY=gradientbooting.predict(XX.reshape(-1,1))
21     plt.plot(XX,YY,'-')
22     plt.legend(['train data','predict data','out tree data'])
23     plt.show()

运行结果

本章总结

本文主要介绍支持向量机、k近邻、朴素贝叶斯分类、决策树、决策树集成等模型的应用。讲解了支持向量机 SVM 线性与非线性模型的适用环境，并对核函数技巧作出深入的分析，对线性 Linear 核函数、多项式 Poly 核函数，高斯 RBF 核函数进行了对比。讲述了 K 近邻的使用方法。对高斯朴素贝叶斯分类器（Gaussian naive Bayes）、多项式朴素贝叶斯分类器（Multinomial naive Bayes）和伯努利贝叶斯分类器（Bernoulli naive Bayes）进行了不同的介绍。最后对决策树（DecisionTree）、随机森林（RandomForest）、梯度提升回归器（GradientBoosting）进行分析。

你可能感兴趣的:(python基础教程,python,人工智能,机器学习)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python编译器鹿鹿~ Python编译器 Python python 开发语言后端
嘿嘿嘿我又来了啊有些小盆友可能不知道Python其实是有编译器的，也就是PyCharm。你们可能会问到这个是干嘛的又不可以吃也不可以穿好像没有什么用，其实你还说对了这个还真的不可以吃也不可以穿，但是它用来干嘛的呢。用来编译你所打出的代码进行运行（可能这里说的有点不对但是只是个人认为）现在我们来说说PyCharm是用来干嘛的。PyCharm是一种PythonIDE，带有一整套可以帮助用户在使用Pyt
一文掌握python面向对象魔术方法（二）程序员neil python python 开发语言
接上篇：一文掌握python面向对象魔术方法（一）-CSDN博客目录六、迭代和序列化：1、__iter__(self):定义迭代器，使得类可以被for循环迭代。2、__getitem__(self,key):定义索引操作，如obj[key]。3、__setitem__(self,key,value):定义赋值操作，如obj[key]=value。4、__delitem__(self,key):定义
解读Servlet原理篇二---GenericServlet与HttpServlet 周凡杨 java HttpServlet 源理 GenericService 源码
在上一篇《解读Servlet原理篇一》中提到，要实现javax.servlet.Servlet接口（即写自己的Servlet应用），你可以写一个继承自javax.servlet.GenericServletr的generic Servlet ，也可以写一个继承自java.servlet.http.HttpServlet的HTTP Servlet（这就是为什么我们自定义的Servlet通常是exte
MySQL性能优化 bijian1013 数据库 mysql
性能优化是通过某些有效的方法来提高MySQL的运行速度，减少占用的磁盘空间。性能优化包含很多方面，例如优化查询速度，优化更新速度和优化MySQL服务器等。本文介绍方法的主要有： a.优化查询 b.优化数据库结构
ThreadPool定时重试 dai_lm java ThreadPool thread timer timertask
项目需要当某事件触发时，执行http请求任务，失败时需要有重试机制，并根据失败次数的增加，重试间隔也相应增加，任务可能并发。由于是耗时任务，首先考虑的就是用线程来实现，并且为了节约资源，因而选择线程池。为了解决不定间隔的重试，选择Timer和TimerTask来完成 package threadpool; public class ThreadPoolTest {
Oracle 查看数据库的连接情况周凡杨 sql oracle 连接
首先要说的是，不同版本数据库提供的系统表会有不同，你可以根据数据字典查看该版本数据库所提供的表。 select * from dict where table_name like '%SESSION%'; 就可以查出一些表，然后根据这些表就可以获得会话信息 select sid,serial#,status,username,schemaname,osuser,terminal,ma
类的继承朱辉辉33 java
类的继承可以提高代码的重用行，减少冗余代码；还能提高代码的扩展性。Java继承的关键字是extends 格式:public class 类名（子类）extends 类名（父类）{ } 子类可以继承到父类所有的属性和普通方法，但不能继承构造方法。且子类可以直接使用父类的public和 protected属性，但要使用private属性仍需通过调用。子类的方法可以重写，但必须和父类的返回值类
android 悬浮窗特效肆无忌惮_ android
最近在开发项目的时候需要做一个悬浮层的动画，类似于支付宝掉钱动画。但是区别在于，需求是浮出一个窗口，之后边缩放边位移至屏幕右下角标签处。效果图如下：一开始考虑用自定义View来做。后来发现开线程让其移动很卡，ListView+动画也没法精确定位到目标点。后来想利用Dialog的dismiss动画来完成。自定义一个Dialog后，在styl
hadoop伪分布式搭建林鹤霄 hadoop
要修改4个文件 1: vim hadoop-env.sh 第九行 2: vim core-site.xml <configuration> &n
gdb调试命令 aigo gdb
原文：http://blog.csdn.net/hanchaoman/article/details/5517362 一、GDB常用命令简介 r run 运行.程序还没有运行前使用 c cuntinue
Socket编程的HelloWorld实例 alleni123 socket
public class Client { public static void main(String[] args) { Client c=new Client(); c.receiveMessage(); } public void receiveMessage(){ Socket s=null; BufferedRea
线程同步和异步百合不是茶线程同步异步
多线程和同步 : 如进程、线程同步，可理解为进程或线程A和B一块配合，A执行到一定程度时要依靠B的某个结果，于是停下来，示意B运行；B依言执行，再将结果给A；A再继续操作。所谓同步，就是在发出一个功能调用时，在没有得到结果之前，该调用就不返回，同时其它线程也不能调用这个方法多线程和异步:多线程可以做不同的事情,涉及到线程通知 &
JSP中文乱码分析 bijian1013 java jsp 中文乱码
在JSP的开发过程中，经常出现中文乱码的问题。首先了解一下Java中文问题的由来： Java的内核和class文件是基于unicode的，这使Java程序具有良好的跨平台性，但也带来了一些中文乱码问题的麻烦。原因主要有两方面，
js实现页面跳转重定向的几种方式 bijian1013 JavaScript 重定向
js实现页面跳转重定向有如下几种方式：一.window.location.href <script language="javascript"type="text/javascript"> window.location.href="http://www.baidu.c
【Struts2三】Struts2 Action转发类型 bit1129 struts2
在【Struts2一】 Struts Hello World http://bit1129.iteye.com/blog/2109365中配置了一个简单的Action，配置如下 <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configurat
【HBase十一】Java API操作HBase bit1129 hbase
Admin类的主要方法注释： 1. 创建表 /** * Creates a new table. Synchronous operation. * * @param desc table descriptor for table * @throws IllegalArgumentException if the table name is res
nginx gzip ronin47 nginx gzip
Nginx GZip 压缩 Nginx GZip 模块文档详见：http://wiki.nginx.org/HttpGzipModule 常用配置片段如下： gzip on; gzip_comp_level 2; # 压缩比例，比例越大，压缩时间越长。默认是1 gzip_types text/css text/javascript; # 哪些文件可以被压缩 gzip_disable &q
java-7.微软亚院之编程判断俩个链表是否相交给出俩个单向链表的头指针，比如 h1 ， h2 ，判断这俩个链表是否相交 bylijinnan java
public class LinkListTest { /** * we deal with two main missions: * * A. * 1.we create two joined-List(both have no loop) * 2.whether list1 and list2 join * 3.print the join
Spring源码学习-JdbcTemplate batchUpdate批量操作 bylijinnan java spring
Spring JdbcTemplate的batch操作最后还是利用了JDBC提供的方法，Spring只是做了一下改造和封装 JDBC的batch操作： String sql = "INSERT INTO CUSTOMER " + "(CUST_ID, NAME, AGE) VALUES (?, ?, ?)";
[JWFD开源工作流]大规模拓扑矩阵存储结构最新进展 comsci 工作流
生成和创建类已经完成,构造一个100万个元素的矩阵模型,存储空间只有11M大,请大家参考我在博客园上面的文档"构造下一代工作流存储结构的尝试",更加相信的设计和代码将陆续推出......... 竞争对手的能力也很强.......,我相信..你们一定能够先于我们推出大规模拓扑扫描和分析系统的....
base64编码和url编码 cuityang base64 url
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.PrintWriter; import java.io.StringWriter; import java.io.UnsupportedEncodingException;
web应用集群Session保持 dalan_123 session
关于使用 memcached 或redis 存储 session ，以及使用 terracotta 服务器共享。建议使用 redis，不仅仅因为它可以将缓存的内容持久化，还因为它支持的单个对象比较大，而且数据类型丰富，不只是缓存 session，还可以做其他用途，一举几得啊。1、使用 filter 方法存储这种方法比较推荐，因为它的服务器使用范围比较多，不仅限于tomcat ，而且实现的原理比较简
Yii 框架里数据库操作详解-[增加、查询、更新、删除的方法 'AR模式'] dcj3sjt126com 数据库
public function getMinLimit () { $sql = "..."; $result = yii::app()->db->createCo
solr StatsComponent（聚合统计） eksliang solr聚合查询 solr stats
StatsComponent 转载请出自出处：http://eksliang.iteye.com/blog/2169134 http://eksliang.iteye.com/ 一、概述 Solr可以利用StatsComponent 实现数据库的聚合统计查询，也就是min、max、avg、count、sum的功能二、参数
百度一道面试题 greemranqq 位运算百度面试寻找奇数算法 bitmap 算法
那天看朋友提了一个百度面试的题目：怎么找出{1,1,2,3,3,4,4,4,5,5,5,5} 找出出现次数为奇数的数字. 我这里复制的是原话，当然顺序是不一定的，很多拿到题目第一反应就是用map,当然可以解决，但是效率不高。还有人觉得应该用算法xxx,我是没想到用啥算法好...！还有觉得应该先排序... 还有觉
Spring之在开发中使用SpringJDBC ihuning spring
在实际开发中使用SpringJDBC有两种方式： 1. 在Dao中添加属性JdbcTemplate并用Spring注入； JdbcTemplate类被设计成为线程安全的，所以可以在IOC 容器中声明它的单个实例，并将这个实例注入到所有的 DAO 实例中。JdbcTemplate也利用了Java 1.5 的特定(自动装箱，泛型，可变长度
JSON API 1.0 核心开发者自述 | 你所不知道的那些技术细节 justjavac json
2013年5月，Yehuda Katz 完成了JSON API(英文，中文) 技术规范的初稿。事情就发生在 RailsConf 之后，在那次会议上他和 Steve Klabnik 就 JSON 雏形的技术细节相聊甚欢。在沟通单一 Rails 服务器库—— ActiveModel::Serializers 和单一 JavaScript 客户端库——&
网站项目建设流程概述 macroli 工作
一.概念网站项目管理就是根据特定的规范、在预算范围内、按时完成的网站开发任务。二.需求分析项目立项　　我们接到客户的业务咨询，经过双方不断的接洽和了解，并通过基本的可行性讨论够，初步达成制作协议，这时就需要将项目立项。较好的做法是成立一个专门的项目小组，小组成员包括：项目经理，网页设计，程序员，测试员，编辑/文档等必须人员。项目实行项目经理制。客户的需求说明书　　第一步是需
AngularJs 三目运算表达式判断 qiaolevip 每天进步一点点学习永无止境众观千象 AngularJS
事件回顾：由于需要修改同一个模板，里面包含2个不同的内容，第一个里面使用的时间差和第二个里面名称不一样，其他过滤器，内容都大同小异。希望杜绝If这样比较傻的来判断if-show or not，继续追究其源码。 var b = "{{", a = "}}"; this.startSymbol = function(a) {
Spark算子：统计RDD分区中的元素及数量 superlxw1234 spark spark算子 Spark RDD分区元素
关键字：Spark算子、Spark RDD分区、Spark RDD分区元素数量 Spark RDD是被分区的，在生成RDD时候，一般可以指定分区的数量，如果不指定分区数量，当RDD从集合创建时候，则默认为该程序所分配到的资源的CPU核数，如果是从HDFS文件创建，默认为文件的Block数。可以利用RDD的mapPartitionsWithInd
Spring 3.2.x将于2016年12月31日停止支持 wiselyman Spring 3
Spring 团队公布在2016年12月31日停止对Spring Framework 3.2.x（包含tomcat 6.x）的支持。在此之前spring团队将持续发布3.2.x的维护版本。请大家及时准备及时升级到Spring
fis纯前端解决方案fis-pure zccst JavaScript
作者：zccst FIS通过插件扩展可以完美的支持模块化的前端开发方案，我们通过FIS的二次封装能力，封装了一个功能完备的纯前端模块化方案pure。 1，fis-pure的安装 $ fis install -g fis-pure $ pure -v 0.1.4 2，下载demo到本地 git clone https://github.com/hefangshi/f