Cyanzzy

[机器学习入门笔记] 3.监督学习集成模型部分

文章目录

前言
第 11 章 AdaBoost
- 11.1 Boosting
- 11.2 AdaBoost算法的原理推导
- - 11.2.1 AdaBoost基本原理
  - 11.2.2 AdaBoost与前向分步算法
- 11.3 AdaBoost算法实现
- - 11.3.1 基于Numpy的AdaBoost算法实现
  - 11.3.2 基于sklearn的AdaBoost实现
- 11.4 小结
第 12 章 GBDT
- 12.1 从提升树到梯度提升树
- 12.2 GBDT算法的原理推导
- 12.3 GBGT算法实现
- - 12.3.1 基于Numpy的GBDT算法实现
  - 12.3.2 基于sklearn的GBDT实现
- 12.4 小结
第 13 章 XGBoost
- 13.1 XGBoost 极度梯度提升树
- 13.2 XGBoost原理推导
- 13.3 XGBoost算法实现
- - 13.3.1 XGBoost实现：基于GBDT的改进
  - 13.3.2 基于原生库示例
- 13.4 小结

前言

继 [机器学习入门笔记] 3.监督学习单模型部分，更新了集成学习模型~

第 11 章 AdaBoost

11.1 Boosting

集成学习

将多个弱分类器组成一个强分类器，该强分类器能取所有若分类器之长，达到相对的最优性能。

Boosting是机器学习中一种集成学习框架，Boosting方法在分类问题中，通过改变训练样本的权重，学习多个分类器，并将这些分类器进行线性组合，提高分类的性能。

11.2 AdaBoost算法的原理推导

11.2.1 AdaBoost基本原理

提升方法就是从若学习算法出发，反复学习，得到一系列若分类器（基本分类器），然后组合这些弱分类器，构成一个强分类器。大多数的提升方法都是改变训练数据的概率分布（训练数据的权值分布），针对不同的训练数据分布调用弱学习算法学习的一系列弱分类器。

Boosting方法解决的两个关键

训练过程中如何改变训练样本的权重或概率分布
如何将弱分类器组合成强分类器

AdaBoost解决关键的方法

提高前一轮被弱分类器分类错误的样本的权重，降低分类正确的样本的权重
对多个弱分类器进行线性组合，提高分类效果好的弱分类器的权重，降低分类误差率高的弱分类器的权重

给定训练集 $D=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ ，其中 $x_i∈X \subseteq R^n$ , $y_i\in Y=\{-1,+1\}$ ，AdaBoost训练算法如下：

初始化训练数据样本的权重分布，即为每个训练样本分配一个初始权重：

$D_1=(w_{11},...,w_{1i})，w_{1i}=\frac{1}{N}，\quad i=1,2,...,N$

对于 $t = 1, 2, ..., T$ ，分别执行以下步骤。
- 对包含权重分布 $D_t$ 的训练集进行训练得到弱分类器 $G_t(x)$
- 计算 $G_t(x)$ 在当前加权训练集上的分类误差率 $\epsilon_t$ ：
$\epsilon_t=P(G_t(x_i)≠y_i)=\sum_{i=1}^{N}{w_{ti}I(G_t(x_i)≠y_i)}$
- 根据分类误差率 $\epsilon_t$ 计算当前弱分类器的权重系数 $\alpha_t$ :
$\alpha_t=\frac{1}{2}log{\frac{1-\epsilon_t}{\epsilon_t}}$
- 调整训练集的权重分布：
$D_{t+1}=(w_{t+1},1,...,w_{t+1,i},w_{t+1,N})\\ w_{t+1,i}=\frac{w_{ti}}{Z_t}exp(-\alpha_ty_iG_t(x_i))，\\ 其中Z_t为归一化因子，Z_t=\sum_{i=1}^{N}{w_{ti}}exp(-\alpha_ty_iG_t(x_i))$
最后构建弱分类器的线性组合：

$f(x)=\sum_{t=1}^{T}\alpha_tG_t(x)$

最终强分类器可以写为：
$G(x)=sign(f(x))=sign(\sum_{t=1}^{T}\alpha_tG_t(x))$

11.2.2 AdaBoost与前向分步算法

从机器学习模型、策略、算法三要素来看，AdaBoost是以加性模型为模型、指数函数为损失函数、前向分步为算法的分类学习算法。

加性模型

模型是由多个基模型求和的形式构造起来的。

考虑加性模型： $f(x)=\sum_{t=1}^{T}{\alpha_t}b(x;\gamma_t)$ ，其中 $b(x;\gamma_t)$ 为基模型， $\gamma_t$ 为模型参数， $\alpha_t$ 为基模型系数，可知 $f (x)$ 是由 $T$ 个模型求和的加性模型。

给定训练集和损失函数的条件下，加性模型的目标函数为如下最小化损失函数：
$\min\limits_{\alpha_t,\gamma_t}\sum_{i=1}^{N}{L(y_i,\sum_{t=1}^{T}{\alpha_tb(x_i;\gamma_t)})}$
针对这种较复杂的优化问题采用向前分步算法，其基本思路：针对加性模型的特点，从前往后每次只优化一个基模型的参数，每一步优化叠加之后便可逐步逼近上述目标函数，每一步优化如下：
$\min\limits_{\alpha_t,\gamma_t}\sum_{i=1}^{N}{L(y_i,{\alpha_tb(x_i;\gamma_t)})}$
给定训练集 $D=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ ，其中 $x_1∈X\subseteq R^n，y_i\in Y={-1,+1}$ ，利用向前分步算法求解加性模型 $f(x)=\sum_{t=1}^{T}{\alpha_t}b(x;\gamma_t)$ 的优化问题的过程如下。

初始化模型 $f_0(x)=0$
对于 $t = 1, 2, ..., T$ 分别执行以下操作
- 以 $\alpha_t$ 和 $\gamma_t$ 为优化参数，最小化目标损失函数：
$(\alpha_t,\gamma_t)=arg\min\limits_{\alpha,\gamma}\sum_{i=1}^{N}{L(y_i,f_{t-1}(x_i)+\alpha b(x;\gamma_t))}$
- 更新加性模型：
$f_t(x)=f_{t-1}(x)+\alpha_tb(x;\gamma_t)$
- 可得到最后加性模型：
$f(x)=f_T(x)=\sum_{t=1}^{T}{\alpha_tb(x;\gamma_t)}$

从向前分步算法的角度理解AdaBoost，可将AdaBoost看作向前分步算法的特例，此时加性模型是以分类器为基模型、以指数函数为损失函数的最优化问题。假设经过 $t - 1$ 次向前分步迭代后已经得到 $f_{t-1}(x)$ ，第 $t$ 次迭代可以得到第 $t$ 个基模型的权重系数 $\alpha_t$ 、第 $t$ 个基模型 $G_t(x)$ 和 $t$ 轮迭代后的加性模型 $f_t(x)$ ：
$f_t(x)=f_{t-1}(x)+\alpha_tG_t(x)$
优化目标是使 $f_t(X)$ 在给定训练集 $D$ 上的指数损失最小化，有：
$(\alpha_t,G_t(x))=arg\min\limits_{\alpha,G}\sum_{i=1}^{N}{exp(-y_i(f_{t-1}(x_i)+\alpha G(x_i)))}\quad\quad(*)$
求解式 $(*)$ 的最小化指数损失即可得到AdaBoost的优化参数。

11.3 AdaBoost算法实现

AdaBoost算法代码编写思路

Numpy：

经典版本
- 基分类器
- AdaBoost经典算法流程
  - 权重初始化
  - 训练弱分类器
  - 计算当前分类误差
  - 计算弱分类器权重
  - 更新训练样本权重
- 定义预测函数
数据测试

sklearn：

ensemble.AdaBoostClassifier

11.3.1 基于Numpy的AdaBoost算法实现

决策树桩分类器

### 定义决策树桩类
### 作为Adaboost弱分类器
class DecisionStump():
    def __init__(self):
        # 基于划分阈值决定样本分类为1还是-1
        self.label = 1
        # 特征索引
        self.feature_index = None
        # 特征划分阈值
        self.threshold = None
        # 指示分类准确率的值
        self.alpha = None

AdaBoost拟合函数

# Adaboost算法拟合过程
def fit(X, y, n_estimators):
    '''
    输入：
    X：训练输入
    y：训练输出
    n_estimators：基分类器个数
    输出：
    estimators：包含所有基分类器的列表
    '''
    m, n = X.shape
    # (1) 初始化权重分布为均匀分布 1/N
    w = np.full(m, (1/m))
    # 处初始化基分类器列表
    self.estimators = []
    # (2) for m in (1,2,...,M)
    for _ in range(self.n_estimators):
        # (2.a) 训练一个弱分类器：决策树桩
        estimator = DecisionStump()
        # 设定一个最小化误差
        min_error = float('inf')
        # 遍历数据集特征，根据最小分类误差率选择最优划分特征
        for i in range(n):
            # 获取特征值
            values = np.expand_dims(X[:, i], axis=1)
            # 特征取值去重
            unique_values = np.unique(values)
            # 尝试将每一个特征值作为分类阈值
            for threshold in unique_values:
                p = 1
                # 初始化所有预测值为1
                pred = np.ones(np.shape(y))
                # 小于分类阈值的预测值为-1
                pred[X[:, i] < threshold] = -1
                # 2.b 计算误差率
                error = sum(w[y != pred])

                # 如果分类误差大于0.5，则进行正负预测翻转
                # 例如 error = 0.6 => (1 - error) = 0.4
                if error > 0.5:
                    error = 1 - error
                    p = -1

                # 一旦获得最小误差则保存相关参数配置
                if error < min_error:
                    estimator.label = p
                    estimator.threshold = threshold
                    estimator.feature_index = i
                    min_error = error

        # 2.c 计算基分类器的权重
        estimator.alpha = 0.5 * np.log((1.0 - min_error) / (min_error + 1e-9))
        # 初始化所有预测值为1
        preds = np.ones(np.shape(y))
        # 获取所有小于阈值的负类索引
        negative_idx = (estimator.label * X[:, estimator.feature_index] < estimator.label * estimator.threshold)
        # 将负类设为 '-1'
        preds[negative_idx] = -1
        # 2.d 更新样本权重
        w *= np.exp(-estimator.alpha * y * preds)
        w /= np.sum(w)

        # 保存该弱分类器
        estimators.append(estimator)

定义预测函数

# 定义预测函数
    def predict(X,esitmators):
        '''
        输入：
        X：预测输入
        estimators：包含所有基分类器的列表
        输出：
        y_pred：预测输出
        '''
        m = len(X)
        y_pred = np.zeros((m, 1))
        # 计算每个弱分类器的预测值
        for estimator in self.estimators:
            # 初始化所有预测值为1
            predictions = np.ones(np.shape(y_pred))
            # 获取所有小于阈值的负类索引
            negative_idx = (estimator.label * X[:, estimator.feature_index] < estimator.label * estimator.threshold)
            # 将负类设为 '-1'
            predictions[negative_idx] = -1
            # 2.e 对每个弱分类器的预测结果进行加权
            y_pred += estimator.alpha * predictions

        # 返回最终预测结果
        y_pred = np.sign(y_pred).flatten()
        return y_pred

AdaBoost算法类

### 定义AdaBoost算法类
class Adaboost:
    # 弱分类器个数
    def __init__(self, n_estimators=5):
        self.n_estimators = n_estimators
        
    # Adaboost拟合算法
    def fit(self, X, y):
        m, n = X.shape
        # (1) 初始化权重分布为均匀分布 1/N
        w = np.full(m, (1/m))
        # 处初始化基分类器列表
        self.estimators = []
        # (2) for m in (1,2,...,M)
        for _ in range(self.n_estimators):
            # (2.a) 训练一个弱分类器：决策树桩
            estimator = DecisionStump()
            # 设定一个最小化误差
            min_error = float('inf')
            # 遍历数据集特征，根据最小分类误差率选择最优划分特征
            for i in range(n):
                # 获取特征值
                values = np.expand_dims(X[:, i], axis=1)
                # 特征取值去重
                unique_values = np.unique(values)
                # 尝试将每一个特征值作为分类阈值
                for threshold in unique_values:
                    p = 1
                    # 初始化所有预测值为1
                    pred = np.ones(np.shape(y))
                    # 小于分类阈值的预测值为-1
                    pred[X[:, i] < threshold] = -1
                    # 2.b 计算误差率
                    error = sum(w[y != pred])
                    
                    # 如果分类误差大于0.5，则进行正负预测翻转
                    # 例如 error = 0.6 => (1 - error) = 0.4
                    if error > 0.5:
                        error = 1 - error
                        p = -1

                    # 一旦获得最小误差则保存相关参数配置
                    if error < min_error:
                        estimator.label = p
                        estimator.threshold = threshold
                        estimator.feature_index = i
                        min_error = error
                        
            # 2.c 计算基分类器的权重
            estimator.alpha = 0.5 * np.log((1.0 - min_error) / (min_error + 1e-9))
            # 初始化所有预测值为1
            preds = np.ones(np.shape(y))
            # 获取所有小于阈值的负类索引
            negative_idx = (estimator.label * X[:, estimator.feature_index] < estimator.label * estimator.threshold)
            # 将负类设为 '-1'
            preds[negative_idx] = -1
            # 2.d 更新样本权重
            w *= np.exp(-estimator.alpha * y * preds)
            w /= np.sum(w)

            # 保存该弱分类器
            self.estimators.append(estimator)
    
    # 定义预测函数
    def predict(self, X):
        m = len(X)
        y_pred = np.zeros((m, 1))
        # 计算每个弱分类器的预测值
        for estimator in self.estimators:
            # 初始化所有预测值为1
            predictions = np.ones(np.shape(y_pred))
            # 获取所有小于阈值的负类索引
            negative_idx = (estimator.label * X[:, estimator.feature_index] < estimator.label * estimator.threshold)
            # 将负类设为 '-1'
            predictions[negative_idx] = -1
            # 2.e 对每个弱分类器的预测结果进行加权
            y_pred += estimator.alpha * predictions

        # 返回最终预测结果
        y_pred = np.sign(y_pred).flatten()
        return y_pred

数据测试

# 导入数据划分模块
from sklearn.model_selection import train_test_split
# 导入模拟二分类数据生成模块
from sklearn.datasets.samples_generator import make_blobs
# 导入sklearn准确率计算函数
from sklearn.metrics import accuracy_score

# 生成模拟二分类数据集
X, y =  make_blobs(n_samples=150, n_features=2, centers=2,
  cluster_std=1.2, random_state=40)
# 将标签转换为1/-1
y_ = y.copy()
y_[y_==0] = -1
y_ = y_.astype(float)
# 训练/测试数据集划分
X_train, X_test, y_train, y_test = train_test_split(X, y_,
 test_size=0.3, random_state=43)
# 设置颜色参数
colors = {0:'r', 1:'g'}
# 绘制二分类数据集的散点图
plt.scatter(X[:,0], X[:,1], marker='o', c=pd.Series(y).map(colors))
plt.show();

# 创建Adaboost模型实例
clf = Adaboost(n_estimators=5)
# 模型拟合
clf.fit(X_train, y_train)
# 模型预测
y_pred = clf.predict(X_test)
# 计算模型预测准确率
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy of AdaBoost by numpy:", accuracy)

11.3.2 基于sklearn的AdaBoost实现

# 导入sklearn adaboost分类器
from sklearn.ensemble import AdaBoostClassifier
# 创建Adaboost模型实例
clf_ = AdaBoostClassifier(n_estimators=5, random_state=0)
# 模型拟合
clf_.fit(X_train, y_train)
# 模型预测
y_pred_ = clf_.predict(X_test)
# 计算模型预测准确率
accuracy = accuracy_score(y_test, y_pred_)
print("Accuracy of AdaBoost by sklearn:", accuracy)

11.4 小结

Boosting是一种将多个若分类器组合成强分类器的集成学习算法框架，AdaBoost是一种通过改变训练样本权重来学习多个弱分类器并将其线性组合成强分类器的Boosting算法
AdaBoost特点是通过迭代每次学习一个弱分类器，在每次迭代的过程中，提高前一轮分类数据错误的权重，降低分类正确数据的权重。最后将弱分类器线性组合成一个强分类器
从机器学习三要素，AdaBoost可理解为以加性模型为模型、指数函数为损失函数、前向分步为算法的分类学习算法

第 12 章 GBDT

12.1 从提升树到梯度提升树

提升方法实际采用加法模型（基模型的线性组合）与前向分步算法。以决策树为基模型的提升方法称提升树（boosting tree）。当损失函数为平方损失和指数损失时，前向分步算法的每一步迭代较容易求解，对于一般的损失函数，前向分步算法的每一步迭代并不容易。所以，有研究提出使用损失函数的负梯度在当前模型的值来求解更为一般的提升树模型。这种基于负梯度求解提升树前向分步迭代过程的方法也叫梯度提升树。

12.2 GBDT算法的原理推导

GBDT的全称为梯度提升决策树，其基模型为CART决策树，针对分类问题的基模型为二叉分类树，对应梯度提升模型叫GBDT；针对回归问题的基模型为二叉回归树，对应的梯度提升模型叫GBRT。

[参考解释GBDT：假设某人月薪10k，用一个树模型拟合了6k，发现有4k的损失，然后再用一棵树模型拟合了2k，持续拟合下去，拟合值和目标值之间的残差越来越小。将每一轮迭代看，也就是每一棵树的预测值加起来，就是模型最终预测结果。]

使用多棵决策树组合就是提升树模型，使用梯度下降法对提升树模型进行优化的过程就是梯度提升树模型。

一个提升树模型的数学表达式为：
$f_M(x)=\sum_{m=1}^{M}{T(x;\Theta_m)}$
其中 $T(x;\Theta_m)$ 为决策树表示的模型， $\Theta_m$ 表示决策树参数， $M$ 为决策树棵数。

当确定初始提升树模型 $f_0(x)=0$ ，第 $m$ 的模型表示为：
$f_m(x)=f_{m-1}(x)+T(x;\Theta_m)$
其中 $f_{m-1}(x)$ 为当前迭代模型，根据前向分步算法，可以使用经验风险最小化来确定下一个决策树的参数 $\Theta_m$

以梯度回归树为例，一棵回归树可以表示为：

根据加性模型，第0步、第m步和最终模型可以表示为：

在已知 $f_m(x)$ 情况下求解下式可以得到当前迭代步的模型参数。

假设回归树的损失函数为平方损失：
$L(y,f(x))=(y-f(x))^2$
对应到GBRT中，损失推导为：

其中，
$r=y-f_{m-1}(x)$
提升树每一次迭代都在拟合一个残差函数。大多数情况下，一般损失函数很难直接优化求解，因而有了基于负梯度求解提升树模型的梯度提升树模型。

梯度提升树以梯度下降的方法，使用损失函数的负梯度在当前模型的值作为回归提升树中残差的近似值：
$r_{mi}=-[\frac{\partial{L(y_i,f(x_i))}}{\partial f(x_i)}]_{f(x)=f_{m-1}(x)}$
因此，综合提升树模型、前向分步算法和梯度提升，给定训练集 $D=\{(x_1,y_1),...,(x_N,y_N)\}，x_i\in X，y_i\in Y\subseteq R^n$ ，GBDT算法的一般流程归纳为：

初始化提升树模型：

$f_0(x)=arg\min\limits_{c}\sum_{i=1}^{N}{L(y_i,c)}$

对 $m = 1, ..., M$ ，有
- 对每个样本 $i = 1, ..., N$ ，计算负梯度拟合的残差
$r_{mi}=-[\frac{\partial{L(y_i,f(x_i))}}{\partial f(x_i)}]_{f(x)=f_{m-1}(x)}$
- 将上一步得到的残差作为样本新的真实值，并将数据 $x_i,r_{mi})，i=1,...,N$ 作为下一棵树的训练数据，得到一棵新的回归树 $f_m(x)$ ，其对应的叶子结点区域为 $R_{mj},j=1,...,J$ 。其中 $J$ 为回归树 $T$ 的叶子结点个数。
- 对叶子区域 $j = 1, ..., J$ 计算最优拟合值：
$c_{mj}=arg\min\limits_{c}\sum_{x_i\in R_{mj}}{L(y_i,f_{m-1}(x_i)+c)}$
- 更新提升树模型：
$f_m(x)=f_{m-1}(x)+\sum_{j=1}^{J}{c_{mj}I(x\in R_{mj})}$
得到最终的梯度提升树：

$f(x)=f_M(x)=\sum_{m=1}^{M}\sum_{j=1}^{J}{c_{mj}I(x\in R_{mj})}$

12.3 GBGT算法实现

编写GBGT算法，整体思路时从底层向上搭建。先编写决策树的树结点。基于决策树结点和决策树的一些特征，包括特征选择方法、生成方法和打印方法，来构建CART决策树，包括分类树和回归树。然后基于CART的基模型，结合前向分步算法和梯度提升，构建GBDT模型或者GBRT模型。

因此，从模型层面看GBDT的算法实现，是一个从树结点到CART基模型再到GBDT模型的过程

定义树结点、二叉决策树、CART分类树/回归树

import numpy as np
from utils import feature_split, calculate_gini

### 定义树结点
class TreeNode():
    def __init__(self, feature_i=None, threshold=None,
               leaf_value=None, left_branch=None, right_branch=None):
        # 特征索引
        self.feature_i = feature_i          
        # 特征划分阈值
        self.threshold = threshold 
        # 叶子节点取值
        self.leaf_value = leaf_value   
        # 左子树
        self.left_branch = left_branch     
        # 右子树
        self.right_branch = right_branch

		
### 定义二叉决策树
class BinaryDecisionTree(object):
    ### 决策树初始参数
    def __init__(self, min_samples_split=2, min_gini_impurity=999,
                 max_depth=float("inf"), loss=None):
        # 根结点
        self.root = None  
        # 节点最小分裂样本数
        self.min_samples_split = min_samples_split
        # 节点初始化基尼不纯度
        self.mini_gini_impurity = min_gini_impurity
        # 树最大深度
        self.max_depth = max_depth
        # 基尼不纯度计算函数
        self.gini_impurity_calculation = None
        # 叶子节点值预测函数
        self._leaf_value_calculation = None
        # 损失函数
        self.loss = loss

    ### 决策树拟合函数
    def fit(self, X, y, loss=None):
        # 递归构建决策树
        self.root = self._build_tree(X, y)
        self.loss=None

    ### 决策树构建函数
    def _build_tree(self, X, y, current_depth=0):
        # 初始化最小基尼不纯度
        init_gini_impurity = 999
        # 初始化最佳特征索引和阈值
        best_criteria = None    
        # 初始化数据子集
        best_sets = None        
        
        if len(np.shape(y)) == 1:
            y = np.expand_dims(y, axis=1)

        # 合并输入和标签
        Xy = np.concatenate((X, y), axis=1)
        # 获取样本数和特征数
        n_samples, n_features = X.shape
        # 设定决策树构建条件
        # 训练样本数量大于节点最小分裂样本数且当前树深度小于最大深度
        if n_samples >= self.min_samples_split and current_depth <= self.max_depth:
            # 遍历计算每个特征的基尼不纯度
            for feature_i in range(n_features):
                # 获取第i特征的所有取值
                feature_values = np.expand_dims(X[:, feature_i], axis=1)
                # 获取第i个特征的唯一取值
                unique_values = np.unique(feature_values)

                # 遍历取值并寻找最佳特征分裂阈值
                for threshold in unique_values:
                    # 特征节点二叉分裂
                    Xy1, Xy2 = feature_split(Xy, feature_i, threshold)
                    # 如果分裂后的子集大小都不为0
                    if len(Xy1) > 0 and len(Xy2) > 0:
                        # 获取两个子集的标签值
                        y1 = Xy1[:, n_features:]
                        y2 = Xy2[:, n_features:]

                        # 计算基尼不纯度
                        impurity = self.impurity_calculation(y, y1, y2)

                        # 获取最小基尼不纯度
                        # 最佳特征索引和分裂阈值
                        if impurity < init_gini_impurity:
                            init_gini_impurity = impurity
                            best_criteria = {"feature_i": feature_i, "threshold": threshold}
                            best_sets = {
                                "leftX": Xy1[:, :n_features],   
                                "lefty": Xy1[:, n_features:],   
                                "rightX": Xy2[:, :n_features],  
                                "righty": Xy2[:, n_features:]   
                                }
        
        # 如果计算的最小不纯度小于设定的最小不纯度
        if init_gini_impurity < self.mini_gini_impurity:
            # 分别构建左右子树
            left_branch = self._build_tree(best_sets["leftX"], best_sets["lefty"], current_depth + 1)
            right_branch = self._build_tree(best_sets["rightX"], best_sets["righty"], current_depth + 1)
            return TreeNode(feature_i=best_criteria["feature_i"], threshold=best_criteria["threshold"], left_branch=left_branch, right_branch=right_branch)

        # 计算叶子计算取值
        leaf_value = self._leaf_value_calculation(y)
        return TreeNode(leaf_value=leaf_value)

    ### 定义二叉树值预测函数
    def predict_value(self, x, tree=None):
        if tree is None:
            tree = self.root
        # 如果叶子节点已有值，则直接返回已有值
        if tree.leaf_value is not None:
            return tree.leaf_value
        # 选择特征并获取特征值
        feature_value = x[tree.feature_i]
        # 判断落入左子树还是右子树
        branch = tree.right_branch
        if isinstance(feature_value, int) or isinstance(feature_value, float):
            if feature_value >= tree.threshold:
                branch = tree.left_branch
        elif feature_value == tree.threshold:
            branch = tree.right_branch
        # 测试子集
        return self.predict_value(x, branch)

    ### 数据集预测函数
    def predict(self, X):
        y_pred = [self.predict_value(sample) for sample in X]
        return y_pred

# CART分类树		
class ClassificationTree(BinaryDecisionTree):
    ### 定义基尼不纯度计算过程
    def _calculate_gini_impurity(self, y, y1, y2):
        p = len(y1) / len(y)
        gini = calculate_gini(y)
	# 基尼不纯度
        gini_impurity = p * calculate_gini(y1) + (1-p) * calculate_gini(y2)
        return gini_impurity
    
    ### 多数投票
    def _majority_vote(self, y):
        most_common = None
        max_count = 0
        for label in np.unique(y):
            # 统计多数
            count = len(y[y == label])
            if count > max_count:
                most_common = label
                max_count = count
        return most_common
    
    # 分类树拟合
    def fit(self, X, y):
        self.impurity_calculation = self._calculate_gini_impurity
        self._leaf_value_calculation = self._majority_vote
        super(ClassificationTree, self).fit(X, y)

		
### CART回归树
class RegressionTree(BinaryDecisionTree):
	# 计算方差减少量
    def _calculate_variance_reduction(self, y, y1, y2):
        var_tot = np.var(y, axis=0)
        var_y1 = np.var(y1, axis=0)
        var_y2 = np.var(y2, axis=0)
        frac_1 = len(y1) / len(y)
        frac_2 = len(y2) / len(y)
        # 计算方差减少量
        variance_reduction = var_tot - (frac_1 * var_y1 + frac_2 * var_y2)
        return sum(variance_reduction)

    # 节点值取平均
    def _mean_of_y(self, y):
        value = np.mean(y, axis=0)
        return value if len(value) > 1 else value[0]

    # 回归树拟合
    def fit(self, X, y):
        self.impurity_calculation = self._calculate_variance_reduction
        self._leaf_value_calculation = self._mean_of_y
        super(RegressionTree, self).fit(X, y)

定义辅助函数

import numpy as np

### 定义二叉特征分裂函数
def feature_split(X, feature_i, threshold):
    split_func = None
    if isinstance(threshold, int) or isinstance(threshold, float):
        split_func = lambda sample: sample[feature_i] >= threshold
    else:
        split_func = lambda sample: sample[feature_i] == threshold

    X_left = np.array([sample for sample in X if split_func(sample)])
    X_right = np.array([sample for sample in X if not split_func(sample)])

    return np.array([X_left, X_right])


### 计算基尼指数
def calculate_gini(y):
    y = y.tolist()
    probs = [y.count(i)/len(y) for i in np.unique(y)]
    gini = sum([p*(1-p) for p in probs])
    return gini

	
### 打乱数据
def data_shuffle(X, y, seed=None):
    if seed:
        np.random.seed(seed)
    idx = np.arange(X.shape[0])
    np.random.shuffle(idx)
    return X[idx], y[idx]

12.3.1 基于Numpy的GBDT算法实现

导入模块

# 导入numpy
import numpy as np
# 导入CART模块（决策树结点、基础二叉决策树、CART分类树和CART回归树）
from cart import TreeNode, BinaryDecisionTree, ClassificationTree, RegressionTree
# 导入数据划分模块
from sklearn.model_selection import train_test_split
# 导入均方误差评估模块
from sklearn.metrics import mean_squared_error
# 导入辅助函数
from utils import feature_split, calculate_gini, data_shuffle

GBDT损失函数

### 定义回归树的平方损失
class SquareLoss():
    # 定义平方损失
    def loss(self, y, y_pred):
        return 0.5 * np.power((y - y_pred), 2)
    # 定义平方损失的梯度
    def gradient(self, y, y_pred):
        return -(y - y_pred)

GBDT类的定义

### GBDT定义
class GBDT(object):
    def __init__(self, n_estimators, learning_rate, min_samples_split,
                 min_gini_impurity, max_depth, regression):
        ### 常用超参数
        # 树的棵树
        self.n_estimators = n_estimators
        # 学习率
        self.learning_rate = learning_rate
        # 结点最小分裂样本数
        self.min_samples_split = min_samples_split
        # 结点最小基尼不纯度
        self.min_gini_impurity = min_gini_impurity
        # 最大深度
        self.max_depth = max_depth
        # 默认为回归树
        self.regression = regression
        # 损失为平方损失
        self.loss = SquareLoss()
        # 如果是分类树，需要定义分类树损失函数
        # 这里省略，如需使用，需自定义分类损失函数
        if not self.regression:
            self.loss = None
        # 多棵树叠加
        self.estimators = []
        for i in range(self.n_estimators):
            self.estimators.append(RegressionTree(min_samples_split=self.min_samples_split,
                                             min_gini_impurity=self.min_gini_impurity,
                                             max_depth=self.max_depth))
    # 拟合方法
    def fit(self, X, y):
        # 前向分步模型初始化，第一棵树
        self.estimators[0].fit(X, y)
        # 第一棵树的预测结果
        y_pred = self.estimators[0].predict(X)
        # 前向分步迭代训练
        for i in range(1, self.n_estimators):
            gradient = self.loss.gradient(y, y_pred)
            self.estimators[i].fit(X, gradient)
            y_pred -= np.multiply(self.learning_rate, self.estimators[i].predict(X))
            
    # 预测方法
    def predict(self, X):
        # 回归树预测
        y_pred = self.estimators[0].predict(X)
        for i in range(1, self.n_estimators):
            y_pred -= np.multiply(self.learning_rate, self.estimators[i].predict(X))
        # 分类树预测
        if not self.regression:
            # 将预测值转化为概率
            y_pred = np.exp(y_pred) / np.expand_dims(np.sum(np.exp(y_pred), axis=1), axis=1)
            # 转化为预测标签
            y_pred = np.argmax(y_pred, axis=1)
        return y_pred

GBDT分类树和回归树

### GBDT分类树
class GBDTClassifier(GBDT):
      def __init__(self, n_estimators=200, learning_rate=.5, min_samples_split=2,
                 min_info_gain=1e-6, max_depth=2):
            super(GBDTClassifier, self).__init__(n_estimators=n_estimators,
                                             learning_rate=learning_rate,
                                             min_samples_split=min_samples_split,
                                             min_gini_impurity=min_info_gain,
                                             max_depth=max_depth,
                                             regression=False)
      # 拟合方法
      def fit(self, X, y):
            super(GBDTClassifier, self).fit(X, y)
        
### GBDT回归树
class GBDTRegressor(GBDT):
      def __init__(self, n_estimators=300, learning_rate=0.1, min_samples_split=2,
                 min_var_reduction=1e-6, max_depth=3):
        super(GBDTRegressor, self).__init__(n_estimators=n_estimators,
                                            learning_rate=learning_rate,
                                            min_samples_split=min_samples_split,
                                            min_gini_impurity=min_var_reduction,
                                            max_depth=max_depth,
                                            regression=True)

GBDT算法测试

### GBDT分类树
# 导入数据集模块
from sklearn import datasets
# 导入波士顿房价数据集
boston = datasets.load_boston()
# 打乱数据集
X, y = shuffle_data(boston.data, boston.target, seed=13)
X = X.astype(np.float32)
offset = int(X.shape[0] * 0.9)
# 划分数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)
# 创建GBRT实例
model = GBDTRegressor()
# 模型训练
model.fit(X_train, y_train)
# 模型预测
y_pred = model.predict(X_test)
# 计算模型预测的均方误差
mse = mean_squared_error(y_test, y_pred)
print ("Mean Squared Error of NumPy GBRT:", mse)

12.3.2 基于sklearn的GBDT实现

# 导入GradientBoostingRegressor模块
from sklearn.ensemble import GradientBoostingRegressor
# 创建模型实例
reg = GradientBoostingRegressor(n_estimators=200, learning_rate=0.5,
                                 max_depth=4, random_state=0)
# 模型拟合
reg.fit(X_train, y_train)
# 模型预测
y_pred = reg.predict(X_test)
# 计算模型预测的均方误差
mse = mean_squared_error(y_test, y_pred)
print ("Mean Squared Error of sklearn GBRT:", mse)

12.4 小结

GBDT以CART为基模型的Boosting集成学习框架，梯度提升更有效的优化一般损失函数
GBDT分梯度提升分类树和梯度提升回归树两种模型

第 13 章 XGBoost

参考：XGBoost: A Scalable Tree Boosting System

XGBoost是一种基于GBDT的顶级梯度提升模型，相比于GBDT，XGBoost最大特性在于对损失函数展开到二阶导数，使梯度提升树模型更逼近真实损失。

13.1 XGBoost 极度梯度提升树

XGBoost全称为 eXtreme Gradient Boosting ，译为极度梯度提升树，可参考论文 XGBoost: A Scalable Tree Boosting System

算法精度：XGBoost通过将损失函数展开到二阶导数，使得其能更逼近真实损失
算法速度：XGBoost使用加权分位数sketch和稀疏感知算法，通过缓存优化和模型并行来提高算法速度
泛化能力：XGBoots通过对损失函数加入正则化项、加性模型中设置缩减率和列抽样等方法防止模型过拟合

13.2 XGBoost原理推导

XGBoost是多个基模型线性组合成的加性模型，XGBoost表示为：
$\hat{y}_i=\sum_{k=1}^{K}{f_k(x_i)}$
根据前向分步算法，假设第 $t$ 次迭代的基模型是 $f_t(x)$ ，有：
$\hat{y_i}^{(t)}=\sum_{k=1}^{t}{\hat{y_i}^{(t-1})}+f_t(x_i)$
XGBoost损失函数基本形式由经验损失和正则化项构成：
$L=\sum_{i=1}^{n}{l(y_i,\hat{y_i})}+\sum_{i=1}^{t}{\Omega (f_i)}$
其中 $\sum_{i=1}^{n}{l(y_i,\hat{y_i})}$ 为经验损失项，表示训练数据集预测值与真实值之间的损失； $\sum_{i=1}^{t}{\Omega (f_i)}$ 为正则化项，表示全部 $t$ 棵树的复杂度之和。

根据前向分步的算法，以t步模型为例，假设模型对第 $t$ 个样本 $x_i$ 的预测值为：
$\hat{y_i}^{(t)}=\hat{y_i}^{(t-1)}+f_t(x_i)$
其中 $\hat{y_i}^{(t-1)}$ 是由第 $t - 1$ 步的模型给出的预测值，其作为一个已知常量存在， $f_t(x_i)$ 为第 $t$ 步树模型的预测值。因此损失函数改写为

同时对该式正则化项进行拆分，因为前 $t - 1$ 棵树的结构已经确定，所以前 $t - 1$ 棵树的复杂度之和可以表示为常数：

针对 $l(y_i,\hat{y_i}^{t-1}+f_t(x_i))$ 使用二阶泰勒公式，将相应的损失函数经验损失项写为：

其中 $g_i$ 为损失函数一阶导数， $h_i$ 为损失函数二阶导数，注意这里是对 $\hat{y_i}^{(t-1)}$ 求导。

将该二阶泰勒展开式带入改写后的损失函数中，可得损失函数的近似表达式：

去掉常数项，简化后的损失函数为：

因此，只需求解损失函数每一步的一阶导数和二阶导数值，并对目标函数进行优化求解，就可以得到前向分步中每一步的模型 $f (x)$ ，最后根据加性模型得到XGBoost模型

假设一棵决策树是由叶子结点的权重 $w$ 和样本实例到叶子结点的映射关系 $q$ 构成【理解为决策树的分支结构】，所以一棵树的数学表达定义为：
$f_t(x)=w_q(x)$
定义决策树复杂度的正则化项。模型复杂度 $\Omega$ 可由单棵决策树的叶子结点树 $T$ 和叶子结点权重 $w$ 决定，即损失函数的复杂度由决策树的所有结点数和叶子权重决定。所以，模型复杂度表示为：
$\Omega(f_t)=\gamma T+\frac{1}{2}\lambda\sum_{j=1}^{T}{w_j^2}$
下面对决策树所有叶子结点重新归组。将属于第 $j$ 个叶子结点的所有样本 $x_i$ 划入一个叶子结点的样本集合中，即 $I_j=\{i|q(x_i)=j\}$ ，因而XGBoost的损失函数继续改写为：

对于每个叶子结点 $j$ ，将其从损失函数中单独取出，
$G_jw_j+\frac{1}{2}(H_j+\lambda)w_j^2$
由于该式是关于 $w_j$ 的二次函数，在树结构固定的情况下，进行求导，可得最优点和最优值：

假设决策树模型在某个结点进行特征分类，分类前损失函数是：

分裂后的损失函数为：

那么，分裂后的信息增益为：

如果增益 $G ain > 0$ ，即分类为两个叶子结点后，损失函数下降了，则考虑此次分裂的结果。实际处理时需要遍历所有特征寻找最优分裂特征。

XGBoost推到思路和流程简化图：

下图是XGBoost论文中给出的叶子结点权重计算：

13.3 XGBoost算法实现

13.3.1 XGBoost实现：基于GBDT的改进

辅助函数

import numpy as np

### 定义二叉特征分裂函数
def feature_split(X, feature_i, threshold):
    split_func = None
    if isinstance(threshold, int) or isinstance(threshold, float):
        split_func = lambda sample: sample[feature_i] >= threshold
    else:
        split_func = lambda sample: sample[feature_i] == threshold

    X_left = np.array([sample for sample in X if split_func(sample)])
    X_right = np.array([sample for sample in X if not split_func(sample)])
    return np.array([X_left, X_right])

### 计算基尼指数
def calculate_gini(y):
    y = y.tolist()
    probs = [y.count(i)/len(y) for i in np.unique(y)]
    gini = sum([p*(1-p) for p in probs])
    return gini
	
### 打乱数据
def data_shuffle(X, y, seed=None):
    if seed:
        np.random.seed(seed)
    idx = np.arange(X.shape[0])
    np.random.shuffle(idx)
    return X[idx], y[idx]
	
### 类别标签转换
def cat_label_convert(y, n_col=None):
    if not n_col:
        n_col = np.amax(y) + 1
    one_hot = np.zeros((y.shape[0], n_col))
    one_hot[np.arange(y.shape[0]), y] = 1
    return one_hot

XGBoost单棵回归树类

import numpy as np
from cart import TreeNode, BinaryDecisionTree
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from utils import cat_label_convert

### XGBoost单棵树类
class XGBoost_Single_Tree(BinaryDecisionTree):
    # 结点分裂方法
    def node_split(self, y):
        # 中间特征所在列
        feature = int(np.shape(y)[1]/2)
        # 左子树为真实值，右子树为预测值
        y_true, y_pred = y[:, :feature], y[:, feature:]
        return y_true, y_pred

    # 信息增益计算方法
    def gain(self, y, y_pred):
        # 梯度计算
        Gradient = np.power((y * self.loss.gradient(y, y_pred)).sum(), 2)
        # Hessian矩阵计算
        Hessian = self.loss.hess(y, y_pred).sum()
        return 0.5 * (Gradient / Hessian)

    # 树分裂增益计算
    # 式(12.28)
    def gain_xgb(self, y, y1, y2):
        # 结点分裂
        y_true, y_pred = self.node_split(y)
        y1, y1_pred = self.node_split(y1)
        y2, y2_pred = self.node_split(y2)
        true_gain = self.gain(y1, y1_pred)
        false_gain = self.gain(y2, y2_pred)
        gain = self.gain(y_true, y_pred)
        return true_gain + false_gain - gain

    # 计算叶子结点最优权重
    def leaf_weight(self, y):
        y_true, y_pred = self.node_split(y)
        # 梯度计算
        gradient = np.sum(y_true * self.loss.gradient(y_true, y_pred), axis=0)
        # hessian矩阵计算
        hessian = np.sum(self.loss.hess(y_true, y_pred), axis=0)
        # 叶子结点得分
        leaf_weight =  gradient / hessian
        return leaf_weight

    # 树拟合方法
    def fit(self, X, y):
        self.impurity_calculation = self.gain_xgb
        self._leaf_value_calculation = self.leaf_weight
        super(XGBoost_Single_Tree, self).fit(X, y)

XGBoost分类损失函数

### 分类损失函数定义
# 定义Sigmoid类
class Sigmoid:
    def __call__(self, x):
        return 1 / (1 + np.exp(-x))

    def gradient(self, x):
        return self.__call__(x) * (1 - self.__call__(x))

# 定义Logit损失
class LogisticLoss:
    def __init__(self):
        sigmoid = Sigmoid()
        self._func = sigmoid
        self._grad = sigmoid.gradient
    
    # 定义损失函数形式
    def loss(self, y, y_pred):
        y_pred = np.clip(y_pred, 1e-15, 1 - 1e-15)
        p = self._func(y_pred)
        return y * np.log(p) + (1 - y) * np.log(1 - p)

    # 定义一阶梯度
    def gradient(self, y, y_pred):
        p = self._func(y_pred)
        return -(y - p)

    # 定义二阶梯度
    def hess(self, y, y_pred):
        p = self._func(y_pred)
        return p * (1 - p)

XGBoost模型

### XGBoost定义
class XGBoost:
    def __init__(self, n_estimators=300, learning_rate=0.001, 
                 min_samples_split=2,
                 min_gini_impurity=999, 
                 max_depth=2):
        # 树的棵树
        self.n_estimators = n_estimators
        # 学习率
        self.learning_rate = learning_rate 
        # 结点分裂最小样本数
        self.min_samples_split = min_samples_split 
        # 结点最小基尼不纯度
        self.min_gini_impurity = min_gini_impurity  
        # 树最大深度
        self.max_depth = max_depth                  
        # 用于分类的对数损失
        # 回归任务可定义平方损失 
        # self.loss = SquaresLoss()
        self.loss = LogisticLoss()
        # 初始化分类树列表
        self.trees = []
        # 遍历构造每一棵决策树
        for _ in range(n_estimators):
            tree = XGBoost_Single_Tree(
                    min_samples_split=self.min_samples_split,
                    min_gini_impurity=self.min_gini_impurity,
                    max_depth=self.max_depth,
                    loss=self.loss)
            self.trees.append(tree)
    
    # xgboost拟合方法
    def fit(self, X, y):
        y = cat_label_convert(y)
        y_pred = np.zeros(np.shape(y))
        # 拟合每一棵树后进行结果累加
        for i in range(self.n_estimators):
            tree = self.trees[i]
            y_true_pred = np.concatenate((y, y_pred), axis=1)
            tree.fit(X, y_true_pred)
            iter_pred = tree.predict(X)
            y_pred -= np.multiply(self.learning_rate, iter_pred)

    # xgboost预测方法
    def predict(self, X):
        y_pred = None
        # 遍历预测
        for tree in self.trees:
            iter_pred = tree.predict(X)
            if y_pred is None:
                y_pred = np.zeros_like(iter_pred)
            y_pred -= np.multiply(self.learning_rate, iter_pred)
        y_pred = np.exp(y_pred) / np.sum(np.exp(y_pred), axis=1, keepdims=True)
        # 将概率预测转换为标签
        y_pred = np.argmax(y_pred, axis=1)
        return y_pred

XGBoost代码测试

from sklearn import datasets
# 导入鸢尾花数据集
data = datasets.load_iris()
# 获取输入输出
X, y = data.data, data.target
# 数据集划分
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=43)  
# 创建xgboost分类器
clf = XGBoost()
# 模型拟合
clf.fit(X_train, y_train)
# 模型预测
y_pred = clf.predict(X_test)
# 准确率评估
accuracy = accuracy_score(y_test, y_pred)
print ("Accuracy: ", accuracy)

13.3.2 基于原生库示例

import xgboost as xgb
from xgboost import plot_importance
from matplotlib import pyplot as plt

# 设置模型参数
params = {
    'booster': 'gbtree',
    'objective': 'multi:softmax',   
    'num_class': 3,     
    'gamma': 0.1,
    'max_depth': 2,
    'lambda': 2,
    'subsample': 0.7,
    'colsample_bytree': 0.7,
    'min_child_weight': 3,
    'eta': 0.001,
    'seed': 1000,
    'nthread': 4,
}


dtrain = xgb.DMatrix(X_train, y_train)
num_rounds = 200
model = xgb.train(params, dtrain, num_rounds)
# 对测试集进行预测
dtest = xgb.DMatrix(X_test)
y_pred = model.predict(dtest)

# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print ("Accuracy:", accuracy)
# 绘制特征重要性
plot_importance(model)
plt.show();

13.4 小结

XGBoost将损失函数展开到二阶导数，使得梯度提升树模型更逼近真实损失
从最初的损失函数版本，进行二阶泰勒展开并重新定义一棵决策树，通过对叶子结点分组得到最终损失函数形式，最后求最优点和最优取值，并得到叶子结点的分裂标准

你可能感兴趣的:(机器学习,机器学习,学习,人工智能)

CUDA 学习(3)——CUDA 初步实践哦豁灬 CUDA 学习笔记学习 CUDA
1定位threadCUDA中提供了blockIdx,threadIdx,blockDim,GridDim来定位发起thread，下面发起1个grid，里面有2个block，每个block里有5个threads。程序让每个thread输出自己的id号:#include__global__voidprint_id(){intid=blockDim.x*blockIdx.x+threadIdx.x;pr
达梦数据库学习笔记 lwq979991632 数据库
达梦数据库学习资料一、操作系统安装1、配置信息CPU：4核心内存：4G网络：NAT2.安装包选择选择带GUI的服务器，勾选Java平台、KDE二、安装前准备1.数据库远程访问：关闭防火墙systemctlstopfirewalld（禁用）systemctldisablefirewalld(停止，关闭开机自启动)systemctlstatusfirewalld（查看状态）2.安装gcc包rpm-qa
达梦数据库学习之旅不是，哥们~ 数据库学习
一、开篇：走进达梦数据库的世界在当今数字化浪潮汹涌澎湃的时代，数据已然成为企业乃至国家发展的核心驱动力，而数据库作为数据存储、管理与高效运用的关键基础设施，其重要性不言而喻。达梦数据库，作为国产数据库领域的璀璨明珠，正凭借其卓越性能、高度可靠性以及强大的自主可控特性，在金融、电信、政务等诸多关键行业崭露头角，逐步打破国外数据库产品长期以来的垄断格局。对于广大技术爱好者与从业者而言，深入学习达梦数据
【达梦数据库学习】数据库体系架构-逻辑结构理解合作愉快：）数据库数据库架构学习
1.1数据库和实例在有些情况下，数据库的概念包含的内容会很广泛。如在单独提到DM数据库时，可能指的是DM数据库产品，也有可能是正在运行的DM数据库实例，还可能是DM数据库运行中所需的一系列物理文件的集合等。但是，当同时出现DM数据库和实例时，DM数据库指的是磁盘上存放在DM数据库中的数据的集合，一般包括：数据文件、日志文件、控制文件以及临时数据文件等。实例一般是由一组正在运行的DM后台进程/线程以
Kotlin学习5.4：Map接口 CNwanku Kotlin入门学习 Kotlin
Kotlin学习5.4：Map接口Map接口简介不可变Map查询操作遍历操作可变MutableMap修改操作批量操作Map接口简介Map接口是一种双列集合，它的每个元素都包含一个键对象Key和一个值对象Value，键和值对象之间存在一种对应关系，称为映射。从Map集合中访问元素时，只要指定了Key就能找到对应的Value。Map集合中的元素是无序可重复的，Map集合与List、Set集合类似，同样
芯片的未来发展趋势 iccnewer
2024年，该行业将专注于AI/ML、RISC-V、量子、安全等发展趋势。今年年初，大多数人从未听说过生成式人工智能。现在整个世界都在竞相利用它，而这仅仅是个开始。量子计算、6G、智能基础设施等新市场领域专用处理正在加速对更快、更高效、更多数据的需求。与每隔几年等待下一个工艺节点的日子相比，未来几年的事件将与电话或汽车的引入一样重要。但可能不会只有一种创新技术，将会有很多技术一起以一种将让科技界惊
基于Python编程语言实现“机器学习”，用于车牌识别项目我的sun&shine Python python 机器学习计算机视觉
基于Python的验证码识别研究与实现1.摘要验证码的主要目的是区分人类和计算机，用来防止自动化脚本程序对网站的一些恶意行为，目前绝大部分网站都利用验证码来阻止恶意脚本程序的入侵。验证码的自动识别对于减少自动登录时长，识别难以识别的验证码图片有着重要的作用。对验证码图像进行灰度化、二值化、去离散噪声、字符分割、归一化、特征提取、训练和字符识别等过程可以实现验证码自动识别。首先将原图片进行灰度化处理
6.8:Python如何处理文件写入时出现的错误？小兔子平安 Python完整学习全解答 java windows html
Python是一种功能强大且易于学习的编程语言，已经成为了当今最流行的编程语言之一。随着Python应用领域的不断扩大，越来越多的人开始学习Python，希望能够掌握这个有用的工具，从而实现更多的创意和创新。而文件操作是Python编程中不可或缺的一部分，对于处理文件写入时的错误更是必须掌握的技能。本文主要介绍如何处理Python中文件写入时的错误。我们将详细讲解如何使用try-except语句、
学习记录之游标翻页实现 sjsjsbbsbsn Java学习之路项目实战技巧 java mysql redis
游标翻页本方案参考mallchat实现一.深翻页问题普通翻页前端一般会有个分页条。能够指定一页的条数，以及任意选择查看第几页,假设我们想查询第11页的内容传递过来的参数为:pageNo=11，pageSize=10对应的sql查询为:select*fromtablelimit100,10其中100代表需要跳过的条数，10代表跳过指定条数后，往后需要再取的条数。假设翻页到1w条,那我们要先扫描到这1
docker学习整理 24k小善 java 大数据云计算
一、Docker核心原理：像租房装修一样理解容器1.1容器vs虚拟机：合租vs买别墅虚拟机就像买别墅：每个别墅（虚拟机）自带独立地基（操作系统）、水电系统（系统资源），启动慢（分钟级）、资源占用大（GB级）[1][10]容器就像合租：大家共享小区基础设施（宿主机内核），但每个房间（容器）有自己的家具摆放（应用和依赖）。轻量（MB级）、秒级启动，还能随时搬走（迁移）[9]1.2镜像分层：乐高积木式打
Python程序设计（入门） xyyykx python 开发语言
目录一丶Python概述二丶Python数据类型三丶常用的进制四丶字符串型五丶程序控制结构六丶组合数据类型一丶Python概述Python是一种高级编程语言，由GuidovanRossum于1991年开发并发布。它具有简洁、易读、易学的语法特点，被广泛应用于多个领域，包括软件开发、数据科学、人工智能、网络编程等。以下是Python的一些主要特点和优势：简单易学：Python的语法简洁明了，易于理解
LLM：软件测试的颠覆性力量 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
LLM：软件测试的颠覆性力量关键词：大语言模型（LLM）、软件测试、人工智能、测试自动化、测试效率、质量保证、测试革新1.背景介绍在当今快速发展的软件行业中，测试一直是确保产品质量的关键环节。随着人工智能技术的飞速进步，特别是大语言模型（LargeLanguageModels，简称LLM）的出现，软件测试领域正经历着前所未有的变革。LLM凭借其强大的自然语言处理能力和广泛的知识储备，正在重塑我们对
使用Dall-E生成图像：文本到图像的魔力 shuoac 计算机视觉人工智能 python
使用Dall-E生成图像：文本到图像的魔力技术背景介绍Dall-E是OpenAI开发的一个强大的文本到图像生成模型，它能够根据自然语言描述创造出全新的数字图像。这一技术基于深度学习的方法，使得创意与AI图像生成的结合更具可能性。本文将介绍如何调用Dall-EAPI来生成图像，从而使开发者能够将这一技术应用到自己的项目中。核心原理解析Dall-E利用大型语言模型（LLM）从用户提供的文本描述中提取详
DS/ML：数据科学技术之数据科学生命周期(四大层次+机器学习六大阶段+数据挖掘【5+6+6+4+4+1】步骤)的全流程最强学习路线讲解之详细攻略一个处女座的程序猿资深文章(前沿/经验/创新)DataScience ML 数据科学数据科学的生命周期机器学习
DS/ML：数据科学技术之数据科学生命周期(四大层次+机器学习六大阶段+数据挖掘【5+6+6+4+4+1】步骤)的全流程最强学习路线讲解之详细攻略导读：本文章是博主在数据科学和机器学习领域，先后实战过几百个应用案例之后的精心总结，应该是完全覆盖了数据科学的整个生命周期及其各个阶段的要点。其中机器学习领域六大阶段更是在整个数据科学生命周期中扮演着极其重要的角色。同时，因为涉及到博主出书中出版社要求在
深入了解盘古大模型：技术、应用与未来 Hardess-god Literature review 人工智能
随着人工智能技术的迅猛发展，预训练大模型已成为AI领域最前沿、最热门的研究方向之一。近年来，中国自主研发的大模型之一——盘古模型（PanGuModel）逐渐进入公众视野，凭借其强大的性能和广泛的应用前景，引发了行业内外的广泛关注。什么是盘古大模型？盘古大模型是华为公司联合多家科研机构共同研发的超大规模预训练语言模型。该模型以中文数据为主进行训练，旨在推动中文自然语言处理（NLP）以及跨模态应用的技
【从零开始学习计算机科学】软件测试（三）回归测试、系统测试与验收测试贫苦游商学习软件测试回归测试系统测试验收测试测试工具 ab测试
【从零开始学习计算机科学】软件测试（三）回归测试、系统测试与验收测试回归测试回归测试的组织和实施回归测试集回归测试的范围自动回归测试框架自动回归测试框架的技术特点回归测试克服的几个问题回归测试人员应掌握的测试手段回归用例库的维护系统测试系统测试的组织和分工系统测试的过程系统测试方法用户界面测试用户界面测试-符合标准和规范用户界面测试-一致性用户界面测试-直观性用户界面测试-灵活性用户界面测试-舒适
零基础上手Python数据分析 (6)：Python 异常处理，告别程序崩溃的烦恼！ kakaZhui python 数据分析数据库 excel 数据挖掘
回顾一下，前几篇博客我们学习了Python的基本语法、数据结构和文件操作。现在，我们已经掌握了Python编程的基础知识，可以开始编写更复杂的数据分析代码了。但是，在实际的数据分析工作中，程序并非总能一帆风顺地运行，总会遇到各种意外情况，例如：文件找不到：程序尝试读取一个不存在的数据文件。数据格式错误：数据文件中包含非预期的格式，例如本应是数字的列包含了文本。网络连接中断：程序尝试从网络获取数据，
【深度学习|地学应用】滑坡灾害早期隐患的概念、特征及识别方法，同时解释其与人工边坡、滑坡易发性之间的联系与区别。 985小水博一枚呀深度学习人工智能
【深度学习|地学应用】滑坡灾害早期隐患的概念、特征及识别方法，同时解释其与人工边坡、滑坡易发性之间的联系与区别。【深度学习|地学应用】滑坡灾害早期隐患的概念、特征及识别方法，同时解释其与人工边坡、滑坡易发性之间的联系与区别。文章目录【深度学习|地学应用】滑坡灾害早期隐患的概念、特征及识别方法，同时解释其与人工边坡、滑坡易发性之间的联系与区别。1.滑坡灾害早期隐患的概念与特征概念主要特征2.通过光学
【人工智能之大模型】阐述生成式语言模型的工作机理...（二） 985小水博一枚呀大大大模型知识点人工智能语言模型自然语言处理机器学习神经网络
【人工智能之大模型】阐述生成式语言模型的工作机理…（二）【人工智能之大模型】阐述生成式语言模型的工作机理…（二）文章目录【人工智能之大模型】阐述生成式语言模型的工作机理...（二）前言4.代码逐行解释TransformerBlock类初始化前向传播GenerativeLM类初始化前向传播推理示例测试生成5.总结欢迎宝子们点赞、关注、收藏！欢迎宝子们批评指正！祝所有的硕博生都能遇到好的导师！好的审稿
人工智能 - 通用 AI Agent 之 LangManus、Manus、OpenManus 和 OWL 技术选型天机️灵韵具身智能人工智能人工智能具身智能智能体
一、核心项目概览1.Manus（闭源通用AIAgent）定位：全球首个全流程自动化通用AIAgent，GAIA基准测试SOTA水平。核心能力：全流程自动化：从任务规划（如撰写报告）到执行（代码生成、表格制作）的端到端处理。智能纠错机制：基于沙箱环境的实时错误反思与调整（类似CodeAct技术）。云端依赖：需联网运行，集成浏览器操作、信息检索等工具。局限性：闭源且采用邀请制，二手市场邀请码溢价至数万
【Azure 架构师学习笔记】- Azure Networking(1) -- Service Endpoint 和 Private Endpoint 發糞塗牆 Azure 架构师学习笔记 Azure 网络安全 azure Network
本文属于【Azure架构师学习笔记】系列。本文属于【AzureNetworking】系列。前言最近公司的安全部门在审计云环境安全性时经常提到serviceendpoint（SE）和priavateendpoint（PE）的术语，为此做了一些研究储备。云计算的本质就是网络，默认情况下资源间及外部都是通过公网也就是互联网访问。为了安全，Azure引入了SE和PE等服务。云环境网络流动主要有两个：inb
MySQL 8.0新特性深度解析：窗口函数与JSON数据处理的10大技巧墨瑾轩一起学学数据库【一】mysql json
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣第1章：MySQL8.0简介嗨，亲爱的小伙伴们！欢迎来到MySQL8.0的奇妙世界，这里充满了新鲜和惊喜。MySQL8.0是一个数据库界的超级英雄，它带着一系列令人兴奋的新特性，比如窗口函数和JSON数据处理，来拯救我们的数据处理任务。1.1MySQL8.0的
SOFABoot-01-蚂蚁金服开源的 sofaboot 是什么黑科技？后端java
前言大家好，我是老马。sofastack其实出来很久了，第一次应该是在2022年左右开始关注，但是一直没有深入研究。最近想学习一下SOFA对于生态的设计和思考。sofaboot系列SOFABoot-00-sofaboot概览SOFABoot-01-蚂蚁金服开源的sofaboot是什么黑科技？SOFABoot-02-模块化隔离方案SOFABoot-03-sofaboot介绍SOFABoot-04-快
SOFABoot-00-sofaboot 概览后端java
sofaboot前言大家好，我是老马。sofastack其实出来很久了，第一次应该是在2022年左右开始关注，但是一直没有深入研究。最近想学习一下SOFA对于生态的设计和思考。sofaboot系列SOFABoot-00-sofaboot概览SOFABoot-01-蚂蚁金服开源的sofaboot是什么黑科技？SOFABoot-02-模块化隔离方案SOFABoot-03-sofaboot介绍SOFAB
NLP高频面试题（七）——GPT和Bert的mask有什么区别？ Chaos_Wang_ NLP常见面试题自然语言处理 gpt bert
GPT和BERT的Mask机制对比：核心区别与优化策略在NLP领域，GPT和BERT是最具代表性的预训练语言模型之一。它们都在训练过程中使用了Mask机制来引导模型学习语言表示，但具体实现方式和目标却有所不同。本文将深入探讨GPT和BERT的Mask方法的核心区别，并分析其优化策略。1.BERT的Mask机制：基于MLM（MaskedLanguageModel）BERT（Bidirectional
知识图谱中NLP新技术魔王阿卡纳兹知识图谱入门大数据治理与分析知识图谱自然语言处理人工智能
知识图谱与自然语言处理（NLP）的结合是当前人工智能领域的前沿方向，其技术发展呈现多维度融合与场景深化的特点。以下从核心技术突破、应用场景创新及未来趋势三个层面，系统梳理知识图谱中NLP的最新进展：一、核心技术突破基于预训练模型的图谱构建与增强预训练语言模型与知识嵌入融合：以BERT、KEPLER为代表的模型通过联合优化知识嵌入（KE）和语言建模目标，将知识图谱中的结构化知识融入预训练过程，显著提
掌握ChatGPT写代码的秘诀：开发者的完整指南酷酷的崽798 机器学习 chatgpt
文章目录前言：如何利用ChatGPT来写代码：一个深度指南1.ChatGPT的基本功能概述2.利用ChatGPT辅助代码编写的好处3.ChatGPT支持的编程语言4.如何向ChatGPT提问以获取最佳结果5.实际应用案例6.ChatGPT的局限性及其解决方法7.关于隐私和安全性的注意事项8.未来展望结论前言：如何利用ChatGPT来写代码：一个深度指南近年来，人工智能技术取得了飞跃性的进展，尤其是
计算机基础：编码02，有符号数编码，原码水饺编程 MFC学习笔记 Win32学习笔记 c++windows mfc c语言
专栏导航本节文章分别属于《Win32学习笔记》和《MFC学习笔记》两个专栏，故划分为两个专栏导航。读者可以自行选择前往哪个专栏。（一）WIn32专栏导航上一篇：计算机基础：编码01，无符号数编码回到目录下一篇：计算机基础：编码03，根据十进制数，求其原码（二）MFC专栏导航上一篇：计算机基础：编码01，无符号数编码回到目录下一篇：计算机基础：编码03，根据十进制数，求其原码本节前言上一节，我是讲解
我的编程学习之旅 Stars·ꦿ໊ོ 学习
大家好，我是一名编程领域的初学者，怀揣着对代码世界的无限热忱，踏上了这充满挑战与惊喜的学习之路。我并非本科出身，在过往的学习，逐渐被编程的魅力所吸引。日常里，我喜欢拆解电子产品、探究其原理，这份好奇心也驱使我深入代码的海洋，期望能从软件层面创造更多“奇迹”。如今，我选择从C语言开始敲开编程世界的大门，它作为一门基础且强大的编程语言，有着广泛的应用场景，无论是底层系统开发、嵌入式编程，还是对理解计算
「Kubernetes Objects」- Service（学习笔记） @20210227 k4nzdroid
Service，服务，用于暴露Pod以供访问。官方文档及手册KubernetesAPIv1.18/Servicev1coreService?Pod会被创建，并且还会消失，这由ReplicaSets控制。每个Pod都有自己的IP地址，但是这些IP地址不能视为可靠的。那么，如果前端的一部分Pod依赖于后端的Pod，那前端的这些Pod如何找出并追踪后端的Pod？ServiceService是一个抽象，定
分享100个最新免费的高匿HTTP代理IP mcj8089 代理IP 代理服务器匿名代理免费代理IP 最新代理IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ 120.198.243.130:80,中国/广东省 58.251.78.71:8088,中国/广东省 183.207.228.22:83,中国/
mysql高级特性之数据分区 annan211 java 数据结构 mongodb 分区 mysql
mysql高级特性 1 以存储引擎的角度分析，分区表和物理表没有区别。是按照一定的规则将数据分别存储的逻辑设计。器底层是由多个物理字表组成。 2 分区的原理分区表由多个相关的底层表实现，这些底层表也是由句柄对象表示，所以我们可以直接访问各个分区。存储引擎管理分区的各个底层表和管理普通表一样(所有底层表都必须使用相同的存储引擎)，分区表的索引只是
JS采用正则表达式简单获取URL地址栏参数 chiangfai js 地址栏参数获取
GetUrlParam:function GetUrlParam(param){ var reg = new RegExp("(^|&)"+ param +"=([^&]*)(&|$)"); var r = window.location.search.substr(1).match(reg); if(r!=null
怎样将数据表拷贝到powerdesigner (本地数据库表) Array_06 powerDesigner
================================================== 1、打开PowerDesigner12，在菜单中按照如下方式进行操作 file->Reverse Engineer->DataBase 点击后，弹出 New Physical Data Model 的对话框 2、在General选项卡中 Model name:模板名字，自
logbackのhelloworld 飞翔的马甲日志 logback
一、概述 1.日志是啥？当我是个逗比的时候我是这么理解的：log.debug()代替了system.out.print(); 当我项目工作时，以为是一堆得.log文件。这两天项目发布新版本，比较轻松，决定好好地研究下日志以及logback。传送门1：日志的作用与方法： http://www.infoq.com/cn/articles/why-and-how-log 上面的作
新浪微博爬虫模拟登陆随意而生新浪微博
转载自：http://hi.baidu.com/erliang20088/item/251db4b040b8ce58ba0e1235 近来由于毕设需要，重新修改了新浪微博爬虫废了不少劲，希望下边的总结能够帮助后来的同学们。现行版的模拟登陆与以前相比，最大的改动在于cookie获取时候的模拟url的请求
synchronized 香水浓 java thread
Java语言的关键字，可用来给对象和方法或者代码块加锁，当它锁定一个方法或者一个代码块的时候，同一时刻最多只有一个线程执行这段代码。当两个并发线程访问同一个对象object中的这个加锁同步代码块时，一个时间内只能有一个线程得到执行。另一个线程必须等待当前线程执行完这个代码块以后才能执行该代码块。然而，当一个线程访问object的一个加锁代码块时，另一个线程仍然
maven 简单实用教程 AdyZhang maven
1. Maven介绍 1.1. 简介 java编写的用于构建系统的自动化工具。目前版本是2.0.9，注意maven2和maven1有很大区别，阅读第三方文档时需要区分版本。 1.2. Maven资源见官方网站；The 5 minute test，官方简易入门文档；Getting Started Tutorial，官方入门文档；Build Coo
Android 通过 intent传值获得null aijuans android
我在通过intent 获得传递兑现过的时候报错，空指针,我是getMap方法进行传值，代码如下 1 2 3 4 5 6 7 8 9 public void getMap(View view){ Intent i =
apache 做代理报如下错误：The proxy server received an invalid response from an upstream baalwolf response
网站配置是apache＋tomcat,tomcat没有报错，apache报错是： The proxy server received an invalid response from an upstream server. The proxy server could not handle the request GET /. Reason: Error reading fr
Tomcat6 内存和线程配置 BigBird2012 tomcat6
1、修改启动时内存参数、并指定JVM时区（在windows server 2008 下时间少了8个小时）在Tomcat上运行j2ee项目代码时，经常会出现内存溢出的情况，解决办法是在系统参数中增加系统参数： window下，在catalina.bat最前面 set JAVA_OPTS=-XX:PermSize=64M -XX:MaxPermSize=128m -Xms5
Karam与TDD bijian1013 Karam TDD
一.TDD 测试驱动开发（Test-Driven Development,TDD）是一种敏捷（AGILE）开发方法论，它把开发流程倒转了过来，在进行代码实现之前，首先保证编写测试用例，从而用测试来驱动开发（而不是把测试作为一项验证工具来使用）。 TDD的原则很简单： a.只有当某个
[Zookeeper学习笔记之七]Zookeeper源代码分析之Zookeeper.States bit1129 zookeeper
public enum States { CONNECTING, //Zookeeper服务器不可用，客户端处于尝试链接状态 ASSOCIATING, //？？？ CONNECTED, //链接建立，可以与Zookeeper服务器正常通信 CONNECTEDREADONLY, //处于只读状态的链接状态，只读模式可以在
【Scala十四】Scala核心八：闭包 bit1129 scala
Free variable A free variable of an expression is a variable that’s used inside the expression but not defined inside the expression. For instance, in the function literal expression (x: Int) => (x
android发送json并解析返回json ronin47 android
package com.http.test; import org.apache.http.HttpResponse; import org.apache.http.HttpStatus; import org.apache.http.client.HttpClient; import org.apache.http.client.methods.HttpGet; import
一份IT实习生的总结 brotherlamp PHP php资料 php教程 php培训 php视频
今天突然发现在不知不觉中自己已经实习了 3 个月了，现在可能不算是真正意义上的实习吧，因为现在自己才大三，在这边撸代码的同时还要考虑到学校的功课跟期末考试。让我震惊的是，我完全想不到在这 3 个月里我到底学到了什么，这是一件多么悲催的事情啊。同时我对我应该 get 到什么新技能也很迷茫。所以今晚还是总结下把，让自己在接下来的实习生活有更加明确的方向。最后感谢工作室给我们几个人这个机会让我们提前出来
据说是2012年10月人人网校招的一道笔试题-给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。将重物放到天平左侧，问在两边如何添加砝码 bylijinnan java
public class ScalesBalance { /** * 题目： * 给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。（假设N无限大，但一种重量的砝码只有一个） * 将重物放到天平左侧，问在两边如何添加砝码使两边平衡 * * 分析： * 三进制 * 我们约定括号表示里面的数是三进制，例如 47=(1202
dom4j最常用最简单的方法 chiangfai dom4j
要使用dom4j读写XML文档,需要先下载dom4j包,dom4j官方网站在 http://www.dom4j.org/目前最新dom4j包下载地址:http://nchc.dl.sourceforge.net/sourceforge/dom4j/dom4j-1.6.1.zip 解开后有两个包,仅操作XML文档的话把dom4j-1.6.1.jar加入工程就可以了,如果需要使用XPath的话还需要
简单HBase笔记 chenchao051 hbase
一、Client-side write buffer 客户端缓存请求描述：可以缓存客户端的请求，以此来减少RPC的次数，但是缓存只是被存在一个ArrayList中，所以多线程访问时不安全的。可以使用getWriteBuffer()方法来取得客户端缓存中的数据。默认关闭。二、Scan的Caching 描述： next( )方法请求一行就要使用一次RPC,即使
mysqldump导出时出现when doing LOCK TABLES daizj mysql mysqdump 导数据
　　执行　mysqldump -uxxx -pxxx -hxxx -Pxxxx database tablename > tablename.sql　导出表时，会报 mysqldump: Got error: 1044: Access denied for user 'xxx'@'xxx' to database 'xxx' when doing LOCK TABLES 解决
CSS渲染原理 dcj3sjt126com Web
从事Web前端开发的人都与CSS打交道很多，有的人也许不知道css是怎么去工作的，写出来的css浏览器是怎么样去解析的呢？当这个成为我们提高css水平的一个瓶颈时，是否应该多了解一下呢？一、浏览器的发展与CSS
《阿甘正传》台词 dcj3sjt126com
Part Ⅰ: 《阿甘正传》Forrest Gump经典中英文对白 Forrest: Hello! My names Forrest. Forrest Gump. You wanna Chocolate? I could eat about a million and a half othese. My momma always said life was like a box ochocol
Java处理JSON dyy_gusi json
Json在数据传输中很好用，原因是JSON 比 XML 更小、更快，更易解析。在Java程序中，如何使用处理JSON，现在有很多工具可以处理，比较流行常用的是google的gson和alibaba的fastjson，具体使用如下： 1、读取json然后处理 class ReadJSON { public static void main(String[] args)
win7下nginx和php的配置 geeksun nginx
1. 安装包准备 nginx : 从nginx.org下载nginx-1.8.0.zip php：从php.net下载php-5.6.10-Win32-VC11-x64.zip， php是免安装文件。 RunHiddenConsole: 用于隐藏命令行窗口 2. 配置 # java用8080端口做应用服务器，nginx反向代理到这个端口即可 p
基于2.8版本redis配置文件中文解释 hongtoushizi redis
转载自： http://wangwei007.blog.51cto.com/68019/1548167 在Redis中直接启动redis-server服务时, 采用的是默认的配置文件。采用redis-server xxx.conf 这样的方式可以按照指定的配置文件来运行Redis服务。下面是Redis2.8.9的配置文
第五章常用Lua开发库3-模板渲染 jinnianshilongnian nginx lua
动态web网页开发是Web开发中一个常见的场景，比如像京东商品详情页，其页面逻辑是非常复杂的，需要使用模板技术来实现。而Lua中也有许多模板引擎，如目前我在使用的lua-resty-template，可以渲染很复杂的页面，借助LuaJIT其性能也是可以接受的。如果学习过JavaEE中的servlet和JSP的话，应该知道JSP模板最终会被翻译成Servlet来执行；而lua-r
JZSearch大数据搜索引擎颠覆者 JavaScript
系统简介：大数据的特点有四个层面：第一，数据体量巨大。从TB级别，跃升到PB级别；第二，数据类型繁多。网络日志、视频、图片、地理位置信息等等。第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。第四，处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume，Variety，Value，Velocity。大数据搜索引
10招让你成为杰出的Java程序员 pda158 java 编程框架
如果你是一个热衷于技术的 Java 程序员，那么下面的 10 个要点可以让你在众多 Java 开发人员中脱颖而出。　　 1. 拥有扎实的基础和深刻理解 OO 原则　　对于 Java 程序员，深刻理解 Object Oriented Programming（面向对象编程）这一概念是必须的。没有 OOPS 的坚实基础，就领会不了像 Java 这些面向对象编程语言
tomcat之oracle连接池配置小网客 oracle
tomcat版本7.0 配置oracle连接池方式：修改tomcat的server.xml配置文件： <GlobalNamingResources> <Resource name="utermdatasource" auth="Container" type="javax.sql.DataSou
Oracle 分页算法汇总 vipbooks oracle sql 算法 .net
这是我找到的一些关于Oracle分页的算法，大家那里还有没有其他好的算法没？我们大家一起分享一下！ -- Oracle 分页算法一 select * from ( select page.*,rownum rn from (select * from help) page -- 20 = (currentPag