阳阳yyx

机器学习：xgboost原理及实践

文章目录

xgboost原理及实践
- 1. 前言
- 2. 什么是集成学习？
- 3. Boosting和Bagging
- - 3.1 偏差-方差分解
  - 3.2 Bagging
  - 3.3 Boosting
- 4. GBDT
- 5. Xgboost
- - 5.1 xgboost实现
  - 5.1 xgboost特征选择
  - 5.2 xgboost超参数优化
- 5. Xgboost和GBDT的比较

xgboost原理及实践

最近参加了数据分析的比赛，在这次比赛中，我主要负责了特征工程和学习模型的构建的工作，特征工程这里不多叙述，可以参考另一篇博文特征工程，介绍了常用的特征编码，当然不够完善，继续补充中。本文对这段时间学习到的一种机器学习算法进行整理和回顾——xgboost，具体包括了算法的原理和实现，以及参数的调整优化过程。
以下是我学习的主要资料：
机器学习西瓜书
Gradient Boosting梯度提升-GBDT与XGBoost解析及应用
Introduce to Boosted Trees
xgboost入门与实战
xgboost参数优化
xgboost特征重要性

1. 前言

xgboost是大规模并行boosted tree的工具，它是目前最快最好的开源boosted tree工具包，比常见的工具包快10倍以上。在数据科学方面，有大量kaggle选手选用它进行数据挖掘比赛，其中包括两个以上kaggle比赛的夺冠方案。在工业界规模方面，xgboost的分布式版本有广泛的可移植性，支持在YARN, MPI, Sungrid Engine等各个平台上面运行，并且保留了单机并行版本的各种优化，使得它可以很好地解决于工业界规模的问题。

理解xgboost，可能需要了解一下集成学习、bagging、 boosting和GBDT这些概念。

2. 什么是集成学习？

什么是集成学习呢？
在南京大学周志华教授的西瓜书中，对集成学习有比较清晰的定义：

集成学习(ensemble learning)，通过构建并结合多个学习器来完成学习任务，有时也被称为多分类器系统(multi-classifier system)、基于委员会的学习(committee-based learning).
集成学习通过将多个学习器进行结合，常可获得比单一学习器显著优越的泛化性能。要获得好的集成，个体学习器应“好而不同”，即个体学习器应该具有一定的“准确性”，即学习器不能太坏，并且要有“多样性”，即学习器之间应该具有差异。
事实上，如何生成并结合“好而不同”的个体学习器，是集成学习研究的核心。根据目前个体学习器的生成方式，目前的集成学习方法大致可以分成两大类：

个体学习器间存在强依赖关系、必须串行生成的序列化方法：boosting、xgboost

个体学习器间不存在强依赖关系，可同时生成的并行化方法：bagging、 Random Forest

集成学习是机器学习算法中地位非常重要的一类算法，其核心思想是，使用弱学习器（如线性模型、决策树等）进行加权求和，从而产生性能较为强大的学习器。具体的，加入我们有数据集 $D=(x_i,y_i),i=1,2,\dots,n$ ，集成学习希望使用如下的模型对数据集D进行拟合

其中，系数 $\alpha_m$ 为各个弱学习器的权重， $h_m(x) \in H,\ m=1,2,\dots,M$ 为弱学习器。进行如下的拟合过程

即可得到强学习器 $F^*$ 。由上可知，获取强学习器的关键在于如何获得弱学习器 $h_m(x) \in H,\ m=1,2,\dots,M$ ，如果按照指导弱学习器生进行学习的理论基础进行分类，我们可以将其分为bagging和boosting。

3. Boosting和Bagging

3.1 偏差-方差分解

理解这一点之前，我们回顾一下西瓜书上对于偏差-方差分解的解释：
对于测试样本 $x$ ，令 $y_D$ 为x在数据集中的标注， $y$ 为 $x$ 的真实标记， $f (x; D)$ 为训练集 $D$ 上学得的模型 $f$ 在 $x$ 上的预测输出。以回归任务为例，学习算法的期望预测为：

可知, 模型的期望泛化误差可表示成模型 f(x;D) 关于同分布的多个数据集 D 的方差、模型 f(x) 的偏差和数据集的噪声之和. 其中, 偏差度量了学习算法的期望预测与真实结果的偏离程度，即刻画了学习算法的拟合能力；方差度量了同样大小的训练集的变动所导致的学习性能的变化，即刻画了数据扰动所带来的影响；噪声则表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界，即刻画了学习问题本身的难度. 一个很自然的想法是, 如果能使用多个同样大小的同分布数据集分别进行模型的训练, 然后使用其平均的预测结果作为模型的最终预测结果, 那么我们就能有效地降低模型的方差, 从而降低模型的期望泛化误差. 这个就是bagging的基本思想。

3.2 Bagging

Bagging [Breiman, 1996a]是并行集成学习方法最著名的代表．从名字即可看出，它直接基于自助采样法(bootstrap sampling)，进行有放回抽样, 训练出若干个弱学习器进行集成, 其目的是通过有放回抽样构造出多个数据集并分别进行弱学习器训练再进行集成, 以期降低模型的期望泛化误差偏差方差分解中的方差部分, 从而增强模型的泛化能力. 给定包含m个样本的数据集，我们先随机取出一个样本放入采样集中，再把该样本放回初始数据集，使得下次采样时该样本仍有可能被选中，这样，经过m 次随机采样操作，我们得到含m个样本的采样集，初始训练集中有的样本在采样集里多次出现，有的则从未出现．初始训练集中约有63.2%的样本出现在采样集中．

照这样，我们可采样出T个含m个训练样本的采样集，然后基于每个采样集训练出一个基学习器，再将这些基学习器进行结合．这就是 Bagging的基本流程. 在对预测输出进行结合时，Bagging通常对分类任务使用简单投票法，对回归任务使用简单平均法．若分类预测时出现两个类收到同样票数的情形，则最简单的做法是随机选择一个，也可进一步考察学习器投票的置信度来确定最终胜者.

值得一提的是，自助采样过程还给Bagging带来了另一个优点：由千每个基学习器只使用了初始训练集中约63.2%的样本，剩下约36.8%的样本可用作验证集来对泛化性能进行“包外估计"(out-of-bag estimate).

事实上，包外样本还有许多其他用途．例如当基学习器是决策树时，可使用包外样本来辅助剪枝，或用于估计决策树中各结点的后验概率以辅助对零训练样本结点的处理；当基学习器是神经网络时，可使用包外样本来辅助早期停止以减小过拟合风险.

从偏差－方差分解的角度看， Bagging主要关注降低方差，因此它在不剪枝决策树、神经网络等易受样本扰动的学习器上效用更为明显．

3.3 Boosting

Boosting是一族可将弱学习器提升为强学习器的算法．这族算法的工作机制类似：先从初始训练集训练出一个基学习器，再根据基学习器的表现对训练一样本分布进行调整，使得先前基学习器做错的训练样本在后续受到更多关注，然后基于调整后的样本分布来训练下个基学习器；如此重复进行，直至基学习器数目达到事先指定的值T, 最终将这T个基学习器进行加权结合．这类算法具有代表性的是AdaBoost，具体推导可以参见西瓜书。
偏差－方差分解的角度看，Boosting主要关注降低偏差，因此Boosting 能基于泛化性能相当弱的学习器构建出很强的集成．

sigal有一篇文章对boosting进行了比较清晰的说明：
链接：http://www.tensorinfinity.com/paper_151.html

我们常说集成学习框架中的基模型是弱模型，通常来说弱模型是偏差高（在训练集上准确度低）方差小（防止过拟合能力强）的模型。但是，并不是所有集成学习框架中的基模型都是弱模型。bagging和stacking中的基模型为强模型（偏差低方差高），boosting中的基模型为弱模型。
　　
这里可以进一步参看为什么说bagging是减少variance，而boosting是减少bias?

使用模型的偏差和方差来描述其在训练集上的准确度和防止过拟合的能力
对于bagging来说，整体模型的偏差和基模型近似，随着训练的进行，整体模型的方差降低
对于boosting来说，整体模型的初始偏差较高，方差较低，随着训练的进行，整体模型的偏差降低（虽然也不幸地伴随着方差增高），当训练过度时，因方差增高，整体模型的准确度反而降低
整体模型的偏差和方差与基模型的偏差和方差息息相关

4. GBDT

GBDT(Gradient Boosting Decision Tree) 又叫 MART（Multiple Additive Regression Tree)，是一种迭代的决策树算法，该算法由多棵决策树组成，所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力（generalization)较强的算法。近些年更因为被用于搜索排序的机器学习模型而引起大家关注。

GBDT主要由三个概念组成：Regression Decistion Tree（即DT)，Gradient Boosting（即GB)，Shrinkage (缩减)；GBDT的核心在于累加所有树的结果作为最终结果，而分类树的结果没有办法累加，所以GBDT中的树都是回归树，不是分类树。

GBDT算法原理深入解析
GBDT(Gradient Boosting Decision Tree) 没有实现只有原理
使用sklearn进行集成学习——理论
GBDT（MART）迭代决策树入门教程 | 简介

gradient boosting

首先确定初始提升树 $f_0(x)=0$ ，第m步的模型是： $f_m(x)=f_{m-1}+T(x;\Theta_m)$ 通过经验风险极小化确定下一棵决策树的参数：

下面是梯度提升树的一般框架，其可以拥有多种不同变体且细节相异的实现方式：

当采用均方误差损失函数时，上图中的 $r_{im}$ 为： $r_{m}=y-f_{m-1}(x)$ 即最小均方损失函数的关于预测值的反向梯度即为残差。

实际上可以理解为，每一次迭代，构建一个新的决策树拟合上一轮迭代的真实值和预测值之差，即残差。

这里的拟合残差指根据回归树的生成算法步骤，用平方误差最小化准则求解每个单元上的最优输出值时，本来应该取输出变量Y与预测值的平方差，在提升树使用前向分步算法到下一个决策树学习的时候，可以把当前模型拟合数据的残差作为下一个模型学习的输出变量Y’,通过学习每一轮的学习误差(残差)，到下一轮拟合的误差会越来越小，最后将模型输出累加起来，就可以得到最优的输出结果。

GBDT的核心就在于，每一棵树学的是之前所有树结论和的残差，这个残差就是一个加预测值后能得真实值的累加量。比如A的真实年龄是18岁，但第一棵树的预测年龄是12岁，差了6岁，即残差为6岁。那么在第二棵树里我们把A的年龄设为6岁去学习，如果第二棵树真的能把A分到6岁的叶子节点，那累加两棵树的结论就是A的真实年龄；如果第二棵树的结论是5岁，则A仍然存在1岁的残差，第三棵树里A的年龄就变成1岁，继续学。这就是Gradient Boosting在GBDT中的意义。

回归树问题的提升树算法步骤

如果不采用平方损失函数呢？我们可以引入任意损失函数，然后利用最速下降法，求得损失函数的负梯度，对该值进行拟合。

常见的损失函数：
　　
　　ls：最小均方回归中用到的损失函数。在之前我们已经谈到，从拟合残差的角度来说，残差即是该损失函数的反向梯度值（所以又称反向梯度为伪残差）。不同的是，从拟合残差的角度来说，步长是无意义的。该损失函数是sklearn中Gradient Tree Boosting回归模型默认的损失函数。
　　
　　deviance：逻辑回归中用到的损失函数。熟悉逻辑回归的读者肯定还记得，逻辑回归本质是求极大似然解，其认为样本服从几何分布，样本属于某类别的概率可以logistic函数表达。所以，如果该损失函数可用在多类别的分类问题上，故其是sklearn中Gradient Tree Boosting分类模型默认的损失函数。
　　exponential：指数损失函数，表达式为： $L (y, F) = e x p (- y F)$
　　
　　当损失函数是指数损失时，Gradient Boosting相当于二分类的Adaboost算法。是的，指数损失仅能用于二分类的情况。
　　
　　不同的损失函数和极小化损失函数方法决定了boosting的最终效果，我们现在来说几个常见的boosting：

5. Xgboost

不同于传统的gbdt，只利用到了一阶导数的信息，xgboost对损失函数进行了二阶泰勒展开，并且在目标函数之外加入正则项整体求最优解，用以权衡目标函数的下降和模型的复杂程度，进一步避免过拟合。

可以看出，xgboost的优化目标包括两项，一项是训练误差，一项是模型复杂度

与我们之前所讲的前向分布算法一致，每一次迭代，训练一个新的决策树以拟合残差，在xgboost中如何选择函数，即决策树f呢？

这里开始与传统的gbdt不同：
1）首先对损失函数进行二阶泰勒展开：

2）将优化目标改写成：

这里， $g_i$ ， $h_i$ 分别是损失函数的一阶导数和二阶导数，如果损失函数为平方损失的话，可以理解： $g_i=\frac{\partial(\hat{y}_{t-1}-y_i)^2}{\partial\hat{y}_{t-1}}=2(\hat{y}_{t-1}-y_i)$ $h_i=\frac{\partial^2(\hat{y}_{t-1}-y_i)^2}{\partial\hat{y}_{t-1}}= 2$ 3）进一步简化，去除常数项（当前步 $y_i$ 和 $\hat{y}_{t-1}$ 已知）：

也就是说，xgboost中保留了泰勒展开的二次项，通过这种近似，只要二阶函数可导，可以自定义一些损失函数。

4）重新定义树：

5）定义树的复杂度项

从图中可以看出，xgboost算法中对树的复杂度项包含了两个部分，一个是叶子节点总数，一个是叶子节点得分L2正则化项，针对每个叶结点的得分增加L2平滑，目的也是为了避免过拟合。
6）更新优化目标

7）定义分数度量
可以看出，目标函数其实是一个一元二次函数，在树的结构q已经确定的情况下，为了使损失函数在其二阶近似中取得最小值，可得叶子的最优取值

计算例子：

8）如何生成最优秀的树：贪婪算法

例如：

两种分类的方式:

Exact Greedy Algorithm
对于每一维特征, 该算法针对此特征对样本集进行排序, 然后遍历每个样本在该特征上的取值并进行分裂, 计算出 $\Delta \mathcal{Loss}$ 以确定最佳分裂特征和分裂点.
进行了一次完全的扫描, 从而得到最佳的分裂方案. 其优点是, 能确保找到最佳的分裂方案, 然而缺点也非常明显, 当特征的维数 d 和样本个数 n 非常大时, 算法的执行会非常消耗时间和资源. 为此, XGBoost提出了另一种近似的算法以寻找分裂特征和分裂点.
Approximate Algorithm
当训练集的样本量为千万甚至上亿级别时, 对于任一特征 k , 这意味着寻找特征 k 的分裂点需要执行同样数量级的尝试操作. 如果我们能通过减少特征 k 所需要尝试分裂点的个数, 那自然能减少大量的计算量, 这便是Approximate Algorithm所采取的思路.具体过程见Gradient Boosting梯度提升-GBDT与XGBoost解析及应用

9）总结

5.1 xgboost实现

xgboost的具体实现可以参考官方API

import xgboost as xgb
from xgboost.sklearn import XGBRegressor

# modelfit函数
def modelfit(alg, dtrain, y_train, dtest, y_test, useTrainCV=True, cv_folds=5, early_stopping_rounds=50):

    if useTrainCV:
        xgb_parameters = alg.get_xgb_params()
        xgtrain = xgb.DMatrix(dtrain.values, label=y_train.values)
        cvresult = xgb.cv(xgb_parameters, xgtrain, num_boost_round=alg.get_params()['n_estimators'], nfold=cv_folds,
                          metrics='rmse', early_stopping_rounds=early_stopping_rounds, show_stdv=False)
        print("the cv number is: ", cvresult.shape[0])
        alg.set_params(n_estimators=cvresult.shape[0])

    alg.fit(dtrain, y_train, eval_metric='rmse')

    dtrain_prediction = alg.predict(dtrain)
    dtest_prediction = alg.predict(dtest)

    # print model report
    print("\nModel Report")
    print("feature numbers: %d" % dtrain.shape[1])
    print("Train RMSE : %.4g" % mean_squared_error(y_train.values, dtrain_prediction)**0.5)
    print("Test RMSE : %.4g" % mean_squared_error(y_test.values, dtest_prediction) ** 0.5)

    # feat_imp = pd.Series(alg.get_booster().get_fscore()).sort_values(ascending=False)
    # feat_imp.plot(kind='bar', title='Feature Importance')
    # plt.ylabel('Feature Importance Score')
    # plt.show()
    plot_importance(alg)
    plt.show()

    importances = alg.feature_importances_

    return dtrain_prediction, dtest_prediction

5.1 xgboost特征选择

这里是一些特征选择的方法，此次我主要利用sklearn中的SelectFromModel进行特征选择

# 初始化模型
xgb0 = XGBRegressor(random_state=10, importance_type='gain')
start = time()
dtrain_prediction, dtest_prediction = modelfit(xgb0, X_train, y_train, X_val, y_val)
end = time()
print("the model fit time: %.4f" % (end-start))

train_out = pd.DataFrame(list(zip(y_train.values.flatten(), pd.Series(dtrain_prediction))),
                         index=y_train.index, columns=['y_true', 'y_pred'])
test_out = pd.DataFrame(list(zip(y_val.values.flatten(), pd.Series(dtest_prediction))),
                        index=y_val.index, columns=['y_true', 'y_pred'])


# step4：特征选择
model = SelectFromModel(xgb0, prefit=True)
selection_X_train = model.transform(X_train)
selection_X_val = model.transform(X_val)
selection_X_test = model.transform(X_test)

start = time()
xgb0.fit(selection_X_train, y_train)
end = time()
y_train_pred = xgb0.predict(selection_X_train)
y_val_pred = xgb0.predict(selection_X_val)

train_rmse = mean_squared_error(y_train, y_train_pred) ** 0.5
val_rmse = mean_squared_error(y_val, y_val_pred) ** 0.5
print("After feature selection： n=%d, train rmse=%.4f, val rmse=%.4f, the model fit time: %.4f" %
      (selection_X_train.shape[1], train_rmse, val_rmse, (end-start)))

5.2 xgboost超参数优化

在这次的项目中，我主要调用了sklearn.model_selection的GridSearchCV进行参数的调节，xgboost的参数有许多，具体参数可见官方介绍，在这里，我按照Complete Guide to Parameter Tuning in XGBoost (with codes in Python)中的方法，对几个超参数进行了调整。

# step5: 参数调优

# 5.1：手动输入参数
xgb1 = XGBRegressor(
    learning_rate=0.1,
    n_estimators=1000,
    max_depth=5,
    min_child_weight=1,
    gamma=0,
    subsample=0.8,
    colsample_bytree=0.8,
    # objective='reg:squarederror',
    seed=10,
    # nthread=4,
    tree_method='exact',
    random_state=10,
    importance_type='gain'
)

start = time()
dtrain_prediction, dtest_prediction = modelfit(xgb1, pd.DataFrame(selection_X_train),
                                               y_train, pd.DataFrame(selection_X_val), y_val)
end = time()
print("the model fit time: %.4f" % (end-start))
train_out = pd.DataFrame(list(zip(y_train.values.flatten(), pd.Series(dtrain_prediction))),
                         index=y_train.index, columns=['y_true', 'y_pred'])
test_out = pd.DataFrame(list(zip(y_val.values.flatten(), pd.Series(dtest_prediction))),
                        index=y_val.index, columns=['y_true', 'y_pred'])


# # 5.2 TODO: Tune max_depth and min_child_weight
print("\n--------------------------------------")
print("Tune max_depth and min_child_weight...")
cv = KFold(n_splits=5, random_state=10, shuffle=True)
param_test1 = {'max_depth': range(3, 11, 1), 'min_child_weight': range(1, 6, 1)}
gsearch1 = GridSearchCV(estimator=xgb1, param_grid=param_test1,
                        scoring=make_scorer(mean_squared_error, greater_is_better=False), iid=False, cv=cv)
grid_obj = gsearch1.fit(selection_X_train, y_train)
print(grid_obj.best_params_)
print(grid_obj.best_score_)
for i in range(len(grid_obj.cv_results_['params'])):
    print("the mean test score of {} is {}.".format(grid_obj.cv_results_['params'][i], grid_obj.cv_results_['mean_test_score'][i]))


# 5.3：TODO: tune the gamma
print("\n--------------------------------------")
print("Tune the gamma...")
xgb2 = grid_obj.best_estimator_
param_test2 = {'gamma': [i/100.0 for i in range(11)]}
gsearch2 = GridSearchCV(estimator=xgb2, param_grid=param_test2,
                        scoring=make_scorer(mean_squared_error, greater_is_better=False), iid=False, cv=cv)
grid_obj2 = gsearch2.fit(selection_X_train, y_train)
print(grid_obj2.best_params_)
print(grid_obj2.best_score_)
for i in range(len(grid_obj2.cv_results_['params'])):
    print("the mean test score of {} is {}.".format(grid_obj2.cv_results_['params'][i], grid_obj2.cv_results_['mean_test_score'][i]))

# 5.4：TODO: tune the subsample and colsample_bytree
print("\n--------------------------------------")
print("Tune the subsample and colsample_bytree...")
xgb3 = grid_obj2.best_estimator_
param_test3 = {'subsample': [0.5, 0.6, 0.7, 0.8, 0.9, 1.0],
               'colsample_bytree': [0.5, 0.6, 0.7, 0.8, 0.9, 1.0]}
gsearch3 = GridSearchCV(estimator=xgb3, param_grid=param_test3,
                        scoring=make_scorer(mean_squared_error, greater_is_better=False), iid=False, cv=cv)
grid_obj3 = gsearch3.fit(selection_X_train, y_train)
print(grid_obj3.best_params_)
print(grid_obj3.best_score_)
for i in range(len(grid_obj3.cv_results_['params'])):
    print("the mean test score of {} is {}.".format(grid_obj3.cv_results_['params'][i], grid_obj3.cv_results_['mean_test_score'][i]))

# 5.5：TODO: tune the Regularization Parameters
print("\n--------------------------------------")
print("Tune the Regularization Parameters")
xgb4 = grid_obj3.best_estimator_
param_test4 = {'reg_lambda': [1.0, 1.1, 1.2, 1.3, 1.4, 1.5]}
gsearch4 = GridSearchCV(estimator=xgb4, param_grid=param_test4,
                        scoring=make_scorer(mean_squared_error, greater_is_better=False),
                        iid=False, cv=cv)
grid_obj4 = gsearch4.fit(selection_X_train, y_train)
print(grid_obj4.best_params_)
print(grid_obj4.best_score_)
for i in range(len(grid_obj4.cv_results_['params'])):
    print("the mean test score of {} is {}.".format(grid_obj4.cv_results_['params'][i], grid_obj4.cv_results_['mean_test_score'][i]))

# 5.6：predict the best model
print("\n--------------------------------------")
print("predicting the best model")
best_xgb = grid_obj4.best_estimator_
start = time()
best_xgb.fit(selection_X_train, y_train)
y_train_pred = best_xgb.predict(selection_X_train)
y_val_pred = best_xgb.predict(selection_X_val)
end = time()
print("the model fit time: %.4f" % (end-start))
train_rmse = mean_squared_error(y_train, y_train_pred) ** 0.5
val_rmse = mean_squared_error(y_val, y_val_pred) ** 0.5
print("the best model report： train rmse=%.4f, val rmse=%.4f, the model fit time: %.4f" %
      (train_rmse, val_rmse, (end-start)))

5. Xgboost和GBDT的比较

第一个区别：牛顿法

GBDT在函数空间中利用梯度下降法进行优化，只考虑了一阶导数的信息，拟合的 $f_t(x)=$ 残差
xgboost在函数空间中利用牛顿法进行优化，加入了二阶导数的信息，拟合的 $f_t(x)=-\frac{g_t(x)}{h_t(x)}$ ；

第二个区别：正则化项

xgboost在目标函数中加入的正则化项，正则项对每棵回归树的复杂度进行了惩罚，而复杂度可以用树的深度，内部节点个数，叶子节点个数(T)，叶节点分数(w)等来衡量。

我们再来看看xgboost的优点：

二阶泰勒展开：传统的gbdt在优化时，只用到了一阶导数信息，xgboost则对代价函数进行了二阶泰勒展开，同时用到了一阶导数和二阶导数，我的理解是为了更加容易的理解收敛过程，同时支持自定义损失函数（二阶可导的条件下），欢迎指正；
正则化：xgboost在目标函数里加入了正则化项，用于控制模型的复杂度。正则项里包含了树的叶子节点个数、每个叶子节点上输出的score的L2模的平方和。从Bias-variance tradeoff角度来讲，正则项降低了模型variance，使学习出来的模型更加简单，防止过拟合，这也是xgboost优于传统GBDT的一个特性。
shrinkage（缩减）：shrinkage缩减类似于学习速率，在每一步tree boosting之后增加了一个参数n（权重），通过这种方式来减小每棵树的影响力，给后面的树提供空间去优化模型。防止过拟合。
对每颗子树增加一个参数，使得每颗子树的权重降低，防止过拟合，增加这个参数叫shrinkage方法。对特征进行降采样，灵感来源于随机森林，除了能降低计算量外，还能防止过拟合。
增加处理缺失值的方案（通过枚举所有缺失值在当前节点是进入左子树，还是进入右子树更优来决定一个处理缺失值默认的方向）。
对每个特征进行分块（block）并排序，使得在寻找最佳分裂点的时候能够并行化计算.这个结构加速了split finding的过程，只需要在建树前排序一次，后面节点分裂时直接根据索引得到梯度信息。这是xgboost比一般GBDT更快的一个重要原因。

Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
如何有效的学习AI大模型？ Python程序员罗宾学习人工智能语言模型自然语言处理架构
学习AI大模型是一个系统性的过程，涉及到多个学科的知识。以下是一些建议，帮助你更有效地学习AI大模型：基础知识储备：数学基础：学习线性代数、概率论、统计学和微积分等，这些是理解机器学习算法的数学基础。编程技能：掌握至少一种编程语言，如Python，因为大多数AI模型都是用Python实现的。理论学习：机器学习基础：了解监督学习、非监督学习、强化学习等基本概念。深度学习：学习神经网络的基本结构，如卷
机器学习与深度学习的区别 eqa11 机器学习
文章目录机器学习与深度学习的区别一、引言二、机器学习概述1、机器学习定义1.1、机器学习的应用2、机器学习算法三、深度学习概述1、深度学习定义1.1、深度学习的应用2、深度学习算法四、机器学习与深度学习的区别1、学习方法2、数据需求3、应用领域五、总结机器学习与深度学习的区别一、引言在人工智能的浪潮中，机器学习和深度学习无疑是最耀眼的两颗明星。它们在许多领域都取得了令人瞩目的成就，从自动驾驶汽车到
MATLAB车牌识别系统清风明月来几时图像算法处理 matlab 开发语言
MATLAB车牌识别系统是一个基于MATLAB开发的用于识别和提取车牌信息的系统。该系统使用图像处理和机器学习算法来实现车牌的定位和字符识别。以下是一个基本的MATLAB车牌识别系统的工作流程：图像预处理：首先，将输入的图像进行预处理，包括灰度化、高斯平滑、边缘检测等操作，以提高后续的车牌定位和字符识别的准确性。车牌定位：在预处理后的图像中，使用形态学运算和边缘检测算法来寻找车牌的位置。这可以通过
十大机器学习算法-梯度提升决策树（GBDT） zjwreal 机器学习 GBDT 机器学习梯度提升提升树梯度提升决策树
简介梯度提升决策树（GBDT）由于准确率高、训练快速等优点，被广泛应用到分类、回归合排序问题中。该算法是一种additive树模型，每棵树学习之前additive树模型的残差。许多研究者相继提出XGBoost、LightGBM等，又进一步提升了GBDT的性能。基本思想提升树-BoostingTree以决策树为基函数的提升方法称为提升树，其决策树可以是分类树或者回归树。决策树模型可以表示为决策树的加
通俗理解线性回归(Linear Regression) 小夏refresh 机器学习数据挖掘机器学习算法人工智能数据挖掘
线性回归,最简单的机器学习算法,当你看完这篇文章,你就会发现,线性回归是多么的简单.首先,什么是线性回归.简单的说,就是在坐标系中有很多点,线性回归的目的就是找到一条线使得这些点都在这条直线上或者直线的周围,这就是线性回归(LinearRegression).是不是有画面感了?那么我们上图片:![1.png][1]那么接下来,就让我们来看看具体的线性回归吧首先,我们以二维数据为例:我们有一组数据x
《机器学习》—— XGBoost（xgb.XGBClassifier）分类器张小生180 机器学习人工智能
文章目录一、XGBoost分类器的介绍二、XGBoost（xgb.XGBClassifier）分类器与随机森林分类器（RandomForestClassifier）的区别三、XGBoost（xgb.XGBClassifier）分类器代码使用示例一、XGBoost分类器的介绍XGBoost分类器是一种基于梯度提升决策树（GradientBoostingDecisionTree，GBDT）的集成学习算
c++ +Opencv实现车牌自动识别听忆. 人工智能计算机视觉
c+++Opencv实现车牌自动识别1.图像预处理2.车牌定位3.字符分割4.字符识别完整流程概述：边走、边悟迟早会好要用C++和OpenCV实现车牌自动识别，主要流程分为几个步骤：图像预处理：提高车牌区域的可见度，方便后续的车牌定位与字符识别。车牌定位：通过图像处理和特征提取，定位车牌在图像中的位置。字符分割：将车牌区域中的字符逐个分割出来。字符识别：利用机器学习算法或者OCR（光学字符识别）技
Python处理大数据，如何提高处理速度 RS& #python python 大数据 pandas
Python处理大数据，如何提高处理速度？一、利用大数据分析工具Dask：https://dask.org/Dask简介：Dask支持Pandas的DataFrame和NumpyArray的数据结构，并且既可在本地计算机上运行，也可以扩展到在集群上运行。Dask可支持pandas、Numpy、Sklearn、XGBoost、XArray、RAPIDS等等。原理及使用方法：https://blog.
XGBoost调参demo（Python）妄念驱动机器学习算法 python 机器学习 XGBoost python
XGBoost我们用的是保险公司的一份数据#各种库importpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltfromsklearn.linear_modelimportLogisticRegressionfromsklearn.ensembleimportRandomForestClassifierfromsklearn.metricsi
【python】Python实现XGBoost算法的详细理论讲解与应用实战景天科技苑 python轻松入门基础语法到高阶实战教学 python 算法开发语言 XGBoost算法 XGBoost python实现XGBoost 人工智能
✨✨欢迎大家来到景天科技苑✨✨养成好习惯，先赞后看哦~作者简介：景天科技苑《头衔》：大厂架构师，华为云开发者社区专家博主，阿里云开发者社区专家博主，CSDN全栈领域优质创作者，掘金优秀博主，51CTO博客专家等。《博客》：Python全栈，PyQt5和Tkinter桌面开发，小程序开发，人工智能，js逆向，App逆向，网络系统安全，数据分析，Django，fastapi，flask等框架，云原生K
NPU技术总结技术学习分享 webgl processon
NPUs简介定义:NPUs是一种专门为执行机器学习算法和神经网络操作而设计的处理器。起源:随着人工智能和深度学习的发展，NPUs应运而生，以满足对高效率和高能效的计算需求。NPUs的设计架构:NPUs通常采用不同于传统CPU或GPU的架构，优化了矩阵运算和并行处理。指令集:它们拥有专门的指令集，用于加速神经网络中的常见操作，如卷积和激活函数。NPUs的核心技术并行性:NPUs利用数据并行性和任务并
机器学习面试题目分享面试经验分享机器学习算法工程师深度学习经典问题好家伙VCC 面试机器学习面试经验分享 stm32 嵌入式硬件单片机 fpga开发
标题机器学习面经总结的常见面试题目等作业帮实习视觉算法一面凉凉经3.16号投递图像算法实习生，昨天hr打电话约了今早上牛客面试面试官还是很和蔼的，问了很多基础和细节，平时我都没有注意到的，肯定凉了，在这里记录一下，分享给大家由于我本科研究生都是计算机的，因此问了一些计算机基础的东西，但是由于年代久远，我都不记得了机器学习方面知识因为缺少一些动手实践，因此很多细节都不了解感谢面试官让我了解到这么多不
机器学习算法 —— LightGBM ZShiJ 机器学习算法机器学习算法分类
欢迎来到我的博客——探索技术的无限可能！博客的简介（文章目录）目录背景描述数据说明数据来源LightGBMLightGBM原理简介LightGBM的优点LightGBM的缺点LightGBM的应用基于英雄联盟数据集的LightGBM分类实战函数库导入数据读取/载入数据信息简单查看可视化描述利用LightGBM进行训练与预测利用LightGBM进行特征选择通过调整参数获得更好的效果基本参数调整针对训
机器人路径规划的机器学习算法科技大本营机器人机器学习算法
机器学习算法正在重塑机器人在复杂和动态环境中导航的方式，而机器人路径规划就是其中一个重要领域。传统方法通常在受控环境中表现良好，但在处理实时出现的障碍或变化时往往失效。通过机器学习，机器人可以从数据和经验中学习，做出智能决策并优化路线。本文回顾了一些在机器人路径规划领域中占主导地位的主要机器学习算法，它们的实际应用以及推动此技术进一步发展的趋势。了解机器人路径规划机器人路径规划是指确定机器人从起始
python机器学习算法--贝叶斯算法在下小天n 机器学习 python 机器学习算法
1.贝叶斯定理在20世纪60年代初就引入到文字信息检索中，仍然是文字分类的一种热门（基准）方法。文字分类是以词频为特征判断文件所属类型或其他（如垃圾邮件、合法性、新闻分类等）的问题。原理牵涉到概率论的问题，不在详细说明。sklearn.naive_bayes.GaussianNB(priors=None,var_smoothing=1e-09)#Bayes函数·priors：矩阵，shape=[n
人工智能&机器学习&深度学习 AA杂货铺111
机器学习：一切通过优化方法挖掘数据中规律的学科。深度学习：一切运用了神经网络作为参数结构进行优化的机器学习算法。强化学习：不仅能利用现有数据，还可以通过对环境的探索获得新数据，并利用新数据循环往复地更新迭代现有模型的机器学习算法。学习是为了更好地对环境进行探索，而探索是为了获取数据进行更好的学习。深度强化学习：一切运用了神经网络作为参数结构进行优化的强化学习算法。人工智能定义与分类人工智能（Art
生成式AI：创造性智能的新纪元 Lill_bin 杂谈人工智能分布式 zookeeper 机器学习算法
引言随着人工智能技术的飞速发展，生成式AI（GenerativeAI）已经成为一个引人注目的领域。它不仅仅是模仿人类行为，而是通过学习大量的数据，创造出全新的内容，如文本、图像、音乐等。本文将探讨生成式AI的基本原理、应用领域以及它对未来社会可能产生的影响。什么是生成式AI？生成式AI是一种利用机器学习算法，特别是深度学习技术，来生成新的数据样本的人工智能。这些数据样本在统计上与训练数据相似，但又
python logistic regression_机器学习算法与Python实践之逻辑回归（Logistic Regression） weixin_39702649 python logistic regression
机器学习算法与Python实践这个系列主要是参考下载地址：https://bbs.pinggu.org/thread-2256090-1-1.html一、逻辑回归(LogisticRegression)Logisticregression(逻辑回归)是当前业界比较常用的机器学习方法，用于估计某种事物的可能性。之前在经典之作《数学之美》中也看到了它用于广告预测，也就是根据某广告被用户点击的可能性，把
python logistic模型_Python实践之逻辑回归（Logistic Regression） weixin_39922394 python logistic模型
机器学习算法与Python实践这个系列主要是参考《机器学习实战》这本书。因为自己想学习Python，然后也想对一些机器学习算法加深下了解，所以就想通过Python来实现几个比较常用的机器学习算法。恰好遇见这本同样定位的书籍，所以就参考这本书的过程来学习了。这节学习的是逻辑回归(LogisticRegression)，也算进入了比较正统的机器学习算法。啥叫正统呢？我概念里面机器学习算法一般是这样一个
周报 | 24.8.26-24.9.1文章汇总双木的木 python拓展学习深度学习拓展阅读目标检测人工智能 python 计算机视觉 gpt transformer stable diffusion
为了更好地整理文章和发表接下来的文章，以后每周都汇总一份周报。周报|24.8.19-24.8.25文章汇总-CSDN博客python|提升代码迭代速度的Python重载方法-CSDN博客机器学习算法与Python学习|黑匣子被打开了？能玩的Transformer可视化解释工具！_研究别人的黑盒算法机器学习python-CSDN博客极市平台|语言图像模型大一统！Meta将Transformer和Di
自然语言处理系列五十》文本分类算法》SVM支持向量机算法原理陈敬雷-充电了么-CEO兼CTO 算法大数据人工智能算法自然语言处理分类 nlp ai 人工智能 chatgpt
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》（人工智能科学与技术丛书）【陈敬雷编著】【清华大学出版社】文章目录自然语言处理系列五十SVM支持向量机》算法原理SVM支持向量机》代码实战总结自然语言处理系列五十SVM支持向量机》算法原理SVM支持向量机在文本分类的应用场景中，相比其他机器学习算法有更好的效果。下面介绍其原理，并用SparkMLlib机器
【大数据】孤立森林算法大雨淅淅大数据算法 python 大数据人工智能
目录一、孤立森林算法概述二、孤立森林算法优缺点和改进2.1孤立森林算法优点2.2孤立森林算法缺点2.3孤立森林算法改进三、孤立森林算法代码实现3.1孤立森林算法python实现3.2孤立森林算法JAVA实现3.3孤立森林算法C++实现四、孤立森林算法应用一、孤立森林算法概述孤立森林算法是一种用于异常检测的机器学习算法。它基于这样的直觉：异常点是数据中的少数派，它们在特征空间中的分布与正常数据点不同
如何开发针对不平衡分类的成本敏感神经网络 python 背包客研究不平衡学习分类神经网络 python
如何开发针对不平衡分类的成本敏感神经网络深度学习神经网络是一类灵活的机器学习算法，可以在各种问题上表现良好。神经网络使用误差反向传播算法进行训练，该算法涉及计算模型在训练数据集上产生的误差，并根据这些误差的比例更新模型权重。这种训练方法的局限性在于，每个类别的示例都被视为相同，对于不平衡的数据集，这意味着模型对一个类别的适应性要强得多，而对另一个类别的适应性则弱得多。反向传播算法可以更新，以根据类
大肠杆菌数据集的不平衡多类分类 Python 背包客研究不平衡学习分类 python 人工智能
大肠杆菌数据集的不平衡多类分类关注博主学习更多内容关注vxGZH:多目标优化与学习Lab教程概述本教程分为五个部分；他们是：大肠杆菌数据集探索数据集模型测试和基线结果评估模型评估机器学习算法评估数据过采样对新数据进行预测大肠杆菌数据集在这个项目中，我们将使用一个标准的不平衡机器学习数据集，称为“大肠杆菌”数据集，也称为“蛋白质定位位点”数据集。该数据集描述了利用细胞定位位点的氨基酸序列对大肠杆菌蛋
人工智能在网络安全领域的应用探索亿林数据人工智能 web安全安全网络安全
随着网络技术的飞速发展，网络安全问题日益凸显，成为制约数字化进程的重要瓶颈。人工智能（AI）作为一种变革性技术，正逐步在网络安全领域展现出其巨大的潜力和价值。本文旨在探讨人工智能在网络安全领域的应用现状、优势、挑战及未来发展趋势。一、人工智能在网络安全中的应用现状威胁检测与响应人工智能通过机器学习算法，能够自动识别网络中的异常行为，如未经授权的访问、恶意软件传播等。传统的安全系统依赖于静态规则和签
从自动驾驶看无人驾驶叉车的技术落地和应用电气_空空自动驾驶自动驾驶机器人人工智能毕设
摘要｜介绍无人驾驶叉车在自动驾驶技术中的应用，分析其关键技术，如环境感知、定位、路径规划等，并讨论机器学习算法和强化学习算法的应用以提高无人叉车的运行效率和准确性。无人叉车在封闭结构化环境、机器学习、有效数据集等方法的助力下，可有效推动叉车无人驾驶关键技术的发展。关键词：无人叉车；自动驾驶；机器学习；数据集随着人工智能技术的持续进步，无人叉车领域的供给与需求均呈现迅猛增长态势。它们不仅正在逐步替代
深度学习100问13:什么是二分类问题不断持续学习ing 人工智能机器学习自然语言处理
嘿，你知道二分类问题不？这就像是一个“超级裁判”，要把东西分成两大类。一、定义及举例想象一下，生活中有很多时候我们得决定一个东西到底属于哪一边。就像判断一封邮件，是“垃圾邮件”呢，还是“正常邮件”；或者看看一个病人，是“得了某种病”呢，还是“没得病”。二、解决方法要解决二分类问题呀，我们可以找来一些“魔法工具”，也就是机器学习算法。像逻辑回归啦、支持向量机啦、决策树啦等等。这些算法就像聪明的小助手
Python学习和面试中的常见问题及答案写代码的M教授 Python学习计划 python 学习面试
整理了一些关于Python和机器学习算法的高级问题及其详细答案。这些问题涵盖了多个方面，包括数据处理、模型训练、评估、优化和实际应用。一、Python编程问题解释Python中的装饰器（Decorators）是什么？它们的作用是什么？答案：装饰器是一种高阶函数，能够在不修改函数定义的情况下扩展或修改函数的行为。它们通常用于日志记录、权限验证、缓存等场景。使用@decorator_name语法将装饰
机器学习算法深度总结(5)-逻辑回归婉妃
1.模型定义逻辑回归属于基于概率分类的学习法.基于概率的模式识别是指对模式x所对应的类别y的后验概率禁行学习.其所属类别为后验概率最大时的类别:预测类别的后验概率,可理解为模式x所属类别y的可信度.逻辑回归(logistic),使用线性对数函数对分类后验概率进行模型化:上式,分母是满足概率总和为1的约束条件的正则化项,参数向量维数为:考虑二分类问题:使用上述关系式,logistic模型的参数个数从
eclipse maven IXHONG eclipse
eclipse中使用maven插件的时候，运行run as maven build的时候报错 -Dmaven.multiModuleProjectDirectory system propery is not set. Check $M2_HOME environment variable and mvn script match. 可以设一个环境变量M2_HOME指
timer cancel方法的一个小实例 alleni123 多线程 timer
package com.lj.timer; import java.util.Date; import java.util.Timer; import java.util.TimerTask; public class MyTimer extends TimerTask { private int a; private Timer timer; pub
MySQL数据库在Linux下的安装 ducklsl mysql
1.建好一个专门放置MySQL的目录 /mysql/db数据库目录 /mysql/data数据库数据文件目录 2.配置用户，添加专门的MySQL管理用户 >groupadd mysql ----添加用户组 >useradd -g mysql mysql ----在mysql用户组中添加一个mysql用户 3.配置，生成并安装MySQL >cmake -D
spring------>>cvc-elt.1: Cannot find the declaration of element Array_06 spring bean
将-------- <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3
maven发布第三方jar的一些问题 cugfy maven
maven中发布第三方jar到nexus仓库使用的是 deploy:deploy-file命令有许多参数，具体可查看 http://maven.apache.org/plugins/maven-deploy-plugin/deploy-file-mojo.html 以下是一个例子： mvn deploy:deploy-file -DgroupId=xpp3
MYSQL下载及安装 357029540 mysql
好久没有去安装过MYSQL，今天自己在安装完MYSQL过后用navicat for mysql去厕测试链接的时候出现了10061的问题，因为的的MYSQL是最新版本为5.6.24，所以下载的文件夹里没有my.ini文件，所以在网上找了很多方法还是没有找到怎么解决问题，最后看到了一篇百度经验里有这个的介绍，按照其步骤也完成了安装，在这里给大家分享下这个链接的地址
ios TableView cell的布局张亚雄 tableview
cell.imageView.image = [UIImage imageNamed:[imageArray objectAtIndex:[indexPath row]]]; CGSize itemSize = CGSizeMake(60, 50); &nbs
Java编码转义 adminjun java 编码转义
import java.io.UnsupportedEncodingException; /** * 转换字符串的编码 */ public class ChangeCharset { /** 7位ASCII字符，也叫作ISO646-US、Unicode字符集的基本拉丁块 */ public static final Strin
Tomcat 配置和spring aijuans spring
简介 Tomcat启动时，先找系统变量CATALINA_BASE，如果没有，则找CATALINA_HOME。然后找这个变量所指的目录下的conf文件夹，从中读取配置文件。最重要的配置文件：server.xml 。要配置tomcat，基本上了解server.xml，context.xml和web.xml。 Server.xml -- tomcat主
Java打印当前目录下的所有子目录和文件 ayaoxinchao 递归 File
其实这个没啥技术含量，大湿们不要操笑哦，只是做一个简单的记录，简单用了一下递归算法。 import java.io.File; /** * @author Perlin * @date 2014-6-30 */ public class PrintDirectory { public static void printDirectory(File f
linux安装mysql出现libs报冲突解决 BigBird2012 linux
linux安装mysql出现libs报冲突解决安装mysql出现 file /usr/share/mysql/ukrainian/errmsg.sys from install of MySQL-server-5.5.33-1.linux2.6.i386 conflicts with file from package mysql-libs-5.1.61-4.el6.i686
jedis连接池使用实例 bijian1013 redis jedis连接池 jedis
实例代码： package com.bijian.study; import java.util.ArrayList; import java.util.List; import redis.clients.jedis.Jedis; import redis.clients.jedis.JedisPool; import redis.clients.jedis.JedisPoo
关于朋友 bingyingao 朋友兴趣爱好维持
成为朋友的必要条件：志相同，道不合，可以成为朋友。譬如马云、周星驰一个是商人，一个是影星，可谓道不同，但都很有梦想，都要在各自领域里做到最好，当他们遇到一起，互相欣赏，可以畅谈两个小时。志不同，道相合，也可以成为朋友。譬如有时候看到两个一个成绩很好每次考试争做第一，一个成绩很差的同学是好朋友。他们志向不相同，但他
【Spark七十九】Spark RDD API一 bit1129 spark
aggregate package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} //测试RDD的aggregate方法 object AggregateTest { def main(args: Array[String]) { val conf = new Spar
ktap 0.1 released bookjovi kernel tracing
Dear, I'm pleased to announce that ktap release v0.1, this is the first official release of ktap project, it is expected that this release is not fully functional or very stable and we welcome bu
能保存Properties文件注释的Properties工具类 BrokenDreams properties
今天遇到一个小需求：由于java.util.Properties读取属性文件时会忽略注释，当写回去的时候，注释都没了。恰好一个项目中的配置文件会在部署后被某个Java程序修改一下，但修改了之后注释全没了，可能会给以后的参数调整带来困难。所以要解决这个问题。 &nb
读《研磨设计模式》-代码笔记-外观模式-Facade bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 百度百科的定义： * Facade（外观）模式为子系统中的各类（或结构与方法）提供一个简明一致的界面， * 隐藏子系统的复杂性，使子系统更加容易使用。他是为子系统中的一组接口所提供的一个一致的界面 * * 可简单地
After Effects教程收集 cherishLC After Effects
1、中文入门 http://study.163.com/course/courseMain.htm?courseId=730009 2、videocopilot英文入门教程（中文字幕） http://www.youku.com/playlist_show/id_17893193.html 英文原址： http://www.videocopilot.net/basic/ 素
Linux Apache 安装过程 crabdave apache
Linux Apache 安装过程下载新版本： apr-1.4.2.tar.gz（下载网站：http://apr.apache.org/download.cgi） apr-util-1.3.9.tar.gz（下载网站：http://apr.apache.org/download.cgi） httpd-2.2.15.tar.gz（下载网站：http://httpd.apac
Shell学习之变量赋值和引用 daizj shell 变量引用赋值
本文转自：http://www.cnblogs.com/papam/articles/1548679.html Shell编程中，使用变量无需事先声明，同时变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）中间不能有空格，可以使用下划线（_）不能使用标点符号不能使用bash里的关键字（可用help命令查看保留关键字）需要给变量赋值时，可以这么写：
Java SE 第一讲（Java SE入门、JDK的下载与安装、第一个Java程序、Java程序的编译与执行） dcj3sjt126com java jdk
Java SE 第一讲： Java SE：Java Standard Edition Java ME: Java Mobile Edition Java EE：Java Enterprise Edition Java是由Sun公司推出的（今年初被Oracle公司收购）。收购价格：74亿美金 J2SE、J2ME、J2EE JDK：Java Development
YII给用户登录加上验证码 dcj3sjt126com yii
1、在SiteController中添加如下代码： /** * Declares class-based actions. */ public function actions() { return array( // captcha action renders the CAPTCHA image displ
Lucene使用说明 dyy_gusi Lucene search 分词器
Lucene使用说明 1、lucene简介 1.1、什么是lucene Lucene是一个全文搜索框架，而不是应用产品。因此它并不像baidu或者googleDesktop那种拿来就能用，它只是提供了一种工具让你能实现这些产品和功能。 1.2、lucene能做什么要回答这个问题，先要了解lucene的本质。实际
学习编程并不难,做到以下几点即可! gcq511120594 数据结构编程算法
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
Java面试十问之三：Java与C++内存回收机制的差别 HNUlanwei java C++finalize()堆栈内存回收
大家知道， Java 除了那 8 种基本类型以外，其他都是对象类型（又称为引用类型）的数据。 JVM 会把程序创建的对象存放在堆空间中，那什么又是堆空间呢？其实，堆（ Heap）是一个运行时的数据存储区，从它可以分配大小各异的空间。一般，运行时的数据存储区有堆（ Heap）和堆栈（ Stack），所以要先看它们里面可以分配哪些类型的对象实体，然后才知道如何均衡使用这两种存储区。一般来说，栈中存放的
第二章 Nginx+Lua开发入门 jinnianshilongnian nginx lua
Nginx入门本文目的是学习Nginx+Lua开发，对于Nginx基本知识可以参考如下文章： nginx启动、关闭、重启 http://www.cnblogs.com/derekchen/archive/2011/02/17/1957209.html agentzh 的 Nginx 教程 http://openresty.org/download/agentzh-nginx-tutor
MongoDB windows安装基本命令 liyonghui160com
windows安装安装目录： D:\MongoDB\ 新建目录 D:\MongoDB\data\db 4.启动进城： cd D:\MongoDB\bin mongod -dbpath D:\MongoDB\data\db &n
Linux下通过源码编译安装程序 pda158 linux
一、程序的组成部分　　Linux下程序大都是由以下几部分组成：　　二进制文件：也就是可以运行的程序文件　　库文件：就是通常我们见到的lib目录下的文件　　配置文件：这个不必多说，都知道　　帮助文档：通常是我们在linux下用man命令查看的命令的文档　　二、linux下程序的存放目录　　linux程序的存放目录大致有三个地方：　　/etc, /b
WEB开发编程的职业生涯４个阶段 shw3588 编程 Web 工作生活
觉得自己什么都会 2007年从学校毕业，凭借自己原创的ASP毕业设计，以为自己很厉害似的，信心满满去东莞找工作，找面试成功率确实很高，只是工资不高，但依旧无法磨灭那过分的自信，那时候什么考勤系统、什么OA系统、什么ERP，什么都觉得有信心，这样的生涯大概持续了约一年。根本不是自己想的那样 2008年开始接触很多工作相关的东西，发现太多东西自己根本不会，都需要去学，不管是asp还是js，
遭遇jsonp同域下变作post请求的坑 vb2005xu jsonp 同域post
今天迁移一个站点时遇到一个坑爹问题,同一个jsonp接口在跨域时都能调用成功,但是在同域下调用虽然成功,但是数据却有问题. 此处贴出我的后端代码片段 $mi_id = htmlspecialchars(trim($_GET['mi_id '])); $mi_cv = htmlspecialchars(trim($_GET['mi_cv '])); 贴出我前端代码片段: $.aj