浪漫的数据分析

CatBoost 和 Light GBM 和 XGBoost 使用GPU训练对比

CatBoost 和 Light GBM 和 XGBoost

学习目标：
学习内容：
LightGBM和XGBoost的结构差异
每个模型如何处理分类变量？
- CatBoost
- LightGBM
- XGBoost
超参数中的相似性
数据集上的实现
- 数据预处理
- XGBoost
- LGBM
- catboost
结果
总结
参考文献
全部代码

学习目标：

对比学习：CatBoost 和 Light GBM 和 XGBoost

Light GBM 最快，目前暂时对GPU CUDA支持不好，报错
CatBoost 有较多离散特征时效果好，对GPU支持好，所以用GPU训练快
XGBoost最慢，需要自己编码，效果较稳定

学习内容：

Kaggle比赛使用各种增强算法，能进入前10名。尽管神经网络最近重新出现并流行起来，但传统提升算法，在训练数据有限，训练时间少，参数调优专业知识少的情况下，仍然更有用。

CatBoost 和 Light GBM 和 XGBoost发展时间表。

由于XGBoost（通常称为GBM Killer）已经在机器学习领域工作了更长的时间，并且有很多文章专门介绍它，因此本文将更多地关注CatBoost和LGBM。以下是我们将涵盖的主题：

结构差异
每种算法处理类别变量的方式
了解调优参数
在数据集上具体实现
每种算法的性能对比

LightGBM和XGBoost的结构差异

LightGBM使用基于梯度的单侧采样（GOSS）技术来过滤掉用于查找拆分值的数据，而XGBoost使用预排序算法和基于直方图的算法来计算最佳拆分。

首先，让我们了解一下XGBoost预排序拆分的工作原理：

1、对于每个特征，枚举所有取值
2、对于每个特征，按值对数据进行排序
3、使用线性扫描确定以该特征的信息增益的最佳分割
4、在所有特征上采取最佳的分割方案
lightGBM基于直方图拆分的工作原理：
简单来说，基于直方图的算法将特征的所有取值进行分箱，数据被拆分为离散柱，并使用这些条柱来查找直方图的分割值。因此大大减小了最佳分割点的可能取值，也就是说不用把特征的每个取值都来计算信息增益，只用在离散后的分割点处计算信息增益即可，这也是分箱的精髓。
每个虽然在训练速度上，基于直方图拆分比预排序算法更有效，它枚举了预先排序的特征值上所有可能的分割点，但在速度方面仍然落后于GOSS。

那么，是什么让这种GOSS方法变得高效呢？
在AdaBoost中，样品重量是样品重要性的良好指标。然而，在梯度提升决策树（GBDT）中，没有原生样本权重，因此不能直接应用AdaBoost的采样方法。只能基于梯度的采样。

梯度表示损失函数正切的斜率，因此从逻辑上讲，如果数据点的梯度在某种意义上很大，则这些点对于找到最佳分割点非常重要，因为它们具有更高的误差。更能帮助损失函数到达最优点。

GOSS 保留所有梯度较大的实例数据，并对梯度较小的实例执行随机抽样。例如，假设我有 500K 行数据，其中 10k 行具有较高的梯度。所以我的算法会选择（10k行的较高梯度+ 剩余490k行的x%随机选择）。假设 x 为 10%，则选择的总行数为 500K 中的 59k，如果找到拆分值，则基于该值。注意，这里随机选取的10%的数据的权重会人为增大9倍，这样才能保证原始数据中，数据的分布一致，不然这样采样会改变原始的数据分布。这点需要理解。

这里采取的基本假设是，具有小梯度的训练实例的样本具有较小的训练误差，并且已经训练有素。
为了保持相同的数据分布，在计算信息增益时，GOSS为梯度较小的数据实例引入了常数乘数。因此，GOSS在减少数据实例数量和保持学习决策树的准确性之间实现了良好的平衡。

具有较高梯度/误差的叶子用于在LGBM中进一步生长，LGBM是leaf-wise的形式增长树。

每个模型如何处理分类变量？

CatBoost

CatBoost 最大的优势是：对于离散特征特别多的数据，效果比较好，可以灵活地提供分类列（cat_features）的索引，以便可以使用one_hot_max_size将其编码为单热编码（对具有不同值数小于或等于给定参数值的所有要素使用独热编码）。
如果您没有cat_features参数中传递任何内容，CatBoost 会将所有列视为数值变量。此时效果可能不是很好。

注：如果cat_features中未提供具有字符串值的列，CatBoost 将引发错误。此外，默认情况下，具有默认int类型的列将被视为数字，必须在cat_features中指定它以使算法将其视为分类。

这里cat_features=[0,1,2]表示输入的特征数据中，第1，2,3列数据是离散特征数据，而没有指定的4,5，6列数据就是数值型特征。
对于类别的唯一数量大于 one_hot_max_size 的其余分类列（也就是离散特征取值大于one_hot_max_size ，用onehot编码则维度增加特别高，比如‘’民族‘’特征有56个，onehot编码后，就有56维，计算量一下暴增。），CatBoost 使用一种有效的编码方法，该方法类似于平均编码，但可减少过度拟合。这个过程是这样的：

1、以随机顺序排列输入观测值集。也就是对数据进行重排序。生成多个随机排列

这里理解一下为什么要对数据进行随机重排序？因为catboost采用的编码方式和数据的先后顺序有关，所以把数据打乱后，会得到多份编码不同的数据，这个有点“数据增强”的意思。比如图片我们旋转后会得到不同的数据，catboost随机打乱数据，就有点异曲同工。
比如从一个高斯分布中采样得到3个点a=0.1，b=-0.2，c=0.3。如果不区分数据顺序，那么这就是一次采样，而如果采用catboost，随机排列，会出现[a,b,c],[b.a,c],[b,c,a],[a,c,b]等等3！=6份数据，相当于做了6次不同的采样，所以比起不考虑顺序的1次采样，catboost进行了数据增强，相当于同一个分布，采样了6次，这样catboost的精度以及过拟合都会有所提高。
这个技巧比较巧妙。

2、将标签值从浮点或类别转换为整数
3、使用以下公式将所有分类要素值转换为数值：
其中，CountInClass 是具有和当前待编码的数据的特征值相同的数据，并且标签值等于“1”的次数， Prior 是分子的初步值，它由起始参数确定。TotalCount 是具有与当前特征值一样的数据的总数（截至当前对象。）

这里用一个示例解释一下，我们设 Prior =0.5.我们对第6行数据进行编码。

TotalCount就是性别为男的数据，并且在待编码行（第六行）之前的数据，一共3条，分别是记录（2、4、5）。CountInClass 是之前特征为男性，并且标签为1的数据，就只有一行，就是第5行、所以TotalCount=3，CountInClass =1。
带入avg_target=（1+0.5）/(3+1)=0.375，因此，第六行的男这个值，会被替换为0.375。
在数学上，这可以用下面的等式来表示：

LightGBM

与CatBoost类似，LightGBM也可以通过输入特征名称来处理分类特征。它不会转换为独热编码，并且比独热编码快得多。LGBM使用特殊算法来查找分类特征的分割值

注：在为 LGBM 构造数据集之前，应将分类要素转换为 int 类型。它不接受字符串值，即使您通过categorical_feature参数传递字符串值也是如此。

XGBoost

与CatBoost或LGBM不同，XGBoost本身无法处理分类特征，它只接受类似于随机森林的数值。因此，在向 XGBoost 提供分类数据之前，必须执行各种编码，如标签编码、平均编码或单热编码。

超参数中的相似性

所有这些模型都有很多参数需要调整，但我们只介绍重要的参数。以下是这些参数根据其功能和不同型号的对应参数的列表。

数据集上的实现

我使用2015年航班延误的Kaggle数据集，因为它具有分类和数值特征。该数据集大约有 500 万行，将有利于判断每种类型增压的调优模型的速度和准确性的性能。我将采样使用此数据的10%子集〜500k行。不然训练太慢。
以下是用于建模的特征：

月、日、DAY_OF_WEEK：数据类型 int
航空公司和FLIGHT_NUMBER：数据类型 int
ORIGIN_AIRPORT和DESTINATION_AIRPORT：数据类型字符串
DEPARTURE_TIME：数据类型浮点型
ARRIVAL_DELAY：这将是目标，并转换为布尔变量，指示延迟超过 10 分钟
距离和AIR_TIME：数据类型浮点型

数据预处理

import pandas as pd, numpy as np, time
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn import metrics

data = pd.read_csv('flights.csv')
data = data.sample(frac=0.1, random_state=10)
print(data.columns)

data = data[["MONTH", "DAY", "DAY_OF_WEEK", "AIRLINE", "FLIGHT_NUMBER", "DESTINATION_AIRPORT",
             "ORIGIN_AIRPORT", "AIR_TIME", "DEPARTURE_TIME", "DISTANCE", "ARRIVAL_DELAY"]]

print(data.head(5))

data.dropna(inplace=True)
print(data.head(5))

data["ARRIVAL_DELAY"] = (data["ARRIVAL_DELAY"] > 10) * 1

cols = ["AIRLINE", "FLIGHT_NUMBER", "DESTINATION_AIRPORT", "ORIGIN_AIRPORT"]
for item in cols:
    data[item] = data[item].astype("category").cat.codes +1

train, test, y_train, y_test = train_test_split(data.drop(["ARRIVAL_DELAY"], axis=1), data["ARRIVAL_DELAY"],
                                                random_state=10, test_size=0.25)

XGBoost

import xgboost as xgb

def auc(m, train, test):
    return (metrics.roc_auc_score(y_train,m.predict_proba(train)[:,1]),
                            metrics.roc_auc_score(y_test,m.predict_proba(test)[:,1]))


# Parameter Tuning
model = xgb.XGBClassifier(tree_method='gpu_hist', gpu_id=0)
param_dist = {"max_depth": [10,20,30],
              "min_child_weight" : [1,3],
              "n_estimators": [200],
              "learning_rate": [0.05, 0.1,0.5],}
grid_search = GridSearchCV(model, param_grid=param_dist, cv = 3,
                                   verbose=10, n_jobs=-1)
grid_search.fit(train, y_train)

print(grid_search.best_estimator_)

model = xgb.XGBClassifier(max_depth=20, min_child_weight=3,  n_estimators=200,\
                          n_jobs=-1 , verbose=1,learning_rate=0.1
                          ,tree_method='gpu_hist', gpu_id=0)
model.fit(train,y_train,verbose=10)

print('xgboost model score')
print(auc(model, train, test))
#xgboost model score (0.9999815408046491, 0.7848942647211888)

xgboost model score (0.9999815408046491, 0.7848942647211888)

LGBM

import lightgbm as lgb
from sklearn import metrics


def auc2(m, train, test):
    return (metrics.roc_auc_score(y_train, m.predict(train)),
            metrics.roc_auc_score(y_test, m.predict(test)))


lg = lgb.LGBMClassifier(verbose=1
                        ,device_type ='gpu')
param_dist = {"max_depth": [25,50, 75],
              "learning_rate" : [0.01,0.05,0.1],
              "num_leaves": [300,900,1200],
              "num_iterations": [200]
             }
grid_search = GridSearchCV(lg, n_jobs=-1, param_grid=param_dist, cv = 3, scoring="roc_auc", verbose=5)
grid_search.fit(train,y_train)
print('LGBMClassifier best_estimator:',grid_search.best_estimator_)

d_train = lgb.Dataset(train, label=y_train, free_raw_data=False)
# END learning_rate=0.05, max_depth=25, num_iterations=200, num_leaves=1200;, score=0.772 total time=10.6min
params = {"max_depth": 25, "learning_rate": 0.05, "num_leaves": 1200, "num_iterations": 200,
          # 'device': "gpu",'gpu_device_id': 1,
          #   'gpu_platform_id': 1,
          #   'gpu_use_dp': 'false',
          #   'max_bin': 252,
          #   'num_gpu':1
          }

# Without Categorical Features
model2 = lgb.train(params, d_train)
print('lightGBM Without Categorical Features:', auc2(model2, train, test))
# lightGBM Without Categorical Features: (0.9820454074519167, 0.7842988189129978)

# With Catgeorical Features
cate_features_name = ["MONTH", "DAY", "DAY_OF_WEEK", "AIRLINE", "DESTINATION_AIRPORT",
                      "ORIGIN_AIRPORT"]
model2 = lgb.train(params, d_train, categorical_feature=cate_features_name)
print('lightGBM With Categorical Features:', auc2(model2, train, test))
# lightGBM With Categorical Features: (0.9849578833000501, 0.7765037053711114)

lightGBM Without Categorical Features: (0.9820454074519167, 0.7842988189129978)

catboost

在调整 CatBoost 的参数时，很难传递分类特征的索引。因此，我在不传递分类特征的情况下调整了参数，并评估了两个模型 :一个具有分类特征，另一个区分没有类别特征。我单独调整了one_hot_max_size，因为它不会影响其他参数。

import catboost

cat_features_index = [0, 1, 2, 3, 4, 5, 6]


def auc(m, train, test):
    return (metrics.roc_auc_score(y_train, m.predict_proba(train)[:, 1]),
            metrics.roc_auc_score(y_test, m.predict_proba(test)[:, 1]))


params = {'depth': [7, 10,13],
          'learning_rate': [0.03, 0.15, 0.2],
          'l2_leaf_reg': [1, 4, 7],
          'iterations': [300,500]}
cb = catboost.CatBoostClassifier(task_type="GPU",
                           devices='0')
cb_model = GridSearchCV(cb, params, scoring="roc_auc", cv=3)
cb_model.fit(train, y_train)
print('CatBoostClassifier best_estimator:',cb_model.best_estimator_)
print('CatBoostClassifier best_params_:',cb_model.best_params_)

# With Categorical features
clf = catboost.CatBoostClassifier(eval_metric="AUC", depth=10, iterations=500, l2_leaf_reg=9, learning_rate=0.15
                            , task_type="GPU", devices='0')
clf.fit(train, y_train,plot=True)
print('CatBoostClassifier Without Categorical Features:', auc(clf, train, test))
# CatBoostClassifier Without Categorical Features: (0.8411768106404672, 0.7571423657177548)

# With Categorical features
clf = catboost.CatBoostClassifier(eval_metric="AUC", one_hot_max_size=31, \
                            depth=10, iterations=300, l2_leaf_reg=4, learning_rate=0.15
                            , task_type="GPU", devices='0')
clf.fit(train, y_train, cat_features=cat_features_index,plot=True)
print('CatBoostClassifier With Categorical Features:', auc(clf, train, test))
# CatBoostClassifier With Categorical Features: (0.881573635663068, 0.8129717796545255)

结果

总结

为了评估模型，我们应该从速度和精度的角度来研究模型的性能。

牢记这一点，CatBoost在测试集上以最大的精度（0.816），最小的过拟合（训练和测试精度都接近），以及最小的预测时间和调整时间成为赢家。但这仅仅是因为我们考虑了分类变量并调整了one_hot_max_size。如果我们不利用CatBoost的这些功能，它的表现最差，准确度仅为0.752。因此，我们了解到，只有当数据中有分类变量并正确调整它们时，CatBoost才会表现良好。

我们的下一个表演者是XGBoost，通常效果很好。它的准确性非常接近CatBoost，即使忽略了我们在数据中有分类变量的事实，我们已经将其转换为数值以供其使用。但是，XGBoost的唯一问题是它太慢了。特别是调整其参数真的很令人沮丧（我花了6个小时来运行GridSearchCV - 非常糟糕的主意！更好的方法是单独调整参数，而不是使用GridSearchCV。
提示：使用GPU可能会所有加快，默认算法使用cpu，因此本论文在原作者上改进使用GPU，会快不少。但目前lgbm不支持cuda，无法使用英伟达的显卡加速。

最后，最后一个地方是Light GBM。这里需要注意的一件重要事情是，当使用cat_features时，它在速度和准确性方面表现不佳。我相信它表现不佳的原因是因为它对分类数据使用了某种修改的均值编码，导致过度拟合（训练精度相当高 - 与测试精度相比为0.999）。然而，如果我们像XGBoost一样正常使用它，它可以达到与XGBoost（LGBM - 0.785，XGBoost- 0.789）更快的速度相似的精度。

最后，我不得不说，这些观察结果对于这个特定的数据集是正确的，对于其他数据集可能有效，也可能不有效。但是，有一件事是正确的，那就是：XGBoost比其他两种算法慢。

那么你最喜欢哪一个呢？请评论原因。
任何反馈或改进建议将不胜感激！

参考文献

原始论文
lightGBM 参数
数据集
xgboost参数

全部代码

import matplotlib.pyplot as plt
import pandas as pd, numpy as np, time
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn import metrics

data = pd.read_csv('flights.csv')
print('data.shape:',data.shape)
data = data.sample(frac=0.1, random_state=10)
print('after sample data.shape:',data.shape)
print(data.columns)

data = data[["MONTH", "DAY", "DAY_OF_WEEK", "AIRLINE", "FLIGHT_NUMBER", "DESTINATION_AIRPORT",
             "ORIGIN_AIRPORT", "AIR_TIME", "DEPARTURE_TIME", "DISTANCE", "ARRIVAL_DELAY"]]

print(data.head(5))

data.dropna(inplace=True)
print(data.head(5))

data["ARRIVAL_DELAY"] = (data["ARRIVAL_DELAY"] > 10) * 1

cols = ["AIRLINE", "FLIGHT_NUMBER", "DESTINATION_AIRPORT", "ORIGIN_AIRPORT"]
for item in cols:
    data[item] = data[item].astype("category").cat.codes + 1

train, test, y_train, y_test = train_test_split(data.drop(["ARRIVAL_DELAY"], axis=1), data["ARRIVAL_DELAY"],
                                                random_state=10, test_size=0.25)

import xgboost as xgb
### https://xgboost.readthedocs.io/en/stable/parameter.html

def auc(m, train, test):
    return (metrics.roc_auc_score(y_train, m.predict_proba(train)[:, 1]),
            metrics.roc_auc_score(y_test, m.predict_proba(test)[:, 1]))


# # Parameter Tuning
# model = xgb.XGBClassifier(tree_method='gpu_hist', gpu_id=0)
# param_dist = {"max_depth": [10,20,30],
#               "min_child_weight" : [1,3],
#               # "n_estimators": [200,500],
#               "subsample":[0.8,0.9,1],
#               "lambda":[3,6,9],
#               "alpha":[3,6],
#               # "learning_rate": [0.05, 0.1,0.5],
#                "learning_rate": [0.1],
#               }
# grid_search = GridSearchCV(model, param_grid=param_dist, cv = 3,
#                                    verbose=10, n_jobs=-1)
# grid_search.fit(train, y_train)
# print('XGBClassifier best_params_:', grid_search.best_params_)
# # alpha=3, lambda=3, learning_rate=0.1, max_depth=20, min_child_weight=1,
# # subsample=0.8;, score=0.810 total time=38.6min



model = xgb.XGBClassifier(max_depth=20, min_child_weight=3,  n_estimators=1000,learning_rate=0.05,
                          reg_lambda=1, alpha=1,
                           # subsample=0.8,
                          n_jobs=-1, verbose=10,
                          tree_method='gpu_hist', gpu_id=0)
model.fit(train,y_train,verbose=10)

print('xgboost model score:',auc(model, train, test))
#xgboost model score (0.9999999975811984, 0.7899954118937722)
#20% xgboost model score: (0.9999985093055754, 0.8220708882482494)


import lightgbm as lgb
## https://lightgbm.readthedocs.io/en/latest/Parameters-Tuning.html
def auc2(m, train, test):
    return (metrics.roc_auc_score(y_train, m.predict(train)),
            metrics.roc_auc_score(y_test, m.predict(test)))


# lg = lgb.LGBMClassifier(verbose=0,
#                         learning_rate=0.5,
#                         device_type='gpu',gpu_device_id= 0,gpu_platform_id=0,gpu_use_dp='false')
# param_dist = {
#     "max_depth": [25, 50, 75],
#     #           "learning_rate": [0.01, 0.05, 0.1],
#               "num_leaves": [100,300, 900],
#     #           "num_iterations": [200,500],
#     #           "feature_fraction": [0.7,0.8, 0.9, 1.0],
#     #           "bagging_fraction": [0,7,0.8, 0.9, 1.0],
#     # LGBMClassifier best_params_: {'bagging_fraction': 0.8, 'feature_fraction': 1.0}
#             'bagging_fraction': [0.8], 'feature_fraction': [1.0],
#
#               # "lambda_l1": [0, 3, 6, 9],
#               # "lambda_l2": [0, 3, 6],
#     # LGBMClassifier best_params_: {'lambda_l1': 6, 'lambda_l2': 3, 'num_iterations': 500}
#             'lambda_l1': [6], 'lambda_l2': [3], 'num_iterations': [500],
#     # LGBMClassifier best_params_: {'bagging_fraction': 0.8, 'feature_fraction': 1.0,
#     # 'lambda_l1': 6, 'lambda_l2': 3, 'max_depth': 75, 'num_iterations': 500, 'num_leaves': 300}
#               }
# grid_search = GridSearchCV(lg, n_jobs=-1, param_grid=param_dist, cv=3, scoring="roc_auc", verbose=1)
# grid_search.fit(train, y_train)
# print('LGBMClassifier best_estimator:', grid_search.best_estimator_)
# print('LGBMClassifier best_params_:', grid_search.best_params_)
# # learning_rate=0.05, max_depth=50, num_iterations=200, num_leaves=300;, score=0.763 total time= 3.1min

d_train = lgb.Dataset(train, label=y_train, free_raw_data=False)
# END learning_rate=0.05, max_depth=25, num_iterations=200, num_leaves=1200;, score=0.772 total time=10.6min
params = {"max_depth": 75, "learning_rate": 0.1, "num_leaves": 300,
          'lambda_l1': 6, 'lambda_l2': 3, 'num_iterations': 2000,
          'bagging_fraction': 0.8, 'feature_fraction': 1.0,
          # 'device': "gpu", 'gpu_device_id': 1,
          # 'gpu_platform_id': 1,
          # 'gpu_use_dp': 'false',
          # 'max_bin': 252,
          # 'num_gpu': 2
          }

# Without Categorical Features
model2 = lgb.train(params, d_train)
print('lightGBM Without Categorical Features:', auc2(model2, train, test))
# lightGBM Without Categorical Features: (0.9832532745589256, 0.7892403986379332)
#
# With Catgeorical Features
cate_features_name = ["MONTH", "DAY", "DAY_OF_WEEK", "AIRLINE", "DESTINATION_AIRPORT",
                      "ORIGIN_AIRPORT"]
model2 = lgb.train(params, d_train, categorical_feature=cate_features_name)
print('lightGBM With Categorical Features:', auc2(model2, train, test))
# lightGBM With Categorical Features: (0.9849578833000501, 0.7765037053711114)

import catboost

cat_features_index = [0, 1, 2, 3, 4, 5, 6]


def auc(m, train, test):
    return (metrics.roc_auc_score(y_train, m.predict_proba(train)[:, 1]),
            metrics.roc_auc_score(y_test, m.predict_proba(test)[:, 1]))

#
# # params = {'depth': [7, 10,13],
# #           'learning_rate': [0.03, 0.15, 0.2],
# #           'l2_leaf_reg': [1, 4, 7],
# #           'iterations': [300,500]}
# # cb = catboost.CatBoostClassifier(task_type="GPU",
# #                            devices='0')
# # cb_model = GridSearchCV(cb, params, scoring="roc_auc", cv=3)
# # cb_model.fit(train, y_train)
# # print('CatBoostClassifier best_estimator:',cb_model.best_estimator_)
# # print('CatBoostClassifier best_params_:',cb_model.best_params_)
#
# With Categorical features
clf = catboost.CatBoostClassifier(eval_metric="AUC", depth=10, iterations=500, l2_leaf_reg=4, learning_rate=0.15
                            , task_type="GPU", devices='0')
clf.fit(train, y_train,plot=True)
print('CatBoostClassifier Without Categorical Features:', auc(clf, train, test))
# CatBoostClassifier Without Categorical Features: (0.8411768106404672, 0.7571423657177548)
# 20% CatBoostClassifier Without Categorical Features: (0.8125473336833896, 0.767777462764133)

# With Categorical features
clf = catboost.CatBoostClassifier(eval_metric="AUC", one_hot_max_size=31, \
                            depth=10, iterations=500, l2_leaf_reg=4, learning_rate=0.15
                            , task_type="GPU", devices='0')
clf.fit(train, y_train, cat_features=cat_features_index,plot=True)
print('CatBoostClassifier With Categorical Features:', auc(clf, train, test))
plt.show()
# CatBoostClassifier With Categorical Features: (0.881573635663068, 0.8129717796545255)
# CatBoostClassifier With Categorical Features: (0.8969051893380249, 0.8243120308981184)
# 20% CatBoostClassifier With Categorical Features: (0.8942350930660874, 0.8478804417411229)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
如何用ruby来写hadoop的mapreduce并生成jar包 wudixiaotie mapreduce
ruby来写hadoop的mapreduce，我用的方法是rubydoop。怎么配置环境呢： 1.安装rvm：不说了网上有 2.安装ruby：由于我以前是做ruby的，所以习惯性的先安装了ruby，起码调试起来比jruby快多了。 3.安装jruby： rvm install jruby然后等待安
java编程思想 -- 访问控制权限百合不是茶 java 访问控制权限单例模式
访问权限是java中一个比较中要的知识点,它规定者什么方法可以访问,什么不可以访问一:包访问权限; 自定义包: package com.wj.control; //包 public class Demo { //定义一个无参的方法 public void DemoPackage(){ System.out.println("调用
[生物与医学]请审慎食用小龙虾 comsci 生物
现在的餐馆里面出售的小龙虾,有一些是在野外捕捉的,这些小龙虾身体里面可能带有某些病毒和细菌,人食用以后可能会导致一些疾病,严重的甚至会死亡..... 所以,参加聚餐的时候,最好不要点小龙虾...就吃养殖的猪肉,牛肉,羊肉和鱼,等动物蛋白质
org.apache.jasper.JasperException: Unable to compile class for JSP: 商人shang maven 2.2 jdk1.8
环境： jdk1.8 maven tomcat7-maven-plugin 2.0 原因： tomcat7-maven-plugin 2.0 不知吃 jdk 1.8，换成 tomcat7-maven-plugin 2.2就行，即 <plugin>
你的垃圾你处理掉了吗?GC oloz GC
前序:本人菜鸟，此文研究学习来自网络，各位牛牛多指教　 1.垃圾收集算法的核心思想　　Java语言建立了垃圾收集机制，用以跟踪正在使用的对象和发现并回收不再使用(引用)的对象。该机制可以有效防范动态内存分配中可能发生的两个危险：因内存垃圾过多而引发的内存耗尽，以及不恰当的内存释放所造成的内存非法引用。　　垃圾收集算法的核心思想是：对虚拟机可用内存空间，即堆空间中的对象进行识别
shiro 和 SESSSION 杨白白 shiro
shiro 在web项目里默认使用的是web容器提供的session，也就是说shiro使用的session是web容器产生的，并不是自己产生的，在用于非web环境时可用其他来源代替。在web工程启动的时候它就和容器绑定在了一起，这是通过web.xml里面的shiroFilter实现的。通过session.getSession()方法会在浏览器cokkice产生JESSIONID，当关闭浏览器，此
移动互联网终端淘宝客如何实现盈利小桔子移動客戶端淘客淘寶App
2012年淘宝联盟平台为站长和淘宝客带来的分成收入突破30亿元，同比增长100%。而来自移动端的分成达1亿元，其中美丽说、蘑菇街、果库、口袋购物等App运营商分成近5000万元。可以看出，虽然目前阶段PC端对于淘客而言仍旧是盈利的大头，但移动端已经呈现出爆发之势。而且这个势头将随着智能终端(手机，平板)的加速普及而更加迅猛
wordpress小工具制作 aichenglong wordpress 小工具
wordpress 使用侧边栏的小工具，很方便调整页面结构小工具的制作过程 1 在自己的主题文件中新建一个文件夹(如widget)，在文件夹中创建一个php(AWP_posts-category.php) 小工具是一个类,想侧边栏一样，还得使用代码注册，他才可以再后台使用，基本的代码一层不变 <?php class AWP_Post_Category extends WP_Wi
JS微信分享 AILIKES js
// 所有功能必须包含在 WeixinApi.ready 中进行 WeixinApi.ready(function(Api) { // 微信分享的数据 var wxData = { &nb
封装探讨百合不是茶 JAVA面向对象封装
//封装属性方法将某些东西包装在一起，通过创建对象或使用静态的方法来调用，称为封装；封装其实就是有选择性地公开或隐藏某些信息，它解决了数据的安全性问题，增加代码的可读性和可维护性在 Aname类中申明三个属性，将其封装在一个类中：通过对象来调用例如 1： //属性将其设为私有姓名 name 可以公开
jquery radio/checkbox change事件不能触发的问题 bijian1013 JavaScript jquery
我想让radio来控制当前我选择的是机动车还是特种车，如下所示： <html> <head> <script src="http://ajax.googleapis.com/ajax/libs/jquery/1.7.1/jquery.min.js" type="text/javascript"><
AngularJS中安全性措施 bijian1013 JavaScript AngularJS 安全性 XSRF JSON漏洞
在使用web应用中，安全性是应该首要考虑的一个问题。AngularJS提供了一些辅助机制，用来防护来自两个常见攻击方向的网络攻击。一.JSON漏洞当使用一个GET请求获取JSON数组信息的时候（尤其是当这一信息非常敏感，
[Maven学习笔记九]Maven发布web项目 bit1129 maven
基于Maven的web项目的标准项目结构 user-project user-core user-service user-web src
【Hive七】Hive用户自定义聚合函数(UDAF) bit1129 hive
用户自定义聚合函数，用户提供的多个入参通过聚合计算(求和、求最大值、求最小值)得到一个聚合计算结果的函数。问题：UDF也可以提供输入多个参数然后输出一个结果的运算，比如加法运算add(3，5)，add这个UDF需要实现UDF的evaluate方法,那么UDF和UDAF的实质分别究竟是什么？ Double evaluate(Double a, Double b)
通过 nginx-lua 给 Nginx 增加 OAuth 支持 ronin47
前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGeek 在过去几年中取得了发展，我们已经积累了不少针对各种任务的不同管理接口。我们通常为新的展示需求创建新模块，比如我们自己的博客、图表等。我们还定期开发内部工具来处理诸如部署、可视化操作及事件处理等事务。在处理这些事务中，我们使用了几个不同的接口来认证： &n
利用tomcat-redis-session-manager做session同步时自定义类对象属性保存不上的解决方法 bsr1983 session
在利用tomcat-redis-session-manager做session同步时，遇到了在session保存一个自定义对象时，修改该对象中的某个属性，session未进行序列化，属性没有被存储到redis中。在 tomcat-redis-session-manager的github上有如下说明： Session Change Tracking As noted in the &qu
《代码大全》表驱动法-Table Driven Approach-1 bylijinnan java 算法
关于Table Driven Approach的一篇非常好的文章： http://www.codeproject.com/Articles/42732/Table-driven-Approach package com.ljn.base; import java.util.Random; public class TableDriven { public
Sybase封锁原理 chicony Sybase
昨天在操作Sybase IQ12.7时意外操作造成了数据库表锁定，不能删除被锁定表数据也不能往其中写入数据。由于着急往该表抽入数据，因此立马着手解决该表的解锁问题。无奈此前没有接触过Sybase IQ12.7这套数据库产品，加之当时已属于下班时间无法求助于支持人员支持，因此只有借助搜索引擎强大的
java异常处理机制 CrazyMizzz java
java异常关键字有以下几个，分别为 try catch final throw throws 他们的定义分别为 try： Opening exception-handling statement. catch： Captures the exception. finally： Runs its code before terminating
hive 数据插入DML语法汇总 daizj hive DML 数据插入
Hive的数据插入DML语法汇总1、Loading files into tables语法：1) LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]解释：1)、上面命令执行环境为hive客户端环境下： hive>l
工厂设计模式 dcj3sjt126com 设计模式
使用设计模式是促进最佳实践和良好设计的好办法。设计模式可以提供针对常见的编程问题的灵活的解决方案。工厂模式工厂模式（Factory）允许你在代码执行时实例化对象。它之所以被称为工厂模式是因为它负责“生产”对象。工厂方法的参数是你要生成的对象对应的类名称。 Example #1 调用工厂方法（带参数） <?phpclass Example{
mysql字符串查找函数 dcj3sjt126com mysql
FIND_IN_SET(str,strlist) 假如字符串str 在由N 子链组成的字符串列表strlist 中，则返回值的范围在1到 N 之间。一个字符串列表就是一个由一些被‘,’符号分开的自链组成的字符串。如果第一个参数是一个常数字符串，而第二个是type SET列，则 FIND_IN_SET() 函数被优化，使用比特计算。如果str不在strlist 或st
jvm内存管理 easterfly jvm
一、JVM堆内存的划分分为年轻代和年老代。年轻代又分为三部分：一个eden,两个survivor。工作过程是这样的：e区空间满了后，执行minor gc，存活下来的对象放入s0, 对s0仍会进行minor gc，存活下来的的对象放入s1中，对s1同样执行minor gc，依旧存活的对象就放入年老代中；年老代满了之后会执行major gc，这个是stop the word模式，执行
CentOS-6.3安装配置JDK-8 gengzg centos
JAVA_HOME=/usr/java/jdk1.8.0_45 JRE_HOME=/usr/java/jdk1.8.0_45/jre PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib export JAVA_HOME
【转】关于web路径的获取方法 huangyc1210 Web 路径
假定你的web application 名称为news,你在浏览器中输入请求路径： http://localhost:8080/news/main/list.jsp 则执行下面向行代码后打印出如下结果： 1、 System.out.println(request.getContextPath()); //可返回站点的根路径。也就是项
php里获取第一个中文首字母并排序远去的渡口数据结构 PHP
很久没来更新博客了，还是觉得工作需要多总结的好。今天来更新一个自己认为比较有成就的问题吧。最近在做储值结算，需求里结算首页需要按门店的首字母A-Z排序。我的数据结构原本是这样的： Array ( [0] => Array ( [sid] => 2885842 [recetcstoredpay] =&g
java内部类 hm4123660 java 内部类匿名内部类成员内部类方法内部类
　在Java中，可以将一个类定义在另一个类里面或者一个方法里面，这样的类称为内部类。内部类仍然是一个独立的类，在编译之后内部类会被编译成独立的.class文件，但是前面冠以外部类的类名和$符号。内部类可以间接解决多继承问题,可以使用内部类继承一个类，外部类继承一个类，实现多继承。 &nb
Caused by: java.lang.IncompatibleClassChangeError: class org.hibernate.cfg.Exten zhb8015
maven pom.xml关于hibernate的配置和异常信息如下，查了好多资料，问题还是没有解决。只知道是包冲突，就是不知道是哪个包....遇到这个问题的分享下是怎么解决的。。 maven pom: <dependency> <groupId>org.hibernate</groupId> <ar
Spark 性能相关参数配置详解－任务调度篇 Stark_Summer spark cache cpu 任务调度 yarn
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。由于篇幅较长，所以在这里分篇组织，如果要看最新完整的网页版内容，可以戳这里：http://spark-config.readthedocs.org/，主要是便
css3滤镜 wangkeheng html css
经常看到一些网站的底部有一些灰色的图标，鼠标移入的时候会变亮，开始以为是js操作src或者bg呢，搜索了一下，发现了一个更好的方法：通过css3的滤镜方法。 html代码： <a href='' class='icon'><img src='utv.jpg' /></a> css代码： .icon{-webkit-filter: graysc

CatBoost 和 Light GBM 和 XGBoost 使用GPU训练对比

CatBoost 和 Light GBM 和 XGBoost

学习目标：

学习内容：

LightGBM和XGBoost的结构差异

每个模型如何处理分类变量？

CatBoost

LightGBM

XGBoost

超参数中的相似性

数据集上的实现

数据预处理

XGBoost

LGBM

catboost

结果

总结

参考文献

全部代码

你可能感兴趣的:(机器学习,算法,数据分析,算法,机器学习,python)