风度78

【机器学习】深度剖析 LightGBM vs XGBOOST 哪个更胜一筹

今天就 LightGBM 和 XGBOOST 放在一起对比学习下，以便加深印象。

写在前面

作为一个机器学习研习者，大概会了解 Boosting Machines 及其功能。Boosting Machines 的发展从 AdaBoost 开始，发展到一度很受欢迎的 XGBOOST，因其非常强大而成为在 Kaggle 上赢得比赛的常用算法。但在大量的数据的情况下，XGBOOST 也需要很长时间来训练。

另外一个强大的集成算法 Light Gradient Boosting，他是一种怎样的提升机器算法？是否优于 XGBOOST？这是很多初学者在刚接触这两个算法时，通常是比较迷茫的。

接下来我们就来一起研习 LightGBM 相关问题。并深度对比分析它与XGBOOST的优劣。

【机器学习】深度剖析 LightGBM vs XGBOOST 哪个更胜一筹_第1张图片

01 什么是LightGBM

LightGBM 是一种基于决策树算法的快速、分布式、高性能梯度提升框架，用于排序、分类和许多其他机器学习任务。

虽然它同样是基于决策树算法，而它以最佳拟合方式分割树的叶子，而其他提升算法则是按深度或级别而不是按叶分割树。因此，当在 LightGBM 中的同一片叶子上生长时，leaf-wise 算法比 level-wise 算法在计算损失时将减少的更多，从而达到更好的精度，这是任何现有的 boosting 算法都很难实现的。此外，它的速度非常快，这也是 "light "这个词的由来。

下面是 LightGBM 和 XGBOOST 的树模型生长的示意图，从图中可以清楚地看到它们之间的差异。

【机器学习】深度剖析 LightGBM vs XGBOOST 哪个更胜一筹_第2张图片

XGBOOST 中的 level-wise 树生长。

【机器学习】深度剖析 LightGBM vs XGBOOST 哪个更胜一筹_第3张图片

LightGBM 中的leaf-wise 的树生长。

虽然逐叶拆分会导致复杂性增加，并可能导致过度拟合，但可以通过调整参数 max-depth 来克服该问题，该参数设定树叶子节点将发生拆分的深度。

02 安装 Light GBM

下面，我们一起安装 LightGBM 及使用其建立模型的步骤。我们会将其得到的结果与 XGBOOST 的结果进行比较，这样可以对 LightGBM 模型理解更加深刻。

Windows

事先安装 git for windows^[1] , cmake^[2]

git clone --recursive https://github.com/Microsoft/LightGBM
cd LightGBM
mkdir build
cd build
cmake -DCMAKE_GENERATOR_PLATFORM=x64 ..
cmake --build . --target ALL_BUILD --config Release

exe 和 dll 将在 LightGBM/Release 文件夹中。

Linux

Light GBM 使用 cmake 构建。

git clone --recursive https://github.com/Microsoft/LightGBM 
cd LightGBM 
mkdir build 
cd build 
cmake .. 
make -j4

OSX

LightGBM 依赖 OpenMP 编译，Apple Clang 不支持，请改用 gcc/g++。

brew install cmake 
brew install gcc --without-multilib 
git clone --recursive https://github.com/Microsoft/LightGBM 
cd LightGBM 
mkdir build 
cd build 
cmake .. 
make -j4

03 XGBOOST 优势

这种算法在预测模型中引入了提升能力。当我们继续深入探索其高精度背后机制时，会发现不少优点：

引入正则化

标准的 GBM 实现没有像 XGBOOST 那样的正则化，因此它也有助于减少过拟合。

XGBOOST 也被称为 "正则化提升" 技术。

并行处理

XGBOOST 实现了并行处理，并且与 GBM 相比速度要快得多。

XGBOOST 还支持在 Hadoop 上实现。

高灵活性

XGBOOST 允许用户定义自定义优化目标和评估标准，这使得模型的限制更小。

处理缺失值

XGBOOST 有一个内置的方法来处理缺失值。并且可以通过提供与其他观察不同的值并将其作为参数传递，以此处理缺失值。

树剪枝

当一个 GBM 在分裂中遇到负损失时，它会停止分裂一个节点。因此它更像是一种贪心算法。

另一方面，XGBOOST 使树分裂达到指定的 max_depth，然后开始向后修剪树并移除没有正增益的分枝。

另一个优点是，有时负损失的拆分可能会跟随正损失的拆分 +10。GBM 会在遇到 -2 时停止。但是 XGBOOST 会更深入，它将看到分裂的 +8 的组合效果并保留两者。

内置交叉验证

XGBOOST 允许在提升过程的每次迭代中运行交叉验证，因此很容易在单次运行中获得准确的最佳提升迭代次数。

这与 GBM 不同，在 GBM 中必须运行网格搜索并且只能测试有限的值。

继续现有模型

用户可以从上次运行的最后一次迭代开始训练 XGBOOST 模型。这在某些特定应用中可能具有显着优势。

04 LightGBM 的优势

更快的训练速度和更高的效率

LightGBM 使用基于直方图的算法（如HGBT），即将连续的特征值存储到离散的 bin 中，从而加快了训练过程。

较低的内存使用量

将连续值替换为离散的 bin，从而降低内存使用量。

比其他 boosting 算法准确性更好

它通过遵循叶方式拆分方法而不是级别方法生成更复杂的树，这是实现更高准确性的主要因素。然而，它有时会导致过度拟合，这可以通过设置 max_depth 参数来避免。

与大型数据集的兼容性

与 XGBOOST 相比，在 大型数据集 上表现更加出色。因为其支持并行学习，显著减少训练时间。

05 LightGBM的参数

在开始构建第一个 LightGBM 模型之前，我们先一起看看 LightGBM 的一些重要参数，以便更好地了解其底层逻辑。

task：value = train，options = train，prediction。指定我们希望执行的任务是训练还是预测。
application：default=regression，type=enum，options=options
- regression：执行回归任务
- binary : 二元分类
- multiclass：多类分类
- lambdarank : lambdarank 应用程序
data：type=string；训练数据，LightGBM 将根据这些数据进行训练。
num_iterations：default=100，type=int。要执行的 boosting 迭代次数。
num_leaves：default = 31，type=int。叶一个树的数量。
device：default= cpu；options = gpu, cpu。我们要在其上训练模型的设备。可选择 GPU 以加快训练速度。
max_depth：指定树将生长的最大深度。该参数用于处理过拟合。
min_data_in_leaf：一片叶子中的最小数据数。
feature_fraction：default =1。指定每次迭代要采用的特征分数
bagging_fraction：default = 1。指定每次迭代要使用的数据比例，通常用于加速训练并避免过度拟合。
min_gain_to_split：default = 0.1。执行分裂的最小增益。
max_bin：存储特征值的最大 bin 数量。
min_data_in_bin：一个 bin 中的最小数据数。
num_threads：default=OpenMP_default，type=int。LightGBM 的线程数。
label：type=string。指定标签列。
categorical_feature：type=string。指定我们要用于训练模型的分类特征。
num_class：default=1，type=int。仅用于多类分类。

06 调参对比

LightGBM调参的一般方法

对于基于决策树的模型，调参的方法都是大同小异。一般都需要如下步骤：

首先选择较高的学习率（大概0.1附近），以加快收敛速度；
对决策树基本参数调参，以提供模型精度；
正则化参数调参，以防止模型过拟合；
最后降低学习率，最后提高准确率。

LightGBM 使用逐叶分割而不是深度分割，这使它能够更快地收敛，但也会导致过度拟合。所以这里有一个快速指南来调整 LightGBM 中的参数。

default=

- {l2 for regression},
- {binary_logloss for binary classification},
- {ndcg for lambdarank},
- type=multi-enum,

options=l1, l2, ndcg, auc, binary_logloss, binary_error …

为了更好的拟合

num_leaves：此参数用于设置要在树中形成的叶子数。num_leaves 和 max_depth 之间的理论上关系是 num_leaves= 2^(max_depth)。然而这并不太适合 Light GBM ，因为分裂发生在叶方向而不是深度方向。因此 num_leaves 必须设置小于 2^(max_depth) ，否则可能会导致过拟合。Light GBM 在 num_leaves 和 max_depth 之间没有直接关系，因此两者不能相互关联。
min_data_in_leaf：也是处理过拟合的重要参数之一。将其值设置得较小可能会导致过拟合。大型数据集中，它的值应该是数百到数千，具体需要根据实际情况调整。
max_depth：它指定树可以生长的最大深度。

为了更快的速度

bagging_fraction：用于执行袋装以获得更快的结果
feature_fraction：设置要在每次迭代中使用的特征的分数
max_bin：较小的 max_bin 值可以节省很多时间，因为它将特征值存储在离散的容器中，计算成本较低。

为了更好的准确性

使用更大的训练数据。
num_leaves：将其设置为高值会产生更深的树，并提高准确性，但会导致过度拟合。因此，不优选其较高的值。
max_bin：将其设置为高值与增加 num_leaves 值产生的效果类似，也会减慢我们的训练过程。

XGBOOST 调参的一般方法

我们将在这里使用类似于 GBM 的方法。要执行的各个步骤是：

选择一个比较高的学习率。一般来说，0.1 的学习率是较为常用的，而根据不同的问题，学习率的选用范围一般在 0.05 到 0.3 之间。
接下来需确定此学习率的最佳集成树数。XGBOOST 有一个非常有用的函数，称为“cv”，它在每次提升迭代时执行交叉验证，从而返回所需的最佳树数。
调整特定于树的参数 （max_depth、min_child_weight、gamma、subsample、colsample_bytree）以决定学习率和树的数量。
调整正则化参数（lambda、alpha），这有助于降低模型复杂性并提高性能。
降低学习率并决定最优参数。

07 应用对比

现在我们通过将这两种算法应用于数据集，通过比较其性能优劣，以此来比较 LightGBM 和 XGBoost 两个算法。

该数据集包含来自不同国家的个人信息。其目标是根据其他可用信息预测一个人的年收入是小于或等于50k还是大于50k。该数据集由 32561 个样本和 14 个特征组成。需要数据集的读者在公众号【机器学习研习院】后台联系作者获取。

数据探索

# 导入库
import numpy as np 
import pandas as pd 
from pandas import Series, DataFrame 
import lightgbm as lgb 
import xgboost as xgb 

# 使用pandas加载我们的训练数据集'adult.csv'，名称为'data'
data=pd.read_csv('adult.csv',header=None) 

# 为列分配名称
data.columns=['age','workclass','fnlwgt','education',
              'education-num','marital_Status','occupation',
              'relationship','race','sex','capital_gain',
              'capital_loss','hours_per_week','native_country','Income'] 
data.head()

【机器学习】深度剖析 LightGBM vs XGBOOST 哪个更胜一筹_第4张图片

对目标变量进行编码

from sklearn.preprocessing import LabelEncoder,OneHotEncoder
l=LabelEncoder()
l.fit(data.Income) 
l.classes_

array([' <=50K', ' >50K'], dtype=object)

一个热编码的分类特征

one_hot_workclass=pd.get_dummies(data.workclass) 
one_hot_education=pd.get_dummies(data.education) 
one_hot_marital_Status=pd.get_dummies(data.marital_Status) 
one_hot_occupation=pd.get_dummies(data.occupation)
one_hot_relationship=pd.get_dummies(data.relationship) 
one_hot_race=pd.get_dummies(data.race) 
one_hot_sex=pd.get_dummies(data.sex) 
one_hot_native_country=pd.get_dummies(data.native_country) 

# 删除分类特征 
data.drop(['workclass','education','marital_Status',
           'occupation','relationship','race','sex',
           'native_country'],axis=1,inplace=True) 

# 与我们的数据集'data'合并一个热编码特性
data=pd.concat([data,one_hot_workclass,one_hot_education,
                one_hot_marital_Status,one_hot_occupation,
                one_hot_relationship,one_hot_race,one_hot_sex,
                one_hot_native_country],axis=1) 

# 删除dulpicate列
_, i = np.unique(data.columns, return_index=True) 
data=data.iloc[:, i] 
data

【机器学习】深度剖析 LightGBM vs XGBOOST 哪个更胜一筹_第5张图片

这里我们的目标变量是"Income"，其值为1或0。然后将数据分为特征数据集x和目标数据集y。

x=data.drop('Income', axis=1) 
y=data.Income

# 将缺失的值输入到目标变量中
y.fillna(y.mode()[0],inplace=True) 

# 现在将我们的数据集分为test和train
from sklearn.model_selection import train_test_split 
x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=.3)

XGBOOST 应用

数据存储在一个 DMatrix 对象中，参数 label 用于定义结果变量。

dtrain=xgb.DMatrix(x_train,label=y_train) 
dtest=xgb.DMatrix(x_test)
#设置xgboost
parameters={'max_depth':7, 'eta':1, 'silent':1,
        'objective':'binary:logistic',
        'eval_metric':'auc','learning_rate':.05 }
# 训练模型 
num_round=50 
from datetime import datetime 
start = datetime.now() 
xg=xgb.train(parameters,dtrain,num_round) 
stop = datetime.now()
# 模型执行时间
execution_time_xgb = stop-start 
execution_time_xgb

datetime.timedelta(seconds=3, 
          microseconds=721741)

datetime.timedelta( , , ) 表示( 天, 秒, 微秒)。现在用模型对测试集进行预测。

ypred=xg.predict(dtest) 
ypred

array([0.0600442, 0.1247908, 0.6246425, ...,
       0.157481 , 0.0610904, 0.6457621 ], 
       dtype=float32)

将概率转换为1 或 0 ，将阈值设置为 0.5 ，并模型的计算精度。

for i in range(0,9769): 
    if ypred[i]>=.5: 
       ypred[i]=1 
    else: 
       ypred[i]=0 
from sklearn.metrics import accuracy_score 
accuracy_xgb = accuracy_score(y_test,ypred) 
accuracy_xgb

0.8626266762206981

LightGBM 应用

准备训练数据及设置 LightGBM 的参数，并训练模型。这里将 XGBOOST 和 LightGBM 中的 max_depth 设置均为 7，这样运用控制变量思想以更好地比较两个算法。

train_data=lgb.Dataset(x_train,label=y_train)

param = {'num_leaves':150, 'objective':'binary',
         'max_depth':7,'learning_rate':.05,'max_bin':200} 
param['metric'] = [' auc', 'binary_logloss']
num_round=50 
start=datetime.now() 
lgbm=lgb.train(param,train_data,num_round) 
stop=datetime.now()

#模型执行时间
execution_time_lgbm = stop-start 
execution_time_lgbm

【机器学习】深度剖析 LightGBM vs XGBOOST 哪个更胜一筹_第6张图片

在测试集上预测数据

ypred2=lgbm.predict(x_test) 
# ypred2[0:5] 
# 显示前 5 个预测

# 将概率转换为 0 或 1
 for i in range(0,9769): 
    if ypred2[i]>=.5: # 将阈值设置为 .5 
       ypred2[i]=1 
    else:   
       ypred2[i]=0
# 计算精度
accuracy_lgbm =accuracy_score(ypred2,y_test) 
y_test.value_counts()

0    7376
1    2393
Name: Income, dtype: int64

计算 XGBOOST 的 `roc_auc_score`

from sklearn.metrics import roc_auc_score 
auc_xgb = roc_auc_score(y_test,ypred) 
auc_xgb

0.7670270211471818

计算 LightGBM 的 `roc_auc_score`

auc_lgbm = roc_auc_score(y_test,ypred2)
auc_lgbm

0.761978912192376

comparison_dict = {'accuracy score':(accuracy_lgbm,accuracy_xgb),
                   'auc score':(auc_lgbm,auc_xgb),
                   'execution time':(execution_time_lgbm,execution_time_xgb)}
# 创建一个数据帧'comparison_df'来比较Lightgbm和xgb的性能。 
comparison_df =DataFrame(comparison_dict)
comparison_df.index = [ 'LightGBM'， 'xgboost']

性能对比

通过在 XGBOOST 上应用 LightGBM，准确性和 auc 分数仅略有增加，但训练过程的执行时间存在显着差异。LightGBM 比 XGBOOST 快近 7 倍，并且在处理大型数据集时是一种更好的方法。

当在限时比赛中处理大型数据集时，这将是一个巨大的优势。

08 写在最后

本文简单介绍了 LightGBM 的基本概念。LightGBM 算法除了比 XGBOOST 更准确和更省时外，还优于现有的其他 boosting 算法。比较建议你在使用其他 boosting 算法时，也尝试使用 LightGBM 算法，然后比较它们的优劣。

参考资料

[1]

git for windows: https://git-scm.com/download/win

[2]

cmake: https://cmake.org/

往期精彩回顾




适合初学者入门人工智能的路线及资料下载(图文+视频)机器学习入门系列下载中国大学慕课《机器学习》（黄海广主讲）机器学习及深度学习笔记等资料打印《统计学习方法》的代码复现专辑
AI基础下载机器学习交流qq群955171419，加入微信群请扫码：

你可能感兴趣的:(算法,决策树,人工智能,大数据,python)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Linux的Initrd机制被触发 linux
Linux 的 initrd 技术是一个非常普遍使用的机制，linux2.6 内核的 initrd 的文件格式由原来的文件系统镜像文件转变成了 cpio 格式，变化不仅反映在文件格式上， linux 内核对这两种格式的 initrd 的处理有着截然的不同。本文首先介绍了什么是 initrd 技术，然后分别介绍了 Linux2.4 内核和 2.6 内核的 initrd 的处理流程。最后通过对 Lin
maven本地仓库路径修改 bitcarter maven
默认maven本地仓库路径：C:\Users\Administrator\.m2 修改maven本地仓库路径方法： 1.打开E:\maven\apache-maven-2.2.1\conf\settings.xml 2.找到
XSD和XML中的命名空间 darrenzhu xml xsd schema namespace 命名空间
http://www.360doc.com/content/12/0418/10/9437165_204585479.shtml http://blog.csdn.net/wanghuan203/article/details/9203621 http://blog.csdn.net/wanghuan203/article/details/9204337 http://www.cn
Java 求素数运算周凡杨 java 算法素数
网络上对求素数之解数不胜数，我在此总结归纳一下，同时对一些编码，加以改进，效率有成倍热提高。第一种：原理: 6N(+-)1法任何一个自然数，总可以表示成为如下的形式之一： 6N，6N+1，6N+2，6N+3，6N+4，6N+5 (N=0，1，2，…)
java 单例模式 g21121 java
想必单例模式大家都不会陌生，有如下两种方式来实现单例模式： class Singleton { private static Singleton instance=new Singleton(); private Singleton(){} static Singleton getInstance() { return instance; }
Linux下Mysql源码安装 510888780 mysql
1.假设已经有mysql-5.6.23-linux-glibc2.5-x86_64.tar.gz (1)创建mysql的安装目录及数据库存放目录解压缩下载的源码包，目录结构，特殊指定的目录除外：
32位和64位操作系统墙头上一根草 32位和64位操作系统
32位和64位操作系统是指：CPU一次处理数据的能力是32位还是64位。现在市场上的CPU一般都是64位的，但是这些CPU并不是真正意义上的64 位CPU，里面依然保留了大部分32位的技术，只是进行了部分64位的改进。32位和64位的区别还涉及了内存的寻址方面，32位系统的最大寻址空间是2 的32次方= 4294967296（bit）= 4（GB）左右，而64位系统的最大寻址空间的寻址空间则达到了
我的spring学习笔记10-轻量级_Spring框架 aijuans Spring 3
一、问题提问： → 请简单介绍一下什么是轻量级？轻量级（Leightweight）是相对于一些重量级的容器来说的，比如Spring的核心是一个轻量级的容器，Spring的核心包在文件容量上只有不到1M大小，使用Spring核心包所需要的资源也是很少的，您甚至可以在小型设备中使用Spring。
mongodb 环境搭建及简单CURD antlove Web Install curd NoSQL mongo
一搭建mongodb环境 1. 在mongo官网下载mongodb 2. 在本地创建目录 "D:\Program Files\mongodb-win32-i386-2.6.4\data\db" 3. 运行mongodb服务 [mongod.exe --dbpath "D:\Program Files\mongodb-win32-i386-2.6.4\data\
数据字典和动态视图百合不是茶 oracle 数据字典动态视图系统和对象权限
数据字典（data dictionary）是 Oracle 数据库的一个重要组成部分，这是一组用于记录数据库信息的只读（read-only）表。随着数据库的启动而启动,数据库关闭时数据字典也关闭数据字典中包含数据库中所有方案对象（schema object）的定义(包括表，视图，索引，簇，同义词，序列，过程，函数，包，触发器等等) 数据库为一
多线程编程一般规则 bijian1013 java thread 多线程 java多线程
如果两个工两个以上的线程都修改一个对象，那么把执行修改的方法定义为被同步的，如果对象更新影响到只读方法，那么只读方法也要定义成同步的。不要滥用同步。如果在一个对象内的不同的方法访问的不是同一个数据，就不要将方法设置为synchronized的。
将文件或目录拷贝到另一个Linux系统的命令scp bijian1013 linux unix scp
一.功能说明 scp就是security copy，用于将文件或者目录从一个Linux系统拷贝到另一个Linux系统下。scp传输数据用的是SSH协议，保证了数据传输的安全，其格式如下： scp 远程用户名@IP地址：文件的绝对路径
【持久化框架MyBatis3五】MyBatis3一对多关联查询 bit1129 Mybatis3
以教员和课程为例介绍一对多关联关系，在这里认为一个教员可以叫多门课程，而一门课程只有1个教员教，这种关系在实际中不太常见，通过教员和课程是多对多的关系。示例数据：地址表： CREATE TABLE ADDRESSES ( ADDR_ID INT(11) NOT NULL AUTO_INCREMENT, STREET VAR
cookie状态判断引发的查找问题 bitcarter form cgi
先说一下我们的业务背景： 1.前台将图片和文本通过form表单提交到后台，图片我们都做了base64的编码，并且前台图片进行了压缩 2.form中action是一个cgi服务 3.后台cgi服务同时供PC，H5，APP 4.后台cgi中调用公共的cookie状态判断方法（公共的，大家都用，几年了没有问题）问题：（折腾两天。。。。） 1.PC端cgi服务正常调用，cookie判断没
通过Nginx,Tomcat访问日志(access log)记录请求耗时 ronin47
一、Nginx通过$upstream_response_time $request_time统计请求和后台服务响应时间 nginx.conf使用配置方式： log_format main '$remote_addr - $remote_user [$time_local] "$request" ''$status $body_bytes_sent "$http_r
java-67- n个骰子的点数。把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 bylijinnan java
public class ProbabilityOfDice { /** * Q67 n个骰子的点数 * 把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 * 在以下求解过程中，我们把骰子看作是有序的。 * 例如当n=2时，我们认为（1，2）和（2，1）是两种不同的情况 */ private stati
看别人的博客，觉得心情很好 Cb123456 博客心情
以为写博客，就是总结，就和日记一样吧，同时也在督促自己。今天看了好长时间博客: 职业规划: http://www.iteye.com/blogs/subjects/zhiyeguihua android学习: 1.http://byandby.i
[JWFD开源工作流]尝试用原生代码引擎实现循环反馈拓扑分析 comsci 工作流
我们已经不满足于仅仅跳跃一次，通过对引擎的升级，今天我测试了一下循环反馈模式，大概跑了200圈，引擎报一个溢出错误在一个流程图的结束节点中嵌入一段方程，每次引擎运行到这个节点的时候，通过实时编译器GM模块，计算这个方程，计算结果与预设值进行比较，符合条件则跳跃到开始节点，继续新一轮拓扑分析，直到遇到
JS常用的事件及方法 cwqcwqmax9 js
事件描述 onactivate 当对象设置为活动元素时触发。 onafterupdate 当成功更新数据源对象中的关联对象后在数据绑定对象上触发。 onbeforeactivate 对象要被设置为当前元素前立即触发。 onbeforecut 当选中区从文档中删除之前在源对象触发。 onbeforedeactivate 在 activeElement 从当前对象变为父文档其它对象之前立即
正则表达式验证日期格式 dashuaifu 正则表达式 IT其它 java其它
正则表达式验证日期格式 function isDate(d){ var v = d.match(/^(\d{4})-(\d{1,2})-(\d{1,2})$/i); if(!v) { this.focus(); return false; } } <input value="2000-8-8" onblu
Yii CModel.rules() 方法、validate预定义完整列表、以及说说验证 dcj3sjt126com yii
public array rules () {return} array 要调用 validate() 时应用的有效性规则。返回属性的有效性规则。声明验证规则，应重写此方法。每个规则是数组具有以下结构：array('attribute list', 'validator name', 'on'=>'scenario name', ...validation
UITextAttributeTextColor = deprecated in iOS 7.0 dcj3sjt126com ios
In this lesson we used the key "UITextAttributeTextColor" to change the color of the UINavigationBar appearance to white. This prompts a warning "first deprecated in iOS 7.0." Ins
判断一个数是质数的几种方法 EmmaZhao Math python
质数也叫素数，是只能被1和它本身整除的正整数，最小的质数是2，目前发现的最大的质数是p=2^57885161-1【注1】。判断一个数是质数的最简单的方法如下： def isPrime1(n): for i in range(2, n): if n % i == 0: return False return True 但是在上面的方法中有一些冗余的计算，所以
SpringSecurity工作原理小解读坏我一锅粥 SpringSecurity
SecurityContextPersistenceFilter ConcurrentSessionFilter WebAsyncManagerIntegrationFilter HeaderWriterFilter CsrfFilter LogoutFilter Use
JS实现自适应宽度的Tag切换 ini JavaScript html Web css html5
效果体验：http://hovertree.com/texiao/js/3.htm 该效果使用纯JavaScript代码，实现TAB页切换效果，TAB标签根据内容自适应宽度，点击TAB标签切换内容页。 HTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"
Hbase Rest API : 数据查询 kane_xie REST hbase
hbase（hadoop）是用java编写的，有些语言（例如python）能够对它提供良好的支持，但也有很多语言使用起来并不是那么方便，比如c#只能通过thrift访问。Rest就能很好的解决这个问题。Hbase的org.apache.hadoop.hbase.rest包提供了rest接口，它内嵌了jetty作为servlet容器。启动命令：./bin/hbase rest s
JQuery实现鼠标拖动元素移动位置（源码+注释）明子健 jquery js 源码拖动鼠标
欢迎讨论指正！ print.html代码： <!DOCTYPE html> <html> <head> <meta http-equiv=Content-Type content="text/html;charset=utf-8"> <title>发票打印</title> &l
Postgresql 连表更新字段语法 update qifeifei PostgreSQL
下面这段sql本来目的是想更新条件下的数据，可是这段sql却更新了整个表的数据。sql如下： UPDATE tops_visa.visa_order SET op_audit_abort_pass_date = now() FROM tops_visa.visa_order as t1 INNER JOIN tops_visa.visa_visitor as t2 ON t1.
将redis,memcache结合使用的方案? tcrct redis cache
公司架构上使用了阿里云的服务，由于阿里的kvstore收费相当高，打算自建，自建后就需要自己维护，所以就有了一个想法，针对kvstore(redis)及ocs(memcache)的特点，想自己开发一个cache层，将需要用到list，set，map等redis方法的继续使用redis来完成，将整条记录放在memcache下，即findbyid，save等时就memcache，其它就对应使用redi
开发中遇到的诡异的bug wudixiaotie bug
今天我们服务器组遇到个问题：我们的服务是从Kafka里面取出数据，然后把offset存储到ssdb中，每个topic和partition都对应ssdb中不同的key，服务启动之后，每次kafka数据更新我们这边收到消息，然后存储之后就发现ssdb的值偶尔是-2,这就奇怪了，最开始我们是在代码中打印存储的日志，发现没什么问题，后来去查看ssdb的日志，才发现里面每次set的时候都会对同一个key