Sonhhxg_柒

XGBoost（极限梯度提升）

XGBoost 是一个优化的分布式梯度提升库，旨在高效、灵活和便携。它在Gradient Boosting框架下实现机器学习算法。XGBoost 提供了一种并行树提升（也称为 GBDT、GBM），可以快速准确地解决许多数据科学问题。相同的代码在主要的分布式环境（Kubernetes、Hadoop、SGE、MPI、Dask）上运行，可以解决数十亿个示例之外的问题。

XGBoost 代表“Extreme Gradient Boosting”，其中“Gradient Boosting”一词源自 Friedman 的论文Greedy Function Approximation: A Gradient Boosting Machine。

梯度增强树已经出现了一段时间，关于这个主题的材料很多。本教程将使用监督学习的元素以独立且有原则的方式解释提升树。我们认为这种解释更清晰、更正式，并激发了 XGBoost 中使用的模型公式。

监督学习的要素

XGBoost 用于监督学习问题，我们使用训练数据（具有多个特征）xi预测目标变量yi. 在我们具体了解树之前，让我们先回顾一下监督学习的基本要素。

型号及参数

监督学习中的模型通常是指预测所依据的数学结构yi由输入制成xi. 一个常见的例子是线性模型，其中预测为y^i=∑jθjxij，加权输入特征的线性组合。预测值可以有不同的解释，取决于任务，即回归或分类。例如，它可以进行逻辑转换以获得逻辑回归中正类的概率，也可以在我们对输出进行排名时用作排名分数。

参数是我们需要从数据中学习的未确定部分。在线性回归问题中，参数是系数θ. 通常我们会使用θ来表示参数（模型中有很多参数，我们这里的定义很草率）。

目标函数：训练损失+正则化

明智的选择yi，我们可以表达各种任务，例如回归、分类和排名。训练模型的任务相当于找到最佳参数θ最适合训练数据的xi和标签yi. 为了训练模型，我们需要定义目标函数 来衡量模型对训练数据的拟合程度。

目标函数的一个显着特征是它们由两部分组成：训练损失和正则化项：

obj(θ)=L(θ)+Ω(θ)

在哪里L是训练损失函数，并且Ω是正则化项。训练损失衡量我们的模型对训练数据的预测能力。一个常见的选择L是均方误差，由下式给出

L(θ)=∑i(yi−y^i)2

另一个常用的损失函数是逻辑损失，用于逻辑回归：

L(θ)=∑i[yiln⁡(1+e−y^i)+(1−yi)ln⁡(1+ey^i)]

正则化项是人们通常忘记添加的内容。正则化项控制模型的复杂性，这有助于我们避免过度拟合。这听起来有点抽象，所以让我们考虑下图中的以下问题。给定图像左上角的输入数据点，要求您在视觉上拟合一个阶跃函数。您认为这三个解决方案中哪个最合适？

正确答案用红色标记。请考虑这在视觉上是否适合您。一般原则是我们既想要一个简单的预测模型。两者之间的权衡也称为机器学习中的偏差-方差权衡。

为什么要介绍一般原理？

上面介绍的元素构成了监督学习的基本元素，它们是机器学习工具包的自然构建块。例如，您应该能够描述梯度提升树和随机森林之间的差异和共同点。以形式化的方式理解这个过程也有助于我们理解我们正在学习的目标以及启发式方法背后的原因，例如修剪和平滑。

决策树集成

现在我们已经介绍了监督学习的元素，让我们从真正的树开始。首先，让我们先了解一下 XGBoost 的模型选择：决策树集成。树集成模型由一组分类和回归树 (CART) 组成。下面是一个简单的 CART 示例，它对某人是否会喜欢假设的电脑游戏 X 进行分类。

我们将一个家庭的成员分类为不同的叶子，并在相应的叶子上为他们分配分数。CART 与决策树有点不同，决策树的叶子只包含决策值。在 CART 中，真实分数与每个叶子相关联，这为我们提供了超越分类的更丰富的解释。正如我们将在本教程的后面部分中看到的那样，这也允许采用有原则的、统一的优化方法。

通常，一棵树的强度不足以在实践中使用。实际使用的是集成模型，它将多棵树的预测汇总在一起。

这是两棵树的树集合的示例。将每棵树的预测分数相加得到最终分数。如果你看一下这个例子，一个重要的事实是这两棵树试图相互补充。在数学上，我们可以将我们的模型写成以下形式

y^i=∑k=1Kfk(xi),fk∈F

在哪里K是树的数量，fk是函数空间中的函数F，和F是所有可能的 CART 的集合。要优化的目标函数由下式给出

obj(θ)=∑inl(yi,y^i)+∑k=1Kω(fk)

在哪里ω(fk)是树的复杂度fk，稍后详细定义。

现在出现了一个棘手的问题：随机森林中使用的模型是什么？树组合！所以随机森林和提升树实际上是相同的模型；不同之处在于我们如何训练他们。这意味着，如果您为树集成编写预测服务，您只需要编写一个，它应该适用于随机森林和梯度提升树。（有关实际示例，请参阅Treelite 。）为什么监督学习的元素摇滚的一个例子。

树提升

现在我们介绍了模型，让我们转向训练：我们应该如何学习树？答案是，就像所有监督学习模型一样：定义一个目标函数并优化它！

让以下成为目标函数（记住它总是需要包含训练损失和正则化）：

obj=∑i=1nl(yi,y^i(t))+∑i=1tω(fi)

增材训练

我们要问的第一个问题：树的参数是什么？你会发现我们需要学习的就是那些函数fi，每个都包含树的结构和叶子分数。学习树结构比传统的优化问题要困难得多，传统的优化问题可以简单地采用梯度。一次学习所有的树是很困难的。相反，我们使用了一种加法策略：修复我们所学的内容，一次添加一棵新树。我们在步骤中写入预测值t作为y^i(t). 然后我们有

y^i(0)=0y^i(1)=f1(xi)=y^i(0)+f1(xi)y^i(2)=f1(xi)+f2(xi)=y^i(1)+f2(xi)…y^i(t)=∑k=1tfk(xi)=y^i(t−1)+ft(xi)

还有一个问题：每一步我们想要哪棵树？很自然的事情是添加一个优化我们的目标的。

obj(t)=∑i=1nl(yi,y^i(t))+∑i=1tω(fi)=∑i=1nl(yi,y^i(t−1)+ft(xi))+ω(ft)+constant

如果我们考虑使用均方误差 (MSE) 作为我们的损失函数，目标变为

obj(t)=∑i=1n(yi−(y^i(t−1)+ft(xi)))2+∑i=1tω(fi)=∑i=1n[2(y^i(t−1)−yi)ft(xi)+ft(xi)2]+ω(ft)+constant

MSE 的形式很友好，有一个一阶项（通常称为残差）和一个二次项。对于其他的兴趣损失（例如逻辑损失），要得到这么好的表格并不是那么容易。所以在一般情况下，我们将损失函数的泰勒展开式提升到二阶：

obj(t)=∑i=1n[l(yi,y^i(t−1))+gift(xi)+12hift2(xi)]+ω(ft)+constant

在哪里gi和hi被定义为

gi=∂y^i(t−1)l(yi,y^i(t−1))hi=∂y^i(t−1)2l(yi,y^i(t−1))

在我们删除所有常量之后，步骤的具体目标t变成

∑i=1n[gift(xi)+12hift2(xi)]+ω(ft)

这成为我们对新树的优化目标。该定义的一个重要优点是目标函数的值仅取决于gi和hi. 这就是 XGBoost 支持自定义损失函数的方式。我们可以使用完全相同的求解器优化每个损失函数，包括逻辑回归和成对排序gi和hi作为输入！

模型复杂度

我们已经介绍了训练步骤，但是等等，有一件重要的事情，正则化项！我们需要定义树的复杂度ω(f). 为了做到这一点，让我们首先细化树的定义f(x)作为

ft(x)=wq(x),w∈RT,q:Rd→{1,2,⋯,T}.

这里w是叶子上的分数向量，q是将每个数据点分配给相应叶的函数，并且T是叶子的数量。在 XGBoost 中，我们将复杂度定义为

ω(f)=γT+12λ∑j=1Twj2

当然，定义复杂性的方法不止一种，但这种方法在实践中效果很好。正则化是大多数树包处理得不那么小心的一部分，或者干脆忽略。这是因为传统的树学习处理只强调改进杂质，而复杂性控制则留给启发式。通过正式定义它，我们可以更好地了解我们正在学习什么，并获得在野外表现良好的模型。

结构分数

这是推导的神奇部分。重新制定树模型后，我们可以将目标值写为t-th 树为：

obj(t)≈∑i=1n[giwq(xi)+12hiwq(xi)2]+γT+12λ∑j=1Twj2=∑j=1T[(∑i∈Ijgi)wj+12(∑i∈Ijhi+λ)wj2]+γT

在哪里Ij={i|q(xi)=j}是分配给j-第叶。请注意，在第二行中，我们更改了求和的索引，因为同一叶子上的所有数据点都得到相同的分数。我们可以通过定义进一步压缩表达式Gj=∑i∈Ijgi和Hj=∑i∈Ijhi:

obj(t)=∑j=1T[Gjwj+12(Hj+λ)wj2]+γT

在这个等式中，wj相互独立，形式为Gjwj+12(Hj+λ)wj2是二次的，最好的wj对于给定的结构q(x)我们能得到的最好的客观减少是：

wj∗=−GjHj+λobj∗=−12∑j=1TGj2Hj+λ+γT

最后一个等式衡量树结构的好坏q(x)是。

如果这一切听起来有点复杂，让我们看一下图片，看看如何计算分数。基本上，对于给定的树结构，我们推送统计信息gi和hi到它们所属的叶子，将统计数据加在一起，并使用公式计算树的好坏。这个分数就像决策树中的杂质度量，只是它还考虑了模型的复杂性。

学习树结构

既然我们有一种方法来衡量一棵树的好坏，理想情况下我们会枚举所有可能的树并选择最好的树。在实践中这是难以处理的，因此我们将尝试一次优化树的一层。具体来说，我们尝试将一片叶子分成两片叶子，它得到的分数是

Gain=12[GL2HL+λ+GR2HR+λ−(GL+GR)2HL+HR+λ]−γ

这个公式可以分解为 1) 新左叶上的分数 2) 新右叶上的分数 3) 原始叶上的分数 4) 附加叶上的正则化。我们可以在这里看到一个重要的事实：如果增益小于γ，我们最好不要添加那个分支。这正是基于树的模型中的修剪技术！通过使用监督学习的原理，我们自然可以想出这些技术起作用的原因:)

对于实值数据，我们通常希望寻找最优分割。为了有效地做到这一点，我们将所有实例按排序顺序放置，如下图所示。

从左到右的扫描足以计算所有可能拆分解决方案的结构得分，我们可以有效地找到最佳拆分。

使用 xgboost 和 sklearn 的演示

from sklearn.model_selection import GridSearchCV
from sklearn.datasets import fetch_california_housing
import xgboost as xgb
import multiprocessing

if __name__ == "__main__":
    print("Parallel Parameter optimization")
    X, y = fetch_california_housing(return_X_y=True)
    xgb_model = xgb.XGBRegressor(n_jobs=multiprocessing.cpu_count() // 2)
    clf = GridSearchCV(xgb_model, {'max_depth': [2, 4, 6],
                                   'n_estimators': [50, 100, 200]}, verbose=1,
                       n_jobs=2)
    clf.fit(X, y)
    print(clf.best_score_)
    print(clf.best_params_)

使用 sklearn 接口访问 xgboost 评估指标的演示

import xgboost as xgb
import numpy as np
from sklearn.datasets import make_hastie_10_2

X, y = make_hastie_10_2(n_samples=2000, random_state=42)

# Map labels from {-1, 1} to {0, 1}
labels, y = np.unique(y, return_inverse=True)

X_train, X_test = X[:1600], X[1600:]
y_train, y_test = y[:1600], y[1600:]

param_dist = {'objective':'binary:logistic', 'n_estimators':2}

clf = xgb.XGBModel(**param_dist)
# Or you can use: clf = xgb.XGBClassifier(**param_dist)

clf.fit(X_train, y_train,
        eval_set=[(X_train, y_train), (X_test, y_test)],
        eval_metric='logloss',
        verbose=True)

# Load evals result by calling the evals_result() function
evals_result = clf.evals_result()

print('Access logloss metric directly from validation_0:')
print(evals_result['validation_0']['logloss'])

print('')
print('Access metrics through a loop:')
for e_name, e_mtrs in evals_result.items():
    print('- {}'.format(e_name))
    for e_mtr_name, e_mtr_vals in e_mtrs.items():
        print('   - {}'.format(e_mtr_name))
        print('      - {}'.format(e_mtr_vals))

print('')
print('Access complete dict:')
print(evals_result)

XGBoost 入门

import numpy as np
import scipy.sparse
import pickle
import xgboost as xgb
import os

# Make sure the demo knows where to load the data.
CURRENT_DIR = os.path.dirname(os.path.abspath(__file__))
XGBOOST_ROOT_DIR = os.path.dirname(os.path.dirname(CURRENT_DIR))
DEMO_DIR = os.path.join(XGBOOST_ROOT_DIR, 'demo')

# simple example
# load file from text file, also binary buffer generated by xgboost
dtrain = xgb.DMatrix(os.path.join(DEMO_DIR, 'data', 'agaricus.txt.train?indexing_mode=1'))
dtest = xgb.DMatrix(os.path.join(DEMO_DIR, 'data', 'agaricus.txt.test?indexing_mode=1'))

# specify parameters via map, definition are same as c++ version
param = {'max_depth': 2, 'eta': 1, 'objective': 'binary:logistic'}

# specify validations set to watch performance
watchlist = [(dtest, 'eval'), (dtrain, 'train')]
num_round = 2
bst = xgb.train(param, dtrain, num_round, watchlist)

# this is prediction
preds = bst.predict(dtest)
labels = dtest.get_label()
print('error=%f' %
      (sum(1 for i in range(len(preds)) if int(preds[i] > 0.5) != labels[i]) /
       float(len(preds))))
bst.save_model('0001.model')
# dump model
bst.dump_model('dump.raw.txt')
# dump model with feature map
bst.dump_model('dump.nice.txt', os.path.join(DEMO_DIR, 'data/featmap.txt'))

# save dmatrix into binary buffer
dtest.save_binary('dtest.buffer')
# save model
bst.save_model('xgb.model')
# load model and data in
bst2 = xgb.Booster(model_file='xgb.model')
dtest2 = xgb.DMatrix('dtest.buffer')
preds2 = bst2.predict(dtest2)
# assert they are the same
assert np.sum(np.abs(preds2 - preds)) == 0

# alternatively, you can pickle the booster
pks = pickle.dumps(bst2)
# load model and data in
bst3 = pickle.loads(pks)
preds3 = bst3.predict(dtest2)
# assert they are the same
assert np.sum(np.abs(preds3 - preds)) == 0

###
# build dmatrix from scipy.sparse
print('start running example of build DMatrix from scipy.sparse CSR Matrix')
labels = []
row = []
col = []
dat = []
i = 0
for l in open(os.path.join(DEMO_DIR, 'data', 'agaricus.txt.train')):
    arr = l.split()
    labels.append(int(arr[0]))
    for it in arr[1:]:
        k, v = it.split(':')
        row.append(i)
        col.append(int(k))
        dat.append(float(v))
    i += 1
csr = scipy.sparse.csr_matrix((dat, (row, col)))
dtrain = xgb.DMatrix(csr, label=labels)
watchlist = [(dtest, 'eval'), (dtrain, 'train')]
bst = xgb.train(param, dtrain, num_round, watchlist)

print('start running example of build DMatrix from scipy.sparse CSC Matrix')
# we can also construct from csc matrix
csc = scipy.sparse.csc_matrix((dat, (row, col)))
dtrain = xgb.DMatrix(csc, label=labels)
watchlist = [(dtest, 'eval'), (dtrain, 'train')]
bst = xgb.train(param, dtrain, num_round, watchlist)

print('start running example of build DMatrix from numpy array')
# NOTE: npymat is numpy array, we will convert it into scipy.sparse.csr_matrix
# in internal implementation then convert to DMatrix
npymat = csr.todense()
dtrain = xgb.DMatrix(npymat, label=labels)
watchlist = [(dtest, 'eval'), (dtrain, 'train')]
bst = xgb.train(param, dtrain, num_round, watchlist)

XGBoost 中的随机森林（TM）

XGBoost 通常用于训练梯度提升决策树和其他梯度提升模型。随机森林使用与梯度提升决策树相同的模型表示和推理，但训练算法不同。可以使用 XGBoost 来训练一个独立的随机森林，或者使用随机森林作为梯度提升的基础模型。在这里，我们专注于训练独立的随机森林。

从早期开始，我们就有用于训练随机森林的原生 API，以及 0.82 之后的新 Scikit-Learn 包装器（不包括在 0.82 中）。请注意，新的 Scikit-Learn 包装器仍处于实验阶段，这意味着我们可能会在需要时更改界面。

带有 XGBoost API 的独立随机森林

必须设置以下参数才能启用随机森林训练。

booster应该设置为gbtree，因为我们正在训练森林。请注意，由于这是默认设置，因此无需显式设置此参数。
subsample必须设置为小于 1 的值，以启用训练案例（行）的随机选择。
必须将参数之一colsample_by*设置为小于 1 的值才能启用随机选择列。通常，colsample_bynode将设置为小于 1 的值，以便在每个树拆分时随机抽样列。
num_parallel_tree应该设置为正在训练的森林的大小。
num_boost_round应设置为 1 以防止 XGBoost 增强多个随机森林。请注意，这是的关键字参数train()，而不是参数字典的一部分。
eta（别名：）learning_rate在训练随机森林回归时必须设置为 1。
random_state可用于播种随机数生成器。

其他参数应该以与梯度提升类似的方式设置。例如，objective通常将reg:squarederror用于回归和 binary:logistic分类，lambda应根据所需的正则化权重等进行设置。

如果两者num_parallel_tree都num_boost_round大于 1，则训练将使用随机森林和梯度提升策略的组合。它将执行回合，在每一回合num_boost_round中提升一个随机的树木森林。num_parallel_tree如果未启用提前停止，则最终模型将由 num_parallel_tree*num_boost_round树组成。

这是使用 xgboost 在 GPU 上训练随机森林的示例参数字典：

params = {
  'colsample_bynode': 0.8,
  'learning_rate': 1,
  'max_depth': 5,
  'num_parallel_tree': 100,
  'objective': 'binary:logistic',
  'subsample': 0.8,
  'tree_method': 'gpu_hist'
}

然后可以按如下方式训练随机森林模型：

bst = train(params, dmatrix, num_boost_round=1)

具有 Scikit-Learn-Like API 的独立随机森林

XGBRFClassifier并且XGBRFRegressor是提供随机森林功能的类似 SKL 的类。它们基本上是训练随机森林而不是梯度提升的版本，XGBClassifier并且XGBRegressor具有相应调整的某些参数的默认值和含义。尤其是：

n_estimators指定要训练的森林的大小；它被转换为 num_parallel_tree, 而不是提升轮数
learning_rate默认设置为 1
colsample_bynode并且subsample默认设置为 0.8
booster总是gbtree

举个简单的例子，你可以训练一个随机森林回归器：

from sklearn.model_selection import KFold

# Your code ...

kf = KFold(n_splits=2)
for train_index, test_index in kf.split(X, y):
    xgb_model = xgb.XGBRFRegressor(random_state=42).fit(
    X[train_index], y[train_index])

请注意，与 using 相比，这些类的参数选择更少 train()。特别是，使用此 API 将随机森林与梯度提升相结合是不可能的。

注意事项

XGBoost 对目标函数使用二阶逼近。这可能导致与使用目标函数的精确值的随机森林实现不同的结果。
XGBoost 在对训练用例进行二次采样时不执行替换。每个训练案例可以在子采样集中出现 0 次或 1 次。

导出docker-compse.yml中docker镜像成tar文件青春不流名 eureka 云原生
#!/bin/bash#确保脚本在正确的目录下运行SCRIPT_DIR=$(dirname"$(realpath"$0")")cd"$SCRIPT_DIR"||exit1#定义docker-compose文件路径COMPOSE_FILE="${SCRIPT_DIR}/docker-compose.yml"#创建导出目录EXPORT_DIR="${SCRIPT_DIR}/docker_images"
深入详解：决策树算法的概念、原理、实现与应用场景猿享天开算法决策树机器学习
深入详解：决策树算法的概念、原理、实现与应用场景决策树（DecisionTree）是机器学习中一种直观且广泛应用的监督学习算法，适用于分类和回归任务。其树形结构易于理解，特别适合初学者。本文将从概念、原理、实现到应用场景，全面讲解决策树，并通过流程图和可视化示例增强理解，通俗易懂，帮助小白快速掌握决策树算法相关知识。1.决策树的概念1.1什么是决策树？决策树通过一系列条件判断（决策节点）将输入数据
[Python]-基础篇1- 从零开始的Python入门指南踏雪无痕老爷子 Python python 开发语言
无论你是尚未接触编程的新手，还是想从其他语言转向Python的开发者，这篇文章都是你的入门课。一、Python是什么？Python是一种解释型、高级、通用型编程语言，以简洁明了、简单易用着称。它可以应用于网站开发、自动化脚本、数据分析、人工智能、系统操作等多种场景。二、如何安装Python步骤：访问Python官方网站选择目前最新的Python3.x版本下载Windows用户请务必勾选“AddPy
Python爬虫实战：爬取知乎问答与用户信息 Python爬虫项目 python 爬虫 php 数据分析开发语言开源
简介随着网络信息量的爆炸，如何有效获取有价值的内容，成为了数据分析、机器学习等领域的基础之一。爬虫作为数据采集的基本工具之一，常常被用来获取互联网上的公开数据。在这篇博客中，我们将结合最新的Python爬虫技术，详细讲解如何爬取知乎问答与用户信息。本文将会介绍：Python爬虫的基础知识知乎问答网页结构分析使用Python进行知乎数据爬取爬取知乎问答内容与用户信息如何处理和存储爬取的数据使用最新的
【机器学习&深度学习】反向传播机制
目录一、一句话定义二、类比理解三、为什重要？四、用生活例子解释：神经网络=烹饪机器人4.1第一步：尝一口（前向传播）4.2第二步：倒着推原因（反向传播）五、换成人工智能流程说一遍六、图示类比：找山顶（最优参数）七、总结一句人话八、PyTorch代码示例：亲眼看到每一层的梯度九、梯度=损失函数对参数的偏导数十、类比总结反向传播（Backpropagation）是神经网络中训练过程的核心机制，它就像“
潜入思维的海洋：SoftCoT++如何让语言模型更聪明步子哥智能涌现语言模型人工智能自然语言处理
在人工智能的浩瀚星空下，大型语言模型（LLMs）如同一颗颗璀璨的恒星，照亮了从文本生成到复杂推理的广阔领域。然而，这些模型在推理任务中往往像是在迷雾中航行——尽管它们能抵达目的地，却常常因为固定的思维路径而错过更优的航线。2025年5月，一篇题为《SoftCoT++:Test-TimeScalingwithSoftChain-of-ThoughtReasoning》的论文如同一盏明灯，照亮了如何让
BI+AI实战：我们如何用3秒完成车企供应链推演 qq_43696218 人工智能
一、BI+AI引领财务分析新纪元在财务数据分析领域，奥威BI+AI正以革命性的姿态颠覆传统。当金蝶、用友等工具仍深陷报表泥潭时，奥威BI+AI通过深度融合商业智能（BI）与人工智能（AI），实现了从滞后报表到实时洞察的飞跃。这不仅极大地提升了财务分析的效率，更为企业的战略决策提供了前所未有的精准支持。二、BI+AI的核心技术优势‌实时动态分析‌o奥威BI+AI摒弃了静态数据集，依托原始科目余额表实
DeepSeek-V3 通俗详解：从诞生到优势，以及与 GPT-4o 的对比码事漫谈 AI ai
前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站1.DeepSeek的前世今生1.1什么是DeepSeek？DeepSeek是一家专注于人工智能技术研发的公司，致力于打造高性能、低成本的AI模型。它的目标是让AI技术更加普惠，让更多人能够用上强大的AI工具。1.2DeepSeek-V3的诞生DeepSeek-V3是DeepSeek公司推出的最新一代A
企业级AI开发利器：Spring AI框架深度解析与实战_spring ai实战 AI大模型-海文人工智能 spring python 算法开发语言 java 机器学习
企业级AI开发利器：SpringAI框架深度解析与实战一、前言：Java生态的AI新纪元在人工智能技术爆发式发展的今天，Java开发者面临着一个新的挑战：如何将大语言模型（LLMs）和生成式AI（GenAI）无缝融入企业级应用。传统的Java生态缺乏统一的AI集成方案，开发者往往需要为不同AI供应商（如OpenAI、阿里云、HuggingFace）编写大量重复的接口适配代码，这不仅增加了开发成本，
Linux操作系统，故障排查月堂 linux 运维服务器
案例1：GRUB引导故障故障现象：系统启动卡在"GRUB>"提示符，无法进入系统原因分析：GRUB配置文件损坏（/boot/grub/grub.cfg）引导文件被误删或磁盘损坏解决步骤：在GRUB命令行依次执行：insmodxfssetroot=(hd0,msdos1)linux/vmlinuz-root=/dev/sda1initrd/initramfs-.imgboot进入系统后执行：grub
GitHub Actions 的深度解析与概念介绍青草地溪水旁 linux 环境配置开发管理 github linux ubuntu docker
GitHubActions核心定义GitActions是GitHub原生提供的自动化工作流引擎，允许开发者在代码仓库中直接创建、测试、部署代码。其本质是通过事件驱动（Event-Driven）的自动化管道，将软件开发中的重复任务抽象为可编排的流程。架构核心四要素工作流（Workflow）仓库中的自动化流程蓝图（.yml文件）存储在.github/workflows目录单仓库可包含多个独立工作流事件
linux mysql命令行操作
命令行,linux,命令行操作相关学习资料：https://edu.51cto.com/video/797.htmlhttps://edu.51cto.com/video/1400.htmlhttps://edu.51cto.com/video/3832.htmlLinuxMySQL命令行操作入门指南作为一名刚入行的开发者，掌握Linux系统下的MySQL命令行操作是一项基本技能。本文将带你一步步
Python编程：使用Opencv进行图像处理
【参考】https://github.com/opencv/opencv/tree/4.x/samples/pythonPython使用OpenCV进行图像处理OpenCV(OpenSourceComputerVisionLibrary)是一个开源的计算机视觉和机器学习软件库。下面将从基础到高阶介绍如何使用Python中的OpenCV进行图像处理。一、安装首先需要安装OpenCV库：pipinst
图扑软件智慧云展厅，开启数字化展馆新模式智慧园区可视化 5g 人工智能大数据安全云计算
随着疫情的影响以及新兴技术的不断发展，展会的发展形式也逐渐从线下转向线上。通过“云”上启动、云端互动、双线共频的形式开展。通过应用大数据、人工智能、沉浸式交互等多重技术手段，构建数据共享、信息互通、精准匹配的高精度“云展厅”，突破时空壁垒限制。图扑软件运用HT强大的渲染功能，数字孪生“云展位”，1:1复现实际展厅内部独特的结构造型和建筑特色。也可以第一人称视角漫游，模拟用户在展厅内的参观场景，在保
uniappx 安卓app项目本地打包运行，腾讯地图报错：‘鉴权失败，请检查你的key‘ 夏木。。。前端 uniappx
根目录下添加AndroidManifest.xml文件，manifest.json文件中添加："app":{"distribute":{"android":{"permissions":["",""],},"sdkConfigs":{"maps":{"qqmap":{"appkey_android":"腾讯地图key"}}}}},如此操作之后，重新自定义调试基座，运行模拟器，选择自定义基座：运行成
uniapp处理后端返回的html字符串萌新咦～ uni-app
前言：采用v-html方法处理1.处理前↵↵document.forms[0].submit();2.处理后↵↵document.forms[0].submit();3.跳转页面方法//传参uni.setStorageSync("ICBC_GW_V3_HTML",res.result.payUrl)//跳转uni.navigateTo({url:"/subpages/cashier/webView
转行要趁早！网络安全行业人才缺口大，企业招聘需求正旺！
网络安全行业具有人才缺口大、岗位选择多、薪资待遇好、学历要求不高等优势，对于想要转行的人员来说，是一个非常不错的选择。人才缺口大网络安全攻防技术手段日新月异，特别是现在人工智能技术飞速发展，网络安全形势复杂严峻，人才重要性凸显。教育部《网络安全人才实战能力白皮书》数据显示，到2027年，我国网络安全人员缺口将达327万。近期发布的《2024年网络安全产业人才发展报告》中提到，沿用ISC2的人才缺口
将图片的base64编码直接嵌入到html文件的css中 Kuo-Teng 软件开发实战 html css javascript
将图片的base64编码直接嵌入到html文件的css中1.背景2.将图片进行base64编码3.将图片的base64编码写入到css1.背景如果你需要在html中引入一张外部图片，你可能会这样做：如果你将引用的图片保存到本地，你可能会这样做：但是，如果网络延迟较高，或者在jar包中运行Java项目时无法根据路径顺利找到图片呢？那么，将图片的base64编码直接写入html文件便是最好的选择！2.
炫酷3D圆环动态照片墙：打造个性化展示新体验姚芝舒
炫酷3D圆环动态照片墙：打造个性化展示新体验【下载地址】3D圆环动态照片墙HTML文件本资源提供了一个精美的3D圆环动态照片墙HTML文件，用户可以通过鼠标自由拖拽照片墙，实现动态展示效果。该文件在某社交平台爆火，内置了30张高质量的JPG图片，用户只需在浏览器中直接打开即可体验，操作简单易上手。效果精致，适合用于个人展示或简单玩乐项目地址:https://gitcode.com/open-sou
HTML页面设计——动态照片环
#前端开发##html超文本标记语言结构学习他的标签##css美化页面其实一部分的网站首页应用了照片环的原理，使得页面看起来更加美观，这里为大家分享一个简单的照片环编写。一、准备好以下素材：二、新建一个HTML文件，这里就取名“01-照片环”好了。三、现在开始编写具体内容，照片环说白了就是几个照片构成的所以body只要写就可以了，编写的时候注意图片的格式是.jpg、.png还是.gif(动态图)。
使用CSS和HTML实现3D图片环绕效果码力无边-OEC css html 3d web 前端
使用CSS和HTML实现3D图片环绕效果在本篇博客中，将介绍如何使用HTML和CSS实现一个3D图片环绕效果。这个效果不仅具有视觉吸引力，而且具有高度的互动性，鼠标悬停时动画会暂停。接下来将一步步讲解这个效果的实现过程。1.效果2.页面结构与布局首先，我们来看一下HTML的基本结构。该效果的核心是一个元素，它包含了多个图片的，每个div中都设置了不同的背景图片。HTML代码：3D图片环绕效果</
html 照片环 - 图片的动态3D环绕 das白 #javascript html 3d javascript 照片环 3D环绕
html照片环-图片的动态3D环绕引言一、源码二、图转base64参考链接引言效果展示：一、源码原始图片的base64编码字符太多了，博客放不下，将图片缩小后的加入html的源码如下：猫咪body{background-color:black;text-align:center;color:#FFF;}.jc{/*设置宽*/width:140px;/*设置高*/height:200px;/*设置背
微信小程序 progress 进度条内部圆角及内部条渐变色 Bonnie(大宝) 技术小程序
微信小程序表格微信小程序progress进度条内部圆角及渐变色html:css:.wx-progress-inner-bar{border-radius:8rpx!important;background:linear-gradient(toright,rgb(71,187,254,1),rgba(254,86,77,1))!important;}
基于机器学习的智能文本分类技术研究与应用
在当今数字化时代，文本数据的爆炸式增长给信息管理和知识发现带来了巨大的挑战。从新闻文章、社交媒体帖子到企业文档和学术论文，海量的文本数据需要高效地分类和管理，以便用户能够快速找到所需信息。传统的文本分类方法主要依赖于人工规则和关键词匹配，这些方法不仅效率低下，而且难以应对复杂多变的文本内容。近年来，机器学习技术的快速发展为文本分类提供了一种高效、自动化的解决方案。一、机器学习在文本分类中的应用概述
Transformer底层原理解析及基于pytorch的代码实现 LiRuiJie 人工智能 transformer pytorch 深度学习
1.Transformer底层原理解析1.1核心架构突破Transformer是自然语言处理领域的革命性架构，其核心设计思想完全摒弃了循环结构，通过自注意力机制实现全局依赖建模。整体架构图如下：以下是其核心组件：1）自注意力机制（Self-Attention）-输入序列的每个位置都能直接关注所有位置-数学公式（缩放点积注意力）：-Q：查询矩阵（当前关注点）-K：键矩阵（被比较项）-V：值矩阵（实际
【机器学习与数据挖掘实战 | 医疗】案例18：基于Apriori算法的中医证型关联规则分析 Francek Chen 机器学习与数据挖掘实战机器学习数据挖掘 Apriori python 关联规则人工智能
【作者主页】FrancekChen【专栏介绍】⌈⌈⌈机器学习与数据挖掘实战⌋⌋⌋机器学习是人工智能的一个分支，专注于让计算机系统通过数据学习和改进。它利用统计和计算方法，使模型能够从数据中自动提取特征并做出预测或决策。数据挖掘则是从大型数据集中发现模式、关联和异常的过程，旨在提取有价值的信息和知识。机器学习为数据挖掘提供了强大的分析工具，而数据挖掘则是机器学习应用的重要领域，两者相辅相成，共同推动
运行两个不同项目（`ragflow` 和 `dify`）时，出现了 Redis 容器互相替换 z日火人工智能类项目 redis 数据库 docker
问题描述在同时运行两个不同项目（ragflow和dify）时，出现了Redis容器互相替换的问题。具体表现为，当启动一个项目的Redis容器时，另一个项目的Redis容器会被停止或替换，导致两个项目的Redis容器无法同时存在。问题经过最初发现：在运行dify项目时，发现ragflow项目的Redis容器被替换为dify项目的Redis容器。尝试解决：通过修改docker-compose.yml文
误差的回响：反向传播算法与神经网络的惊天逆转田园Coder 人工智能科普人工智能科普
当专家系统在20世纪80年代初期大放异彩，成为人工智能实用化的耀眼明星时，另一股曾经被宣判“死刑”的力量——连接主义（神经网络）——正在寒冬的冻土下悄然涌动，孕育着一场惊天动地的复苏。马文·明斯基和西摩·帕尔特在1969年《感知机》专著中那精准而冷酷的理论批判，如同沉重的封印，将多层神经网络的研究禁锢了近二十年。他们指出的核心死结——缺乏有效算法来训练具有隐藏层的网络——仿佛一道无法逾越的天堑。单
小程序领域H5的CSS布局优化小程序开发2020 CS 小程序 css 前端 ai
小程序领域H5的CSS布局优化：从“乱屏”到“丝滑”的实战指南关键词：小程序布局优化、CSSFlex、CSSGrid、rpx适配、重排重绘优化摘要：本文从开发者最头疼的“小程序页面布局错乱”问题出发，结合小程序特有的运行环境（如rpx单位、组件限制），用“装修房子”的生活化比喻拆解CSS布局核心概念，系统讲解Flex/Grid布局的实战技巧、多端适配策略及性能优化方法。通过真实代码案例（含wxml
vue3 实现文件上传编程（变成）小辣鸡 vue vue
1、上传文件html上传文件将文件拖到此处，或点击上传只支持pdf、doc、docx、png、jpg提交import{ref,reactive}from'vue'import{uploadImg}from'@/api/common.js';letuploadFile=ref(false);letfileList=ref([]);constupload=(val)=>{fileLis
apache ftpserver-CentOS config gengzg apache
<server xmlns="http://mina.apache.org/ftpserver/spring/v1" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation=" http://mina.apache.o
优化MySQL数据库性能的八种方法 AILIKES sql mysql
1、选取最适用的字段属性　　MySQL可以很好的支持大数据量的存取，但是一般说来，数据库中的表越小，在它上面执行的查询也就会越快。因此，在创建表的时候，为了获得更好的性能，我们可以将表中字段的宽度设得尽可能小。例如，在定义邮政编码这个字段时，如果将其设置为CHAR(255),显然给数据库增加了不必要的空间，甚至使用VARCHAR这种类型也是多余的，因为CHAR(6)就可以很
JeeSite 企业信息化快速开发平台 Kai_Ge JeeSite
JeeSite 企业信息化快速开发平台平台简介 JeeSite是基于多个优秀的开源项目，高度整合封装而成的高效，高性能，强安全性的开源Java EE快速开发平台。 JeeSite本身是以Spring Framework为核心容器，Spring MVC为模型视图控制器，MyBatis为数据访问层， Apache Shiro为权限授权层，Ehcahe对常用数据进行缓存，Activit为工作流
通过Spring Mail Api发送邮件 120153216 邮件 main
原文地址：http://www.open-open.com/lib/view/open1346857871615.html 使用Java Mail API来发送邮件也很容易实现，但是最近公司一个同事封装的邮件API实在让我无法接受，于是便打算改用Spring Mail API来发送邮件，顺便记录下这篇文章。【Spring Mail API】 Spring Mail API都在org.spri
Pysvn 程序员使用指南 2002wmj SVN
源文件:http://ju.outofmemory.cn/entry/35762 这是一篇关于pysvn模块的指南. 完整和详细的API请参考 http://pysvn.tigris.org/docs/pysvn_prog_ref.html. pysvn是操作Subversion版本控制的Python接口模块. 这个API接口可以管理一个工作副本, 查询档案库, 和同步两个. 该
在SQLSERVER中查找被阻塞和正在被阻塞的SQL 357029540 SQL Server
SELECT R.session_id AS BlockedSessionID , S.session_id AS BlockingSessionID , Q1.text AS Block
Intent 常用的用法备忘 7454103 .net android Google Blog F#
Intent 应该算是Android中特有的东西。你可以在Intent中指定程序要执行的动作（比如：view,edit,dial），以及程序执行到该动作时所需要的资料。都指定好后，只要调用startActivity()，Android系统会自动寻找最符合你指定要求的应用程序，并执行该程序。下面列出几种Intent 的用法显示网页:
Spring定时器时间配置 adminjun spring 时间配置定时器
红圈中的值由6个数字组成，中间用空格分隔。第一个数字表示定时任务执行时间的秒，第二个数字表示分钟，第三个数字表示小时，后面三个数字表示日，月，年，< xmlnamespace prefix ="o" ns ="urn:schemas-microsoft-com:office:office" /> 测试的时候，由于是每天定时执行，所以后面三个数
POJ 2421 Constructing Roads 最小生成树 aijuans 最小生成树
来源：http://poj.org/problem?id=2421 题意：还是给你n个点，然后求最小生成树。特殊之处在于有一些点之间已经连上了边。思路：对于已经有边的点，特殊标记一下，加边的时候把这些边的权值赋值为0即可。这样就可以既保证这些边一定存在，又保证了所求的结果正确。代码： #include <iostream> #include <cstdio>
重构笔记——提取方法（Extract Method） ayaoxinchao java 重构提炼函数局部变量提取方法
提取方法（Extract Method）是最常用的重构手法之一。当看到一个方法过长或者方法很难让人理解其意图的时候，这时候就可以用提取方法这种重构手法。下面是我学习这个重构手法的笔记：提取方法看起来好像仅仅是将被提取方法中的一段代码，放到目标方法中。其实，当方法足够复杂的时候，提取方法也会变得复杂。当然，如果提取方法这种重构手法无法进行时，就可能需要选择其他
为UILabel添加点击事件 bewithme UILabel
默认情况下UILabel是不支持点击事件的，网上查了查居然没有一个是完整的答案，现在我提供一个完整的代码。 UILabel *l = [[UILabel alloc] initWithFrame:CGRectMake(60, 0, listV.frame.size.width - 60, listV.frame.size.height)]
NoSQL数据库之Redis数据库管理(PHP-REDIS实例) bijian1013 redis 数据库 NoSQL
一.redis.php <?php //实例化 $redis = new Redis(); //连接服务器 $redis->connect("localhost"); //授权 $redis->auth("lamplijie"); //相关操
SecureCRT使用备注 bingyingao secureCRT 每页行数
SecureCRT日志和卷屏行数设置一、使用securecrt时，设置自动日志记录功能。 1、在C:\Program Files\SecureCRT\下新建一个文件夹(也就是你的CRT可执行文件的路径），命名为Logs； 2、点击Options -> Global Options -> Default Session -> Edite Default Sett
【Scala九】Scala核心三：泛型 bit1129 scala
泛型类 package spark.examples.scala.generics class GenericClass[K, V](val k: K, val v: V) { def print() { println(k + "," + v) } } object GenericClass { def main(args: Arr
素数与音乐 bookjovi 素数数学 haskell
由于一直在看haskell，不可避免的接触到了很多数学知识，其中数论最多，如素数，斐波那契数列等，很多在学生时代无法理解的数学现在似乎也能领悟到那么一点。闲暇之余，从图书馆找了<<The music of primes>>和<<世界数学通史>>读了几遍。其中素数的音乐这本书与软件界熟知的&l
Java-Collections Framework学习与总结-IdentityHashMap BrokenDreams Collections
这篇总结一下java.util.IdentityHashMap。从类名上可以猜到，这个类本质应该还是一个散列表，只是前面有Identity修饰，是一种特殊的HashMap。简单的说，IdentityHashMap和HashM
读《研磨设计模式》-代码笔记-享元模式-Flyweight bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.HashMap; import java.util.List; import java
PS人像润饰&调色教程集锦 cherishLC PS
1、仿制图章沿轮廓润饰——柔化图像，凸显轮廓 http://www.howzhi.com/course/retouching/ 新建一个透明图层，使用仿制图章不断Alt+鼠标左键选点，设置透明度为21%，大小为修饰区域的1/3左右（比如胳膊宽度的1/3），再沿纹理方向（比如胳膊方向）进行修饰。所有修饰完成后，对该润饰图层添加噪声，噪声大小应该和
更新多个字段的UPDATE语句 crabdave update
更新多个字段的UPDATE语句 update tableA a set (a.v1, a.v2, a.v3, a.v4) = --使用括号确定更新的字段范围
hive实例讲解实现in和not in子句 daizj hive not in in
本文转自：http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2842855.html 当前hive不支持 in或not in 中包含查询子句的语法，所以只能通过left join实现。假设有一个登陆表login(当天登陆记录,只有一个uid),和一个用户注册表regusers(当天注册用户，字段只有一个uid)，这两个表都包含
一道24点的10+种非人类解法（2,3,10,10） dsjt 算法
这是人类算24点的方法？！！！事件缘由：今天晚上突然看到一条24点状态，当时惊为天人，这NM叫人啊？以下是那条状态朱明西 : 24点，算2 3 10 10，我LX炮狗等面对四张牌痛不欲生，结果跑跑同学扫了一眼说，算出来了，2的10次方减10的3次方。。我草这是人类的算24点啊。。然后么。。。我就在深夜很得瑟的问室友求室友算刚出完题，文哥的暴走之旅开始了 5秒后
关于YII的菜单插件 CMenu和面包末breadcrumbs路径管理插件的一些使用问题 dcj3sjt126com yii framework
在使用 YIi的路径管理工具时，发现了一个问题。 <?php
对象与关系之间的矛盾：“阻抗失配”效应[转] come_for_dream 对象
概述 “阻抗失配”这一词组通常用来描述面向对象应用向传统的关系数据库（RDBMS）存放数据时所遇到的数据表述不一致问题。C++程序员已经被这个问题困扰了好多年，而现在的Java程序员和其它面向对象开发人员也对这个问题深感头痛。 “阻抗失配”产生的原因是因为对象模型与关系模型之间缺乏固有的亲合力。“阻抗失配”所带来的问题包括：类的层次关系必须绑定为关系模式（将对象
学习编程那点事 gcq511120594 编程互联网
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
Reverse Linked List II hcx2013 list
Reverse a linked list from position m to n. Do it in-place and in one-pass. For example:Given 1->2->3->4->5->NULL, m = 2 and n = 4, return
Spring4.1新特性——页面自动化测试框架Spring MVC Test HtmlUnit简介 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Hadoop集群工具distcp liyonghui160com
1. 环境描述两个集群：rock 和 stone rock无kerberos权限认证，stone有要求认证。 1. 从rock复制到stone，采用hdfs Hadoop distcp -i hdfs://rock-nn:8020/user/cxz/input hdfs://stone-nn:8020/user/cxz/运行在rock端，即源端问题：报版本
一个备份MySQL数据库的简单Shell脚本 pda158 mysql 脚本
　　主脚本（用于备份mysql数据库）：　　该Shell脚本可以自动备份数据库。只要复制粘贴本脚本到文本编辑器中，输入数据库用户名、密码以及数据库名即可。我备份数据库使用的是mysqlump 命令。后面会对每行脚本命令进行说明。　　 1. 分别建立目录“backup”和“oldbackup” 　　#mkdir /backup 　　#mkdir /oldbackup 　
300个涵盖IT各方面的免费资源（中）——设计与编码篇 shoothao IT资源图标库图片库色彩板字体
A. 免费的设计资源 Freebbble:来自于Dribbble的免费的高质量作品。 Dribbble:Dribbble上“免费”的搜索结果——这是巨大的宝藏。 Graphic Burger:每个像素点都做得很细的绝佳的设计资源。 Pixel Buddha:免费和优质资源的专业社区。 Premium Pixels:为那些有创意的人提供免费的素材。
thrift总结 - 跨语言服务开发 uule thrift
官网官网JAVA例子 thrift入门介绍 IBM-Apache Thrift - 可伸缩的跨语言服务开发框架 Thrift入门及Java实例演示 thrift的使用介绍 RPC POM： <dependency> <groupId>org.apache.thrift</groupId>