旅途中的宽~

AdaBoost算法超详细讲解

一、Boosting提升算法

AdaBoost是典型的Boosting算法。

Boosting算法是将“弱学习算法“提升为“强学习算法”的过程，主要思想是“三个臭皮匠顶个诸葛亮”。

一般来说，找到弱学习算法要相对容易一些，然后通过反复学习得到一系列弱分类器，组合这些弱分类器得到一个强分类器。

Boosting算法要涉及到两个部分，加法模型和前向分步算法：

1. 加法模型

加法模型就是我们最终的强分类器是若干个弱分类器加权平均而得到的（弱分类器线性相加而成）。

2. 前向分步算法

前向分步就是我们在训练的过程中，下一轮迭代产生的分类器是在上一轮的基础上训练得来的。

我们的算法是通过一轮轮的弱学习器学习，利用前一个弱学习器的结果和当前弱学习器来更新当前的强学习器的模型。也就是说：

第 $k - 1$ 轮的强学习器为:
$f_{k−1}(x)=∑_{i=1}^{k−1}α_iG_i(x)$
而第 $k$ 轮的强学习器为：
$f_k(x)=∑_{i=1}^kα_iG_i(x)$
上两式一比较可以得到：
$f_k(x)=f_{k−1}(x)+\alpha_kG_k(x)$
可见强学习器的确是通过前向分步学习算法一步步而得到的。

二、AdaBoost算法

Adaboost是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器(弱分类器)，然后把这些弱分类器集合起来，构成一个更强的最终分类器（强分类器）。

后一个模型的训练永远是在前一个模型的基础上完成！

这里的集合起来的策略是通过提高前一轮分类器分类错误的样本的权值，降低分类分类正确的样本权值，对于那些没有本分类正确的样本会得到后面分类器更多的关注。然后可以产生很多的弱分类器，通过多数加权投票组合这些弱分类器，加大误差率小的分类器，减少误差率大的分类器，使其在表决中起到较少的作用。

如下图所示：

算法思想：

（1）初始化训练样本的权值分布，每个样本具有相同权重；

（2）训练弱分类器，如果样本分类正确，则在构造下一个训练集中，它的权值就会被降低；反之提高。用更新过的样本集去训练下一个分类器；

（3）将所有弱分类组合成强分类器，各个弱分类器的训练过程结束后，加大分类误差率小的弱分类器的权重，降低分类误差率大的弱分类器的权重。

我们的步骤可以如下图表示：

由Adaboost算法的描述过程可知，该算法在实现过程中根据训练集的大小初始化样本权值，使其满足均匀分布，在后续操作中通过公式来改变和规范化算法迭代后样本的权值。样本被错误分类导致权值增大，反之权值相应减小，这表示被错分的训练样本集包括一个更高的权重。这就会使在下轮时训练样本集更注重于难以识别的样本，针对被错分样本的进一步学习来得到下一个弱分类器，直到样本被正确分类。在达到规定的迭代次数或者预期的误差率时，则强分类器构建完成。

boosting算法要解决的问题：

1）如何计算学习误差率 $e$ ?

2）如何得到弱学习器权重系数 $α$ ?

3）如何更新样本权重 $D$ ?

4）使用何种结合策略？

三、Adaboost分类算法原理

假设一个二分类训练样本集：
$T=\{(x_1,y_1),(x_2,y_2),...,(x_m,y_m)\}$
训练集的在第 $k$ 个弱学习器的输出权重为：
$D(k)=(w_{k1},w_{k2},...,w_{km});w_{1i}=\frac1m;i=1,2,...,m$
第 $k$ 个弱分类器 $G_k(x)$ 在训练集上的加权误差率为：
$e_k=P(G_k(x_i)≠y_i)=∑_{i=1}^mw_{ki}I(G_k(x_i)≠y_i)$
第 $k$ 个弱分类器 $G_k(x)$ 的权重系数为：
$α_k=\frac{1}{2}\log\frac{1−e_k}{e_k}$
为什么这样计算弱学习器权重系数？

从上式可以看出，如果分类误差率 $e_k$ 越大，则对应的弱分类器权重系数 $α_k$ 越小。也就是说，误差率小的弱分类器权重系数越大。具体为什么采用这个权重系数公式，我们在讲Adaboost的损失函数优化时再讲。

更新样本权重 $D$ 。假设第 $k$ 个弱分类器的样本集权重系数为 $D(k)=(w_{k1},w_{k2},...w_{km})$ ，则对应的第 $k + 1$ 个弱分类器的样本集权重系数为：
$w_{k+1,i}=\frac{w_{ki}}{Z_K}exp(−α_ky_iG_k(x_i))$
这里 $Z_k$ 是规范化因子：
$Z_k=∑_{i=1}^mw_{ki}exp(−α_ky_iG_k(x_i))$
从 $w_{k+1,i}$ 计算公式可以看出，如果第 $i$ 个样本分类错误，则 $y_iG_k(x_i)<0$ ，导致样本的权重在第 $k + 1$ 个弱分类器中增大，如果分类正确，则权重在第 $k + 1$ 个弱分类器中减少。具体为什么采用样本权重更新公式，我们在讲Adaboost的损失函数优化时再讲。

最后是集合策略。Adaboost分类采用的是加权表决法，构建基本分类器的线性组合：
$f(x)=∑_{k=1}^Kα_kG_k(x)$
最终的强分类器为：
$G(x)=sign(f(x))=sign(∑_{k=1}^Kα_kG_k(x))$

四、AdaBoost分类问题的损失函数优化

分类问题的Adaboost的弱学习器权重系数公式和样本权重更新公式，可以从Adaboost的损失函数推导出来。

Adaboost是模型为加法模型，学习算法为前向分步学习算法，损失函数为指数函数的分类问题。

首先AdaBoost算法的最终模型表达式为：
$f(x)=∑_{m=1}^Mα_kG_k(x)$
可以看到这是一个“加性模型(additive model)”。我们希望这个模型在训练集上的经验误差最小，即：
$min∑_{i=1}^NL(y_i,f(x))<=>\min∑_{i=1}^NL(y_i,∑_{i=1}^Mα_mG_m(x))$
通常这是一个复杂的优化问题。前向分步算法求解这一优化问题的思想就是: 因为最终模型是一个加性模型，如果能从前往后，每一步只学习一个基学习器 $G_m(x)$ 及其权重 $α_m$ , 不断迭代得到最终的模型，那么就可以简化问题复杂度。具体的，当我们经过 $m - 1$ 轮迭代得到了最优模型 $f_{m−1}(x)$ 时，由前向分步算法可知：
$f_m(x)=f_{m−1}(x)+α_mG_m(x)$
所以此轮优化目标就为：
$min∑_{i=1}^NL(y_i,f_{m−1}(x)+α_mG_m(x))$
求解上式即可得到第 $m$ 个基分类器 $G_m(x)$ 及其权重 $α_m$ 。

这样，前向分步算法就通过不断迭代求得了从 $m = 1$ 到 $m = M$ 的所有基分类器及其权重，问题得到了解决。

上面主要介绍了前向分步算法逐一学习基学习器，这一过程也即AdaBoost算法逐一学习基学习器的过程。下面将证明前向分步算法的损失函数是指数损失函数(exponential loss function)时，AdaBoost学习的具体步骤。

首先指数损失函数即 $L (y, f (x)) = e x p (- y f (x))$ ，指数损失函数是分类任务原本0/1损失函数的一致(consistent)替代损失函数，由于指数损失函数有更好的数学性质，例如处处可微，所以我们用它替代0/1损失作为优化目标。

AdaBoost是采用指数损失，由此可以得到损失函数：
$Loss=∑_{i=1}^Nexp(−y_if_m(x_i))=∑_{i=1}^N(−y_i(f_{m−1}(x_i)+α_mG_m(x)))$
因为 $y_if_{m−1}(x)$ 与优化变量 $α$ 和 $G$ 无关，所以令 $w_{m,i}=exp(−y_if_m(x))$ ，这里 $y_if_{m−1}(x)$ 是已知的，相当于可以作为常量移到前面去：
$Loss=∑_{i=1}^Nw_{m,i}exp(−y_iα_mG_m(x)))$
接下来就是求解上式的优化问题的最优解 $\hat{\alpha_m}$ 和 $\hat{G_m(x)}$ 。

首先我们求 $\hat{G_m(x)}$ ，可以得到：
$G_m(x)=\arg\min_{G}∑_{i=1}^mw_{mi}I(y_i≠G_m(x_i))$
上式将指数函数换成指示函数是因为前面说的指数损失函数和0/1损失函数是一致等价的。

式子中所示的优化问题其实就是AdaBoost算法的基学习器的学习过程，即计算数据集的分类误差率，得到的 $\hat{G_m(x)}$ 是使第 $m$ 轮加权训练数据分类误差最小的基分类器。

然后求 $\hat{α_m}$ ，将 $G_m(x)$ 带入损失函数，并对 $α$ 求导，使其等于0，即可得到：
$α_m=\frac{1}{2}\log \frac{1−e_m}{e_m}$
其中， $e_m$ 即为我们前面的分类误差率：
$e_m=\frac{∑_{i=1}^mw_{mi}I(y_i≠G(x_i))}{∑_{i=1}^mw_{mi}}=∑_{i=1}^mw_{mi}I(y_i≠G(x_i))$
最后看样本权重的更新：利用 $f_m(x)=f_{m−1}(x)+α_mG_m(x)$ 和 $w_{mi}=exp(−y_if_{m−1}(x))$ ，即可得：
$w_{m+1,i}=w_{mi}exp[−y_iα_mG_m(x)]$
到此AdaBoost二分类算法推导结束。

五、AdaBoost二元分类问题算法流程总结

输入：训练数据集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_m,y_m)\}$ ，输出为{-1, +1}，弱分类器算法, 弱分类器迭代次数 $K$ ；

输出：为最终的强分类器 $f (x)$ 。

初始化样本集权重为：
$D(1)=(w_{11},w_{12},...w_{1m});w_{1i}=\frac{1}{m};i=1,2...m$
对于 $k = 1, 2, ... K$ ：

a) 使用具有权重 $D_k$ 的样本集来训练数据，得到弱分类器 $G_k(x): \chi→\{−1,+1\}$

b) 计算 $G_k(x)$ 的分类误差率：
$e_k=P(G_k(x_i)≠y_i)=∑_{i=1}^mw_{ki}I(G_k(x_i)≠y_i)$
c) 计算弱分类器的系数：
$α_k=\frac{1}{2}\log \frac{1−e_k}{e_k}$
d) 更新样本集的权重分布：
$w_{k+1,i}=w_{ki}Z_Kexp(−α_ky_iG_k(x_i))\;\;\;,i=1,2,...m$
这里 $Z_k$ 是规范化因子：
$Z_k=∑_{i=1}^mw_{ki}exp(−α_ky_iG_k(x_i))$

构建最终分类器为：
$f(x)=sign(∑_{k=1}^Kα_kG_k(x))$

对于Adaboost多元分类算法，其实原理和二元分类类似，最主要区别在弱分类器的系数上。比如Adaboost SAMME算法，它的弱分类器的系数：
$α_k=\frac{1}{2}\log \frac{1−e_k}{e_k}+\log(R−1)$
其中R为类别数。

从上式可以看出，如果是二元分类，R=2，则上式和我们的二元分类算法中的弱分类器的系数一致。

六、Adaboost回归算法原理

由于Adaboost的回归问题有很多变种，这里我们以Adaboost R2算法为准。

假设一个回归训练集样本是：
$T=\{(x_1,y_1),(x_2,y_2),...(x_m,y_m)\}$
训练集的在第 $k$ 个弱学习器的输出权重为：
$D(k)=(w_{k1},w_{k2},...w_{km})\;\;;w_{1i}=1m\;\;;i=1,2...m$
回归问题的误差率

对于第 $k$ 个弱学习器，计算它在训练集上的最大误差：
$E_k=\max|y_i−G_k(x_i)|\;;\;i=1,2...m$
然后计算每个样本的相对误差：
$e_{ki}=|y_i−G_k(x_i)|E_k$
这里是误差损失为线性时的情况，如果我们用平方误差，则:
$e_{ki}=\frac{(y_i−G_k(x_i))^2}{E_k^2}$
如果我们用的是指数误差，则:
$e_{ki}=1−exp（\frac{−y_i+G_k(x_i))}{E_k}）$
最终得到第 $k$ 个弱学习器的误差率：
$e_k=∑_{i=1}^mw_{ki}e_{ki}$
弱学习器权重系数 $α$

接下来计算弱学习器权重系数 $α$ ：
$α_k=\frac{e_k}{1−e_k}$
计算更新样本权重 $D$ ，第 $k + 1$ 个弱学习器的样本集权重系数为：
$w_{k+1,i}=\frac{w_{ki}}{Z_k}α_k^{1−e_{ki}}$
这里 $Z_k$ 是规范化因子：
$Z_k=∑_{i=1}^mw_{ki}α_k^{1−e_{ki}}$
最后是结合策略，和分类问题稍有不同，采用的是对加权的弱学习器取权重中位数对应的弱学习器作为强学习器的方法，最终的强回归器为：
$f(x)=G_k^∗(x)$
其中， $G_k^∗(x)$ 是所有 $ln\frac{1}{α_k}\;,\;k=1,2,....K$ 的中位数值对应序号 $k^*$ 对应的弱学习器。

七、Adaboost回归问题算法流程总结

这里再对AdaBoost回归问题算法流程做一个总结，AdaBoost回归算法变种很多，下面的算法为Adaboost R2回归算法过程。

输入为样本集： $T=\{(x_1,y_1),(x_2,y_2),...,(x_m,y_m)\}$ ，弱学习器算法, 弱学习器迭代次数 $K$ ；

输出为最终的强学习器： $f (x)$ 。

初始化样本集权重为:
$D(1)=(w_{11},w_{12},...,w_{1m})\;,\;w_{1i}=1m\;,\;i=1,2...m$
对于 $k = 1, 2, ..., K$ ：

a) 使用具有权重 $D_k$ 的样本集来训练数据，得到弱学习器： $G_k(x)$

b) 计算训练集上的最大误差：
$E_k=\max|y_i−G_k(x_i)|\;,\;i=1,2...m$
c) 计算每个样本的相对误差：

如果是线性误差，则:
$e_{ki}=\frac{|y_i−G_k(x_i)|}{E_k}$
如果是平方误差，则:
$e_{ki}=\frac{(y_i−G_k(x_i))^2}{E_k^2}$
如果是指数误差，则:
$e_{ki}=1−exp(\frac{−|y_i−G_k(x_i)|}{E_k})$
d) 计算回归误差率：
$e_k=∑_{i=1}^mw_{ki}e_{ki}$
e) 计算弱学习器的系数：
$α_k=\frac{e_k}{1−e_k}$
f) 更新样本集的权重分布为：
$w_{k+1,i}=\frac{w_ki}{Z_k}α_k^{1−e_ki}$
这里 $Z_k$ 是规范化因子：
$Z_k=∑_{i=1}^mw_{ki}α_k^{1−e_{ki}}$

构建最终强学习器为：
$f(x)=G_k^∗(x)$
其中， $G_k^∗(x)$ 是所有 $\ln \frac{1}{\alpha_k}\;,\;k=1,2,\cdots,K$ 的中位数值对应序号 $k^∗$ 对应的弱学习器。

八、Adaboost算法的正则化

为了防止Adaboost过拟合，我们通常也会加入正则化项，这个正则化项我们通常称为步长(learning rate)。定义为 $ν$ ,对于前面的弱学习器的迭代：
$f_k(x)=f_{k−1}(x)+α_kG_k(x)$
如果我们加上了正则化项，则有：
$f_k(x)=f_{k−1}(x)+να_kG_k(x)$
$ν$ 的取值范围为 $0 < ν \leq 1$ 。对于同样的训练集学习效果，较小的 $ν$ 意味着我们需要更多的弱学习器的迭代次数。通常我们用步长和迭代最大次数一起来决定算法的拟合效果。

九、Adaboost算法优缺点

Adaboost的优点：

1）Adaboost作为分类器时，分类精度很高；

2）在Adaboost的框架下，可以使用各种回归分类模型来构建弱学习器，非常灵活；

3）作为简单的二元分类器时，构造简单，容易实施，结果可理解；

4）不容易发生过拟合。

Adaboost的缺点：

1）对异常样本敏感，异常样本在迭代中可能会获得较高的权重，影响最终的强学习器的预测准确性；

2）训练时间过长，每次一个分类器都要用全部样本学习，对于弱分类器学习来讲，时间及速度上影响不大，强分类器的学习时间会就会比较大。

参考文章

https://www.cnblogs.com/bonheur/p/12666332.html

【数据结构】常见八大排序算法爱吃香菜¹ 数据结构数据结构排序算法算法 java
目录插入排序1、直接插入排序：2、希尔排序选择排序1、直接选择排序:2、堆排序交换排序1、冒泡排序2、快速排序2.2挖坑法2.1hoare版本2.3前后指针法2.4快排非递归版归并排序1、归并排序递归版2、归并排序非递归计数排序排序有内部排序和外部排序，内部排序是数据记录在内存中进行排序，这里八大排序就是内部排序，指直接插入排序，希尔排序，选择排序，堆排序，冒泡排序，快速排序，归并排序，计数排序。
2021年江南大学研究生考试算法与程序设计题目 Bears9 算法数据结构
（2021年江南大学851真题）回忆版，免费供大家学习参考。如有雷同，那人是我室友（室友让我发的）。1、什么是线型结构（8分）删除一个链表的头结点，关键处给出注释（12分）2、题目描述：关于像素点，周围有边界像素，中间是内容像素。从某个内容像素开始上色，依次按右、上、左、下顺时针顺序进行上色。直到将所有的内容像素上色完成什么是栈？（8分）如何用栈的思想完成上色过程？画出图解（12分）3、如何用冒泡
华为OD机试E卷 --游戏分组--24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 华为od 游戏 java javascript c++c python
文章目录题目描述输入描述输出描述用例题目解析Js算法源码python算法源码java算法源码c++算法源码c算法源码题目描述部门准备举办一场王者荣耀表演赛，有10名游戏爱好者参与，分为两队，每队5人。每位参与者都有一个评分，代表着他的游戏水平。为了表演赛尽可能精彩，我们需要把10名参赛者分为示例尽量相近的两队。一队的实力可以表示为这一队5名队员的评分总和。现在给你10名参与者的游戏水平评分，请你根
Big-endian（大端字节序）与Little-endian（小端字节序）区别 kse_music 技能 arm开发字节大端字节小端字节
文章目录前言字节序的定义举例说明为什么有两种字节序应用举例总结前言BIG_ENDIAN和LITTLE_ENDIAN是两种不同的字节序（ByteOrder）表示方式，用于指定数据在内存中存储的顺序。字节序的定义字节序指的是多字节数据类型（如int,long,float等）在计算机内存中的存储顺序。主要有两种字节序：Big-endian（大端字节序）：最高有效字节（MostSignificantByt
神经网络初始化 (init) 介绍迷路爸爸180 神经网络人工智能深度学习初始化 init
文章目录引言1.初始化的重要性1.1打破对称性1.2控制方差1.3加速收敛与提高泛化能力2.常见的初始化方法及其应用场景2.1Xavier/Glorot初始化2.2He初始化2.3正交初始化2.4其他初始化方法3.如何设置初始化4.基于BERT的文本分类如何进行初始化4.1项目背景4.2模型构建4.3模型训练与评估4.4结果分析结论参考资料引言在深度学习的世界中，构建一个高效且性能优异的神经网络模
Python中常见关键字及其用法介绍 xiaoweids 编程语言 Python python 开发语言
这篇文章主要介绍了Python中有哪些关键字及关键字的用法,分享python中常用的关键字，本文结合示例代码给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下Python有哪些关键字Python常用的关键字1and,del,from,not,while,as,elif,global,or,with,assert,else,if,pass,yield,break,e
5分钟搞定Spring AI支持SpringBoot快速构建人工智能AI应用_springai_springboot_AI应用 web17886480312 spring 人工智能 spring boot
通过阅读这篇文章，你将了解SpringAI，它是一个借鉴了langchain的设计理念，并结合Java的优势，为开发者提供易于替换实现的统一接口。此外，文章还基于SpringAI的模型调用和Prompt模板，构建一个可操作的示例，让你可以快速的了解具体怎么在springboot的环境下使用springai来构建人工智能AI的应用SpringAI：简化Java大模型集成的统一框架在Java调用大模型
Docker安装PostgreSQL tag心动 Docker容器 docker postgresql 容器 docker-compose
文章目录一、PostgreSQL是什么？二、搭建步骤1、编写docker-compose.yml脚本2、启动验证一、PostgreSQL是什么？PostgreSQL是一种特性非常齐全的自由软件的对象-关系型数据库管理系统（ORDBMS），其基础源于加州大学计算机系开发的POSTGRES4.2版本。PostgreSQL不仅支持大部分的SQL标准，还提供了许多现代特性，如复杂查询、外键、触发器、视图、
vue3大屏可视化项目，包含地图，各种图表，全屏适配方案 m0_74825526 javascript 开发语言 ecmascript
项目设计1.始终满屏适配，这种方案一般用在屏幕变化不会特别的大项目，项目基本上不会用在比例非常不协调的大屏，设计图按1920*1080标准电脑屏幕比，所用的屏幕也基本在这个比例左右2.涉及图表知识点简单，主要有自定义色系，环形图，堆叠柱状图，折线图3.使用高德地图标点做中间地图满屏适配方案实现思路1宽度使用vw，高度使用vh，严格按照设计图换算，并且留出缓冲空间2具体算法，设计图为1920_108
WebSocket 安全实践：从认证到加密
在前三篇文章中,我们深入探讨了WebSocket的基础原理、服务端开发和客户端实现。今天,让我们把重点放在安全性上,看看如何构建一个安全可靠的WebSocket应用。我曾在一个金融项目中,通过实施多层安全机制,成功防御了多次恶意攻击尝试。安全挑战WebSocket应用面临的主要安全挑战包括：身份认证数据加密跨站点WebSocket劫持(CSWSH)拒绝服务攻击(DoS)中间人攻击让我们逐一解决这些
Python 潮流周刊#84：2024 年 Python 的最佳实践（摘要） python
本周刊由Python猫出品，精心筛选国内外的250+信息源，为你挑选最值得分享的文章、教程、开源项目、软件工具、播客和视频、热门话题等内容。愿景：帮助所有读者精进Python技术，并增长职业和副业的收入。分享了12篇文章，12个开源项目，全文2200字。以下是本期摘要：文章&教程①现代Python开发的良好实践②2024年最先进的Python③回顾一年：2024年的Flask④介绍Annotate
WebSocket 客户端开发：浏览器实战
在前两篇文章中,我们深入探讨了WebSocket的基础原理和服务端开发。今天,让我们把目光转向客户端,看看如何在浏览器中构建强大的WebSocket客户端。我曾在一个实时协作项目中,通过优化WebSocket客户端的重连机制和消息队列,使得用户即使在网络不稳定的情况下也能保持良好的体验。基础架构设计一个可靠的WebSocket客户端需要考虑以下几个关键点：连接管理消息处理重连机制心跳检测错误处理让
Serverless不香了？深扒其背后的巨大骗局！人工智能
Serverless解决方案正逐渐回归到服务器上。我最近在《Serverless悼词》（AEulogyForServerless）一文中讨论了这个问题。这篇文章的最初想法是我对另一篇关于微服务的文章的更新。但后来我开始写这篇文章时，就有了一些创意。最终的结果就是这篇观点多于事实的文章。我还以为这没什么。我的意思是，每个人都知道Serverless是个骗局，对吗？看来不是。所以我收到了很多负面评论。
Python 潮流周刊#77：Python 依赖管理就像垃圾场火灾？（摘要） python
本周刊由Python猫出品，精心筛选国内外的250+信息源，为你挑选最值得分享的文章、教程、开源项目、软件工具、播客和视频、热门话题等内容。愿景：帮助所有读者精进Python技术，并增长职业和副业的收入。分享了12篇文章，12个开源项目，2则热门讨论，全文2200字。以下是本期摘要：文章&教程①Python依赖管理一种垃圾场火灾②Python的膨胀：精细的项目间依赖关系分析③分享我的Django项
Python 潮流周刊#74：创下吉尼斯世界记录的 Python 编程课（摘要） python
本周刊由Python猫出品，精心筛选国内外的250+信息源，为你挑选最值得分享的文章、教程、开源项目、软件工具、播客和视频、热门话题等内容。愿景：帮助所有读者精进Python技术，并增长职业和副业的收入。本期分享了12篇文章，12个开源项目，2则音视频，全文2300字。好消息：即日起至万圣节（12.31），周刊限时99元/年，欢迎订阅！！以下是本期摘要：文章&教程①创下吉尼斯世界记录的Python
Python 潮流周刊#71：PyPI 应该摆脱掉它的赞助依赖（摘要） python
本周刊由Python猫出品，精心筛选国内外的250+信息源，为你挑选最值得分享的文章、教程、开源项目、软件工具、播客和视频、热门话题等内容。愿景：帮助所有读者精进Python技术，并增长职业和副业的收入。分享了12篇文章，12个开源项目，1则音视频，全文2000字。以下是本期摘要：文章&教程①PyPI应该摆脱掉它的赞助依赖②创建不分大小写的Python字符串类③用Tree-sitter&Jedi重
Python 潮流周刊#72：Python 3.13.0 最终版已发布！（摘要） python
本周刊由Python猫出品，精心筛选国内外的250+信息源，为你挑选最值得分享的文章、教程、开源项目、软件工具、播客和视频、热门话题等内容。愿景：帮助所有读者精进Python技术，并增长职业和副业的收入。分享了14篇文章，12个开源项目，4则音视频，全文2300字。以下是本期摘要：文章&教程①Python3.13.0最终版已发布！②关于Python3.13，了解这些信息就够了③Python3.13
Python 潮流周刊#67：uv 的重磅更新（摘要） python
本周刊由Python猫出品，精心筛选国内外的250+信息源，为你挑选最值得分享的文章、教程、开源项目、软件工具、播客和视频、热门话题等内容。愿景：帮助所有读者精进Python技术，并增长职业和副业的收入。分享了12篇文章，12个开源项目，全文2000字。以下是本期摘要：文章&教程①uv：统一的Python打包工具②PyJWT和python-jose在处理JWT令牌时的差异③Kindle+Pytho
Python 潮流周刊#68：2023 年 Python 开发者调查结果（摘要） python
本周刊由Python猫出品，精心筛选国内外的250+信息源，为你挑选最值得分享的文章、教程、开源项目、软件工具、播客和视频、热门话题等内容。愿景：帮助所有读者精进Python技术，并增长职业和副业的收入。分享了12篇文章，12个开源项目，2则热门讨论，全文2100字。以下是本期摘要：文章&教程①2023年Python开发者调查结果②为什么在Docker中我仍然要用Python虚拟环境？③我如何用P
时间轮算法及简易实现后端算法
一、时间轮算法是什么？1.基本概念时间轮（TimeWheel）是一种高效的定时任务调度算法，用于管理和调度大量的定时任务。它的核心思想是将时间划分为多个槽（Slot），每个槽代表一个时间间隔，任务根据其延迟时间被分配到对应的槽中。时间轮通过一个指针（Pointer）周期性地移动，触发当前槽中的任务执行。2.核心名词解释槽（Slot）：时间轮被划分为多个槽，每个槽代表一个时间间隔。例如，一个时间轮有
Python 潮流周刊#86：Jupyter Notebook 智能编码助手（摘要） python
本周刊由Python猫出品，精心筛选国内外的250+信息源，为你挑选最值得分享的文章、教程、开源项目、软件工具、播客和视频、热门话题等内容。愿景：帮助所有读者精进Python技术，并增长职业和副业的收入。分享了12篇文章，12个开源项目，全文2000字。以下是本期摘要：文章&教程①介绍JupyterNotebook智能助手②用纯Python写一个“Redis”，速度比原生Redis还快？③30分钟
【openGauss】数据库安全-数据库认证机制小嗑数据库数据库开源软件
数据库认证机制可获得性本特性自openGauss1.1.0版本开始引入。特性简介提供基于客户端/服务端（C/S）模式的客户端连接认证机制。客户价值加密认证过程中采用单向Hash不可逆加密算法PBKDF2，有效防止彩虹攻击。特性描述openGauss采用基本的客户端连接认证机制，客户端发起连接请求后，由服务端完成信息校验并依据校验结果发送认证所需信息给客户端（认证信息包括盐值、token以及服务端签
C#语言的数据结构技术的探险家包罗万象 golang 开发语言后端
C#语言的数据结构探讨数据结构是计算机科学中一种用于组织、存储和管理数据的方式。有效地使用数据结构能使算法更加高效，并提高程序的性能。在C#语言中，我们可以构建和使用多种数据结构，以满足不同的需求。本文将介绍C#中的常用数据结构，包括数组、链表、栈、队列、哈希表、树和图等，并探讨它们的特点、实现和应用场景。1.数组数组是一种最基础且常用的数据结构。它是一个固定大小的线性结构，可以通过索引访问其中的
用Python进行websocket接口测试代码小念软件测试自动化测试技术分享 python websocket 开发语言
这篇文章主要介绍了用Python进行websocket接口测试，帮助大家更好的理解和使用python，感兴趣的朋友可以了解下我们在做接口测试时，除了常见的http接口，还有一种比较多见，就是socket接口，今天讲解下怎么用Python进行websocket接口测试。SocketSocket又称"套接字"，应用程序通常通过"套接字"向网络发出请求或者应答网络请求，使主机间或者一台计算机上的进程间可
机器学习02-发展历史补充坐吃山猪机器学习机器学习人工智能
机器学习02-发展历史补充文章目录机器学习02-发展历史补充1-机器学习个人理解1-初始阶段：统计学习和模式识别（20世纪50年代至80年代）2-第二阶段【集成时代】+【核方法】（20世纪90年代至2000年代初期）3-第三阶段【特征工程】+【模型优化】（2000年代中期至2010年代初期）4-大规模数据和分布式计算（2010年代中后期）5-自动化机器学习和特征选择（2010年代末至今）2-神经网
OpenCV03-高级-滤波与增强坐吃山猪 OpenCV opencv 计算机视觉人工智能
OpenCV03-高级-滤波与增强文章目录OpenCV03-高级-滤波与增强1-OpenCV平滑滤波1.均值滤波(`cv2.blur()`)2.高斯滤波(`cv2.GaussianBlur()`)3.中值滤波(`cv2.medianBlur()`)4.双边滤波(`cv2.bilateralFilter()`)总结2-OpenCV边缘检测1.Sobel算子(`cv2.Sobel()`)2.Canny
基于Python实现读取嵌套压缩包下的文件袁袁袁袁满 Python实用技巧大全 python 嵌套压缩包下文件读取 Python实现嵌套压缩包压缩包 zipfile BytesIO
文章目录前言思路完整代码代码优化前言工作中遇到的问题，需要用Python实现嵌套压缩包下文件读取，这里记录下方法，希望能帮助到更多的人。思路打开外层zip压缩包并遍历文件：使用withzipfile.ZipFile(outer_zip_path,'r')asouter_zip语句以读取模式'r'打开用户输入的外层zip压缩包对应的文件，这样在代码块结束后会自动关闭该文件，避免资源泄露。通过oute
Java 数组排序赔罪 Java 系统学习 java 排序算法算法 java-ee 数组排序
目录1.Java冒泡排序（BubbleSort）1.冒泡排序2.冒泡排序的算法原理3.冒泡排序的复杂度和性能4.形成代码2.Java快速排序（QuickSort）3.Java归并排序（MergeSort）4.Java选择排序（SelectionSort）5.Java直接插入排序6.Java希尔排序（ShellSort）1.Java冒泡排序（BubbleSort）1.冒泡排序冒泡排序（BubbleS
OpenSPG docker 安装教程 @comefly NLP docker openspg 知识图谱 llm
文章目录前言自述一、OpenSPG1.介绍二、安装步骤1.安装服务端2.客户端部署前言自述我最近是想结合chatglm3-6b和知识图谱做一个垂直领域的技术规范的问答系统，过程中也遇到了很多困难，在模型微调上，在数据集收集整理上，在知识图谱的信息抽取上等等，咬咬牙，多学习就可以解决，本文主要写一下利用openspg做技术规范的信息抽取的部署安装过程。一、OpenSPG1.介绍OpenSPG是蚂蚁集
麒麟操作系统基础知识保姆级教程（十五）权限管理小屁不止是运维基础知识 linux 服务器网络运维学习 bash
如果你想拥有你从未拥有过的东西，那么你必须去做你从未做过的事情之前咱们了解过了麒麟操作系统的sudo提权，那么都有哪些关于咱们权限有哪些相关的知识呢？欢迎交流：在学习过程中如果你有任何疑问或想法，欢迎在评论区留言，我们可以共同探讨学习的内容。你的支持是我持续创作的动力！点赞、收藏与推荐：如果你觉得这篇文章对你有所帮助，请不要忘记点赞、收藏，并分享给更多的小伙伴！你们的鼓励是我不断进步的源泉！推广给
Enum 枚举 120153216 enum 枚举
原文地址：http://www.cnblogs.com/Kavlez/p/4268601.html Enumeration 于Java 1.5增加的enum type...enum type是由一组固定的常量组成的类型，比如四个季节、扑克花色。在出现enum type之前，通常用一组int常量表示枚举类型。比如这样： public static final int APPLE_FUJI = 0
Java8简明教程 bijian1013 java jdk1.8
Java 8已于2014年3月18日正式发布了，新版本带来了诸多改进，包括Lambda表达式、Streams、日期时间API等等。本文就带你领略Java 8的全新特性。一.允许在接口中有默认方法实现 Java 8 允许我们使用default关键字，为接口声明添
Oracle表维护快速备份删除数据 cuisuqiang oracle 索引快速备份删除
我知道oracle表分区，不过那是数据库设计阶段的事情，目前是远水解不了近渴。当前的数据库表，要求保留一个月数据，且表存在大量录入更新，不存在程序删除。为了解决频繁查询和更新的瓶颈，我在oracle内根据需要创建了索引。但是随着数据量的增加，一个半月数据就要超千万，此时就算有索引，对高并发的查询和更新来说，让然有所拖累。为了解决这个问题，我一般一个月会进行一次数据库维护，主要工作就是备
java多态内存分析麦田的设计者 java 内存分析多态原理接口和抽象类
“ 时针如果可以回头，熟悉那张脸，重温嬉戏这乐园，墙壁的松脱涂鸦已经褪色才明白存在的价值归于记忆。街角小店尚存在吗？这大时代会不会牵挂，过去现在花开怎么会等待。但有种意外不管痛不痛都有伤害，光阴远远离开，那笑声徘徊与脑海。但这一秒可笑不再可爱，当天心
Xshell实现Windows上传文件到Linux主机被触发 windows
经常有这样的需求，我们在Windows下载的软件包，如何上传到远程Linux主机上？还有如何从Linux主机下载软件包到Windows下；之前我的做法现在看来好笨好繁琐，不过也达到了目的，笨人有本方法嘛；我是怎么操作的： 1、打开一台本地Linux虚拟机，使用mount 挂载Windows的共享文件夹到Linux上，然后拷贝数据到Linux虚拟机里面；（经常第一步都不顺利，无法挂载Windo
类的加载ClassLoader 肆无忌惮_ ClassLoader
类加载器ClassLoader是用来将java的类加载到虚拟机中，类加载器负责读取class字节文件到内存中，并将它转为Class的对象（类对象），通过此实例的 newInstance()方法就可以创建出该类的一个对象。其中重要的方法为findClass(String name)。如何写一个自己的类加载器呢？首先写一个便于测试的类Student
html5写的玫瑰花知了ing html5
<html> <head> <title>I Love You!</title> <meta charset="utf-8" /> </head> <body> <canvas id="c"></canvas>
google的ConcurrentLinkedHashmap源代码解析矮蛋蛋 LRU
原文地址： http://janeky.iteye.com/blog/1534352 简述 ConcurrentLinkedHashMap 是google团队提供的一个容器。它有什么用呢？其实它本身是对 ConcurrentHashMap的封装，可以用来实现一个基于LRU策略的缓存。详细介绍可以参见 http://code.google.com/p/concurrentlinke
webservice获取访问服务的ip地址 alleni123 webservice
1. 首先注入javax.xml.ws.WebServiceContext, @Resource private WebServiceContext context; 2. 在方法中获取交换请求的对象。 javax.xml.ws.handler.MessageContext mc=context.getMessageContext(); com.sun.net.http
菜鸟的java基础提升之道——————>是否值得拥有百合不是茶
1，c++，java是面向对象编程的语言，将万事万物都看成是对象；java做一件事情关注的是人物，java是c++继承过来的，java没有直接更改地址的权限但是可以通过引用来传值操作地址，java也没有c++中繁琐的操作，java以其优越的可移植型，平台的安全型，高效性赢得了广泛的认同，全世界越来越多的人去学习java，我也是其中的一员 java组成：
通过修改Linux服务自动启动指定应用程序 bijian1013 linux
Linux中修改系统服务的命令是chkconfig (check config)，命令的详细解释如下: chkconfig 功能说明：检查，设置系统的各种服务。语　　法：chkconfig [ -- add][ -- del][ -- list][系统服务] 或 chkconfig [ -- level <</SPAN>
spring拦截器的一个简单实例 bijian1013 java spring 拦截器 Interceptor
Purview接口 package aop; public interface Purview { void checkLogin(); } Purview接口的实现类PurviesImpl.java package aop; public class PurviewImpl implements Purview { public void check
[Velocity二]自定义Velocity指令 bit1129 velocity
什么是Velocity指令在Velocity中，#set,#if, #foreach, #elseif, #parse等，以#开头的称之为指令，Velocity内置的这些指令可以用来做赋值，条件判断，循环控制等脚本语言必备的逻辑控制等语句，Velocity的指令是可扩展的，即用户可以根据实际的需要自定义Velocity指令自定义指令(Directive)的一般步骤 &nbs
【Hive十】Programming Hive学习笔记 bit1129 programming
第二章 Getting Started 1.Hive最大的局限性是什么？一是不支持行级别的增删改(insert, delete, update)二是查询性能非常差(基于Hadoop MapReduce）,不适合延迟小的交互式任务三是不支持事务2. Hive MetaStore是干什么的？Hive persists table schemas and other system metadata.
nginx有选择性进行限制 ronin47 nginx 动静　限制
http { limit_conn_zone $binary_remote_addr zone=addr:10m; limit_req_zone $binary_remote_addr zone=one:10m rate=5r/s;... server {... location ~.*\.(gif|png|css|js|icon)$ {
java-4.-在二元树中找出和为某一值的所有路径 . bylijinnan java
/* * 0.use a TwoWayLinkedList to store the path.when the node can't be path,you should/can delete it. * 1.curSum==exceptedSum:if the lastNode is TreeNode,printPath();delete the node otherwise
Netty学习笔记 bylijinnan java netty
本文是阅读以下两篇文章时： http://seeallhearall.blogspot.com/2012/05/netty-tutorial-part-1-introduction-to.html http://seeallhearall.blogspot.com/2012/06/netty-tutorial-part-15-on-channel.html 我的一些笔记 ===
js获取项目路径 cngolon js
//js获取项目根路径，如： http://localhost:8083/uimcardprj function getRootPath(){ //获取当前网址，如： http://localhost:8083/uimcardprj/share/meun.jsp var curWwwPath=window.document.locati
oracle 的性能优化 cuishikuan oracle SQL Server
在网上搜索了一些Oracle性能优化的文章，为了更加深层次的巩固[边写边记]，也为了可以随时查看，所以发表这篇文章。 1.ORACLE采用自下而上的顺序解析WHERE子句，根据这个原理，表之间的连接必须写在其他WHERE条件之前，那些可以过滤掉最大数量记录的条件必须写在WHERE子句的末尾。（这点本人曾经做过实例验证过，的确如此哦！
Shell变量和数组使用详解 daizj linux shell 变量数组
Shell 变量定义变量时，变量名不加美元符号（$，PHP语言中变量需要），如： your_name="w3cschool.cc" 注意，变量名和等号之间不能有空格，这可能和你熟悉的所有编程语言都不一样。同时，变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）。中间不能有空格，可以使用下划线（_）。不能使用标点符号。不能使用ba
编程中的一些概念，KISS、DRY、MVC、OOP、REST dcj3sjt126com REST
KISS、DRY、MVC、OOP、REST （1）KISS是指Keep It Simple,Stupid（摘自wikipedia），指设计时要坚持简约原则，避免不必要的复杂化。（2）DRY是指Don't Repeat Yourself（摘自wikipedia），特指在程序设计以及计算中避免重复代码，因为这样会降低灵活性、简洁性，并且可能导致代码之间的矛盾。（3）OOP 即Object-Orie
[Android]设置Activity为全屏显示的两种方法 dcj3sjt126com Activity
1. 方法1：AndroidManifest.xml 里，Activity的 android:theme 指定为" @android:style/Theme.NoTitleBar.Fullscreen" 示例: <application
solrcloud 部署方式比较 eksliang solrCloud
solrcloud 的部署其实有两种方式可选，那么我们在实践开发中应该怎样选择呢？第一种：当启动solr服务器时，内嵌的启动一个Zookeeper服务器，然后将这些内嵌的Zookeeper服务器组成一个集群。第二种：将Zookeeper服务器独立的配置一个集群，然后将solr交给Zookeeper进行管理谈谈第一种：每启动一个solr服务器就内嵌的启动一个Zoo
Java synchronized关键字详解 gqdy365 synchronized
转载自：http://www.cnblogs.com/mengdd/archive/2013/02/16/2913806.html 多线程的同步机制对资源进行加锁，使得在同一个时间，只有一个线程可以进行操作，同步用以解决多个线程同时访问时可能出现的问题。同步机制可以使用synchronized关键字实现。当synchronized关键字修饰一个方法的时候，该方法叫做同步方法。当s
js实现登录时记住用户名 hw1287789687 记住我记住密码 cookie 记住用户名记住账号
在页面中如何获取cookie值呢? 如果是JSP的话,可以通过servlet的对象request 获取cookie,可以参考:http://hw1287789687.iteye.com/blog/2050040 如果要求登录页面是html呢?html页面中如何获取cookie呢? 直接上代码了页面:loginInput.html 代码: <!DOCTYPE html PUB
开发者必备的 Chrome 扩展 justjavac chrome
Firebug：不用多介绍了吧https://chrome.google.com/webstore/detail/bmagokdooijbeehmkpknfglimnifench ChromeSnifferPlus：Chrome 探测器，可以探测正在使用的开源软件或者 js 类库https://chrome.google.com/webstore/detail/chrome-sniffer-pl
算法机试题李亚飞 java 算法机试题
在面试机试时，遇到一个算法题，当时没能写出来，最后是同学帮忙解决的。这道题大致意思是：输入一个数，比如4,。这时会输出： &n
正确配置Linux系统ulimit值字符串 ulimit
在Linux下面部署应用的时候，有时候会遇上Socket/File: Can’t open so many files的问题；这个值也会影响服务器的最大并发数，其实Linux是有文件句柄限制的，而且Linux默认不是很高，一般都是1024，生产服务器用其实很容易就达到这个数量。下面说的是，如何通过正解配置来改正这个系统默认值。因为这个问题是我配置Nginx+php5时遇到了，所以我将这篇归纳进
hibernate调用返回游标的存储过程 Supanccy2013 java DAO oracle Hibernate jdbc
注：原创作品，转载请注明出处。上篇博文介绍的是hibernate调用返回单值的存储过程，本片博文说的是hibernate调用返回游标的存储过程。此此扁博文的存储过程的功能相当于是jdbc调用select 的作用。 1，创建oracle中的包，并在该包中创建的游标类型。 ---创建oracle的程
Spring 4.2新特性-更简单的Application Event wiselyman application
1.1 Application Event Spring 4.1的写法请参考10点睛Spring4.1-Application Event 请对比10点睛Spring4.1-Application Event 使用一个@EventListener取代了实现ApplicationListener接口,使耦合度降低; 1.2 示例包依赖 <p