不忘初心继续前行

XGBOOST算法完整推论

$X G B O O S T$

ID3:

信息增益(information gain)
$Gain(D,a)=Ent(D)-\sum_{v=1}^V\dfrac{|D^v|}{|D|}{Ent(D^v)}\quad\quad(1)$
其中： $Ent(D)=-\sum_{k=1}^y{P_klog_2P_k}$ 也称为熵。
$\quad\quad$ 决策树的本质是训练数据集中归纳出一组分类规则，我们需要的是一个训练数据矛盾较小的决策树，同时具有很好的泛化能力。 $E n t (D)$ 的值越小，则 $D$ 的训读就越高,熵表示随机变量不确定性的度量。
$表一：贷款申请样本数据表$

ID	年龄	有工作	有自己房子	信贷情况	类别
1	青年	否	否	一般	否
2	青年	否	否	好	否
3	青年	是	否	好	是
4	青年	是	是	一般	是
5	青年	否	否	一般	否
6	中年	否	否	一般	否
7	中年	否	否	好	否
8	中年	是	是	好	是
9	中年	否	是	非常好	是
10	中年	否	是	非常好	是
11	老年	否	是	非常好	是
12	老年	否	是	好	是
13	老年	是	否	好	是
14	老年	是	否	非常好	是
15	老年	否	否	一般	否

例题一：计算上述个样本的信息增益
① $H(D)=-\dfrac{9}{15}log_2\dfrac{9}{15}-\dfrac{6}{15}log_2\dfrac{6}{15}=0.971$

$g(D,A_1)=H(D)-[\dfrac{5}{15}H(D_1)+\dfrac{5}{15}H(D_2)+\dfrac{5}{15}H(D_3)]$

$\quad\quad\quad\quad$ $=0.971-[\dfrac{5}{15}(-\dfrac{2}{5}log_2\dfrac{2}{5})-\dfrac{3}{5}log_2\dfrac{3}{5})$

$\quad\quad\quad\quad\quad\quad\quad\quad$ $+\dfrac{5}{15}(-\dfrac{3}{5}log_2\dfrac{3}{5})-\dfrac{2}{5}log_2\dfrac{2}{5})$

$\quad\quad\quad\quad\quad\quad\quad\quad$ $+\dfrac{5}{15}(-\dfrac{4}{5}log_2\dfrac{4}{5})-\dfrac{1}{5}log_2\dfrac{1}{5})]$

$\quad\quad\quad\quad$ $= 0.971 - 0.888$
$\quad\quad\quad\quad$ $= 0.083$
② $g(D,A_2)=H(D)-[\dfrac{5}{15}H(D_1)+\dfrac{10}{15}H(D_2)]$
$\quad\quad\quad\quad\quad$ $= 0.971 - 0.647$
$\quad\quad\quad\quad\quad$ $= 0.324$
③ $g(D,A_3)=H(D)-[\dfrac{6}{15}H(D_1)+\dfrac{9}{15}H(D_2)]$

$\quad\quad\quad\quad\quad$ $= 0.971 - 0.551$
$\quad\quad\quad\quad\quad$ $= 0.420$
④ $g(D,A_4)=H(D)-[\dfrac{4}{15}H(D_1)+\dfrac{6}{15}H(D_2)+\dfrac{5}{15}H(D_3)]$

$\quad\quad\quad\quad\quad$ $= 0.971 - 0.608$
$\quad\quad\quad\quad\quad$ $= 0.363$

C4.5：

$\qquad$ 特征A对训练数据集D的信息增益比 $g_R(D,A)$ 定义为其信息增益 $g (D, A)$ 与训练数据集D关于特征A的值的熵 $H_A(D)$ 之比即： $gainRatio(D,A)=\frac{g(D,A)}{H_A(D)}\quad\quad(2)$
其中： $H_A(D)=\sum_{i=1}^n\frac{|D_i|}{|D|}log_2\frac{|D_i|}{|D|}$
例如：对年龄求 $H_A(D)$
则 $H_{A_1}(D)=-\dfrac{5}{15}(-\dfrac{2}{5}log\dfrac{2}{5}-\dfrac{3}{5}log\dfrac{3}{5})$

$\quad\quad\quad\quad=-\dfrac{5}{15}(-\dfrac{3}{5}log\dfrac{3}{5}-\dfrac{2}{5}log\dfrac{2}{5})$

$\quad\quad\quad\quad=-\dfrac{5}{15}(-\dfrac{4}{5}log\dfrac{4}{5}-\dfrac{1}{5}log\dfrac{1}{5})$

$\quad\quad\quad\quad=0.888$
则 $gainRatio(D,A_1)=\dfrac{g(D,A_1)}{H_{A1}(D)}=\dfrac{0.083}{0.888}=0.093$

同理： $gainRatio(D,A_2)=\dfrac{0.324}{0.647}=0.501$

$\quad\quad gainRatio(D,A_3)=\dfrac{0.420}{0.551}=0.762$

$\quad\quad gainRatio(D,A_4)=\dfrac{0.363}{0.608}=0.597$
$\quad$ 增益率准则对可取值数目较少的属性有所偏好，因此C4.5算法并不是直接选取增益率最大的候选划分属性，而是使用了一个启发式：先从候选划分属性中找出信息增益高于平均水平的属性，再从中选择增益最高的。
剪枝
$\quad$ 预剪枝：在决策树生成过程过程中，在每个节点上划分之前先进行估计，若当前节点的划分不能带来决策树的泛化性能提升，则停止划分并将当前节点标记为叶节点。
$\quad$ 后剪枝：是先从训练集中生成一棵完整的决策树，然后自底向上对非叶节点进行考察，若将该节点对应的子树替换为叶节点能带来决策树泛化性能的提升，则将该子树替换为叶节点。
$\quad$ 决策树的剪枝，往往是通过极小化决策树整体的损失函数或代价函数来实现，决策树学习的损失函数可以定义为： $C_\alpha(T)=\sum_{t=1}^{|T|}N_tH_t(T)+\alpha|T|\quad\quad(3)$
其中： $∣ T ∣$ 为叶子节点个数， $t$ 是树 $∣ T ∣$ 的叶节点，该叶节点有 $N_t$ 个样本点，其中 $k$ 类的样本点有 $N_{tk}$ 个。
$H_t(T)=-\sum_{k}\dfrac{N_{tk}}{N_t}log_2\dfrac{N_{tk}}{N_t}\quad\quad(4)$
在损失函数中
$C(T)=\sum_{t=1}^{|T|}N_tH_t(T)=-\sum_{t=1}^{|T|}\sum_{k=1}^{K}N_{tk}log_2\dfrac{N_{tk}}{N_t}\quad\quad(5)$
则 $C_\alpha(T)=C(T)+\alpha{|T|}$

例： ${|T|}$ 其实就是模型的复杂度。

颜色	测试人员	结果
yellow	adult	1
yellow	child	0

$1^°$ 局部剪枝前，该节点的损失为： $C_\alpha(T)=C(T)+\alpha{|T|}=0+2\alpha=2\alpha$
$2^°$ 局部剪枝后，该节点的损失为： $C_\alpha(T)=C(t)+\alpha{|t|}=C(t)+\alpha$

其中： $C(t)=N_tH_t=2(-\dfrac{1}{2}log\dfrac{1}{2}-\dfrac{1}{2}log\dfrac{1}{2})=2$

故： $C_\alpha(T)=2+\alpha$ ，定义 $\alpha=\frac{特征个数}{2}$

CART

$\quad$ CART同样是由特征选择树的生成及剪枝组成，既可用于分类也可用于回归，常用Gini系数度量。
$\quad$ CART由两步组成，①决策树的生成基于训练数据生成决策树，生成的树尽量大。②决策树的剪枝，用验证数据集对已经生成的树进行剪枝，并选择最优子树，此时用损失函数最小作为剪枝的标准。
**例：**还以前面表格为例
$\quad A_1,A_2,A_3,A_4$ 分别表示年龄、有工作、有自己房子和信贷情况这四个特征并以1、2、3表示青中老年，以1、2表示有工作和有自己房子的值为是和否，以1、2、3表示信贷情况的值为非常好、好、一般，求特征A的基尼指数。
$Gain(D,A_1=1)=\frac{5}{15}[2×\frac{2}{5}×(1-\frac{2}{5})+\frac{10}{15}[2×\frac{7}{10}×(1-\frac{7}{10})]=0.44$

$Gain(D,A_1=2)=\frac{5}{15}[2×\frac{3}{5}×(1-\frac{3}{5})+\frac{10}{15}[2×\frac{6}{10}×(1-\frac{6}{10})]=0.48$

$Gain(D,A_1=3)=\frac{5}{15}[2×\frac{4}{5}×(1-\frac{4}{5})+\frac{10}{15}[2×\frac{5}{10}×(1-\frac{5}{10})]=0.44$
即： $A_1、A_3$ 都可以，选 $A_1$ 青年一类，(中、老年)为一类。
有工作和有自己的房子都是二份，可以不用切分，则信贷情况 $A_4$ :
$Gain(D,A_4=1)=\dfrac{4}{15}×0+\dfrac{11}{15}[2×\dfrac{5}{11}×(1-\dfrac{5}{11})]=0.36$

$Gain(D,A_4=2)=0.47$

$Gain(D,A_4=3)=0.32$
则： $Gain(D,A_4=3)$ 最小，故选为最优切分点。
$\begin{cases} Gain(D,A_1=3)=0.44\\&&&&\\ Gain(D,A_2=1)=0.32=\frac{5}{15}×(1×0×2)+\frac{10}{15}×(\frac{4}{10}×\frac{6}{10}×2)=0.32\\&&&&\\ Gain(D,A_3=1)=0.27=\frac{6}{15}×(1×0×2)+\frac{9}{15}×(\frac{3}{9}×\frac{6}{9}×2)=0.27\\&&&&\\ Gain(D,A_4=3)=0.32 \end{cases}$
由小到大， $A_3$ 为最优切分点，依次 $A_1、A_2、A_4$ ，故选择 $A_2$ 为最优切分点。

CART分类树的生成算法

$i n p u t$ ：训练数据集D
$o u t p u t$ ：CART分类决策树
$\quad$ 构建训练数据集从根节点开始，递归对每个节点进行以下操作。
$1^°$ 设节点的训练集从根节点开始为 $D$ ，计算现有特征的 $G i n i$ 指数，此时对每一个特征 $A$ ，对其可能取的值 $a$ ,根据样本点对 $A = a$ 的测试为“是”或“否”将 $D$ 分割成 $D_1$ 和 $D_2$ 两部分，则计算 $A = a$ 时的基尼指数。
$2^°$ 在所有特征 $A$ ,以及他们所有可能的切分点中选择基尼指数最小的特征及其对应的切分点作为最优特征和最优切分点，依据最优特征及最优切分点，将现节点生成两个子节点，将训练数据依据特征分配到两个子节点中。
$3^°$ 对两个子节点递归调用步骤 $1^°$ 、 $2^°$ 直到满足停止条件。
$4^°$ 生成CART二叉决策树。
注:算法停止计算条件是节点中的样本个数小于预定阈值，或样本的基尼指数小于预定阈值，或没有更多特征。

XGBOOST全称(Extreme Gradient Boosting)

1、CART
$\quad$ CART(回归树)是xgboost最基本的组成部分，其根据训练特征及训练数据构建分类树，判定每条数据的预测结果，其中构建树使用gain指数计算增益，即构建树的特征选取。
$\quad\quad$ gini指数公式： $Gini(D)=\sum_{k=1}^{K}P_k(1-P_k)\quad\quad(6)$
$P_k$ ：表示数据 $D$ 中类别K的概率， $K$ 表示类别个数。
$\quad\quad$ gini指数增益公式： $Gini(D,A)=-\dfrac{|D_1|}{|D|}Gini(D_1)+\dfrac{|D_2|}{|D|}Gini(D_2)\quad\quad(7)$
$D$ :表示整个数据集， $D_1$ 和 $D_2$ 分别表示数据集中特征为 $A$ 的数据集合特征为非 $A$ 的数据集， $Gini(D_1)$ 表示特征为 $A$ 的数据集的 $g i n i$ 指数。
2、CART回归树的生成
$\quad$ 对回归树用平方误差最小化准则，对分类树用基尼指数最小化。

$\quad1^°$ 给定训练集 $D=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}\quad\quad(8)$

$\quad2^°$ 将输入空间划分为 $M$ 个单元 $R_1,R_2,...,R_M$ ，并在每个单元 $R_m$ 上有一个固定的输出值 $C_m\to$ 回归树模型 $f(x)=\sum_{m=1}^{M}C_mI(x\in R_m)\quad\quad(9)$

$\quad3^°$ 可以用平方误差 $\sum_{x_i\in R_m}(y_i-f(x_i))^2$ 来表示回归树对于训练数据的预测误差则最优 ${\widehat C_m}=ave(y_i|x_i\in R_m)\quad\quad(10)$

$\quad4^°$ 这里采用启发式方法选择第 $j$ 个变量 $x^{(i)}$ 和它的取值 $S$ 作为切分变量和切分点，则两个区域 $R_1(j,s)=\{x|x^{(j)}\le s\}$ 和 $R_2(j,s)=\{x|x^{(j)}\gt s\}\quad\quad(11)$

$\quad5^°$ 寻找最优点 $j$ 和 $s$ ，求解 $\min\limits_{j,s}[\min\limits_{c_1}\sum_{x_i\in R_1(j,s)}(y_i-Cc_1)^2+\min\limits_{c_2}\sum_{x_i\in R_2(j,s)}(y_i-c_2)^2]\quad\quad(12)$

$\quad6^°$ 对固定的输入变量 $j$ 可以找到最优切分点 $s$ ： $\widehat C_1=ave(y_i|x_i\in R_1(j,s))$ 和 $\widehat C_2=ave(y_i|x_i\in R_2(j,s))\quad\quad(13)$

$\quad7^°$ 遍历所有的输入变量，找到最优且分变量 $j$ ，构成一个对 $(j, s)$ ，知道满足停止条件。
例：
$表二： C A R T 例题表$

x	1	2	3	4	5	6	7	8	9	10
y	5.56	5.7	5.91	6.4	6.8	7.05	8.9	8.7	9	9.05

$\quad1^°$ 在本数据集中，只有一个变量，则最优切分点就是 $x$ 。
$\quad2^°$ 则 $x$ 有9个切分点 $[1.5, 2.5, 3.5, 4.5, 5.5, 6.5, 7.5, 8.5, 9.5]$
$\quad3^°$ 损失函数定义为平方损失函数， $Loss(y,f(x))=(f(x)-y)^2$ ,其中 $C_m=ave(y_i|x_i\in R_m)$
$\quad4^°$ 取 $s = 1.5$ 则 $R_1=\{1\}$ , $R_2=\{2,3,4,5,6,7,8,9,10\}$ 这两个区域的输出值分别为： $C_1=5.56$ ， $C_2=\dfrac{1}{9}(5.7+5.91+6.4+6.8+7.05+8.9+8.7+9+9.05)=7.5$ 其结果如下表：

s	1.5	2.5	3.5	4.5	5.5	6.5	7.5	8.5	9.5
$c_1$	5.56	5.63	5.72	5.89	6.07	6.24	6.62	6.88	7.11
$c_2$	7.5	7.73	7.99	8.25	8.54	8.91	8.92	9.03	9.05

$\quad5^°$ 把 $c_1,c_2$ 的值带入公式 $(12)$ 中，如： $m(1.5)=0+[(7.5-5.7)^2+(7.5-5.91)^2+(7.5-6.4)^2+(7.5-6.8)^2$
$\quad\quad\quad(7.5-7.05)^2+(7.5-8.9)^2+(7.5-8.7)^2+(7.5-9)^2+(7.5-9.05)^2]$
$\quad\quad\quad=0+15.7231=15.7231$
$\quad6^°$ 同理，可获得如下表所示：

s	1.5	2.5	3.5	4.5	5.5	6.5	7.5	8.5	9.5
$m (s)$	15.72	12.07	8.36	5.78	3.91	1.93	8.01	11.73	15.74

$\quad7^°$ 由上表可知，取 $s = 6.5$ 时， $m (s)$ 最小，第一个划分变量 $j = x, s = 6.5$ 。
$\quad8^°$ 以选定的 $(j, s)$ 划分区域，并决定输出值，两个区域分别是 $R_1=\{1,2,3,4,5,6\},R_2=\{7,8,9,10\}$ 输出值 $C_m=ave(y_i|x_i\in R_m),c_1=6.24,c_2=8.91$ 。
$\quad9^°$ 对两个子区域继续调用以上步骤：对 $R_1:$

x	1	2	3	4	5	6
y	5.56	5.7	5.91	6.4	6.8	7.05

切分点 $[1.5, 2.5, 3.5, 4.5, 5.5]$ ，则各个区域对应输出 $c$ 值如下表.

s	1.5	2.5	3.5	4.5	5.5
$c_1$	5.56	5.63	5.72	5.89	6.07
$c_2$	6.37	6.54	6.75	6.93	7.05

计算 $m (s)$ 如下：

s	1.5	2.5	3.5	4.5	5.5
$m (s)$	1.3087	0.754	0.2771	0.4368	1.0644

$s = 3.5$ 时最小。
$\quad10^°$ 生成回归树，假设在生成3个区域后停止划分，则最后的回归树形式，
$T=\begin{cases}5.72\quad\quad x\le3.5\\&&&&\\6.75\quad\quad 3.5\lt x\le6.5\\&&&&\\8.91\quad\quad x\gt6.5\end{cases}$

XGBOOST树的定义：

1、下面以论文中的例子为例来说明

$\quad$ 我们通过CART的方法将家庭成员分到了不同的叶子节点，同事每个叶子节点上都有一个分数，CART的叶子节点仅包含分数，每个叶子节点的分数给了我们更多的解释，这让CART统一优点更容易，此时的一棵树是不够用的，这时就需要把更多的树预测结果综合起来， $\Rightarrow$ 符合树模型。如图所示：

2、xgboost推导过程

$\quad1^°$ 将每棵树上的分数简单相加就得到了最终的分数，用数学公式表达如下：
$\hat y=\sum\limits_{k=1}^{K}f_k(x_i),\quad\quad f_k\in F\quad\quad(14)$
$\begin{cases}k:表示树的棵树。\\&&&&\\f:是函数空间中F的一个函数。\\&&&&\\F:表示CART的所有可能集合。\end{cases}$
$\quad2^°$ 增量训练模型，增量训练的方式是在前一步的基础上增加一棵树，而新增的这棵树是为了修复上一棵树的不足，我们把每 $t$ 步的预测用 $\hat y_i^{(t)}$ 表示，如此有如下：
$\begin{cases}\hat y_i^{(0)}=0\&\\ \hat y_i^{(1)}=f_1(x_i)=\hat y_i^{(1)}+f_1(x_i)\\ &{\vdots}\\ \hat y_i^{(t)}=\sum\limits_{k=1}^{t}f_k(x_i)=\hat y_i^{(t-1)}+f_t(x_i)\end{cases}\quad\quad(15)$
$\quad3^°$ 上面的式子在每一部中如何确定哪棵树是我们需要的呢？一个很自然的想法就是增加这棵树是否有助于我们的目标函数。
$Obj^{(t)}=\sum\limits_{i=1}^{n}l(y_i,\hat y_i^{(t)})+\sum\limits_{i=1}^{t}\Omega(f_i)\quad\quad(16)$
即：目标函数=$训练误差+正则化，上式可以转化为：
$Obj^(t)=\sum\limits_{i=1}^{n}l(y_i,\hat y_i^{(t-1)}+f_t(x_i))+\Omega(f_t)+\Psi(t)\quad\quad(17)$

$\quad4^°$ 用MSE(均方差)作为损失函数，如此式子就变成了：
$Obj^(t)=\sum\limits_{i=1}^{n}(y_i-(\hat y_i^{(t-1)}+f_t(x_i)))^2+\sum\limits_{i=1}^{t}\Omega(f_i)\quad\quad(18)$
化简如下： $\quad\quad\quad\quad=\sum\limits_{i=1}^{n}[(y_i-\hat y_i^{(t-1)})-f_t(x_i)]^2+\sum\limits_{i=1}^{t}\Omega(f_i)$
$\qquad\qquad\qquad\qquad=\sum\limits_{i=1}^{n}[(y_i-\hat y_i^{(t-1)})^2-2(y_i-\hat y_i^{(t-1)})f_t(x_i)+f_t^2(x_i)]+\sum\limits_{i=1}^{t}\Omega(f_i)$
$\qquad\qquad\qquad\qquad=\sum\limits_{i=1}^{n}[2(\hat y_i^{(t-1)}-y_i)f_t(x_i)+f_t^2(x_i)]+\Omega(f_t)+\Psi(t)\quad\quad(19)$
$\quad5^°$ 对于用EMS求出来的损失函数的式子比较友好，包含一个一阶项和一个二阶项，但对于其他形式就很难导出，对于其他形式的函数，则我们采用泰勒公式来逼近计算。
$Taylor:\quad\quad f(x+\Delta x)=f(x)+f{'}{(x)}\Delta x+\frac{1}{2}f{''}{(x)}\Delta x^2+\omicron(\Delta x^2)\quad\quad(20)$
$\quad6^°$ 则目标函数 $Obj^{(t)}=\sum\limits_{i=1}^{n}l(y_i,\hat y_i^{(t)})+\sum\limits_{i=1}^{t}\Omega(f_i)$ 可以转化为：
$Obj^{(t)}=\sum\limits_{i=1}^{n}l(y_i,\hat y_i^{(t-1)})+g_if_t(x_i)+\frac{1}{2}h_if_t^{2}(x_i)+\Omega(f_t)+\Psi(t)\quad\quad(21)$
其中： $g_i=\dfrac{\partial[l(y_i,\hat y_i^{(t-1)})]}{\partial[\hat y_i^{(t-1)}]},\quad\quad h_i=\dfrac{\partial^{2}[l(y_i,\hat y_i^{(t-1)})]}{\partial[\hat y_i^{(t-1)}]^2}$
$\quad7^°$ 对上述式子删除常数项，则目标函数为：
$Obj^{(t)}=\sum\limits_{i=1}^{n}[g_if_t(x_i)+\frac{1}{2}h_if_t^2(x_i)]+\Omega(f_t)\quad\quad(22)$
上述式子就是优化目标，式子只需要 $g_i$ 和 $h_i$ ，这就是xgboost为什么能支持自定义损失函数的原因，所以我们能够优化每一种损失函数，包括逻辑回归和加权逻辑回归，只需要把对应的 $g_i$ 和 $h_i$ 作为输入即可。
$\quad8^°$ 模型复杂度，现在说说正则化部分，即 $\Omega(f_t)$ ，在此之前需要定义 $f (x)$
$f_t(x)=w_{q(x)}, \quad\quad w\in R^T,\quad\quad q:R^d \to\{1,2,...,T\}\quad\quad(23)$
$\begin{cases}w:表示叶子节点上的分数所组成的向量。\\&&&&\\q:表示每个数据映射到相应叶子节点的对应关系函数(q(x)叶子节点编号)，从左至右。\\&&&&\\T:表示叶子节点的数量。\end{cases}$
在xgboost中用如下公式定义复杂度：
$\Omega(f)=\gamma T+\frac{1}{2}\lambda\sum\limits_{j=1}^{T}w_j^2\quad\quad(24)$
上述式子表现的非常友好，然而其他算法直接将正则项忽略。
$\quad9^°$ 这一部分是推广过程中比较神奇的一步，根据上述过程，写出第 $t$ 步树的目标值。
$Obj^{(t)}=\sum\limits_{i=1}^{n}[g_iw_{q(x_i)}+ \frac{1}{2}h_iw_{q(x_i)}^2]+\gamma T+\frac{1}{2}\lambda\sum\limits_{j=1}^{T}w_j^2\quad\quad(25)$
化简为： $Obj^{(t)}=\sum\limits_{j=1}^{T}[(\sum\limits_{i\in I_j}g_i)w_j+\frac{1}{2}(\sum\limits_{i\in I_j}h_i+\lambda)w_j^2]+\gamma T\quad\quad(26)$
其中： $\begin{cases} w_{q(x_i)}=f_t(x_i)\\&&&&\\ \sum\limits_{i=1}^{n}w_{q(x_i)}=\sum\limits_{j=1}^{T}w_j \end{cases}$
$\quad10^°$ 上式中的 $I_j=\{i|q(x_i)=j\}$ 表示每个映射到第 $j$ 个叶子节点对应的数据样本，要注意的是，因为映射到相同叶子节点上的数据样本他们的分数是相同的，所以可以改变求和顺序。
同时令： $\begin{cases}G_j=\sum\limits_{i\in I_j}g_i\\&&&&\\H_j=\sum\limits_{i\in I_j}h_i\end{cases}$ ，则上式 $(26)$ 可以转化为：
$Obj^{(t)}=\sum\limits_{j=1}^{T}[G_jw_j+\frac{1}{2}(H_j+\lambda)w_j^2]+\gamma T\quad\quad(27)$
$\quad11^°$ 在上述式子中，每个 $w_j$ 都是相互独立的，那么针对一元二次方程 $G_jw_j+\frac{1}{2}(H_j+\lambda)w_j^2$ 而言，可以比较容易求出当新增这棵树的结构 $q (x)$ 一直的情况下，目标函数最小值的 $w_j$ ，对上式 $(27)$ 求 $w$ 的偏导数：令
$\frac{\partial[Obj^{(t)}]}{\partial w}=\frac{\partial[G_jw_j+\frac{1}{2}(H_j+\lambda)w_j^2]}{\partial w}=0\quad\quad(28)$
对上式求解：即： $G_j+(H_j+\lambda)w_j=0$
$\Rightarrow w_j^{\ast}=\dfrac{-G_j}{H_j+\lambda}\quad\quad(29)$
将 $\Rightarrow w_j^{\ast}=\dfrac{-G_j}{H_j+\lambda}$ 带入式子 $(27)$ 中得:
$Obj^{\ast}=-\frac{1}{2}\sum\limits_{j=1}^{T}\frac{G_j^2}{H_j+\lambda}+\gamma T\quad\quad(30)$
$\quad12^°$ 一旦数的结构已知，则只需计算每个节点上的 $g_i$ 和 $h_i$ ，然后把各个叶子节点上的这些数值加起来，用上述式子便可知道这棵树的优势。

3、如何学习树的结构

$\quad$ 现在已经知道一旦树的结构确定下来便可计算叶子节点的分数，以及这棵树的优劣。那么现在解决如何学习这棵树的结构，一种是遍历所有可能树结构，然后找到最优的那棵树，如此这样做是非常不切实际的，因为情况太多，所以采用贪心解法。就是在树的每层构建过程中来优化目标，假设特征已经选定，可以通过以下式子获得收益：
$Gain=\frac{1}{2}[\frac{G_L^2}{H_L+\lambda}+\frac{G_R^2}{H_R+\lambda}-\frac{(G_L+G_R)^2}{H_L+H_R+\lambda}]-\gamma \quad\quad(31)$
其中： $\begin{cases} \frac{G_L^2}{H_L+\lambda}:左子树分数。\\&&\\ \frac{G_R^2}{H_R+\lambda}:右子树分数。\\&&\\ \frac{(G_L+G_R)^2}{H_L+H_R+\lambda}:不分割节点时原节点的分数。\\&&\\ \gamma:加入新叶子节点引入的复杂度代价。 \end{cases}$

注：

$\quad1^°$ 其实正则为什么可以控制模型复杂度呢？，最直观的就是，为了目标函数最小，自然正则项也要笑， $\Rightarrow$ 正则要小 $\Rightarrow$ 叶子节点个数 $T$ 要小 $\Rightarrow$ 叶子节点数少，树就简单。
$\quad2^°$ 然而为什么要对叶子节点进行 $L_2$ 正则，这个可以参考LR里面进行正则的原因，简单地说就是LR没有加正则，这个 $w$ 的参数空间是无限大的，只有加了正则以后，才会把 $w$ 的解规范在一个范围内。(不带正则的LR每次出来权重 $w$ 都不一样，但是loss都一样，加了 $L_2$ 正则后，每次得到的 $w$ 都一样。)
$\quad3^°$ 具体来说，我们回忆一下建树的时候需要做什么，建树的时候最关键的一步就是选择一个分裂的准则，也就是如何评价分裂的质量，在分类任务里，损失函数可以选择Logloss,分裂准则选择MSE。

XGBOOST手动还原例题

$例题原始表$

ID	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15
$x_1$	1	2	3	1	2	6	7	6	7	6	8	9	10	8	9
$x_2$	-5	5	-2	2	0	-5	5	-2	2	0	-5	5	-2	2	0
$y$	0	0	1	1	1	1	1	0	0	1	1	1	0	0	1

$\quad$ 这里为了计算简单树的深度设置为3(math_depth=3),树的棵树设置为2(num_boost_round=2)，学习率为0.1(eta=0.1),另外正则参数 $\lambda=1,\gamma=0$ 。
$\quad$ 由于后面需要用到Logloss的一阶导数和二阶导数，这里简单推导一下：
$L(y_i,\hat y_i)=y_iln(1+e^{-\hat y_i})+(1-y_i)ln(1+e^{\hat y_i})\quad\quad(32)$

对 $\hat y_i$ 取一阶导数： $L^{'}(y_i,\hat y_i)=y_i\dfrac{-e^{-\hat y_i}}{1+e^{-\hat y_i}}+(1-y_i)\dfrac{e^{\hat y_i}}{1+e^{\hat y_i}}$
$\qquad\qquad\qquad\qquad\qquad=y_i\dfrac{-(e^{-\hat y_i}+1)+1}{1+e^{-\hat y_i}}+(1-y_i)\dfrac{1}{1+e^{-\hat y_i}}$
$\qquad\qquad\qquad\qquad\qquad=y_i(\dfrac{-(e^{-\hat y_i}+1)+1}{e^{-\hat y_i}+1})+(1-y_i)\dfrac{1}{1+e^{-\hat y_i}}$
$\qquad\qquad\qquad\qquad\qquad=y_i*(y_{i,pred}-1)+(1-y_i)*y_{i,pred}$
$\qquad\qquad\qquad\qquad\qquad=y_{i,pred}-y_i$
其中： $\dfrac{1}{1+e^{-\hat y_i}}=y_{i,pred}$
二阶导数：在一阶导数的基础上再取 $\hat y_i$ 的导数。
$L^{''}(y_i,\hat y_i)=y_{i,pred}*(1-y_{i,pred})$
即： $\begin{cases} g_i=y_{i,pred}-y_i\\&&\\ h_i=y_{i,pred}*(1-y_{i,pred}) \end{cases}\quad\quad(33)$

1、建立第一棵树(k=1)

$\quad1^°$ 从根节点开始，在根节点上的样本有ID1——ID15，那么在根节点分裂的时候需要计算信息增益， $Gain=\dfrac{1}{2}[\dfrac{G_L^2}{H_L+\lambda}+\dfrac{G_R^2}{H_R+\lambda}-\dfrac{(G_L+G_R)^2}{H_L+H_R+\lambda}]-\gamma$ 在节点处把样本分成左右节点集合，分别计算两个集合的 $G_L,H_L,G_R,H_R$ 然后计算Gain。
$\quad2^°$ 先计算每个样本的一阶导数和二阶导数，按式子**(33)计算，但这里会有一个问题，那就是第一棵树的预测概率 $y_{i,pred}$ 是多少，在xgboost里，对于分类任务只需初始化为(0,1)中的任意一个数都可以，具体初始参数base_score默认0.5**。(注：base_score是一个经过sigmod映射的值，可以认为是一个概率值，这个在后面第二颗树会用到)
$\quad3^°$ 设base_score=0.5,然后计算一阶和二阶导数值，如下表：

ID	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15
$g_i$	0.5	0.5	-0.5	-0.5	-0.5	-0.5	-0.5	0.5	0.5	-0.5	-0.5	-0.5	0.5	0.5	-0.5
$h_i$	0.25	0.25	0.25	0.25	0.25	0.25	0.25	0.25	0.25	0.25	0.25	0.25	0.25	0.25	0.25

如ID=1样本， $\begin{cases} g_1=y_{i,pred}-y_1=0.5-0=0.5\\&&\\ h_1=y_{i,pred}*(1-y_{1,pred})=0.5*(1-0.5)=0.25 \end{cases}$
那么如何把样本分成两个集合呢，这里就是上面说到的选取一个最佳的特征以及最佳分裂点使得Gain最大。如特征 $x_1$ 有**[1,2,3,6,7,8,9,10]**这八种取值，可以得到以下的划分方式。

$\quad4^°$ 以1为划分时( $x_1\lt1$ )

$\begin{cases} 左子树包含的样本I_L=[\quad]\\&&\\ 右子树包含的样本I_R=[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15] \end{cases}$
则左子树节点为空， $\begin{cases} 一阶导数和：G_L=0\\&&\\ 二阶导数和：H_L=0 \end{cases}$
右子树节点 $\begin{cases} 一阶导数和：G_R=\sum_{i\in I_R}g_i=(0.5+0.5+\cdots+(-0.5))=-1.5\\&&\\ 二阶导数和：H_R=\sum_{i\in I_R}h_i=(0.25+0.25+\cdots+0.25)=3.75 \end{cases}$

$\quad$ 最后我们再计算一下Gain，则Gain=0 $\quad\Leftarrow\quad Gain=\dfrac{G_L^2}{H_L+\lambda}+\dfrac{G_R^2}{H_R+\lambda}-\dfrac{(G_L+G_R)^2}{H_L+H_R+\lambda}$

(注：计算出来以后发现Gain=0,不用惊讶，因为所有节点都分到了右子树，和没分裂之前是一样的，所以增益为0。)

$\quad5^°$ 下面以2为划分节点( $x_1\lt2$ )
$\begin{cases} 左子树包含样本节点I_L=[1,4]\\&&\\ 右子树包含样本节点I_R=[2,3,5,6,7,8,9,10,11,12,13,14,15] \end{cases}$

$\begin{cases} 左子树一阶导数和:G_L=\sum_{i\in I_L}g_i=0.5-0.5=0\\&&\\ 左子树二阶导数和:H_L=\sum_{i\in I_L}h_i=0.25+0.25=0.5 \end{cases}$

AI深度噪音抑制技术
这两年人工智能快速发展，AI已经渗透到了各行各业。在噪音抑制技术领域，AI也同样发挥了巨大的作用。AI深度噪音抑制技术是一种利用人工智能和深度学习算法来动态处理和减少音频信号中的噪声，从而提升音频的清晰度和质量。与传统的噪音抑制技术相比，AI深度噪音抑制能够更智能、更精准地分辨出背景噪音与有用的语音或音乐信号，尤其在复杂、多样的环境下表现尤为出色。1.工作原理AI深度噪音抑制技术基于深度神经网络（
快速排序Java代码简洁实现 SKY技术修炼指南算法
学习过数据结构的同学们都知道，快速排序算法是一种时间复杂度为O(nlogn)的排序算法，在各种排序算法中算是较为高效的方法，企业面试中也经常有手撕快排的环节。本文将阐述算法的基本思想，并用Java代码的形式实现快速排序代码。算法思想快速排序主要采用分治的基本思想，每次将一个位置上的数据归位，此时该数左边的所有数据都比该数小，右边所有的数据都比该数大，然后递归将已归位的数据左右两边再次进行快排，从而
解密 Python 的 MRO：C3 线性化如何优雅解决多重继承的菱形难题》
《解密Python的MRO：C3线性化如何优雅解决多重继承的菱形难题》引言：继承的优雅与复杂在Python的面向对象编程中，继承是一种强大的机制，它让我们能够复用代码、构建抽象层次、实现多态行为。然而，当我们引入多重继承时，继承体系的复杂性也随之而来，尤其是著名的“菱形继承问题”。Python通过一种称为C3线性化（C3Linearization）的算法来解决方法解析顺序（MethodResolu
系统学习图像算法Day.9——OpenCV学习——形态学滤波敏而好学无止境 OpenCV学习图像算法
形态学滤波定义：在我们图像处理中的形态学，往往指的时数学形态学——是一门建立在格论和拓扑学基础上的图像分析学科。形态学基本操作：膨胀、腐蚀膨胀dilate介绍：膨胀就是求局部最大值的操作。从数学角度讲，膨胀就是讲图像与核进行卷积。核与图像卷积，即计算核覆盖的区域的像素点的最大值，并把这个最大值赋值给参考点指定的像素。这样会使图像中的高亮区域逐渐增长。函数调用举例：Matimage=imread("
QCC系列显示交互层的自研技术突破与实践 TengTaiTech QCC308X/QCC518X QCC3091 /QCC3095 qcc304x 蓝牙 QCC ldac
在音频设备智能化进程中，显示交互的流畅度与兼容性已成为用户体验的核心指标。传统方案中，TFT彩屏与多语言适配常面临硬件驱动冲突、功耗失控、字符显示错乱等问题。作为高通平台十年级方案商，腾泰技术在QCC系列中聚焦显示交互层的自研技术突破，形成了一套完整的软硬件协同方案。自研屏显驱动框架：从硬件适配到算法创新腾泰QCC系列的核心竞争力集中在显示交互层的全栈自研技术，其架构可通过「屏显驱动技术栈架构图」
深入理解设计模式：策略模式的艺术与实践 vvilkin的学习备忘设计模式设计模式策略模式
在软件开发中，我们经常会遇到需要根据不同情况选择不同算法或行为的场景。传统的做法可能是使用大量的条件语句（if-else或switch-case），但随着需求的增加和变化，这种硬编码的方式会导致代码难以维护和扩展。策略模式（StrategyPattern）正是为了解决这类问题而诞生的一种优雅的设计模式。策略模式属于行为型设计模式，它定义了一系列算法，并将每个算法封装起来，使它们可以相互替换。这种模
嵌入式开发王明列 zynq fpga开发
逻辑开发与软件开发，皆为高度专业化的技术领域，能在两者之间自由穿梭、解决复杂问题的工程师，凤毛麟角。然而，“精通”本身并无边界。在实际工程中，无论是算法实现、高速接口，还是雷达系统、电机控制，每一个方向都深邃如海，足以让人终身钻研。真正重要的，从来不是“掌握一切”，而是在关键问题域中，构建起可闭环的解决路径，持续迭代，稳步积累。因为：再庞大的系统，也由一个个“可掌握的知识点”组成；再高的门槛，也能
OpenCV直线段检测算法类cv::line_descriptor::LSDDetector 村北头的码农 OpenCV opencv 算法人工智能
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述该类用于实现LSD(LineSegmentDetector)直线段检测算法。LSD是一种快速、准确的直线检测方法，能够在不依赖边缘检测的前提下直接从图像中提取出直线段。它是OpenCV的line_descriptor模块的一部分，常用于计算机视觉任务如图像拼接、S
分布式锁特点、以及用python3实现redis分布式锁数据知道 python3案例和总结分布式 redis 数据库 python
更多内容请见：python3案例和总结-专栏介绍和目录文章目录一、Redis分布式锁核心原理1.1Redis锁机制1.2锁释放二、基础实现代码2.1使用`redis-py`客户端2.2分布式锁类三、使用示例3.1基础锁操作3.2装饰器模式四、高级特性实现4.1Redlock算法（高可用方案）五、生产环境最佳实践5.1锁粒度控制5.2异常处理5.3监控与调试5.4重试机制六、测试代码6.1并发测试6
OpenCV-光流估计
文章目录一、光流估计介绍1.光流估计的基本概念2.光流估计的原理3.光流估计的前提4.OpenCV中的光流估计算法5.参数设置与调整二、代码实现三、注意事项OpenCV中的光流估计是计算机视觉领域中的一项重要技术，它通过分析图像序列中像素点的运动，来估计物体的运动信息。以下是对OpenCV中光流估计的详细解析：一、光流估计介绍1.光流估计的基本概念光流是空间运动物体在观测成像平面上的像素运动的“瞬
HMAC API 接口签名 Message安全验证潘多编程 java高级哈希算法算法
什么是HMAC？HMAC全称（Hash-basedMessageAuthenticationCode，即基于Hash的消息的认证码）。-基本过程为对某个消息，利用提前共享的对称密钥和Hash算法进行加密处理，得到HMAC值。-该HMAC值提供方可以证明自己拥有共享密钥的对称密钥，并且消息自身可以利用HMAC确保未经篡改。为什么需要API接口签名？对外开放的API接口都会面临一些安全问题，例如伪装攻
华为OD机试2025C卷 - 小明的幸运数 (C++ & Python & JAVA & JS & GO) 无限码力华为od 华为OD机试2025C卷华为OD2025C卷华为OD机考2025C卷
小明的幸运数华为OD机试真题目录点击查看:华为OD机试2025C卷真题题库目录｜机考题库+算法考点详解华为OD机试2025C卷100分题型题目描述小明在玩一个游戏，游戏规则如下：在游戏开始前，小明站在坐标轴原点处（坐标值为0）.给定一组指令和一个幸运数，每个指令都是一个整数，小明按照指令前进指定步数或者后退指定步数。前进代表朝坐标轴的正方向走，后退代表朝坐标轴的负方向走。幸运数为一个整数，如果某个
基于单片机汽车尾气检测/有害气体检测/空气质量检测系统小新单片机单片机设计库单片机嵌入式硬件空气质量 51单片机 stm32
传送门其他作品题目速选一览表其他作品题目功能速览概述本设计实现了一种基于单片机的气体检测系统，专用于汽车尾气或环境有害气体浓度的实时监测。系统核心由微控制器（如STM32/51单片机）、多类型气体传感器阵列（如MQ系列/电化学传感器检测）、显示单元（OLED/LCD）及报警模块构成。传感器采集目标气体浓度并输出模拟/数字信号。单片机通过ADC或数字接口读取数据，经滤波、标定补偿（温湿度补偿）及算法
华为OD 机试 2025 B卷 - 周末爬山 (C++ & Python & JAVA & JS & GO) 无限码力华为OD机试真题刷题笔记华为od 华为OD2025B卷华为OD机考2025B卷华为OD机试2025B卷华为OD机试
周末爬山华为OD机试真题目录点击查看:华为OD机试2025B卷真题题库目录｜机考题库+算法考点详解华为OD机试2025B卷200分题型题目描述周末小明准备去爬山锻炼，0代表平地，山的高度使用1到9来表示，小明每次爬山或下山高度只能相差k及k以内，每次只能上下左右一个方向上移动一格，小明从左上角(0,0)位置出发输入描述第一行输入mnk(空格分隔)。代表m*n的二维山地图，k为小明每次爬山或下山高度
用 K-means 算法实现水果分堆 wh_xia_jun AI+医疗算法 kmeans 机器学习
先看运行效果：importnumpyasnpimportmatplotlib.pyplotaspltfromsklearn.clusterimportKMeans#生成模拟数据（两个高斯分布的混合点集）np.random.seed(42)X1=np.random.randn(100,2)+np.array([2,2])#第一簇数据，中心在(2,2)X2=np.random.randn(100,2)
YOLOv13_SSOD：基于超图关联增强的半监督目标检测框架（原创创新算法）
YOLOv13_SSOD：基于超图关联增强的半监督目标检测框架项目背景随着深度学习技术的快速发展，目标检测在各个领域都取得了显著的进展。然而，现有的监督学习方法在实际应用中面临着标注数据稀缺、泛化能力不足等挑战。特别是在火灾烟雾检测、工业质检等特定场景中，获取大量高质量标注数据的成本极高。为了解决这一问题，本项目基于最新发布的YOLOv13架构，结合EfficientTeacher半监督学习框架，
蓝桥杯算法心得——巧克力（贪心）晴天学长算法算法蓝桥杯 java
大家好，我是晴天学长，这是一道国赛题，其中贪心的思想值得学习（逆向思维），写比较器也非常的实用，需要的小伙伴请自取哦！1）巧克力2).算法思路每一天都选保质期内最便宜的注意：这里一定要从最后一天开始选择，这样才可以将保质期这一条件充分利用起来我也是受了其它题解的启发：如果有保质期很长，价格很低，但你很早就吃完了，后面不得不选择昂贵的巧克力，也就是说它原本可以在很多天之后吃就行，现在却在前几天就吃了
USB串口通信、握手协议、深度学习等技术要点深度学习教程, 深度学习人工智能网络协议
基于OpenMV的智能车牌识别系统：从硬件到算法的完整实现前言本文将详细介绍一个基于OpenMV微控制器的智能车牌识别系统的设计与实现。该系统集成了嵌入式视觉处理、串口通信协议、深度学习OCR识别等多种技术，实现了从图像采集到车牌识别的完整流程。系统架构概述整体设计思路该车牌识别系统采用分布式架构设计，将计算密集型任务与嵌入式控制分离：┌─────────────┐USB串口通信┌────────
初探贪心算法 -- 使用最少纸币组成指定金额是小V呀 C++贪心算法算法 c++python
python实现：#对于任意钱数，求最少张数n=int(input("money:"))#输入钱数bills=[100,50,20,10,5,2,1]#纸币面额种类total=0forbinbills:count=n//b#整除面额求用的纸币张数ifcount>0:print(f"{b}纸币张数{count}")n-=count*b#更新剩余金额total+=count#累加纸币数量print(f
数据结构与算法-09贪心算法&动态规划阿诚学java 数据结构与算法学习记录贪心算法动态规划 ios
贪心算法&动态规划1贪心算法介绍贪心算法（GreedyAlgorithm）是一种在每一步选择中都采取在当前状态下最好或最优（即最有利）的选择，从而希望导致结果是全局最好或最优的算法。贪心算法通常用于解决优化问题，如最小化成本、最大化收益等。然而，贪心算法并不总是能够得到全局最优解，但它具有直观、高效、易于实现等优点，因此在许多实际问题中得到了广泛应用。基本思想贪心算法总是从问题的某一个初始解出发。
代码随想录算法Day35(2)||贪心算法-LeetCode406根据身高重建队列
学习内容参考卡哥代码随想录，有文字学习资料（代码随想录网站）和视频讲解（b站）2.根据身高重建队列题目力扣题目链接(opensnewwindow)假设有打乱顺序的一群人站成一个队列，数组people表示队列中一些人的属性（不一定按顺序）。每个people[i]=[hi,ki]表示第i个人的身高为hi，前面正好有ki个身高大于或等于hi的人。请你重新构造并返回输入数组people所表示的队列。返回的
算法第26天|贪心算法：用最少数量的箭引爆气球、无重叠区间、划分字母区间孟大本事要学习算法学习算法贪心算法
今日总结用最少数量的箭引爆气球题目链接：452.用最少数量的箭引爆气球-力扣（LeetCode）代码随想录整体思路：1、统一度量：将所有区间按照左端点进行排序：用到了二维的sort，在类中需要定义静态成员函数cmp，从小到大排列2、进行区间合并（1）如果没有气球，就是0箭（2）如果有气球，至少1箭（3）按照排序从小到大遍历，比较当前位置的左端点是否在前边位置的范围内（&a,vector&b){if
贪心算法（基础算法） breeze_phantom 算法 c++贪心算法
1.引言ok啊，拖更这么长时间也是没有压力（doge）不说啥，直接进入正题。2.概念这个贪心算法呢，看名字就知道，不就是每个步骤都挑最好的嘛，有啥难的。这么说的话......其实确实，你如果真的能很快找出贪心策略那就可以这么说，但还是那句话，策略怎么找是个问题。讲这么多，还没讲一下定义（虽然不讲感觉也能猜出来）：贪心算法就是在特定问题中每一次计算都做出最好的选择，举个例子：本蒟蒻去商店买东西，这商
数据结构与算法----贪心王嘉俊925 算法算法数据结构 C++贪心算法
##贪心算法1.核心思想贪心算法通过每一步的局部最优选择，逐步推导出全局最优解。它的特点是不回溯，即一旦做出选择，就不再修改。2.适用条件贪心算法适用于满足以下两个条件的问题：贪心选择性质：每一步的局部最优选择能够导致全局最优解。最优子结构：问题的最优解包含子问题的最优解。3.贪心算法的证明方法贪心算法的正确性通常需要通过以下方法证明：归纳法：证明每一步的贪心选择都能导致全局最优。交换论证：假设存
零基础数据结构与算法——第五章：高级算法-贪心算法-基础&示例
5.2贪心算法（GreedyAlgorithm）5.2.1贪心算法的基本概念什么是贪心算法？贪心算法是一种在每一步选择中都采取当前状态下最好或最优的选择，从而希望导致结果是最好或最优的算法。生活例子：想象你在超市购物，手里有100元钱，想买尽可能多的零食。如果你采用贪心策略，你会怎么做？你可能会先选择最便宜的零食，然后是第二便宜的，以此类推，直到钱用完。这就是一种贪心策略——每次都选择当前看起来最
【Python】Gym 库：于开发和比较强化学习（Reinforcement Learning, RL）算法彬彬侠 Python基础 python Gym 强化学习 RL Gymnasium
Gym是Python中一个广泛使用的开源库，用于开发和比较强化学习（ReinforcementLearning,RL）算法。它最初由OpenAI开发，提供标准化的环境接口，允许开发者在各种任务（如游戏、机器人控制、模拟物理系统）中测试RL算法。Gym的设计简单且灵活，适合学术研究和工业应用。2022年，Gym被整合到Gymnasium（由FaramaFoundation维护）中，成为主流的强化学习
【LeetCode 1695. 删除子数组的最大得分】解析李昊_ LeetCode leetcode 算法数据结构
目录LeetCode中国站原文原始题目题目描述示例1：示例2：提示：讲解滑动窗口的艺术：寻找无与伦比的“纯净”子数组第一部分：算法思想——可伸缩的“探索边界”1.问题的核心：找到最“值钱”的“纯净”片段2.滑动窗口：一个能屈能伸的“探索框”第二部分：代码实现——滑动窗口的“装备”完整代码展示代码精讲LeetCode中国站原文https://leetcode.cn/problems/maximum-
力扣热题100 - 矩阵：矩阵置零菲英的学习笔记力扣热题100 leetcode 矩阵算法 c++go
本题主要考察代码能力。题目描述：题号：73给定一个mxn的矩阵，如果一个元素为0，则将其所在行和列的所有元素都设为0。请使用原地算法。解题思路：思路一：利用第一行第一列记录0算法思路：1、用2个变量记录矩阵第1行、第1列有没有02、遍历矩阵，如果遇到0则将其对应的第1行和第1列元素置03、遍历矩阵，若元素对应的第1行或第1列元素为0则将其置0时间复杂度：O(N)空间复杂度：O(1)C++//C++
2025 睿抗机器人开发者大赛CAIP-编程技能赛-本科组（省赛）题解弥彦_ 睿抗算法 c++
目录前言RC-u1早鸟价考察算法：思路：注意点：accode：RC-u2谁进线下了？III考察算法：思路：注意点：accode：RC-u3点格棋评价：考察算法：思路：注意点：accode：RC-u4TreeTree的考察算法：思路：注意点：accode：RC-u5游戏设计师考察算法：思路：注意点：accode：前言被t3折磨坏了，几乎全部时间都在调t3，最后只拿了36分，呜呜呜。RC-u1早鸟价考
力扣Leetcode热题100-二分查找解题思路分享花卷321 Leetcode 热门100 leetcode 职场和发展 java 开发语言
1.搜索插入位置题目如下：给定一个排序数组和一个目标值，在数组中找到目标值，并返回其索引。如果目标值不存在于数组中，返回它将会被按顺序插入的位置。请必须使用时间复杂度为O(logn)的算法。思路分析与最基本的二分查找算法类似，但是基础的二分查找在找不到值的时候一般情况下返回-1，找到的值返回索引，下面先展示最基本的二分查找的Java代码：publicstaticintbinarySearch(in
mondb入手木zi_鸣 mongodb
windows 启动mongodb 编写bat文件， mongod --dbpath D:\software\MongoDBDATA mongod --help 查询各种配置配置在mongob 打开批处理，即可启动，27017原生端口，shell操作监控端口扩展28017，web端操作端口启动配置文件配置，数据更灵活
大型高并发高负载网站的系统架构 bijian1013 高并发负载均衡
扩展Web应用程序一.概念简单的来说，如果一个系统可扩展，那么你可以通过扩展来提供系统的性能。这代表着系统能够容纳更高的负载、更大的数据集，并且系统是可维护的。扩展和语言、某项具体的技术都是无关的。扩展可以分为两种： 1.
DISPLAY变量和xhost(原创) czmmiao display
DISPLAY 在Linux/Unix类操作系统上, DISPLAY用来设置将图形显示到何处. 直接登陆图形界面或者登陆命令行界面后使用startx启动图形, DISPLAY环境变量将自动设置为:0:0, 此时可以打开终端, 输出图形程序的名称(比如xclock)来启动程序, 图形将显示在本地窗口上, 在终端上输入printenv查看当前环境变量, 输出结果中有如下内容:DISPLAY=:0.0
获取B/S客户端IP 周凡杨 java 编程 jsp Web 浏览器
最近想写个B/S架构的聊天系统，因为以前做过C/S架构的QQ聊天系统，所以对于Socket通信编程只是一个巩固。对于C/S架构的聊天系统，由于存在客户端Java应用，所以直接在代码中获取客户端的IP，应用的方法为： String ip = InetAddress.getLocalHost().getHostAddress(); 然而对于WEB
浅谈类和对象朱辉辉33 编程
类是对一类事物的总称，对象是描述一个物体的特征，类是对象的抽象。简单来说，类是抽象的，不占用内存，对象是具体的，占用存储空间。类是由属性和方法构成的，基本格式是public class 类名{ //定义属性 private/public 数据类型属性名； //定义方法 publ
android activity与viewpager+fragment的生命周期问题肆无忌惮_ viewpager
有一个Activity里面是ViewPager，ViewPager里面放了两个Fragment。第一次进入这个Activity。开启了服务，并在onResume方法中绑定服务后，对Service进行了一定的初始化，其中调用了Fragment中的一个属性。 super.onResume(); bindService(intent, conn, BIND_AUTO_CREATE);
base64Encode对图片进行编码 843977358 base64 图片 encoder
/** * 对图片进行base64encoder编码 * * @author mrZhang * @param path * @return */ public static String encodeImage(String path) { BASE64Encoder encoder = null; byte[] b = null; I
Request Header简介 aigo servlet
当一个客户端(通常是浏览器)向Web服务器发送一个请求是，它要发送一个请求的命令行，一般是GET或POST命令，当发送POST命令时，它还必须向服务器发送一个叫“Content-Length”的请求头(Request Header) 用以指明请求数据的长度，除了Content-Length之外，它还可以向服务器发送其它一些Headers，如：
HttpClient4.3 创建SSL协议的HttpClient对象 alleni123 httpclient 爬虫 ssl
public class HttpClientUtils { public static CloseableHttpClient createSSLClientDefault(CookieStore cookies){ SSLContext sslContext=null; try { sslContext=new SSLContextBuilder().l
java取反 -右移-左移-无符号右移的探讨百合不是茶位运算符位移
取反：在二进制中第一位，1表示符数，0表示正数 byte a = -1; 原码：10000001 反码：11111110 补码：11111111 //异或: 00000000 byte b = -2; 原码：10000010 反码：11111101 补码：11111110 //异或: 00000001
java多线程join的作用与用法 bijian1013 java 多线程
对于JAVA的join，JDK 是这样说的：join public final void join （long millis ）throws InterruptedException Waits at most millis milliseconds for this thread to die. A timeout of 0 means t
Java发送http请求(get 与post方法请求) bijian1013 java spring
PostRequest.java package com.bijian.study; import java.io.BufferedReader; import java.io.DataOutputStream; import java.io.IOException; import java.io.InputStreamReader; import java.net.HttpURL
【Struts2二】struts.xml中package下的action配置项默认值 bit1129 struts.xml
在第一部份，定义了struts.xml文件，如下所示： <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache.org/dtds/struts
【Kafka十三】Kafka Simple Consumer bit1129 simple
代码中关于Host和Port是割裂开的，这会导致单机环境下的伪分布式Kafka集群环境下，这个例子没法运行。实际情况是需要将host和port绑定到一起， package kafka.examples.lowlevel; import kafka.api.FetchRequest; import kafka.api.FetchRequestBuilder; impo
nodejs学习api ronin47 nodejs api
NodeJS基础什么是NodeJS JS是脚本语言，脚本语言都需要一个解析器才能运行。对于写在HTML页面里的JS，浏览器充当了解析器的角色。而对于需要独立运行的JS，NodeJS就是一个解析器。每一种解析器都是一个运行环境，不但允许JS定义各种数据结构，进行各种计算，还允许JS使用运行环境提供的内置对象和方法做一些事情。例如运行在浏览器中的JS的用途是操作DOM，浏览器就提供了docum
java-64.寻找第N个丑数 bylijinnan java
public class UglyNumber { /** * 64.查找第N个丑数具体思路可参考 [url] http://zhedahht.blog.163.com/blog/static/2541117420094245366965/[/url] * 题目：我们把只包含因子 2、3和5的数称作丑数（Ugly Number）。例如6、8都是丑数，但14
二维数组（矩阵）对角线输出 bylijinnan 二维数组
/** 二维数组对角线输出两个方向例如对于数组： { 1, 2, 3, 4 }, { 5, 6, 7, 8 }, { 9, 10, 11, 12 }, { 13, 14, 15, 16 }, slash方向输出： 1 5 2 9 6 3 13 10 7 4 14 11 8 15 12 16 backslash输出： 4 3
[JWFD开源工作流设计]工作流跳跃模式开发关键点(今日更新) comsci 工作流
既然是做开源软件的,我们的宗旨就是给大家分享设计和代码,那么现在我就用很简单扼要的语言来透露这个跳跃模式的设计原理大家如果用过JWFD的ARC-自动运行控制器,或者看过代码,应该知道在ARC算法模块中有一个函数叫做SAN(),这个函数就是ARC的核心控制器,要实现跳跃模式,在SAN函数中一定要对LN链表数据结构进行操作,首先写一段代码,把
redis常见使用 cuityang redis 常见使用
redis 通常被认为是一个数据结构服务器，主要是因为其有着丰富的数据结构 strings、map、 list、sets、 sorted sets 引入jar包 jedis-2.1.0.jar (本文下方提供下载) package redistest; import redis.clients.jedis.Jedis; public class Listtest
配置多个redis dalan_123 redis
配置多个redis客户端 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&quo
attrib命令 dcj3sjt126com attr
attrib指令用于修改文件的属性.文件的常见属性有:只读.存档.隐藏和系统. 只读属性是指文件只可以做读的操作.不能对文件进行写的操作.就是文件的写保护. 存档属性是用来标记文件改动的.即在上一次备份后文件有所改动.一些备份软件在备份的时候会只去备份带有存档属性的文件.
Yii使用公共函数 dcj3sjt126com yii
在网站项目中，没必要把公用的函数写成一个工具类，有时候面向过程其实更方便。在入口文件index.php里添加 require_once('protected/function.php'); 即可对其引用，成为公用的函数集合。 function.php如下： <?php /** * This is the shortcut to D
linux 系统资源的查看（free、uname、uptime、netstat） eksliang netstat linux uname linux uptime linux free
linux 系统资源的查看转载请出自出处：http://eksliang.iteye.com/blog/2167081 http://eksliang.iteye.com 一、free查看内存的使用情况语法如下： free [-b][-k][-m][-g] [-t] 参数含义 -b:直接输入free时，显示的单位是kb我们可以使用b(bytes),m
JAVA的位操作符 greemranqq 位运算 JAVA位移 <<>>>
最近几种进制，加上各种位操作符，发现都比较模糊，不能完全掌握，这里就再熟悉熟悉。 1.按位操作符：按位操作符是用来操作基本数据类型中的单个bit,即二进制位，会对两个参数执行布尔代数运算，获得结果。与（&）运算： 1&1 = 1, 1&0 = 0, 0&0 &
Web前段学习网站 ihuning Web
Web前段学习网站菜鸟学习：http://www.w3cschool.cc/ JQuery中文网：http://www.jquerycn.cn/ 内存溢出：http://outofmemory.cn/#csdn.blog http://www.icoolxue.com/ http://www.jikexue
强强联合：FluxBB 作者加盟 Flarum justjavac r
原文：FluxBB Joins Forces With Flarum作者：Toby Zerner译文：强强联合：FluxBB 作者加盟 Flarum译者：justjavac FluxBB 是一个快速、轻量级论坛软件，它的开发者是一名德国的 PHP 天才 Franz Liedke。FluxBB 的下一个版本(2.0)将被完全重写，并已经开发了一段时间。FluxBB 看起来非常有前途的，
java统计在线人数（session存储信息的） macroli java Web
这篇日志是我写的第三次了前两次都发布失败！郁闷极了！由于在web开发中常常用到这一部分所以在此记录一下，呵呵，就到备忘录了！我对于登录信息时使用session存储的，所以我这里是通过实现HttpSessionAttributeListener这个接口完成的。 1、实现接口类，在web.xml文件中配置监听类，从而可以使该类完成其工作。 public class Ses
bootstrp carousel初体验快速构建图片播放 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
img{ border: 1px solid white; box-shadow: 2px 2px 12px #333; _width: expression(this.width > 600 ? "600px" : this.width + "px"); _height: expression(this.width &
SparkSQL读取HBase数据，通过自定义外部数据源 superlxw1234 spark sparksql sparksql读取hbase sparksql外部数据源
关键字：SparkSQL读取HBase、SparkSQL自定义外部数据源前面文章介绍了SparSQL通过Hive操作HBase表。 SparkSQL从1.2开始支持自定义外部数据源(External DataSource)，这样就可以通过API接口来实现自己的外部数据源。这里基于Spark1.4.0，简单介绍SparkSQL自定义外部数据源，访
Spring Boot 1.3.0.M1发布 wiselyman spring boot
Spring Boot 1.3.0.M1于6.12日发布，现在可以从Spring milestone repository下载。这个版本是基于Spring Framework 4.2.0.RC1,并在Spring Boot 1.2之上提供了大量的新特性improvements and new features。主要包含以下： 1.提供一个新的sprin