Destiny_blue

机器学习爬大树之决策树（ID3,C4.5）

自己自学机器学习的相关知识，过了一遍西瓜书后准备再刷一遍，后来在看别人打比赛的代码时多次用到XGBoost，lightGBM，遂痛下决心认真学习机器学习关于树的知识，自己学习的初步流程图为：

决策树（ID3,C4.5）---->CART----->Boost Tree---->Gradient Boosting Decision Tree(GBDT)----->XGBoost------>lightGBM

后面还会补上，Bagging，RF(Random Forest），那么机器学习中关于树的知识算是入门了！

一决策树（ID3算法基础）

决策树模型是是一种描述对实例进行分类的树形结构。决策树由结点（node）和有向边（directed edge）组成。结点有两种类型：内部结点（internal node）和叶结点（leaf node）。内部结点表示一个特征或属性，叶结点表示一个类（即决策的结论）

下图是一个决策树的示例（注意我们仅用了两个feature就对数据集中的5个记录实现了准确的分类）：

上图问题我们采用Headache特征作为根节点划分，那么当然我们也可以采用其他特征如：cough,temperatu等特征划分，所以我们要解决的问题是依据什么特征对数据集进行划分最为合理

信息熵：

熵：源于物理学中度量一个热力学系统的无序程度。而在信息学中，熵是对不确定的度量（即混乱程度的度量），1948年，香农引入了信息熵的概念

信息熵：为离散随机事件出现的概率。一个系统越有序，信息熵就越低；反之，一系统越是混乱，它的信息熵就越高。所以信息熵可以被认为是系统有序化的度量。

假设当前样本集合D中第k类样本所占的比例为（k=1,2,3,...,N），则D的信息熵定义为：

$Ent(D) = -\sum _{y=1}^Np_klog_2p_k$

计算信息熵时约定：若，则,显然当N=1时最小;当 $N\to\infty$ , $Ent(D) = log_2\mid N\mid$ ,因为信息熵是衡量一系统不确定（本人喜欢用混乱这个词）程度，显然越大，这当前集合的混乱程度越高！

具体计算来看下面的一个简单的例子，以二分类为例（表示第一类，表示第二类）：

现在我们需要一个定量来找到最佳的划分点

信息增益（information gain） :

假设离散特征（如上面的例子中的Headache）有个可能的属性取值 $\left \{ a^1,a^2,...,a^V\right \}$ ,(如特征headache的severe，no，mild），若使用离散特征来对样本集合进行划分，则会产生个分支结点，其中第个分支结点包含了集合中所用在特征中属性为的样本，记为，而 $\left | D^v \right |$ 即属性为的样本个数,我们可以根据信息熵公式算出的信息熵,再考虑到不同的分支结点所包含的样本数不同，给分支结点赋予权重 $\left | D^v \right |/\left | D \right |$ ,即样本数越多的分支结点的影响越大，于是便可计算出用特征对样本集进行划分所获得的“信息增益（information gain）”：

$Gain(D,A) = Ent(D) - \sum _{v=1}^V\frac{\left | D^v \right |}{\left | D \right |}Ent(D^v)$

现在我们用上面的例子依次计算下分别取特征（headache，Cough，Temperature，Sore）的信息增益就一目了然：

首先要先计算：显然，这是一个二分类问题，我们要根据特征来诊断病人是Flu，还是Cold两类，所以公式中的，当前样本中的样本个数为 $\left | D \right | = 5$ ;

分类为Flu的样本个数为 $\left | D^{flu}\right | = 3$ (即病人编号为p1,p3,p5),则 $p_{Flu} = \left | D^{Flu} \right | / \left | D \right | = 3 / 5=0.6$

分类为cold的样本个数为 $\left | D^{cold} \right | = 2$ （即病人编号为p2,p4）;则 $p_{cold} = \left | D^{cold} \right | / \left | D} \right | = 2 / 5 = 0.4$

故

$Ent(D) = -\sum _{y=1}^Np_klog_2p_k = -(0.6*log_20.6 + 0.4*log_20.4) = 0.97$

（1）计算特征值为Headache的信息增益

1：特征headache的属性值分别为severe，no，mild：

则 $\left | D^{severe} \right | = 2$ $\left | D^{severe} \right | / \left | D \right | = 2 / 5 = 0.4$

$\left | D^{no} \right | = 1$ $\left | D^{no} \right | / \left | D \right | = 1 / 5 = 0.2$

$\left | D^{mild} \right | = 2$ $\left | D^{mild} \right | / \left | D \right | = 2 / 5 = 0.4$

2:分别计算 $Ent(D^{severe}),Ent(D^{no}),Ent(D^{mild})$ :

i): $D^{severe}$ = $\left \{ p1,p5 \right \}$ 两个样本，所以：

$Ent(D^{severe}) = -(2/2 * log_22/2 + 0/2 *log_20/2) = 0$

ii): $D^{no}$ = $\left \{ p2 \right \}$ 一个样本，所以：

$Ent(D^{no}) = -(0/1 * log_20/1 + 1/ 1*log_21/1) = 0$

Iii): $D^{mild}$ = $\left \{ p3,p4 \right \}$ 两个样本，所以：

$Ent(D^{mild}) = -(1/2 * log_21/2 + 1/2 *log_21/2) = 1.0$

3.计算headache的信息增益（将上面的值依次带入公式）

（2）分别计算特征值为Cough,Temperature,Sore信息增益，

与上面的求Headache的步骤一样，在这里不在详细写出

（3）比较每个特征的信息增益，选取最大的特征进行划分（在这里Headache与Cough信息增益相同，我们选取Headache划分），之后再对每一个划分后的子集进行相同的步骤（已用的特征将不再以后的划分中使用），一般情况下叶子节点的生成满足以下步骤：

i):当前结点包含的样本全属于同一类别，将不再划分并作为叶子结点，其类别标签为样本的类别

ii):当前属性集为空，或是所有样本在所有属性上取值相同，将不再划分并作为叶子结点，其类别标签为该结点所含样本最多的类别

iii):当前结点包含的样本集合为空，不能划分并将该结点作为叶子结点，但将其类别设定为其父结点所含样本最多的类别

（我的理解是：以上例子来说，我们假设先取Headache划分，则severe中的样本为（p1，p5），然后在子集（p1，p5）中，我们假设用Sore的特征划分这个子集，那么在Sore中属性值为no的样本是没有的，这个时候就用它的父结点的样本最多的类别来做该叶结点（空集）的类别）

实际上，信息增益准则对可取值数目较多的属性有所偏好，为减小这种偏好可能带来的不利影响，下面介绍著名的C4.5算法

二 C4.5算法

C4.5算法采用增益率（Gain ratio）来选择最优划分特征，我们来看看增益率的计算公式：

$Gain Ratio(D,A) = \frac{Gain(D,A)}{IV(A)}$

其中：

$IV(A) = -\sum_{v=1}^{V}\frac{\left | D^v \right |}{\left | D \right |}log_2\frac{\left | D^v \right |}{\left | D \right |}$

称为特征A的固有值（intrinsic value），特征A的可能取值数目越多（即越大），则的值通常会越大，需要注意的是，增益率准则对可取值数目较少的特征有所偏好，因此，C4.5算法并不是直接选择增益率最大的候选划分特征，而是使用了一个启发式：先从候选划分属性中找出一个信心增益高于平均水平的特征，再从中选择增益率最高的。

连续与缺失值处理：

一连续值处理：到目前为止我们都是用离散特征来生成决策树，但现实学习中有很多连续特征，因为连续特征的可取数目不再有限，因此，不能直接根据连续特征的可取值来对结点进行划分，在这里，我们采用的策略是二分法（bi-partition）对连续特征进行处理。

给定样本集和连续特征，假定在上有个不同的取值，其中第个取值记为：

1:将这些值从小到大进行排序，记为 $\left \{ a^1,a^2,...,a^n \right \}$ ;

2:基于划分点可将样本集分为子集 $D_{t}^{-}$ 和 ${D_{t}^{+}}$ ,其中 $D_{t}^{-}$ 包含那些在特征上取值不大于的样本， $\left |D_{t}^{-} \right |$ 表示其样本个数；而 ${D_{t}^{+}}$ 则包含那些在特征上取值大于的样本， $\left |D_{t}^{-} \right |$ 则表示取值大于的样本个数；

3:把区间 $[a^i,a^{i+1})$ 的中位点 $\frac{a^i+a^{i+1}}{2}$ 作为候选划分点。因此，对连续特征，我们可考察包含个元素的候选划分点集合

$T_a=\left \{ \frac{a^i+a^{i+1}}{2}\mid 1\leq i\leq n-1 \right \}$

4:然后我们可以像离散属性值一样来考察这些划分点，选取最优的划分点进行样本集合的划分，则属性的信息增益公式为：

$Gain(D,a)=\underset{t\in T_a}{max} Gain(D,a,t)$

$=\underset{t\in T_a}{max}Ent(D)-\sum _{\lambda \in \left \{ -,+ \right \}}\frac{\left | D_{t}^{\lambda } \right |}{\left | D \right |}Ent(D_{t}^{\lambda })$

其中是样本集基于划分点二分后的信息增益，于是，我们就可选择使最大化的划分点

具体计算参考下面的一个例子即一目了然：假设我们有6个样本，其一个特征为连续特征，现计算其特征的信息增益，具体步骤与例子如下：

编号	1	2	3	4	5	6
	0.5	0.4	0.1	0.6	0.3	0.2
	0	0	1	0	1	0

i):对连续特征从下到大进行排序：

编号	3	6	5	2	1	4
	0.1	0.2	0.3	0.4	0.5	0.6
	1	0	1	0	0	0

ii):候选划分点集合：

划分点

0.15

0.25

0.35

0.45

0.55

iii):计算每个划分点对应的：

先计算出

1:取划分点0.15

则 $D_{t}^{-}$ = $\left \{ 3 \right \}$ ， ${D_{t}^{+}}$ = $\left \{ 1,2,4,5,6 \right \}$ ；

$\frac{\left | D_t^{-} \right |}{\left | D \right |}=1/6$ ; $\frac{\left | D_t^{+} \right |}{\left | D \right |}=5/6$

$Ent(D_{t}^{- })=-(1/1log_21/1+0/1log_20/1)=0$

$Ent(D_{t}^{+ })=-(4/5log_24/5+1/5log_21/5)=0.721$

$Gain(D,a,t)=0.918-(\frac{1}{6}*0+\frac{5}{6}*0.721)=0.317$

2:取划分点0.25

则 $D_{t}^{-}$ = $\left \{ 3,6 \right \}$ ， ${D_{t}^{+}}$ = $\left \{ 1,2,4,5\right \}$ ；

$\frac{\left | D_t^{-} \right |}{\left | D \right |}=2/6$ ; $\frac{\left | D_t^{+} \right |}{\left | D \right |}=4/6$

$Ent(D_{t}^{- })=-(1/2log_21/2+1/2log_21/2)=1.0$

$Ent(D_{t}^{+ })=-(3/4log_23/4+1/4log_21/4)=0.811$

$Gain(D,a,t)=0.918-(\frac{2}{6}*1.0+\frac{4}{6}*0.811)=0.044$

3:取划分点0.35

则 $D_{t}^{-}$ = $\left \{ 3,6,5 \right \}$ ， ${D_{t}^{+}}$ = $\left \{ 1,2,4\right \}$ ；

$\frac{\left | D_t^{-} \right |}{\left | D \right |}=3/6$ ; $\frac{\left | D_t^{+} \right |}{\left | D \right |}=3/6$

$Ent(D_{t}^{- })=-(2/3log_22/3+1/3log_21/3)=0.918$

$Ent(D_{t}^{+ })=-(3/3log_23/3+0/3log_20/3)=0$

$Gain(D,a,t)=0.918-(\frac{3}{6}*0.918+\frac{3}{6}*0)=0.459$

4:取划分点0.45

则 $D_{t}^{-}$ = $\left \{ 3,6,5,2 \right \}$ ， ${D_{t}^{+}}$ = $\left \{ 1,4\right \}$ ；

$\frac{\left | D_t^{-} \right |}{\left | D \right |}=4/6$ ; $\frac{\left | D_t^{+} \right |}{\left | D \right |}=2/6$

$Ent(D_{t}^{- })=-(2/4log_22/4+2/4log_22/4)=1$

$Ent(D_{t}^{+ })=-(2/2log_22/2+0/2log_20/2)=0$

$Gain(D,a,t)=0.918-(\frac{4}{6}*1+\frac{2}{6}*0)=0.251$

5:取划分点0.55

则 $D_{t}^{-}$ = $\left \{ 3,6,5,2,1 \right \}$ ， ${D_{t}^{+}}$ = $\left \{ 4\right \}$ ；

$\frac{\left | D_t^{-} \right |}{\left | D \right |}=5/6$ ; $\frac{\left | D_t^{+} \right |}{\left | D \right |}=1/6$

$Ent(D_{t}^{- })=-(2/5log_22/5+3/5log_23/5)=0.970$

$Ent(D_{t}^{+ })=-(1/1log_21/1+0/1log_20/1)=0$

$Gain(D,a,t)=0.918-(\frac{5}{6}*0.970+\frac{1}{6}*0)=0.109$

iV):比较每个划分点对应的，取最大的作为划分点：

显然 0.35时最大，故取其作为该连续特征的划分点。

须知，与离散特征不同，若当前结点划分特征为连续特征，那么该特征还可作为其后代结点的划分特征！

注意：其实连续值得处理有一个最优化的方法，不需要逐个计算每个划分点的，仅考虑位于具有不同类标号的两个相邻记录之间的候选划分点，最佳划分点一定是在这些候选划分点中的一个，例如上面的不同类别划分点有 $t = \left \{ 0.15,0.25,0.35 \right \}$ 这3个，因此大大简化了计算；这是因为信息增益的目的是找出一个划分点能最好的划分将相同的类别放在一起，将不同的类别分开，所以若一个划分点左边与右边的样本类别相同，但我们将他们分开，显然是不合理的，所以我们仅需考虑位于不同类别标签之间的候选划分点即可！！！

二缺失值处理：现实任务中常会遇到不完整的样本，即样本某些特征值缺失。如果简单地放弃不完整样本，仅使用无缺失值的样本进行学习，显然是对数据信息极大的浪费，下表是我们以前使用的例子，但一些特征的特征值已经缺失，如果放弃不完整的样本，则仅有一个样本可为我们所用!

所以，我们需要解决两个问题 ：

（1）：如何在特征值缺失的情况下进行划分特征选择；

（2）：给定划分特征，若样本在该特征上的值缺失，如何对样本进行划分？

对缺失值得处理的核心想法是为每个特征都附加一个权重 $p_{A}$ ,每一个样本都附加一个权重 ,在决策树学习开始阶段，根结点中各样本的权重初始化为1

接下来我们看看如何在特征值缺失的情况下进行划分特征选择。

（1）特征值缺失的情况下进行划分特征选择

给定训练集和特征，令 $\widetilde{D}$ 表示中特征上没有缺失值得样本集合，显然我们可以仅根据 $\widetilde{D}$ 来判断用特征划分时的信息增益；假设特征有个可取值 $\left \{ a^1,a^2,...,a^v \right \}$ ，令 $\widetilde{D}^v$ 表示 $\widetilde{D}$ 中特征上取值为样本子集； $\widetilde{D}_k$ 表示 $\widetilde{D}$ 中属于第类（）的样本子集，现假设我们为每个样本赋予一个权重，直观地看，对特征来说，定义以下3个占比：

$\rho =\frac{\sum _{x\in \widetilde{D}}w_x}{\sum_{x\in D}w_x }$ （ $\rho$ 表示无缺失值样本占训练集的比例，即前面提到的特征的权重 $p_{A}$ ，算信息增益用）

$\widetilde{p_k}=\frac{\sum _{x\in \widetilde{D_k}}w_x}{\sum _{x\in \widetilde{D}}w_x}$ （ $\widetilde{p_k}$ 表示无缺失值样本中第类样本的权重之和与无缺失值样本的权重之和的比例，算信息熵用）

$\widetilde{r_v}=\frac{\sum _{x\in \widetilde{D^v}}w_x}{\sum _{x\in \widetilde{D}}w_x}$ （ $\widetilde{r_v}$ 表示无缺失值样本中特征值为的样本权重之和与无缺失值样本的权重之和的比例，算信息增益用）

基于上述定义，我们可将信息增益的计算式推广为如下公式（注意上面几个参数的用处）：

$Gain(D,A)=\rho \times Gain(\widetilde{D},A)$

$=\rho \times\left ( Ent(\widetilde{D})-\sum _{v=1}^{V}\widetilde{r_v}Ent(\widetilde{D}^v) \right )$ ,

其中：

$Ent(\widetilde{D})=-\sum _{v=1}^{N}\widetilde{p_k}log_2\widetilde{p_k}$

直接看上面的公式有些晦涩难懂，其实跟前面学的信息增益相差无几，我们就简单的以上面的例子计算一下：我们想算出特征为Headache的信息增益，其他的类似

训练集= $\left \{ p1,p2,p3,p4,p5 \right \}$ ； $\widetilde{D}$ = $\left \{ p1,p2,p3,p4 \right \}$ ； $\widetilde{D}_{flu}$ = $\left \{ p1,p3 \right \}$ ; $\widetilde{D}_{cold}$ = $\left \{ p2,p4 \right \}$ ; 同样；为每个样本赋予权重=1；

接下来我们开始一个一个的根据公式算出参数：

$\rho =(1+1+1+1) / (1+1+1+1+1) = 4/5$ (不是样本个数比，是权重之和的比值)

$\widetilde{p}_{flu}=(1+1)/(1+1+1+1)) = 1/2$

$\widetilde{p}_{cold}=(1+1)/(1+1+1+1)) = 1/2$

$\widetilde{r}_{severe}=(1)/(1+1+1+1)=1/4$

$\widetilde{r}_{no}=(1)/(1+1+1+1)=1/4$

$\widetilde{r}_{mild}=(1+1)/(1+1+1+1)=1/2$

$Ent(\widetilde{D})=-(2/4*log_22/4+2/4*log_22/4)=1$

$Ent(\widetilde{D}^{severe})=-(1/1*log_21/1+0/1*log_20/1)=0$

$Ent(\widetilde{D}^{no})=-(1/1*log_21/1+0/1*log_20/1)=0$

$Ent(\widetilde{D}^{mild})=-(1/2*log_21/2+1/2*log_21/2)=1$

万事俱备只欠带公式啦：

$Gain(D,A)=\rho \times Gain(\widetilde{D},A)$

$=4/5\times (1-(1/4*0+1/4*0+1/2*1))=0.4$

基于以上步骤，用无缺失值得样本集分别计算出各个特征的信息增益，就很好的回答了问题（1）如何在特征值缺失的情况下进行划分特征选择！

（2）特征值缺失的情况下进行划分特征选择

对问题（2），若样本 $\boldsymbol{x}$ 在划分特征上的取值已知，则将 $\boldsymbol{x}$ 划入与其取值对应的子结点上，且样本权值在子结点中保持为 $\boldsymbol{w_x}$ ；若样本 $\boldsymbol{x}$ 在划分特征上取值未知，则将 $\boldsymbol{x}$ 同时划入所有子结点，且样本权值在与特征值 $\boldsymbol{a^v}$ 对应的子结点中调整为 $\boldsymbol{\widetilde{r_v}\cdot w_x}$ ;

其实，就是让同一个样本以不同的概率划入到不同的子结点中去,还是通过例子来简单的讲讲吧！

假如我们算的Headache的信息增益最大，对其划分有：

$\widetilde{D}_{severe}$ = $\left \{ p1 \right \}$ ; $\widetilde{D}_{no}=\left \{ p2 \right \}$ ; $\widetilde{D}_{mild}=\left \{ p3,p4 \right \}$ ;

但这个样本因为在特征Headache上的值是缺失的，且此时 $\boldsymbol{w_{p5}}=1$ ,将同时划入所有的子结点上

$\widetilde{D}_{severe}$ = $\left \{ p1,p5 \right \}$ 其中 $\boldsymbol{w_{p5}}=1*1=1$

$\widetilde{D}_{no}=\left \{ p2,p5 \right \}$ 其中 $\boldsymbol{w_{p5}}=1*1=1$

$\widetilde{D}_{mild}=\left \{ p3,p4,p5 \right \}$ 其中 $\boldsymbol{w_{p5}}=1/2*1=1/2$

然后在进行下一轮的划分！

这是我的第一篇文章，一方面做为自己的学习笔记；另一方面希望对新学习的小伙伴们提供一些帮助！望共勉，后续文章我也会尽快更新！！有不足之处希望小伙伴们多多指教！！

参考资料：

李航《统计学习方法》

周志华《机器学习》

https://blog.csdn.net/baimafujinji/article/details/51724371

C练题笔记之：Leetcode-393. UTF-8 编码验证月团子 c语言 leetcode 算法
题目：给定一个表示数据的整数数组data，返回它是否为有效的UTF-8编码。UTF-8中的一个字符可能的长度为1到4字节，遵循以下的规则：对于1字节的字符，字节的第一位设为0，后面7位为这个符号的unicode码。对于n字节的字符(n>1)，第一个字节的前n位都设为1，第n+1位设为0，后面字节的前两位一律设为10。剩下的没有提及的二进制位，全部为这个符号的unicode码。这是UTF-8编码的工
SpringBoot+Mybatis+MySQL+Vue+ElementUI前后端分离版：整体布局、架构调整（二）喜欢敲代码的程序员前后端分离 SpringBoot Spring spring boot mybatis mysql vue.js elementui
目录一、前言二、后端调整1.实体类调整2.菜单相关接口3.用户相关接口4.新增工具类5.新增菜单树返回类6.配置类、拦截器三、前端调整1.请求调整2.页面布局、样式调整1.user.vue2.index.vue3.请求拦截四、开发过程中的问题五、附：源码1.源码下载地址六、结语一、前言此文章在上次的基础上进行了部分调整，并根据用户体验（我自己）确认了页面整体布局和数据呈现，暂定就先这样，后续有需要
视觉算法之卷积神经网络清风AI 深度学习算法详解及代码复现计算机视觉 cnn 神经网络深度学习 python 课程设计毕业设计
定义与特点卷积神经网络(ConvolutionalNeuralNetwork,CNN)是一种专为处理具有网格结构的数据而设计的深度学习模型。其独特的结构和功能使其在图像处理、语音识别等领域展现出卓越的性能:CNN的核心设计理念源于对生物视觉系统的模仿。通过模拟大脑皮层中视网膜和视觉皮层的层次化结构,CNN能够有效地捕捉图像中的局部特征并逐步抽象为高层语义信息。这种设计使得CNN特别擅长处理图像和音
【车载测试之CAPL编程系列】：【16】函数定义(2)
车载测试CAPL编程系列：CAPL中的函数定义(2)目录函数定义的基本形式参数类型与返回值函数重载（Overload）返回值限制：不能返回数组AI总结函数定义的基本形式CAPL函数定义具有灵活性，可根据需求设计无返回值、无参数的函数。无返回值、无参数的函数返回值类型：若函数无返回值，可声明为void，且void关键字可省略（CAPL特性，区别于C语言）。参数：允许无参数，但必须保留空括号()。示例
Python通关秘籍之基础教程(一） Smile丶Life丶 Python 通关指南：从零基础到高手之路 python 开发语言后端
引言在编程的世界里，Python就像一位温和而强大的导师，它以简洁优雅的语法和强大的功能吸引着无数初学者和专业人士。无论你是想开发网站、分析数据、构建人工智能，还是仅仅想学习编程思维，Python都是你的理想选择。Python的魅力在于它的易读性和广泛的应用场景。它的代码就像英语句子一样自然，即使是完全没有编程经验的人也能快速上手。同时，Python拥有庞大的生态系统，从Web开发（Django、
进阶之App 测试一只舰性能测试
App知识点什么是activityActivity一个应用程序的组件，它提供一个屏幕来与用户交互。Activity:应用程序中，一个Activity就相当于手机屏幕，它是一种可以包含用户界面的组件，主要用于和用户进行交互。一个应用程序可以包含许多活动，比如事件的点击，一般都会触发一个新的Activity。Activity生命周期四种状态:1、运行2、暂停3、停止4、系统回收（killed）Andr
如何让AI真正理解你的意图（自适应Prompt实战指南） nine是个工程师大语言模型人工智能 prompt
目前的LLM模型，在理解用户意图方面，正在使用自适应Prompt技术，来提升模型的理解能力。目前使用deepseek推理模型能明显看到自适应的一个过程。前言：为什么你的AI总是"答非所问"？相信很多人都遇到过这样的情况：你问：“帮我写一个Python爬虫”AI答：给你一堆理论知识和完整教程（你只想要简单代码）你问：“推荐一部电影”AI答：推荐了《教父》（你想看轻松喜剧）你问：“解释一下机器学习”A
为什么HashMap选择红黑树而非AVL树？揭秘JDK的深度权衡今天你慧了码码码码码码码码码码 JavaSE基础 java 开发语言
当你为HashMap的链表转红黑树机制赞叹时，是否曾疑惑：为什么是红黑树而不是更“平衡”的AVL树？这个看似简单的选择背后，是JDK开发团队在数据结构领域数十年的经验结晶。本文将用真实场景数据，彻底解析这个高频面试题的底层逻辑。一、痛点直击：链表性能崩溃的噩梦想象一个极端场景：恶意攻击者精心构造大量哈希冲突的key，使HashMap退化成超长链表。此时查询效率从O(1)暴跌至O(n)！JDK8的解
AI人工智能与机器学习的大数据融合应用 AI智能探索者人工智能机器学习大数据 ai
AI人工智能与机器学习的大数据融合应用关键词：AI人工智能、机器学习、大数据、融合应用、数据挖掘摘要：本文深入探讨了AI人工智能与机器学习在大数据融合应用方面的相关内容。首先介绍了研究的背景、目的、预期读者和文档结构，对核心术语进行了清晰定义。接着阐述了AI、机器学习和大数据的核心概念及相互联系，给出了形象的文本示意图和Mermaid流程图。详细讲解了核心算法原理，并通过Python源代码进行说明
深入解读 Qwen3 技术报告（一）：引言小爷毛毛（卓寿杰）大模型AIGC 深度学习基础/原理人工智能自然语言处理 python 语言模型深度学习
重磅推荐专栏：《大模型AIGC》《课程大纲》《知识星球》本专栏致力于探索和讨论当今最前沿的技术趋势和应用领域，包括但不限于ChatGPT和StableDiffusion等。我们将深入研究大型模型的开发和应用，以及与之相关的人工智能生成内容（AIGC）技术。通过深入的技术解析和实践经验分享，旨在帮助读者更好地理解和应用这些领域的最新进展1.引言：迎接大型语言模型的新纪元我们正处在一个由人工智能（AI
Agentic AI与Gen AI区别 500佰技术资讯 NodeJS 人工智能
AgenticAI上班族的摸鱼神器我最近一年都在用AI，非但没有感觉AI成了我的助理，却感觉我好像再给AI打工。因为我总是需要不断去喂提示词，要不断调整模型的输出，我就像一个保姆一样要守在ChatGPT旁边，其实此时此刻，人类点亮的科技树，已经够我们用AI去自动化60%-70%的工作时长了，但这个实际进度还在个位数，ni知道问题所在吗。这问题在于，我们还处在generatedAI的阶段，我们和AI
AI人工智能遇上TensorFlow：技术融合新趋势 AI大模型应用之禅人工智能 tensorflow python ai
AI人工智能遇上TensorFlow：技术融合新趋势关键词：人工智能、TensorFlow、深度学习、神经网络、机器学习、技术融合、AI开发摘要：本文深入探讨了人工智能技术与TensorFlow框架的融合发展趋势。我们将从基础概念出发，详细分析TensorFlow在AI领域的核心优势，包括其架构设计、算法实现和实际应用。文章包含丰富的技术细节，如神经网络原理、TensorFlow核心算法实现、数学
大模型之Spring AI实战系列（三十二）：Spring Boot + DeepSeek 实战指南：工具函数（Function Call）实战应用
系列篇章No.文章1大模型之SpringAI实战系列（一）：基础认知篇-开启智能应用开发之旅2大模型之SpringAI实战系列（二）：SpringBoot+OpenAI打造聊天应用全攻略3大模型之SpringAI实战系列（三）：SpringBoot+OpenAI实现聊天应用上下文记忆功能4大模型之SpringAI实战系列（四）：SpringBoot+OpenAI使用OpenAIEmbedding实
SpringBoot-19-企业云端开发实践之web开发晋级皮皮冰燃 SpringBoot spring boot 前端后端
文章目录1静态资源访问1.1static静态资源目录1.2application.properties(过滤规则)2文件上传2.1文件上传原理2.2SprintBoot文件上传功能2.3FileUploadController.java2.4配置访问上传的文件3拦截器3.1interceptor/LoginInterceptor3.2config/WebConfig4RESTful服务和Swagg
rk3566开发之rknn npu 部署三十度角阳光的问候 rknn npu rk3566 目标检测
目录NPU使用RKNN模型非RKNN模型RKNN-Toolkit2工具RKNNNPU测试代码如下main.ccssd.cc调用ssd模型进行目标检测测试ssd.hqt中调用rknnnpu接口NPU使用RK3566内置NPU模块。使用该NPU需要下载RKNNSDK，RKNNSDK为带有NPU的RK3566/RK3568芯片平台提供编程接口，能够帮助用户部署使用RKNN-Toolkit2导出的RKNN
Vue 3结合element plus（问题总结一）之 table数据更新而视图不跟新
Vue3结合elementplus（问题总结一）之table数据更新而视图不更新前言Table组件问题原因及解决小案例前言应为做项目用到vue3，就结合elementplus来做，但是碰到一些问题，上网搜几乎是vue2结合elementui的相似问题。所以自己也是搞了蛮久的，如果有相同的问题希望能帮助到各位，希望可以点赞加搜藏一下。Table组件讲一下Table组件，先看下官网给的基础代码和效果。
爬虫-数据解析打酱油的； python自动化+爬虫爬虫
1.解析概述特性re(正则表达式)bs4(BeautifulSoup)xpath(lxml)pyquery本质文本模式匹配HTML/XML解析器(DOM树操作)XML路径语言(节点导航)jQuery式CSS选择器(封装lxml)学习曲线陡峭中等中等简单(熟悉jQuery/CSS)灵活性极高(处理任意文本)高(容错好，DOM操作)高(路径、轴、谓词)高(jQuery语法)可读性差(模式复杂时难懂)好
网络安全之如何设置云服务器禁止 ping？两种设置方法教你搞定云服务器无法ping通、ping不通云主机、Linux禁止ping、ICMP屏蔽、网络安全最佳实践 sysctl.conf配置代码简单说运维宝典限时特惠服务器 web安全 linux 服务器禁止ping 云服务器禁止ping 服务器禁止ping的方法
云主机如何设置云服务器禁止ping？两种设置方法教你搞定标签：云服务器无法ping通、ping不通云主机、Linux禁止ping、ICMP屏蔽、网络安全最佳实践、sysctl.conf配置前几天上线了一个测试服务，总有安全团队扫端口，还时不时用ping探测存活，我开始思考：云服务器到底要不要禁ping？一、禁ping的好处和坏处作为一名前端转全栈开发的程序员，我越来越觉得网络安全不能忽视。“pin
初学者之Redis 美好的事情能不能发生在我身上 redis 数据库缓存 java 后端 spring spring boot
文章目录前言一、什么是Redis二、Redis基本类型三、通用命令四、基础命令1.String类型2.List类型3.Set类型4.Hash类型5.Zset有序集合类型五、在Java中的运用1.配置信息2.配置类3.操作String类型4.操作Hash类型5.操作List类型6.操作Set类型7.操作ZSet类型六、修改营业状态的实例总结前言第一次学习Redis，最后的目标是在idea中连接red
Maven详解之仓库------本地仓库、远程仓库娜娜带你学架构师 java maven java spring boot 运维算法
在Maven中，任何一个依赖、插件或者项目构建的输出，都可以称之为构件。Maven在某个统一的位置存储所有项目的共享的构件，这个统一的位置，我们就称之为仓库。（仓库就是存放依赖和插件的地方）任何的构件都有唯一的坐标，Maven根据这个坐标定义了构件在仓库中的唯一存储路径，解读Maven在仓库中的存储路径：1.基于groupId准备路径，将句点分隔符转成路径分隔符，就是将“.”转换成“/”;exam
Day2：Python基础（二）——内置类型之字符串 str DIO屑 python 开发语言
系列文章目录上一篇：Day2：Python基础（一）——内置类型之数字类型（int,bool,float,complex）文章目录系列文章目录前言一、字面量二、特点三、访问方式四、常用运算及方法总结前言在本章节中，我们将学习Python的文本序列类型也就是字符串str进行学习。顾名思义，之所以叫叫文本序列类型，首先其内容是文本，其次它是有序的一系列元素，故而称之为序列。接下来，我们会学习字符串的字
python之requests库解析失败又激情的man python每日剂量 python 爬虫开发语言
Pythonrequests库全面解析requests是Python中最受欢迎的HTTP客户端库，以其简洁优雅的API设计著称。有以上使用场景：1.API交互：与RESTfulAPI进行交互，如获取、创建、更新或删除资源。例如：-从TwitterAPI获取推文-发送消息到Slack-调用GoogleMapsAPI进行地理编码2.网页抓取（WebScraping）：虽然通常与BeautifulSou
AI时代下如何学习前端之第2篇：前端开发者的“AI焦虑“：被替代还是被赋能？指尖动听知识库 AI时代下如何学习前端人工智能前端
文/指尖动听知识库-胖胖文章为付费内容，商业行为，禁止私自转载及抄袭，违者必究！！！文章专栏：AI时代下如何学习前端“每当我看到AI生成完美代码时，都会想：我的工作还有价值吗？”——一位有5年经验的前端开发者如果你读了上一篇《ChatGPT问世后ÿ
H3初识——入门介绍之serveStatic、cookie
简介H3是一个轻量、快速、可组合的服务器框架，适用于现代JavaScript运行时。它基于网页标准原语，如Request、Response、URL和Headers。你可以将H3集成到任何兼容的运行时，或者将其他支持web的处理器挂载到H3，几乎不会带来额外延迟。主要特性极简、快速、无依赖支持中间件和自定义路由兼容Node.jsHTTP服务安装npmih3@beta快速开始下面是一个使用H3创建简单
17 - Debian如何配置vsftpd（2）系统用户验证网络傅老师【知识库】Debian12系列 debian 服务器运维 linux vsftp
作者：网络傅老师特别提示：未经作者允许，不得转载任何内容。违者必究！Debian如何配置vsftpd（2）系统用户验证《傅老师Debian知识库系列之17》——原创==前言==傅老师Debian小知识库特点：1、最小化拆解Debian实用技能；<
Golang基础笔记十之goroutine和channel
本文首发于公众号：Hunter后端原文链接：Golang基础笔记十之goroutine和channel这一篇介绍Golang里的goroutine和channel通道。以下是本篇笔记目录：goroutinechannelgoroutine与channel的使用1、goroutinegoroutine是一种轻量级线程（用户态线程），由Go运行时管理而非操作系统，它是Go并发模型的核心，能高效处理大量
2025年通信安全员考试题库及答案职业考试资料墙考试题库学习考证
一、单选题185.生产经营单位的主要负责人未履行本法规定的安全生产管理职责，导致发生较大事故的，处上一年年收入百分之（）的罚款。A.三十B.四十C.六十D.八十答案：C解析：《中华人民共和国安全生产法》（2021年修正本）第九十五条生产经营单位的主要负责人未履行本法规定的安全生产管理职责，导致发生生产安全事故的，由安全生产监督管理部门依照下列规定处以罚款：（一）发生一般事故的，处上一年年收入百分
如何使用Python控制笔记本电脑屏幕亮度？很酷的站长编程笔记电脑 python 开发语言
Python已成为世界上最受欢迎的编程语言之一，这要归功于它的简单性、多功能性和广泛的应用程序。凭借其广泛的库和框架，Python可用于从Web开发到机器学习以及介于两者之间的任何内容。在Python中，最流行的数据分析和操作库之一是Pandas，它提供了处理表格数据的强大工具。在本教程中，我们将使用Python和屏幕亮度控制库来探索如何控制笔记本电脑屏幕亮度。我们将向您展示如何使用Python通
10、量子神经网络：从理论到实践安检量子神经网络 PennyLane Qiskit
量子神经网络：从理论到实践1.量子神经网络简介量子神经网络（QuantumNeuralNetworks,QNNs）是量子计算与经典机器学习相
黑客攻防演练之：红队攻击の常见战术及案例黑客飓风 web安全安全网络
HVV和HW最近大家看到的比较多，一般指的攻防演练。“攻防演练”通常是指在网络安全领域中，通过模拟攻击和防御的对抗过程，来检验和提升系统安全性、人员技能水平以及应对突发事件能力的一种实践性活动。什么是红队攻防演练，也常被称为“网络安全攻防演练”或“红蓝对抗演练”，是一种通过模拟网络攻击和防御过程，来评估和提升网络安全防护能力的实践活动。它广泛应用于网络安全领域，以及军事、企业、政府机构等多个行业，
java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。