繁城落叶

基于信息增益的ID3决策树介绍。

这篇文章介绍一下一种常见的机器学习算法：决策树。这篇文章的主要是根据《机器学习》中的知识点汇总的，其中使用了《机器学习实战》的代码。关于决策树中基本信息以及公式更加推荐看一看《机器学习》这本书，书中不仅仅介绍了ID3决策树，而且还包含了C4.5以及CART决策树的介绍。所以本篇文章将使用西瓜书（也就是《机器学习》，以后都用西瓜书代替）中的数据集来进行测试。

决策树的介绍。

顾名思义，决策树这个名字可以分为两部分：决策和树。树的意思就是这个算法模型是以树状的形态进行表示的。而树的生成是和“决策”这一过程有关的。

那么决策是什么呢？

我们以二分类任务为例，以西瓜书数据集2.0作为测试数据，该数据最终会有两种不同的分类：好瓜和坏瓜。我们如果想要对一个西瓜进行分类，按照日常的思维就是买瓜的时候就会看看这个西瓜的外形是否正常，敲击西瓜听声音等等手段来判断这个瓜好不好，其实我们在判断的过程中就是一个“决策”的过程。

假如以数据集中的特征为例，来判断某个西瓜是不是好瓜我们该怎么做呢？

我们先看“它是什么颜色的？”，如果是“青绿色”，则我们再看“它的根蒂是什么形态的？”，如果是“蜷缩”，我们再判断“它敲起来是什么声音？”，最后，我们得出最终决策：这是个好瓜。

在这个过程中，我们在观察西瓜颜色、根蒂、敲击声的时候就已经在做“决策”了，但是这个决策只会在判断西瓜的过程中起到一部分的作用，所以这个时候的决策称为“子决策”，而我们通过这多个“子决策”共同决定出一个最终决策：这是个好瓜。

将上述过程图形话就如下所示：

可以从图中能够大概看出是一个树状的图形，其中没有绘出的节点就是一些其他的情况，比如色泽等于浅白、乌黑等。

显然，决策过程的最终结论对应了我们所希望的判定结果，例如“是”或者“不是”好瓜；决策过程中提出的每个判定问题都是对某个属性的“测试”，例如“色泽=？”“根蒂=？”；每个测试的结果或是导出最终结论，或是导出进一步的判定问题，其考虑范围都是在上次决策结果的限定范围之内，例如若在“色泽=青绿”之后再判断“根蒂=？”，则仅再考虑青色瓜的根蒂，而不再考虑其他颜色的西瓜。

所以一个决策树可以分为以下几点进行表示：

一般的，一颗决策树包含一个根节点、若干个内部节点和若干个叶节点；
叶节点对应决策结果（比如说好瓜或者坏瓜）；其他每个节点则对应于一个属性测试（也就是根据某个特征做出的判断，比如“根蒂=？”就是在数据集上对根蒂进行判断测试）；
每个节点包含的样本集合根据属性测试的结果被划分到子节点中（也就是说如果某个特征相同的特征值划分到同一个子节点中，比如“根蒂=蜷缩”，我们就把根蒂这个特征中特征值等于蜷缩的全部划分到一起（当然，需要满足上面一个特征的测试，也就是当前的色泽=青绿））
根节点包含样本全集，根节点的时候还没有进行划分，所以包含样本全集。

划分选择。

我们从上面就能够看出，决策树的整个流程主要就是依赖根据特征所做出的“决策”，从而将样本及划分到下一个节点中去。

那么毫无疑问，决策树的关键点就是如何选择最优划分属性，也就是说西瓜中共有：色泽、根蒂、敲声、纹理、脐部、触感这么多的特征属性，我们优先根据哪一个特征去进行划分呢？

一般而言，随着划分过程的不断进行，我们希望决策树的分支节点所包含的样本尽可能属于同一类别，即节点的“纯度”越来越高。

假设，按照色泽来划分的话，划分完成之后整个西瓜样本集正好被分为两类了，一类全部都是好瓜，另一类全部都是坏瓜，那么在两个分支的纯度都是百分之百了。

但是，如果我们按照根蒂来划分的话，划分完成之后，两个分支里面好瓜和坏瓜都是各占50%，那么这两个分支的纯度就是百分之五十，那么我们就需要继续选取特征继续划分。

很显然，上述中选取“色泽”这个特征来划分更好一点，因为这样划分完的纯度最高（纯度的计算并不是这样的，这里只是为了能够更好的理解“纯度”这个概念才这样计算的）。

那么究竟如何在众多特征中，选取一个特征来进行划分使得各个分支的纯度最大呢？

注：
根据不同的划分方法，决策树就被分为好几种类型，如果使用”信息增益“的方法进行划分，这样的决策树称为ID3决策树，如果使用”增益率“来划分，这样的决策树称为C4.5决策树，如果使用“基尼指数”来划分，这样的决策树称为CART决策树，下面介绍一下“信息增益”的划分方法。

信息熵。

那么问题就来到了“纯度”的计算，通过什么样的算法得到的各个分支纯度最大是现在的问题所在。

这里就引入了“信息熵”这个概念，信息熵是度量样本集合纯度最常用的一种指标。（这里的信息熵是克劳德·艾尔伍德·香农提出的，在《数学之美》中有过这段内容：记得有个国外的学者说过，人们通常把香农与爱因斯坦，牛顿相提并论，这是不公平的—-对香农是不公平的。香农为现代信息革命打下了理论基础）

下面就进入到了如何计算“信息熵”的阶段，首先信息熵的定义为如下：

假定当前样本集合D中第k类样本所占的比例为 pk （ k =1，2，…，| y |（注意这里的k为下标）），则D的信息熵定义为：

注：在Word中按下[Alt]+[=]即可编辑公式。

而且 Ent(D) 的值越小，则D的纯度越高。

我们来根据西瓜数据集2.0（数据集可见：西瓜数据集）计算一下信息熵：

在该数据集中，一共包含17个训练样例，因为数据集中的分类结果只有好瓜和坏瓜两种。所以与上述的信息熵描述对应的就是：这17个训练样例就是样本集合D，集合中共有好瓜和坏瓜，那么集合一共只有两类，所以| y |=2，自然k的取值为1和2。

所以在决策树开始之前，根节点是包含所有的样本集也就是17个样本，其中好瓜的比例为： p1=817 ，那么坏瓜的比例为： p2=917 ，那么套入信息熵公式中：

这样就能够算出根节点的信息熵了，显然这个信息熵很大，所以这个时候根节点的纯度并不高（再次提醒， Ent(D) 越小，D 的纯度越高。）

同时，计算信息熵时约定：若 p =0，则 plog2p=0 。

并且 Ent(D) 的最小值为0，最大值为 log2|y| 。

这个也很好证明：

最小值证明：
当样本中只有一种分类，那么 p1=1 ，带入公式中 log21=0 ，所以计算得到的 Ent(D)=0 ，此时纯度最高，即样本集中只有一个分类。

最大值证明：
当集合中 D 共有 y 个分类，并且样本的分类所占的比重都一样，那么 p1=p2=...=py=1y ，那么可推出 Ent(D)=−log21y=−log2y−1=log2y 。这里的 y 显然为正，所以多一个绝对值符号也无妨。而此时显然纯度最低，毕竟每个分类所占的比重都一样，比较混杂。

这样我们就能够通过计算信息熵的方法，将当前节点样本中的“纯度”计算出来。既然信息熵越小纯度越高，那么我们的目标就是通过属性的划分，让子类中的信息熵变得越来越小。

信息增益。

如何选取特征进行划分，从而让子类中的信息熵变得越来越小呢？这里就引入了“信息增益”这个概念。

首先看一下“信息增益”的概念和计算过程：

假定离散属性 a 有 V 个可能取的值{ a1,a2,...,aV }，若使用 a 来对样本集 D 进行划分，则会产生 V 个分支节点，其中第 v 个分支节点包含了 D 中所有在属性 a 上取值为 av 的样本，记为 Dv 。我们可以根据上述的信息熵计算公式，计算出 Dv 的信息熵，再考虑到不同的分支节点所包含的样本数不同，给分支赋予权重 |Dv||D| ，即样本数越多分支节点的影响值越大，于是可计算出属性 a 对样本集 D 进行划分所获得的“信息增益”。

信息增益计算公式： Gain(D,a)=Ent(D)−∑Vv=1|Dv||D|Ent(Dv)

一般而言，信息增益越大，则意味着使用属性 a 来进行划分所获得的“纯度提升”越大。这是为什么呢？

道理其实也很简单：从上述的信息增益计算公式中能够看出， Ent(D) 的值在当前节点中是一个固定值，比如我们刚才计算出来的0.998。那么 Gain(D,a) 的值就跟后面的 ∑Vv=1|Dv||D|Ent(Dv) 有关，这个值越小，信息增益最后计算得到的值就越大。而这个值越小，就代表着其中的 Ent(Dv) 越小就说明分支中的信息熵越小（这里的权重仅代表着分支节点的影响，所以我们可以先假设各个分支影响值一样，那么就只跟 Ent(Dv) 有关了），信息熵越小也就代表着“纯度”越高，那么这显然就是我们想要的结果。

所以我们的最终目标就已经明确了，计算各个属性的信息增益，找出信息增益最大的那个属性作为我们的划分点，这样决策树的分支节点的纯度就会越来越高。

计算信息增益。

如果将上述的“信息增益”应用到西瓜数据集中，我们选取“色泽”这个属性讲解，那么对应的内容应该是这样的：

全部的西瓜数据集 D 一共有17个样本，其中有色泽这个属性（对应上述的 a ），在色泽中一共有三种（对应上述的 V ）可能取的值 {青绿，浅白，乌黑}，如果我们使用色泽这一属性对全部的样本集 D 进行划分的话，那么一共会产生三个分支（这三个分支在上述中对应的就是 v ），分别是{ D青绿，D浅白，D乌黑 }。

其中 D青绿共有6个样本，这6个样本的色泽全部为青绿，所占总样本的比例为： 617 ；
其中 D浅白共有5个样本，这5个样本的色泽全部为浅白，所占总样本的比例为： 517 ；
其中 D乌黑共有6个样本，这6个样本的色泽全部为乌黑，所占总样本的比例为： 617 ；
（所占的比例对应的就是上述中的权重 |Dv||D| ）

按照“信息增益”的公式，我们需要知道 Ent(D) 的值，这个值在上述已经计算过：

即： Ent(D)=0.998

其次，我们也已经计算出了各个分支的权重 |Dv||D|

即： D青绿=617 、 D浅白=517 、 D乌黑=617

那么我们就只需要计算各个分支的 Ent(Dv) ：

首先来计算 Ent(D青绿) ，在分支样本集 D青绿共有6条数据，其数据如下：

编号	色泽	根蒂	敲声	纹理	脐部	触感	好瓜
1	青绿	蜷缩	浊响	清晰	凹陷	硬滑	是
4	青绿	蜷缩	沉闷	清晰	凹陷	硬滑	是
6	青绿	稍蜷	浊响	清晰	稍凹	软粘	是
10	青绿	硬挺	清脆	清晰	平坦	软粘	否
13	青绿	稍蜷	浊响	稍糊	凹陷	硬滑	否
17	青绿	蜷缩	沉闷	稍糊	稍凹	硬滑	否

按照信息熵的公式： Ent(D)=−∑|y|k=1pklog2pk 。

从数据表中可知共有两种分类，其中好瓜的比例为 36 ，坏瓜的比例也为 36 ，可以使用 p1 来标记好瓜的比例，使用 p2 来标记坏瓜的比例，所以 p1=p2=36 ，带入公式中得到： Ent(D青绿)=−(36log236+36log236)=1.000 ，其实这个就是当前 Ent(D) 的最大值了，说明此时纯度最低，各个分类所占比重一样，无法做出更好的判断。

继续计算 Ent(D浅白) ，在分支样本集 D浅白共有5条数据，其数据如下：

编号	色泽	根蒂	敲声	纹理	脐部	触感	好瓜
5	浅白	蜷缩	浊响	清晰	凹陷	硬滑	是
11	浅白	硬挺	清脆	模糊	平坦	硬滑	否
12	浅白	蜷缩	浊响	模糊	平坦	软粘	否
14	浅白	稍蜷	沉闷	稍糊	凹陷	硬滑	否
16	浅白	蜷缩	浊响	模糊	平坦	硬滑	否

从数据表中得到 p1=15 、 p2=45 ，带入公式得： Ent(D浅白)=−(15log215+45log245)=0.722 ，可以看出这个值就小一点，对应的“纯度”就高，从表中也能够看出”纯度“高，因为此时大多出都为坏瓜，也算比较”纯“了。

最后计算 Ent(D乌黑) ，在分支样本集 D乌黑共有6条数据，其数据如下：

编号	色泽	根蒂	敲声	纹理	脐部	触感	好瓜
2	乌黑	蜷缩	沉闷	清晰	凹陷	硬滑	是
3	乌黑	蜷缩	浊响	清晰	凹陷	硬滑	是
7	乌黑	稍蜷	浊响	稍糊	稍凹	软粘	是
8	乌黑	稍蜷	浊响	清晰	稍凹	硬滑	是
9	乌黑	稍蜷	沉闷	稍糊	稍凹	硬滑	否
15	乌黑	稍蜷	浊响	清晰	稍凹	软粘	否

从数据表中得 p1=46 、 p2=26 ，带入公式得： Ent(D青绿)=−(46log246+26log226)=0.918 ，这个”纯度“也是比较低的，能够从表中看出各个类别所占比例差得不太多。

那么我们得到了所有想要的数值，将它们全部带入到”信息增益“的公式中：

Gain(D,色泽)=Ent(D)−∑3v=1|Dv||D|Ent(Dv)=0.998−(D青绿D×Ent(D青绿)+D浅白D×Ent(D浅白)+D乌黑D×Ent(D乌黑))=0.998−(617×1.000+517×0.722+617×0.918)=0.109

这样我们就计算出了”色泽“的信息增益，我们可以使用同样的方法计算出其他属性的信息增益值：

Gain(D,根蒂)=0.143 ； Gain(D,敲声)=0.141 ； Gain(D,纹理)=0.381 ； Gain(D,脐部)=0.289 ； Gain(D,触感)=0.006 ；

显然，属性”纹理“的信息增益量最大，说明如何按照”纹理“这个属性进行划分的话，分支节点的纯度比较高，于是它被选为划分属性。如果按照”纹理“这一属性对根节点进行划分的话，各分支节点包含的样本子集如下图所示，其中数字代表样本编号：

这样，我们就完成了第一次划分，按照纹理划分之后我们还需要继续划分，以图中的第一个子节点，即 {”纹理“ = ”清晰“}为例，该节点包含的样例 D1 一共有9个样例，此时可用的属性集合为{色泽，根蒂，敲声，脐部，触感}，因为”纹理“的属性已经使用过了，所以不能够再次使用了，然后我们即可根据上述条件基于 D1 再次计算出各个属性的信息信息增益：

Gain(D,根蒂)=0.458 ； Gain(D,敲声)=0.331 ； Gain(D,脐部)=0.458 ； Gain(D,触感)=458 ；

在这里根蒂、脐部、触感三个属性均取得了最大的信息增益，可任取其中之一作为划分属性，再次划分得到子分支。

就这样不断的划分，直到遇到终止条件：

当前节点包含的样本全属于同一类别，无需划分；
当前属性集为空，或是所有样本再所有属性上取值相同，无法划分；
当前节点集合包含的样本集合为空，不能划分。

在第2种情形下，我们把当前节点标记为叶节点，并将其类别设定为该节点所含样本最多的类别；
在第3种情形下，同样把当前节点标记为叶节点，但将其类别设定为其父节点所含样本最多的类别。
注意这两种情形的处理实质不同：情形2实在利用当前节点的后验分布，而情形3是把父节点的样本作为当前节点的先验分布。

总结。

决策树基本知识都进行了介绍，这里选取信息增益作为划分特征的选择，当然也如文中所提到的”增益率“、”基尼指数“等，还有其它方法能够使用。

决策树使用起来效率不错，而且实现起来也不太难，算法的原理也比较理解，可谓是一个经久不衰的模型了。

在本文中并没有提及代码的实现，但是相关的代码已经实现，可以在本人的github中进行查看，传送门：西瓜书决策树实现

代码绘图结果：

Java 大视界 -- Java 大数据机器学习模型在金融市场情绪指数构建与投资决策支持中的应用（339）青云交大数据新视界 Java 大视界 java 大数据机器学习金融情绪指数投资决策量化策略情绪分析
Java大视界--Java大数据机器学习模型在金融市场情绪指数构建与投资决策支持中的应用（339）引言：正文：一、Java构建的金融市场情绪数据采集与预处理体系1.1多源异构数据接入引擎1.2数据采集延迟测试报告1.3情绪数据预处理管道二、Java驱动的金融市场情绪指数构建模型2.1多维度情绪指数计算框架2.2情绪指数与投资决策的映射模型三、Java在金融投资决策支持中的实战应用3.1量化私募情绪
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
在mac m1基于llama.cpp运行deepseek
lama.cpp是一个高效的机器学习推理库，目标是在各种硬件上实现LLM推断，保持最小设置和最先进性能。llama.cpp支持1.5位、2位、3位、4位、5位、6位和8位整数量化，通过ARMNEON、Accelerate和Metal支持Apple芯片，使得在MACM1处理器上运行Deepseek大模型成为可能。1下载llama.cppgitclonehttps://github.com/ggerg
【机器学习笔记Ⅰ】9 特征缩放巴伦是只猫机器学习机器学习笔记人工智能
特征缩放（FeatureScaling）详解特征缩放是机器学习数据预处理的关键步骤，旨在将不同特征的数值范围统一到相近的尺度，从而加速模型训练、提升性能并避免某些特征主导模型。1.为什么需要特征缩放？(1)问题背景量纲不一致：例如：特征1：年龄（范围0-100）特征2：收入（范围0-1,000,000）梯度下降的困境：量纲大的特征（如收入）会导致梯度更新方向偏离最优路径，收敛缓慢。量纲小的特征（如
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
【大模型与机器学习解惑】什么是A/B测试，为何进行A/B测试？
以下内容将围绕机器学习中的A/B测试展开，从概念与背景到实施细节、示例代码、优化思路和未来建议，并在最后给出一个整体的“输出目录”供参考。目录什么是机器学习的A/B测试为何要进行A/B测试A/B测试的实施流程示例代码与详细解释优化方向与未来建议结语1.什么是机器学习的A/B测试A/B测试（也常被称作对照试验、SplitTest）最早多用于互联网产品的功能或界面迭代中，指的是将用户或样本随机分为两组
详解LLMOps，将DevOps用于大语言模型开发
大家好，在机器学习领域，随着技术的不断发展，将大型语言模型（LLMs）集成到商业产品中已成为一种趋势，同时也带来了许多挑战。为了有效应对这些挑战，数据科学家们转向了一种新型的DevOps实践LLM-OPS，专为大型语言模型的开发和维护而设计。本文将介绍LLM-OPS的核心思想，并分析这一策略如何帮助数据科学家更高效地运用DevOps的优秀实践，从而在语言模型的开发和部署过程中，提升工作效率和成果的
搜广推校招面经九十一
美团机器学习/数据挖掘算法工程师_二面一、介绍一下ESMM模型，是否有进行过函数推导传统的转化率建模方式：只用发生点击（click=1）的样本来训练CVR模型。CVR定义如下：CVR=P(y=1∣x,z=1)CVR=P(y=1|x,z=1)CVR=P(y=1∣x,z=1)y=1表示用户发生了转化（如购买）z=1表示用户点击了广告这样做的问题：样本选择偏差（SampleSelectionBias,S
python 计算生态概览的概述
文章目录前言python计算生态库的介绍1.网络爬虫2.数据分析3.文本处理4.数据可视化5.机器学习6.图形用户界面7.游戏开发8.网络应用开发前言python计算生态概览的解释Python计算生态概览是对Python作为一门强大而广泛使用的编程语言所拥有的庞大软件集合的整体描述和概述。这个生态体系不仅包含了Python的标准库（stdlib），即随Python解释器安装的基本模块，还涵盖了极其
Google机器学习实践指南(模型预测偏差) AI_Auto 人工智能机器学习人工智能
Google机器学习（31）-模型预测偏差预测偏差：模型为何总是"猜不准"的真相揭秘你的模型预测准确率高达95%，却总是与实际情况差那么一点点？这可能是预测偏差在作祟！本文将带你深入探索这个被忽视的模型"隐形杀手"。一、什么是预测偏差？一个生活化案例想象一下，你网购了一个智能体重秤，连续一周称重显示都是60kg。但你去健身房用专业设备测量，实际是62kg。这种系统性的测量偏差，就是预测偏差在现实中
【机器学习|学习笔记】用 Python 结合 graphviz 生成 ID3、C4.5、CART 三种决策树的结构示意图。
【机器学习|学习笔记】用Python结合graphviz生成ID3、C4.5、CART三种决策树的结构示意图【机器学习|学习笔记】用Python结合graphviz生成ID3、C4.5、CART三种决策树的结构示意图文章目录【机器学习|学习笔记】用Python结合graphviz生成ID3、C4.5、CART三种决策树的结构示意图用Python结合graphviz生成ID3、C4.5、CART三种
智能产品经理的核心能力 AI天才研究院 Agentic AI 实战 AI人工智能与大数据 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
智能产品经理的核心能力1.背景介绍在当今快节奏的数字时代,产品经理扮演着至关重要的角色,他们负责确保产品满足用户需求,实现商业目标,并保持竞争优势。随着人工智能(AI)和机器学习(ML)技术的不断发展,智能产品经理的概念应运而生。智能产品经理需要将传统的产品管理技能与新兴技术相结合,以创建具有创新性和智能化的产品体验。智能产品不仅需要满足功能需求,还需要提供个性化、智能化和无缝的用户体验。这对产品
使用Python进行机器学习入门指南软考和人工智能学堂 Python开发经验 python 机器学习开发语言
使用Python进行机器学习入门指南机器学习（MachineLearning）是人工智能（ArtificialIntelligence,AI）的一个重要分支，旨在通过算法和统计模型，使计算机系统能够自动从数据中学习和改进。Python作为机器学习领域的主流编程语言，提供了丰富的库和工具来实现各种机器学习任务。本文将介绍如何使用Python进行机器学习，包括基本概念、常用库以及一个实战项目示例。目录
【亲测免费】 CatBoost 教程项目使用指南
CatBoost教程项目使用指南tutorials项目地址:https://gitcode.com/gh_mirrors/tutorials1/tutorials1.项目介绍CatBoost是一个高效、灵活且易于使用的梯度提升库，特别适用于处理分类特征。它由Yandex开发，广泛应用于机器学习和数据科学领域。CatBoost提供了丰富的功能，包括自动处理分类特征、支持GPU训练、内置的交叉验证和模
Python自动化机器学习平台库之mindsdb使用详解
概要MindsDB是一个开源的自动化机器学习平台，它通过SQL接口简化了机器学习模型的创建、训练和预测过程。该库的核心理念是将机器学习功能直接集成到数据库中，让开发者无需深入了解复杂的机器学习算法，就能够快速构建和部署预测模型。MindsDB支持多种数据源连接，包括MySQL、PostgreSQL、MongoDB等主流数据库，同时提供了丰富的PythonAPI接口，使得数据科学家和开发者能够在熟悉
堡垒机操作行为异常检测的机器学习算法应用
一、传统检测模式的困境与机器学习的破局价值在数字化转型浪潮中，堡垒机作为运维安全的核心防线，面临着操作行为复杂度激增与检测能力滞后的双重挑战。传统检测手段主要依赖静态规则库与统计模型，存在三大致命缺陷：规则固化与误报泛滥：某金融机构曾因规则库未及时更新，导致运维人员正常批量操作被误判为“暴力破解”，单日误报量超2000次，消耗安全团队60%的精力。动态行为适应性弱：微服务架构下，运维人员访问路径呈
最全自动驾驶数据集（11/4号已更新）数据猎手小k 自动驾驶人工智能机器学习
自动驾驶是一个快速发展的行业，它融合了人工智能、机器学习、传感器技术、高精度地图和先进的计算平台等多种技术。技术方面，自动驾驶汽车依赖于先进的传感器、如激光雷达、摄像头、毫米波雷达等，以及强大的计算平台来处理大量数据，自动驾驶数据集是训练和验证自动驾驶系统的关键资源，它提供了丰富的场景和条件，使算法能够学习和适应复杂的真实世界驾驶环境。一、研究背景自动驾驶技术的发展需要大量的数据来训练和优化算法，
机器学习深度学习驱动在光子学设计中的应用与未来【专题培训会议邀您共探科技前沿】软研科技信息与通信信号处理量子计算人工智能
一、背景介绍在智能科技飞速发展的今天，光子学设计与智能算法的结合正成为科研创新的热点。深度学习、机器学习等算法在光子器件的逆向设计、超构表面材料设计、光学神经网络构建等方面展现出巨大潜力。二、会议亮点由北京软研国际信息技术研究院主办的“智能算法驱动的光子学设计与应用”专题培训会议，将深入探讨以下核心内容：光子器件的逆向设计：利用深度学习优化多参数光子器件设计。超构表面与超材料设计：智能算法在新型光
机器学习与光子学的融合正重塑光学器件设计范式 m0_75133639 光电智能电视二维材料电子半导体人工智能顶刊 nature
Nature/Science最新研究表明，该交叉领域聚焦六大前沿方向：光子器件逆向设计、超构材料智能优化、光子神经网络加速器、非线性光学芯片开发、多任务协同优化及光谱智能预测。系统掌握该领域需构建四维知识体系：1、基础融合——从空间/集成光学系统切入，解析机器学习赋能光学的理论必然性，涵盖光学神经网络构建原理2、逆向设计革命——通过AnsysOptics实战，掌握FDTD算法与粒子群/拓扑优化技术
AI模型训练新范式：基于同态加密的隐私保护方案 AIGC应用创新大全人工智能同态加密区块链 ai
AI模型训练新范式：基于同态加密的隐私保护方案技术解析关键词同态加密（HomomorphicEncryption）、隐私保护机器学习（PPML）、全同态加密（FHE）、安全多方计算（MPC）、加密数据训练摘要本报告系统解析基于同态加密的AI模型训练新范式，覆盖从理论基础到工程实践的全生命周期。首先通过第一性原理推导同态加密的数学本质，对比传统隐私保护技术的局限性；其次构建“加密-训练-解密”全流程
量子机器学习入门：从理论到实践
量子机器学习入门：从理论基石到实践路径元数据框架标题量子机器学习入门：从理论基石到实践路径——连接量子计算与人工智能的未来桥梁关键词量子计算；机器学习；量子算法；量子神经网络；Qiskit；PennyLane；量子变分算法摘要量子机器学习（QuantumMachineLearning,QML）是量子计算与机器学习的交叉领域，通过量子计算的叠加态、纠缠和并行性解决传统机器学习的计算瓶颈（如高维数据处
全球人工智能与机器学习大会PPT a flying bird 论文解读和大咖技术号记录人工智能
大会演讲PPT合集https://ppt.infoq.cn/list/93PPT分享|ppt|人工智能|aicon|infoq|机器学习PPT分享,前段时间的AICon北京站2021全球人工智能与机器学习大会（https://aicon.infoq.cn/2021/beijing），汇集了很多业界大佬，工业界多个方向的从业人员分享了他们在实际业……https://xw.qq.com/cmsid/2
人工智能基础知识PPT课件智慧化智能化数字化方案方案解读馆人工智能入门人工智能学习人工智能课件人工智能PPT
人工智能基础知识定义与概念：人工智能是研究、开发用于模拟、延伸和扩展人类智能行为的综合性科学，其目的是让计算机系统具备执行人类智能任务的能力。涉及计算机科学、数学等多学科，研究对象是让系统具备智能，智能包括认知、适应和自主能力等维度。学派与方法学派：有符号主义、联结主义、行为主义等学派，分别从不同角度研究人工智能。方法：包括基于知识、学习和仿生的方法，如专家系统、机器学习、深度学习等。分类与发展分
数据挖掘：从理论到实践的深度探索代码老y 数据挖掘人工智能
在当今数字化时代，数据已经成为企业决策的重要依据。数据挖掘作为一门从大量数据中提取有价值信息的技术，已经广泛应用于各个领域，如金融、医疗、零售、互联网等。本文将深入探讨数据挖掘的基本概念、主要技术和实际应用案例，帮助读者更好地理解数据挖掘的价值和应用。一、数据挖掘的基本概念（一）数据挖掘的定义数据挖掘（DataMining）是从大量数据中提取有用信息的过程。它结合了统计学、机器学习、数据库技术和人
开发智能化的企业并购风险评估模型
开发智能化的企业并购风险评估模型关键词：企业并购、风险评估、人工智能、机器学习、深度学习、数学建模摘要：本文详细探讨了开发智能化企业并购风险评估模型的背景、核心概念、算法原理、系统架构设计以及项目实战。通过结合机器学习和深度学习技术，提出了一种基于数据驱动的智能化风险评估方法，旨在帮助企业更准确地识别和预测并购过程中的潜在风险，提升决策的科学性和有效性。第1章:企业并购风险评估模型的背景与问题描述
机器学习手写字体识别系统：技术演进与应用实践万能小贤哥机器学习人工智能
引言：手写字体识别的技术定位与价值在信息处理领域，人工录入手写文本的低效性与机器识别的高效性形成鲜明对比。例如，医疗处方的人工处理需约5分钟/张，而采用手写字体识别技术可将时间缩短至10秒/张，显著提升处理效率。作为计算机视觉与人工智能的重要分支，手写字体识别技术通过将手写文本转换为可编辑电子文本，不仅大幅减少人工输入时间和错误，降低人工处理成本，还能在大量数据处理时保持高于人工录入的准确性，是人
机器学习算法：核心原理与前沿发展综述 fmvrj34202 机器学习算法人工智能
机器学习算法作为人工智能的核心驱动力，正在重塑我们解决问题的范式。本文将系统性地探讨机器学习算法的分类体系、数学基础、优化方法以及最新发展趋势，为从业者提供技术参考。一、算法分类体系根据学习范式，机器学习算法可分为三大类：监督学习：基于标注数据的建模方法线性回归：最小化平方误差的闭式解θ=(XᵀX)⁻¹Xᵀy支持向量机：通过核技巧实现非线性分类，优化目标为max(0,1-yᵢ(w·xᵢ+b))决策
「日拱一码」020 机器学习——数据处理胖达不服输「日拱一码」机器学习人工智能数据处理 python
目录数据清洗缺失值处理删除缺失值：填充缺失值：重复值处理检测重复值处理重复值异常值处理Z-score方法IQR方法（四分位距）数据一致性检查数据转换规范化（归一化）Min-Max归一化MaxAbsScaler标准化离散化等宽离散化等频离散化数据清洗数据清洗是数据处理的第一步，目的是去除噪声数据、处理缺失值和异常值，使数据更加干净、可用缺失值处理删除缺失值：如果数据集中缺失值较少，可以直接删除包含缺
怎么样才能成为专业的程序员？ cocos2d-x小菜编程 PHP
如何要想成为一名专业的程序员？仅仅会写代码是不够的。从团队合作去解决问题到版本控制，你还得具备其他关键技能的工具包。当我们询问相关的专业开发人员，那些必备的关键技能都是什么的时候，下面是我们了解到的情况。关于如何学习代码，各种声音很多，然后很多人就被误导为成为专业开发人员懂得一门编程语言就够了？！呵呵，就像其他工作一样，光会一个技能那是远远不够的。如果你想要成为
java web开发高并发处理 BreakingBad java Web 并发开发处理高
java处理高并发高负载类网站中数据库的设计方法（java教程,java处理大量数据，java高负载数据）一：高并发高负载类网站关注点之数据库没错,首先是数据库,这是大多数应用所面临的首个SPOF。尤其是Web2.0的应用，数据库的响应是首先要解决的。一般来说MySQL是最常用的，可能最初是一个mysql主机，当数据增加到100万以上，那么，MySQL的效能急剧下降。常用的优化措施是M-S（
mysql批量更新 ekian mysql
mysql更新优化：一版的更新的话都是采用update set的方式，但是如果需要批量更新的话，只能for循环的执行更新。或者采用executeBatch的方式，执行更新。无论哪种方式，性能都不见得多好。三千多条的更新，需要3分多钟。查询了批量更新的优化，有说replace into的方式，即： replace into tableName(id,status) values
微软BI（3） 18289753290 微软BI SSIS
1) Q：该列违反了完整性约束错误；已获得 OLE DB 记录。源:“Microsoft SQL Server Native Client 11.0” Hresult: 0x80004005 说明:“不能将值 NULL 插入列 'FZCHID'，表 'JRB_EnterpriseCredit.dbo.QYFZCH'；列不允许有 Null 值。INSERT 失败。”。 A：一般这类问题的存在是
Java中的List g21121 java
List是一个有序的 collection（也称为序列）。此接口的用户可以对列表中每个元素的插入位置进行精确地控制。用户可以根据元素的整数索引（在列表中的位置）访问元素，并搜索列表中的元素。与 set 不同，列表通常允许重复
读书笔记永夜-极光读书笔记
1. K是一家加工厂,需要采购原材料,有A,B,C,D 4家供应商,其中A给出的价格最低,性价比最高,那么假如你是这家企业的采购经理,你会如何决策? 传统决策: A:100%订单 B,C,D:0% &nbs
centos 安装 Codeblocks 随便小屋 codeblocks
1.安装gcc,需要c和c++两部分,默认安装下,CentOS不安装编译器的,在终端输入以下命令即可yum install gccyum install gcc-c++ 2.安装gtk2-devel,因为默认已经安装了正式产品需要的支持库,但是没有安装开发所需要的文档.yum install gtk2* 3. 安装wxGTK yum search w
23种设计模式的形象比喻 aijuans 设计模式
1、ABSTRACT FACTORY—追MM少不了请吃饭了，麦当劳的鸡翅和肯德基的鸡翅都是MM爱吃的东西，虽然口味有所不同，但不管你带MM去麦当劳或肯德基，只管向服务员说“来四个鸡翅”就行了。麦当劳和肯德基就是生产鸡翅的Factory 　　工厂模式：客户类和工厂类分开。消费者任何时候需要某种产品，只需向工厂请求即可。消费者无须修改就可以接纳新产品。缺点是当产品修改时，工厂类也要做相应的修改。如：
开发管理 CheckLists aoyouzi 开发管理 CheckLists
开发管理 CheckLists(23) -使项目组度过完整的生命周期开发管理 CheckLists(22) -组织项目资源开发管理 CheckLists(21) -控制项目的范围开发管理 CheckLists(20) -项目利益相关者责任开发管理 CheckLists(19) -选择合适的团队成员开发管理 CheckLists(18) -敏捷开发 Scrum Master 工作开发管理 C
js实现切换百合不是茶 JavaScript 栏目切换
js主要功能之一就是实现页面的特效,窗体的切换可以减少页面的大小,被门户网站大量应用思路: 1,先将要显示的设置为display:bisible 否则设为none 2,设置栏目的id ,js获取栏目的id,如果id为Null就设置为显示 3,判断js获取的id名字;再设置是否显示代码实现: html代码: <di
周鸿祎在360新员工入职培训上的讲话 bijian1013 感悟项目管理人生职场
这篇文章也是最近偶尔看到的，考虑到原博客发布者可能将其删除等原因，也更方便个人查找，特将原文拷贝再发布的。“学东西是为自己的，不要整天以混的姿态来跟公司博弈，就算是混，我觉得你要是能在混的时间里，收获一些别的有利于人生发展的东西，也是不错的，看你怎么把握了”，看了之后，对这句话记忆犹新。 &
前端Web开发的页面效果 Bill_chen html Web Microsoft
1.IE6下png图片的透明显示： <img src="图片地址" border="0" style="Filter.Alpha(Opacity)=数值(100),style=数值(3)"/> 或在<head></head>间加一段JS代码让透明png图片正常显示。 2.<li>标
【JVM五】老年代垃圾回收：并发标记清理GC(CMS GC) bit1129 垃圾回收
CMS概述并发标记清理垃圾回收(Concurrent Mark and Sweep GC）算法的主要目标是在GC过程中，减少暂停用户线程的次数以及在不得不暂停用户线程的请夸功能，尽可能短的暂停用户线程的时间。这对于交互式应用，比如web应用来说，是非常重要的。 CMS垃圾回收针对新生代和老年代采用不同的策略。相比同吞吐量垃圾回收，它要复杂的多。吞吐量垃圾回收在执
Struts2技术总结白糖_ struts2
必备jar文件早在struts2.0.*的时候，struts2的必备jar包需要如下几个： commons-logging-*.jar Apache旗下commons项目的log日志包 freemarker-*.jar
Jquery easyui layout应用注意事项 bozch jquery 浏览器 easyui layout
在jquery easyui中提供了easyui-layout布局，他的布局比较局限，类似java中GUI的border布局。下面对其使用注意事项作简要介绍：如果在现有的工程中前台界面均应用了jquery easyui，那么在布局的时候最好应用jquery eaysui的layout布局，否则在表单页面（编辑、查看、添加等等）在不同的浏览器会出
java-拷贝特殊链表：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？ bylijinnan java
public class CopySpecialLinkedList { /** * 题目：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？拷贝pNext指针非常容易，所以题目的难点是如何拷贝pRand指针。假设原来链表为A1 -> A2 ->... -> An，新拷贝
color Chen.H JavaScript html css
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <HTML> <HEAD>&nbs
[信息与战争]移动通讯与网络 comsci 网络
两个坚持:手机的电池必须可以取下来光纤不能够入户,只能够到楼宇建议大家找这本书看看:<&
oracle flashback query(闪回查询) daizj oracle flashback query flashback table
在Oracle 10g中，Flash back家族分为以下成员： Flashback Database Flashback Drop Flashback Table Flashback Query(分Flashback Query,Flashback Version Query，Flashback Transaction Query) 下面介绍一下Flashback Drop 和Flas
zeus持久层DAO单元测试 deng520159 单元测试
zeus代码测试正紧张进行中,但由于工作比较忙,但速度比较慢.现在已经完成读写分离单元测试了,现在把几种情况单元测试的例子发出来,希望有人能进出意见,让它走下去. 本文是zeus的dao单元测试: 1.单元测试直接上代码 package com.dengliang.zeus.webdemo.test; import org.junit.Test; import o
C语言学习三printf函数和scanf函数学习 dcj3sjt126com c printf scanf language
printf函数 /* 2013年3月10日20:42:32 地点：北京潘家园功能：目的：测试%x %X %#x %#X的用法 */ # include <stdio.h> int main(void) { printf("哈哈！\n"); // \n表示换行 int i = 10; printf
那你为什么小时候不好好读书? dcj3sjt126com life
dady, 我今天捡到了十块钱, 不过我还给那个人了 good girl! 那个人有没有和你讲thank you啊没有啦....他拉我的耳朵我才把钱还给他的, 他哪里会和我讲thank you 爸爸, 如果地上有一张5块一张10块你拿哪一张呢.... 当然是拿十块的咯... 爸爸你很笨的, 你不会两张都拿爸爸为什么上个月那个人来跟你讨钱, 你告诉他没
iptables开放端口 Fanyucai linux iptables 端口
1，找到配置文件 vi /etc/sysconfig/iptables 2，添加端口开放，增加一行，开放18081端口 -A INPUT -m state --state NEW -m tcp -p tcp --dport 18081 -j ACCEPT 3，保存 ESC :wq! 4，重启服务 service iptables
Ehcache（05）——缓存的查询 234390216 排序 ehcache 统计 query
缓存的查询目录 1. 使Cache可查询 1.1 基于Xml配置 1.2 基于代码的配置 2 指定可搜索的属性 2.1 可查询属性类型 2.2 &
通过hashset找到数组中重复的元素 jackyrong hashset
如何在hashset中快速找到重复的元素呢?方法很多，下面是其中一个办法： int[] array = {1,1,2,3,4,5,6,7,8,8}; Set<Integer> set = new HashSet<Integer>(); for(int i = 0
使用ajax和window.history.pushState无刷新改变页面内容和地址栏URL lanrikey history
后退时关闭当前页面 <script type="text/javascript"> jQuery(document).ready(function ($) { if (window.history && window.history.pushState) {
应用程序的通信成本 netkiller.github.com 虚拟机应用服务器陈景峰 netkiller neo
应用程序的通信成本什么是通信一个程序中两个以上功能相互传递信号或数据叫做通信。什么是成本这是是指时间成本与空间成本。时间就是传递数据所花费的时间。空间是指传递过程耗费容量大小。都有哪些通信方式全局变量线程间通信共享内存共享文件管道 Socket 硬件（串口，USB）等等全局变量全局变量是成本最低通信方法，通过设置
一维数组与二维数组的声明与定义恋洁e生二维数组一维数组定义声明初始化
/** * */ package test20111005; /** * @author FlyingFire * @date:2011-11-18 上午04:33:36 * @author ：代码整理 * @introduce :一维数组与二维数组的初始化 *summary： */ public c
Spring Mybatis独立事务配置 toknowme mybatis
在项目中有很多地方会使用到独立事务，下面以获取主键为例（1）修改配置文件spring-mybatis.xml  <tx:annotation-driven transaction-manager="transactionManager" /> &n
更新Anadroid SDK Tooks之后，Eclipse提示No update were found xp9802 eclipse
使用Android SDK Manager 更新了Anadroid SDK Tooks 之后，打开eclipse提示 This Android SDK requires Android Developer Toolkit version 23.0.0 or above, 点击Check for Updates 检测一会后提示 No update were found