快剑青衣

统计学习方法笔记-决策树模型

简介：

决策树是一种基本的分类与回归方法。下面的笔记主要记录用于分类的决策树。决策树模型呈树形结构，在分类中，表示基于特征对实例进行分类的过程。其主要优点是：模型具有可读性，分类速度快。学习时利用训练数据，根据损失函数最小化原则建立决策树模型。决策树学习通常包括三个步骤：特征选择、决策树的生成、决策树的修剪。

决策树模型与学习

决策树模型：

分类决策树模型是一种描述对实例进行分类的树形结构（注意：kd树是二叉树，而决策树不限于二叉树）。决策树由结点和有向边组成。结点分为：内结点和外结点。内结点表示一个特征或属性，外结点表示一个类。

用决策树分类，从根节点开始对实例的某一特征进行测试，根据测试结果，将实例分配到其子结点；这时，每个子结点对应着该特征的一个取值。如此递归的堆实例进行测试并且分配，直至达到叶结点。最后将实例分到叶结点的类中。下图是一个决策树示意图：

决策树学习：

决策树的构建过程如下：开始，构建根结点，将所有训练数据都放在根结点。选择一个最优特征，按照这一特征将训练数据集分割成子集，使得各个子集有一个在当前条件下最好的分类。如果这些子集已经能够被基本正确分类，那么构建叶结点，并将这些子集分配到对应的叶结点中去；如果还有子集不能够被基本正确分类，那么对这些子集选择最优特征，继续对其进行分割，构建相应的结点。如此递归下去，直至所有训练数据子集被基本正确分类或者没有合适的特征为止。最后每个子集都被分到叶结点上，即都有了明确的类。这就生成了一颗决策树。

以上方法有可能对训练数据有很好的分类能力，但对未知的测试数据未必有很好的分类能力，即可能发生过拟合。我们需要对已经生成的树自下而上进行剪枝，将树变得更简单，从而使它具备更好的泛化能力。

决策树生成对应模型的局部选择（只针对训练数据），而决策树的剪枝则考虑全局最优（针对所有数据，泛化能力）

特征选择

特征选择在于选取对训练数据具有分类能力的特征，这样可以提高决策树的学习效率。通常特征选择的准则是通过比较信息增益或信息增益比。

熵与条件熵：

熵是表示随机变量不确定性的度量。设X是一个取有限个值的离散随机变量，其概率分布为： P( X = x i ) = p i ，i = 1,2,···,n

则随机变量X的熵定义为

（其中 x i 表示类别为 c i 的x集合，所以 p i 也就是X中类别为 c i 的概率，所以H(X)依赖于 c i 的概率pi，而于X的取值无直接关系）

通常H(X)中的对数以2或者e为底，这时熵的单位分别称作比特或纳特。由定义可知，熵只依赖于X的分布，而与X的取值无关，所以也可将X的熵记作H(p)；

熵越大，随机变量的不确定性就越大。从定义可验证：

0 <= H(p) <= log n

条件熵H(Y|X)表示在已知随机变量X的条件下随机变量Y的不确定性。随机变量X给定的条件下随机变量Y的条件熵H(Y|X)，定义为：X给定条件下Y的条件概率分布的熵对X的数学期望

（注意：这儿的 x i 不是特指之前说的“ 类别为 c i 的x集合 ”，而是以满足某些条件的将X划分的子集，比如：根据特征A的不同取值，将X划分为不同的子集 x i ，i = 1,2,···,k，求在特征A确定的情况下，数据集的条件熵）

（由之前可知，H(Y|X = x i)等于所有 p j 和log pj 乘积之和的相反数，并且 pj 是在xi 数据集上类型为 ci 的概率）

当熵和条件熵的概率由数据估计（特别是极大似然估计）得到时，所对应的熵和条件熵分别称为经验熵和经验条件熵。此时，如果有0概率，令0log0 = 0

信息增益：

表示得知特征X的信息而使得类Y的信息的不确定性减少的程度。

定义：特征A对训练数据集D的信息增益g(D,A)，定义为：集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D | A)之差，即 g(D,A) = H(D) - H(D | A)

一般地，熵H(Y)和条件熵H(Y | X)的差称为互信息。决策树学习中的信息增益等价于训练数据集中类与特征的互信息。

信息增益大的特征具有更强的分类能力。

根据信息增益准则的最优特征选择方法：对训练数据集D，计算其每个特征的信息增益，并比较大小，选择信息增益最大的特征。

信息增益比：

信息增益值的大小是相对于训练数据集而言的，并没有绝对意义。在训练数据集的熵大的时候，信息增益值也会偏大，反之信息增益值会偏小。使用信息增益比会对这一问题进行校正，这是特征选择的另一准则。

比如：一数据集D，只给出特征A的信息增益值是0.1，我们并不知道他对减少数据集D不确定性的作用有多大，但是如果给出特征A的信息增益比是0.5，我们就能明确他对减少数据集D不确定性的有多重要了。

定义：特征A对训练数据集D的信息增益比 g R(D,A)定义为其信息增益g(D,A)与训练数据集D的经验熵H(D)之比：

g R(D,A) = g(D,A) / H(D)

决策树的生成

ID3算法：

简介：

ID3算法的核心是在决策树的各个结点上应用信息增益准则选择特征，递归的构建决策树。具体方法是：从根节点开始，对结点计算所有可能的特征的信息增益，选择信息增益最大的特征作为结点的特征，由该特征的不同取值建立子结点；再对子结点递归的调用上述方法，构建决策树；直到所有特征的信息增益小于阈值或没有特征可以选择为止。

算法：

输入：训练数据集D，特征集A，阈值 ε

输出：决策树T

1、若D中所有实例都属于同一类 c k ，则T为单结点树，并将类 c k 作为该结点的类标记，返回T；

2、若A = ∅，则T为单节点数，并将D中实例数最大的类 c k 作为该结点的类标记，返回T；

3、否则，计算A中各特征对D的信息增益，选择增益最大的特征 A g ；

4、如果Ag 的信息增益小于阈值ε，则置T为单结点树，并将D中实例数最大的类ck 作为该结点的类标记，返回T；

5、否则，对 A g 的每一个可能值 a i ，依 A g = ai 将D分割为若干非空子集Di ，将Di 中实例数最大的类作为标记，构建子结点，由结点及其子结点构成树T，返回T；

6、对第i个子结点，以Di为训练集，以A - {Ag }为特征集，递归的调用1 ~ 5步，得到子树Ti，返回Ti。

C4.5的生成算法：

与ID3算法相似，但是对其做了改进，C4.5在生成决策树的过程中，使用信息增益比来选择特征。

输入：训练数据集D，特征集A，阈值 ε

输出：决策树T

算法过程和ID3一模一样，只不过用信息增益比取代信息增益来进行特征选择，这儿就不重复阐述了。

决策树的剪枝

简介：

决策树生成算法递归的产生决策树，直到不能继续下去为止，这样产生的树往往对训练数据很准确，但是对未知的测试数据的分类却没那么准确，即出现过拟合现象。过拟合的原因在于学习时过多地考虑如何提高对训练数据的正确分类，从而构建出过于复杂的决策树。解决这个问题的办法是考虑决策树的复杂度，对已生成的决策树进行简化。

决策树的剪枝往往通过极小化决策树整体的损失函数或代价函数来实现。设树T的叶结点个数为|T|，t是树T的叶结点，该叶结点有 N t个样本点，其中k类的样本点有 N tk个，k = 1,2,···,K， H t(T)为叶结点t上的经验熵， α >= 0为参数，则决策树学习的损失函数可以定义为

其中经验熵为

在损失函数中，第一项记作

这时有

上式中C(T)表示模型对训练数据的预测误差（用各个叶结点的熵和样本数的乘积之和来表示，之所以要乘以样本数主要是为了公平表示各个叶结点的误差，比如：果两个叶结点A、B熵都是0.1，但是A的样本数是10000而B的是10，他们如果仅用熵去表示各个叶结点的预测误差明显不公平，故乘以叶结点的样本总数），即模型与训练数据的拟合程度，|T|表示模型复杂度，参数 α>=0控制两者之间的影响。较大的α促使选择较简单的模型，较小的α促使选择较复杂的模型。α=0意味着只考虑模型与训练数据的拟合程度，不考虑模型的复杂度。

剪枝，就是当α确定时，选择损失函数最小的模型，即损失函数最小的子树。

可以看出决策树生成只考虑了通过提高信息增益(或信息增益比)对训练数据进行更好的拟合。而决策树剪枝通过优化损失函数还考虑了较小模型复杂度。决策树生成学习局部的模型，而决策树剪枝学习整体的模型。

上式中定义的损失函数的极小化等价于正则化的极大似然估计（也是通过加入正则式防止过拟合）。所以利用损失函数最小原则进行剪枝就是用正则化的极大似然估计进行模型选择。

剪枝算法：

下面介绍一种简单的剪枝算法

输入：生成算法产生的整个树T，参数 α；

输出：修剪后的树Tα

1、计算每个结点的熵

2、递归的从叶结点向上回缩，设一组叶结点回缩到其父结点之前和之后的整体树分别为TB与TA ，其对应的损失函数分别是Cα (TB)与Cα (TA)，如果

Cα (TA) <= Cα (TB)

则进行剪枝，即将父结点变成新的叶结点。

3、返回2，直至不能继续为止，得到的损失函数最小的子树T α。

CART算法

简介：

CART是英文classification and regression tree的简写，中文译为分类与回归树，是应用广泛的决策树学习方法。CART同样由特征选择，树的生成及剪枝组成，即可用于分类也可用于回归，以下将用于分类与回归的树统称为决策树。

CART假设决策树是二叉树，内部结点特征的取值为“是”和“否”，左分支是取值为“是”的分支，右分支是取值为“否”的分支。

回归树的生成：

假设X与Y分别为输入和输出变量，并且Y是连续变量，给定训练数据集

一个回归树对应着输入空间（即特征空间）的一个划分以及在划分的单元上的输出值。假设已将输入空间划分为M个单元 R 1 ,R 2 ,···,R M ，并且在每个单元 R m 上有一个固定的输出值 c m ，于是回归树模型可表示为

当输入空间的划分确定时，可以用平方误差

来表示回归树对于训练数据在单元Rm上的的预测误差，用平方误差最小的准则来解每个单元上的最优输出值，易知，单元 R m 上的 c m 的最优值

是 R m 上的所有输入实例 x i 对应的输出 y i 的均值，即

那么最大的问题就是如何对输入空间进行划分。这里采用启发式的方法，选择第j个特征 x j 和在 x j 特征上某个值s，作为你切分变量（即切分特征）和切分点，并定义两大区域：

然后寻找最优切分特征j和最优切分点s，具体的，求解

对于固定的输入特征j可以找到最优的切分点s（即对应区域所有点的j特征的均值），如下：

遍历所有特征，找到最优的切分特征j，构成一个对(j，s)。依此将输入空间划分为两个区域。接着对每个区域重复上述划分过程，直到满足停止条件为止。这样就生成了一棵回归树。这样的回归树通常称为最小二乘回归树，具体算法如下：

算法(最小二乘回归树生成算法)：

输入：训练数据集D

输出：回归树f(x)

在训练数据集所在的输入空间中，递归地将每个区域划分为两个子区域并决定每个子区域上的输出值，构建二叉决策树：

1、选择最优切分特征j与切分点s，求解：

因为 c 1 和c 2 的最优值是对应区域内的所有点在特征j上取值的均值，所以上式的关键是寻找最优的特征j和最优切分点s，通过下面方式寻找最优j和s，遍历特征j，再对每个j遍历所有值s，求出上式所有j和s组合的值，然后找出最小的值对应的j和s对(j,s)。

2、用选定的对(j,s)划分两块区域并决定相应的输出值，如下：

3、继续对两个子区域调用步骤1、2，直至满足停止条件。

4、最终将输入空间划分为M个区域 R 1 ,R 2 ,···,R M ，生成的决策树如下：

分类树的生成：

分类树用基尼指数选择最优特征，同时决定该特征的最优二值切分点。

定义：

分类问题中，假设有K个类，样本点属于第k类的概率为 p k，则概率分布的基尼指数定位为：

对于给定的样本集合D，其基尼指数为：

这里， C k 是D中属于第k类的样本子集，K是类的个数。

如果样本集合D根据特征A是否取某一可能值a被分割成 D 1 和D 2 两部分，即

则在特征A的条件下，集合D的基尼指数定义为：

此公式类似条件熵，都是特征A区分出来的各子集的概率乘以各自的基尼指数（条件熵中是熵）之和。

基尼指数Gini(D)表示集合D的不确定性，基尼指数Gini(D,A)表示经A = a分割后集合D的不确定性。基尼指数值越大，样本集合的不确定性也就越大，这一点与熵相似。

下图显示二类分类问题中基尼指数，熵（单位比特）之半1/2H(p)和分类误差率的关系。横坐标表示概率p，纵坐标表示损失，可以看出基尼指数和熵之半的曲线很接近，都可以近似地代表分类误差率。

CART生成算法：

输入：训练数据集D，停止计算的条件；

输出：CART决策树。

根据训练数据集，从根结点开始，递归地对每个结点进行以下操作，构建二叉决策树：

1、计算现有特征对数据集D的基尼指数，此时对每一个特征A，对其可能取的每个值a，根据样本点对A = a的测试为“是”或“否”将D分割为 D 1 和D 2 两部分，计算A = a时的基尼指数。

2、遍历所有可能的特征A以及它们所有可能的切分点a中，选择基尼指数最小的特征及其对应的切分点作为最优特征和最优切分点。依最优特征与最优切分点，从现结点生成两个子结点，将训练数据集依据特征分配到两个子结点中去。

3、对两个子结点递归的调用1、2，直到满足停止条件。

4、生成CART决策树

（生成CART的分类决策树和CART的回归决策树的算法其实一样，只不过生成分类决策树是使用基尼指数最小作为切分标准，而回归决策树依据平方误差最小作为切分标准）

算法停止计算的条件是结点中的样本个数小于预订的阈值，或样本集的基尼指数小于预订阈值（样本基本属于同一类），或者没有更多特征。

CART剪枝：

CART剪枝算法从“完全生长”的决策树的低端剪去一些子树，使决策树变小（模型变简单），从而能够对未知数据有更准确的预测。CART剪枝算法由两部组成：首先从生成算法产生的决策树 T 0 底端开始不断剪枝，直到T0 的根结点，形成一个子树序列{T0 ,T1 ,T2 ,···,Tn}(注意由下面的具体算法可知：下一个子树是在上一个子树的基础上剪枝的，比如：T2是在T1的基础上剪枝的，而不是直接在T0 的基础上剪枝的)；然后通过交叉验证法在独立的验证数据集上对子树序列进行测试，从中选择最优子树。

1、剪枝，形成一个子树序列

在剪枝过程中，计算子树的损失函数：

其中，T为任意子树，C(T)为对训练数据的预测误差(如基尼指数)，|T|为子树的叶结点个数， α>=0为参数，Cα(T)为参数是α时的子树T的整体损失。参数α权衡训练数据的拟合程度与模型的复杂度。

对于固定的α，一定存在使损失函数Cα(T)最小的子树，将其表示为Tα 。Tα 在损失函数Cα(T)最小的意义下是最优的。容易验证这样的最优子树是唯一的。当α大的时候，最优子树Tα偏小；当α小的时候，最优子树Tα偏大。极端情况下，当α=0的时候，整体树是最优的。当α->∞的时候，根结点组成的单结点树是最优的。

可以用递归的方法对树进行剪枝，将 α从小增大， 0= α 0 < α 1 < ···< α n < + ∞，产生一系列的区间

；剪枝得到的子树序列对应着区间

的最优子树序列{ T0 ,T1 ,T2 ,···,Tn}，序列中的子树是嵌套的。

具体如下，从整体树T0 开始剪枝，对T0 的任意内部结点t，以t为单结点树的损失函数是

以t为根结点的子树 T t 的损失函数是

当 α = 0及α充分小时，有不等式

当α增大时，在某一α 有

当α再增大时，

不等式反向，只要α = C(t) - C(Tt) / |Tt| - 1，Tt 与t有相同的损失函数值，也就是这个时候对t结点剪与不剪枝损失函数都是一样的，而t的结点少，因此t比Tt 更可取，对Tt 进行剪枝。

为此，对 T 0 中每一个内部结点t，计算

它表示剪枝后整体损失函数减少的程度(也就是对应的结点t，当 α 为g(t)时，剪枝和不剪枝生成的树的损失函数都一样，当α大于此值并且小于αt+1 时剪枝后损失函数小于不剪枝，但是当α大于等于αt+1 时结点t就不是最佳剪枝点了)。在 T 0 中剪去g(t)最小的 T t ，将得到的子树作为 T 1 ，同时将最小的g(t)设为 α 1 。 T 1 为区间[ α 1 , α 2 )的最优子树。

如此剪枝下去，直至得到根结点。在这一过程中，不断地增加α的值，产生新的区间。（之所以α值要从小到大剪，而不是从大到小，是因为α越小，树就越大；α从小到大，裁剪后得到的树叶从大到小，这样才能不断的从大剪到小）

2、在剪枝得到的子树序列 T 0 ,T 1 ,T 2 ,···,T n 中通过交叉验证选取最优子树 T α

具体地，利用独立的验证数据集，测试子树序列 T 0 ,T 1 ,T 2 ,···,T n 中各棵子树的平方误差或基尼指数（分别针对回归决策树和分类决策树），当最优子树 T k 确定时，对应的 α k 也确定了，即得到最优决策树 T α 。

具体算法如下：

输入：CART算法生成的决策树T0

输出：最优决策树 T α

1、设k = 0， T = T 0

2、设 α = +∞

3、自下而上的对各内部结点t计算C(Tt)，|Tt|以及

4、自上而下的访问内部结点t，如果有g(t) = α，进行剪枝，并对叶结点t以多数表决法决定其类，得到树T。

5、设k = k + 1，αk = α ，Tk = T。

6、如果T不是由根结点单独构成的树，则回到步骤4.（注意不用重新计算剪枝后的树内部结点的C(Tt)和g(t)，而是原用T0的）

7、采用交叉验证法在子树序列T0 ,T1 ,T2 ,···,Tn 中选取最优子树Tα

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
【中国国际航空-注册_登录安全分析报告】风控牛验证码接口安全评测系列安全行为验证极验网易易盾智能手机
前言由于网站注册入口容易被黑客攻击，存在如下安全问题：1.暴力破解密码，造成用户信息泄露2.短信盗刷的安全问题，影响业务及导致用户投诉3.带来经济损失，尤其是后付费客户，风险巨大，造成亏损无底洞所以大部分网站及App都采取图形验证码或滑动验证码等交互解决方案，但在机器学习能力提高的当下，连百度这样的大厂都遭受攻击导致点名批评，图形验证及交互验证方式的安全性到底如何？请看具体分析一、中国国际航空PC
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
七.正则化愿风去了
吴恩达机器学习之正则化（Regularization）http://www.cnblogs.com/jianxinzhou/p/4083921.html从数学公式上理解L1和L2https://blog.csdn.net/b876144622/article/details/81276818虽然在线性回归中加入基函数会使模型更加灵活，但是很容易引起数据的过拟合。例如将数据投影到30维的基函数上，模
机器学习-------数据标准化罔闻_spider 数据分析算法机器学习人工智能
什么是归一化，它与标准化的区别是什么？一作用在做训练时，需要先将特征值与标签标准化，可以防止梯度防炸和过拟合；将标签标准化后，网络预测出的数据是符合标准正态分布的—StandarScaler()，与真实值有很大差别。因为StandarScaler()对数据的处理是（真实值-平均值）/标准差。同时在做预测时需要将输出数据逆标准化提升模型精度：标准化/归一化使不同维度的特征在数值上更具比较性，提高分类
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性 aehrutktrjk 人工智能 easyui 前端 python
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性引言在机器学习和自然语言处理领域，选择合适的训练示例对模型性能至关重要。最大边际相关性(MaximalMarginalRelevance,MMR)是一种优秀的示例选择方法，它不仅考虑了示例与输入的相关性，还注重保持所选示例之间的多样性。本文将深入探讨如何使用MMR来选择示例，以提高AI模型的性能和泛化能力。什么是最大边际相关性(MM
LangChain集成指南:如何利用多样化的AI提供商 aehrutktrjk 人工智能 langchain python
LangChain集成指南:如何利用多样化的AI提供商引言在人工智能和机器学习领域,LangChain已成为一个强大而灵活的框架,允许开发者轻松集成各种AI服务提供商。本文将深入探讨LangChain的集成能力,介绍如何利用不同的AI提供商来增强你的应用程序,并提供实用的代码示例。LangChain集成概览LangChain支持多种AI提供商的集成,这些集成可以分为两类:独立包集成:这些提供商有独
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
【机器学习与R语言】1-机器学习简介苹果酱0567 面试题汇总与解析 java 中间件开发语言 spring boot 后端
1.基本概念机器学习：发明算法将数据转化为智能行为数据挖掘VS机器学习：前者侧重寻找有价值的信息，后者侧重执行已知的任务。后者是前者的先期准备过程：数据——>抽象化——>一般化。或者：收集数据——推理数据——归纳数据——发现规律抽象化：训练：用一个特定模型来拟合数据集的过程用方程来拟合观测的数据：观测现象——数据呈现——模型建立。通过不同的格式来把信息概念化一般化：一般化：将抽象化的知识转换成可用
Python前沿技术：机器学习与人工智能 4.0啊 Python 人工智能 python 机器学习
Python前沿技术：机器学习与人工智能一、引言随着科技的飞速发展，机器学习和人工智能（AI）已经成为了计算机科学领域的热门话题。Python作为一门易学易用且功能强大的编程语言，已经成为了这两个领域的首选语言之一。本文将深入探讨Python在机器学习和人工智能领域的应用，以及一些前沿技术和工具。二、Python机器学习基础2.1机器学习概述机器学习是人工智能（AI）的一个关键子集，它的核心在于让
chatgpt赋能python：如何在Python中计算平均值 tulingtest ChatGpt python chatgpt numpy 计算机
如何在Python中计算平均值计算平均值是数据分析、统计和机器学习等许多领域中的常见任务。Python作为一门功能强大且易于学习的编程语言，为计算平均值提供了多种方法。在本文中，我们将介绍如何在Python中计算平均值。什么是平均值简单来说，平均值是一组数字的总和除以数字的数量。例如，对于数字序列1，3，5，7，9，平均值是(1+3+5+7+9)/5=5。平均值在数据分析中非常有用，因为它可以提供
Python 初学者入门必知： Anaconda是什么？有什么作用？怎么使用？懒大王爱吃狼 Python基础 python 开发语言 python基础 python学习 anaconda anaconda安装 python教程
初学者在学习Python时，经常看到的一个名字是Anaconda。究竟什么是Anaconda，为什么它如此受欢迎？在这篇文章中，我们将探讨Anaconda，了解Anaconda的从安装到使用的。Anaconda是一个免费开源的Python和R编程发行版，包含上千个适用于数据科学和机器学习的包。同时，配备了Spyder和Jupyternotebook等工具，初学者可以使用它们来学习Python，使用
每天五分钟玩转深度学习PyTorch：模型参数优化器torch.optim 幻风_huanfeng 深度学习框架pytorch 深度学习 pytorch 人工智能神经网络机器学习优化算法
本文重点在机器学习或者深度学习中，我们需要通过修改参数使得损失函数最小化(或最大化)，优化算法就是一种调整模型参数更新的策略。在pytorch中定义了优化器optim，我们可以使用它调用封装好的优化算法，然后传递给它神经网络模型参数，就可以对模型进行优化。本文是学习第6步(优化器)，参考链接pytorch的学习路线随机梯度下降算法在深度学习和机器学习中，梯度下降算法是最常用的参数更新方法，它的公式
一切皆是映射：AI的去中心化：区块链技术的融合 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
一切皆是映射：AI的去中心化：区块链技术的融合作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：AI，区块链，去中心化，智能合约，共识机制，数据安全，隐私保护，分布式账本技术，机器学习，数据隐私1.背景介绍1.1问题的由来随着人工智能（AI）技术的快速发展，其在各个领域的应用越来越广泛，从自动驾驶、智能医疗到金融服务，AI正在改变着我们的生活。
第五届核磁机器学习班（训练营：2023.6.5~6.17）茗创科技
茗创科技专注于脑科学数据处理，涵盖（EEG/ERP,fMRI,结构像,DTI,ASL,FNIRS）等，欢迎留言讨论及转发推荐，也欢迎了解茗创科技的脑电课程，数据处理服务及脑科学工作站销售业务，可添加我们的工程师（微信号MCKJ-zhouyi或17373158786）咨询。★课程简介★基于血氧水平依赖的功能磁共振成像(fMRI)技术,利用其数据构建的功能性脑网络后,发现脑并不是一个单纯对外界刺激进行
如何有效的学习AI大模型？ Python程序员罗宾学习人工智能语言模型自然语言处理架构
学习AI大模型是一个系统性的过程，涉及到多个学科的知识。以下是一些建议，帮助你更有效地学习AI大模型：基础知识储备：数学基础：学习线性代数、概率论、统计学和微积分等，这些是理解机器学习算法的数学基础。编程技能：掌握至少一种编程语言，如Python，因为大多数AI模型都是用Python实现的。理论学习：机器学习基础：了解监督学习、非监督学习、强化学习等基本概念。深度学习：学习神经网络的基本结构，如卷
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n
【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析 bit1129 Stream
以如下代码为例（SocketInputDStream）： Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据
spark master web ui 端口8080被占用解决方法 daizj 8080 端口占用 spark master web ui
spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1，但为了可以控制到指定的端口，我们可以自行设置，修改方法： 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分
oracle_执行计划_谓词信息和数据获取周凡杨 oracle 执行计划
oracle_执行计划_谓词信息和数据获取(上) 一：简要说明在查看执行计划的信息中，经常会看到两个谓词filter和access，它们的区别是什么，理解了这两个词对我们解读Oracle的执行计划信息会有所帮助。简单说，执行计划如果显示是access，就表示这个谓词条件的值将会影响数据的访问路径（表还是索引），而filter表示谓词条件的值并不会影响数据访问路径，只起到
spring中datasource配置 g21121 dataSource
datasource配置有很多种，我介绍的一种是采用c3p0的，它的百科地址是： http://baike.baidu.com/view/920062.htm  <bean name="propertiesConfig" class="org.springframework.b
web报表工具FineReport使用中遇到的常见报错及解决办法（三）老A不折腾 finereport FAQ 报表软件
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、repeated column width is largerthan paper width：这个看这段话应该是很好理解的。比如做的模板页面宽度只能放
mysql 用户管理墙头上一根草 linux mysql user
1.新建用户 //登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’));//刷新系统权限表mysql>flush privileges;这样就创建了一个名为：
关于使用Spring导致c3p0数据库死锁问题 aijuans spring Spring 入门 Spring 实例 Spring3 Spring 教程
这个问题我实在是为整个 springsource 的员工蒙羞如果大家使用 spring 控制事务，使用 Open Session In View 模式， com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.
百度词库联想 annan211 百度
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title&g
int数据与byte之间的相互转换实现代码百合不是茶位移 int转byte byte转int 基本数据类型的实现
在BMP文件和文件压缩时需要用到的int与byte转换,现将理解的贴出来; 主要是要理解;位移等概念 http://baihe747.iteye.com/blog/2078029 int转byte; byte转int; /** * 字节转成int,int转成字节 * @author Administrator *
简单模拟实现数据库连接池 bijian1013 java thread java多线程简单模拟实现数据库连接池
简单模拟实现数据库连接池实例1： package com.bijian.thread; public class DB { //private static final int MAX_COUNT = 10; private static final DB instance = new DB(); private int count = 0; private i
一种基于Weblogic容器的鉴权设计 bijian1013 java weblogic
服务器对请求的鉴权可以在请求头中加Authorization之类的key，将用户名、密码保存到此key对应的value中，当然对于用户名、密码这种高机密的信息，应该对其进行加砂加密等，最简单的方法如下： String vuser_id = "weblogic"; String vuse
【RPC框架Hessian二】Hessian 对象序列化和反序列化 bit1129 hessian
任何一个对象从一个JVM传输到另一个JVM，都要经过序列化为二进制数据(或者字符串等其他格式，比如JSON)，然后在反序列化为Java对象，这最后都是通过二进制的数据在不同的JVM之间传输(一般是通过Socket和二进制的数据传输)，本文定义一个比较符合工作中。 1. 定义三个POJO Person类 package com.tom.hes
【Hadoop十四】Hadoop提供的脚本的功能 bit1129 hadoop
1. hadoop-daemon.sh 1.1 启动HDFS ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode 通过这种逐步启动的方式，比start-all.sh方式少了一个SecondaryNameNode进程，这不影响Hadoop的使用，其实在 Hadoop2.0中，SecondaryNa
中国互联网走在“灰度”上 ronin47 管理灰度
中国互联网走在“灰度”上（转）文/孕峰第一次听说灰度这个词，是任正非说新型管理者所需要的素质。第二次听说是来自马化腾。似乎其他人包括马云也用不同的语言说过类似的意思。灰度这个词所包含的意义和视野是广远的。要理解这个词，可能同样要用“灰度”的心态。灰度的反面，是规规矩矩，清清楚楚，泾渭分明，严谨条理，是决不妥协，不转弯，认死理。黑白分明不是灰度，像彩虹那样
java-51-输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。 bylijinnan java
public class PrintMatrixClockwisely { /** * Q51.输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。例如：如果输入如下矩阵： 1 2 3 4 5 6 7 8 9
mongoDB 用户管理开窍的石头 mongoDB用户管理
1:添加用户第一次设置用户需要进入admin数据库下设置超级用户（use admin） db.addUsr({user:'useName',pwd:'111111',roles:[readWrite,dbAdmin]}); 第一个参数用户的名字第二个参数
[游戏与生活]玩暗黑破坏神3的一些问题 comsci 生活
暗黑破坏神3是有史以来最让人激动的游戏。。。。但是有几个问题需要我们注意玩这个游戏的时间，每天不要超过一个小时，且每次玩游戏最好在白天结束游戏之后，最好在太阳下面来晒一下身上的暗黑气息，让自己恢复人的生气 &nb
java 二维数组如何存入数据库 cuiyadll java
using System; using System.Linq; using System.Text; using System.Windows.Forms; using System.Xml; using System.Xml.Serialization; using System.IO; namespace WindowsFormsApplication1 {
本地事务和全局事务Local Transaction and Global Transaction(JTA) darrenzhu java spring local global transaction
Configuring Spring and JTA without full Java EE http://spring.io/blog/2011/08/15/configuring-spring-and-jta-without-full-java-ee/ Spring doc -Transaction Management http://docs.spring.io/spri
Linux命令之alias - 设置命令的别名，让 Linux 命令更简练 dcj3sjt126com linux alias
用途说明设置命令的别名。在linux系统中如果命令太长又不符合用户的习惯，那么我们可以为它指定一个别名。虽然可以为命令建立“链接”解决长文件名的问题，但对于带命令行参数的命令，链接就无能为力了。而指定别名则可以解决此类所有问题【1】。常用别名来简化ssh登录【见示例三】，使长命令变短，使常用的长命令行变短，强制执行命令时询问等。常用参数格式：alias 格式：ali
yii2 restful web服务[格式响应] dcj3sjt126com PHP yii2
响应格式当处理一个 RESTful API 请求时，一个应用程序通常需要如下步骤来处理响应格式：确定可能影响响应格式的各种因素，例如媒介类型，语言，版本，等等。这个过程也被称为 content negotiation。资源对象转换为数组，如在 Resources 部分中所描述的。通过 [[yii\rest\Serializer]]
MongoDB索引调优（2）——[十] eksliang mongodb MongoDB索引优化
转载请出自出处：http://eksliang.iteye.com/blog/2178555 一、概述上一篇文档中也说明了，MongoDB的索引几乎与关系型数据库的索引一模一样，优化关系型数据库的技巧通用适合MongoDB，所有这里只讲MongoDB需要注意的地方二、索引内嵌文档可以在嵌套文档的键上建立索引，方式与正常
当滑动到顶部和底部时，实现Item的分离效果的ListView gundumw100 android
拉动ListView，Item之间的间距会变大，释放后恢复原样； package cn.tangdada.tangbang.widget; import android.annotation.TargetApi; import android.content.Context; import android.content.res.TypedArray; import andr
程序员用HTML5制作的爱心树表白动画 ini JavaScript jquery Web html5 css
体验效果：http://keleyi.com/keleyi/phtml/html5/31.htmHTML代码如下： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"><head><meta charset="UTF-8" > <ti
预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版 kakajw ThinkPad 预装改装 windows 7 windows 8
该教程具有普遍参考性，特别适用于联想的机器，其他品牌机器的处理过程也大同小异。该教程是个人多次尝试和总结的结果，实用性强，推荐给需要的人！缘由小弟最近入手笔记本ThinkPad T440，但是特别不能习惯笔记本出厂预装的Windows 8系统，而且厂商自作聪明地预装了一堆没用的应用软件，消耗不少的系统资源（本本的内存为4G，系统启动完成时，物理内存占用比
Nginx学习笔记 mcj8089 nginx
一、安装nginx 1、在nginx官方网站下载一个包，下载地址是： http://nginx.org/download/nginx-1.4.2.tar.gz 2、WinSCP(ftp上传工
mongodb 聚合查询每天论坛链接点击次数 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 18 */ { "_id" : ObjectId("5596414cbe4d73a327e50274"), "msgType" : "text", "sendTime" : ISODate("2015-07-03T08:01:16.000Z"
java术语（PO/POJO/VO/BO/DAO/DTO） Luob. DAO POJO DTO po VO BO
PO(persistant object) 持久对象在o/r 映射的时候出现的概念,如果没有o/r映射,就没有这个概念存在了.通常对应数据模型(数据库),本身还有部分业务逻辑的处理.可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合.PO中应该不包含任何对数据库的操作. VO(value object) 值对象通
算法复杂度 Wuaner Algorithm
Time Complexity & Big-O： http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o http://bigocheatsheet.com/ http://www.sitepoint.com/time-complexity-algorithms/

统计学习方法笔记-决策树模型

你可能感兴趣的:(机器学习)