迷路的咸鱼

决策树和集成学习(Boosting&Bagging&Stacking)的方法区分

决策树(Decision Tree)是常见的机器学习方法，可以处理分类和回归问题。用于分类的决策树对比逻辑回归和SVM的区别在于：LR适合处理接近线性可分的分类问题，决策边界是线性的；SVM通过把特征空间映射到核空间使得各个类别线性可分，在高维空间的决策面是线性的，映射回原特征空间的决策边界是非线性的；而DT是基于树形结构来进行决策的，将一个个特征按层次进行划分，可以找到非线性的决策边界。LR和SVM原理可以参考博客《机器学习中的分类器：感知机、逻辑回归、支持向量机》。下图是一个简单的二维特征空间的分类，针对不同分类器的结果：

（图片来源链接：LR、DT、SVM的对比）

模型发展历史：

1. 决策树

决策树包含一个根结点、若干个内部结点和若干个叶结点，叶结点对应于决策结果，其他结点表示一个特征或属性。决策树的每一个路径互斥且完备，即每一个样本都被一条路径所覆盖，且只被一条路径所覆盖。决策树的根结点包含所有样本，从根节点到叶结点越往下，样本取某一个值(类别)的可能性越大，到达叶结点的时候这个可能性达到最大，叶结点的样本都属于一类。所以，决策树的学习过程就是产生一棵泛化能力强，可以处理未知样本的决策树。学习过程的伪代码如下，采用自顶向下递归的方法：

决策树和集成学习(Boosting&Bagging&Stacking)的方法区分_第3张图片

可以看到递归划分步骤的停止条件有三个：（1）样本属于同一类别，无需划分；（2）样本的属性相同，无法划分；（3）样本为空，不能划分。决策树学习的关键在于伪代码的第8行，如何选择最优划分属性，即希望随着划分的进行结点包含的样本尽可能属于同一类别，样本要分得足够开，拥有较高的纯度。针对这一问题，衍生了很多决策树算法，如下表：

经典决策树	划分准则
ID3	信息增益（information gain）
C4.5	增益率（gain ratio）
CART	基尼指数（Gini index）

信息熵（对平均不确定性的度量）是度量样本集合纯度最常用的一种指标，回顾信息论与机器学习的关系：

决策树和集成学习(Boosting&Bagging&Stacking)的方法区分_第4张图片

信息熵： $H(X)=-\sum\limits_{x \in X}p(x)logp(x)$
条件熵： $H(X|Y)=-\sum\limits_{x,y}p(x,y)logp(x|y)$
联合熵： $H(X,Y)=-\sum\limits_{x}\sum\limits_{y}p(x,y)logp(x,y)$
互信息： $I(X,Y)=-\sum\limits_{x,y}log\frac{p(x,y)}{p(x)p(y)}$ ，上图的右边用维恩图表示了互信息与熵的关系。

ID3：ID3算法最早是由Quinlan于1975年在悉尼大学提出的一种分类预测算法，算法的核心是“信息熵”。根据信息论的知识，信息增益越大，则使用属性 $a$ 来进行划分所获得的纯度提升越大。如上表的平均互信息即为信息增益，代表了不确定性的减少，所以将具有最大信息增益的属性作为划分结点。设有K个类， $C_k|$ 为属于类 $C_k$ 的样本个数， $\sum\limits_{k=1}^K|C_k|=|D|$ ；上面的伪代码中特征 $A$ 有 $d$ 个属性，设每个属性有n个取值（不同属性的取值个数也不一定相同），根据取值将 $D$ 划分为 $n$ 个子集 $D_i|$ ， $\sum\limits_{i=1}^n|D_i|=|D|$ ；子集 $D_i|$ 中属于类 $C_k$ 的样本集合为 $D_{ik}|$ 。
$g(D,a)=H(D)-H(D|a)\\ H(D)=-\sum\limits_{k=1}^{K}p_klogp_k,\space\space p_k=\frac{|C_k|}{|D|}\\ H(D|a)=\sum\limits_{i=1}^{n}\frac{|D_i|}{|D|}H(D_i)$
遍历 $A$ 中所有特征 $a$ ，选择信息增益最大的特征 $a_*$ 作为当前的划分特征。
缺点：（1）只能处理离散特征不能处理连续特征（连续的可取值无法划分分支，必须离散化）；（2）信息增益对可取值数目较多的属性有所偏好，可能训练得到一个庞大且深度浅的树；（3）无法处理空值；（4）根据属性值划分样本，之后该特征不会再起作用，这种快速划分的方式会影响算法的准确率。
C4.5：为了解决ID3的第(1)个缺点，将连续特征离散化，但是，该过程需要对连续值先进行排序，会使C4.5性能下降；针对第(2)个缺点，不直接用信息增益，而是用增益率来作为选择分支的准则；针对第(3)个缺点进行了缺失值的处理。属性集A的属性 $a$ 的取值个数越多，则信息熵通常会越大，从而对信息增益进行惩罚。
$gr(D,a)=\frac{g(D,a)}{H(a)}\\ H(a)=-\sum\limits_{i=1}^{n}p_ilogp_i,\space\space p_i=\frac{|D_i|}{|D|}$
C4.5启发式决策树：先从候选划分属性中找到信息增益高于平均水平的属性，再从中选择增益率高的。
CART(Classification and Regression Tree)：
相比ID3和C4.5，CART应用要多一些，既可以用于分类也可以用于回归。CART只能形成二叉树，即分支条件都是二分类，（1）对于连续特征：比较阈值，高于某个阈值就属于某一类，低于某个阈值属于另一类；（2）对于离散特征：抽取子特征，比如颜值这个特征，有帅、丑、中等三个水平，可以先分为帅和不帅的，不帅的里面再分成丑和中等的。无论是ID3还是C4.5都是基于信息论的熵模型，会涉及大量的对数运算分支方法，CART使用与信息熵的含义相似的基尼指数(Gini index)来选择最好的数据划分的特征，基尼系数(Gini)描述的也是模型的纯度，不过和信息增益(比)是相反的，即基尼系数越小，则纯度越高，特征越好。
$Gini(D)=\sum\limits_{k=1}^{K}p_k(1-p_k)=1-\sum\limits_{k=1}^{K}p_k^2,\space\space p_k=\frac{|C_k|}{|D|}\\ Gini\_index(D,a)= \sum\limits_{i=1}^{n}\frac{|D_i|}{|D|}Gini(D_i)$

决策树和集成学习(Boosting&Bagging&Stacking)的方法区分_第5张图片

优点：分类规则清晰，结果容易理解；非线性、非参数方法；计算量相对较小，实现速度快。
缺点：容易过拟合（解决方式：剪枝）；上述都是基于启发式的贪心算法建立的，因此不能保证建立全局最优的决策树（解决方式：随机森林）。
针对决策树算法的过拟合问题，即为了尽可能正确分类训练样本，结点划分过程不断重复，造成决策树分支过多导致的过拟合。可以通过主动去掉一些分支来降低过拟合的风险，决策树剪枝的基本策略分为“预剪枝”和“后剪枝”。一般情况下，后剪枝决策树的欠拟合风险较小，泛化能力较强，但是训练时间开销比未剪枝和预剪枝都大得多。预剪枝：通过启发式方法，在生成决策树过程中对划分进行预测，若当前结点的划分不能对决策树泛化性能提升，则停止划分，并将其标记为叶节点。后剪枝：对已有的决策树，自底向上的对非叶结点进行考察，若该结点对应的子树替换为叶结点能提升决策树的泛化能力，则将该子树替换为叶结点。

2. 集成学习

在机器学习的有监督学习算法中，我们的目标是学习出一个稳定的且在各个方面表现都较好的模型，但实际情况往往不这么理想，有时我们只能得到多个有偏好的模型（弱监督模型，在某些方面表现的比较好）。集成学习就是组合这里的多个弱监督模型以期得到一个更好更全面的强监督模型，集成学习潜在的思想是即便某一个弱分类器得到了错误的预测，其他的弱分类器也可以将错误纠正回来。
参考链接：https://www.cnblogs.com/zongfa/p/9304353.html

2.1 Boosting

提升法是序列化方法，个体学习器之间存在较强的依赖关系、必须串行生成。方法流程：（1）从初始训练集训练出一个基学习器；（2）根据基学习器的表现对训练样本分布进行调整，使得先前基学习器做错的训练样本在后续受到更多关注；（3）基于调整后的样本分布来训练下一个基学习器；（4）重复上述过程直到基学习器数目达到事先指定的值；（5）将这些学习器进行加权结合。从上面可以看出，该方法主要改进的地方在于(2)和(5)的解决方案。

AdaBoost

AdaBoost是1997年提出的，是英文"Adaptive Boosting"(自适应增强)的缩写，是boosting最著名的代表性算法。通过对样本和基学习器设置权值 $w$ 和 $\alpha$ ，从而提高上一轮被错误分类的样本的权值，降低被正确分类的样本的权值，最后，误差率小的基学习器拥有较大的权值，误差率大的基学习器拥有较小的权值，加性模型将弱分类器进行线性组合。下图左边是算法伪代码，右边表示了各分类器的依赖和串行关系（左右的符号不对应）。

以伪代码中的符号表示来看，有如下公式：

分类误差率： $\varepsilon_t=\sum\limits_{i=1}^mw_{ti}\mathbb I(h_t(x)\ne f(x))$ 是由样本的权重计算得到的，权值分布 $D_t=(w_{t1},w_{t2},...,w_{tm})$ ， $\mathbb I()$ 表示指示函数，即满足扩号内的条件则值为1，否则为0。
优化目标： $L_{exp}(\alpha_th_t|D_t)=E[e^{-f(x)\alpha_th_t(x)}]$ ，再通过代入 $\varepsilon_t$ 来最小化指数损失函数。
分类器的权重 ： $\alpha_t=\frac12ln(\frac{1-\varepsilon_t}{\varepsilon_t})$ ，当 $\varepsilon_t=\frac12$ 时，即一半的分类是错误的时候分类器的权重为0。
更新训练集权值分布： $w_{t+1,i}=\frac{w_{t,i}}{Z_t}exp(-\alpha_ty_ih_t(x_i))$ ， $h_t(x)\in {\{-1,+1\}}$ ，为了使现有分类器表现最差，从而产生新的样本分布， $Z_t=\sum\limits_{i=1}^mw_{ti}exp(-\alpha_ty_ih_t(x_i))$ 是规范化因子。
参考链接：AdaBoost算法详解与python实现

GBDT

GBDT(Gradient Boosting Decision Tree)梯度提升决策树，含义就是用Gradient Boosting的策略训练出来的DT模型，基分类器采用CART，主要用来做回归预测。提升树的损失函数是平方损失或指数损失时，每一步优化是很简单的，但对于一般损失而言，往往不那么容易。GBTD虽然也是一个加性模型，但其是通过不断迭代拟合样本真实值与当前分类器的残差来逼近真实值的，它与Adaboost的区别在于每一次的计算是为了最小化残差的误差，在残差减少（负梯度作为近似值）的方向上建立一个新的模型，利用最速下降法的近似方法。

加性模型： $F(x)=\sum\limits_{t=1}^T(\alpha_th_t(x))$
残差逼近： $F_t(x)=F_{t-1}(x)+\alpha_th_t(x)$
优化目标： $h_t(x)=arg\space min_h(\sum\limits_{i=1}^mL(y_i,F_{t-1}(x_i)+\alpha_th_t(x_i)))$
这里推导好复杂，更多内容可以参考下面的博文：
[1] https://blog.csdn.net/weixin_42933718/article/details/88421574#_31
[2]https://blog.csdn.net/zhangbaoanhadoop/article/details/82193954
贴出具体算法流程：

2.2 Bagging

套袋法是并行化方法，个体学习器之间不存在较强的依赖关系、可同时生成。方法流程：（1）通过自助采样法(bootstrap sampling)采样（有放回的抽取）出多个训练集；（2）基于每个采样集训练一个基学习器；（3）基于调整后的样本分布来训练下一个基学习器；（4）将这些学习器进行结合，通常对分类任务采用简单投票法，对回归任务采用简单平均法。

随机森林

随机森林(Random Forest，RF)算法是一个包含多个决策树的算法，其输出的类别是由个别决策树输出的类别的众树来决定的。RF在以决策树为基学习器构建Bagging集成的基础上，进一步在决策树的训练过程中引入了随机属性选择。所以随机森林的随机性体现在两个方面：（1）从样本集中用Bootstrap采样选出固定数目个样本;（2）从所有属性中随机选择k个属性，选择最佳划分属性作为结点建立CART决策树。

优点：在数据集上表现良好，两个随机性的引入，使得随机森林不容易陷入过拟合，并求具有很好的抗噪声能力；实现比较简单，训练速度快，计算开销小；能够处理很高维度的数据，并且不用做特征选择，对数据集的适应能力强。

2.3 Stacking

Stacking方法是指训练一个学习器用于组合其他各个学习器。首先，我们先训练多个不同的模型，然后把之前训练的各个模型的输出作为输入来训练一个模型，以得到一个最终的输出。

Bagging和Boosting的区别:
　　1）样本选择上：
　　Bagging：训练集是在原始集中有放回选取的，从原始集中选出的各轮训练集之间是独立的。
　　Boosting：每一轮的训练集不变，只是训练集中每个样例在分类器中的权重发生变化。而权值是根据上一轮的分类结果进行调整。
　　2）样例权重：
　　Bagging：使用均匀取样，每个样例的权重相等
　　Boosting：根据错误率不断调整样例的权值，错误率越大则权重越大。
　　3）预测函数：
　　Bagging：所有预测函数的权重相等。
　　Boosting：每个弱分类器都有相应的权重，对于分类误差小的分类器会有更大的权重。
　　4）并行计算：
　　Bagging：各个预测函数可以并行生成
　　Boosting：各个预测函数只能顺序生成，因为后一个模型参数需要前一轮模型的结果。

集成方法是将几种机器学习技术组合成一个预测模型的元算法，以达到减小方差（bagging）、偏差（boosting）或改进预测（stacking）的效果。

【漫话机器学习系列】137.随机搜索（Randomized Search） IT古董漫话机器学习系列专辑机器学习人工智能
随机搜索（RandomizedSearch）详解在机器学习和深度学习的模型训练过程中，超参数调优（HyperparameterTuning）是至关重要的一环。随机搜索（RandomizedSearch）是一种高效的超参数优化方法，它通过在候选超参数的数值分布（如正态分布、均匀分布等）中随机选择超参数组合，从而找到最优的超参数配置。1.超参数调优的必要性超参数是模型在训练之前需要人为设定的参数，例如
【漫话机器学习系列】129.主成分分析（Principal Component Analysis，PCA） IT古董漫话机器学习系列专辑机器学习人工智能
主成分分析（PCA）：降维与特征提取的强大工具1.什么是主成分分析（PCA）？主成分分析（PrincipalComponentAnalysis，PCA）是一种常见的数据降维技术，主要用于将高维数据投影到低维空间，同时尽可能保留数据的主要信息。PCA通过线性变换，将原始特征变量转换为一组新的变量，这些新变量被称为主成分（PrincipalComponents）。在这张图中，我们可以看到PCA的核心概
【漫话机器学习系列】130.主成分（Principal Components） IT古董漫话机器学习系列专辑机器学习人工智能 python
主成分（PrincipalComponents）详解1.什么是主成分？主成分（PrincipalComponents，PCs）是数据集中方差最大的线性组合，它是主成分分析（PrincipalComponentAnalysis，PCA）中的核心概念。主成分可以看作是对原始特征的新表述方式，它通过数学变换找到一组新的正交坐标轴，使得数据的主要变化方向与这些轴对齐。简单来说：主成分是数据集中信息量（方差
R语言机器学习系列-随机森林回归代码解读 Mrrunsen R语言大学作业机器学习回归 r语言
回归问题指的是因变量或者被预测变量是连续性变量的情形，比如预测身高体重的具体数值是多少的情形。整个代码大致可以分为包、数据、模型、预测评估4个部分，接下来逐一解读。1、包部分，也就是加载各类包，包括随机森林包randomForest，数据相关包tidyverse、skimr、DataExplorer，模型评估包caret。2、数据部分，主要是读取数据，处理缺失值，转换变量类型。3、模型部分。为了对
【漫话机器学习系列】106.线性激活函数（Linear Activation Function） IT古董漫话机器学习系列专辑机器学习人工智能激活函数
1.什么是线性激活函数？线性激活函数是一种最简单的激活函数，数学表达式为：即输出与输入保持完全线性关系。这意味着对于任何输入值x，其输出将等于输入值本身，函数图像为一条通过原点的直线。在神经网络中，激活函数的作用是将网络的线性组合映射到某种非线性输出。传统的线性激活函数常用于一些特定场景，比如回归问题，其中预测的目标值与输入特征之间可能存在线性关系。2.线性激活函数的特点线性关系：与其他常见的激活
【漫话机器学习系列】101.特征选择法之Lasso（Lasso For Feature Selection） IT古董漫话机器学习系列专辑机器学习人工智能
Lasso特征选择法详解1.Lasso回归简介Lasso（LeastAbsoluteShrinkageandSelectionOperator，最小绝对收缩和选择算子）是一种基于L1范数正则化的线性回归方法。它不仅能够提高模型的泛化能力，还可以自动进行特征选择，即将一些不重要的特征的系数收缩到0，从而减少模型的复杂度。2.Lasso回归的数学公式Lasso回归的目标函数如下：其中：是输入数据，w是
【漫话机器学习系列】041.信息丢失（dropout） IT古董漫话机器学习系列专辑机器学习人工智能深度学习
信息丢失（Dropout）Dropout是一种广泛应用于神经网络训练中的正则化技术，旨在减少过拟合（overfitting），提高模型的泛化能力。虽然"信息丢失"（dropout）这个术语在某些情况下可能引起误解，指的并非是数据的丢失，而是训练过程中故意“丢弃”神经网络中的部分神经元。这种做法可以避免模型过于依赖于某些特定的神经元，从而提高模型在新数据上的表现。Dropout的工作原理在神经网络的
【漫话机器学习系列】079.超参数调优（Hyperparameter Tuning） IT古董漫话机器学习系列专辑机器学习深度学习人工智能
超参数调优（HyperparameterTuning）是机器学习中优化模型性能的重要步骤之一。超参数是模型在训练之前设定的参数，而不是通过训练数据学习到的参数。正确地选择超参数可以显著提高模型的预测能力，反之，错误的超参数选择可能会导致过拟合、欠拟合或训练过程缓慢。1.超参数的定义超参数是控制学习过程的外部参数，不同于模型参数（例如权重和偏置），超参数不通过训练过程自动优化。常见的超参数包括：学习
【漫话机器学习系列】054.极值（Extrema） IT古董漫话机器学习系列专辑机器学习人工智能
极值（Extrema）定义极值是数学分析和优化问题中的一个核心概念，指函数在某个定义域内取得的最大值或最小值。根据极值的性质，可以将其分为两类：局部极值（LocalExtrema）：函数在某点附近的最大值或最小值。全局极值（GlobalExtrema）：函数在整个定义域内的最大值或最小值。分类局部极大值（LocalMaximum）：若在点x=a附近存在某邻域，使得对任意x在该邻域内，满足f(x)≤
机器学习系列12：反向传播算法 SuperFengCode 机器学习系列机器学习神经网络反向传播算法梯度检验机器学习笔记
当我们要运用高级算法进行梯度下降时，需要计算两个值，代价函数和代价函数的偏导数：代价函数我们之前已经知道怎么求了，现在只需要求代价函数的偏导数即可。采用如下方法，先进行前向传播算法，然后再进行反向传播算法（BackpropagationAlgorithm），反向传播算法与前向传播算法方向相反，它用来求代价函数的偏导数。具体过程看下图：用δ作为误差，计算方法为：有时我们在运用反向传播算法时会遇到bu
基于Python的机器学习系列（18）：梯度提升分类（Gradient Boosting Classification）会飞的Anthony 信息系统机器学习人工智能机器学习 python 分类
简介梯度提升（GradientBoosting）是一种集成学习方法，通过逐步添加新的预测器来改进模型。在回归问题中，我们使用梯度来最小化残差。在分类问题中，我们可以利用梯度提升来进行二分类或多分类任务。与回归不同，分类问题需要使用如softmax这样的概率模型来处理类别标签。梯度提升分类的工作原理梯度提升分类的基本步骤与回归类似，但在分类任务中，我们使用概率模型来处理预测结果：初始化模型：选择一个
基于Python的机器学习系列（17）：梯度提升回归（Gradient Boosting Regression）会飞的Anthony 人工智能信息系统机器学习机器学习 python 回归
简介梯度提升（GradientBoosting）是一种强大的集成学习方法，类似于AdaBoost，但与其不同的是，梯度提升通过在每一步添加新的预测器来减少前一步预测器的残差。这种方法通过逐步改进模型，能够有效提高预测准确性。梯度提升回归的工作原理在梯度提升回归中，我们逐步添加预测器来修正模型的残差。以下是梯度提升的基本步骤：初始化模型：选择一个初始预测器h0(x)，计算该预测器的预测值。计算残差：
基于Python的机器学习系列（16）：扩展 - AdaBoost 会飞的Anthony 信息系统机器学习人工智能 python 机器学习开发语言
简介在本篇中，我们将扩展之前的AdaBoost算法实现，深入探索其细节并进行一些修改。我们将重点修复代码中的潜在问题，并对AdaBoost的实现进行一些调整，以提高其准确性和可用性。1.修复Alpha计算中的问题在AdaBoost中，如果分类器的错误率e为0，则计算出的权重α将是未定义的。为了解决这个问题，我们可以在计算过程中向分母中添加一个非常小的值，以避免除零错误。2.调整学习率sklearn
线性回归（1） zidea
MachineLearninginMarketing感谢李宏毅《回归-案例研究》部分内容为听取李宏毅老师讲座的笔记，也融入了自己对机器学习理解，个人推荐李宏毅老师的机器学习系列课程，尤其对于初学者强烈推荐。课程设计相对其他课程要容易理解。在机器学习中算法通常分为回归和分类两种，今天我们探讨什么线性回归。以及如何设计一个线性回归模型。什么回归简单理解通过数据最终预测出来一个值。回归问题的实例就是找到
机器学习系列（8）——提升树与GBDT算法陌简宁机器学习
本文介绍提升树模型与GBDT算法。0x01、提升树模型提升树是以分类树或回归树为基本分类器的提升方法。提升树被认为是统计学习中性能最好的方法之一。提升方法实际采用加法模型（即基函数的线性组合）与前向分步算法，以决策树为基函数的提升方法称为提升树（boostingtree）。对分类问题决策树是二叉分类树，对回归问题决策树是二叉回归树。提升树模型可以表示为决策树的加法模型：其中，表示决策树，为决策树的
机器学习系列——（十三）多项式回归飞影铠甲机器学习机器学习回归人工智能
引言在机器学习领域，线性回归是一种常见且简单的模型。然而，在某些情况下，变量之间的关系并不是线性的，这时候我们就需要使用多项式回归来建模非线性关系。多项式回归通过引入高次项来扩展线性回归模型，从而更好地拟合数据。本文将详细介绍多项式回归的原理、应用场景和实现步骤，并通过一个实际案例演示如何使用多项式回归进行预测。一、原理多项式回归是一种形式上为多项式的函数与自变量之间的线性回归关系。其基本原理是通
机器学习系列——（二十二）结语飞影铠甲机器学习机器学习人工智能
随着我们的机器学习系列的探索画上句号，我们不禁感慨于这一领域的广阔和深邃。从最初的基础概念到复杂的算法，从理论的探讨到实际应用的示例，我们一起经历了一段非凡的旅程。机器学习不仅是当前技术创新的核心驱动力之一，也是塑造未来的关键因素。在这个结语中，让我们回顾这段旅程的亮点，并展望机器学习将如何继续改变我们的世界。回顾学习之旅我们的系列文章涵盖了机器学习的各个方面，从监督学习到无监督学习，从简单的线性
机器学习系列——（二十一）神经网络飞影铠甲机器学习机器学习神经网络人工智能
引言在当今数字化时代，机器学习技术正日益成为各行各业的核心。而在机器学习领域中，神经网络是一种备受瞩目的模型，因其出色的性能和广泛的应用而备受关注。本文将深入介绍神经网络，探讨其原理、结构以及应用。一、简介神经网络是一种受到人类神经系统启发而设计的计算模型。它由大量的人工神经元组成，这些神经元之间通过连接进行信息传递和处理。神经网络的主要目标是从数据中学习规律，并能够进行预测、分类、识别等任务。二
机器学习系列——（二十）密度聚类飞影铠甲机器学习机器学习聚类支持向量机
引言在机器学习的无监督学习领域，聚类算法是一种关键的技术，用于发现数据集中的内在结构和模式。与传统的基于距离的聚类方法（如K-Means）不同，密度聚类关注于数据分布的密度，旨在识别被低密度区域分隔的高密度区域。这种方法在处理具有复杂形状和大小的聚类时表现出色，尤其擅长于识别噪声和异常值。本文将详细介绍密度聚类的概念、主要算法及其应用。一、概述密度聚类基于一个核心思想：聚类可以通过连接密度相似的点
机器学习系列——（十九）层次聚类飞影铠甲机器学习机器学习聚类人工智能
引言在机器学习和数据挖掘领域，聚类算法是一种重要的无监督学习方法，它试图将数据集中的样本分组，使得同一组内的样本相似度高，不同组间的样本相似度低。层次聚类（HierarchicalClustering）是聚类算法中的一种，以其独特的层次分解方式，在各种应用场景中得到广泛应用，如生物信息学、图像分析、社交网络分析等。一、概述层次聚类算法主要分为两大类：凝聚的层次聚类（AgglomerativeHie
机器学习系列——（十七）聚类飞影铠甲机器学习机器学习聚类人工智能
引言在当今数据驱动的时代，机器学习已经成为了解锁数据潜能的关键技术之一。其中，聚类作为机器学习领域的一个重要分支，广泛应用于数据挖掘、模式识别、图像分析等多个领域。本文旨在深入探讨聚类技术的原理、类型及其应用，为读者提供一个全面而深入的了解。一、什么是聚类？聚类是一种无监督学习（UnsupervisedLearning）技术，它的目标是将相似的对象分组到一起，形成簇（Cluster）。与有监督学习
机器学习系列——（十八）K-means聚类飞影铠甲机器学习机器学习 kmeans 聚类
引言在众多机器学习技术中，K-means聚类以其简洁高效著称，成为了数据分析师和算法工程师手中的利器。无论是在市场细分、社交网络分析，还是图像处理等领域，K-means都扮演着至关重要的角色。本文旨在深入解析K-means聚类的原理、实现方式、优缺点及其应用，以期为读者提供全面而深入的理解。一、K-means聚类简介K-means是一种基于划分的聚类算法，它的目标是将n个对象根据属性分为k个簇，使
机器学习系列——（十五）随机森林回归飞影铠甲机器学习机器学习随机森林回归人工智能
引言在机器学习的众多算法中，随机森林以其出色的准确率、对高维数据的处理能力以及对训练数据集的异常值的鲁棒性而广受欢迎。它是一种集成学习方法，通过构建多个决策树来进行预测和分类。本文将重点介绍随机森林在回归问题中的应用，即随机森林回归(RandomForestRegression)。一、概念随机森林回归是基于决策树的集成学习技术。在这个模型中，我们构建多个决策树，并将它们的预测结果合并来得到最终的回
机器学习系列——（十六）回归模型的评估飞影铠甲机器学习机器学习回归人工智能
引言在机器学习领域，回归模型是一种预测连续数值输出的重要工具。无论是预测房价、股票价格还是天气温度，回归模型都扮演着不可或缺的角色。然而，构建模型只是第一步，评估模型的性能是确保模型准确性和泛化能力的关键环节。本文将详细介绍几种常用的回归模型评估方法。一、均方误差（MeanSquaredError,MSE）均方误差是最常用的回归评估指标之一，它计算了预测值与真实值之间差异的平方的平均值。公式如下：
机器学习系列——（十四）正则化回归飞影铠甲机器学习机器学习回归人工智能
引言在机器学习领域，正则化回归是一种常用的技术，旨在解决过拟合问题，提高模型的泛化能力。本文将简单探讨正则化回归的概念、类型和应用，帮助读者更好地理解和运用这一重要技术。一、概念正则化回归是一种通过引入额外信息（约束或惩罚项）来调整模型复杂度的方法，从而防止过拟合，提高模型的泛化能力。简单来说，正则化就是在模型训练过程中加入一个正则项，以限制模型参数的大小。那么，为什么需要正则化？在机器学习中，模
机器学习系列6-逻辑回归喜乐00 机器学习逻辑回归人工智能
重点：1.逻辑回归模型会生成概率。2.对数损失是逻辑回归的损失函数。3.逻辑回归被许多从业者广泛使用。#1.逻辑回归：计算概率**许多问题需要将概率估算值作为输出。逻辑回归是一种非常高的概率计算机制。**实际上，您可以通过以下两种方式之一使用返回的概率：*原样*已转换为二元类别。![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/e62e0256ba5a
机器学习系列——（十一）回归飞影铠甲机器学习机器学习回归人工智能
引言在机器学习领域，回归是一种常见的监督学习任务，它主要用于预测数值型目标变量。回归分析能够通过对输入特征与目标变量之间的关系建模，从而对未知数据做出预测。概念回归是机器学习中的一种监督学习方法，用于预测数值型目标变量。它通过建立特征与目标变量之间的关系模型，对未知数据做出预测。举个例子来说明回归的概念：假设我们希望根据房屋的面积来预测其价格。我们可以收集一组包含多个房屋的数据样本，每个样本包含房
机器学习系列——（十二）线性回归飞影铠甲机器学习机器学习线性回归人工智能
导言在机器学习领域，线性回归是最基础且重要的算法之一。它用于建立输入特征与输出目标之间的线性关系模型，为我们解决回归问题提供了有效的工具。本文将详细介绍线性回归的原理、应用和实现方法，帮助读者快速了解和上手这一强大的机器学习算法。一、线性回归简介线性回归是一种监督学习算法，适用于处理连续数值预测问题。其基本思想是通过拟合最佳直线（或超平面）来预测输出变量与输入特征之间的关系。线性回归的目标是找到最
机器学习系列——（九）决策树飞影铠甲机器学习机器学习决策树人工智能
简介决策树作为机器学习的一种经典算法，在数据挖掘、分类和回归等任务中广泛应用。本文将详细介绍机器学习中的决策树算法，包括其原理、构建过程和应用场景。原理决策树是一种基于树状结构的监督学习算法，它通过构建一棵树来对数据进行分类或回归预测。决策树的每个内部节点代表一个特征属性，每个叶子节点代表一个类别或数值。决策树的构建过程：特征选择：根据某种指标选择最佳特征，将数据集划分为不同的子集。决策节点生成：
机器学习系列——（十）支持向量机飞影铠甲机器学习支持向量机机器学习算法
一、背景支持向量机（SupportVectorMachine，SVM）是一种用于分类、回归和离群点检测等领域的监督学习方法。它最初由Vapnik和Cortes在1995年提出，被认为是机器学习领域中最成功的算法之一。二、原理2.1线性SVM我们先从最简单的线性支持向量机（LinearSVM）开始。对于一个二分类问题，假设训练数据集为D={(x1,y1),(x2,y2),...,(xn,yn)}，其
jQuery 跨域访问的三种方式 No 'Access-Control-Allow-Origin' header is present on the reque qiaolevip 每天进步一点点学习永无止境跨域众观千象
XMLHttpRequest cannot load http://v.xxx.com. No 'Access-Control-Allow-Origin' header is present on the requested resource. Origin 'http://localhost:63342' is therefore not allowed access. test.html:1
mysql 分区查询优化 annan211 java 分区优化 mysql
分区查询优化引入分区可以给查询带来一定的优势，但同时也会引入一些bug. 分区最大的优点就是优化器可以根据分区函数来过滤掉一些分区，通过分区过滤可以让查询扫描更少的数据。所以，对于访问分区表来说，很重要的一点是要在where 条件中带入分区，让优化器过滤掉无需访问的分区。可以通过查看explain执行计划，是否携带 partitions
MYSQL存储过程中使用游标 chicony Mysql存储过程
DELIMITER $$ DROP PROCEDURE IF EXISTS getUserInfo $$ CREATE PROCEDURE getUserInfo(in date_day datetime)-- -- 实例-- 存储过程名为：getUserInfo-- 参数为：date_day日期格式:2008-03-08-- BEGINdecla
mysql 和 sqlite 区别 Array_06 sqlite
转载： http://www.cnblogs.com/ygm900/p/3460663.html mysql 和 sqlite 区别 SQLITE是单机数据库。功能简约，小型化，追求最大磁盘效率 MYSQL是完善的服务器数据库。功能全面，综合化，追求最大并发效率 MYSQL、Sybase、Oracle等这些都是试用于服务器数据量大功能多需要安装，例如网站访问量比较大的。而sq
pinyin4j使用 oloz pinyin4j
首先需要pinyin4j的jar包支持；jar包已上传至附件内方法一:把汉字转换为拼音；例如：编程转换后则为biancheng /** * 将汉字转换为全拼 * @param src 你的需要转换的汉字 * @param isUPPERCASE 是否转换为大写的拼音； true:转换为大写；fal
微博发送私信随意而生微博
在前面文章中说了如和获取登陆时候所需要的cookie，现在只要拿到最后登陆所需要的cookie，然后抓包分析一下微博私信发送界面 http://weibo.com/message/history?uid=****&name=**** 可以发现其发送提交的Post请求和其中的数据，让后用程序模拟发送POST请求中的数据，带着cookie发送到私信的接入口，就可以实现发私信的功能了。
jsp 香水浓 jsp
JSP初始化容器载入JSP文件后，它会在为请求提供任何服务前调用jspInit()方法。如果您需要执行自定义的JSP初始化任务，复写jspInit()方法就行了 JSP执行这一阶段描述了JSP生命周期中一切与请求相关的交互行为，直到被销毁。当JSP网页完成初始化后
在 Windows 上安装 SVN Subversion 服务端 AdyZhang SVN
在 Windows 上安装 SVN Subversion 服务端2009-09-16高宏伟哈尔滨市道里区通达街291号最佳阅读效果请访问原地址：http://blog.donews.com/dukejoe/archive/2009/09/16/1560917.aspx 现在的Subversion已经足够稳定，而且已经进入了它的黄金时段。我们看到大量的项目都在使
android开发中如何使用 alertDialog从listView中删除数据？ aijuans android
我现在使用listView展示了很多的配置信息，我现在想在点击其中一条的时候填出 alertDialog,点击确认后就删除该条数据，（ ArrayAdapter ，ArrayList，listView 全部删除），我知道在下面的onItemLongClick 方法中参数 arg2 是选中的序号，但是我不知道如何继续处理下去 1 2 3
jdk-6u26-linux-x64.bin 安装 baalwolf linux
1.上传安装文件(jdk-6u26-linux-x64.bin) 2.修改权限 [root@localhost ~]# ls -l /usr/local/jdk-6u26-linux-x64.bin 3.执行安装文件 [root@localhost ~]# cd /usr/local [root@localhost local]# ./jdk-6u26-linux-x64.bin&nbs
MongoDB经典面试题集锦 BigBird2012 mongodb
1.什么是NoSQL数据库？NoSQL和RDBMS有什么区别？在哪些情况下使用和不使用NoSQL数据库？ NoSQL是非关系型数据库，NoSQL = Not Only SQL。关系型数据库采用的结构化的数据，NoSQL采用的是键值对的方式存储数据。在处理非结构化/半结构化的大数据时；在水平方向上进行扩展时；随时应对动态增加的数据项时可以优先考虑使用NoSQL数据库。在考虑数据库的成熟
JavaScript异步编程Promise模式的6个特性 bijian1013 JavaScript Promise
Promise是一个非常有价值的构造器，能够帮助你避免使用镶套匿名方法，而使用更具有可读性的方式组装异步代码。这里我们将介绍6个最简单的特性。在我们开始正式介绍之前，我们想看看Javascript Promise的样子： var p = new Promise(function(r
[Zookeeper学习笔记之八]Zookeeper源代码分析之Zookeeper.ZKWatchManager bit1129 zookeeper
ClientWatchManager接口 //接口的唯一方法materialize用于确定那些Watcher需要被通知 //确定Watcher需要三方面的因素1.事件状态 2.事件类型 3.znode的path public interface ClientWatchManager { /** * Return a set of watchers that should
【Scala十五】Scala核心九：隐式转换之二 bit1129 scala
隐式转换存在的必要性，在Java Swing中，按钮点击事件的处理，转换为Scala的的写法如下： val button = new JButton button.addActionListener( new ActionListener { def actionPerformed(event: ActionEvent) {
Android JSON数据的解析与封装小Demo ronin47
转自：http://www.open-open.com/lib/view/open1420529336406.html package com.example.jsondemo; import org.json.JSONArray; import org.json.JSONException; import org.json.JSONObject; impor
[设计]字体创意设计方法谈 brotherlamp UI ui自学 ui视频 ui教程 ui资料
从古至今，文字在我们的生活中是必不可少的事物，我们不能想象没有文字的世界将会是怎样。在平面设计中，UI设计师在文字上所花的心思和功夫最多，因为文字能直观地表达UI设计师所的意念。在文字上的创造设计，直接反映出平面作品的主题。如设计一幅戴尔笔记本电脑的广告海报，假设海报上没有出现“戴尔”两个文字，即使放上所有戴尔笔记本电脑的图片都不能让人们得知这些电脑是什么品牌。只要写上“戴尔笔
单调队列-用一个长度为k的窗在整数数列上移动，求窗里面所包含的数的最大值 bylijinnan java 算法面试题
import java.util.LinkedList; /* 单调队列滑动窗口单调队列是这样的一个队列：队列里面的元素是有序的，是递增或者递减题目：给定一个长度为N的整数数列a(i),i=0,1,...,N-1和窗长度k. 要求：f(i) = max{a(i-k+1),a(i-k+2),..., a(i)},i = 0,1,...,N-1 问题的另一种描述就
struts2处理一个form多个submit chiangfai struts2
web应用中，为完成不同工作，一个jsp的form标签可能有多个submit。如下代码： <s:form action="submit" method="post" namespace="/my"> <s:textfield name="msg" label="叙述：">
shell查找上个月，陷阱及野路子 chenchao051 shell
date -d "-1 month" +%F 以上这段代码，假如在2012/10/31执行，结果并不会出现你预计的9月份，而是会出现八月份，原因是10月份有31天，9月份30天，所以-1 month在10月份看来要减去31天，所以直接到了8月31日这天，这不靠谱。野路子解决：假设当天日期大于15号
mysql导出数据中文乱码问题 daizj mysql 中文乱码导数据
解决mysql导入导出数据乱码问题方法：１、进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+----------------------------------------+ | Variable_name&nbs
SAE部署Smarty出现：Uncaught exception 'SmartyException' with message 'unable to write dcj3sjt126com PHP smarty sae
对于SAE出现的问题：Uncaught exception 'SmartyException' with message 'unable to write file...。官方给出了详细的FAQ：http://sae.sina.com.cn/?m=faqs&catId=11#show_213 解决方案为： 01 $path
《教父》系列台词 dcj3sjt126com
Your love is also your weak point. 你的所爱同时也是你的弱点。 If anything in this life is certain, if history has taught us anything, it is that you can kill anyone. 不顾家的人永远不可能成为一个真正的男人。 &
mongodb安装与使用 dyy_gusi mongo
一.MongoDB安装和启动,widndows和linux基本相同 1.下载数据库, linux:mongodb-linux-x86_64-ubuntu1404-3.0.3.tgz 2.解压文件,并且放置到合适的位置 tar -vxf mongodb-linux-x86_64-ubun
Git排除目录 geeksun git
在Git的版本控制中，可能有些文件是不需要加入控制的，那我们在提交代码时就需要忽略这些文件，下面讲讲应该怎么给Git配置一些忽略规则。有三种方法可以忽略掉这些文件，这三种方法都能达到目的，只不过适用情景不一样。 1. 针对单一工程排除文件这种方式会让这个工程的所有修改者在克隆代码的同时，也能克隆到过滤规则，而不用自己再写一份，这就能保证所有修改者应用的都是同一
Ubuntu 创建开机自启动脚本的方法 hongtoushizi ubuntu
转载自： http://rongjih.blog.163.com/blog/static/33574461201111504843245/ Ubuntu 创建开机自启动脚本的步骤如下： 1) 将你的启动脚本复制到 /etc/init.d目录下以下假设你的脚本文件名为 test。 2) 设置脚本文件的权限 $ sudo chmod 755
第八章流量复制/AB测试/协程 jinnianshilongnian nginx lua coroutine
流量复制在实际开发中经常涉及到项目的升级，而该升级不能简单的上线就完事了，需要验证该升级是否兼容老的上线，因此可能需要并行运行两个项目一段时间进行数据比对和校验，待没问题后再进行上线。这其实就需要进行流量复制，把流量复制到其他服务器上，一种方式是使用如tcpcopy引流；另外我们还可以使用nginx的HttpLuaModule模块中的ngx.location.capture_multi进行并发
电商系统商品表设计 lkl
DROP TABLE IF EXISTS `category`; -- 类目表 /*!40101 SET @saved_cs_client = @@character_set_client */; /*!40101 SET character_set_client = utf8 */; CREATE TABLE `category` ( `id` int(11) NOT NUL
修改phpMyAdmin导入SQL文件的大小限制 pda158 sql mysql
　用phpMyAdmin导入mysql数据库时，我的10M的数据库不能导入，提示mysql数据库最大只能导入2M。　　 phpMyAdmin数据库导入出错：　　You probably tried to upload too large file. Please refer to documentation for ways to workaround this limit.
Tomcat性能调优方案 Sobfist apache jvm tomcat 应用服务器
一、操作系统调优对于操作系统优化来说，是尽可能的增大可使用的内存容量、提高CPU的频率，保证文件系统的读写速率等。经过压力测试验证，在并发连接很多的情况下，CPU的处理能力越强，系统运行速度越快。。【适用场景】任何项目。二、Java虚拟机调优应该选择SUN的JVM，在满足项目需要的前提下，尽量选用版本较高的JVM，一般来说高版本产品在速度和效率上比低版本会有改进。 J
SQLServer学习笔记 vipbooks 数据结构 xml
1、create database school 创建数据库school 2、drop database school 删除数据库school 3、use school 连接到school数据库，使其成为当前数据库 4、create table class(classID int primary key identity not null) 创建一个名为class的表，其有一