zhangkaihua88

【深度之眼《机器学习》西瓜书训练营第十三期】决策树

决策树

1. 决策树

1.1. 基本流程
1.2. 划分选择

1.2.1. ID3决策树

1.2.1.1. 信息增益

1.2.2. C4.5决策树

1.2.2.1. 增益率

1.2.3. CART

1.2.3.1. 基尼指数
1.2.3.2. 算法

1.3. 剪枝处理

1.3.1. 预剪枝
1.3.2. 后剪枝

1.4. 连续与缺失值

1.4.1. 连续值处理

1.4.1.1. 缺失值处理

1.5. 多变量决策树

1. 决策树

是一种模仿人类决策的学习方法
基于树结构来进行决策

1.1. 基本流程

测试：决策过程中提出的每个判定问题都是对某个属性的测试
决策树基本结构
- 一个根结点==>判定问题的不同答案
- 若干个内部结点==>判定问题的不同答案
- 若干个叶结点==>决策结果
过程
每个结点包含的样本集合根据属性测试的结果被划分到子结点中
根结点包含样本全集
从根结点到每个叶结点的路径对应了一个判定测试序列
目的：产生一颗泛化能力强，即处理未见示例能力强的决策树
基本流程：遵循简单且直观的分而治之策略

决策树的生成是一个递归过程
三种递归返回
- 当前结点包含的样本全属于同一类别，无需划分
- 当前属性集为空，或是所有样本在所有属性上的取值相同，无法划分(使用后验分布)
- 当前结点包含的样本集合为空，不能划分(使用先验分布)

1.2. 划分选择

一般而言，随着划分过程不断进行，我们希望决策树的分支结点所包含的样本尽可能属于同一类别，即结点的“纯度”(purity)越来越高.

1.2.1. ID3决策树

ID3名字中的ID是lterative Dichotomiser(迭代二分器)的简称。
以信息增益为准则来选择划分属性

1.2.1.1. 信息增益

信息熵是对量样本集合纯度最常用的一种指标

信息熵
假定当前样本集合 $D$ 中第 $k$ 类样本所占的比例 $p_k(k=1,2,3,\ldots,|\mathcal{Y}|)$ 且 $\leq p_{k} \leq 1, \sum_{k=1}^{|\mathcal{Y}|} p_{k}=1$ , $|\mathcal{Y}|$ 样本的类别总数，则 $D$ 的信息熵定义为
$\operatorname{Ent}(D)=-\sum_{k=1}^{|\mathcal{Y}|} p_{k} \log _{2} p_{k}$
$\operatorname{Ent}(D)$ 的值越小，则 $D$ 的纯度越高
证明： $0\leq \operatorname{Ent}(D) \leq\log_2|\mathcal{Y}|$
- 求 $\operatorname{Ent}(D)$ 的最大值
  若令 $|\mathcal{Y}|=n,p_k=x_k$ ,那么信息熵$\operatorname{Ent}(D) $就可以看成$ n$元实值函数，也即：
  $\operatorname{Ent}(D)=f\left(x_{1}, \ldots, x_{n}\right)=-\sum_{k=1}^{n} x_{k} \log _{2} x_{k}$
  其中 $\leq x_{k} \leq 1, \sum_{k=1}^{n} x_{k}=1$ ，考虑求该多元函数的最值(约束优化问题)
  仅考虑 $\sum_{k=1}^{n} x_{k}=1$ 对于 $f\left(x_{1}, \ldots, x_{n}\right)$ 求最大值等同于如何最小化
  $\text { min } \sum_{k=1}^{n} x_{k} \log _{2} x_{k},\text { S.t. } \sum_{k=1}^{n} x_{k}=1$
  显然，在 $0\leq x_k \leq 1$ 时此问题为凸优化(拆开分析二阶导数大于零，或hessian矩阵)问题，而对于凸优化问题来说，满足KKT条件的点即为最优解。由于此最小化问题仅含等式约束，那么能令其拉格朗日函数的一阶偏导数等于0的点即为满足KKT条件的点。
  根据拉格朗日乘子法可知，该优化问题的拉格朗日函数为
  $L\left(x_{1}, \ldots, x_{n}, \lambda\right)=\sum_{k=1}^{n} x_{k} \log _{2} x_{k}+\lambda\left(\sum_{k=1}^{n} x_{k}-1\right)$
  对于拉格朗日函数分别关于 $x_1,\ldots,x_n,\lambda$ 求一阶偏导数，并令偏导数等于0
  $\begin{aligned} \frac{\partial L\left(x_{1}, \ldots, x_{n}, \lambda\right)}{\partial x_{1}}&=\frac{\partial}{\partial x_{1}}\left[\sum_{k=1}^{n} x_{k} \log _{2} x_{k}+\lambda\left(\sum_{k=1}^{n} x_{k}-1\right)\right]=0\\ &=\log _{2} x_{1}+x_{1} \cdot \frac{1}{x_{1} \ln 2}+\lambda=0\\ &=\log _{2} x_{1}+\frac{1}{\ln 2}+\lambda=0\\ &\Rightarrow \lambda=-\log _{2} x_{1}-\frac{1}{\ln 2} \end{aligned}$
  同理可得
  $\lambda=-\log _{2} x_{1}-\frac{1}{\ln 2}=-\log _{2} x_{2}-\frac{1}{\ln 2}=\ldots=-\log _{2} x_{n}-\frac{1}{\ln 2}$
  又因为
  $\begin{aligned} \frac{\partial L\left(x_{1}, \ldots, x_{n}, \lambda\right)}{\partial \lambda} &=\frac{\partial}{\partial \lambda}\left[\sum_{k=1}^{n} x_{k} \log _{2} x_{k}+\lambda\left(\sum_{k=1}^{n} x_{k}-1\right)\right]=0 \\ & \Rightarrow \sum_{k=1}^{n} x_{k}=1 \end{aligned}$
  所以解的
  $x_{1}=x_{2}=\ldots=x_{n}=\frac{1}{n}$
  根据验证满足约束条件，所以未满足所有约束的最优解，也即未当前最小化问题的最小值点，同时也是 $f\left(x_{1}, \ldots, x_{n}\right)$ 的最大值点
  将解带入可得
  $f\left(\frac{1}{n}, \ldots, \frac{1}{n}\right)=-\sum_{k=1}^{n} \frac{1}{n} \log _{2} \frac{1}{n}=-n \cdot \frac{1}{n} \log _{2} \frac{1}{n}=\log _{2} n$
  纯度最低是为样本为均匀分布的时候
- 求 $\operatorname{Ent}(D)$ 的最小值
  仅考虑 $\leq x_k \leq 1$ ， $f\left(x_{1}, \ldots, x_{n}\right)$ 可以看成是 $n$ 个互不相关的一元函数的加和，即
  $f\left(x_{1}, \ldots, x_{n}\right)=\sum_{k=1}^{n} g\left(x_{k}\right)$
  其中 $g\left(x_{k}\right)=-x_{k} \log _{2} x_{k}, 0 \leq x_{k} \leq 1$ 。当各个 $g(x_i)$ 分别取到其最小值时，函数也取到最小值
  - 求 $g(x_1)$ 的最小值
    $\begin{aligned} g^{\prime}\left(x_{1}\right)&=\frac{d\left(-x_{1} \log _{2} x_{1}\right)}{d x_{1}}=-\log _{2} x_{1}-x_{1} \cdot \frac{1}{x_{1} \ln 2}=-\log _{2} x_{1}-\frac{1}{\ln 2}\\ g^{\prime \prime}\left(x_{1}\right)&=\frac{d\left(g^{\prime}\left(x_{1}\right) \right)}{d x_{1}}=\frac{d\left(-\log _{2} x_{1}-\frac{1}{\ln 2}\right)}{d x_{1}}=-\frac{1}{x_{1} \ln 2} \end{aligned}$
    $g(x_1)$ 是一个在其定义域范围内开口向下的凹函数，那么其最小值必然在边界取。所以 $g (0) = g (1) = 1$
    Note:在信息熵中 $0\log_2 0=0$
条件熵
在已知样本属性 $a$ 的取值情况下，度量样本集合纯度的一种指标
假定离散属性 $a$ 有 $V$ 个可能的取值 $\{a^1,a^2,\ldots,a^V\}$ ,若使用 $a$ 来对样本集 $D$ 进行划分，则会产生 $V$ 个分支结点，其中第 $v$ 个分支结点包含了 $D$ 中所有在属性 $a$ 上取值为 $a^v$ 的样本，记为 $D^v$
$a)=\sum_{v=1}^{V} \frac{\left|D^{v}\right|}{|D|} \operatorname{Ent}\left(D^{v}\right)$
$H (D ∣ a)$ 值越小，纯度越高

联合熵
同时发生事件X和Y的不确定性。
$\begin{aligned} H(X, Y)&=-\sum_{x \in X} \sum_{y \in Y} p(x, y) \log _{2} p(x, y)\\ H(X, Y)&=-E_{p(x, y)} \log _{2} p(x, y) \\ &=-E_{p(x, y)}\left(\log _{2}(p(x) p(y | x))\right) \\ &=-E_{p(x, y)}\left(\log _{2} p(x)+\log _{2} p(y | x)\right) \\ &=-E_{p(x)} \log _{2} p(x)-E_{p(x, y)} \log _{2} p(y | x) \\ &=H(X)+H(Y | X) \end{aligned}$

信息增益(互信息)
属性 $a$ 对样本集 $D$ 进行划分所获得的信息增益
$\operatorname{Gain}(D, a)=\operatorname{Ent}(D)-\sum_{v=1}^{V} \frac{\left|D^{v}\right|}{|D|} \operatorname{Ent}\left(D^{v}\right)=\operatorname{Ent}(D)-H(D | a)$
其中 $D^v|/|D|$ 为分支结点赋予权重，即样本数越多的分支结点的影响越大

一般而言信息增益越大，则意味着使用属性 $a$ 来进行划分所获得的纯度提升越大
最优化分属性
$a_{*}=\underset{a \in A}{\arg \max } \operatorname{Gain}(D, a)$
缺点
信息增益对对可取数值数目较多的属性有所偏好
$\begin{aligned} \operatorname{Gain}(D, a) &=\operatorname{Ent}(D)-\sum_{v=1}^{V} \frac{\left|D^{v}\right|}{|D|} \operatorname{Ent}\left(D^{v}\right) \\ &=\operatorname{Ent}(D)-\sum_{v=1}^{V} \frac{\left|D^{v}\right|}{|D|}\left(-\sum_{k=1}^{|y|} p_{k} \log _{2} p_{k}\right) \\ &=\operatorname{Ent}(D)-\sum_{v=1}^{V} \frac{\left|D^{v}\right|}{|D|}\left(-\sum_{k=1}^{|y|} \frac{\left|D_{k}^{v}\right|}{\left|D^{v}\right|} \log _{2} \frac{\left|D_{k}^{v}\right|}{\left|D^{v}\right|}\right) \end{aligned}$
离散和连续变量
- 一个连续变量X的不确定性，用方差Var(X)来度量
- 一个离散变量X的不确定性，用熵H(X)来度量
- 两个连续变量X和Y的相关度，用协方差或相关系数来度量
- 两个离散变量X和Y的相关度，用互信息I(X;Y)来度量(直观地，X和Y的相关度越高，X对分类的作用就越大)

1.2.2. C4.5决策树

解决信息增益的确定，不直接使用信息增益，而是使用增益率来选择最优化分属性

1.2.2.1. 增益率

增益率准则对可取数目较少的属性有所偏好

定义：
$\text { Gain ratio }(D, a)=\frac{\operatorname{Gain}(D, a)}{\operatorname{IV}(a)}$
其中
$\mathrm{IV}(a)=-\sum_{v=1}^{V} \frac{\left|D^{v}\right|}{|D|} \log _{2} \frac{\left|D^{v}\right|}{|D|}$ 称为属性 $a$ 的固有值

属性 $a$ 的可能取值数目越多(即V越大)，则 $\mathrm{IV}(a)$ 的值通常会越大

信息熵衡量的是样本集在类别上的混乱程度，而固有值衡量的是样本集在某个属性上的混乱程度。固有值越大，则该属性混乱程度越高，可能的取值越多。

算法并不是直接选择增益率最大的候选划分属性，而是使用了一个启发式：先从候选划分属性中找出信息增益高于平均水平的属性，再从中选择增益率最高的.

1.2.3. CART

CART是Classification and Regression Tree的简称，这是一种著名的决策树学习算法，分类和回归任务都可用。

1.2.3.1. 基尼指数

基尼值
$\begin{aligned} \operatorname{Gini}(D) &=\sum_{k=1}^{|\mathcal{Y}|} \sum_{k^{\prime} \neq k} p_{k} p_{k^{\prime}} \\ &=1-\sum_{k=1}^{|\mathcal{Y}|} p_{k}^{2} \end{aligned}$
直观来说， $G i n i (D)$ 反映了从数据集D中随机抽取两个样本，其类别标记不一致的概率.因此， $G i n i (D)$ 越小，则数据集D的纯度越高.
基尼指数
属性 $a$ 的基尼指数
$\text { Gini index }(D, a)=\sum_{v=1}^{V} \frac{\left|D^{v}\right|}{|D|} \operatorname{Gini}\left(D^{v}\right)$

最优化分属性
$a_{*}=\underset{a \in A}{\arg \min } \operatorname{Gini}_{\text {index }}(D, a)$

1.2.3.2. 算法

分类
回归

1.3. 剪枝处理

剪枝（pruning）是决策树学习算法对付“过拟合”的主要手段.

降低了过拟合的风险

1.3.1. 预剪枝

在决策树生成过程中，对每个结点在划分前先进行估计，若当前结点的划分不能带来决策树泛化性能提升，则停止划分并将当前结点标记为叶结点

显著减少了决策树的训练时间开销和测试时间开销
局部贪婪有可能导致后续划分不能展开，有欠拟合风险

1.3.2. 后剪枝

先从训练集生成一棵完整的决策树，然后自底向上地对非叶结点进行考察，若将该结点对应的子树替换为叶结点能带来决策树泛化性能提升，则将该子树替换为叶结点.
实际任务中，即使没有提升，只要不是性能下降，一般也会剪枝，因为根据奥卡姆剃刀准则，简单的模型更好。

欠拟合风险小，泛化能力优于预剪枝决策树
训练时间开销比未剪枝的决策树和预剪枝决策树都要大

1.4. 连续与缺失值

1.4.1. 连续值处理

连续属性离散化：二分法(C4.5决策树算法中采用的机制)
给定样本集 $D$ 和连续属性 $a$ ，假定 $a$ 在 $D$ 上出现了 $n$ 个不同的取值，将这些值从小到大排序，记为 $\{a^1,a^2,\ldots,a^n\}$ 。基于划分点 $t$ 可将 $D$ 分为子集 $D^-_t$ ( $a^i < t$ )和 $D^+_t$
对于连续属性 $a$ ,选择考察包含 $n - 1$ 个元素的候选划分点集合
$T_a = \left\{ \frac{a^i+a^{i+1}}{2}|1 \leq i \leq n-1 \right\}$
把区间 $a^i,a^{i+1})$ 的中位点 $\frac{a^i+a^{i+1}}{2}$ 作为候选划分点。
$\begin{aligned} \operatorname{Gain}(D, a) &=\max _{t \in T_{a}} \operatorname{Gain}(D, a, t) \\ &=\max _{t \in T_{a}} \operatorname{Ent}(D)-\sum_{\lambda \in\{-,+\}} \frac{\left|D_{t}^{\lambda}\right|}{|D|} \operatorname{Ent}\left(D_{t}^{\lambda}\right) \end{aligned}$

在对连续属性值排序完之后，由于有 $n$ 个不同取值，取每两个取值的平均值作为划分点的话，就有 $n - 1$ 个候选划分点。我们需要做得就是按照准则（比方说用ID3算法的话就是信息增益）进行 $n - 1$ 次判断。每次拿出一个候选划分点，把连续属性分为两类，转换为离散属性。然后基于这个基础计算准则，最终选出一个最优的属性值划分点。

1.4.1.1. 缺失值处理

如何在属性值缺失的情况下进行划分属性选择？
假设数据集为 $D$ ，有缺失值的属性为 $a$ ，令 $\tilde{D}$ 表示 $D$ 中没有缺失属性 $a$ 的样本子集。

基于 $\tilde{D}$ 来判断属性 $a$ 的优劣。假定属性 $a$ 有 $V$ 个可取值 $\{a^1,a^2,\ldots,a^V\}$ ，令 $\tilde{D}^v$ 表示 $D$ 中在属性 $a$ 上取值为 $a^v$ 的样本子集， $\tilde{D}_k$ 表示 $D$ 中属于第 $k$ 类（ $k=1,2,\ldots, |\mathcal{Y}|$ ）的样本子集，则显然有 $\tilde{D}=\bigcup_{k=1}^{|\mathcal{Y}|} \tilde{D}_{k}, \tilde{D}=\bigcup_{v=1}^{V} \tilde{D}^{v}$ .假定我们为每个样本 $x$ 赋予一个权重 $w_x$ ，并定义
$\begin{aligned} \rho &= \frac{\sum_{\mathbf{x} \in \tilde{D}}w_\mathbf{x}}{\sum_{\mathbf{x} \in D}w_\mathbf{x}}\\ \tilde{p}_k &= \frac{\sum_{\mathbf{x} \in \tilde{D}_k}w_\mathbf{x}}{\sum_{\mathbf{x} \in \tilde{D}}w_\mathbf{x}},\quad (1 \leq k \leq |\mathcal{Y}|),&\sum_{k=1}^{| \mathcal{Y |}} \tilde{p}_{k}&=1\\ \tilde{r}_v &= \frac{\sum_{\mathbf{x} \in \tilde{D}^v}w_\mathbf{x}}{\sum_{\mathbf{x} \in \tilde{D}}w_\mathbf{x}},\quad (1 \leq v \leq V),&\sum_{v=1}^{V} \tilde{r}_{v}&=1\\ \end{aligned}$

$\rho$ 表示无缺失值样本所占的比例;
$\tilde{p}_k$ 表示无缺失值样本中第 $k$ 类所占的比例;
$\tilde{r}_v$ 表示无缺失值样本中在属性 $a$ 上取值 $a^v$ 的样本所占的比例 ;

注意，这里的 $w_{x}$ 表示样本的权值，它是含缺失值样本参与建模的一种方式。在根节点处初始时，所有样本 $x$ 的权重都为1。

接下来重新定义信息熵和信息增益，推广到样本含缺失值的情况：

$\begin{aligned} Ent(\tilde{D}) &= -\sum_{k=1}^{|\mathcal{Y|}}\tilde{p}_klog_2\tilde{p}_k\\ Gain(D,a) &= \rho \times Gain(\tilde{D},a)\\ &= \rho \times (Ent(\tilde{D}) - \sum_{v=1}^V \tilde{r}_vEnt(\tilde{D}^v)) \end{aligned}$

按照新的定义来计算包含缺失值的属性的信息增益，然后和其他属性的信息增益相比，选出最优的。
给定划分属性，若样本在该属性上的值缺失，如何对样本进行划分？
若样本 $x$ 在划分属性 $a$ 上的取值已知，则将 $x$ 划入与其取值对应的子结点，且样本权值在子结点中保持为 $w_x$ .
若样本 $x$ 在划分属性 $a$ 上的取值未知，则将 $x$ 同时划入所有子结点，且样本权值在与属性值 $a^v$ 对应的子结点中调整为 $\tilde{r}_v \cdot w_x$ ；直观地看，这就是让同一个样本以不同的概率划入到不同的子结点中去.

可以把无缺失值的决策树建模想象为各样本权值恒为1的情形，它们只对自己所属的属性值子集作贡献。而样本含缺失值时，它会以不同的概率对所有属性值子集作贡献。

1.5. 多变量决策树

决策树所形成的分类边界有一个明显的特点：轴平行，即它的分类边界由若干个与坐标轴平行的分段组成

为了节省预测时间，将每个非叶结点是对属性的线性组合进行测试，每个非叶节点 $\sum_{i=1}^d w_i a_i =t$ 的线性分类器，其中 $w_i$ 未是属性 $a_i$ 的权重， $w_i,t$ 可从样本集和属性集上学得

多变量决策树的决策边界能够斜着走，甚至绕曲线走，从而用更少的分支更好地逼近复杂的真实边界。

周志华机器学习西瓜书第五章神经网络-学习笔记(超详细) Sodas（填坑中....）周志华西瓜书——详细笔记附例题图解机器学习神经网络学习人工智能数据挖掘算法
在机器学习中，神经网络一般指的是"神经网络学习"，是机器学习与神经网络两个学科的交叉部分。所谓神经网络，目前用的最广泛的一个定义是"神经网络是由具有适应性的简单单元组成的广泛并行互连的网络，它的组织能够模拟生物神经系统对真实世界物体做出交互反应"。神经网络是一门重要的机器学习技术。它是目前最为火热的研究方向--深度学习的基础。学习神经网络不仅可以让你掌握一门强大的机器学习方法，同时也可以更好地帮助
《西瓜书》大白话思想总结-第三章小溪子子西瓜书概率论机器学习分类
第三章3.1+3.2分类和回归是监督式学习，都是根据数据，分析特征，作出预测，只是预测的值是离散的叫分类，连续的叫回归。为什么叫线性回归呢？因为线性就可以看成是直线，直线当然是连续的。而所给的直线就是根据离散点拟合出来的线，其本质就是一种预测。那么根据离散点的特征，给出了预测方程的这个直线，就符合回归的定义。因此，这就叫作线性回归。（个人理解，不一定对）这个拟合直线的方程，或者叫预测的函数，各个自
周工作计划2019-03-25 MikeShine
很久没有写工作计划了。之前一个星期生了病，很难受。上个星期基本上什么都没有干。但是好的一点是，西瓜书基本都看完了。本周工作计划：机器学习分享活动（关于决策树的分享）回看一下西瓜书的东西，每一章把开头总结写一下。老师没有给具体的任务，留了再说吧。
机器学习（西瓜书）学习笔记导览盛寒机器学习西瓜书学习机器学习人工智能
本篇文章会持续更新直到更新完毕，关注博主不迷路~（如果没有超链接，表示还没有更新到）第一章绪论1.1引言1.2基本术语1.3假设空间1.4归纳偏好第二章模型评估与选择2.1经验误差与过拟合2.2评估方法2.3性能度量2.4比较检验2.5偏差与方差第三章线性模型3.1基本形式3.2线性回归3.3对数几率回归3.4线性判别分析3.5多分类学习3.6类别不平衡问题第四章决策树4.1基本流程4.2划分选择
机器学习LDA线性判别器代码实现 Longlongaaago 机器学习 LDA 线性判别分析代码实现
机器学习LDA线性判别器代码实现西瓜书P60线性判别器LDA代码实现：importnumpyasnpimportmatplotlib.pyplotaspltdefload_data(file_name):'''数据导入函数:paramfile_name:(string)训练数据位置:return:feature_data(mat)特征lable_data(mat)标签'''fr=open(file
西瓜书-机器学习5.4 全局最小与局部极小 lestat_black 西瓜书机器学习
两种“最优”：“局部极小”(localminimum)和"全局最小"(globalminimum)对和，若存在使得多组不同参数值初始化多个神经网络使用“模拟退火”：以一定的概率接受比当前解更差的结果，有助于“跳出”局部极小使用随机梯度下降遗传算法(geneticalgorithms)[Goldberg,1989]也常用来训练神经网络以上用于跳出局部极小的技术大多是启发式，理论上商缺乏保障。Gold
2019-05-14《西瓜书》难啃杨熊猫Yang
周志华老师的《西瓜书：机器学习》这周看完1~10章锻炼：太极云手、100手/组，3组虎刨功（简）、100个/组，2组
机器学习——集成学习三三木木七机器学习集成学习人工智能
参考：ysu老师课件+西瓜书+期末复习笔记1.集成学习的基本概念集成学习（ensemblelearing）通过构建并结合多个学习器来完成学习任务。有时也被称为多分类器系统（multi-classifiersystem）、基于委员会的学习(committee-basedlearning)等。理解：集成学习是一种机器学习方法，其核心思想是将多个学习器（弱学习器）集成在一起，以达到比单个学习器更好的性能
西瓜书学习笔记——低维嵌入（公式推导+举例应用） Nie同学机器学习学习笔记机器学习
文章目录算法介绍实验分析算法介绍低维嵌入（Low-DimensionalEmbedding）是一种降低高维数据维度的技术，目的是在保留数据特征的同时减少数据的复杂性。这种技术常用于可视化、特征学习、以及数据压缩等领域。低维嵌入的目标是将高维数据映射到一个低维空间，以便更好地理解和可视化数据。在kkk近邻学习中，随着数据维度的增加，样本之间的距离变得更加稀疏，导致KNN算法性能下降。这是因为在高维空
西瓜书学习笔记——核化线性降维（公式推导+举例应用） Nie同学机器学习学习笔记机器学习
文章目录算法介绍实验分析算法介绍核化线性降维是一种使用核方法（KernelMethods）来进行降维的技术。在传统的线性降维方法中，例如主成分分析（PCA）和线性判别分析（LDA），数据被映射到一个低维线性子空间中。而核化线性降维则通过使用核技巧，将数据映射到一个非线性的低维空间中。核技巧的核心思想是通过一个非线性映射将原始数据转换到一个高维的特征空间，然后在该特征空间中应用线性降维方法。这种映射
西瓜书学习笔记——k近邻学习（公式推导+举例应用） Nie同学机器学习学习笔记机器学习
文章目录算法介绍实验分析算法介绍K最近邻（K-NearestNeighbors，KNN）是一种常用的监督学习算法，用于分类和回归任务。该算法基于一个简单的思想：如果一个样本在特征空间中的kkk个最近邻居中的大多数属于某个类别，那么该样本很可能属于这个类别。KNN算法不涉及模型的训练阶段，而是在预测时进行计算。以下是KNN算法的基本步骤：选择K值：首先，确定用于决策的邻居数量K。K的选择会影响算法的
西瓜书学习笔记——主成分分析（公式推导+举例应用） Nie同学机器学习学习笔记机器学习降维
文章目录算法介绍实验分析算法介绍主成分分析（PrincipalComponentAnalysis，PCA）是一种常用的降维技术，用于在高维数据中发现最重要的特征或主成分。PCA的目标是通过线性变换将原始数据转换成一组新的特征，这些新特征被称为主成分，它们是原始特征的线性组合。对于一个正交属性空间（各个属性之间是线性无关的）中的样本点，存在以下两个性质的超平面可对所有样本点进行恰当的表达：最近重构性
朴素贝叶斯分类算法三三木木七 #机器学习机器学习人工智能 sklearn
本文介绍了朴素贝叶斯分类算法，标记后的话一般是自己简要总结的，是比较通俗易懂的，也就是必看的。参考：西瓜书，ysu老师课件【摘要】1.分类算法：分类算法的内容是根据给定特征，求出它所属类别。2.先验概率：就是根据以往的数据分析所得到的概率。后验概率：是得到信息之后重新加以修正得到的概率。3.贝叶斯决策：贝叶斯决策理论中，我们希望选择那个最小化总体期望损失的决策。决策损失的期望值通过对所有可能状态的
决策树的相关知识点三三木木七 #机器学习决策树算法机器学习
参考：ysu老师课件+西瓜书1.决策树的基本概念【决策树】：决策树是一种描述对样本数据进行分类的树形结构模型，由节点和有向边组成。其中每个内部节点表示一个属性上的判断，每个分支代表一个判断结果的输出，最后每个叶节点代表一种分类结果。理解：它是一个树状结构，其中每个节点代表一个特征属性的判断，每个分支代表这个判断的结果，而每个叶节点（叶子）代表一种类别或回归值。关于决策树要掌握的概念：根节点（Roo
西瓜书学习笔记——层次聚类（公式推导+举例应用） Nie同学机器学习学习笔记聚类
文章目录算法介绍实验分析算法介绍层次聚类是一种将数据集划分为层次结构的聚类方法。它主要有两种策略：自底向上和自顶向下。其中AGNES算法是一种自底向上聚类算法，用于将数据集划分为层次结构的聚类。算法的基本思想是从每个数据点开始，逐步合并最相似的簇，直到形成一个包含所有数据点的大簇。这个过程被反复执行，构建出一个层次化的聚类结构。这其中的关键就是如何计算聚类簇之间的距离。但实际上，每个簇都是一个集合
西瓜书学习笔记——密度聚类（公式推导+举例应用） Nie同学机器学习学习笔记聚类
文章目录算法介绍实验分析算法介绍密度聚类是一种无监督学习的聚类方法，其目标是根据数据点的密度分布将它们分组成不同的簇。与传统的基于距离的聚类方法（如K均值）不同，密度聚类方法不需要预先指定簇的数量，而是通过发现数据点周围的密度高度来确定簇的形状和大小。我们基于DBSCAN算法来实现密度聚类。DBSCAN是基于一组邻域参数(ϵ,MinPts)(\epsilon,MinPts)(ϵ,MinPts)来刻
【机器学习·西瓜书学习笔记·线性模型】线性回归——最小二乘法（least square method）慈善区一姐机器学习学习线性回归
线性模型的基本形式给定由个属性描述的实例,其中是在第个属性上的取值，线性模型（linearmodel）试图学得一个通过属性的线性组合来进行预测的函数，即一般用向量形式写成：和确定后，模型就得以确定参数查阅表把数据集表示为一个m*（d+1）大小的矩阵，其中每行对应于一个实例，每行前d个元素对应于实例的d个属性值，最后一个元素恒置于1，即（一）均方误差（meansquarederror）基于欧几里得距
如何系统学习机器学习？人邮异步社区学习机器学习人工智能
要系统学习机器学习，首先需要掌握一些基础编程技能，如Python。其次，学习基础的数学概念，如线性代数、概率论和统计学。然后，选择一些优质的在线课程和教材进行深入学习。最后，通过实践项目来巩固所学知识。以下是一些推荐的书籍：《动手学机器学习》，"西瓜书"作者周志华力荐的机器学习入门书。本书系统介绍了机器学习的基本内容及其代码实现，是一本着眼于机器学习教学实践的图书。本书包含4个部分：第一部分为机器
西瓜书学习笔记——原型聚类（公式推导+举例应用） Nie同学机器学习学习笔记聚类
文章目录k均值算法算法介绍实验分析学习向量量化（LVQ）算法介绍实验分析高斯混合聚类算法介绍实验分析总结k均值算法算法介绍给定样本集D={x1,x2,...,xm}D=\{x_1,x_2,...,x_m\}D={x1,x2,...,xm}，k均值算法针对聚类算法所得簇划分C={C1,C2,...,Ck}\mathcal{C}=\{C_1,C_2,...,C_k\}C={C1,C2,...,Ck}最
大数据学习之路金光闪闪耶
一、为什么要学习大数据？在我第一份实习的时候，忘记在什么场景下我leader突然说了一句：「干Java不就是增删改查嘛」，而恰好那时候知乎都是「干了3年Java，还是只会增删改查，迷茫」等问题，我听完leader那句话就心里一颤。因为这句话，我又一次的陷入迷茫，我不清楚自己是不是应该继续的Java，所以那段时间我干过爬虫，也撸了一阵子的西瓜书和统计学什么的。在知乎上所有相关的问题和答案我都看了，也
西瓜书学习笔记——Boosting（公式推导+举例应用） Nie同学机器学习学习笔记 boosting
文章目录引言AdaBoost算法AdaBoost算法正确性说明AdaBoost算法如何解决权重更新问题？AdaBoost算法如何解决调整下一轮基学习器样本分布问题？AdaBoost算法总结实验分析引言Boosting是一种集成学习方法，旨在通过整合多个弱学习器来构建一个强学习器。其核心思想是迭代训练模型，关注之前被错误分类的样本，逐步提升整体性能。Boosting的代表算法包括AdaBoost、G
浙江大学《机器学习》笔记——神经网络(Neural Network)【上】啵啵啵啵哲机器学习笔记神经网络机器学习人工智能
写在前面·最近在学习《机器学习》.主要是看浙江大学胡浩基老师的网课，结合周志华老师的西瓜书来学.为了理清思路和推公式就敲了这样一个读书笔记.初次学习难免会有错漏，欢迎批评指正.这份笔记主要用途还是用来自己复习回顾.当然如果对大家有帮助那就更好了hhh·注：神经网络这部分的笔记大部分是基于浙大《机器学习》的逻辑进行整理的.第5章神经网络(NeuralNetwork)·神经网络的诞生是集体的智慧·近年
西瓜书读书笔记整理（十二） —— 第十二章计算学习理论 smile-yan 机器学习西瓜书计算学习理论 PAC
第十二章计算学习理论（上）12.1基础知识12.1.1什么是计算学习理论（computationallearningtheory）12.1.2什么是独立同分布（independentandidenticallydistributed,简称i.i.d.i.i.d.i.i.d.）以及独立同分布样本12.1.3泛化误差以及经验误差12.1.4相关数学定义表示12.1.5误差参数12.1.6映射与样本集是
python自学（二）第二章正则表达式|字符串匹配、函数和面向对象程序设计 BrilandLiu python python 编程语言
为了能在开学后更好地融入实验室，本人计划用一个月的时间进行python3语言入门，该系列笔记适合已经有一门编程语言基础的朋友参考使用，欢迎同道者前来交流~使用教材：1.《python从入门到精通》清华大学出版社；（自带教学视频【二维码形式】）least17p/d2.《机器学习》周志华（西瓜书）清华大学出版社；least14p/d;3.BiliBili《和美女老师一起学python》视频。（一）正则
【机器学习】西瓜书要点个人整理 _hermit: 机器学习机器学习人工智能学习
目录前置基础知识第三章线性模型机器学习三要素1.函数集合2.目标函数3.优化方法4.模型评估方法对数几率回归（逻辑回归）第四章决策树第五章SVM第六章贝叶斯分类器第八章集成学习第九章神经网络前情提要：本文适合在学习机器学习课程前，对课程的要点进行简单预习。本文中提到的一些概念，大多是老师课上会重点讲的、考试要考的。此外，在进行复习时也可以通过这些概念引入，从而去更深入理解一些模型原理。前置基础知识
吃瓜教程Task1：概览西瓜书+南瓜书第1、2章卡拉比丘流形机器学习机器学习人工智能
由于本人之前已经学习过西瓜书，本次学习主要是对以往知识的查漏补缺，因此本博客记录了在学习西瓜书中容易混淆的点以及学习过程中的难点。更多学习内容可以参考下面的链接：南瓜书的地址：https://github.com/datawhalechina/pumpkin-book【视频链接】https://www.bilibili.com/video/BV1Mh411e7VU?p=1文章目录绪论如何对机器学习
西瓜书读书笔记整理（十） —— 第十章降维与度量学习 smile-yan 机器学习西瓜书
10.1k近邻学习10.1.1什么是kNN学习kNN算法（k-NearestNeighbors）是一种常用的分类和回归算法。它的基本思想是根据最近邻的样本来预测未知样本的标签或值。10.1.2kNN算法步骤kNN算法的步骤如下：计算未知样本与训练集中所有样本的距离（通常使用欧氏距离或其他距离度量方法）。选取与未知样本距离最近的k个样本。对于分类问题，根据这k个样本的标签进行投票或权重计算，确定未知
西瓜书第六章课后习题 lammmya
6.1试证明样本空间中任意点x到超平面(w,b)的距离为式(6.2)。画了个图在纸上进行了证明，感觉这样自会通俗易懂些。6.2试使用LIBSVM，在西瓜数据集3.0α上分别用线性核和高斯核训练一个SVM，并比较其支持向量的差别。导入相应的包主体函数：设置参数，输出。数据特征可视化输出结果以及数据特征可视化最终结果如下图结果表明，使用线性核和高斯训练核的支持向量实际是一样的(两条线重合)，且数量相同
机器学习西瓜书笔记1 糊了胡机器学习机器学习笔记人工智能
第一章机器学习之绪论目录第一章机器学习之绪论一、引言二、基本术语三、假设空间四、归纳偏好五、发展历程一、引言机器学习就是致力于研究如何通过计算的手段，利用经验来改善系统自身的性能。Mitchell给出了更形式化的定义：假设用P来评估计算机程序在某任务类T上的性能，若一个程序通过利用经验E在T中任务上获得了性能改善，则我们就说关于T和P，该程序对E进行了学习。二、基本术语收集一组西瓜数据，(色泽=青
西瓜书读书笔记整理（九） —— 第九章聚类 smile-yan 聚类支持向量机机器学习
第九章聚类9.1聚类算法概述9.1.1什么是聚类算法9.1.2聚类算法分类9.1.3聚类任务9.2性能度量（ClusterEvaluation）9.2.1外部指标（externalindex）9.2.2内部指数（internalindex）9.3距离度量（DistanceMeasures）9.3.1距离度量的性质9.3.2常见的几种距离的计算公式9.4原型聚类（prototype-basedclu
插入表主键冲突做更新 a-john
有以下场景：用户下了一个订单，订单内的内容较多，且来自多表，首次下单的时候，内容可能会不全（部分内容不是必须，出现有些表根本就没有没有该订单的值）。在以后更改订单时，有些内容会更改，有些内容会新增。问题：如果在sql语句中执行update操作，在没有数据的表中会出错。如果在逻辑代码中先做查询，查询结果有做更新，没有做插入，这样会将代码复杂化。解决： mysql中提供了一个sql语
Android xml资源文件中@、@android:type、@*、？、@+含义和区别 Cb123456 @+@?@*
一.@代表引用资源 1.引用自定义资源。格式：@[package:]type/name android：text="@string/hello" 2.引用系统资源。格式：@android:type/name android:textColor="@android:color/opaque_red"
数据结构的基本介绍天子之骄数据结构散列表树、图线性结构价格标签
数据结构的基本介绍数据结构就是数据的组织形式，用一种提前设计好的框架去存取数据，以便更方便，高效的对数据进行增删查改。正确选择合适的数据结构，对软件程序的高效执行的影响作用不亚于算法的设计。此外，在计算机系统中数据结构的作用也是非同小可。例如常常在编程语言中听到的栈，堆等，就是经典的数据结构。经典的数据结构大致如下：一：线性数据结构 (1)：列表 a
通过二维码开放平台的API快速生成二维码一炮送你回车库 api
现在很多网站都有通过扫二维码用手机连接的功能，联图网(http://www.liantu.com/pingtai/)的二维码开放平台开放了一个生成二维码图片的Api,挺方便使用的。闲着无聊，写了个前台快速生成二维码的方法。 html代码如下:(二维码将生成在这div下) ? 1 &nbs
ImageIO读取一张图片改变大小 3213213333332132 java IO image BufferedImage
package com.demo; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imageio.ImageIO; /** * @Description 读取一张图片改变大小 * @author FuJianyon
myeclipse集成svn（一针见血） 7454103 eclipse SVN MyEclipse
&n
装箱与拆箱----autoboxing和unboxing darkranger J2SE
4.2　自动装箱和拆箱基本数据(Primitive)类型的自动装箱(autoboxing)、拆箱(unboxing)是自J2SE 5.0开始提供的功能。虽然为您打包基本数据类型提供了方便，但提供方便的同时表示隐藏了细节，建议在能够区分基本数据类型与对象的差别时再使用。 4.2.1　autoboxing和unboxing 在Java中，所有要处理的东西几乎都是对象(Object)
ajax传统的方式制作ajax aijuans Ajax
//这是前台的代码 <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); String basePath = request.getScheme()+
只用jre的eclipse是怎么编译java源文件的？ avords java eclipse jdk tomcat
eclipse只需要jre就可以运行开发java程序了，也能自动编译java源代码，但是jre不是java的运行环境么，难道jre中也带有编译工具？还是eclipse自己实现的？谁能给解释一下呢问题补充：假设系统中没有安装jdk or jre，只在eclipse的目录中有一个jre，那么eclipse会采用该jre，问题是eclipse照样可以编译java源文件，为什么呢？ &nb
前端模块化 bee1314 模块化
背景：前端JavaScript模块化，其实已经不是什么新鲜事了。但是很多的项目还没有真正的使用起来，还处于刀耕火种的野蛮生长阶段。 JavaScript一直缺乏有效的包管理机制，造成了大量的全局变量，大量的方法冲突。我们多么渴望有天能像Java（import），Python (import)，Ruby(require)那样写代码。在没有包管理机制的年代，我们是怎么避免所
处理百万级以上的数据处理 bijian1013 oracle sql 数据库大数据查询
一.处理百万级以上的数据提高查询速度的方法： 1.应尽量避免在 where 子句中使用!=或<>操作符，否则将引擎放弃使用索引而进行全表扫描。 2.对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 o
mac 卸载 java 1.7 或更高版本征客丶 java OS
卸载 java 1.7 或更高 sudo rm -rf /Library/Internet\ Plug-Ins/JavaAppletPlugin.plugin 成功执行此命令后，还可以执行 java 与 javac 命令 sudo rm -rf /Library/PreferencePanes/JavaControlPanel.prefPane 成功执行此命令后，还可以执行 java
【Spark六十一】Spark Streaming结合Flume、Kafka进行日志分析 bit1129 Stream
第一步，Flume和Kakfa对接，Flume抓取日志，写到Kafka中第二部，Spark Streaming读取Kafka中的数据，进行实时分析本文首先使用Kakfa自带的消息处理（脚本）来获取消息，走通Flume和Kafka的对接 1. Flume配置 1. 下载Flume和Kafka集成的插件，下载地址：https://github.com/beyondj2ee/f
Erlang vs TNSDL bookjovi erlang
TNSDL是Nokia内部用于开发电信交换软件的私有语言，是在SDL语言的基础上加以修改而成，TNSDL需翻译成C语言得以编译执行，TNSDL语言中实现了异步并行的特点，当然要完整实现异步并行还需要运行时动态库的支持，异步并行类似于Erlang的process（轻量级进程），TNSDL中则称之为hand，Erlang是基于vm(beam)开发，
非常希望有一个预防疲劳的java软件, 预防过劳死和眼睛疲劳,大家一起努力搞一个 ljy325 企业应用
　非常希望有一个预防疲劳的java软件，我看新闻和网站，国防科技大学的科学家累死了，太疲劳，老是加班，不休息，经常吃药，吃药根本就没用，根本原因是疲劳过度。我以前做java,那会公司垃圾，老想赶快学习到东西跳槽离开，搞得超负荷，不明理。深圳做软件开发经常累死人，总有不明理的人，有个软件提醒限制很好，可以挽救很多人的生命。相关新闻：（1）IT行业成五大疾病重灾区：过劳死平均37.9岁
读《研磨设计模式》-代码笔记-原型模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * Effective Java 建议使用copy constructor or copy factory来代替clone()方法： * 1.public Product copy(Product p){} * 2.publi
配置管理---svn工具之权限配置 chenyu19891124 SVN
今天花了大半天的功夫，终于弄懂svn权限配置。下面是今天收获的战绩。安装完svn后就是在svn中建立版本库，比如我本地的是版本库路径是C:\Repositories\pepos。pepos是我的版本库。在pepos的目录结构 pepos component webapps 在conf里面的auth里赋予的权限配置为 [groups]
浅谈程序员的数学修养 comsci 设计模式编程算法面试招聘
浅谈程序员的数学修养
批量执行 bulk collect与forall用法 daizj oracle sql bulk collect forall
BULK COLLECT 子句会批量检索结果，即一次性将结果集绑定到一个集合变量中，并从SQL引擎发送到PL/SQL引擎。通常可以在SELECT INTO、 FETCH INTO以及RETURNING INTO子句中使用BULK COLLECT。本文将逐一描述BULK COLLECT在这几种情形下的用法。有关FORALL语句的用法请参考：批量SQL之 F
Linux下使用rsync最快速删除海量文件的方法 dongwei_6688 OS
1、先安装rsync：yum install rsync 2、建立一个空的文件夹：mkdir /tmp/test 3、用rsync删除目标目录：rsync --delete-before -a -H -v --progress --stats /tmp/test/ log/这样我们要删除的log目录就会被清空了，删除的速度会非常快。rsync实际上用的是替换原理，处理数十万个文件也是秒删。
Yii CModel中rules验证规格 dcj3sjt126com rules yii validate
Yii cValidator主要用法分析： yii验证rulesit 分类： Yii yii的rules验证 cValidator主要属性 attributes ,builtInValidators,enableClientValidation,message,on,safe,skipOnError
基于vagrant的redis主从实验 dcj3sjt126com vagrant
平台: Mac 工具: Vagrant 系统: Centos6.5 实验目的: Redis主从实现思路制作一个基于sentos6.5, 已经安装好reids的box, 添加一个脚本配置从机, 然后作为后面主机从机的基础box 制作sentos6.5+redis的box mkdir vagrant_redis cd vagrant_
Memcached(二)、Centos安装Memcached服务器 frank1234 centos memcached
一、安装gcc rpm和yum安装memcached服务器连接没有找到，所以我使用的是make的方式安装，由于make依赖于gcc，所以要先安装gcc 开始安装，命令如下，[color=red][b]顺序一定不能出错[/b][/color]：建议可以先切换到root用户，不然可能会遇到权限问题：su root 输入密码...... rpm -ivh kernel-head
Remove Duplicates from Sorted List hcx2013 remove
Given a sorted linked list, delete all duplicates such that each element appear only once. For example,Given 1->1->2, return 1->2.Given 1->1->2->3->3, return&
Spring4新特性——JSR310日期时间API的支持 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
浅谈enum与单例设计模式 247687009 java 单例
在JDK1.5之前的单例实现方式有两种(懒汉式和饿汉式并无设计上的区别故看做一种)，两者同是私有构造器，导出静态成员变量，以便调用者访问。第一种 package singleton; public class Singleton { //导出全局成员 public final static Singleton INSTANCE = new S
使用switch条件语句需要注意的几点 openwrt c break switch
1. 当满足条件的case中没有break，程序将依次执行其后的每种条件（包括default）直到遇到break跳出 int main() { int n = 1; switch(n) { case 1: printf("--1--\n"); default: printf("defa
配置Spring Mybatis JUnit测试环境的应用上下文 schnell18 spring mybatis JUnit
Spring-test模块中的应用上下文和web及spring boot的有很大差异。主要试下来差异有：单元测试的app context不支持从外部properties文件注入属性 @Value注解不能解析带通配符的路径字符串解决第一个问题可以配置一个PropertyPlaceholderConfigurer的bean。第二个问题的具体实例是：
Java 定时任务总结一 tuoni java spring timer quartz timertask
Java定时任务总结一.从技术上分类大概分为以下三种方式： 1.Java自带的java.util.Timer类，这个类允许你调度一个java.util.TimerTask任务; 说明： java.util.Timer定时器，实际上是个线程，定时执行TimerTask类 &
一种防止用户生成内容站点出现商业广告以及非法有害等垃圾信息的方法 yangshangchuan rank 相似度计算文本相似度词袋模型余弦相似度
本文描述了一种在ITEYE博客频道上面出现的新型的商业广告形式及其应对方法，对于其他的用户生成内容站点类型也具有同样的适用性。最近在ITEYE博客频道上面出现了一种新型的商业广告形式，方法如下： 1、注册多个账号（一般10个以上）。 2、从多个账号中选择一个账号，发表1-2篇博文