然然然然_

阅读笔记 | 《机器学习》周志华第十章降维与度量学习

文章目录

10.1 k近邻学习
10.2 低维嵌入

10.2.1 维数灾难与降维
10.2.2 多维缩放
10.2.3 线性变换

10.3 主成分分析

10.3.1 两种等价推导
10.3.2 其他说明

10.4 核化线性降维
10.5 流形学习

10.5.1 等度量映射
10.5.2 局部线性嵌入

10.6 度量学习

10.6.1 从加权欧氏距离引入度量学习
10.6.2 近邻成分分析
10.6.3 引入领域知识

10.1 k近邻学习

k近邻（k-Nearest Neighbor, kNN）学习是一种常用的监督学习方法，给定测试样本，基于某种距离度量找出训练集中与其最靠近的k个样本，然后基于这k个邻居的信息进行预测，分类任务中可使用投票法，回归任务中可使用平均法，还可基于距离远近进行加权平均或加权投票，距离越近权重越大；k取不同值时，分类结果会有显著不同

懒惰学习（lazy learning）：在训练阶段仅仅是把样本保存起来，训练时间开销为零，待收到测试样本后在再进行处理
- kNN没有显式的训练过程，属于懒惰学习
急切学习（eager learning）：在训练阶段就对样本进行学习处理

下面对最近邻分类器（1NN）在二分类问题上的性能做一个简单的讨论

给定测试样本 $\boldsymbol x$ ，若其最近邻样本为 $\boldsymbol z$ ，则最近邻分类器出错的概率就是二者类别标记不同的概率 $r)=1-\sum_{c \in \mathcal{Y}} P(c | \boldsymbol{x}) P(c | \boldsymbol{z})$ 假设样本独立同分布，且对任意小正数 $\delta$ ，在 $\boldsymbol x$ 附近 $\delta$ 距离范围内总能找到一个训练样本，令 $c^{*}=\arg \max _{c \in \mathcal{Y}} P(c | \boldsymbol{x})$ 表示贝叶斯最优分类器的结果，有 $\begin{aligned} P(e r r) &=1-\sum_{c \in \mathcal{Y}} P(c | \boldsymbol{x}) P(c | \boldsymbol{z}) \\ & \simeq 1-\sum_{c \in \mathcal{Y}} P^{2}(c | \boldsymbol{x}) \\ & \leqslant 1-P^{2}\left(c^{*} | \boldsymbol{x}\right) \\ &=\left(1+P\left(c^{*} | \boldsymbol{x}\right)\right)\left(1-P\left(c^{*} | \boldsymbol{x}\right)\right) \\ & \leqslant 2 \times\left(1-P\left(c^{*} | \boldsymbol{x}\right)\right) \end{aligned}$ 即最近邻分类器虽然简单，但它的泛化错误率不超过贝叶斯最优分类器错误率的两倍

10.2 低维嵌入

10.2.1 维数灾难与降维

密采样：

上节讨论基于一个重要的假设，在任意测试样本 $\boldsymbol x$ 附近任意小的 $\delta$ 距离范围内总能找到一个训练样本，即训练样本的采样密度足够大，或称为密采样（dense sample），然而这个假设在现实任务中很难满足

维数灾难：

现实应用中属性维数经常成千上万，要满足密采样条件所需的样本数目是无法达到的天文数字
许多学习方法涉及距离计算，高维空间会给距离计算带来很大的麻烦

高维情形下出现的数据样本稀疏、距离计算困难等问题，是所有机器学习方法共同面临的严重障碍，被称为维数灾难（curse of dimensionality）

降维：

缓解维数灾难的一个重要途径就是降维（dimension reduction），也称为维数约简，即通过某种数学变换将原始高维属性空间转变为一个低维子空间（subspace），在这个子空间样本密度大幅提高，距离计算也更为容易

为什么能进行降维？很多时候人们观测或收集到的数据样本虽然是高维的，但与学习任务密切相关的也许仅是某个地位分布，即高维空间中的一个低维嵌入

10.2.2 多维缩放

若降维时要求原始样本空间中样本之间的距离在低维空间中得以保持，则为多维缩放（Multiple Dimensional Scaling, MDS）

假定m个样本在原始空间的距离矩阵为 $\mathbf{D} \in \mathbb{R}^{m \times m}$ ，元素 $dist_{ij}$ 表示样本 $\boldsymbol x_i$ 到 $\boldsymbol x_j$ 的距离，目标是获得样本在 $d^{'}$ 维空间的表示 $\mathbf{Z} \in \mathbb{R}^{d' \times m},d'\leq d$ ，且任意两个样本在 $d^{'}$ 维空间中的欧氏距离等于原始空间中的距离，即 $\left\|z_{i}-z_{j}\right\|=d i s t_{i j}$

令 $\mathbf{B}=\mathbf{Z}^{\mathrm{T}} \mathbf{Z} \in \mathbb{R}^{m \times m}$ ，其中 $\mathbf{B}$ 为降维后样本的内积矩阵， $b_{i j}=z_{i}^{\mathrm{T}} z_{j}$ ，因此有 $\begin{aligned} d i s t_{i j}^{2} &=\left\|z_{i}\right\|^{2}+\left\|z_{j}\right\|^{2}-2 z_{i}^{\mathrm{T}} z_{j} \\ &=b_{i i}+b_{j j}-2 b_{i j} \end{aligned}$

为便与讨论，令降维后的样本 $\mathbf{Z}$ 被中心化，即 $\sum_{i=1}^{m} \boldsymbol{z}_{i}=\mathbf{0}$ ，则有矩阵 $\mathbf{B}$ 的行和、列和均为零，即 $\sum_{i=1}^{m} b_{i j}=\sum_{j=1}^{m} b_{i j}=0$ ，因此有 $\sum_{i=1}^{m} d i s t_{i j}^{2}=\operatorname{tr}(\mathbf{B})+m b_{j j}$ $\sum_{i=1}^{m} d i s t_{i j}^{2}=\operatorname{tr}(\mathbf{B})+m b_{j j}$ $\sum_{i=1}^{m} \sum_{j=1}^{m} d i s t_{i j}^{2}=2 m \operatorname{tr}(\mathbf{B})$ 其中， $\operatorname{tr}(\mathbf{B})=\sum_{i=1}^{m}\left\|\boldsymbol{z}_{i}\right\|^{2}$ ，因此有 $\operatorname{dist}_{i .}^{2}=\frac{1}{m} \sum_{j=1}^{m} d i s t_{i j}^{2}$ $t_{\cdot j}^{2}=\frac{1}{m} \sum_{i=1}^{m} d i s t_{i j}^{2}$ $\text {dist.}=\frac{1}{m^{2}} \sum_{i=1}^{m} \sum_{j=1}^{m} d i s t_{i j}^{2}$ 综上，可得 $b_{i j}=-\frac{1}{2}\left(d i s t_{i j}^{2}-d i s t_{i}^{2}-d i s t_{\cdot j}^{2}+d i s t_{. .}^{2}\right)$
由此即可通过降维前后保持不变的距离矩阵 $\mathbf{D}$ 求取内积矩阵 $\mathbf{B}$

对矩阵B做特征值分解（eigenvalue decomposition）， $\mathbf{B}=\mathbf{V} \mathbf{\Lambda} \mathbf{V}^{\mathrm{T}}$ ，其中 $\boldsymbol{\Lambda}=\operatorname{diag}\left(\lambda_{1}, \lambda_{2}, \dots, \lambda_{d}\right)$ 为特征值构成的对角矩阵， $\lambda_{1} \geqslant \lambda_{2} \geqslant \ldots \geqslant \lambda_{d}$ ， $\mathbf{V}$ 为特征向量矩阵，假定其中有 $d^*$ 个非零特征值，它们构成对角矩阵 $\boldsymbol{\Lambda}_*=\operatorname{diag}\left(\lambda_{1}, \lambda_{2}, \dots, \lambda_{d^*}\right)$ ，令 $\mathbf{V}_*$ 表示相应的特征向量矩阵，则 $\mathbf{Z}=\mathbf{\Lambda}_{*}^{1 / 2} \mathbf{V}_{*}^{\mathrm{T}} \in \mathbb{R}^{d^{*} \times m}$

现实应用中为了有效降维，往往仅需降维后的距离与原始空间中的距离尽可能接近，而不必严格相等，此时可取 $d^{\prime} \ll d$ 个最大特征值构成对角矩阵， $\tilde{\mathbf{\Lambda}}=\operatorname{diag}\left(\lambda_{1}, \lambda_{2}, \ldots, \lambda_{d^{\prime}}\right)$ ，令 $\tilde{\mathbf{V}}$ 表示相应的特征向量矩阵，则 $\mathbf{Z}=\tilde{\mathbf{\Lambda}}^{1 / 2} \tilde{\mathbf{V}}^{\mathrm{T}} \in \mathbb{R}^{d^{\prime} \times m}$

算法描述如下：

10.2.3 线性变换

欲获得低维子空间，最简单的是对原始高维空间进行线性变换，给定d维空间中的样本 $\mathbf{X}=\left(\boldsymbol{x}_{1}, \boldsymbol{x}_{2}, \ldots, \boldsymbol{x}_{m}\right) \in \mathbb{R}^{d \times m}$ ，变换后得到 $d^{\prime} \leq d$ 维空间中的样本 $\mathbf{Z}=\mathbf{W}^{\mathrm{T}} \mathbf{X}$ 其中 $\mathbf{W} \in \mathbb{R}^{d \times d^{\prime}}$ 是变换矩阵， $\mathbf{Z} \in \mathbb{R}^{d^{\prime} \times m}$ 是样本在新空间中的表达

变换矩阵 $\mathbf{W}$ 可视为 $d^{'}$ 个 $d$ 维基向量， $\boldsymbol{z}_{i}=\mathbf{W}^{\mathrm{T}} \boldsymbol{x}_{i}$ 是第 $i$ 个样本与这 $d^{'}$ 个基向量分别做内积得到的 $d^{'}$ 个属性向量，换言之， $\boldsymbol{z}_{i}$ 是原属性向量 $\boldsymbol{x}_{i}$ 在新坐标系 $\left\{\boldsymbol{w}_{1}, \boldsymbol{w}_{2}, \cdots, \boldsymbol{w}_{d^{\prime}}\right\}$ 中的坐标向量，若 $\boldsymbol{w}_{i}$ 与 $\boldsymbol{w}_{j}(i\neq j)$ 正交，则新坐标系是一个正交坐标系，此时 $\boldsymbol{W}$ 为正交变换，新空间中的属性是原空间中属性的线性组合

基于线性变换来进行降维的方法称为线性降维方法，不同之处是对低维子空间的性质有不同的要求，相当于对 $\boldsymbol{W}$ 施加了不同的约束

对降维效果的评估，通常是比较降维前后学习器的性能，若性能有所提高则认为降维起到了作用，若将位数将至二维或三维，则可通过可视化技术来直观地判断降维效果

10.3 主成分分析

10.3.1 两种等价推导

如何用一个超平面（直线的高维推广）对所有样本进行恰当的表达？

最近重构性：样本点到这个超平面的距离都足够近
最大可分性：样本点在这个超平面上的投影都尽可能分开

基于重构性和最大可分性，能分别得到主成分分析（Principal Component Analysis, PCA）这一常用的降维方法的两种等价推导

基于重构性的推导：

假设数据样本进行了中心化，即 $\sum_{i} \boldsymbol x_{i}=0$ ，再假定投影变换后得到的新坐标系为 $\left\{\boldsymbol{w}_{1}, \boldsymbol{w}_{2}, \ldots, \boldsymbol{w}_{d}\right\}$ ，其中 $\boldsymbol{w}_{i}$ 是标准正交基向量， $\left\|\boldsymbol{w}_{i}\right\|_{2}=1, \boldsymbol{w}_{i}^{\mathrm{T}} \boldsymbol{w}_{j}=0(i\neq j)$ ，若丢弃新坐标系中的部分坐标，即将维度降低到 $d^{\prime}d′<d$

若考虑整个训练集，原样本点 $\boldsymbol{x}_{i}$ 与基于投影重构的样本点 $\hat{\boldsymbol{x}}_{i}$ 之间的距离为 $\begin{aligned} \sum_{i=1}^{m}\left\|\sum_{j=1}^{d^{\prime}} z_{i j} \boldsymbol{w}_{j}-\boldsymbol{x}_{i}\right\|^{2} &=\sum_{i=1}^{m} \boldsymbol{z}_{i}^{\mathrm{T}} \boldsymbol{z}_{i}-2 \sum_{i=1}^{m} \boldsymbol{z}_{i}^{\mathrm{T}} \mathbf{W}^{\mathrm{T}} \boldsymbol{x}_{i}+\mathrm{const} \\ & \propto-\operatorname{tr}\left(\mathbf{W}^{\mathrm{T}}\left(\sum_{i=1}^{m} \boldsymbol{x}_{i} \boldsymbol{x}_{i}^{\mathrm{T}}\right) \mathbf{W}\right) \end{aligned}$ 其中， $\mathbf{W}=\{\boldsymbol w_1,\boldsymbol w_j,\dots ,\boldsymbol w_d\}$ ，根据重构性，上式应被最小化，考虑到 $\boldsymbol w_j$ 是标准正交基， $\sum_i \boldsymbol{x}_{i} \boldsymbol{x}_{i}^{\mathrm{T}}$ 是协方差矩阵，有 $\begin{array}{cl}\underset{\mathbf{W}}{\min } & {-\operatorname{tr}\left(\mathbf{W}^{\mathrm{T}} \mathbf{X} \mathbf{X}^{\mathrm{T}} \mathbf{W}\right)} \\ {\text { s.t. }} & {\mathbf{W}^{\mathrm{T}} \mathbf{W}=\mathbf{I}}\end{array}$

基于最大可分性的推导：

样本点 $\boldsymbol x_i$ 在新空间中超平面上的投影是 $\mathbf{W}^{\mathrm{T}} \boldsymbol{x}_{i}$ ，若所有样本点的投影能尽可能分开，则应该使投影后样本点的方差最大化，投影后样本点的协方差矩阵是 $\sum_{i} \mathbf{W}^{\mathrm{T}} \boldsymbol{x}_{i} \boldsymbol{x}_{i}^{\mathrm{T}} \mathbf{W}$ ，于是优化目标可写为 $\begin{array}{cl}\underset{{\mathbf{W}}}{\max } & {\operatorname{tr}\left(\mathbf{W}^{\mathrm{T}} \mathbf{X} \mathbf{X}^{\mathrm{T}} \mathbf{W}\right)} \\ {\text { s.t. }} & {\mathbf{W}^{\mathrm{T}} \mathbf{W}=\mathbf{I}}\end{array}$

对优化目标使用拉格朗日乘子法，可得 $\mathbf{X} \mathbf{X}^{\mathrm{T}} \mathbf{w}_i=\lambda \mathbf{w}_i$ 只需对协方差矩阵 $\mathbf{X} \mathbf{X}^{\mathrm{T}}$ 进行特征值分解，将求得的特征值排序： $\lambda_{1} \geqslant \lambda_{2} \geqslant \ldots \geqslant \lambda_{d}$ ，再取前 $d^{'}$ 个特征值对应的特征向量构成 $\mathbf{W}=\left(\boldsymbol{w}_{1}\right.,\left.\boldsymbol{w}_{2}, \ldots, \boldsymbol{w}_{d^{\prime}}\right)$ ，即为主成分分析的解

算法如下：

10.3.2 其他说明

降维后的维数 $d^{'}$ ：

通常由用户事先指定
通过在 $d^{'}$ 值不同的低维空间中对k近邻分类器（或其他开销较小的学习器）进行交叉验证来选取
对PCA还可从重构的角度设置一个重构阈值，例如 $t=95\%$ ，然后选取使下式成立的最小 $d^{'}$ 值 $\frac{\sum_{i=1}^{d^{\prime}} \lambda_{i}}{\sum_{i=1}^{d} \lambda_{i}} \geqslant t$

PCA仅需保留 $\mathbf{W}^*$ 与样本的均值向量即可通过简单的向量减法和矩阵-向量乘法将新样本投影至低维空间中，降维导致最小的 $d^{'} - d$ 个特征值的特征向量被舍弃了，但舍弃这部分信息往往是必要的：

舍弃这部分信息之后能使样本的采样密度增大，这正是降维的重要动机
当数据受到噪声影响时，最小的特征值所对应的特征向量往往与噪声相关，将他们舍弃能在一定程度上起到去噪的效果

10.4 核化线性降维

在不少现实任务中，可能需要非线性映射才能找到合适的低维嵌入，例如下图，样本点从二维空间中的矩形区域采样后以S形曲面嵌入到三维空间，若直接使用线性降维方法，则将丢失原本的低维结构。为了区分原本采样的低维空间与降维后的低维空间加以区分，称前者为本真（intrinsic）低维空间

非线性降维的一种常用方法，是基于核技巧对线性降维方法进行核化（kernelized）

核主成分分析（Kernelized PCA, KPCA）

假定我们将在高维特征空间中把数据投影到由 $\mathbf{W}=(\boldsymbol w_1,\boldsymbol w_2,\dots ,\boldsymbol w_d)$ 确定的超平面上，则对于 $\boldsymbol w_j$ ，有 $\left(\sum_{i=1}^{m} z_{i} z_{i}^{\mathrm{T}}\right) \boldsymbol w_j=\lambda \boldsymbol w_j$ 其中， $\boldsymbol z_i$ 是样本点 $\boldsymbol x_i$ 在高维特征空间中的像，进一步有 $\begin{aligned} \boldsymbol w_j &=\frac{1}{\lambda}\left(\sum_{i=1}^{m} z_{i} \boldsymbol{z}_{i}^{\mathrm{T}}\right) \boldsymbol w_j=\sum_{i=1}^{m} \boldsymbol{z}_{i} \frac{\boldsymbol{z}_{i}^{\mathrm{T}} \boldsymbol w_j}{\lambda_j} \\ &=\sum_{i=1}^{m} \boldsymbol{z}_{i} \alpha_{i}^j \end{aligned}$ 其中 $\alpha_{i}^j=\frac{\boldsymbol{z}_{i}^{\mathrm{T}} \boldsymbol w_j}{\lambda_j}$ 是 $\boldsymbol \alpha_i$ 的第 $j$ 个分量，假定 $\boldsymbol z_i$ 是样本点 $\boldsymbol x_i$ 通过映射 $\phi$ 产生的，即 $\boldsymbol{z}_{i}=\phi\left(\boldsymbol{x}_{i}\right), i=1,2, \ldots, m$ ，若 $\phi$ 能被显式表达出来，则通过它将样本映射到高维特征空间，再在特征空间中实施PCA即可 $\left(\sum_{i=1}^{m} \phi\left(\boldsymbol{x}_{i}\right) \phi\left(\boldsymbol{x}_{i}\right)^{\mathrm{T}}\right) \boldsymbol w_j=\lambda \boldsymbol w_j$ $\boldsymbol w_j=\sum_{i=1}^{m} \phi\left(\boldsymbol{x}_{i}\right) {\alpha}_{i}^j$

一般情形下，我们不清楚 $\phi$ 的具体形式，于是引入核函数 $\kappa\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right)=\phi\left(\boldsymbol{x}_{i}\right)^{\mathrm{T}} \phi\left(\boldsymbol{x}_{j}\right)$
将上两式代入 $\left(\sum_{i=1}^{m} \phi\left(\boldsymbol{x}_{i}\right) \phi\left(\boldsymbol{x}_{i}\right)^{\mathrm{T}}\right) \boldsymbol w_j=\lambda \boldsymbol w_j$ ，化简可得 $\mathbf{K}\boldsymbol \alpha_j=\lambda_j\boldsymbol \alpha_j$ 其中 $\mathbf{K}$ 为 $\kappa$ 对应的核矩阵， $\mathbf{K}_{ij}=\kappa (\boldsymbol x_i,\boldsymbol x_j),\boldsymbol \alpha_j=(\alpha_1^j;\alpha_2^j;\dots ;\alpha_m^j)$ （分号代表是列向量），显然，上式是特征值分解问题，取 $\mathbf{K}$ 最大的 $d^{'}$ 个特征值对应的特征向量即可

对新样本 $\boldsymbol x$ ，其投影后的第 $j(j=1,2,\dots ,d')$ 维坐标为 $\begin{aligned} z_{j} &=\boldsymbol{w}_{j}^{\mathrm{T}} \phi(\boldsymbol{x})=\sum_{i=1}^{m} \alpha_{i}^{j} \phi\left(\boldsymbol{x}_{i}\right)^{\mathrm{T}} \phi(\boldsymbol{x}) \\ &=\sum_{i=1}^{m} \alpha_{i}^{j} \kappa\left(\boldsymbol{x}_{i}, \boldsymbol{x}\right) \end{aligned}$ 其中， $\boldsymbol \alpha_i$ 已经过规范化，上式表明，为获得投影后的坐标，KPCA需对所有样本求和，因此计算开销较大

10.5 流形学习

流形学习是一类借鉴了拓扑流形概念的降维方法，流形是在局部与欧式空间同胚的空间，即在局部具有欧式空间的性质，能用欧氏距离来进行距离计算，这给降维方法带来了很大的启发：若低维流形嵌入到高维空间，则数据样本在高维空间中看起来非常复杂，但在局部上仍具有欧式空间的性质，因此可以容易地在局部建立降维映射关系，然后再设法将局部映射关系推广到全局，当维数将至二维或三维时，能对数据进行可视化展示

10.5.1 等度量映射

等度量映射（Isometric Mapping, Isomap）认为低维流形嵌入到高维空间之后，直接在高维空间中计算直线距离有误导性，因为高维空间中的直线距离在低维嵌入流形上不可达的，低维嵌入流形上两点间的距离是测地线（geodesic）距离（红色线），测地线距离是两点间的本真距离

计算测地线距离时，我们可利用流形在局部上与欧式空间同胚的性质，对每个点基于欧氏距离找出其近邻点，建立近邻连接图，图上近邻点之间有连接，非近邻点没有连接，将问题转化为计算近邻连接图上两点之间的最短路径问题，可采用著名的Dijkstra算法或Floyd算法，得到两点间的距离后，就可通过MDS方法（10.2节）来获得样本点在低维空间中的坐标。Isomap算法如下：

Isomap仅得到了训练样本在低维空间的坐标，对于新样本如何将其映射到低维空间呢？常用方法是将训练样本的高维空间坐标作为输入，低维空间坐标作为输出，训练一个回归学习器来对新样本的低维空间坐标进行预测

对近邻图的构建通常有两种做法，一种是指定近邻点个数，例如欧氏距离最近的k个点为近邻点，称为k近邻图，另一种是指定距离阈值 $\epsilon$ ，距离小于 $\epsilon$ 的点为近邻点，称为 $\epsilon$ 近邻图。两种方法均有不足，若近邻范围指定得较大，则距离较远的点可能被误认为近邻，会出现短路问题，近邻范围指定得较小，则图中有些区域可能与其他区域不存在连接，会出现断路问题，二者都会给后续的最短路径计算造成误导

10.5.2 局部线性嵌入

与Isomap试图保持近邻样本之间的距离不同，局部线性嵌入（Locally Linear Embedding）试图保持邻域内样本之间的线性关系，假定样本点 $\boldsymbol x_i$ 能通过邻域样本 $\boldsymbol x_j,\boldsymbol x_k,\boldsymbol x_l$ 的坐标通过线性组合重构出来，即 $\boldsymbol{x}_{i}=w_{i j} \boldsymbol{x}_{j}+w_{i k} \boldsymbol{x}_{k}+w_{i l} \boldsymbol{x}_{l}$ LLE希望上述关系能在低维空间中得以保持

LLE先为每个样本 $\boldsymbol x_i$ 找到其近邻下标集合 $Q_i$ ，然后计算出线性重构的系数 $\boldsymbol w_i$ $\begin{aligned} \underset{\boldsymbol{w}_{1}, \boldsymbol{w}_{2}, \ldots, \boldsymbol{w}_{m}}{\min} & \sum_{i=1}^{m}\left\|\boldsymbol{x}_{i}-\sum_{j \in Q_{i}} w_{i j} \boldsymbol{x}_{j}\right\|_{2}^{2} \\ \text { s.t. } & \sum_{j \in Q_{i}} w_{i j}=1\end{aligned}$

其中 $\boldsymbol x_i,\boldsymbol x_j$ 均为已知，令 $C_{j k}=\left(\boldsymbol{x}_{i}-\boldsymbol{x}_{j}\right)^{\mathrm{T}}\left(\boldsymbol{x}_{i}-\boldsymbol{x}_{k}\right)$ ， $w_{ij}$ 有闭式解 $w_{i j}=\frac{\sum_{k \in Q_{i}} C_{j k}^{-1}}{\sum_{l, s \in Q_{i}} C_{l s}^{-1}}$

LLE在低维空间中保持 $\boldsymbol w_i$ 不变，于是 $\boldsymbol x_i$ 在对应的低维空间坐标 $\boldsymbol z_i$ 可通过下式求解 $\min _{\boldsymbol{z}_{1}, \boldsymbol{z}_{2}, \ldots, \boldsymbol{z}_{m}} \sum_{i=1}^{m}\left\|\boldsymbol{z}_{i}-\sum_{j \in Q_{i}} w_{i j} \boldsymbol{z}_{j}\right\|_{2}^{2}$ 令 $\mathbf{Z}=\left(\boldsymbol{z}_{1}, \boldsymbol{z}_{2}, \ldots, \boldsymbol{z}_{m}\right) \in \mathbb{R}^{d^{\prime} \times m},(\mathbf{W})_{i j}=w_{i j},\mathbf{M}=(\mathbf{I}-\mathbf{W})^{\mathrm{T}}(\mathbf{I}-\mathbf{W})$ ，则上式可重写为 $\begin{array}{l}\underset{{\mathbf{z}} }{\min} & \operatorname{tr}\left(\mathbf{Z} \mathbf{M} \mathbf{Z}^{\mathrm{T}}\right) \\ \text { s.t. } & \mathbf{Z} \mathbf{Z}^{\mathrm{T}}=\mathbf{I}\end{array}$ 理解： $\mathbf{Z}(1-\mathbf{W})^\mathrm{T}$ 是 $d\times m$ 维的，其第一行乘以其转秩的第一列是上上式里面的每个 $\boldsymbol{z}_{i}-\sum_{j \in Q_{i}} w_{i j} \boldsymbol{z}_{j}$ 的第一个分量求平方和

上式可通过特征值分解求解： $\mathbf{M}$ 最小的 $d^{'}$ 个特征值对应的特征向量组成的矩阵即为 $\mathbf{Z}^\mathrm{T}$ ，算法如下所示，对于不在样本 $\boldsymbol x_i$ 邻域区域的样本 $\boldsymbol x_j$ ，无论其如何变化都对 $\boldsymbol x_i$ 和 $\boldsymbol z_i$ 没有任何影响，这种将变动限制在局部的思想在很多地方都有用

10.6 度量学习

对高维数据进行降维的主要目的是希望找到一个合适的低维空间，在此空间中进行学习能比原始空间性能更好，事实上每个空间对应了样本属性上定义的一个距离度量，而寻找合适的空间实质上就是在寻找一个合适的距离度量，度量学习（metric learning）的基本动机即为直接学习出一个合适的距离度量

10.6.1 从加权欧氏距离引入度量学习

对两个d维样本 $\boldsymbol x_i,\boldsymbol x_j$ ，假定不同属性的重要性不同，则可引入属性权重，其平方加权欧氏距离为 $\begin{aligned} \operatorname{dist}_{\mathrm{wed}}^{2}\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right) &=\left\|\boldsymbol{x}_{i}-\boldsymbol{x}_{j}\right\|_{2}^{2}=w_{1} \cdot d i s t_{i j, 1}^{2}+w_{2} \cdot d i s t_{i j, 2}^{2}+\ldots+w_{d} \cdot d i s t_{i j, d}^{2} \\ &=\left(\boldsymbol{x}_{i}-\boldsymbol{x}_{j}\right)^{\mathrm{T}} \mathbf{W}\left(\boldsymbol{x}_{i}-\boldsymbol{x}_{j}\right) \end{aligned}$

其中， $w_{i} \geqslant 0, \mathbf{W}=\operatorname{diag}(\boldsymbol{w})$ 是一个对角阵，可通过学习确定

进一步， $\mathbf{W}$ 的非对角元素均为零，这意味着坐标轴是正交的，即属性之间无关，但现实任务中往往不是这样，如西瓜的重量和体积正相关，为此，将 $\mathbf{W}$ 替换为一个普通的半正定矩阵 $\mathbf{M}$ （保持距离非负且对称，即必有正交基 $\mathbf{P}$ 使得 $\mathbf{M}=\mathbf{P} \mathbf{P}^{\mathrm{T}}$ ），可得到马氏距离（Mahalanobis distance）： $\operatorname{dist}_{\operatorname{mah}}^{2}\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right)=\left(\boldsymbol{x}_{i}-\boldsymbol{x}_{j}\right)^{\mathrm{T}} \mathbf{M}\left(\boldsymbol{x}_{i}-\boldsymbol{x}_{j}\right)=\left\|\boldsymbol{x}_{i}-\boldsymbol{x}_{j}\right\|_{\mathrm{M}}^{2}$ 其中， $\mathbf{M}$ 称为度量矩阵，度量学习则是对 $\mathbf{M}$ 进行学习

10.6.2 近邻成分分析

对 $\mathbf{M}$ 学习要设置一个目标，假定我们希望提高近邻分类器的性能，则可将 $\mathbf{M}$ 嵌入到其评价指标中去，通过优化该性能指标求得，下面以近邻成分分析为例进行讨论

近邻成分分析在进行判别时通常采用多数投票法，不妨将其替换为概率投票法，对任意样本 $\boldsymbol x_j$ ，它对 $\boldsymbol x_i$ 分类结果影响的概率为 $p_{i j}=\frac{\exp \left(-\left\|\boldsymbol{x}_{i}-\boldsymbol{x}_{j}\right\|_{\mathrm{M}}^{2}\right)}{\sum_{l} \exp \left(-\left\|\boldsymbol{x}_{i}-\boldsymbol{x}_{l}\right\|_{\mathrm{M}}^{2}\right)}$ 显然，距离越大影响越小，自身的影响最大，若以留一法（LOO）正确率的最大化为目标，则可计算 $\boldsymbol x_i$ 的留一法正确率，即它被自身之外的所有样本正确分类的概率为 $p_{i}=\sum_{j \in \Omega_{i}} p_{i j}$ 其中 $\Omega_i$ 表示与 $\boldsymbol x_i$ 属于相同类别的样本的下标集合，于是整个样本集上的留一法正确率为 $\sum_{i=1}^{m} p_{i}=\sum_{i=1}^{m} \sum_{j \in \Omega_{i}} p_{i j}$ ，即NCA的优化目标为 $\min _{\mathbf{P}} 1-\sum_{i=1}^{m} \sum_{j \in \Omega_{i}} \frac{\exp \left(-\left\|\mathbf{P}^{\mathrm{T}} \boldsymbol{x}_{i}-\mathbf{P}^{\mathrm{T}} \boldsymbol{x}_{j}\right\|_{2}^{2}\right)}{\sum_{l} \exp \left(-\left\|\mathbf{P}^{\mathrm{T}} \boldsymbol{x}_{i}-\mathbf{P}^{\mathrm{T}} \boldsymbol{x}_{l}\right\|_{2}^{2}\right)}$ 从而可得到最大化近邻分类器LOO正确率的距离度量矩阵 $\mathbf{M}$

10.6.3 引入领域知识

若已知某些样本相似，某些样本不相似，则可定义必连（must-link）约束集合 $\mathcal{M}$ 和勿连（cannot-link）约束集合 $\mathcal{C}$ ， $\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right) \in \mathcal{M}$ 表示二者相似， $\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right) \in \mathcal{C}$ 表示二者不相似，显然我们希望相似的样本之间距离小，不相似的样本之间距离大，因此优化目标为 $\begin{array}{cl}\underset{{\mathbf{M}}}{\min} & {\sum_{\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right) \in \mathcal{M}}\left\|\boldsymbol{x}_{i}-\boldsymbol{x}_{j}\right\|_{\mathrm{M}}^{2}} \\ {\text { s.t. }} & {\sum_{\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{k}\right) \in \mathcal{C}}\left\|\boldsymbol{x}_{i}-\boldsymbol{x}_{k}\right\|_{\mathrm{M}}^{2} \geqslant 1} \\ & {\mathbf{M} \succeq 0}\end{array}$ 其中， ${\mathbf{M} \succeq 0}$ 表明 $\mathbf{M}$ 必须是半正定的，上式要求在不相似样本间的距离不小于1的前提下相似样本间的距离尽可能小

不同的度量学习方法针对不同目标获得好的半正定对称距离度量矩阵 $\mathbf{M}$ ，若 $\mathbf{M}$ 是一个低秩矩阵，则通过对 $\mathbf{M}$ 进行特征值分解，总能找到一组正交基，其正交基数目为矩阵 $\mathbf{M}$ 的秩 $rank(\mathbf{M})$ ，小于原属性 $d$ ，于是度量学习学得的结果可衍生出一个降维矩阵 $\mathbf{P} \in \mathbb{R}^{d \times \operatorname{rank}(\mathbf{M})}$ ，能用于降维目的

【机器学习】必会降维算法之：独立成分分析（ICA） Carl_奕然机器学习算法人工智能
独立成分分析（ICA）1、引言2、独立成分分析（ICA）2.0引言2.1定义2.2应用场景2.3核心原理2.4实现方式2.5算法公式2.6代码示例3、总结1、引言小屌丝：鱼哥，最近胡塞武装很哇塞啊。小鱼：你什么时候开始关注军事了？小屌丝：这…还用关注吗？都上新闻了。小鱼：嗯，那你知道胡塞武装为什么这么厉害吗？小屌丝：额…当然是光脚不怕穿鞋的。小鱼：…你可真是…小屌丝：真是啥？小鱼：一个字，自己体会
Java 大视界 -- Java 大数据机器学习模型在金融市场情绪分析与投资策略制定中的应用青云交大数据新视界 Java 大视界 java 大数据机器学习情绪分析智能投资多源数据
Java大视界--Java大数据机器学习模型在金融市场情绪分析与投资策略制定中的应用）引言：正文：一、金融情绪数据的立体化采集与治理1.1多模态数据采集架构1.2数据治理与特征工程二、Java机器学习模型的工程化实践2.1情感分析模型的深度优化2.2强化学习驱动的动态投资策略三、顶级机构实战：Java系统的金融炼金术四、技术前沿：Java与金融科技的未来融合4.1量子机器学习集成4.2联邦学习在合
【机器学习【9】】评估算法：数据集划分与算法泛化能力评估 roman_日积跬步-终至千里 #机器学习机器学习
文章目录一、数据集划分：训练集与评估集二、K折交叉验证：提升评估可靠性1.基本原理1.1.K折交叉验证基本原理1.2.逻辑回归算法与L22.基于K折交叉验证L2算法三、弃一交叉验证（Leave-One-Out）1、基本原理2、代码实现四、ShuffleSplit交叉验证1、基本原理2、为什么能降低方差3、代码测试五、选择建议在机器学习中，评估算法的核心目标是衡量模型在“未知数据”上的表现，而不是仅
Python day15
@浙大疏锦行Pythonday15.内容：复习日本周主要的内容是一些常见的机器学习流程以及其中的部分内容标签编码以及连续特征的处理：归一化和正态化等。图像的绘制：热力图、Shap图等的绘制超参数优化算法：网格搜索、贝叶斯以及启发式算法模拟退火、遗传算法等不平衡数据集的处理：过采样以及欠采样。
Lecture 5：Training versus Testing 薛家掌柜的
回顾一下前四个Lecture，Lecture1讲的是找一个使得（也就是），Lecture2讲的是使得，Lecture3讲的是机器学习的分类，Lecture4讲的是让。那么，我们就有两个核心问题需要解决了。我们如何保证尽可能地靠近？我们如何使得足够小？而在这两个问题里面，假设集大小又扮演着什么样的角色？应该多大呢？如果是一个很小的，能够满足，但是可选的假设又太少了。如果是一个很大的，可选的假设很多，
Python 生物信息学秘籍第三版（四）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/9694cf42f7d741c69225ff1cf52b0efe译者：飞龙协议：CCBY-NC-SA4.0第十一章：生物信息学中的机器学习机器学习在许多不同的领域中都有应用，计算生物学也不例外。机器学习在该领域有着无数的应用，最古老且最为人熟知的应用之一就是使用主成分分析（PCA）通过基因组学研究种群结构。随着该领域的蓬勃发展，还有许多其他潜在的应
【机器学习&深度学习】什么是量化？一叶千舟深度学习【理论】机器学习深度学习人工智能
目录前言一、量化的基本概念1.1量化对比示例1.2量化是如何实现的？二、为什么要进行量化？2.1解决模型体积过大问题2.2降低对算力的依赖2.3加速模型训练和推理2.4优化训练过程2.5降低部署成本小结：量化的应用场景三、量化的类型与实现3.1权重量化（WeightQuantization）3.2激活量化（ActivationQuantization）3.3梯度量化（GradientQuantiz
MATLAB 基于图像处理的杂草识别技术鱼弦 matlab 图像处理计算机视觉
MATLAB基于图像处理的杂草识别技术1.系统介绍杂草识别是精准农业中的重要环节，基于图像处理的杂草识别技术利用计算机视觉和机器学习算法，自动识别田间杂草，为精准施药提供决策支持。本系统基于MATLAB实现杂草图像处理，包括图像预处理、特征提取、分类识别等模块。2.应用场景精准农业:自动识别田间杂草，实现精准施药，减少农药使用量。生态监测:监测农田杂草种类和分布，评估生态环境。植物保护:识别有害杂
Python 机器学习：NumPy 实现朴素贝叶斯分类器 Python编程之道 Python编程之道 python 机器学习 numpy ai
Python机器学习：NumPy实现朴素贝叶斯分类器关键词：朴素贝叶斯分类器、NumPy、机器学习、概率模型、条件概率、拉普拉斯平滑、向量化计算摘要：本文系统讲解朴素贝叶斯分类器的核心原理，基于NumPy实现高效的算法框架，涵盖从概率理论到工程实现的完整流程。通过数学公式推导、代码实现和鸢尾花数据集实战，展示如何利用向量化计算优化概率估计，解决特征独立性假设下的分类问题。同时分析算法优缺点及实际应
运维技术干货 — 不仅是 Linux 运维最佳实践 python算法小白 Linux
附Java/C/C++/机器学习/算法与数据结构/前端/安卓/Python/程序员必读书籍书单大全：书单导航页（点击右侧极客侠栈即可打开个人博客）：极客侠栈①【Java】学习之路吐血整理技术书从入门到进阶最全50+本（珍藏版)②【算法数据结构+acm】从入门到进阶吐血整理书单50+本（珍藏版)③【数据库】从入门到进阶必读18本技术书籍网盘吐血整理网盘(珍藏版)④【Web前端】从HTML到JS到AJ
基于蜣螂算法优化多头注意力机制的卷积神经网络结合双向长短记忆神经网络实现温度预测DBO-CNN-biLSTM-Multihead-Attention附matlab代码 matlab科研助手神经网络算法 cnn
✅作者简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，代码获取、论文复现及科研仿真合作可私信。个人主页：Matlab科研工作室个人信条：格物致知。更多Matlab完整代码及仿真定制内容点击智能优化算法神经网络预测雷达通信无线传感器电力系统信号处理图像处理路径规划元胞自动机无人机物理应用机器学习内容介绍温度预测在气象学、农业、能源等领域具有重要的应用价值。随着大数据和人工智能技术的快速发
迁移学习让深度学习更容易城市中迷途小书童
摘要：一文读懂迁移学习及其对深度学习发展的影响！深度学习在一些传统方法难以处理的领域有了很大的进展。这种成功是由于改变了传统机器学习的几个出发点，使其在应用于非结构化数据时性能很好。如今深度学习模型可以玩游戏，检测癌症，和人类交谈，自动驾驶。深度学习变得强大的同时也需要很大的代价。进行深度学习需要大量的数据、昂贵的硬件、甚至更昂贵的精英工程人才。在ClouderaFastForward实验室，我们
股票基金量化开源平台对比 Mr.小海开源开源金融
股票基金量化开源平台对比分析报告引言研究背景与意义在金融科技快速发展的背景下，量化交易已成为现代金融市场中投资者追求高效与精准交易的核心工具。通过程序化方式，投资者能够迅速处理海量市场数据，制定并执行复杂交易策略，其高效性、低情绪干扰及策略多样性等优势显著[1]。特别是随着人工智能技术的深化，2025年基于深度学习与机器学习的开源量化工具持续涌现，推动行业向数据驱动转型——量化交易将决策逻辑从经验
开源基金/股票量化平台调研报告 Mr.小海金融
开源基金/股票量化平台调研报告引言调研背景与目的近年来，随着人工智能技术的持续深化，量化交易领域迎来了深刻变革。2025年，基于深度学习和机器学习的开源工具不断涌现，不仅在技术层面实现突破，更在实际应用中展现出强大竞争优势，推动行业创新与升级[1].作为融合数学、统计与计算机技术的科技驱动型金融策略，量化交易通过自动化与数据驱动方法提升投资决策效率与准确性，已成为金融机构与投资者追求超额收益的重要
Python机器学习教程
Python机器学习教程(MachineLearningwithPythonTutorial)PDFVersionQuickGuideResourcesJobSearchDiscussionPDF版本快速指南资源资源求职讨论区MachineLearning(ML)isbasicallythatfieldofcomputersciencewiththehelpofwhichcomputersyste
大模型核心概念 | 嵌入模型（Embedding）、向量模型（Vector Model）
一、核心概念解析1.1嵌入模型（Embedding）作为AI领域的核心基础技术，嵌入模型通过将非结构化数据映射为低维稠密向量，实现语义特征的深度捕捉：文本嵌入：如将语句转换为1536维向量，使"机器学习"与"深度学习"的向量余弦相似度达0.92跨模态嵌入：支持图像与文本的联合向量空间映射，如CLIP模型实现文图互搜1.2向量模型（VectorModel）作为嵌入技术的下游应用体系，主要包含两大方向
Python实现神经网络算法指南代码编织匠人 python 神经网络算法
Python实现神经网络算法指南神经网络是一种模拟人脑神经元结构进行信息处理的机器学习算法。在深度学习领域中，神经网络是最为强大的算法之一。Python作为一门简单易学的编程语言，也成为了许多人选择实现神经网络算法的首选语言。在本篇文章中，我们将通过Python代码来实现神经网络算法。导入必要的库为了实现神经网络算法，我们需要导入一些必要的Python库，包括numpy和matplotlib。其中
Java云原生安全矩阵：从代码到运行时的量子级防御墨夶 Java学习资料6 java 云原生安全
核心架构：SpringSecurity与Envoy的“量子态防御”基于声明式安全的“波函数坍缩”API网关的“暗物质过滤”代码示例：SpringSecurity的量子态权限控制威胁检测的“超弦理论”基于行为分析的“量子隧穿”异常检测实时日志的“引力波监测”代码示例：机器学习驱动的异常行为检测加密与密钥管理的“暗能量引擎”敏感数据的“量子态加密”密钥的“黑洞事件视界”保护代码示例：BCrypt与JW
入门勤学奋进小郎君
了解机器学习标签需要通过机器学习模型判断出的结果特征机器学习模型进行判断的条件（可以是很多的变量）模型机器学习判断的工具降低损失线性回归y=mx+b其中：y指的是温度（以摄氏度表示），即我们试图预测的值。m指的是直线的斜率。x指的是每分钟的鸣叫声次数，即输入特征的值。b指的是y轴截距。2018-10-31_155803.png但是这样会对一些样本有误差，而我们的目的就是得到将误差降到最低的模型降低
第 20 课时：GPU 管理和 Device Plugin 工作机制（车漾）阿里云云原生 CNCF X 阿里巴巴云原生技术公开课阿里云 Kubernetes CNCF 专家团队 CNCF 专家团队 CNCF 专家团队 Kubernetes
本文将主要分享以下几个方面的内容：需求来源GPU的容器化Kubernetes的GPU管理工作原理课后思考与实践需求来源2016年，随着AlphaGo的走红和TensorFlow项目的异军突起，一场名为AI的技术革命迅速从学术圈蔓延到了工业界，所谓AI革命从此拉开了帷幕。经过三年的发展，AI有了许许多多的落地场景，包括智能客服、人脸识别、机器翻译、以图搜图等功能。其实机器学习或者说是人工智能，并不是
主流编程语言全景图：从Python到Rust的深度解析万能小贤哥 python rust 开发语言
2024年编程语言生态报告显示，全球开发者使用的语言数量已达260+，但真正主导行业的不到20种。本文带你穿透技术迷雾，掌握8大核心语言的本质差异。一、选择编程语言的黄金标准图表代码二、八大主流语言对比解析1.Python-通用胶水语言特性：动态类型+缩进语法丰富的库生态（20万+包）GIL全局锁限制并发适用场景：python#机器学习示例（TensorFlow）importtensorflowa
边缘智能革命：嵌入式机器学习如何让万物“思考” 万能小贤哥机器学习人工智能
当智能手表精准识别你的健身动作，工业传感器预测设备故障于毫秒之间，农业传感器自动调节灌溉水量——这些并非科幻场景，而是嵌入式机器学习（EmbeddedMachineLearning,或TinyML）正在悄然重塑的现实。这场发生在设备边缘的智能革命，正将AI从云端的数据中心拉近到我们指尖的每一台设备中。一、嵌入式机器学习：定义与核心价值嵌入式机器学习是指在资源极端受限的微控制器（MCU）、微处理器（
KL散度：信息差异的量化标尺 | 从概率分布对齐到模型优化的核心度量
不对称性、计算本质与机器学习的普适应用本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！一、核心定义与数学本质KL散度（Kullback-LeiblerDivergence）用于衡量两个概率分布PPP和QQQ的差异程度，定义为：DKL(P∥Q)=∑x∈XP(x)log⁡P(x)Q(x)(离散形式)D_
深度学习：让 AI 拥有 “思考” 能力的核心技术田园Coder 人工智能科普人工智能科普
1.深度学习：突破传统的AI“进阶版”1.1什么是深度学习？深度学习是机器学习的一个分支，它通过模拟人脑神经网络的多层结构，让AI能够自动学习数据中的复杂特征，从而完成更高级的认知任务。例如，传统机器学习需要人类手动提取“猫有尖耳朵、胡须”等特征，而深度学习能直接从原始图片中，自主学习从像素到轮廓、再到整体形态的多层特征，最终实现更精准的识别。这种“自主提取特征”的能力，让深度学习突破了传统AI的
117、Python机器学习：数据预处理与特征工程技巧多多的编程笔记 python 机器学习开发语言
Python开发之机器学习准备：数据预处理与特征工程机器学习是当前人工智能领域的热门方向之一。而作为机器学习的核心组成部分，数据预处理与特征工程对于模型的性能有着至关重要的影响。本文将带领大家了解数据预处理与特征工程的基本概念，以及它们在实际应用场景中的重要性。数据预处理数据预处理是机器学习中的第一步，它的主要目的是将原始数据转换成适合进行机器学习模型训练的形式。就像我们在做饭之前需要清洗和准备食
学习笔记(39):结合生活案例，介绍 10 种常见模型宁儿数据安全 #机器学习学习笔记生活
学习笔记(39):结合生活案例，介绍10种常见模型线性回归只是机器学习的“冰山一角”！根据不同的任务场景（分类、回归、聚类等），还有许多强大的模型可以选择。下面我用最通俗易懂的语言，结合生活案例，介绍10种常见模型及其适用场景：一、回归模型（预测连续值，如房价）1.决策树（DecisionTree）原理：像玩“20个问题”游戏，通过一系列判断（如“面积是否>100㎡？”“房龄是否0.5就判为“会”
LLM系统性学习完全指南（初学者必看系列） GA琥珀 LLM 学习人工智能语言模型
前言这篇文章将系统性的讲解LLM（LargeLanguageModels,LLM）的知识和应用。我们将从支撑整个领域的数学与机器学习基石出发，逐步剖析自然语言处理（NLP）的经典范式，深入探究引发革命的Transformer架构，并按时间顺序追溯从BERT、GPT-2到GPT-4、Llama及Gemini等里程碑式模型的演进。随后，我们将探讨如何将这些强大的基础模型转化为实用、安全的应用，涵盖对齐
python automl_自动化的机器学习(AutoML)：将AutoML部署到云中
编辑推荐:在本文中，将介绍一种AutoML设置，使用Python、Flask在云中训练和部署管道；以及两个可自动完成特征工程和模型构建的AutoML框架。本文来自于搜狐网，由火龙果软件Alice编辑、推荐。AutoML到底是什么？AutoML是一个很宽泛的术语，理论上来说，它囊括从数据探索到模型构建这一完整的数据科学循环周期。但是，我发现这个术语更多时候是指自动的特征预处理和选择、模型算法选择和超
python--自动化的机器学习（AutoML） Q_ytsup5681 python 自动化机器学习
自动化机器学习（AutoML）是一种将自动化技术应用于机器学习模型开发流程的方法，旨在简化或去除需要专业知识的复杂步骤，让非专家用户也能轻松创建和部署机器学习模型**[^3^]。具体介绍如下：1.自动化的概念：自动化是指使设备在无人或少量人参与的情况下完成一系列任务的过程。这一概念随着电子计算机的发明和发展而不断进化，从最初的物理机械到后来的数字程序控制，再到现在的人工智能和机器学习，自动化已经渗
最新1区9+非肿瘤纯生信，逻辑清晰易懂，机器学习筛选关键基因的纯生信也可以发高水平期刊，抓紧上车！生信小课堂
影响因子：9.186关于非肿瘤生信，我们也解读过很多，主要有以下类型1单个疾病WGCNA+PPI分析筛选hub基因2单个疾病结合免疫浸润，热点基因集，机器学习算法等。3两种相关疾病联合分析，包括非肿瘤结合非肿瘤，非肿瘤结合肿瘤或者非肿瘤结合泛癌分析4基于分型的非肿瘤生信分析5单细胞结合普通转录组生信分析目前非肿瘤生信发文的门槛较低，欢迎大家！研究概述：本研究首先使用R语言在三个基因表达数据集中找到
解读Servlet原理篇二---GenericServlet与HttpServlet 周凡杨 java HttpServlet 源理 GenericService 源码
在上一篇《解读Servlet原理篇一》中提到，要实现javax.servlet.Servlet接口（即写自己的Servlet应用），你可以写一个继承自javax.servlet.GenericServletr的generic Servlet ，也可以写一个继承自java.servlet.http.HttpServlet的HTTP Servlet（这就是为什么我们自定义的Servlet通常是exte
MySQL性能优化 bijian1013 数据库 mysql
性能优化是通过某些有效的方法来提高MySQL的运行速度，减少占用的磁盘空间。性能优化包含很多方面，例如优化查询速度，优化更新速度和优化MySQL服务器等。本文介绍方法的主要有： a.优化查询 b.优化数据库结构
ThreadPool定时重试 dai_lm java ThreadPool thread timer timertask
项目需要当某事件触发时，执行http请求任务，失败时需要有重试机制，并根据失败次数的增加，重试间隔也相应增加，任务可能并发。由于是耗时任务，首先考虑的就是用线程来实现，并且为了节约资源，因而选择线程池。为了解决不定间隔的重试，选择Timer和TimerTask来完成 package threadpool; public class ThreadPoolTest {
Oracle 查看数据库的连接情况周凡杨 sql oracle 连接
首先要说的是，不同版本数据库提供的系统表会有不同，你可以根据数据字典查看该版本数据库所提供的表。 select * from dict where table_name like '%SESSION%'; 就可以查出一些表，然后根据这些表就可以获得会话信息 select sid,serial#,status,username,schemaname,osuser,terminal,ma
类的继承朱辉辉33 java
类的继承可以提高代码的重用行，减少冗余代码；还能提高代码的扩展性。Java继承的关键字是extends 格式:public class 类名（子类）extends 类名（父类）{ } 子类可以继承到父类所有的属性和普通方法，但不能继承构造方法。且子类可以直接使用父类的public和 protected属性，但要使用private属性仍需通过调用。子类的方法可以重写，但必须和父类的返回值类
android 悬浮窗特效肆无忌惮_ android
最近在开发项目的时候需要做一个悬浮层的动画，类似于支付宝掉钱动画。但是区别在于，需求是浮出一个窗口，之后边缩放边位移至屏幕右下角标签处。效果图如下：一开始考虑用自定义View来做。后来发现开线程让其移动很卡，ListView+动画也没法精确定位到目标点。后来想利用Dialog的dismiss动画来完成。自定义一个Dialog后，在styl
hadoop伪分布式搭建林鹤霄 hadoop
要修改4个文件 1: vim hadoop-env.sh 第九行 2: vim core-site.xml <configuration> &n
gdb调试命令 aigo gdb
原文：http://blog.csdn.net/hanchaoman/article/details/5517362 一、GDB常用命令简介 r run 运行.程序还没有运行前使用 c cuntinue
Socket编程的HelloWorld实例 alleni123 socket
public class Client { public static void main(String[] args) { Client c=new Client(); c.receiveMessage(); } public void receiveMessage(){ Socket s=null; BufferedRea
线程同步和异步百合不是茶线程同步异步
多线程和同步 : 如进程、线程同步，可理解为进程或线程A和B一块配合，A执行到一定程度时要依靠B的某个结果，于是停下来，示意B运行；B依言执行，再将结果给A；A再继续操作。所谓同步，就是在发出一个功能调用时，在没有得到结果之前，该调用就不返回，同时其它线程也不能调用这个方法多线程和异步:多线程可以做不同的事情,涉及到线程通知 &
JSP中文乱码分析 bijian1013 java jsp 中文乱码
在JSP的开发过程中，经常出现中文乱码的问题。首先了解一下Java中文问题的由来： Java的内核和class文件是基于unicode的，这使Java程序具有良好的跨平台性，但也带来了一些中文乱码问题的麻烦。原因主要有两方面，
js实现页面跳转重定向的几种方式 bijian1013 JavaScript 重定向
js实现页面跳转重定向有如下几种方式：一.window.location.href <script language="javascript"type="text/javascript"> window.location.href="http://www.baidu.c
【Struts2三】Struts2 Action转发类型 bit1129 struts2
在【Struts2一】 Struts Hello World http://bit1129.iteye.com/blog/2109365中配置了一个简单的Action，配置如下 <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configurat
【HBase十一】Java API操作HBase bit1129 hbase
Admin类的主要方法注释： 1. 创建表 /** * Creates a new table. Synchronous operation. * * @param desc table descriptor for table * @throws IllegalArgumentException if the table name is res
nginx gzip ronin47 nginx gzip
Nginx GZip 压缩 Nginx GZip 模块文档详见：http://wiki.nginx.org/HttpGzipModule 常用配置片段如下： gzip on; gzip_comp_level 2; # 压缩比例，比例越大，压缩时间越长。默认是1 gzip_types text/css text/javascript; # 哪些文件可以被压缩 gzip_disable &q
java-7.微软亚院之编程判断俩个链表是否相交给出俩个单向链表的头指针，比如 h1 ， h2 ，判断这俩个链表是否相交 bylijinnan java
public class LinkListTest { /** * we deal with two main missions: * * A. * 1.we create two joined-List(both have no loop) * 2.whether list1 and list2 join * 3.print the join
Spring源码学习-JdbcTemplate batchUpdate批量操作 bylijinnan java spring
Spring JdbcTemplate的batch操作最后还是利用了JDBC提供的方法，Spring只是做了一下改造和封装 JDBC的batch操作： String sql = "INSERT INTO CUSTOMER " + "(CUST_ID, NAME, AGE) VALUES (?, ?, ?)";
[JWFD开源工作流]大规模拓扑矩阵存储结构最新进展 comsci 工作流
生成和创建类已经完成,构造一个100万个元素的矩阵模型,存储空间只有11M大,请大家参考我在博客园上面的文档"构造下一代工作流存储结构的尝试",更加相信的设计和代码将陆续推出......... 竞争对手的能力也很强.......,我相信..你们一定能够先于我们推出大规模拓扑扫描和分析系统的....
base64编码和url编码 cuityang base64 url
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.PrintWriter; import java.io.StringWriter; import java.io.UnsupportedEncodingException;
web应用集群Session保持 dalan_123 session
关于使用 memcached 或redis 存储 session ，以及使用 terracotta 服务器共享。建议使用 redis，不仅仅因为它可以将缓存的内容持久化，还因为它支持的单个对象比较大，而且数据类型丰富，不只是缓存 session，还可以做其他用途，一举几得啊。1、使用 filter 方法存储这种方法比较推荐，因为它的服务器使用范围比较多，不仅限于tomcat ，而且实现的原理比较简
Yii 框架里数据库操作详解-[增加、查询、更新、删除的方法 'AR模式'] dcj3sjt126com 数据库
public function getMinLimit () { $sql = "..."; $result = yii::app()->db->createCo
solr StatsComponent（聚合统计） eksliang solr聚合查询 solr stats
StatsComponent 转载请出自出处：http://eksliang.iteye.com/blog/2169134 http://eksliang.iteye.com/ 一、概述 Solr可以利用StatsComponent 实现数据库的聚合统计查询，也就是min、max、avg、count、sum的功能二、参数
百度一道面试题 greemranqq 位运算百度面试寻找奇数算法 bitmap 算法
那天看朋友提了一个百度面试的题目：怎么找出{1,1,2,3,3,4,4,4,5,5,5,5} 找出出现次数为奇数的数字. 我这里复制的是原话，当然顺序是不一定的，很多拿到题目第一反应就是用map,当然可以解决，但是效率不高。还有人觉得应该用算法xxx,我是没想到用啥算法好...！还有觉得应该先排序... 还有觉
Spring之在开发中使用SpringJDBC ihuning spring
在实际开发中使用SpringJDBC有两种方式： 1. 在Dao中添加属性JdbcTemplate并用Spring注入； JdbcTemplate类被设计成为线程安全的，所以可以在IOC 容器中声明它的单个实例，并将这个实例注入到所有的 DAO 实例中。JdbcTemplate也利用了Java 1.5 的特定(自动装箱，泛型，可变长度
JSON API 1.0 核心开发者自述 | 你所不知道的那些技术细节 justjavac json
2013年5月，Yehuda Katz 完成了JSON API(英文，中文) 技术规范的初稿。事情就发生在 RailsConf 之后，在那次会议上他和 Steve Klabnik 就 JSON 雏形的技术细节相聊甚欢。在沟通单一 Rails 服务器库—— ActiveModel::Serializers 和单一 JavaScript 客户端库——&
网站项目建设流程概述 macroli 工作
一.概念网站项目管理就是根据特定的规范、在预算范围内、按时完成的网站开发任务。二.需求分析项目立项　　我们接到客户的业务咨询，经过双方不断的接洽和了解，并通过基本的可行性讨论够，初步达成制作协议，这时就需要将项目立项。较好的做法是成立一个专门的项目小组，小组成员包括：项目经理，网页设计，程序员，测试员，编辑/文档等必须人员。项目实行项目经理制。客户的需求说明书　　第一步是需
AngularJs 三目运算表达式判断 qiaolevip 每天进步一点点学习永无止境众观千象 AngularJS
事件回顾：由于需要修改同一个模板，里面包含2个不同的内容，第一个里面使用的时间差和第二个里面名称不一样，其他过滤器，内容都大同小异。希望杜绝If这样比较傻的来判断if-show or not，继续追究其源码。 var b = "{{", a = "}}"; this.startSymbol = function(a) {
Spark算子：统计RDD分区中的元素及数量 superlxw1234 spark spark算子 Spark RDD分区元素
关键字：Spark算子、Spark RDD分区、Spark RDD分区元素数量 Spark RDD是被分区的，在生成RDD时候，一般可以指定分区的数量，如果不指定分区数量，当RDD从集合创建时候，则默认为该程序所分配到的资源的CPU核数，如果是从HDFS文件创建，默认为文件的Block数。可以利用RDD的mapPartitionsWithInd
Spring 3.2.x将于2016年12月31日停止支持 wiselyman Spring 3
Spring 团队公布在2016年12月31日停止对Spring Framework 3.2.x（包含tomcat 6.x）的支持。在此之前spring团队将持续发布3.2.x的维护版本。请大家及时准备及时升级到Spring
fis纯前端解决方案fis-pure zccst JavaScript
作者：zccst FIS通过插件扩展可以完美的支持模块化的前端开发方案，我们通过FIS的二次封装能力，封装了一个功能完备的纯前端模块化方案pure。 1，fis-pure的安装 $ fis install -g fis-pure $ pure -v 0.1.4 2，下载demo到本地 git clone https://github.com/hefangshi/f

阅读笔记 | 《机器学习》周志华 第十章 降维与度量学习