府学路18号车神

线性与非线性数据降维方法汇总（Python代码实现）

作者简介：大家好，我是车神哥，府学路18号的车神

个人主页：应无所住而生其心的博客_府学路18号车神_CSDN博客
点赞➕评论➕收藏 == 养成习惯（一键三连）

⚡希望大家多多支持~一起加油

专栏《Fault Diagnosis》

其他专栏：

《LeetCode天梯》

《Neural Network》

《Python》

《Algorithm》

数据降维方法及Python实现

前言
大纲
- 线性数据降维
- - 主元分析（PCA）
  - 偏最小二乘法（PLS）
  - 独立成分分析（ICA）
  - 线性判别分析（LDA）
  - 典型相关分析（CCA）
  - 慢特征分析（SFA）
- 非线性数据降维
- - 神经网络非线性方法
  - 核（Kernel）方法
  - - 线性核函数
    - 高斯核函数
  - 流行学习方法
  - - LLE(Locally Linear Embedding) 局部线性嵌入
    - LE (Laplacian Eigenmaps) 拉普拉斯特征映射
    - LPP(Locality Preserving Projection) 局部保留投影

前言

11月份了，目前再准备开题，依旧搞故障诊断，在工业过程中的过程监控现状大多是从数据驱动的角度进行监控和诊断，然鹅，我们遇到的很多工况数据确实非线性的，在实际生产中，大部分都是非线性的数据，但也有一些线性的，由此我们可以从全局和局部出发，来对数据进行挖掘和分析，对此，近期我做了很多关于数据降维的一些工作用于毕业论文，现在在下面讲讲我的一些见解和Python代码的复现。

Python代码在文末哟！~

大纲

线性数据降维

线性降维方法，如主元分析（PCA）＂、部分最小二乘化（PLS）及独立元分析（ICA），线性辨别分析（LDA）等。

主元分析（PCA）

之前有过一篇blog介绍过这一部分，-> 看这里

过程监控中的应用可看 -> 这里

还是在介绍一遍吧~

PCA是一种统计方法，广泛应用于工程和科学应用中，与傅里叶分析相比，尤其适用于质量监测。

设 $\boldsymbol{x} \in \mathfrak{R}^{m}$ 表示 $m$ 个传感器矢量的样本测量值。

假设每个传感器有 $N$ 个样本，数据矩阵 $\mathbf{X}=\left[\begin{array}{llll} \boldsymbol{x}_{1} & \boldsymbol{x}_{2} & \cdots & \boldsymbol{x}_{N} \end{array}\right]^{T} \in \mathfrak{R}^{N \times m}$ ，由代表样本 $x^T_i$ 的每一行组成。

正常数据矩阵 $X$ 的一个重要要求是，它应具有丰富的正常变化，以代表过程的共同原因变化。矩阵 $X$ 被缩放为零均值，通常为PCA建模的单位方差。矩阵 $X$ 通过奇异值分解（SVD）分解为得分矩阵 $T$ 和加载矩阵 $P$ ，
$\mathbf{X}=\mathbf{T P}^{T}+\tilde{\mathbf{X}}\tag{1}$

其中 $T = X P$ 包含 $l$ 个左前导奇异向量和奇异值，P 包含 $l$ 个右前导奇异向量， $\tilde{\mathbf{X}}$ 是残差矩阵。因此，T 的列是正交的，P 的列是正交的。将样本协方差矩阵表示为
$\mathbf{S}=\frac{1}{N-1} \mathbf{X}^{T} \mathbf{X}\tag{2}$

作为SVD的替代方法，可以对 S 进行特征分解，以获得 P 作为 S 的 $l$ 个前导特征向量，特征值表示为

$\mathbf{\Lambda}=\operatorname{diag}\left\{\lambda_{1}, \lambda_{2}, \ldots, \lambda_{l}\right\}\tag{3}$
第 $i$ 个特征值可与得分矩阵 T 的第 $i$ 列相关，如下所示：
$\lambda_{i}=\frac{1}{N-1} \mathbf{t}_{i}^{T} \mathbf{t}_{i} \approx \operatorname{var}\left\{\mathbf{t}_{i}\right\}\tag{4}$

这是第 $i$ 个得分向量 $\mathbf{t}_{i} \in \mathfrak{R}^{N}$ 的样本方差。主成分子空间（PCS）是 $\mathcal{S}_{p}=\operatorname{span}\{\mathbf{P}\}$ ，剩余子空间（RS） $S_r$ 是 $S_p$ 的正交补。将测量空间划分为PCS和RS，使得RS仅包含微小的奇异值，这些奇异值对应于通常具有较小变化的子空间，或者主要是噪声的子空间。因此，残差类似于根据质量平衡和能量平衡建立的数学模型中的方程误差。

样本向量 $\mathbf{x} \in \mathfrak{R}^{m}$ 可以分别投影到PCS和RS上，

$\hat{\boldsymbol{x}}=\mathbf{P} \boldsymbol{t}=\mathbf{P P}^{T} \boldsymbol{x} \in \mathcal{S}_{p}\tag{5}$

其中，

$\boldsymbol{t}=\mathbf{P}^{T} \boldsymbol{x} \in \mathfrak{R}^{l}\tag{6}$

为 $l$ 个潜在变量得分的向量。

残差向量：

$\tilde{\boldsymbol{x}}=\boldsymbol{x}-\hat{\boldsymbol{x}}=\left(\mathbf{I}-\mathbf{P P}^{T}\right) \boldsymbol{x} \in \mathcal{S}_{r}\tag{7}$

因为 $S_p$ 和 $S_r$ 是正交的，

$\hat{\boldsymbol{x}}^{T} \tilde{\boldsymbol{x}}=0\tag{8}$

且

$\boldsymbol{x}=\hat{\boldsymbol{x}}+\tilde{\boldsymbol{x}}\tag{9}$

其中，一个重要的概念是，数据的PCA模型， $\hat{\boldsymbol{x}}$ 由潜变量 $\mathbf{t} \in \mathfrak{R}^{m}$ 参数化。

偏最小二乘法（PLS）

PLS具体算法过程如下：

将X和Y经过标准化（包括减均值、除标准差等）（此操作可参考这里的CCA算法）。
设X的第一个主成分为 $p_1$ ，Y的第一个主成分为 $q_1$ ，两者都经过单位化。（注意：这里的主成分并不是通过PCA得到的主成分）（~~菜鸡解释：~~这里主成分可简单的看成CCA系数矩阵中的第一系数成分，如 $a_1$ ）。
$u_1=Xp_1，v_1=Yq_1$ ，这和CCA几乎一样，可得下面的期望的约束条件。
$Var(u_1)\rightarrow Max，Var(v_1)\rightarrow Max$ ，代表在主成分分量上的投影，得到了期望的方差最大化值（~~貌似这样解释有点奇怪~~）。
$R_(u_1,v_1)\rightarrow Max$ ，和CCA一样。
综合以上条件，可得 $Cov(u_1，v_1)=\sqrt{Var(u_1)Var(v_1)}R_(u_1,v_1) \rightarrow Max$ 。

简而言之，为了实现偏最小二乘回归的基本思想，要求p1和q1的协方差最大，即求解下面优化后的目标函数：

$\\ S.t.:||p_1||=1,||q_1||=1$

看似比CCA的简单，这里附上CCA的目标函数：

$Max:R_{(U,V)}=\frac{\operatorname{Cov}(U, V)}{\sqrt{\operatorname{Var}[U] \operatorname{Var}[V]}}=Cov(U,V)={t_k}^TCov(A,B)h_k={t_k}^T\Sigma_{12} h_k\\ S.t.:Var(U_k)=Var({t_k^T}{A})={t_k^T}\Sigma_{11}t_k=1, Var(V_k)=Var({h_k^T}{A})={h_k^T}\Sigma_{22}h_k=1$

上面CCA是一次求解的过程，而我们的PLS回归只是对目前的第一主成分做了优化计算，剩下的主成分还得再计算。

关于优化的目标求解的办法，和CCA一样，也是引用了拉格朗日乘数法来求解。（下面给出详细计算步骤）

首先，引入拉格朗日乘子：
$\mathcal{L}=p_{1}^{T} X^{T} Y q_{1}-\frac{\lambda}{2}\left(p_{1}^{T} p_{1}-1\right)-\frac{\theta}{2}\left(q_{1}^{T} q_{1}-1\right)$
分别对 $p_1$ 和 $q_1$ 求偏导,
$\begin{array}{l} \frac{\partial \mathcal{L}}{\partial p_{1}}=X^{\tau} Y q_{1}-\lambda p_{1}=0 \\\\ \frac{\partial \mathcal{L}}{\partial q_{1}}=Y^{\tau} X p_{1}-\theta q_{1}=0 \end{array}$
和CCA一样，可求得 $\lambda$ 和 $\theta$ 相等。

将 $\lambda^{-1}X^{\tau} Y q_{1}= p_{1}$ 代入上面第二式子，可得
$Y^{\tau}XX^{\tau} Y q_{1}= \lambda^{2} q_{1}$
两边均乘以 $p_1$ 或 $q_1$ ，再利用约束条件 $p_1||=1,||q_1||=1$ ，可得：
$X^{\tau}YY^{\tau} X p_{1}= \lambda^{2} p_{1}$
故上式 $\lambda^{2}$ 则为 $X^{\tau}YY^{\tau} X p_{1}$ 的特征值， $p_1$ 为相应的单位特征向量， $q_1$ 一样。

求得 $p_1$ 、 $q_1$ 这样 $\left\langle X p_{1}, Y q_{1}\right\rangle \rightarrow p_{1}^{\tau} X^{\tau} Y q_{1} \rightarrow p_{1}^{\tau}\left(\lambda p_{1}\right) \rightarrow \lambda$ 可得到最优解。

可见 $p_1$ 和 $q_1$ 是投影方差最大和两者相关性最大上的权衡，而CCA只是相关性上最大化。

到此，我们可以得到 $u_1、v_1$ 值，这里的 $u_1、v_1$ 在图上面只是表示为绿色点，如果这样就完成求解，那和CCA的过程一样，得不到X到Y的映射。

具体整个算法的详细原理(模型+回归)可看 -> 这里

独立成分分析（ICA）

独立成分分析 ICA(Independent Component Correlation Algorithm)是一种函数，X为n维观测信号矢量，S为独立的m（m<=n)维未知源信号矢量，矩阵A被称为混合矩阵。ICA的目的就是寻找解混矩阵W（A的逆矩阵），然后对X进行线性变换，得到输出向量U。

这里使用最大似然估计来解释算法，我们假定每个 $s_i$ 有概率密度 $p_s$ ，那么给定时刻原信号的联合分布就是
$\mathrm{p}(\mathrm{s})=\prod_{i=1}^{n} p_{s}\left(s_{i}\right)$
此公式代表一个假设前提：每个人发出的声音信号各自独立。

有了 $p (s)$ ，我们可以求得 $p (x)$
$\mathrm{p}(\mathrm{x})=\mathrm{p}_{s}(H x)|\mathrm{H}|=|\mathrm{H}| \prod_{i=1}^{n} p_{s}\left(h_{i}{ }^{T} x\right)$
左边是每个采样信号 $x$ 的概率，右边是每个原信号概率的乘积的 $∣ H ∣$ 倍。

若没有先验知识，我们无法求得 $H$ 和 $s$ 。

因此我们需要知道 $p_s(s_i)$ ，我们打算选取一个概率密度函数赋给 $s$ ，但是我们不能选取高斯分布的密度函数。在概率论里我们知道密度函数p(x)由累计分布函数（cdf）F(x)求导得到。F(x)要满足两个性质是：单调递增和在[0,1]。我们发现sigmoid函数很适合，定义域负无穷到正无穷，值域0到1，缓慢递增。我们假定 $s$ 的累积分布函数符合sigmoid函数
$g(s)=\frac{1}{1+e^{-s}}$
求导可得，
$p_{s}(s)=g^{\prime}(s)=\frac{e^{s}}{\left(1+e^{s}\right)^{2}}$
这就是 $s$ 的密度函数。此时的 $s$ 是实数。

要是我们预先知道 $s$ 的分布函数，那就不用假设了，但在未知的情况下，sigmoid函数能够在大多数问题上取得不错的效果。

由于上式中 $p_s(s)$ 是个对称函数，因此E[s]=0（s的均值为0），那么E[x]=E[As]=0，x的均值也是0。

现在我们知道了 $p_s(s)$ ，下面开始求 $H$ 。

采样后的训练样本为 $\mathrm{X}^{(i)}=\left(x_{1}^{(i)}, x_{2}^{(i)}, \ldots, x_{n}^{(i)}\right) ;( i=1, \ldots, m)$ ，使用前面得到的 $x$ 的概率密度函数，得其样本对数似然估计：
$\ell(H)=\sum_{i=1}^{m}\left(\sum_{j=1}^{n} \log g^{\prime}\left(h_{j}^{T} x^{(i)}\right)+\log |H|\right)$
其中，括号里的一大堆为 $p(x^{(i)})$ ，然后再对 $H$ 进行求导操作。在上式中包含有行列式，对行列式|W|进行求导的方法可参考这里。

最终得到的求导结果公式（~~很复杂很繁琐~~–心情）：
$H:=H+\alpha\left(\left[\begin{array}{c} 1-2 g\left(h_{1}^{T} x^{(i)}\right) \\ 1-2 g\left(h_{2}^{T} x^{(i)}\right) \\ \vdots \\ 1-2 g\left(h_{n}^{T} x^{(i)}\right) \end{array}\right] x^{(i)^{T}}+\left(H^{T}\right)^{-1}\right)$
其中 $\alpha$ 表示的是梯度上升速率，可自定义。

当通过多次迭代后，可求出 $H$ ，便可得到 $s^{(i)}=Hx^{(i)}$ 来还原出原始信号。

具体独立成分分析ICA原理及应用可看 —> 这里

线性判别分析（LDA）

LDA的思想：由所给定的数据集，设法将样例数据投影在一条直线上，使得同类数据的投影点尽可能的接近、而异类数据的投影点之间将可能间隔更远。在我们做新样本数据的分类时，将其投影到同样的直线上，再根据投影点的位置来确定新样本的类别。如下图（源自周志华《机器学习》）所示：

这里的投影直线也用到了最小二乘的思想，所有数据样本垂直投影在直线上，只是我们的约束条件表为了不同数据样本之间的投影在直线上的距离度量。
我们需要寻找到在投影方向 $w$ 上，使得数据样本满足两个条件：1) 相同数据之间投影距离最小；2）不同数据之间投影点位置最大（可通过求其不同数据的投影中心点来判别）

LDA二维示意图

图中，“+”和“-”代表的是两种不同的数据簇，而椭圆表示数据簇的外轮廓线，虚线表示其投影，红色实心圆●和红色实心三角形△分别代表的两类数据簇投影到 $w$ 方向上的中心点。

对于上面投影方向 $y=\mathbf{w^Tx}$ ，有博主认为描述的不够准确，书中并未提及关于 $y$ 的解释，但是对于 $y$ 其实是有所提及的。

但我认为，这里的 $y$ ，仅仅是为了体现投影的一个方向，将数据 $x$ 投影在方向为 $w$ 的直线上，而不是代表的这根投影直线为 $y=\mathbf{w^Tx}$ ，或许会被人误认为是投影后的值0。
—~~菜鸡理解~~（如有不对，请批评指正）

已知给定的数据集为
$D=\{(x_i,y_i)\}_{i=1}^{m}，y_i\in \{0,1\}$
假设 $X_i、\mu_i、\Sigma_i$ 分别表示第 $i\in\{0,1\}$ 类（注意：这里的 $i$ 指代有多少个不同的类别数据集，图中只有两类，故为0和1）示例的集合、均值向量、协方差矩阵。

假如将所有的样本数据点都投影到直线 $w$ 上来，那么两类不同的样本数据的中心点在直线上的投影可表示为 $w^{T}\mu_0、w^{T}\mu_1$ ；同样，所有样本投影到直线上后，我们得到的两类样本的协方差分别为 $w^{T}\Sigma_0w$ 和 $w^{T}\Sigma_1w$ .

由于我们只是在一维平面上的直线，故为一维空间，由此 $w^{T}\mu_0、w^{T}\mu_1、w^{T}\Sigma_0w、w^{T}\Sigma_1w$ 都是实数。

为什么说这里是一维空间呢？可以看上图，假设每个样本都是d维向量（上图为二维 $x_1、x_2$ 坐标系）。现在就简单一点，想用一条直线 $w$ 表示这些样本，称之为样本集合的一维表达。所以这里说的一维讲的是投影到一条直线上以后的数据，在直线上是属于一维空间表达的。

下面思考另一个问题，如何让同类的数据样本投影点尽可能的靠近，而使得不同样本投影点离得更远呢？

这里需要引入协方差的概念，小小复习一下协方差及样本方差的知识（~~因为本菜鸡数学基础差~~）

协方差（Covariance）在概率论和统计学中用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况，即当两个变量是相同的情况。
上面的 $\Sigma_0、\Sigma_1$ 因为是自协方差也就是代表方差（也即为样本方差）。

方差：当数据分布比较分散（即数据在平均数附近波动较大）时，各个数据与平均数的差的平方和较大，方差就较大；当数据分布比较集中时，各个数据与平均数的差的平方和较小。
总的说来：方差越大，数据的波动越大；方差越小，数据的波动就越小。

协方差表示的是两个变量的总体的误差，这与只表示一个变量误差的方差不同。如果两个变量的变化趋势一致，也就是说如果其中一个大于自身的期望值，另外一个也大于自身的期望值，那么两个变量之间的协方差就是正值。如果两个变量的变化趋势相反，即其中一个大于自身的期望值，另外一个却小于自身的期望值，那么两个变量之间的协方差就是负值。
简而言之：两个变量之间差距越大，协方差就越小；相反，两个变量越相似变化趋势一致，则协方差越大。

复习完协方差、样本方差的知识后，解决上面的问题应该不难。

按照我们的需求，让同类的样本投影点尽可能的靠近，换句话说就是让同类样本投影的协方差尽可能的小（注意：这里由于是自协方差==样本方差，也就满足上面大字第一条），即 $w^{T}\Sigma_0 w+w^{T}\Sigma_1 w$ 尽可能的小，这样数据的波动就小，之间的距离就更小更靠近。

关于不同数据样本投影点之间的操作，使其更加的远离。我们可以通过不同数据集投影的中心点来判别，不同中心点之间的距离越大，那么表示他们之间离得更远，则 $||w^{T}\mu_0+w^{T}\mu_1||_2^2$ （欧式距离）更大。

好！现在我们同时考虑两者的情况，则可以使得得到最大化的目标，建立我们的模型：
$\begin{aligned} J &=\frac{\left\|\boldsymbol{w}^{\mathrm{T}} \boldsymbol{\mu}_{0}-\boldsymbol{w}^{\mathrm{T}} \boldsymbol{\mu}_{1}\right\|_{2}^{2}}{\boldsymbol{w}^{\mathrm{T}} \boldsymbol{\Sigma}_{0} \boldsymbol{w}+\boldsymbol{w}^{\mathrm{T}} \boldsymbol{\Sigma}_{1} \boldsymbol{w}} \\ &=\frac{\boldsymbol{w}^{\mathrm{T}}\left(\boldsymbol{\mu}_{0}-\boldsymbol{\mu}_{1}\right)\left(\boldsymbol{\mu}_{0}-\boldsymbol{\mu}_{1}\right)^{\mathrm{T}} \boldsymbol{w}}{\boldsymbol{w}^{\mathrm{T}}\left(\boldsymbol{\Sigma}_{0}+\boldsymbol{\Sigma}_{1}\right) \boldsymbol{w}} \end{aligned}$
观察上式目标函数，当我们的 $J\rightarrow Max$ 则是我们想要的结果。式子太复杂，那我们再优化一下吧。

引入一下类内和间散度矩阵的知识：

类间散度矩阵用于表示各样本点围绕均值的散布情况。

类内散度矩阵用于表示样本点围绕均值的散步情况，关于特征选择和提取的结果，类内散布矩阵的积越小越好。
具体可参考这里，还有这里。

首先，我们来定义“类内散度矩阵”（within-class scatter matrix）
$\begin{aligned} \mathbf{S}_{w} &=\boldsymbol{\Sigma}_{0}+\boldsymbol{\Sigma}_{1} \\ &=\sum_{\boldsymbol{x} \in X_{0}}\left(\boldsymbol{x}-\boldsymbol{\mu}_{0}\right)\left(\boldsymbol{x}-\boldsymbol{\mu}_{0}\right)^{\mathrm{T}}+\sum_{\boldsymbol{x} \in X_{1}}\left(\boldsymbol{x}-\boldsymbol{\mu}_{1}\right)\left(\boldsymbol{x}-\boldsymbol{\mu}_{1}\right)^{\mathrm{T}} \end{aligned}$
“类间散度矩阵”（between-class scatter matrix）：
$\mathbf{S}_{b}=\left(\boldsymbol{\mu}_{0}-\boldsymbol{\mu}_{1}\right)\left(\boldsymbol{\mu}_{0}-\boldsymbol{\mu}_{1}\right)^{\mathrm{T}}$
然后我们的 $J$ 可以表示为
$J=\frac{\boldsymbol{w}^{\mathrm{T}} \mathbf{S}_{b} \boldsymbol{w}}{\boldsymbol{w}^{\mathrm{T}} \mathbf{S}_{w} \boldsymbol{w}}$
这样看起来简单多了，这就是我们的LDA想要最大化的目标函数，比较专业的说法为， $S_b$ 和 $S_w$ 的“广义瑞利商”（generalizad Rayleigh quotient）。

关于“广义瑞利商”（generalizad Rayleigh quotient）的解释，可以参考这里和这里。
瑞利商经常出现在降维和聚类任务中，因为降维聚类任务往往能导出最大化最小化瑞利熵的式子，进而通过特征值分解的方式找到降维空间。
大体内容如下：

下面开始构建我们的函数及约束条件。

首先得确定我们的 $w$ ，由于 $J$ 的分母分子都是关于 $w$ 的二项式子，则与 $w$ 的长度无关，且只与方向有关。故我们令 $\boldsymbol{w}^{\mathrm{T}} \mathbf{S}_{w} \boldsymbol{w}=1$ ，则：
$\begin{array}{ll} \min _{\boldsymbol{w}} & -\boldsymbol{w}^{\mathrm{T}} \mathbf{S}_{b} \boldsymbol{w} \\ \text { s.t. } & \boldsymbol{w}^{\mathrm{T}} \mathbf{S}_{w} \boldsymbol{w}=1 \end{array}$
由拉格朗日乘数法（具体可参考CCA中Lagrange的应用）可得，
$\boldsymbol{S_bw=\lambda S_w w}\tag{*}$

其中， $\lambda$ 为拉格朗日乘子。

由上“类间散度矩阵”可知， $\boldsymbol{S_bw}$ 为 $\mu_0-\mu_1$ 的平方，故 $\boldsymbol{S_bw}$ 的方向则恒为 $\mu_0-\mu_1$ ，向量的方向可以确定了，我们再令
$\boldsymbol{S_bw=\lambda (\mu_0-\mu_1)}$

向量方向确定， $\lambda$ 只是代表方向向量的长度，所以 $\boldsymbol{S_bw}$ 可由上式表达。可能会有人疑惑了，这里的 $\lambda$ 和（*）式的 $\lambda$ 是一个 $\lambda$ 吗？
答案是肯定的。

将上式代入(*)式，可得关于 $\boldsymbol{S_w}$ 的式子：
$\boldsymbol{w=S_w^{-1}(\mu_0-\mu_1)}$
这里需要对 $\boldsymbol{S_w}$ 求逆，考虑到数值解的稳定性，常规实践操作中，需要对 $\boldsymbol{S_w}$ 进行奇异值分解（也就是我们在矩阵理论中学到的SVD方法），原理很简单，此处，即为 $\boldsymbol{S_w=U\Sigma V^{T}}$ ，其中 $\Sigma$ 是一个实对角矩阵，对角线上的元素也就是所谓的“迹”是 $\boldsymbol{S_w}$ 的奇异值。我们需要求解的是 $\boldsymbol{S_w}$ 的逆，故式子变为了这样，
$\boldsymbol{S_w^{-1}=V\Sigma^{-1} U^{T}}$
至此，我们得到了 $\boldsymbol{S_w^{-1}}$ ，从而可求得直线向量 $w$ ，找到使得 $J$ 最大的 $w$ .

LDA还可从贝叶斯决策理论的角度来描述（关于贝叶斯可参考这里），可证明，当两类数据同先验、满足高斯分布（正态分布）且协方差相等时，LDA可以达到最优的分类效果。

上述讲了这么多都是二分类问题，那么关于多分类任务。

具体线性判别分析LDA和Fisher判别分析原理及推广可看 —> 这里

典型相关分析（CCA）

从字面意义上理解CCA，我们可以知道，简单说来就是对不同变量之间做相关分析。较为专业的说就是，一种度量两组变量之间相关程度的多元统计方法。

关于相似性度量距离问题，在这里有一篇Blog可以参考参考。

首先，从基本的入手。

当我们需要对两个变量 $X ， Y$ 进行相关关系分析时，则常常会用到相关系数来反映。学过概率统计的小伙伴应该都知道的吧。还是解释一下。

相关系数：是一种用以反映变量之间相关关系密切程度的统计指标。相关系数是按积差方法计算，同样以两变量与各自平均值的离差为基础，通过两个离差相乘来反映两变量之间相关程度；着重研究线性的单相关系数。
$Y)=\frac{\operatorname{Cov}(X, Y)}{\sqrt{\operatorname{Var}[X] \operatorname{Var}[Y]}}$
其中， $C o v (X, Y)$ 表示 $X, Y$ 的协方差矩阵， $V a r [X]$ 为 $X$ 的方差， $V a r [Y]$ 为 $Y$ 的方差.

复习了一下大学本科概率统计知识，那么，如果我们需要分析的对象是两组或者多组向量，又该怎么做呢？

CCA的数学表达：

这里举例两组变量 $A(a_1,a_2,...,a_n),B(b_1,b_2,...,b_m)$ ，那么我们的公式会是这样：
$R(X_i,Y_j)=\sum_{i=1,j=1}^{n,m} \frac{Cov(X_i,Y_j)}{\sqrt{Var[X_i]Var[Y_j]}}$
我们会得到一个这样的矩阵：
$\begin{bmatrix} R(X_1,Y_1) &... & R(X_1,Y_{m-1}) & R(X_1,Y_m)\\R(X_2,Y_1) & ...& R(X_2,Y_{m-1})& R(X_2,Y_m)\\ ...& ...& ...&... \\ R(X_n,Y_1) & ...& ...&R(X_n,Y_m) \end{bmatrix}$

这样的话，我们把每个变量的相关系数都求了出来，不知道会不会和我一样觉得这样很繁琐呢。如果我们能找到两组变量之间的各自的线性组合，那么我们就只分析讨论线性组合之间的相关分析。

典型相关系数：是先对原来各组变量进行主成分分析，得到新的线性关系的综合指标，再通过综合指标之间的线性相关系数来研究原各组变量间相关关系。

现在我们利用主成分分析（PCA）的思想，可以把多个变量与多个变量之间的相关转化成两个变量之间的相关。

先得到两组变量 $A^T,B^T)$ 的协方差矩阵
$\Sigma=\left[\begin{array}{l} \Sigma_{11} \ \Sigma_{12} \\ \Sigma_{21} \ \Sigma_{22} \end{array}\right]$
其中， $\Sigma_{11} = Cov(A),\Sigma_{22} = Cov(B),\Sigma_{12}=\Sigma_{12}^T = Cov(A,B)$ .

把上面两组变量 $A(a_1,a_2,...,a_n),B(b_1,b_2,...,b_m)$ 分别组合成两个变量U、V，则用线性表示
$\begin{matrix} U=t_1a_1+t_2a_2+...+t_na_n,\\ \\V=h_1b_1+h_2b_2+...+h_mb_m \end{matrix}$

然后，找出最大可能的相关系数 ${t_k}=(t_1,t_2,...,t_n)^T,{h_k}=(h_1,h_2,...,h_m)^T$ ,

使得， $R(U,V)\longrightarrow Max$ ，这样，就得到了典型相关系数；而其中的 $U, V$ 为典型相关变量。

典型相关分析最朴素的思想：首先分别在每组变量中找出第一对典型变量，使其具有最大相关性，然后在每组变量中找出第二对典型变量，使其分别与本组内的第一对典型变量不相关，第二对本身具有次大的相关性。如此下去，直到进行到K步，两组变量的相关系被提取完为止，可以得到K组变量。

So，

注意：此时的 $(U, V)$ 若不能反映两组变量之间的相关关系，我们需要继续构造下一组关系变量来表示，具体可构造 $K$ 对这样的关系

直到 $R(U,V)\longrightarrow Max$ 为止
$\begin{matrix} U_k={t_k^T}{A}=t_{1k}a_1+t_{2k}a_2+...+t_{nk}a_n\\ \\ V_k={h_k^T}{B}=h_{1k}b_1+h_{2k}b_2+...+h_{mk}b_m \end{matrix}$

其中，我们需要一个约束条件满足，使得 $R(U,V)\longrightarrow Max$

$\begin{matrix} Var(U_k)=Var({t_k^T}{A})={t_k^T}\Sigma_{11}t_k=1\\ \\ Var(V_k)=Var({h_k^T}{A})={h_k^T}\Sigma_{22}h_k=1\\ \\ Cov（U_k,U_i）=Cov(U_k,V_i)=Cov(V_i,U_k)=Cov(V_k,V_i)=0(1<=iVar(Uk)=Var(tkTA)=tkTΣ11tk=1Var(Vk)=Var(hkTA)=hkTΣ22hk=1Cov（Uk,Ui）=Cov(Uk,Vi)=Cov(Vi,Uk)=Cov(Vk,Vi)=0(1<=i<k)$

在此约束条件下， $t_k,h_k$ 系数得到最大，则使得 $R_{(U,V)}$ 最大。

具体典型相关分析CCA算法及故障诊断应用可看 —> 这里

慢特征分析（SFA）

给定一个 i 维输入信号 $\mathbf{x}(t)=\left[x_{1}(t), \ldots, x_{I}(t)\right]^{T}$ ，考虑一个输入-输出函数 $\mathbf{g}(\mathbf{x})=\left[g_{1}(\mathbf{x}), \ldots, g_{J}(\mathbf{x})\right]^{T}$ ，每个分量都是一组K个非线性函数的加权和 $h_{k}(\mathbf{x}): g_{j}(\mathbf{x}):=\sum_{k=1}^{K}w_{j k} h_{k}(\mathbf{x})$ 。通常K > max(I, J)。应用 $\mathbf{h}=\left[h_{1}, \ldots, h_{K}\right]^{T}$ 对输入信号产生非线性扩展信号 $\mathbf{z}(t):=\mathbf{h}(\mathbf{x}(t))$ 。经过这种非线性展开后，可以将该问题在扩展的信号分量 $z_k(t)$ 中视为线性问题。这是将非线性问题转化为线性问题的常用方法。一个众所周知的例子是支持向量机(Vapnik, 1995)。权向量 $\mathbf{w}_{j}=\left[w_{j 1}, \ldots, w_{j K}\right]^{T}$ 进行学习，第j个输出信号分量由 $y_{j}(t)=g_{j}(\mathbf{x}(t))=\mathbf{w}_{j}^{T} \mathbf{h}(\mathbf{x}(t))=\mathbf{w}_{j}^{T} \mathbf{z}(t)$ 给出。

目标(见方程1)是优化输入-输出函数，从而使权值达到
$\Delta\left(y_{j}\right)=\left\langle\dot{y}_{j}^{2}\right\rangle=\mathbf{w}_{j}^{T}\left\langle\dot{\mathbf{z}} \dot{\mathbf{z}}^{T}\right\rangle \mathbf{w}_{j}$ (3.1)

是最小的。

假设所选择的非线性函数hkare使扩展信号z(t)具有零均值和单位协方差矩阵。这样一组非线性函数 $h_k$ 可以很容易地通过一个球阶从任意集合 $h_{k}^{\prime}$ 中导出，如下所述。然后我们发现约束条件(见公式2-4)

$\begin{array}{r} \left\langle y_{j}\right\rangle = \mathbf{w}_{j}^{T} \underbrace{\langle\mathbf{z}\rangle}_{ = 0} = 0, （3.2）\\ \left\langle y_{j}^{2}\right\rangle = \mathbf{w}_{j}^{T} \underbrace{\left\langle\mathbf{z z}^{T}\right\rangle}_{ = \mathbf{I}} \mathbf{w}_{j} = \mathbf{w}_{j}^{T} \mathbf{w}_{j} = 1 （3.3）, \\ \forall j^{\prime}⟨yj⟩=wjT=0 ⟨z⟩=0,（3.2）⟨yj2⟩=wjT=I ⟨zzT⟩wj=wjTwj=1（3.3）,∀j′<j:⟨yj′yj⟩=wj′T=I ⟨zzT⟩wj=wj′Twj=0,（3.4）$

当且仅当我们约束权重向量为向量的标准正交集时，自动满足。

因此，对于输入输出函数的第一个分量，优化问题简化为寻找使方程(3.1)中的 $\Delta\left(y_{1}\right)$ 最小的赋范权向量。解是矩阵 $\left\langle\dot{\mathbf{z}} \dot{\mathbf{z}}^{T}\right\rangle$ 的赋范特征向量，它对应于最小的特征值(cf. Mitchison, 1991)。下一个更高的特征值的特征向量产生输入-输出函数的下一个分量与下一个更高的1个值。这就引出了解决上述优化问题的算法。

明确区分原始信号、来自训练数据的精确归一化信号和来自测试数据的近似归一化信号是有用的。设 $\tilde{\mathbf{x}}(t)$ 是一个可以有任意均值和方差的原始输入信号。为了计算方便和显示的目的，信号被归一化为零的平均值和单位方差。这种归一化对训练数据x(t)是精确的。用相同的偏移量和因子来校正测试数据，通常会得到一个近似归一化的输入信号 $\mathbf{x}^{\prime}(t)$ ，因为每个数据样本的均值和方差略有不同，而归一化总是使用从训练数据中确定的偏移量和因子来完成。在下面，原始信号有一个波浪线，测试数据有一个破折号;没有波浪线或破折号的符号通常(但不总是)指的是规范化训练数据。

该算法现在有如下形式(参见下图):

输入信号。用于训练，i维输入信号为 $\tilde{\mathbf{x}}(t)$ 。
输入信号归一化。对输入信号进行归一化得到

$\begin{aligned} \mathbf{x}(t) &:=\left[x_{1}(t), \ldots, x_{I}(t)\right]^{T} （3.5）\\ \text { with } \quad x_{i}(t) &:=\frac{\tilde{x}_{i}(t)-\left\langle\tilde{x}_{i}\right\rangle}{\sqrt{\left\langle\left(\tilde{x}_{i}-\left\langle\tilde{x}_{i}\right\rangle\right)^{2}\right\rangle}}, （3.6） \\ \text { so that } \quad\left\langle x_{i}\right\rangle &=0 （3.7）\\ \text { and } \quad\left\langle x_{i}^{2}\right\rangle &=1 （3.8） \end{aligned}$

非线性扩张。应用一组非线性函数 $\tilde{\mathbf{h}}(\mathbf{x})$ ，生成扩展信号 $\tilde{\mathbf{z}}(t)$ 。这里使用了一次的所有单项式(导致线性 $S F A$ 有时用 $SFA_1$ 表示)或一次和两次的单项式，包括混合项，如 $x_1x_2$ (导致二次SFA有时用 $SFA_2$ 表示)，但也可以使用任何其他的函数集。因此对于二次 $S F A$ ，

$\begin{aligned} \tilde{\mathbf{h}}(\mathbf{x}):=&\left[x_{1}, \ldots, x_{I}, x_{1} x_{1}, x_{1} x_{2}, \ldots, x_{I} x_{I}\right]^{T} （3.9） \\ \tilde{\mathbf{z}}(t):=\tilde{\mathbf{h}}(\mathbf{x}(t))=&\left[x_{1}(t), \ldots, x_{I}(t), x_{1}(t) x_{1}(t),\right.\\ &\left.x_{1}(t) x_{2}(t), \ldots, x_{I}(t) x_{I}(t)\right]^{T} （3.10） \end{aligned}$

属于 $\tilde{\mathbf{h}}(\mathbf{x})$ 和属于 $\tilde{\mathbf{z}}(\mathbf{t})$ 的一、二度分量词的维数为 $K = I + I (I + 1) / 2$ 。

球体。将扩展的信号属于 $\tilde{\mathbf{z}}(\mathbf{t})$ 通过仿射变换归一化，以生成具有零均值和单位协方差矩阵 $I$ 的 $z (t)$ ，

$\begin{aligned} \mathbf{z}(t) &:=\mathbf{S}(\tilde{\mathbf{z}}(t)-\langle\tilde{\mathbf{z}}\rangle), （3.11） \\ \text { with } \quad\langle\mathbf{z}\rangle &=\mathbf{0} （3.12） \\ \text { and }\left\langle\mathbf{z} \mathbf{z}^{T}\right\rangle &=\mathbf{I} （3.13） \end{aligned}$

这种归一化称为球面化(或白化)。矩阵 $S$ 是球面矩阵，可以通过对矩阵的主成分分析(PCA)确定 $(\tilde{\mathbf{Z}}(t)-\langle\tilde{\mathbf{z}}\rangle)$ 。因此，它依赖于特定的训练数据集。这也定义了

$\mathbf{h}(\mathbf{x}):=\mathbf{S}(\tilde{\mathbf{h}}(\mathbf{x})-\langle\tilde{\mathbf{z}}\rangle)$ （3.14）

它是一个标准化函数，而 $z (t)$ 是球化数据。

主成分分析。将主成分分析法应用于矩阵 $\left\langle\dot{\mathbf{z}} \dot{\mathbf{z}}^{T}\right\rangle$ 。具有最小特征值的 $J$ 个特征向量 $λ_j$ 得到归一化权向量

$\begin{array}{ll} \mathbf{w}_{j}: & \left\langle\dot{\mathbf{z}} \dot{\mathbf{z}}^{T}\right\rangle \mathbf{w}_{j}=\lambda_{j} \mathbf{w}_{j} （3.15） \\ \text { with } & \lambda_{1} \leq \lambda_{2} \leq \cdots \leq \lambda_{J} （3.16） \end{array}$

提供输入-输出功能

$\begin{aligned} \mathbf{g}(\mathbf{x}) &:=\left[g_{1}(\mathbf{x}), \ldots, g_{J}(\mathbf{x})\right]^{T} （3.17）\\ \text { with } \quad g_{j}(\mathbf{x}) &:=\mathbf{w}_{j}^{T} \mathbf{h}(\mathbf{x}) （3.18） \end{aligned}$

输出信号

$\begin{aligned} \mathbf{y}(t) &:=\mathbf{g}(\mathbf{x}(t)) （3.19）\\ \text { with } &\langle\mathbf{y}\rangle &=\mathbf{0} （3.20）\\ \left\langle\mathbf{y} \mathbf{y}^{T}\right\rangle &=\mathbf{I} （3.21）\\ \text { and } \Delta\left(y_{j}\right)=\left\langle\dot{y}_{j}^{2}\right\rangle &=\lambda_{j} . （3.22） \end{aligned}$

输出信号的各分量的均值和单位方差都为零，并且是不相关的。

重复。如果需要，将输出信号 $y (t)$ (或它的前几个分量或不同输出信号的组合)作为输入信号 $x (t)$ ，用于学习算法的下一个应用。继续步骤3。
测试。为了对测试信号进行系统测试，将步骤2至6中推导的归一化和输入-输出函数应用于新的输入信号(属于x0(T))。注意，这个测试信号需要使用与训练信号相同的偏移量和因子进行归一化，以准确地再现学习的输入-输出关系。因此，训练信号只是近似地归一化降低

$\begin{aligned} & \mathbf{x}^{\prime}(t):=\left[x_{1}^{\prime}(t), \ldots, x_{I}^{\prime}(t)\right]^{T} （3.23）\\ \text { with } \quad x_{i}^{\prime}(t) &:=\frac{\tilde{x}_{i}^{\prime}(t)-\left\langle\tilde{x}_{i}\right\rangle}{\sqrt{\left\langle\left(\tilde{x}_{i}-\left\langle\tilde{x}_{i}\right\rangle\right)^{2}\right\rangle}}（3.24） \\ \text { so that } \quad\left\langle x_{i}^{\prime}\right\rangle & \approx 0 （3.25）\\ \text { and }\left\langle x_{i}^{\prime 2}\right\rangle & \approx 1 （3.26） \end{aligned}$

只有在测试信号对训练信号具有代表性的情况下，归一化才是准确的。输出信号也是如此

$\begin{aligned} \mathbf{y}^{\prime}(t) &:=\mathbf{g}\left(\mathbf{x}^{\prime}(t)\right)（3.27） \\ \text { with } \quad\left\langle\mathbf{y}^{\prime}\right\rangle & \approx \mathbf{0}, （3.28）\\ \text { and }\left\langle\mathbf{y}^{\prime} \mathbf{y}^{\prime T}\right\rangle & \approx \mathbf{I} . （3.29） \end{aligned}$

由于实际原因，在步骤4和步骤5中使用了奇异值分解而不是PCA。对于一些特征值非常接近于零的退化数据，奇异值分解是一种较好的分析方法，然后在步骤4中丢弃这些特征值。非线性展开有时会导致退化数据，因为它产生高度冗余的表示，其中一些成分可能具有线性关系。一般来说，特征值接近于零的信号分量通常包含噪声，如舍入误差，在归一化后会非常迅速地波动和在任何情况下，SFA都不会在步骤5中选择。因此，决定哪些小组件应该被丢弃并不重要。

【图3】执行SFA的两种可能的网络结构。(上)用一组单位来解释，在树(粗线)上进行复杂的计算，如sigma-pi单位。(下)解释为简单单元与隐含层中固定的非线性单元的分层网络，如径向基函数网络具有不可适应的隐含单元。在这两种情况下，输入-输出函数分量由 $g_{j}(\mathbf{x})=\mathbf{w}_{j}^{T} \mathbf{h}(\mathbf{x})=\tilde{w}_{j 0}+\tilde{\mathbf{w}}_{j}^{T} \tilde{\mathbf{h}}(\mathbf{x})$ 给出，并带有适当的原始 $\tilde{\mathbf{w}}(\mathbf{J})$ 权重向量。这里假设输入信号分量是标准化的。

不是直接用 $\Delta$ 的值，而是用一种更直观的解释来测量信号的不变性是有用的。

可以是定义为的指标η

$g_{j}(\mathbf{x})=\mathbf{w}_{j}^{T} \mathbf{h}(\mathbf{x})=\tilde{w}_{j 0}+\tilde{\mathbf{w}}_{j}^{T} \tilde{\mathbf{h}}(\mathbf{x})\eta(y):=\frac{T}{2 \pi} \sqrt{\Delta(y)}$ （3.30）

对 $t ∈ [t_0,t_0+T]$ , 对于一个纯正弦波 $y(t):=\sqrt{2} \sin (n 2 \pi t / T)$ 整数数目的振荡，η(y)就是振荡的数目，即η(y) = n。因此，任意信号的指数η表示相同值的纯正弦波的振荡次数，至少对η的整数值是这样的。低η值表示信号慢。由于从测试数据导出的输出信号只是近似归一化， $η(y_0)$ 意味着包含 $y_0$ 到零的平均值和单位方差的精确归一化，以使 $\eta$ 指标独立于一个偶然的比例因子。

具体慢特征分析SFA原理及应用可看 —> 这里

非线性数据降维

实际工业过程往往表现出复杂的特性，过程的非线性特性尤为突出，因此非线性数据降维方法在故障诊断领域得到了广泛的关注和应用。针对工业过程中存在的大量非线性过程，尤其是当输入的取值范围较大时，很多过程信息及这种非线性关系无法再被PCA描述。针对非线性恃征的故障诊断研究从九十年代发展至今，主要提出了以下几类方法：神经网络非线性方法；（Kernel）方法；流形学习（Maniford Learning）方法。

神经网络非线性方法

神经网络非线性PCA方法最早是有Kramer提出的，其模型是一个五层神经网络，输入和输出采用同一组数据。由于中间层神经元个数小于输入层的个数，实现了降维的效果。有作者指出该网络结构在线性情况下并不能保证与线性PCA等价，提出了一种改进的方法，即先计算出每个训练数据点的具有物理意义的主曲线的低维表示后，再使用两个三层神经网络分别实现降维和重反构映射；有学者引入核概率密度函数研究了非线性PCA中主元不服从正态分布的问题；有学者研究了非线性过程数据含有的动态性问题。

其中神经网络还可结合LDA、ICA、SFA、CCA等上述线性方法，这里就不再展开啦！~~

这里只以神经网络加入PCA方法为例。但是针对神经网络（NN）加入PCA的方法，从实际上来讲目前任然存在很多的问题，首当其冲的就是整个神经网络的训练复杂度，会很高，提高成本，在实际工业生产中的数据并不是完整的，会存在样本的不均衡和故障样本的缺失或样本量极少，所以，整个模型的泛化能力不是很好或者说是难以保证。怎样确定整个神经网络模型的结构及对应生产工况数据的规模，优化算法，效率及在线功能实现，保证学习样本的完整性和价值问题仍未得到解决，故对于此类加入神经网络的降维方法，不是很看好，简单来说就是——太玄了！

核（Kernel）方法

核方法是将数据的原始输入空间非线性地变换到一个高维的核特征空间后、再使用线性技术的一种间接处理方法。

最开始将线性推广至非线性的为支持向量机（SVM），后来又有了Kernel PCA用于人脸识别和语音识别，同时在过程监控领域也有了很大的研究进展，推动了过程监控故障诊断的进步，虽然有很多学者将核kernel应用到了非线性降维方法中来，但均存在着一个很重要的问题，就是核函数究竟该怎么选取。而且，对于加入核函数的方法，仅仅依赖于反映数据中的非线性，在其降维用的目标函数中没有考虑到保持其数据结构的完整性，甚至存在将数据强行变为非线性结构的缺陷，由此，此种方法并不是很好，还需要进一步的研究和改善。

线性核函数

让转换函数 $\phi (x)=x$ ，则得到线性核函数，则两个向量的点积为：
$k(x,x^{'})=x^{T}x^{'}$
线性核函数的特征空间F的维度与输入空间 $\chi$ 的维度一样，每个向量的特征数也一样，其中 $x=(x_{1},x_{2},...,x_{n})$ 叫做特征， $x$ 代表一个样本。

当不需要在特征空间进行运算时，可以使用线性核函数。

如果原始数据已经是高维且可进行比较，在输入空间中线性可分。

线性内核适用于由大量固定长度的特征数据表示的对象。

高斯核函数

高斯核函数其又称作——Square exponential kernel（SE Kernel ）or radial basis function(RBF，径向基函数)，其形如：
$k(x,x^{'})=e^{-\frac{1}{2}(x-x^{'})^{T}\Sigma^{-1} (x-x^{'})}$
其中， $\Sigma$ 表示的是输入样本的每个特征数据所对应的协方差，P维数据矩阵。

当 $\Sigma$ 是对角矩阵时，为
$k(x,x^{'})=e^{-\frac{1}{2}\sum_{j=1}^{p} \frac{(x_{j}-x^{'}_{j})^2}{\sigma^{2}_{j}}}$
其中， $\sigma_j$ 被定义为特征 $j$ 的伸缩尺度。

若 $\Sigma$ 是球形的时候，则为
$k(x,x^{'})=e^{-\frac{\left \| x-x^{'} \right \|^{2}}{2\sigma^{2}}},\sigma_j=\sigma,\forall j$
该核函数的特征空间的维度是无限的。核函数避免转换函数的计算，故可用相对马氏距离来机选n阶的Gram方阵，即使已经将隐式的将对象投影到无限维度的特征空间中去，依旧有效。

流行学习方法

流形学习是非线性降维的重要研究领域，也是近些年来，利用流行学习方法进行特征提取和故障诊断的一种新的探索，并受到了广泛的关注。

流形(manifold)是一般几何对象的总称，包括各种维度的曲线与曲面等，和一般的降维分析一样，流形学习是把一组在高维空间中的数据在低维空间中重新表示。不同之处是，在流形学习中假设：所处理的数据采样与一个潜在的流形上，或者说对于这组数据存在一个潜在的流形。

流形上的点本身是没有坐标的，所以为了表示这些数据点，我们把流形放入到外围空间(ambient space)，用外围空间上的坐标来表示流形上的点，例如三维空间 $R^3$ 中球面是一个2维曲面，即球面上只有两个自由度，但我们一般采用外围空间R^3 空间中的坐标来表示这个球面。

流形学习 = 微分流形 + 黎曼几何

流行学习可以概括为：在保持流形上点的某些几何性质特征的情况下，找出一组对应的内蕴坐标(intrinsic coordinate)，将流形尽量好的展开在低维平面上，这种低维表示也叫内蕴特征(intrinsic feature)，外围空间的维数叫观察维数，其表示叫自然坐标，在统计上称为observation。(引用自此Blog)

LLE(Locally Linear Embedding) 局部线性嵌入

LLE算法是在2000年被S.T.Roweis和L.K.Saul提出来的非线性降维方法，它的基本思想是将全局非线性转化为局部线性，而互相重叠的局部邻域能够提供全局结构的信息，这样对每个局部进行线性降维后，在按照某种规则将结果组合在一起，就能够得到低维的全局坐标表示。

LLE算法有一个前提假设：采样数据所在的低维流形在局部是线性的，即每个采样点可以用它的近邻点线性表示。这个假设可以由最终结果的有效性上得到证明。该算法的学习目标是：在低维空间中保持每个邻域中的权值不变，即假设嵌入映射在局部是线性的条件下，最小化重构误差。

上图为LLE算法的运行步骤

设有高维空间 $R^D$ 中的N个公维随机向量 $\{x_{i}\}=(x_{1},x_{2},...,x_{N}),i\in [1，N]$ ，要通过降维把它们映射到低维空间 $R^{d}$ 中，需要求出映射后的N个ｄ维向量台 $\{y_{i}\},i\in [1，N]$ 。我们当然希望能够用显示的映射 $F$ 来表示，但{ $x_i$ }柄是非线性结构时，求出显示映射 $F$ 相当困难，基于流形学习的原理，可Ｗ将非线性结构的局部用线性结构来近似，即可Ｗ将非线性结构的降维分解为局部的线性降维。这就是LLE算法的基本原理。

主要步骤：

寻找每个样本点的 $k$ 个近邻点；
由每个样本点的近邻点计算出该样本点的局部重建权值矩阵
由该样本点的局部重建权值矩阵和其近邻点计算出该样本点的输出向量

具体的详细计算步骤就不放这里了，有一个大佬的写的不错，这跳转这里

LE (Laplacian Eigenmaps) 拉普拉斯特征映射

拉普拉斯特征映射(Laplacian Eigenmaps，LE)也是一种局部的流行学习方法，和LE的方法有点相似，LE算法也具有直观降维的目标函数，也就是说，通过保持了高维数据之间的近邻关系来得到低维度数据流行结构。

LE算法的主要有以下四步：

建立无向图：对于每个高维样本数据点 $\{x_{i}\}=(x_{1},x_{2},...,x_{N}),i\in [1，N]$ ，寻求其近邻数据点（去欧氏距离或最小K近邻的数据点），由此建立邻域关系图（近邻图）
计算每条近邻数据点执念的权值，（不相连的边权值为0），构建权值矩阵 $W=\{w_{ij} \}$ .
其中数据点中权值的计算方法有两种：
（如果xi和xj在邻域关系图中为近邻点，则将它们之间的权值赋值为 $w_{ij}=1$ ；相反，则为0.简单说来就是，节点相邻取1，不相邻取0。）
（热核权值：如果xi和xj在邻域中为近邻点，其热核函数为其赋值为： $w_{i,j}=exp(\frac{\left \| x_{i}-x_{j} \right \|^{2}}{\sigma^2})$ ）,将其 $w_{i,j}$ 带入到拉普拉斯矩阵中得到拉式矩阵L；相反，则权值赋值为0.）
求解特征向量方差（映射结果）：目标函数—> $\Sigma_{ij}(y_i-y_j)^2w_{ij}$ ,经过推导，对低维数据的计算转化为特征值分解的方式，也即使球 $Ly=\lambda Dy$ ,将点 $x_i$ 映射到 $y_i$ 中。
使用最小的n和非零特征值对应的特征向量作为降维后的结果输出。

LPP(Locality Preserving Projection) 局部保留投影

局部保留投影LPP算法提出的目的是为了实现非线性流形的学习和分析，LPP可以提取最具有判别性的特征来进行降维，是一种保留了局部信息，降低影响图像识别的诸多因素的降维方法，这种算法本质上是一种线性降维方法，由于其巧妙的结合了拉普拉斯特征映射算法（LE）的思想，从而可以在对高维数据进行降维后有效地保留数据内部的非线性结构。

与其他非线性降维方法相比，LPP方法可以将新增的测试数据点，通过映射在降维后的子空间找到对应的位置，而其他非线性方法只能定义训练数据点，无法评估新的测试数据。LPP方法可以很容易地将新的测试数据点根据特征映射关系（矩阵），投影映射在低维空间中。

将 n 维原数据映射为 l 维数据，l<< n ；实现数据降维，样本个数为m 。（引用此大佬）

转自大佬

或许看到这已经很累了，确实，写这么多也很累，后面都直接转载了我（菜鸡），但是干什么又不累呢，是吧，一会儿还得刷力扣~

加油！~

对了，整理的代码放在这里了—> 数据降维算法代码集合

链接：https://pan.baidu.com/s/1yusgn7VtgSADEu7tiBF3nA （可直接点上面链接跳转的哟~）
提取码：yyds

❤坚持读Paper，坚持做笔记，坚持学习，坚持刷力扣LeetCode❤！！！
坚持刷题！！！打天梯！！！
⚡To Be No.1

⚡⚡哈哈哈哈

⚡创作不易⚡，过路能❤关注、收藏、点个赞❤三连就最好不过了

ღ( ´･ᴗ･` )

❤

『
物质决定意识，意识反作用于物质。
』

你可能感兴趣的:(Algorithm,Python,Fault,Diagnosis,python,数据降维,线性,非线性,机器学习)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
android系统selinux中添加新属性property 辉色投像
1.定位/android/system/sepolicy/private/property_contexts声明属性开头：persist.charge声明属性类型：u:object_r:system_prop:s0图12.定位到android/system/sepolicy/public/domain.te删除neverallow{domain-init}default_prop:property
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python编译器鹿鹿~ Python编译器 Python python 开发语言后端
嘿嘿嘿我又来了啊有些小盆友可能不知道Python其实是有编译器的，也就是PyCharm。你们可能会问到这个是干嘛的又不可以吃也不可以穿好像没有什么用，其实你还说对了这个还真的不可以吃也不可以穿，但是它用来干嘛的呢。用来编译你所打出的代码进行运行（可能这里说的有点不对但是只是个人认为）现在我们来说说PyCharm是用来干嘛的。PyCharm是一种PythonIDE，带有一整套可以帮助用户在使用Pyt
一文掌握python面向对象魔术方法（二）程序员neil python python 开发语言
接上篇：一文掌握python面向对象魔术方法（一）-CSDN博客目录六、迭代和序列化：1、__iter__(self):定义迭代器，使得类可以被for循环迭代。2、__getitem__(self,key):定义索引操作，如obj[key]。3、__setitem__(self,key,value):定义赋值操作，如obj[key]=value。4、__delitem__(self,key):定义
一文掌握python常用的list（列表）操作程序员neil python python 开发语言
目录一、创建列表1.直接创建列表：2.使用list()构造器3.使用列表推导式4.创建空列表二、访问列表元素1.列表支持通过索引访问元素，索引从0开始：2.还可以使用切片操作访问列表的一部分：三、修改列表元素四、添加元素1.append()：在末尾添加元素2.insert()：在指定位置插入元素五、删除元素1.del：删除指定位置的元素2.remove()：删除指定值的第一个匹配项3.pop()：
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
windows下源码安装golang 616050468 golang安装 golang环境 windows
系统： 64位win7，开发环境：sublime text 2， go版本： 1.4.1 1. 安装前准备(gcc, gdb, git) golang在64位系
redis批量删除带空格的key bylijinnan redis
redis批量删除的通常做法： redis-cli keys "blacklist*" | xargs redis-cli del 上面的命令在key的前后没有空格时是可以的，但有空格就不行了： $redis-cli keys "blacklist*" 1) "blacklist:12: [email protected]
oracle正则表达式的用法 0624chenhong oracle 正则表达式
方括号表达示方括号表达式描述 [[:alnum:]] 字母和数字混合的字符 [[:alpha:]] 字母字符 [[:cntrl:]] 控制字符 [[:digit:]] 数字字符 [[:graph:]] 图像字符 [[:lower:]] 小写字母字符 [[:print:]] 打印字符 [[:punct：]] 标点符号字符 [[:space:]]
2048源码(核心算法有，缺少几个anctionbar，以后补上) 不懂事的小屁孩 2048
2048游戏基本上有四部分组成， 1：主activity，包含游戏块的16个方格，上面统计分数的模块 2：底下的gridview，监听上下左右的滑动，进行事件处理， 3：每一个卡片，里面的内容很简单，只有一个text，记录显示的数字 4：Actionbar，是游戏用重新开始，设置等功能(这个在底下可以下载的代码里面还没有实现) 写代码的流程 1：设计游戏的布局，基本是两块，上面是分
jquery内部链式调用机理换个号韩国红果果 JavaScript jquery
只需要在调用该对象合适(比如下列的setStyles)的方法后让该方法返回该对象（通过this 因为一旦一个函数称为一个对象方法的话那么在这个方法内部this（结合下面的setStyles）指向这个对象） function create(type){ var element=document.createElement(type); //this=element;
你订酒店时的每一次点击背后都是NoSQL和云计算蓝儿唯美 NoSQL
全球最大的在线旅游公司Expedia旗下的酒店预订公司，它运营着89个网站，跨越68个国家，三年前开始实验公有云，以求让客户在预订网站上查询假期酒店时得到更快的信息获取体验。云端本身是用于驱动网站的部分小功能的，如搜索框的自动推荐功能，还能保证处理Hotels.com服务的季节性需求高峰整体储能。 Hotels.com的首席技术官Thierry Bedos上个月在伦敦参加“2015 Clou
java笔记1 a-john java
1，面向对象程序设计（Object-oriented Propramming，OOP）：java就是一种面向对象程序设计。 2，对象：我们将问题空间中的元素及其在解空间中的表示称为“对象”。简单来说，对象是某个类型的实例。比如狗是一个类型，哈士奇可以是狗的一个实例，也就是对象。 3，面向对象程序设计方式的特性： 3.1 万物皆为对象。
C语言 sizeof和strlen之间的那些事 C/C++软件开发求职面试题必备考点（一） aijuans C/C++求职面试必备考点
找工作在即，以后决定每天至少写一个知识点，主要是记录，逼迫自己动手、总结加深印象。当然如果能有一言半语让他人收益，后学幸运之至也。如有错误，还希望大家帮忙指出来。感激不尽。后学保证每个写出来的结果都是自己在电脑上亲自跑过的，咱人笨，以前学的也半吊子。很多时候只能靠运行出来的结果再反过来
程序员写代码时就不要管需求了吗？ asia007 程序员不能一味跟需求走
编程也有2年了，刚开始不懂的什么都跟需求走，需求是怎样就用代码实现就行，也不管这个需求是否合理，是否为较好的用户体验。当然刚开始编程都会这样，但是如果有了2年以上的工作经验的程序员只知道一味写代码，而不在写的过程中思考一下这个需求是否合理，那么，我想这个程序员就只能一辈写敲敲代码了。我的技术不是很好，但是就不代
Activity的四种启动模式百合不是茶 android 栈模式启动 Activity的标准模式启动栈顶模式启动单例模式启动
android界面的操作就是很多个activity之间的切换,启动模式决定启动的activity的生命周期 ; 启动模式xml中配置 <activity android:name=".MainActivity" android:launchMode="standard&quo
Spring中@Autowired标签与@Resource标签的区别 bijian1013 java spring @Resource @Autowired @Qualifier
Spring不但支持自己定义的@Autowired注解，还支持由JSR-250规范定义的几个注解，如：@Resource、 @PostConstruct及@PreDestroy。 1. @Autowired @Autowired是Spring 提供的，需导入 Package:org.springframewo
Changes Between SOAP 1.1 and SOAP 1.2 sunjing Changes Enable SOAP 1.1 SOAP 1.2
JAX-WS SOAP Version 1.2 Part 0: Primer (Second Edition) SOAP Version 1.2 Part 1: Messaging Framework (Second Edition) SOAP Version 1.2 Part 2: Adjuncts (Second Edition) Which style of WSDL
【Hadoop二】Hadoop常用命令 bit1129 hadoop
以Hadoop运行Hadoop自带的wordcount为例， hadoop脚本位于/home/hadoop/hadoop-2.5.2/bin/hadoop，需要说明的是，这些命令的使用必须在Hadoop已经运行的情况下才能执行 Hadoop HDFS相关命令 hadoop fs -ls 列出HDFS文件系统的第一级文件和第一级
java异常处理（初级）白糖_ java DAO spring 虚拟机 Ajax
从学习到现在从事java开发一年多了，个人觉得对java只了解皮毛，很多东西都是用到再去慢慢学习，编程真的是一项艺术，要完成一段好的代码，需要懂得很多。最近项目经理让我负责一个组件开发，框架都由自己搭建，最让我头疼的是异常处理，我看了一些网上的源码，发现他们对异常的处理不是很重视，研究了很久都没有找到很好的解决方案。后来有幸看到一个200W美元的项目部分源码，通过他们对异常处理的解决方案，我终
记录整理-工作问题 braveCS 工作
1）那位同学还是CSV文件默认Excel打开看不到全部结果。以为是没写进去。同学甲说文件应该不分大小。后来log一下原来是有写进去。只是Excel有行数限制。那位同学进步好快啊。 2）今天同学说写文件的时候提示jvm的内存溢出。我马上反应说那就改一下jvm的内存大小。同学说改用分批处理了。果然想问题还是有局限性。改jvm内存大小只能暂时地解决问题，以后要是写更大的文件还是得改内存。想问题要长远啊
org.apache.tools.zip实现文件的压缩和解压，支持中文 bylijinnan apache
刚开始用java.util.Zip，发现不支持中文（网上有修改的方法，但比较麻烦）后改用org.apache.tools.zip org.apache.tools.zip的使用网上有更简单的例子下面的程序根据实际需求，实现了压缩指定目录下指定文件的方法 import java.io.BufferedReader; import java.io.BufferedWrit
读书笔记-4 chengxuyuancsdn 读书笔记
1、JSTL 核心标签库标签 2、避免SQL注入 3、字符串逆转方法 4、字符串比较compareTo 5、字符串替换replace 6、分拆字符串 1、JSTL 核心标签库标签共有13个，学习资料：http://www.cnblogs.com/lihuiyy/archive/2012/02/24/2366806.html 功能上分为4类： (1)表达式控制标签：out
[物理与电子]半导体教材的一个小问题 comsci 问题
各种模拟电子和数字电子教材中都有这个词汇-空穴书中对这个词汇的解释是; 当电子脱离共价键的束缚成为自由电子之后,共价键中就留下一个空位,这个空位叫做空穴我现在回过头翻大学时候的教材,觉得这个
Flashback Database --闪回数据库 daizj oracle 闪回数据库
Flashback 技术是以Undo segment中的内容为基础的，因此受限于UNDO_RETENTON参数。要使用flashback 的特性，必须启用自动撤销管理表空间。在Oracle 10g中， Flash back家族分为以下成员： Flashback Database， Flashback Drop，Flashback Query(分Flashback Query,Flashbac
简单排序:插入排序 dieslrae 插入排序
public void insertSort(int[] array){ int temp; for(int i=1;i<array.length;i++){ temp = array[i]; for(int k=i-1;k>=0;k--)
C语言学习六指针小示例、一维数组名含义，定义一个函数输出数组的内容 dcj3sjt126com c
# include <stdio.h> int main(void) { int * p; //等价于 int *p 也等价于 int* p; int i = 5; char ch = 'A'; //p = 5; //error //p = &ch; //error //p = ch; //error p = &i; //
centos下php redis扩展的安装配置3种方法 dcj3sjt126com redis
方法一 1.下载php redis扩展包代码如下复制代码 #wget http://redis.googlecode.com/files/redis-2.4.4.tar.gz 2 tar -zxvf 解压压缩包，cd /扩展包（进入扩展包然后运行phpize 一下是我环境中phpize的目录，/usr/local/php/bin/phpize (一定要
线程池(Executors) shuizhaosi888 线程池
在java类库中，任务执行的主要抽象不是Thread，而是Executor，将任务的提交过程和执行过程解耦 public interface Executor { void execute(Runnable command); } public class RunMain implements Executor{ @Override pub
openstack 快速安装笔记 haoningabc openstack
前提是要配置好yum源版本icehouse，操作系统redhat6.5 最简化安装，不要cinder和swift 三个节点 172 control节点keystone glance horizon 173 compute节点nova 173 network节点neutron control /etc/sysctl.conf net.ipv4.ip_forward =
从c面向对象的实现理解c++的对象（二） jimmee C++面向对象虚函数
1. 类就可以看作一个struct，类的方法，可以理解为通过函数指针的方式实现的，类对象分配内存时，只分配成员变量的，函数指针并不需要分配额外的内存保存地址。 2. c++中类的构造函数，就是进行内存分配(malloc)，调用构造函数 3. c++中类的析构函数，就时回收内存(free) 4. c++是基于栈和全局数据分配内存的，如果是一个方法内创建的对象，就直接在栈上分配内存了。专门在
如何让那个一个div可以拖动 lingfeng520240 html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml
第10章高级事件（中） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
计算两个经纬度之间的距离 roadrunners 计算纬度 LBS 经度距离
要解决这个问题的时候，到网上查了很多方案，最后计算出来的都与百度计算出来的有出入。下面这个公式计算出来的距离和百度计算出来的距离是一致的。 /** * * @param longitudeA * 经度A点 * @param latitudeA * 纬度A点 * @param longitudeB *
最具争议的10个Java话题 tomcat_oracle java
1、Java8已经到来。什么！？ Java8 支持lambda。哇哦，RIP Scala！　　随着Java8 的发布，出现很多关于新发布的Java8是否有潜力干掉Scala的争论，最终的结论是远远没有那么简单。Java8可能已经在Scala的lambda的包围中突围，但Java并非是函数式编程王位的真正觊觎者。　　2、Java 9 即将到来　　 Oracle早在8月份就发布
zoj 3826 Hierarchical Notation(模拟) 阿尔萨斯 rar
题目链接：zoj 3826 Hierarchical Notation 题目大意：给定一些结构体，结构体有value值和key值，Q次询问，输出每个key值对应的value值。解题思路：思路很简单，写个类词法的递归函数，每次将key值映射成一个hash值，用map映射每个key的value起始终止位置，预处理完了查询就很简单了。这题是最后10分钟出的，因为没有考虑value为{}的情