不牌不改

【机器学习】主成分分析

有任何的书写错误、排版错误、概念错误等，希望大家包含指正。

维数灾难

在高维情形下出现的数样本稀疏、距离计算困难等问题，是所有机器学习方法共同面临的的严重障碍，被称为“维数灾难”或“维数危机”（curse of dimensionality）。

为了方便思考，我们对离散属性（样本特征）进行分析。属性 $a_1$ 的可选值数量为 $10$ 个，那么想要覆盖整个由 $a_1$ 构成的属性空间，需要 $10$ 个在属性 $a_1$ 取值不同的样本即可；增加一个可选值数量同样为 $10$ 的属性 $a_2$ ，此时属性空间是由 $a_1$ 和 $a_2$ 构成的二维空间，需要 $10^2$ 个在属性 $a_1$ 或属性 $a_2$ 上取值不同的样本。故，对于 $d$ 维属性空间，需要的样本个数为 $10^d$ ，显然覆盖整个属性空间的样本个数是随着维度增加而指数级增长的。

所需样本的个数增长是迅速的，但是实际我们能够拥有的训练样本数量相对较少的，导致训练样本在属性空间中的分布是稀疏的，也更容易找到一个超平面将训练样本分开。因为随着属性数量趋向于无限大，样本密度非常稀疏，训练样本被分错的可能性趋向于零。当我们将高维空间的分类结果映射到低维空间时，会出现一个严重的问题，样本几乎被非线性分类器完美分类，低维中的分类决策面变得非常复杂，甚至出现单个样本与其他样本被决策面隔开的情况，这就是我们常说的“过拟合”现象（over-fitting）。

缓解维数灾难的两个重要途径是降维（dimension reduction）和特征选择（feature selection）。其中降维一般是通过某种数学变换将原始高维属性空间转变为一个低维“子空间”，在这个子空间中样本密度大幅提高，距离计算也变得更为容易。之所以可以进行降维操作，是因为很多时候，人们观测或收集到的数据样本虽然是高维的，但与学习任务密切相关的也许仅是某个低维分布，即高维空间中的一个低维“嵌入”（embedding）。可以理解为尽管观测样本的属性非常多，但是仅需其中的少量属性就可以训练出最佳分类器或预测器。

下面我们将介绍降维中的经典算法，主成分分析（Principal Component Analysis，PCA）。

主成分分析

主成分分析的主要思想是，首先对给定样本进行中心化，使得样本的每一个属性的均值变为 $0$ 。之后对样本进行正交变换，原来由线性相关变量表示的样本，通过正交变换变成若干个线性无关的新（抽象）属性表示的样本。新属性是可能的正交变换中原属性的方差和（信息保存）最大的，方差表示在新属性上信息的大小。。将新变量依次称为第一主成分、第二主成分等。这就是主成分分析的基本思想。通过主成分分析，可以利用主成分近似地表示原始数据，这可理解为发现数据的"基本结构" ；也可以把数据由少数主成分表示，这可理解为对数据降维。

注意：

主成分分析的第一步，也可以选择对原始数据进行标准化，而不是中心化，下面公式的推导采用的是中心化；

原样本经过正交变换后，得到的新属性一般是没有具体含义的，或者是我们无法用语言理解的，故称为抽象属性；

在信息论中，数据越混乱提供的信息越多，因为方差是对变量混乱程度的表达，所以方差越大，保留的信息量越大；

降维是通过选出几个主成分来实现的，如果选出全部主成分就起不到我们想要的降维效果了。

几何解释

下面给出主成分分析的直观解释。假设存在一些二维样本，对这些样本进行进行中心化（或规范化）后如图 $1$ 左子图所示。主成分分析希望找到若干正交坐标轴，使样本在新坐标系下的方差尽可能大。对比图 $1$ 右子图的 $b_1$ 轴和 $b_2$ 轴，显然将样本投影到 $b_2$ 轴比投影到 $b_1$ 轴更加聚集，保留的信息也就更少。极端一点来理解，如果样本投影到 $b_1$ 轴没有发生任何重叠，但是投影到 $b_2$ 轴的样本完全重叠成一个点，对比两种投影方式，想要通过投影后的样本恢复得到原始样本信息，用投影到 $b_1$ 轴的样本进行恢复会更加准确。

当然，在选取投影面（轴）时不能仅仅对比 $b_1$ 和 $b_2$ 两个轴，而是从全部可能的轴中选择最佳的轴。从下图中可以看到我们认为 $b_1$ 是最佳的轴，获取到的第一个轴 $b_1$ 被称为第一主成分。接下来是确定第二、三、…… 主成分，次主属性要在保证与前面全部主成分正交的前提下投影方差最大，之所以要求正交，是因为希望新属性线性无关。对于图 $1$ 的二维样本而言，确定了第一主成分 $b_1$ 后，只能选择唯一的与 $b_1$ 正交的 $b_2$ 作为第二主成分，且仅包括这两个主成分。

图 1 主成分分析的示例

再看看最大方差的几何解释。假设有两个属性 $a_1$ 和 $a_2$ ，三个样本点 $A$ 、 $B$ 和 $C$ ，样本分布在由 $a_1$ 和 $a_2$ 组成的坐标系中，如图 $2$ 所示。对坐标系进行旋转变换，得到新的坐标轴 $b_1$ ，表示新的属性 $b_1$ 。样本点 $A$ 、 $B$ 、 $C$ 在 $b_1$ 轴上投影，得到 $b_1$ 轴的坐标值 $A^{'}$ 、 $B^{'}$ 、 $C^{'}$ 。坐标值的平方和 $OA'^2 + OB'^2 + OC'^2$ 表示样本在新属性上的方差和。主成分分析旨在选取正交变换中方差最大的变量，作为第一主成分，也就是旋转变换中坐标值的平方和最大的轴。注意到旋转变换中样本点到原点的距离的平方和 $OA^2 + OB^2 + OC^2$ 保持不变，根据勾股定理，坐标值的平方和 $OA'^2 + OB'^2 + OC'^2$ 最大等价于样本点到 $b_1$ 轴的距离的平方和 $AA'^2 + BB'^2 + CC'^2$ 最小。所以，等价地，主成分分析在旋转变换中选取离样本点的距离平方和最小的轴，作为第一主成分。第二主成分等的选取，在保证与己选坐标轴正交的条件下，类似地进行。

因为已经对原坐标系下的样本进行了中心化，所以在计算投影后样本在 $b_1$ 上的方差时，无需再进行中心化，此时的坐标值已经是中心化后的值了，故直接平方再累加就是样本方差。具体证明也非常简单，不再展示。

严谨的来说，样本方差的平方项系数应该为 $\frac{1}{n-1}$ ，数据总体方差的平方项系数应该为 $\frac{1}{n}$ ，但是我们有时候会忽略系数，并且讨论”数据总体“而不是”样本“，这些约定都是为了方便处理和理解，所以见到忽略系数的方差也不要差异，它们只是相差一个倍数。

图 2 主成分的几何解释

两个角度

上面仅从几何角度解释了 PCA 的思想，接下来我们从”最大投影方差“和”最小重构代价“两个角度来介绍数学推导。

首先我们规定常用符号。数据集 $D=\{(x_1,y_1),(x_2,y_2),\dots,(x_n,y_n)\}$ ，向量 $x_i\in\mathbb{R}^p$ 为样本， $y_i\in \mathbb R$ 为标签， $i=1,2,\dots,n$ ； $W\in \mathbb R^p$ 为模型参数（权重）。

记
$\left( \begin{matrix} x_1 & x_2 & \dots & x_n \end{matrix} \right)^T =\left( \begin{matrix} x_1^T \\ x_2^T \\ \vdots \\ x_n^T \end{matrix} \right) =\left( \begin{matrix} x_{11} & x_{12} & \dots & x_{1p} \\ x_{21} & x_{22} & \dots & x_{2p} \\ \vdots & \vdots & & \vdots \\ x_{n1} & x_{n2} & \dots & x_{np} \\ \end{matrix} \right)_{n\times p} \\ \\ Y=\left( \begin{matrix} y_1 & y_2 & \dots & y_n \end{matrix} \right)^T_{n\times 1}$

令
$1_n = \left(\begin{matrix} 1 \\ 1 \\ \vdots \\ 1 \end{matrix}\right)$
那么，样本均值可以表示为
$\begin{aligned} \bar X_{p\times 1}&=\frac{1}{n}\sum_{i=1}^nx_i\\ &=\frac{1}{n} \left( \begin{matrix} x_1 & x_2 & \dots & x_n \end{matrix} \right)\left(\begin{matrix} 1 \\ 1 \\ \vdots \\ 1 \end{matrix}\right)\\ &=\frac{1}{n}X^T1_n \end{aligned}$
样本方差（协方差矩阵）表示为
$\begin{aligned} S_{p\times p} &= \frac{1}{n}\sum_{i=1}^n (x_i-\bar X)(x_i - \bar X)^T \\ &=\frac{1}{n} \left(\begin{matrix} x_1 - \bar X & x_2-\bar X & \dots & x_n-\bar X\end{matrix}\right) \left(\begin{matrix} (x_1-\bar X)^T \\ (x_2 - \bar X)^T \\ \vdots \\ (x_n-\bar X)^T \end{matrix}\right)\\ &= \frac{1}{n} \big(\left(\begin{matrix} x_1 & x_2 & \dots & x_n \end{matrix}\right) -\bar X1_n^T\big) \big(\left(\begin{matrix} x_1^T \\ x_2^T \\ \vdots \\ x_n^T \end{matrix}\right)-1_n \bar X^T \big)\\ &=\frac{1}{n} (X^T - \bar X1_n^T)(X-1_n\bar X^T) \\ &=\frac{1}{n} (X^T - \frac{1}{n} X^T1_n1_n^T)(X-\frac{1}{n}1_n1_n^TX) \\ &=\frac{1}{n} X^T(I_n - \frac{1}{n} 1_n1_n^T)(I_n-\frac{1}{n}1_n1_n^T)X \\ \end{aligned}$
令
$H=I_n-\frac{1}{n} 1_n1_n^T$

矩阵 $H$ 称为中心化矩阵，其作用是通过数据左乘 $H$ 实现将一组数据中心化，即 $H X$ 。

矩阵 $H$ 具有如下性质：

$H^T=(I_n-\frac{1}{n} 1_n1_n^T)^T = (I_n-\frac{1}{n}1_n1_n^T)=H$

$H^2=H$

证明：
$\begin{aligned} H^2 &=(I_n-\frac{1}{n} 1_n1_n^T )(I_n-\frac{1}{n} 1_n1_n^T )\\ &=I_n-\frac{2}{n}1_n1_n^T + \frac{1}{n^2}1_n1_n^T1_n1_n^T \end{aligned}$
其中 $1_n1_n^T1_n1_n^T=1_n(1_n^T1_n)1_n^T=n1_n1_n^T$ 为元素全是 $n$ 的矩阵

可得
$\frac{1}{n^2}1_n1_n^T1_n1_n^T = \frac{1}{n}\left(\begin{matrix} 1 & 1 & \dots & 1 \\ 1& 1 &\dots & 1 \\ \vdots & \vdots & & \vdots \\1 & 1 & \dots & 1 \end{matrix}\right) \\ \frac{2}{n}1_n1_n^T = \frac{2}{n}\left(\begin{matrix} 1 & 1 & \dots & 1 \\ 1& 1 &\dots & 1 \\ \vdots & \vdots & & \vdots \\1 & 1 & \dots & 1 \end{matrix}\right) \\$
故
$H^2=I_n - \frac{1}{n}\left(\begin{matrix} 1 & 1 & \dots & 1 \\ 1& 1 &\dots & 1 \\ \vdots & \vdots & & \vdots \\1 & 1 & \dots & 1 \end{matrix}\right) = I_n - \frac{1}{n}1_n1_n^T = H$

将 $H$ 代入 $S$ 中得
$\frac{1}{n}X^THHX=\frac{1}{n}X^THX$

最大投影方差

上面提到 PCA 是希望找到方差最大的投影面，假设我们要找的第一主成分为 $u_1$ ，满足 $u_1||_2=1$ 。将中心化后的样本 $x_i'=x_i-\bar X$ 投影到 $u_1$ 上的值的含义为样本 $x^{'}$ 在轴 $u_1$ 上的分量或坐标值，即 $x'^Tu_1$ 。对于已经中心化的数据来说，将投影后的数据依然是中心化的，那么投影后的这些样本在 $u_1$ 轴上坐标值的方差为 $\frac{1}{n}(x'^Tu_1)^2$ 。

根据最大投影方差的思想，定义损失函数
$\frac{1}{n} \sum_{i=1}^n \big((x_i-\bar X)^Tu_1\big )^2 \\ s.t.\space\space\space\space u_1^Tu_1=1$
其中， $J$ 可以进一步变形
$\begin{aligned} J &= \frac{1}{n}\sum_{i=1}^n \big((x_i-\bar X)^Tu_1\big )^T\big((x_i-\bar X)^Tu_1\big ) \\ &= \frac{1}{n} \sum_{i=1}^n u_1^T(x_i-\bar X)(x_i-\bar X)u_1 \\ &= u_1^T\big(\frac{1}{n} \sum_{i=1}^n(x_i-\bar X)(x_i-\bar X)^T \big) u_1 \\ &=u_1^TSu_1 \end{aligned}$
最大化投影后的方差就是最大化损失函数，所以
$\hat u_1 = {\rm arg}\max_{u_1} \space u_1^TSu_1 \tag{1}\\ s.t.\space\space\space\space u_1^Tu_1=1$
定义拉格朗日函数
$L(u_1, \lambda) = u_1^TSu_1+\lambda(1-u_1^Tu_1)$
对 $u_1$ 计算偏导，得
$\frac{\partial L}{\partial u_1}=2Su_1-2\lambda u_1$
令偏导等于 $0$ ，得
$\begin{aligned} Su_1 &= \lambda u_1 \\ u_1^TSu_1&= \lambda \tag{2} \end{aligned}$
可见， $\lambda$ 为协方差矩阵 $S$ 的特征值， $u_1$ 既是特征向量也是第一主成分。式 $(1)$ 中的 $u_1^TSu_1$ 为我们要最大化的目标，亦式 $(2)$ 的左侧部分，因此最大的特征值 $\lambda_1$ 对应的特征向量 $u_1$ 为第一主成分。

接着求第二主成分 $u_2$ ，第二主成分不仅要保证 $u_2||_2=1$ ，而且需要满足与第一主成分正交，即 $u_2^Tu_1=0$ 。对应式 $(1)$ 可得
$\hat u_2 = {\rm arg}\max_{u_2} \space u_2^TSu_2 \\ s.t.\space\space\space\space u_2^Tu_2=1,\space\space\space\space u^T_2u_1=0$
定义拉格朗日函数
$L(u_2, \lambda, \phi) = u_2^TSu_2 + \lambda(1-u_2^Tu_2)-\phi u_2^Tu_1$

注意，此时 $u_1$ 已经计算出来了，是已知的。

对 $u_2$ 计算偏导，并令其等于 $0$ ，得
$2Su_2 - 2\lambda u_2-\phi u_1=0 \tag{3}$
将方程左乘 $u_1^T$ 有
$2u_1^TSu_2 - 2\lambda u_1^Tu_2-\phi u_1^Tu_1=0$
此式前两项为 $0$ ，且 $u_1^Tu_1=1$ ，导出 $\phi=0$ ，因此式 $(3)$ 变为
$Su_2-\lambda u_2=0 \\ u_2^TSu_2=\lambda$
这与式 $(2)$ 类似，可以认为第二主成分为第二大特征值 $\lambda_2$ 对应的单位向量 $u_2$ 。

按照上面的方法我们可以递推的求得第一、第二、直到第 $p$ 主成分，分别为 $u_1$ ， $u_2$ ， $. . .$ ， $u_p$ ，对应协方差矩阵 $S$ 的按对应特征值从大到小排列的特征向量。并且，第 $k$ 主成分的方差等于 $S$ 的第 $k$ 个特征值。

整体看一下，对协方差矩阵进行特征值分解，分解得到的特征值表示样本投影到不同坐标轴上的方差，方差越大说明投影后样本的信息保留越完整，因此，我们可以选出最大的若干个特征值对应的特征向量作为坐标轴，将样本投影到新的低维坐标系中，从而实现降维。

最小重构代价

就像之前提到的，若投影后数据越分散，则重构越容易；若数据越集中，甚至重合到一个点，便很难重构回去。因此最小重构代价的思想也是在寻找投影后数据最分散的坐标轴。

中心化后的样本 $x_i'=x_i-\bar X$ ， $x'_i$ 在新坐标系中可以表示为每个坐标轴上的坐标值 $x_i'^Tu_k$ 与标准基向量 $u_k$ 的乘积之和，即 $x_i' = \sum_{k=1}^p (x_i'^Tu_k)u_k$ 。假设特征向量 $u_i$ 按照特征值 $λ_i$ 从大到小排列， $u_1$ 对应的 $λ_1$ 最大， $u_p$ 对应的 $λ_p$ 最小。我们将样本从 $p$ 维降至 $q\space(qq (q<p)$

最小重构代价的思想是将降维后的 $\hat x_i'$ 还原为 $x_i'$ 所需代价最小，我们用二者的相似程度来度量代价，相似程度的度量方式为二范数平方。故，损失函数为
$\begin{aligned} J&=\frac{1}{n}\sum_{i=1}^n || x'_i - \hat x_i' ||_2^2\\ &=\frac{1}{n}\sum_{i=1}^n|| \sum_{k=1}^p (x_i'^Tu_k)u_k - \sum_{k=1}^q (x_i'^Tu_k)u_k ||_2^2 \\ &=\frac{1}{n}\sum_{i=1}^n|| \sum_{k=q+1}^p (x_i'^Tu_k)u_k ||_2^2 \\ \end{aligned}$
我们注意到 $\sum_{k=q+1}^p (x_i'^Tu_k)u_k$ 是一个向量，可以理解为该向量是在标准正交基 $\{u_k\}\space (k=q+1,\dots,p)$ 构成的坐标系中坐标为 $\big(x_i'^Tu_{q+1},x_i'^Tu_{q+2},\dots,x_i'^Tu_p\big)$ 的向量。在标准正交基下，对该向量求二范数的平方可以简化表示坐标值的平方和，即 $||\sum_{k=q+1}^p (x_i'^Tu_k)u_k||_2^2=\sum_{k=q+1}^p(x_i'^Tu_k)^2$ 。因此，损失函数变为
$\begin{aligned} J&=\frac{1}{n}\sum_{i=1}^n\sum_{k=q+1}^p(x_i'^Tu_k)^2 \\ &= \sum_{k=q+1}^p\frac{1}{n}\sum_{i=1}^n(x_i'^Tu_k)^2 \\ &= \sum_{k=q+1}^p\frac{1}{n}\sum_{i=1}^n((x_i-\bar X)^Tu_k)^2 \\ &= \sum_{k=q+1}^p u_k^T\Big(\frac{1}{n}\sum_{i=1}^n(x_i-\bar X)(x_i-\bar X)^T \Big)u_k\\ &= \sum_{k=q+1}^p u_k^T S u_k \end{aligned}$
最佳投影面为
$\hat u_k = {\rm arg}\min_{u_k}\sum_{k=q+1}^p u_k^TS u_k\\ s.t.\space\space\space\space u_k^Tu_k=1\space\space (k=q+1,q+2,\dots,p)$
由于 $u_k$ 相互独立，因此可以转换为多个 ${\rm arg}\min u_k^TSu_k$ 的带约束优化问题，对每一个优化问题单独求解
$\hat u_k = {\rm arg}\min_{u_k} u_k^TS u_k\\ s.t.\space\space\space\space u_k^Tu_k=1$
使用拉格朗日乘数法可以得到
$u_k^TSu_k=\lambda_k$
其中， $\lambda_k$ 表示协方差矩阵 $S$ 第 $k$ 大特征值。损失函数 $J$ 可以进一步化为
$\begin{aligned} J&=\sum_{k=q+1}^p u_k^TSu_k \\ &=\sum_{k=q+1}^p\lambda_k \end{aligned}$
这与“最大投影方差”中选出最大的 $q$ 个特征值对应的特征向量作为投影面类似，“最小重构代价”是丢弃最小的 $p - q$ 个特征值对应的特征向量，剩下的特征向量作为投影面，也就是对公式中最大化和最小化的理解。

算法流程

PCA 算法流程非常简洁。

$\begin{array}{ll} \textbf{输入:}&\space样本集\space D = \{\pmb x_1,\pmb x_2,···,\pmb x_n\}\space ;&&&&&&&\\ &\space 低维空间维数 \space q\space.\\ \textbf{过程:} \end{array}$

$\begin{array}{rl} 1:&对所有样本进行中心化:\space x_i\leftarrow x_i-\frac{1}{n}\sum_{i=1}^n x_i\space;\\ 2:&计算样本的协方差矩阵 \space XX^T\space;\\ 3:& 对协方差矩阵\space XX^T\space 做特征值分解\space; \\ 4:&取最大的 \space q \space个特征值所对应的特征向量 \space u_1,u_2,\dots,u_q\\ \end{array}$

$\begin{array}{l} \textbf{输出:}\space 投影矩阵\space W=(u_1,u_2,···,u_k) &&&&&&&& \end{array}$

算法 1 PCA 算法

其实也可以通过奇异值分解来实现 PCA 算法。首先，将数据 $X$ 中心化得到 $H X$ ，直接对 $H X$ 进行奇异值分解 $U\Sigma V^T$ 。其中， $V$ 便是 PCA 算法中协方差矩阵 $S$ 的特征向量， $\Sigma^T\Sigma$ 为特征值矩阵。

证明也非常简单。已知
$\frac{1}{n} X^THX$
利用 $H$ 的对称性和幂等性， $S$ 进一步化为
$\begin{aligned} S &= \frac{1}{n} X^TH^THX \\ &=\frac{1}{n} (HX)^THX \\ &= (U\Sigma V^T) U\Sigma V^T \\ &= V\Sigma ^TU^TU\Sigma V^T \\ &= V\Sigma^T\Sigma V^T \end{aligned}$
由于 $\Sigma^T\Sigma$ 为对角半正定矩阵，故
$\begin{aligned} S &= V\Sigma^T\Sigma V^T \\ SV &= V(\Sigma^T\Sigma) \\ SV &= (\Sigma^T\Sigma) V \end{aligned}$
可见，这与 PCA 中对协方差矩阵进行特征值分解等价。PCA 算法流程甚至可以减少至三步，当然，步数越少并不意味着效率更高，具体使用看具体场景。

主成分的个数

具体选择 $q$ 的方法，通常利用方差贡献率。记全部样本在原坐标系下第 $k$ 维分量，亦第 $k$ 维属性，为 $a_k$
$a_k= \left(\begin{matrix} x_{1k}\\ x_{2k}\\ \vdots \\ x_{nk} \end{matrix}\right)_{n\times1}$
全部样本在第 $k$ 主成分的分量为 $\hat a_k$
$\hat a_k = \left(\begin{matrix} x_1^Tu_k\\ x_2^Tu_k\\ \vdots \\ x_n^Tu_k \end{matrix}\right)_{n\times1}$
第 $q$ 主成分分量的方差贡献率定义为第 $q$ 个主成分分量的方差与所有方差之和的比，记作 $\eta_q$
$\eta_q = \frac{\lambda_q}{\sum_{i=1}^p \lambda_i}$
其中， $\lambda_k$ 表示协方差矩阵 $S$ 的第 $k$ 大特征值。

前 $q$ 个主成分分量的累计方差贡献率定义为 $q$ 个方差之和与所有方差之和的比
$\sum_{i=1}^q\eta_i = \frac{\sum_{i=1}^q\lambda_i}{\sum_{i=1}^q\lambda_i}$
通常取 $q$ 使得累计方差贡献率达到规定的百分比以上，例如 70%~80% 以上。累计方差贡献率反映了数据在主成分上保留信息的比例，但它不能反映对某个原有属性 $a_i$ 保留信息的比例，这时通常利用数据在前 $q$ 个主成分投影值对原有属性 $a_i$ 的贡献率。

这句话的含义为，累积方差贡献直接度量的是方差大小，即降维保留了多少主成分信息，但是主成分信息又不能与属性信息直接划等，因此度量属性信息的保留程度也非常有必要。

前 $q$ 个主成分分量 $\hat a_1,\hat a_2,\dots,\hat a_q$ 对原有属性 $a_i$ 的贡献率定义为 $a_i$ 与 $(\hat a_1,\hat a_2,\dots,\hat a_q)$ 的相关系数的平方，记作 $\mathcal{V}_i$
$\mathcal{V}_i = \rho^2\big( a_i, (\hat a_1,\hat a_2,\dots,\hat a_q) \big)$
计算公式为
$\mathcal{V}_i = \rho^2\big( a_i, (\hat a_1,\hat a_2,\dots,\hat a_q) \big)=\sum_{j=1}^q\rho^2(a_i,\hat a_j)$
因为
$\rho(a_i,\hat a_j) = \frac{{\rm cov}(a_i, \hat a_j)}{\sqrt{{\rm var}(a_i){\rm var}(\hat a_j)}}=\frac{{\rm cov}(Xe_i,Xu_j)}{\sqrt{\sigma_{ii}}\sqrt{\lambda_j}}$
其中， $e_i$ 为基本单位向量，其第 $i$ 个分量为 $1$ ，其余为 $0$ ； $\sigma_{ii}$ 表示协方差矩阵 $S$ 第 $i$ 行第 $i$ 列元素。再由协方差的性质
${\rm cov}(Xe_i,Xu_j)=e_i^TSu_j = \lambda_je^T_iu_j=\lambda_ju_{ij}$
因此
$\rho(a_i,\hat a_j) =\frac{\sqrt{\lambda_j}u_{ij}}{\sqrt{\sigma_{ii}}}$
故 $\mathcal{V}_i$ 可以进一步变化为
$\mathcal{V}_i = \sum_{j=1}^q\rho^2(a_i,\hat a_j)=\sum_{j=1}^q\frac{\lambda_j u_{ij}^2}{\sigma_{ii}}$
计算原有属性 $a_i$ 和降维后的 $q$ 个主成分分量的相关系数平方之和，可以感性地理解为，投影后每个分量都可能与原有属性存在一定的相关性，可能密切相关，可能完全无关，采用相关系数度量原有属性与每个分量的相关性，对它们平方求和，累积全部相关性作为对原有属性 $a_i$ 的保留程度。

REF

[1] 《统计学习方法（第二版）》李航著

[2] 《机器学习》周志华著

[3] 机器学习-降维 - bilibili

[4] 机器学习-白板推导系列(五)-降维（Dimensionality Reduction）笔记 - 知乎

[5] The Curse of Dimensionality in Classification

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
k均值聚类算法考试例题_k均值算法(k均值聚类算法计算题) 寻找你83497 k均值聚类算法考试例题
?算法：第一步：选K个初始聚类中心，z1(1),z2(1)，…，zK(1)，其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定，例如可选开始的K个.k均值聚类：---------一种硬聚类算法，隶属度只有两个取值0或1，提出的基本根据是“类内误差平方和最小化”准则；模糊的c均值聚类算法：--------一种模糊聚类算法，是.K均值聚类算法是先随机选取K个对象作为初始的聚类
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
数据结构 | 栈和队列 TT-Kun 数据结构与算法数据结构栈队列 C语言
文章目录栈和队列1.栈：后进先出（LIFO）的数据结构1.1概念与结构1.2栈的实现2.队列：先进先出（FIFO）的数据结构2.1概念与结构2.2队列的实现3.栈和队列算法题3.1有效的括号3.2用队列实现栈3.3用栈实现队列3.4设计循环队列结论栈和队列在计算机科学中，栈和队列是两种基本且重要的数据结构，它们在处理数据存储和访问顺序方面有着独特的规则和应用。本文将详细介绍栈和队列的概念、结构、实
[Python] 数据结构详解及代码 AIAdvocate 算法 python 数据结构链表
今日内容大纲介绍数据结构介绍列表链表1.数据结构和算法简介程序大白话翻译,程序=数据结构+算法数据结构指的是存储,组织数据的方式.算法指的是为了解决实际业务问题而思考思路和方法,就叫:算法.2.算法的5大特性介绍算法具有独立性算法是解决问题的思路和方式,最重要的是思维,而不是语言,其(算法)可以通过多种语言进行演绎.5大特性有输入,需要传入1或者多个参数有输出,需要返回1个或者多个结果有穷性,执行
Python算法L5：贪心算法小熊同学哦 Python算法算法 python 贪心算法
Python贪心算法简介目录Python贪心算法简介贪心算法的基本步骤贪心算法的适用场景经典贪心算法问题1.**零钱兑换问题**2.**区间调度问题**3.**背包问题**贪心算法的优缺点优点：缺点：结语贪心算法（GreedyAlgorithm）是一种在每一步选择中都采取当前最优或最优解的算法。它的核心思想是，在保证每一步局部最优的情况下，希望通过贪心选择达到全局最优解。虽然贪心算法并不总能得到全
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
【RabbitMQ 项目】服务端：数据管理模块之绑定管理月夜星辉雪 rabbitmq 分布式
文章目录一.编写思路二.代码实践一.编写思路定义绑定信息类交换机名称队列名称绑定关键字：交换机的路由交换算法中会用到没有是否持久化的标志，因为绑定是否持久化取决于交换机和队列是否持久化，只有它们都持久化时绑定才需要持久化。绑定就好像一根绳子，两端连接着交换机和队列，当一方不存在，它就没有存在的必要了定义绑定持久化类构造函数：如果数据库文件不存在则创建，打开数据库，创建binding_table插入
非对称加密算法原理与应用2——RSA私钥加密文件私语茶馆云部署与开发架构及产品灵感记录 RSA2048 私钥加密
作者：私语茶馆1.相关章节（1）非对称加密算法原理与应用1——秘钥的生成-CSDN博客第一章节讲述的是创建秘钥对，并将公钥和私钥导出为文件格式存储。本章节继续讲如何利用私钥加密内容，包括从密钥库或文件中读取私钥，并用RSA算法加密文件和String。2.私钥加密的概述本文主要基于第一章节的RSA2048bit的非对称加密算法讲述如何利用私钥加密文件。这种加密后的文件，只能由该私钥对应的公钥来解密。
粒子群优化 (PSO) 在三维正弦波函数中的应用 subject625Ruben 机器学习人工智能 matlab 算法
在这篇博客中，我们将展示如何使用粒子群优化（PSO）算法求解三维正弦波函数，并通过增加正弦波扰动，使优化过程更加复杂和有趣。本文将介绍目标函数的定义、PSO参数设置以及算法执行的详细过程，并展示搜索空间中的动态过程和收敛曲线。1.目标函数定义我们使用的目标函数是一个三维正弦波函数，定义如下：objectiveFunc=@(x)sin(sqrt(x(1).^2+x(2).^2))+0.5*sin(5
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
非对称加密算法————RSA理论及详情 hu19930613
转自：https://www.kancloud.cn/kancloud/rsa_algorithm/48484一、一点历史1976年以前，所有的加密方法都是同一种模式：（1）甲方选择某一种加密规则，对信息进行加密；（2）乙方使用同一种规则，对信息进行解密。由于加密和解密使用同样规则（简称"密钥"），这被称为"对称加密算法"（Symmetric-keyalgorithm）。这种加密模式有一个最大弱点
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
Js函数返回值 _wy_ js return
一、返回控制与函数结果，语法为：return 表达式;作用: 结束函数执行，返回调用函数，而且把表达式的值作为函数的结果二、返回控制语法为：return;作用: 结束函数执行，返回调用函数，而且把undefined作为函数的结果在大多数情况下,为事件处理函数返回false,可以防止默认的事件行为.例如,默认情况下点击一个<a>元素,页面会跳转到该元素href属性
MySQL 的 char 与 varchar bylijinnan mysql
今天发现，create table 时，MySQL 4.1有时会把 char 自动转换成 varchar 测试举例： CREATE TABLE `varcharLessThan4` ( `lastName` varchar(3) ) ; mysql> desc varcharLessThan4; +----------+---------+------+-
Quartz——TriggerListener和JobListener eksliang TriggerListener JobListener quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208624 一.概述 listener是一个监听器对象，用于监听scheduler中发生的事件，然后执行相应的操作；你可能已经猜到了，TriggerListeners接受与trigger相关的事件，JobListeners接受与jobs相关的事件。二.JobListener监听器 j
oracle层次查询 18289753290 oracle；层次查询；树查询
.oracle层次查询(connect by) oracle的emp表中包含了一列mgr指出谁是雇员的经理，由于经理也是雇员，所以经理的信息也存储在emp表中。这样emp表就是一个自引用表，表中的mgr列是一个自引用列，它指向emp表中的empno列，mgr表示一个员工的管理者， select empno,mgr,ename,sal from e
通过反射把map中的属性赋值到实体类bean对象中酷的飞上天空 javaee 泛型类型转换
使用过struts2后感觉最方便的就是这个框架能自动把表单的参数赋值到action里面的对象中但现在主要使用Spring框架的MVC，虽然也有@ModelAttribute可以使用但是明显感觉不方便。好吧，那就自己再造一个轮子吧。原理都知道，就是利用反射进行字段的赋值，下面贴代码主要类如下： import java.lang.reflect.Field; imp
SAP HANA数据存储：传统硬盘的瓶颈问题蓝儿唯美 HANA
SAPHANA平台有各种各样的应用场景，这也意味着客户的实施方法有许多种选择，关键是如何挑选最适合他们需求的实施方案。在《Implementing SAP HANA》这本书中，介绍了SAP平台在现实场景中的运作原理，并给出了实施建议和成功案例供参考。本系列文章节选自《Implementing SAP HANA》，介绍了行存储和列存储的各自特点，以及SAP HANA的数据存储方式如何提升空间压
Java Socket 多线程实现文件传输随便小屋 java socket
高级操作系统作业，让用Socket实现文件传输，有些代码也是在网上找的，写的不好，如果大家能用就用上。客户端类： package edu.logic.client; import java.io.BufferedInputStream; import java.io.Buffered
java初学者路径 aijuans java
学习Java有没有什么捷径?要想学好Java，首先要知道Java的大致分类。自从Sun推出Java以来，就力图使之无所不包，所以Java发展到现在，按应用来分主要分为三大块：J2SE,J2ME和J2EE,这也就是Sun ONE(Open Net Environment)体系。J2SE就是Java2的标准版，主要用于桌面应用软件的编程；J2ME主要应用于嵌入是系统开发，如手机和PDA的编程；J2EE
APP推广 aoyouzi APP 推广
一，免费篇 1，APP推荐类网站自主推荐最美应用、酷安网、DEMO8、木蚂蚁发现频道等,如果产品独特新颖，还能获取最美应用的评测推荐。PS：推荐简单。只要产品有趣好玩，用户会自主分享传播。例如足迹APP在最美应用推荐一次，几天用户暴增将服务器击垮。 2，各大应用商店首发合作老实盯着排期，多给应用市场官方负责人献殷勤。 3，论坛贴吧推广百度知道，百度贴吧，猫扑论坛，天涯社区，豆瓣（
JSP转发与重定向百合不是茶 jsp servlet Java Web jsp转发
在servlet和jsp中我们经常需要请求,这时就需要用到转发和重定向; 转发包括;forward和include 例子;forwrad转发; 将请求装法给reg.html页面关键代码; req.getRequestDispatcher("reg.html
web.xml之jsp-config bijian1013 java web.xml servlet jsp-config
1.作用：主要用于设定JSP页面的相关配置。 2.常见定义： <jsp-config> <taglib> <taglib-uri>URI(定义TLD文件的URI,JSP页面的tablib命令可以经由此URI获取到TLD文件)</tablib-uri> <taglib-location> TLD文件所在的位置
JSF2.2 ViewScoped Using CDI sunjing CDI JSF 2.2 ViewScoped
JSF 2.0 introduced annotation @ViewScoped; A bean annotated with this scope maintained its state as long as the user stays on the same view(reloads or navigation - no intervening views). One problem w
【分布式数据一致性二】Zookeeper数据读写一致性 bit1129 zookeeper
很多文档说Zookeeper是强一致性保证，事实不然。关于一致性模型请参考http://bit1129.iteye.com/blog/2155336 Zookeeper的数据同步协议 Zookeeper采用称为Quorum Based Protocol的数据同步协议。假如Zookeeper集群有N台Zookeeper服务器(N通常取奇数，3台能够满足数据可靠性同时
Java开发笔记白糖_ java开发
1、Map<key,value>的remove方法只能识别相同类型的key值 Map<Integer,String> map = new HashMap<Integer,String>(); map.put(1,"a"); map.put(2,"b"); map.put(3,"c"
图片黑色阴影 bozch 图片
.event{ padding:0; width:460px; min-width: 460px; border:0px solid #e4e4e4; height: 350px; min-heig
编程之美-饮料供货-动态规划 bylijinnan 动态规划
import java.util.Arrays; import java.util.Random; public class BeverageSupply { /** * 编程之美饮料供货 * 设Opt（V’，i）表示从i到n-1种饮料中，总容量为V’的方案中，满意度之和的最大值。 * 那么递归式就应该是：Opt（V’，i）=max{ k * Hi+Op
ajax大参数（大数据）提交性能分析 chenbowen00 Web Ajax 框架浏览器 prototype
近期在项目中发现如下一个问题项目中有个提交现场事件的功能，该功能主要是在web客户端保存现场数据（主要有截屏，终端日志等信息）然后提交到服务器上方便我们分析定位问题。客户在使用该功能的过程中反应点击提交后反应很慢，大概要等10到20秒的时间浏览器才能操作，期间页面不响应事件。根据客户描述分析了下的代码流程，很简单，主要通过OCX控件截屏，在将前端的日志等文件使用OCX控件打包，在将之转换为
[宇宙与天文]在太空采矿,在太空建造 comsci
我们在太空进行工业活动...但是不太可能把太空工业产品又运回到地面上进行加工,而一般是在哪里开采,就在哪里加工,太空的微重力环境,可能会使我们的工业产品的制造尺度非常巨大.... 地球上制造的最大工业机器是超级油轮和航空母舰,再大些就会遇到困难了,但是在空间船坞中,制造的最大工业机器,可能就没
ORACLE中CONSTRAINT的四对属性 daizj oracle CONSTRAINT
ORACLE中CONSTRAINT的四对属性 summary:在data migrate时,某些表的约束总是困扰着我们,让我们的migratet举步维艰,如何利用约束本身的属性来处理这些问题呢?本文详细介绍了约束的四对属性: Deferrable/not deferrable, Deferred/immediate, enalbe/disable, validate/novalidate,以及如
Gradle入门教程 dengkane gradle
一、寻找gradle的历程一开始的时候，我们只有一个工程，所有要用到的jar包都放到工程目录下面，时间长了，工程越来越大，使用到的jar包也越来越多，难以理解jar之间的依赖关系。再后来我们把旧的工程拆分到不同的工程里，靠ide来管理工程之间的依赖关系，各工程下的jar包依赖是杂乱的。一段时间后，我们发现用ide来管理项程很不方便，比如不方便脱离ide自动构建，于是我们写自己的ant脚本。再后
C语言简单循环示例 dcj3sjt126com c
# include <stdio.h> int main(void) { int i; int count = 0; int sum = 0; float avg; for (i=1; i<=100; i++) { if (i%2==0) { count++; sum += i; } } avg
presentModalViewController 的动画效果 dcj3sjt126com controller
系统自带(四种效果)： presentModalViewController模态的动画效果设置： [cpp] view plain copy UIViewController *detailViewController = [[UIViewController al
java 二分查找 shuizhaosi888 二分查找 java二分查找
需求：在排好顺序的一串数字中，找到数字T 一般解法：从左到右扫描数据，其运行花费线性时间O(N)。然而这个算法并没有用到该表已经排序的事实。 /** * * @param array * 顺序数组 * @param t * 要查找对象 * @return */ public stati
Spring Security（07）——缓存UserDetails 234390216 ehcache 缓存 Spring Security
Spring Security提供了一个实现了可以缓存UserDetails的UserDetailsService实现类，CachingUserDetailsService。该类的构造接收一个用于真正加载UserDetails的UserDetailsService实现类。当需要加载UserDetails时，其首先会从缓存中获取，如果缓存中没
Dozer 深层次复制 jayluns VO maven po
最近在做项目上遇到了一些小问题，因为架构在做设计的时候web前段展示用到了vo层，而在后台进行与数据库层操作的时候用到的是Po层。这样在业务层返回vo到控制层，每一次都需要从po-->转化到vo层，用到BeanUtils.copyProperties(source, target)只能复制简单的属性，因为实体类都配置了hibernate那些关联关系，所以它满足不了现在的需求，但后发现还有个很
CSS规范整理（摘自懒人图库） a409435341 html UI css 浏览器
刚没事闲着在网上瞎逛，找了一篇CSS规范整理，粗略看了一下后还蛮有一定的道理，并自问是否有这样的规范，这也是初入前端开发的人一个很好的规范吧。一、文件规范 1、文件均归档至约定的目录中。具体要求通过豆瓣的CSS规范进行讲解：所有的CSS分为两大类：通用类和业务类。通用的CSS文件，放在如下目录中：基本样式库 /css/core
C++动态链接库创建与使用你不认识的休道人 C++dll
一、创建动态链接库 1.新建工程test中选择”MFC [dll]”dll类型选择第二项"Regular DLL With MFC shared linked"，完成 2.在test.h中添加 extern “C” 返回类型 _declspec(dllexport)函数名(参数列表); 3.在test.cpp中最后写 extern “C” 返回类型 _decls
Android代码混淆之ProGuard rensanning ProGuard
Android应用的Java代码，通过反编译apk文件（dex2jar、apktool）很容易得到源代码，所以在release版本的apk中一定要混淆一下一些关键的Java源码。 ProGuard是一个开源的Java代码混淆器（obfuscation）。ADT r8开始它被默认集成到了Android SDK中。官网： http://proguard.sourceforge.net/
程序员在编程中遇到的奇葩弱智问题 tomcat_oracle jquery 编程 ide
　　现在收集一下：　　排名不分先后，按照发言顺序来的。 1、Jquery插件一个通用函数一直报错，尤其是很明显是存在的函数，很有可能就是你没有引入jquery。。。或者版本不对 2、调试半天没变化：不在同一个文件中调试。这个很可怕，我们很多时候会备份好几个项目，改完发现改错了。有个群友说的好：在汤匙
解决maven-dependency-plugin (goals "copy-dependencies","unpack") is not supported xp9802 dependency
解决办法：在plugins之前添加如下pluginManagement，二者前后顺序如下： [html] view plain copy <build> <pluginManagement