orokok

迁移学习——A Tutorial on Principal Component Analysis

《A Tutorial on Principal Component Analysis》学习
arXiv

文章目录

摘要
一、介绍
二、动机:一个玩具例子
三、框架:改变基础
- 3.1一个原始的基础
- 3.2基底
- 3.3剩余的问题
四、方差和目标
- 4.1噪声和旋转
- 4.2冗余
- 4.3协方差矩阵
- 4.4对角化协方差矩阵
- 4.5总结的假设
五、用特征向量分解求解主分量
六、使用SVD的更通用的解决方案
- 6.1奇异值分解
- 6.2解读SVD
- 6.3奇异值分解和主成分分析
七、讨论
- 7.1降维的极限与统计
附录A:线性代数
附录B:代码
Reference

摘要

这个手稿集中在建立一个坚实的直觉如何和为什么主成分分析工作。这手稿结晶这一知识从简单的直觉，背后的数学PCA。本教程不回避非正式地解释思想，也不回避数学。我们希望通过解决这两个方面的问题，各级读者将能够更好地理解PCA，以及何时、如何和为什么应用这种技术。

一、介绍

主成分分析(PCA)是现代数据分析的标准工具——在从神经科学到计算机图形学的不同领域——因为它是一种简单的、非参数的方法，可以从混乱的数据集中提取相关信息。
通过最小的努力，PCA为如何将复杂的数据集减少到更低的维度，以揭示其背后有时隐藏的、简化的结构提供了路线图。
我们将继续增加数学的严密性，把它放在线性代数的框架内，以提供一个显式的解决方案。我们将看到PCA如何以及为什么与奇异值分解(SVD)的数学技术密切相关。

二、动机:一个玩具例子

以图1中物理图中的一个简单玩具问题为例

假设我们正在研究物理学家理想弹簧的运动。这个系统由一个质量为m的球和一个无质量无摩擦的弹簧组成。球在远离平衡的一小段距离被释放(即弹簧被拉伸)。因为弹簧是理想的，它沿着x轴，以固定的频率，围绕平衡无限振荡。
潜在的动力学可以表示为一个单一变量x的函数。
具体来说，我们在我们感兴趣的系统周围放置了三个电影摄像机。在120赫兹的频率下，每个电影摄像机记录一个图像，表明球的二维位置(投影)。
不幸的是，我们甚至不知道真正的x、y和z轴是什么，所以我们选择了三个相机位置 $\tilde a,\tilde b和\tilde c$ ，对系统进行任意角度的选择。我们测量的角度甚至可能不是90度!
在玩具的例子中，这意味着我们需要处理空气，不完美的相机，甚至摩擦在一个不太理想的弹簧。噪声污染了我们的数据集，只会进一步混淆动态。这个玩具例子是实验者每天都要面对的挑战。

三、框架:改变基础

主成分分析的目标是找出最有意义的基础来重新表达数据集。我们希望这种新的基础能够过滤掉噪音，揭示隐藏的结构。

3.1一个原始的基础

在我们的数据集中，在某一时刻，摄像机A记录了一个相应的球的位置 $x_A,y_A)$ 。一个样本或试验可以表示为6维列向量
$\vec{X}=\begin{bmatrix}x_A\\y_A\\x_B\\y_B\\x_C\\y_C\end{bmatrix}$
其中，每个摄像机贡献了一个球的位置到整个矢量 $\vec{X}$ 的二维投影。如果我们以120赫兹的频率记录球的位置10分钟，
那么我们就记录了 $10 \times 60 \times 120 = 72000$ 个矢量。

我们的原始基础反映了我们测量数据的方法。

我们如何在线性代数中表达这个朴素的基?在二维情况下， ${(1,0)，(0,1)\}$ 可以被重铸为单独的行向量。由这些行向量构成的矩阵是 $2 \times 2$ 单位矩阵 $\mathbf I$
我们可以通过构造 $m \times m$ 单位矩阵来推广到m维的情况
$\mathbf B=\begin{bmatrix}\mathbf b_1\\\mathbf b_2\\\vdots\\\mathbf b_m\end{bmatrix}=\begin{bmatrix}1&0&\cdots&0\\ 0&1&\cdots&0\\ \vdots&\vdots&\ddots&\vdots\\ 0&0&\cdots&1\end{bmatrix}=\mathbf I$
其中每一行是正交基向量 $\mathbf b_i$ ，有m个分量。我们可以把朴素的基础作为有效的起点。我们所有的数据都是在这个基础上记录的，因此它可以简单地表示为 $\{\mathbf b_i\}$ 的线性组合。

3.2基底

有了这种严谨，我们现在可以更精确地表述PCA所问的问题:是否存在另一种基，即原始基的线性组合，可以最好地重新表达我们的数据集?
事实上，PCA做出了一个严格但强大的假设:线性。线性通过限制潜在基的集合极大地简化了问题。有了这个假设，PCA现在被限制为将数据重新表示为其基向量的线性组合。
设X为原始数据集，其中每一列为我们的数据集(即 $\tilde X$ )的单个样本(或时刻)。在玩具的例子中，X是一个m × n矩阵，其中m = 6, n = 72000。
设Y是另一个与线性变换p相关的m × n矩阵，X是原始记录数据集，Y是该数据集的新表示。
$\mathbf{PX=Y}\tag{1}$
让我们定义下面的量。

$\mathbf p_i$ 是 $\mathbf P$ 的行
$\mathbf x_i$ 是 $\mathbf X$ 的列(或单独的 $\vec X$ )
$\mathbf y_i$ 是 $\mathbf Y$ 的列向量。

方程式1表示基的变化，因此可以有多种解释。

$\mathbf P$ 是一个将X转换为Y的矩阵。
几何上， $\mathbf P$ 是旋转和拉伸，将 $\mathbf X$ 再次转换为 $\mathbf Y$
$\mathbf P， \{\mathbf p_1，…，\mathbf p_m\}，$ 是一组新的基向量，用来表示 $\mathbf X$ 的列。

后一种解释不明显，但可以通过写出 $\mathbf{PX}$ 的显式点积看出。
$\mathbf{PX}=\begin{bmatrix}\mathbf p_1\\\vdots\\\mathbf p_m\end{bmatrix}\begin{bmatrix}\mathbf x_1&\cdots&\mathbf x_n\end{bmatrix}\\ \mathbf Y=\begin{bmatrix}\mathbf p_1\cdot\mathbf x_1&\cdots& \mathbf p_1\cdot\mathbf x_n\\\vdots&\ddots&\vdots\\\mathbf p_m\cdot\mathbf x_1&\cdots&\mathbf p_m\cdot\mathbf x_n\end{bmatrix}$
我们可以记下 $\mathbf Y$ 每一列的形式。
$\mathbf y_i=\begin{bmatrix}\mathbf p_1\cdot\mathbf x_i\\\vdots\\\mathbf p_m\cdot\mathbf x_i\end{bmatrix}$
我们认识到 $\mathbf y_i$ 的每个系数都是 $\mathbf x_i$ 与 $\mathbf p$ 中相应行的点积。换句话说， $\mathbf y_i$ 的第 $j$ 个系数是 $\mathbf p$ 中第 $j$ 行上的投影。这实际上是一个方程的形式，其中 $\mathbf y_i$ 是对 $\{\mathbf{p_1}，…,\mathbf{p_m}\}$ 。因此， $\mathbf p$ 的行是一组新的基向量用来表示 $\mathbf X$ 的列。

3.3剩余的问题

通过假设线性，问题可以简化为寻找适当的基底变换。行向量 $\{\mathbf{p_1}，…,\mathbf{p_m}\}$ 将成为 $\mathbf X$ 的主要组成部分。现在出现了几个问题。

重新表达 $\mathbf X$ 的最好方式是什么?
什么是基底 $\mathbf P$ 的最佳选择?

这些问题必须通过问自己我们希望Y展示什么特性来回答。显然，要得到一个合理的结果，需要额外的线性假设。

四、方差和目标

现在最重要的问题来了:什么最能表达数据的意思?

4.1噪声和旋转

任何数据集中的测量噪声必须很低，否则无论采用何种分析技术，都无法提取信号的信息。噪声不存在绝对尺度，而是所有的噪声相对于信号强度被量化。常用的度量方法是信噪比(SNR)，即方差的 $\sigma^2$ ，
$SNR=\frac{\sigma^2_{signal}}{\sigma^2_{noise}}$
高信噪比 $(\gg1)$ 表示测量精度高，低信噪比表示数据噪声大。
让我们仔细查看图2中摄像机a的数据。

通过假设合理良好的测量，我们定量地假设测量空间中方差最大的方向包含感兴趣的动态。在图2中，方差最大的方向不是 $\hat x_A =(1,0)$ ，也不是 $\hat y_A =(0,1)$ ，而是沿着云的长轴的方向。
因此，通过假设，兴趣动态沿方差最大、信噪比可能最高的方向存在。
最大化方差(并通过假设信噪比)对应于找到朴素基的适当旋转。这种直觉对应于找到图2中 $σ^2$ 信号所示的方向。
在图2的二维情况中，最大方差的方向对应于数据云的最佳拟合线。因此，将原始基旋转到与最佳拟合线平行的位置，就可以揭示二维情况下弹簧的运动方向。

4.2冗余

图3可能反映了两个任意测量类型r1和r2之间可能的绘图范围。

图3的右边面板描述了高度相关的记录。这种极端情况可以通过几种方法实现:

如果摄像机A和B很近，图是 $x_A,x_B)$
一个 $(x_A，\hat x_A)$ 的图，其中 $x_A$ 是在米中， $\hat x_A$ 是在英寸中。

很明显，在图3的右侧面板中，只记录单个变量比同时记录两个变量更有意义。为什么?因为可以用最佳拟合直线从 $r_2$ 算出 $r_1$ (反之亦然)。只记录一个响应可以更简洁地表达数据，减少传感器记录的数量(2→1个变量)。事实上，这就是降维背后的核心思想。

4.3协方差矩阵

在2个变量的情况下，通过找到最佳拟合线的斜率并判断拟合的质量，很容易识别冗余情况。我们如何量化这些概念并将其推广到任意更高的维度?考虑两组均值为零的度量
$A=\{a_1,a_2,\dots,a_n\},B=\{b_1,b_2,\dots,b_n\}$
式中下标为样本数。A、B的方差分别定义为:
$\sigma^2_A=\frac{1}{n}\sum_ia^2_i,\sigma^2_B=\frac{1}{n}\sum_ib^2_i$
A和B之间的协方差是一个简单的泛化。
$\text{covariance of A and B}\equiv\sigma^2_{AB}=\frac{1}{n}\sum_ia_ib_i$
协方差衡量的是两个变量之间线性关系的程度。较大的正值表示数据正相关。同样，较大的负值表示数据为负相关。协方差的绝对值衡量的是冗余度。还有一些关于协方差的事实。

$\sigma_{AB}$ 当且仅当A和B不相关时(如:图2，左面板)。
$A = B$ 时， $\sigma^2_{AB} = \sigma^2_A$ 。

我们可以等价地把A和B转换成相应的行向量。
$\mathbf a=[a_1a_2\dots a_n]\\ \mathbf b=[b_1b_2\dots b_n]$
这样我们就可以用点积矩阵的计算来表示协方差
$\sigma^2_{\mathbf{ab}}\equiv\frac{1}{n}\mathbf{ab}^T\tag{2}$
最后，我们可以将两个向量推广到任意数。将行向量 $\mathbf a$ 和 $\mathbf b$ 分别重命名为 $\mathbf x_1$ 和 $\mathbf x_2$ ，并考虑额外的索引行向量 $\mathbf x_3，…,\mathbf x_m$ 。

定义一个新的 $m \times n$ 矩阵 $\mathbf X$ 。
$\mathbf X=\begin{bmatrix}\mathbf{x_1}\\\vdots\\\mathbf{x_m}\end{bmatrix}$
对 $\mathbf X$ 的一种解释如下。
每一行 $\mathbf X$ 对应于特定类型的所有测量值。 $\mathbf X$ 的每一列对应一个特定试验的一组测量值(这是3.1节中的 $\vec X$ )。现在我们得到协方差矩阵 $\mathbf{C_X}$ 的定义。
$\mathbf{C_X}\equiv\frac{1}{n}\mathbf{XX^T}$
考虑矩阵 $\mathbf{C_X}=\frac{1}{n}\mathbf{XX^T}$ 。 $\mathbf{C_X}$ 的第i j个元素是第i个测量类型的向量与第j个测量类型的向量之间的点积。我们可以总结出 $\mathbf{C_X}$ 的几个性质:

$\mathbf{C_X}$ 是一个平方对称的 $m \times m$ 矩阵(附录a的定理2)
$\mathbf{C_X}$ 的对角线项是特定测量类型的方差。
$\mathbf{C_X}$ 的非对角线项是测量类型之间的协方差。

$\mathbf{C_X}$ 捕获所有可能的测量对之间的协方差。协方差值反映了我们测量中的噪声和冗余。

在对角线项中，通过假设，大的值对应有趣的结构。
在非对角线术语中，大的幅度对应高冗余。

假设我们可以操纵 $\mathbf{C_X}$ 。我们将建议定义我们的操作协方差矩阵 $\mathbf{C_Y}$ ，我们想在 $\mathbf{C_Y}$ 中优化什么特征?

4.4对角化协方差矩阵

我们可以通过陈述我们的目标(1)最小化冗余(通过协方差的大小衡量)和(2)最大化信号(通过方差衡量)来总结最后两个部分。优化后的协方差矩阵 $\mathbf{C_Y}$ 是什么样的?

$\mathbf{C_Y}$ 中所有非对角线项都应为零。因此， $\mathbf{C_Y}$ 一定是一个对角矩阵。或者换种说法， $\mathbf{Y}$ 是装饰相关的。
$\mathbf{Y}$ 中每个连续的维度应该根据方差进行排序。

有许多对角化 $\mathbf{C_Y}$ 的方法，值得注意的是PCA选择了最简单的方法:PCA假设所有基向量 $\{\mathbf{p_1}，…，\mathbf{p_m}\}$ 是正交的，即 $\mathbf{P}$ 是一个标准正交矩阵。为什么这个假设最简单?
设想PCA是如何工作的。在图2的简单示例中， $\mathbf{P}$ 充当广义旋转，使基与最大方差轴对齐。在多个维度上，这可以通过一个简单的算法来实现

在m维空间中选择一个 $\mathbf{X}$ 中方差最大的归一化方向。将这个向量保存为 $\mathbf{p_1}$ 。
找到另一个方差最大的方向，但是，由于正交条件，限制搜索的所有方向正交于所有之前选择的方向。将这个向量保存为 $\mathbf{p_i}$
重复这个过程，直到选择m个向量

得到的 $\mathbf{p}$ 的有序集合是主要成分。
原则上，这个简单的算法是可行的，然而，这与为什么标准正交假设是明智的真正原因不符。这种假设的真正好处是，存在一个有效的分析解决方案来解决这个问题。我们将在以下部分讨论两个解决方案
注意我们用秩序方差的规定得到了什么。我们有一个方法来判断主要方向的重要性。即，与每个方向 $\mathbf{p_i}$ 相关的方差根据相应的方差对每个基向量 $\mathbf{p_i}$ 进行排序，从而量化每个方向的“主”程度。

4.5总结的假设

这一节提供了一个总结的假设背后的PCA和暗示，当这些假设可能表现不佳。

线性
线性把问题框定为基的改变。一些研究领域已经探索了如何将这些概念扩展到非线性状态(见讨论)。
大的方差具有重要的结构。
这个假设还包含了数据具有高信噪比的信念。因此，相关方差较大的主成分代表有趣的结构，而方差较低的主成分代表噪声。请注意，这是一个强有力的，有时是不正确的假设(参见讨论)。
主成分是正交的。
这个假设提供了一个直观的简化，使PCA可以用线性代数分解技术进行分解。以下两部分将重点介绍这些技术。

我们已经讨论了推导PCA的所有方面-剩下的是线性代数解。第一个解决方案有些直接，而第二个解决方案涉及到理解一个重要的代数分解。

五、用特征向量分解求解主分量

基于特征向量分解的一个重要性质，我们得到了主成分分析的第一个代数解。同样，数据集是 $\mathbf X$ ，一个 $m \times n$ 的矩阵，其中m为测量类型的数量，n为样本的数量。目标总结如下
求 $\mathbf Y = \mathbf{PX}$ 中的某个标准正交矩阵 $\mathbf P$ ，使 $\mathbf{C_Y}\equiv\frac{1}{n}\mathbf {YY^T}$ 是一个对角矩阵。 $\mathbf P$ 的行是 $\mathbf X$ 的主成分。
我们先把 $\mathbf{C_Y}$ 写成未知变量的形式。
$\mathbf{C_Y}=\frac{1}{n}\mathbf {YY^T}\\ =\frac{1}{n}(\mathbf {PX})(\mathbf {PX})^T\\ =\frac{1}{n}\mathbf{PXX^TP^T}\\ =\mathbf {P}(\frac{1}{n}\mathbf{XX^T})\mathbf P^T\\ \mathbf{C_Y}=\mathbf{PC_XP^T}$
注意，我们已经确定了 $\mathbf X$ 的协方差矩阵在最后一行。
我们的计划是认识到任何对称矩阵 $\mathbf A$ 是由其特征向量的正交矩阵对角化的(由附录A中的定理3和4)。
对于一个对称矩阵，定理4提供了 $\mathbf A = \mathbf {EDE}^T$ ，其中 $\mathbf D$ 是一个对角矩阵， $\mathbf E$ 是 $\mathbf A$ 的特征向量作为列排列的矩阵。
现在，关键来了。我们选择矩阵 $\mathbf P$ 作为一个矩阵其中每一行 $\mathbf p_i$ 是一个特征向量为 $\frac{1}{n}\mathbf{XX^T}$ 。通过这个选择， $\mathbf P\equiv\mathbf{E^T}$ 。利用这个关系和附录 $(\mathbf P^{−1} =\mathbf P^T)$ 定理1，我们可以完成对 $\mathbf {C_Y}$ 的求值。
$\begin{aligned} \mathbf {C_Y}&=\mathbf{PC_XP^T}\\ &=\mathbf{P}(\mathbf{E^TDE})\mathbf{P}^T\\ &=\mathbf{P}(\mathbf{P^TDP})\mathbf{P}^T\\ &=(\mathbf{PP^T})\mathbf D(\mathbf{PP^T})\\ &=(\mathbf{PP^{-1}})\mathbf D(\mathbf{PP^{-1}})\\ \mathbf {C_Y}&=\mathbf D \end{aligned}$
很明显， $\mathbf P$ 的选择对角化了 $\mathbf {C_Y}$ ，这是PCA的目标。我们可以总结矩阵 $\mathbf P$ 和 $\mathbf {C_Y}$ 中主成分分析的结果。

$\mathbf X$ 的主分量是 $\mathbf{C_X}=\frac{1}{n}\mathbf {XX^T}$ 的特征向量。
$\mathbf {C_Y}$ 的第i个对角线值是 $\mathbf X$ 沿 $\mathbf p_i$ 的方差。

在实践中，计算数据集 $\mathbf X$ 的主成分分析需要

减去每个测量类型的平均值和
计算 $\mathbf {C_X}$ 的特征向量。这个解决方案在附录B中包含的Matlab代码中进行了演示

六、使用SVD的更通用的解决方案

我们导出了主成分分析的另一种代数解，在此过程中，发现主成分分析与奇异值分解(SVD)密切相关。事实上，这两者是如此密切相关，以至于这两个名字经常被互换使用。我们将看到的是SVD是理解基的变化的更一般的方法。

6.1奇异值分解

设 $\mathbf X$ 是一个任意的 $n \times m$ 矩阵， $\mathbf{X^TX}$ 是一个秩 $r$ 平方对称的 $m \times m$ 矩阵。

$\{\hat{\mathbf v}_1，\hat{\mathbf v}_2，…，\hat{\mathbf v}_r\}$ 是标准正交 $m \times 1$ 特征向量的集合，其特征值为 $\{\lambda_1，\lambda_2，…，\lambda_r\}$ 的对称矩阵 $\mathbf{X^TX}$ 。
$(\mathbf X^T\mathbf X)\hat{\mathbf v}_i = \lambda_i\hat{\mathbf v}_i$
$\sigma_i\equiv\sqrt{\lambda_i}$ 为正实，称为奇异值。
$\{\hat{\mathbf u}_1，\hat{\mathbf u}_2，…，\hat{\mathbf u}_r\}$ 是 $\hat{\mathbf u}_i\equiv\frac{1}{\sigma_i}\mathbf X\hat{\mathbf v}_i$ 定义的 $n \times 1$ 向量的集合。

最终的定义包括两个意想不到的新属性。
$\hat{\mathbf{u}}_{\mathbf{i}} \cdot \hat{\mathbf{u}}_{\mathbf{j}}= \begin{cases}1 & \text { if } i=j \\ 0 & \text { otherwise }\end{cases}$
$\| \mathbf{X}{\hat{\mathbf { v }_i}} \|=\sigma_{i}$
我们现在有了所有组成分解的部分。标量形式的奇异值分解只是第三个定义的重述。
$\mathbf{X\hat{v}_i}=\sigma_i\mathbf{\hat u}_i\tag{3}$
$\mathbf{X}$ 乘以一个特征向量 $\mathbf{X^TX}$ 等于一个标量乘以另一个向量。
特征向量集合 $\{\mathbf{\hat v}_1，\mathbf{\hat v}_2，…，\mathbf{\hat v}_r\}$ 和向量集 $\{\mathbf{\hat u}_1，\mathbf{\hat u}_2，…，\mathbf{\hat u}_r\}$ 都是r维空间中的标准正交集或基。

我们可以按照图4中规定的结构，在一次矩阵乘法中总结所有向量的结果。我们首先构造一个新的对角矩阵 $\Sigma$ 。

其中 $\sigma_{\tilde 1}\ge\sigma_{\tilde 2}\ge\dots\ge\sigma_{\tilde r}$ 是奇异值的秩有序集。同样地，我们构造伴随的正交矩阵，
$\mathbf V=[\mathbf{\hat v_{\tilde 1}\hat v_{\tilde 2}\dots\hat v_{\tilde m}}]\\ \mathbf U=[\mathbf{\hat u_{\tilde 1}\hat u_{\tilde 2}\dots\hat u_{\tilde m}}]$
我们已经附加了一个额外的 $(m - r)$ 和 $(n - r)$ 标准正交向量来分别“填充”矩阵 $\mathbf V$ 和 $\mathbf U$
图4提供了一个图形表示，说明所有部分如何组合在一起形成SVD的矩阵版本。
$\mathbf{XV}=\mathbf{U\Sigma}$
其中 $\mathbf V$ 和 $\mathbf U$ 的每一列执行标量形式的分解(方程3)。
因为V是正交的，我们可以在两边同时乘以 $\mathbf V^{−1} = \mathbf V^T$ ，从而得到分解的最终形式。
$\mathbf{X}=\mathbf{U\Sigma V^T}\tag{4}$
虽然没有动机，但这种分解是相当强大的。方程4表明，任意矩阵X可以被转换为正交矩阵、对角矩阵和另一个正交矩阵(或旋转、拉伸和第二次旋转)。

6.2解读SVD

SVD的最后一种形式是简洁而厚重的陈述。让我们把方程3重新解释为
$\mathbf{Xa}=k\mathbf b$
其中 $\mathbf a和\mathbf b$ 是列向量，k是标量常数。
集合 $\{\mathbf{\hat v}_1，\mathbf{\hat v}_2，…，\mathbf{\hat v}_m\}$ 类似于 $\mathbf a$ 和集合 $\{\mathbf{\hat u}_1，\mathbf{\hat u}_2，…，\mathbf{\hat u}_n\}$ 类似于 $\mathbf b$ 。
唯一的是 $\{\mathbf{\hat v}_1，\mathbf{\hat v}_2，…，\mathbf{\hat v}_m\}$ 和 $\{\mathbf{\hat u}_1，\mathbf{\hat u}_2，…，\mathbf{\hat u}_n\}$ 是向量的标准正交集合，它们分别张成m维和n维空间。

我们可以利用方程4使这个模糊的假设更加精确。
$\begin{aligned} \mathbf{X} &=\mathbf{U} \Sigma \mathbf{V}^{T} \\ \mathbf{U}^{T} \mathbf{X} &=\Sigma \mathbf{V}^{T} \\ \mathbf{U}^{T} \mathbf{X} &=\mathbf{Z} \end{aligned}$
我们已经定义了 $\mathbf{Z}\equiv\Sigma \mathbf{V}^{T}$ ，注意前面的列 $\{\mathbf{\hat u}_1，\mathbf{\hat u}_2，…，\mathbf{\hat u}_n\}$ 现在是 $\mathbf{U}^{T}$ 中的行。
将此方程与方程1比较， $\{\mathbf{\hat u}_1，\mathbf{\hat u}_2，…，\mathbf{\hat u}_n\}$ 的作用与 $\{\mathbf{\hat p}_1，\mathbf{\hat p}_2，…，\mathbf{\hat p}_m\}$ 相同。
因此， $\mathbf{U}^{T}$ 是从 $\mathbf{X}$ 到 $\mathbf{Z}$ 的基底变换，就像之前一样，我们在变换列向量，我们可以再次推断我们在变换列向量。
事实上，标准正交基 $\mathbf{U}^{T}$ (或 $\mathbf{P}$ )变换列向量意味着 $\mathbf{U}^{T}$ 是一个张成 $\mathbf{X}$ 列的基。
跨列的基底被称为 $\mathbf{X}$ 的列空间。列空间形式化了任何矩阵可能的“输出”的概念。
SVD有一个有趣的对称性，我们可以定义一个类似的量——行空间
$\begin{aligned} \mathbf{V}\mathbf{X} &= \Sigma \mathbf{U} \\ (\mathbf{X}\mathbf{V})^T&=(\Sigma \mathbf{U})^{T} \\ \mathbf{V}^{T} \mathbf{X}^T &=\mathbf{U}^{T}\Sigma\\ \mathbf{V}^{T} \mathbf{X}^T &=\mathbf{Z} \end{aligned}$
我们已经定义了 $\mathbf{Z}\equiv\mathbf{U}^{T}\Sigma$ ，同样， $\mathbf{V}^{T}$ 的行(或 $\mathbf{V}$ 的列)是将 $\mathbf{X}^T$ 转换为 $\mathbf{Z}$ 的标准正交基。因为 $\mathbf{X}$ 的转置， $\mathbf{V}$ 是一个跨越 $\mathbf{X}$ 的行空间的标准正交基。行空间同样形式化了什么是可能的“输入”到一个任意矩阵的概念。

6.3奇异值分解和主成分分析

可见PCA和SVD是密切相关的。让我们回到原始的 $m \times n$ 数据矩阵 $\mathbf{X}$ ，我们可以定义一个新的矩阵 $\mathbf{Y}$ 为 $n \times m$ 矩阵。
$\mathbf{Y}\equiv\frac{1}{\sqrt n}\mathbf{X}^T$
$\mathbf{Y}$ 的每一列均值都是0。通过分析 $\mathbf{Y^TY}$ , $\mathbf{Y}$ 的选择变得很清楚。
$\begin{aligned} \mathbf{Y}^{T} \mathbf{Y} &=\left(\frac{1}{\sqrt{n}} \mathbf{X}^{T}\right)^{T}\left(\frac{1}{\sqrt{n}} \mathbf{X}^{T}\right) \\ &=\frac{1}{n} \mathbf{X} \mathbf{X}^{T} \\ \mathbf{Y}^{T} \mathbf{Y} &=\mathbf{C}_{\mathbf{X}} \end{aligned}$
通过构造 $\mathbf{Y}^{T}\mathbf{Y}$ 等于 $\mathbf{X}$ 的协方差矩阵。由第5节可知， $\mathbf{X}$ 的主成分是 $\mathbf{C}_{\mathbf{X}}$ 的特征向量。
如果我们计算 $\mathbf{Y}$ 的SVD，矩阵 $\mathbf{V}$ 的列包含 $\mathbf{Y}^{T}\mathbf{Y}=\mathbf{C}_{\mathbf{X}}$ 的特征向量。
因此， $\mathbf{V}$ 的列是 $\mathbf{X}$ 的主分量。
$\mathbf{V}$ 张成 $\mathbf{Y}\equiv\frac{1}{\sqrt n}\mathbf{X}^T$ 的行空间。
因此， $\mathbf{V}$ 也必须张成列空间为 $\frac{1}{\sqrt n}\mathbf{X}^T$ 。我们可以得出结论，找到主分量等于找到一个正交基它张成 $\mathbf{X}$ 的列空间

七、讨论

主成分分析(PCA)利用线性代数的解析解揭示复杂数据集中简单的底层结构，因此具有广泛的应用前景。
图5提供了实现PCA的简要摘要。

在弹簧的例子中，PCA识别出大部分的变化存在于单个维度(运动方向 $\mathbf{\hat x}$ )，尽管记录了6个维度。
PCA是完全非参数的:任何数据集都可以插入，得到一个答案，不需要调整参数，也不考虑数据是如何记录的。
从一个角度来看，PCA是非参数化(即插即用)的事实可以被认为是一个积极的特征，因为答案是唯一的，独立于用户。
从另一个角度来看，PCA对数据的来源是不可知的这一事实也是一个弱点。例如，考虑在图6a中跟踪一个坐在摩天轮上的人。用车轮进动角 $θ$ 这一单一变量可以清晰地描述数据点，但主成分分析无法恢复这一变量。

7.1降维的极限与统计

更深层次的鉴赏PCA的限制需要考虑一些潜在的假设，在串联，更严格的描述的数据来源。一般来说，这种方法背后的主要动机是去关联数据集，即去除二阶依赖性。
PCA要求探索的每条新道路都必须与前一条道路垂直，但显然这一要求过于严格，数据(或城镇)可能会沿非正交轴线排列，如图6b。图6提供了这类数据的两个示例，其中PCA提供了不满意的结果。
在维数减少的情况下，衡量成功的一个标准是减少的表示在多大程度上可以预测原始数据。
在统计术语中，我们必须定义一个误差函数(或损失函数)。
可以证明，在一个共同的损失函数，均方误差(即L2范数)下，PCA提供了数据的最优简化表示。
这意味着选择主成分的正交方向是预测原始数据的最佳方案。
对于图6的示例，这种说法怎么可能是正确的呢?我们从图6中得到的直觉表明，这个结果在某种程度上是有误导性的。
这个悖论的解决方案就在于我们所选择的分析目标。分析的目标是去关联数据，或者换句话说，目标是消除数据中的二阶依赖关系。
在图6的数据集中，变量之间存在更高阶的依赖关系。因此，在揭示数据的所有结构时，去除二阶依赖关系是不够的。
存在多种消除高阶依赖关系的解决方案。
例如，在图6a中，可以检查数据的极坐标表示。这种参数化方法通常被称为核PCA。
另一个方向是对数据集中的依赖性进行更通用的统计定义，例如，要求减少维度的数据在统计上是独立的。这类算法，称为独立成分分析(ICA)，已被证明在许多领域成功的PCA失败。

附录A:线性代数

附录B:代码

Reference

A Tutorial on Principal Component Analysis

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
【中国国际航空-注册_登录安全分析报告】风控牛验证码接口安全评测系列安全行为验证极验网易易盾智能手机
前言由于网站注册入口容易被黑客攻击，存在如下安全问题：1.暴力破解密码，造成用户信息泄露2.短信盗刷的安全问题，影响业务及导致用户投诉3.带来经济损失，尤其是后付费客户，风险巨大，造成亏损无底洞所以大部分网站及App都采取图形验证码或滑动验证码等交互解决方案，但在机器学习能力提高的当下，连百度这样的大厂都遭受攻击导致点名批评，图形验证及交互验证方式的安全性到底如何？请看具体分析一、中国国际航空PC
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
七.正则化愿风去了
吴恩达机器学习之正则化（Regularization）http://www.cnblogs.com/jianxinzhou/p/4083921.html从数学公式上理解L1和L2https://blog.csdn.net/b876144622/article/details/81276818虽然在线性回归中加入基函数会使模型更加灵活，但是很容易引起数据的过拟合。例如将数据投影到30维的基函数上，模
机器学习-------数据标准化罔闻_spider 数据分析算法机器学习人工智能
什么是归一化，它与标准化的区别是什么？一作用在做训练时，需要先将特征值与标签标准化，可以防止梯度防炸和过拟合；将标签标准化后，网络预测出的数据是符合标准正态分布的—StandarScaler()，与真实值有很大差别。因为StandarScaler()对数据的处理是（真实值-平均值）/标准差。同时在做预测时需要将输出数据逆标准化提升模型精度：标准化/归一化使不同维度的特征在数值上更具比较性，提高分类
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
如何做好人生的选择题？百科全书式天才——赫伯特·西蒙给你答案伽马有话说
赫伯特·西蒙是谁？想必知道的人非常少。但当看到他的履历后，相信没有人再怀疑他是个“天才”。西蒙出生于1916年6月15日，是个美国人，他的名字全称为赫伯特·亚历山大·西蒙，在2001年2月9日与世长辞，在这84年的岁月中，西蒙以27岁时取得的政治学博士学位为开端，先后步入了政治学、管理学、认知心理学、信息科学、人工智能、科学哲学、应用数学、统计学、运筹学、控制论、数理经济学、公共管理等领域，在这些
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
cmd泛滥_与您的后泛滥同事见面：人工智能机器人 weixin_26644585 人工智能 leetcode
cmd泛滥Readytoswapyouroldcube-mateforadisembodiedAI?IPsoftCEOChetanDube,creatorofAIco-workerAMELIA,giveshistakeonthepost-COVIDofficelandscape.准备将您的旧立方体伙伴换成无形的AI？AIsoft同事AMELIA的创始人IPsoft首席执行官ChetanDube阐述
Nginx负载均衡 510888780 nginx 应用服务器
Nginx负载均衡一些基础知识: nginx 的 upstream目前支持 4 种方式的分配 1)、轮询（默认）每个请求按时间顺序逐一分配到不同的后端服务器，如果后端服务器down掉，能自动剔除。 2)、weight 指定轮询几率，weight和访问比率成正比
RedHat 6.4 安装 rabbitmq bylijinnan erlang rabbitmq redhat
在 linux 下安装软件就是折腾，首先是测试机不能上外网要找运维开通，开通后发现测试机的 yum 不能使用于是又要配置 yum 源，最后安装 rabbitmq 时也尝试了两种方法最后才安装成功机器版本： [root@redhat1 rabbitmq]# lsb_release LSB Version: :base-4.0-amd64:base-4.0-noarch:core
FilenameUtils工具类 eksliang FilenameUtils common-io
转载请出自出处：http://eksliang.iteye.com/blog/2217081 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
xml文件解析SAX 不懂事的小屁孩 xml
xml文件解析:xml文件解析有四种方式， 1.DOM生成和解析XML文档(SAX是基于事件流的解析) 2.SAX生成和解析XML文档(基于XML文档树结构的解析) 3.DOM4J生成和解析XML文档 4.JDOM生成和解析XML 本文章用第一种方法进行解析，使用android常用的DefaultHandler import org.xml.sax.Attributes;
通过定时任务执行mysql的定期删除和新建分区，此处是按日分区酷的飞上天空 mysql
使用python脚本作为命令脚本，linux的定时任务来每天定时执行 #!/usr/bin/python # -*- coding: utf8 -*- import pymysql import datetime import calendar #要分区的表 table_name = 'my_table' #连接数据库的信息 host,user,passwd,db =
如何搭建数据湖架构？听听专家的意见蓝儿唯美架构
Edo Interactive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据 “我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁Tim Garnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数
spring学习——控制反转与依赖注入 a-john spring
控制反转（Inversion of Control，英文缩写为IoC）是一个重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。控制反转一般分为两种类型，依赖注入（Dependency Injection，简称DI）和依赖查找（Dependency Lookup）。依赖注入应用比较广泛。
用spool+unixshell生成文本文件的方法 aijuans xshell
例如我们把scott.dept表生成文本文件的语句写成dept.sql,内容如下: 　　set pages 50000; 　　set lines 200; 　　set trims on; 　　set heading off; 　　spool /oracle_backup/log/test/dept.lst; 　　select deptno||','||dname||','||loc
1、基础--名词解析(OOA/OOD/OOP) asia007 学习基础知识
OOA:Object-Oriented Analysis（面向对象分析方法）是在一个系统的开发过程中进行了系统业务调查以后，按照面向对象的思想来分析问题。OOA与结构化分析有较大的区别。OOA所强调的是在系统调查资料的基础上，针对OO方法所需要的素材进行的归类分析和整理，而不是对管理业务现状和方法的分析。　　OOA（面向对象的分析）模型由5个层次（主题层、对象类层、结构层、属性层和服务层）
浅谈java转成json编码格式技术百合不是茶 json编码 java转成json编码
json编码;是一个轻量级的数据存储和传输的语言在java中需要引入json相关的包,引包方式在工程的lib下就可以了 JSON与JAVA数据的转换（JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 之间的数据的交
web.xml之Spring配置(基于Spring+Struts+Ibatis) bijian1013 java web.xml SSI spring配置
指定Spring配置文件位置 <context-param> <param-name>contextConfigLocation</param-name> <param-value> /WEB-INF/spring-dao-bean.xml,/WEB-INF/spring-resources.xml, /WEB-INF/
Installing SonarQube（Fail to download libraries from server） sunjing Install Sonar
1. Download and unzip the SonarQube distribution 2. Starting the Web Server The default port is "9000" and the context path is "/". These values can be changed in &l
【MongoDB学习笔记十一】Mongo副本集基本的增删查 bit1129 mongodb
一、创建复本集假设mongod,mongo已经配置在系统路径变量上，启动三个命令行窗口，分别执行如下命令： mongod --port 27017 --dbpath data1 --replSet rs0 mongod --port 27018 --dbpath data2 --replSet rs0 mongod --port 27019 -
Anychart图表系列二之执行Flash和HTML5渲染白糖_ Flash
今天介绍Anychart的Flash和HTML5渲染功能 HTML5 Anychart从6.0第一个版本起，已经逐渐开始支持各种图的HTML5渲染效果了，也就是说即使你没有安装Flash插件，只要浏览器支持HTML5，也能看到Anychart的图形（不过这些是需要做一些配置的）。这里要提醒下大家，Anychart6.0版本对HTML5的支持还不算很成熟，目前还处于
Laravel版本更新异常4.2.8-> 4.2.9 Declaration of ... CompilerEngine ... should be compa bozch laravel
昨天在为了把laravel升级到最新的版本，突然之间就出现了如下错误： ErrorException thrown with message "Declaration of Illuminate\View\Engines\CompilerEngine::handleViewException() should be compatible with Illuminate\View\Eng
编程之美-NIM游戏分析-石头总数为奇数时如何保证先动手者必胜 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class Nim { /**编程之美 NIM游戏分析问题：有N块石头和两个玩家A和B，玩家A先将石头随机分成若干堆，然后按照BABA...的顺序不断轮流取石头，能将剩下的石头一次取光的玩家获胜，每次取石头时，每个玩家只能从若干堆石头中任选一堆，
lunce创建索引及简单查询 chengxuyuancsdn 查询创建索引 lunce
import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Docume
[IT与投资]坚持独立自主的研究核心技术 comsci it
和别人合作开发某项产品....如果互相之间的技术水平不同,那么这种合作很难进行,一般都会成为强者控制弱者的方法和手段..... 所以弱者,在遇到技术难题的时候,最好不要一开始就去寻求强者的帮助,因为在我们这颗星球上,生物都有一种控制其
flashback transaction闪回事务查询 daizj oracle sql 闪回事务
闪回事务查询有别于闪回查询的特点有以下3个：（1）其正常工作不但需要利用撤销数据，还需要事先启用最小补充日志。（2）返回的结果不是以前的“旧”数据，而是能够将当前数据修改为以前的样子的撤销SQL（Undo SQL）语句。（3）集中地在名为flashback_transaction_query表上查询，而不是在各个表上通过“as of”或“vers
Java I/O之FilenameFilter类列举出指定路径下某个扩展名的文件游其是你 FilenameFilter
这是一个FilenameFilter类用法的例子，实现的列举出“c:\\folder“路径下所有以“.jpg”扩展名的文件。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
C语言学习五函数，函数的前置声明以及如何在软件开发中合理的设计函数来解决实际问题 dcj3sjt126com c
# include <stdio.h> int f(void) //括号中的void表示该函数不能接受数据，int表示返回的类型为int类型 { return 10; //向主调函数返回10 } void g(void) //函数名前面的void表示该函数没有返回值 { //return 10; //error 与第8行行首的void相矛盾 } in
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Pl dcj3sjt126com centos
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again 处理很简单，修改文件“/etc/yum.repos.d/epel.repo”，将baseurl的注释取消， mirrorlist注释掉。即可。 &n
单例模式 shuizhaosi888 单例模式
单例模式懒汉式 public class RunMain { /** * 私有构造 */ private RunMain() { } /** * 内部类，用于占位，只有 */ private static class SingletonRunMain { priv
Spring Security（09）——Filter 234390216 Spring Security
Filter 目录 1.1 Filter顺序 1.2 添加Filter到FilterChain 1.3 DelegatingFilterProxy 1.4 FilterChainProxy 1.5
公司项目NODEJS实践0.1 逐行分析JS源代码 mongodb nginx ubuntu nodejs
一、前言前端如何独立用nodeJs实现一个简单的注册、登录功能，是不是只用nodejs+sql就可以了？其实是可以实现，但离实际应用还有距离，那要怎么做才是实际可用的。网上有很多nod
java.lang.Math liuhaibo_ljf java Math lang
System.out.println(Math.PI); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1)); System.out.println(Math.abs(111111111)); System.out.println(Mat
linux下时间同步 nonobaba ntp
今天在linux下做hbase集群的时候，发现hmaster启动成功了，但是用hbase命令进入shell的时候报了一个错误 PleaseHoldException: Master is initializing，查看了日志，大致意思是说master和slave时间不同步，没办法，只好找一种手动同步一下，后来发现一共部署了10来台机器，手动同步偏差又比较大，所以还是从网上找现成的解决方
ZooKeeper3.4.6的集群部署 roadrunners zookeeper 集群部署
ZooKeeper是Apache的一个开源项目，在分布式服务中应用比较广泛。它主要用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步、集群管理、配置文件管理、同步锁、队列等。这里主要讲集群中ZooKeeper的部署。 1、准备工作我们准备3台机器做ZooKeeper集群，分别在3台机器上创建ZooKeeper需要的目录。数据存储目录
Java高效读取大文件 tomcat_oracle java
　　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：　　Files.readLines(new File(path), Charsets.UTF_8); 　　FileUtils.readLines(new File(path)); 　　这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致
微信支付api返回的xml转换为Map的方法 xu3508620 xml map 微信api
举例如下： <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><