功夫大笨鲨

降维算法PCA和SVD

文章目录

前言
PCA和SVD
- 1. 降维算法的实现
- - 1.1 降维的步骤表格
- 2. PCA,SVD简单概述
- 3. 重要参数 n_components
- - 3.1 迷你案例：高维数据的可视化
  - - 3.1.1 调用库和模块
    - 3.1.2 提取数据集
    - 3.1.3 建模
    - 3.1.4 数据可视化
    - 3.1.5 探索降维之后的数据（查看降维后信息量的保存程度，explained_variance_，explained_variance_ratio_）
    - 3.1.6 选择最好的n_components：累积可解释方差贡献率曲线
  - 3.2 最大似然估计自选超参数
  - 3.3 按信息量占比选超参数（在不知道降维到什么时候，可以先使用这个来进行判断，一般可以先看看80%或90%）
- 4. PCA中的SVD
- - 4.1 PCA中的SVD哪里来？
  - 4.2 重要参数svd_solver 与 random_state
  - 4.3 重要属性components_
  - 4.4 通过迷你案例：人脸识别，了解属性components_的运用
  - - 4.4.1. 导入需要的库和模块
    - 4.4.2. 实例化数据集，探索数据
    - 4.4.3.看看图像什么样？将原特征矩阵进行可视化
    - 4.4.4. 建模降维，提取新特征空间矩阵（在这里我分为了两种情况，第一种就是对上面的练习）
    - 4.4.5.将新特征空间矩阵可视化
    - 4.4.6. 总结
- 5.重要接口inverse_transform
- - 5.1迷你案例：用人脸识别看PCA降维后的信息保存量
  - - 5.1.1. 获取降维后的特征矩阵x_dr
    - 5.1.2. 将降维后矩阵用inverse_transform返回原空间
    - 5.1.3.将特征矩阵X和X_inverse可视化
  - 5.2 迷你案例：用PCA做噪音过滤
  - - 5.2.1.导入所需要的库和模块
    - 5.2.2.导入数据，探索数据
    - 5.2.3.定义画图函数(忘记代码的含义参考4.4中的第三步)
    - 5.2.4.为数据加上噪音
    - 5.2.5.降维
    - 5.2.6. 逆转降维结果，实现降噪
重要接口，参数和属性总结

前言

在原有的课件上面添加了自己的理解，代码等因素，还有一些自己的测试等

PCA和SVD

在降维过程中，我们会减少特征的数量，这意味着删除数据，数据量变少则表示模型可以获取的信息会变少，模型的表现可能会因此受影响。同时，在高维数据中，必然有一些特征是不带有有效的信息的（比如噪音），或者有一些特征带有的信息和其他一些特征是重复的（比如一些特征可能会线性相关）。我们希望能够找出一种办法来帮助我们衡量特征上所带的信息量，让我们在降维的过程中，能够即减少特征的数量，又保留大部分有效信息——将那些带有重复信息的特征合并，并删除那些带无效信息的特征等等——逐渐创造出能够代表原特征矩阵大部分信息的，特征更少的，新特征矩阵。

特征工程中有一种重要的特征选择方法：方差过滤，如果一个特征的方差很小，则意味着这个特征上很可能有大量取值都相同（比如90%都是1，只有10%是0，甚至100%是1），那这一个特征的取值对样本而言就没有区分度，这种特征就不带有有效信息。从方差的这种应用就可以推断出，如果一个特征的方差很大，则说明这个特征上带有大量的信息。

因此，在降维中，因此，在降维中，PCA使用的信息量衡量指标，就是样本方差（公式在下面），又称可解释性方差，方差越大，特征所带的信息量越多。
$Var=\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\hat{x})^2$

$V a r$ : 代表一个特征的方差
$n$ : 代表样本量
$x_i$ : 代表一个特征中的每个样本取值
$\hat{x}$ : 代表这一列样本的均值

为什么方差计算公式中除以的是n-1？
》》》目的是为了得到样本方差的无偏估计，详细推导讲解请看样本方差公式为什么除以n-1

1. 降维算法的实现

首先来看一个二维数据的降维过程

我们现在有一组简单的数据，有特征x1和x2，三个样本数据的坐标点分别为(1,1)，(2,2)，(3,3)。我们可以让x1和x2分别作为两个特征向量，这组数据现在每个特征的均值都为2，方差都为1。

每个特征的数据一模一样，因此方差也都为1，数据的方差总和表示为：
$Var=\frac{(1-2)^2+(2-2)^2+(3-2)^2}{3-1}=2$

我们的目的是，只用一个特征向量来描述这组数据，即将二维数据降为一维数据，并且尽可能地保留信息量，即让数据的总方差尽量靠近2。

进行操作，将原本的直角坐标系逆时针旋转45°，形成了新的特征向量x1* 和 x2* 组成的新平面，在这个新平面中，三个样本数据的坐标点可以表示为 $(\sqrt{2},0),(2\sqrt{2},0),(3\sqrt{2},0)$ 。可以注意到， $x2^*$ 上的数值此时都变成了0，因此 $x2^*$ 明显不带有任何有效信息了（此时 $x2^*$ 的方差也为0了）,此时，x1*特征上的数据均值是 $(2\sqrt{2},0)$ 方差则可表示成：
$Var=\frac{(\sqrt2-2\sqrt2)^2+(2\sqrt2-2\sqrt2)^2+(3\sqrt2-2\sqrt2)^2}{3-1}=2$

$x2^*$ 上的数据均值为0，方差也为0。

此时，我们根据信息含量的排序，取信息含量最大的一个特征，因为我们想要的是一维数据。所以我们可以将x2* 删除，同时也删除图中的x2* 特征向量，剩下的x1*就代表了曾经需要两个特征来代表的三个样本点。

通过旋转原有特征向量组成的坐标轴来找到新特征向量和新坐标平面，我们将三个样本点的信息压缩到了一条直线上，实现了二维变一维，并且尽量保留原始数据的信息。一个成功的降维，就实现了。

1.1 降维的步骤表格

在步骤3当中，我们用来找出n个新特征向量，让数据能够被压缩到少数特征上并且总信息量不损失太多的技术就是矩阵分解。

2. PCA,SVD简单概述

PCA和SVD是两种不同的降维算法，但他们都遵从上面的过程来实现降维，只是两种算法中矩阵分解的
方法不同，信息量的衡量指标不同罢了。

PCA

PCA使用方差作为信息量的衡量指标，并且特征值分解来找出空间V。降维时，它会通过一系列数学的神秘操作（比如说，产生协方差矩阵 $\frac{1}{n}XX^T$ ）将特征矩阵X分解为以下三个矩阵，其中 $Q$ 和 $Q^{-1}$ 是辅助的矩阵，Σ是一个对角矩阵（即除了对角线上有值，其他位置都是0的矩阵），其对角线上的元素就是方差。
$X\rightarrow数学的神秘宇宙\rightarrow QΣQ^{-1}$

降维完成之后，PCA找到的每个新特征向量就叫做“主成分”，而被丢弃的特征向量被认为信息量很少，这些信息很可能就是噪音。

SVD

SVD使用奇异值分解来找出空间V，其中Σ也是一个对角矩阵，不过它对角线上的元素是奇异值，这也是SVD中用来衡量特征上的信息量的指标。U和 $V^T$ 分别是左奇异矩阵和右奇异矩阵，也都是辅助矩阵。
$X\rightarrow 另一个数学的神秘宇宙 \rightarrow UΣV^T$

PCA ,SVD

在数学原理中，无论是PCA和SVD都需要遍历所有的特征和样本来计算信息量指标。并且在矩阵分解的过程之中，会产生比原来的特征矩阵更大的矩阵，比如原数据的结构是(m,n)，在矩阵分解中为了找出最佳新特征空间V，可能需要产生(n,n)，(m,m)大小的矩阵，还需要产生协方差矩阵去计算更多的信息。

降维算法的计算量很大，运行比较缓慢，但无论如何，依然是机器学习领域的宠儿。

PCA和特征选择的不同

特征工程中有三种方式：特征提取，特征创造和特征选择

特征选择是从已存在的特征中选取携带信息最多的，选完之后的特征依然具有可解释性，我们依然知道这个特征在原数据的哪个位置，代表着原数据上的什么含义。

而PCA，是将已存在的特征进行压缩，降维完毕后的特征不是原本的特征矩阵中的任何一个特征，而是通过某些方式组合起来的新特征。通常来说，在新的特征矩阵生成之前，我们无法知晓PCA都建立了怎样的新特征向量，新特征矩阵生成之后也不具有可读性，我们无法判断新特征矩阵的特征是从原数据中的什么特征组合而来，新特征虽然带有原始数据的信息，却已经不是原数据上代表着的含义了。以PCA为代表的降维算法因此是特征创造（feature creation，或feature construction）的一种。

PCA一般不适用于探索特征和标签之间的关系的模型（如线性回归），因为无法解释的新特征和标签之间的关系不具有意义。在线性回归模型中，我们使用特征选择。

3. 重要参数 n_components

n_components是我们降维后需要的维度，即降维后需要保留的特征数量，降维流程中第二步里需要确认的k值，一般输入**[0, min(X.shape)]范围中的整数**，如果留下的特征太多，就达不到降维的效果，如果留下的特征太少，那新特征向量可能无法容纳原始数据集中的大部分信息，因此，n_components既不能太大也不能太小。

K值类似于KNN中的K和随机森林中的n_estimators，这是一个需要我们人为去确认的超参数，并且我们设定的数字会影响到模型的表现

3.1 迷你案例：高维数据的可视化

3.1.1 调用库和模块

import matplotlib.pyplot as plt
from sklearn.datasets import load_iris #鸢尾花数据集
from sklearn.decomposition import PCA #PCA
import pandas as pd
import numpy as np

3.1.2 提取数据集

iris = load_iris()

x = iris.data
y = iris.target

x.shape
>(150, 4)

由上可以观察出，这个数据是一个二维数组，四维的特征矩阵

转成DataFrame观察数据

pd.DataFrame(x)

3.1.3 建模

pca = PCA(n_components=2)
pca = pca.fit(x)
x_dr = pca.transform(x)

#可以直接一步完成
#x_dr = pca.fit_transform(x)

查看降维之后的数据,由四维降维到了二维

x_dr

3.1.4 数据可视化

要将三种鸢尾花的数据分布显示在二维平面坐标系中，对应的两个坐标（两个特征向量）应该是三种鸢尾花降维后的x1和x2，怎样才能取出三种鸢尾花下不同的x1和x2呢？

y有三种取值，分别是0，1，2代表三种分类
可以通过判断y==0,1,2分别来找出x降维后对应的行，然后取出对应的x和y值

x_dr[y == 0,0] #第0分类中降维之后的x值
x_dr[y == 0,1] #第0分类中降维之后的y值

plt.figure()
plt.scatter(x_dr[y == 0,0], x_dr[y == 0,1], c='red', label=iris.target_names[0])
plt.scatter(x_dr[y == 1,0], x_dr[y == 1,1], c='black', label=iris.target_names[1])
plt.scatter(x_dr[y == 2,0], x_dr[y == 2,1], c='blue', label=iris.target_names[2])

plt.legend()
plt.title('PCA of IRIS dataset')
plt.show()

可视化还可以使用循环来进行画图

color = ['red','black','blue']

for i in [0,1,2]:
    plt.scatter(x_dr[y == i,0]
                ,x_dr[y == i,1]
                ,c=color[i]
                ,alpha=.4
                ,label=iris.target_names[i]
               )
    
plt.legend()
plt.title('PCA of IRIS dataset')
plt.show()

鸢尾花的分布被展现在我们眼前了，明显这是一个分簇的分布，并且每个簇之间的分布相对比较明显，也许versicolor和virginia这两种花之间会有一些分类错误，但setosa肯定不会被分错。这样的数据很容易分类，可以遇见，KNN，随机森林，神经网络，朴素贝叶斯，Adaboost这些分类器在鸢尾花数据集上，未调整的时候都可以有95%上下的准确率

3.1.5 探索降维之后的数据（查看降维后信息量的保存程度，explained_variance_，explained_variance_ratio_）

属性explained_variance_，查看降维后每个新特征向量上所带的信息量大小（可解释性方差的大小）

#降到几维就有几个可解释性方差
pca.explained_variance_

属性explained_variance_ratio，查看降维后每个新特征向量所占的信息量占原始数据总信息量的百分比，又叫做可解释方差贡献率

#特征的信息量占原数据的占比
pca.explained_variance_ratio_

降维后的总信息量

pca.explained_variance_ratio_.sum()

可以看出，数据在降维之后，信息量是有所损失的

3.1.6 选择最好的n_components：累积可解释方差贡献率曲线

当参数n_components中不填写任何值，则默认返回min(X.shape)个特征，一般来说，样本量都会大于特征数目，所以什么都不填就相当于转换了新特征空间，但没有减少特征的个数。

一般来说，不会使用这种输入方式。但我们却可以使用这种输入方式来画出累计可解释方差贡献率曲线，以此选择最好的n_components的整数取值。

累积可解释方差贡献率曲线是一条以降维后保留的特征个数为横坐标，降维后新特征矩阵捕捉到的可解释方差贡献率为纵坐标的曲线，能够帮助我们决定n_components最好的取值。

首先说明，np.cumsum()是用来做累加的

np.cumsum([1,2,3,4])

pca_line = PCA().fit(x)

#对使用不同个数的特征所带信息量的值进行累加
plt.plot([1,2,3,4],np.cumsum(pca_line.explained_variance_ratio_))
plt.xticks([1,2,3,4])
plt.xlabel("number of components after dimension reduction")
plt.ylabel("cumulative explained variance ratio")
plt.show()

通常来说选择经过拐点的之后线就变得平滑的这个拐点，作为我们所要的特征数量

3.2 最大似然估计自选超参数

除了输入整数，n_components还可以用最大似然估计(maximum likelihoodestimation)自选超参数的方法，输入“mle”作为n_components的参数输入，就可以调用这种方法，但是这种方法如果使用的话在数据大的时候，花费的时间也是非常大的。

pca_mle = PCA(n_components='mle')
pca_mle.fit(x)
x_mle = pca_mle.transform(x)

x_mle

可以发现，mle为我们自动选择了3个特征

#所带总的信息量的占比
pca_mle.explained_variance_ratio_.sum()

3.3 按信息量占比选超参数（在不知道降维到什么时候，可以先使用这个来进行判断，一般可以先看看80%或90%）

输入**[0,1]之间的浮点数**，并且让参数svd_solver =‘full’，表示希望降维后的总解释性方差占比大于n_components指定的百分比，即是说，希望保留百分之多少的信息量

比如说，如果我们希望保留97%的信息量，就可以输入n_components = 0.97，PCA会自动选出能够让保留的信息量超过97%的特征数量。

pca_f = PCA(n_components=0.97,svd_solver='full')
x_f = pca_f.fit_transform(x)

pca_f.explained_variance_ratio_.sum()

4. PCA中的SVD

4.1 PCA中的SVD哪里来？

在上面提到的svd_solver是奇异值分解器的意思，为什么PCA算法下面会有有关奇异值分解的参数？不是两种算法么？

PCA和SVD涉及了大量的矩阵计算，两者都是运算量很大的模型，但其实，SVD有一种惊人的数学性质，即是它可以跳过数学神秘的宇宙，不计算协方差矩阵，直接找出一个新特征向量组成的n维空间，而这个n维空间就是奇异值分解后的右矩阵 $V^T$

$\rightarrow 数学的神秘宇宙 \rightarrow UΣV^T$
$\rightarrow 一个比PCA简化非常多的数学过程 \rightarrow V^T$

右奇异矩阵 $V^T$ 有着如下性质：
$X_{dr}=X*V[:k]^T$

k就是n_components，是我们降维后希望得到的维度。若X为(m,n)的特征矩阵， $V^T$ 就是结构为(n,n)的矩阵，取这个矩阵的前k行（进行切片），即将V转换为结构为(k,n)的矩阵。而 $V_{(k,n)}^T$ 与原特征矩阵X相乘，即可得到降维后的特征矩阵X_dr。

奇异值分解可以不计算协方差矩阵等等结构复杂计算冗长的矩阵，就直接求出新特征空间和降维后的特征矩阵。

简而言之，SVD在矩阵分解中的过程比PCA简单快速，虽然两个算法都走一样的分解流程，但SVD可以作弊耍赖直接算出V。但是遗憾的是，SVD的信息量衡量指标比较复杂，要理解”奇异值“远不如理解”方差“来得容易。

sklearn将降维流程拆成了两部分：

一部分是计算特征空间V，由奇异值分解完成
另一部分是映射数据和求解新特征矩阵，由主成分分析完成

实现了用SVD的性质减少计算量，却让信息量的评估指标是方差，具体流程如下图：

sklearn将fit和transform分开的好处是，假如有两份数据，我是用一份数据进行fit，构建了一个特征向量空间，这个时候transform可以传入不同的数据，比如可以传入第二份数据而不用重新fit构建一个新的特征向量空间，大大缩短了数学的计算量

通过SVD和PCA的合作，sklearn实现了一种计算更快更简单，但效果却很好的“合作降维“。很多人理解SVD，是把SVD当作PCA的一种求解方法，其实指的就是在矩阵分解时不使用PCA本身的特征值分解，而使用奇异值分解来减少计算量。这种方法确实存在，但在sklearn中，矩阵U和Σ虽然会被计算出来（同样也是一种比起PCA来说简化非常多的数学过程，不产生协方差矩阵），但完全不会被用到，也无法调取查看或者使用，因此我们可以认为，U和Σ在fit过后就被遗弃了

奇异值分解追求的仅仅是V，只要有了V，就可以计算出降维后的特征矩阵。在transform过程之后，fit中奇异值分解的结果除了V(k,n)以外，就会被舍弃，而V(k,n)会被保存在属性components_ 当中，可以调用查看：

PCA(2).fit(X).components_

PCA(2).fit(x).components_.shape

返回的是 $V (k, n)$ 也就是新的特征向量空间，k就是降维后留下的特征个数，n是原数据的特征个数

这里的2代表的是需要降到的维度，4代表的是原数据特征的个数，

4.2 重要参数svd_solver 与 random_state

svd_solver

参数svd_solver是在降维过程中，用来控制矩阵分解的一些细节的参数。有四种模式可选：“auto”, “full”, “arpack”,“randomized”，默认”auto",通常就直接使用auto，计算不出来使用randomized。

"auto":
基于X.shape和n_components的默认策略来选择分解器：如果输入数据的尺寸大于500x500且要提
取的特征数小于数据最小维度min(X.shape)的80％，就启用效率更高的”randomized“方法。否则，精确完整的SVD将被计算，截断将会在矩阵被分解完成后有选择地发生
"full"：
从scipy.linalg.svd中调用标准的LAPACK分解器来生成精确完整的SVD，适合数据量比较适中，计算时间充足的情况，生成的精确完整的SVD的结构为： $U_{(m,m)},Σ_{(m,n)},V_{(n,n)}^T$
"arpack"：
从scipy.sparse.linalg.svds调用ARPACK分解器来运行截断奇异值分解(SVD truncated)，分解时就
将特征数量降到n_components中输入的数值k，可以加快运算速度，适合特征矩阵很大的时候，但一般用于特征矩阵为稀疏矩阵的情况，此过程包含一定的随机性。截断后的SVD分解出的结构为： $U_{(m,k)},Σ_{(k,k)},V_{(n,n)}^T$
"randomized":
通过Halko等人的随机方法进行随机SVD。在"full"方法中，分解器会根据原始数据和输入的
n_components值去计算和寻找符合需求的新特征向量，但是在"randomized"方法中，分解器会先生成多个随机向量，然后一一去检测这些随机向量中是否有任何一个符合我们的分解需求，如果符合，就保留这个随机向量，并基于这个随机向量来构建后续的向量空间。这个方法已经被Halko等人证明，比"full"模式下计算快很多，并且还能够保证模型运行效果。适合特征矩阵巨大，计算量庞大的情况

random_state

在参数svd_solver的值为"arpack" or "randomized"的时候生效，可以控制这两种SVD模式中的随机模式。

通常我们就选用”auto“，不必对这个参数纠结太多。

4.3 重要属性components_

PCA与特征选择的区别：
特征选择后的特征矩阵是可解读的，而PCA降维后的特征矩阵式不可解读的：PCA是将已存在的特征进行压缩，降维完毕后的特征不是原本的特征矩阵中的任何一个特征，而是通过某些方式组合起来的新特征

在新的特征矩阵生成之前，我们无法知晓PCA都建立了怎样的新特征向量，新特征矩阵生成之后也不具有可读性

在矩阵分解时，PCA是有目标的：
在原有特征的基础上，找出能够让信息尽量聚集的新特征向量。在sklearn使用的PCA和SVD联合的降维方法中，这些新特征向量组成的新特征空间其实就是V(k,n)。当V(k,n)是数字时，我们无法判断V(k,n)和原有的特征究竟有着怎样千丝万缕的数学联系。但是，如果原特征矩阵是图像，V(k,n)这个空间矩阵也可以被可视化的话，我们就可以通过两张图来比较，就可以看出新特征空间究竟从原始数据里提取了什么重要的信息。

4.4 通过迷你案例：人脸识别，了解属性components_的运用

4.4.1. 导入需要的库和模块

from sklearn.datasets import fetch_lfw_people #人脸识别数据
from sklearn.decomposition import PCA #PCA
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

4.4.2. 实例化数据集，探索数据

faces = fetch_lfw_people(min_faces_per_person=60)#参数是每个人取出60张脸的图
x = faces.data
faces

可以看出人脸识别多了一个images，他是一个三维的数组

faces.data.shape
>(1348, 2914)

faces.images.shape
>(1348, 62, 47)

#可以观察出，data是一个二维的数组，images是一个一维的数组
#但是对于sklearn只能使用二维的数组，不可以使用三维的数组（fit，transform）

#可以看出的是2914=32*47，也就是说可以将data的每一个特征都看成是一个二维的数组，
#因为图片是用像素来表示的，很多个像素块凑到一起就是一个图片，所以images才是真正可以画图的

4.4.3.看看图像什么样？将原特征矩阵进行可视化

数据本身是图像和数据本身是数字他们使用的可视化方法是不同的，对于图像需要使用subplots来建立画布

fig, ax = plt.subplots(4,5   #几行几列
                      ,figsize=[8,4] #每一个格长宽的占比
                      #用来设置不显示坐标轴
                      ,subplot_kw={'xticks':[],'yticks':[]} #设置每一个格的横纵坐标
                      )

#画布
fig

#画布对象
ax
ax.shape
>(4, 5)

二维结构，可以有两种循环方式，一种是使用索引，循环一次同时生成一列上的三个图
另一种是把数据拉成一维，循环一次只生成一个图

例如，我们使用子图对象.imshow 来将图像填充到空白画布上，而imshow要求的数据格式必须是一个(m,n)格式的矩阵，即每个数据都是一张单独的图

#将图像填充到第一个空
ax[0][0].imshow(faces.images[0,:,:])

#查看填充完的画布
fig

可以通过数组降维ravel(),flat等方法降维，由于在填充到画布的时候，需要提供数组下标，所以通过一个新的函数**enumerate（）**来生成对应的下表，并和其对象合成元组

a = [1,2,3,4,5,6]
[*enumerate(a)]

ax.ravel()

[*enumerate(ax.ravel())]

对于图片的颜色选择可以到Choosing Colormaps in Matplotlib

#i是数组下标，axes是图片对象
for i ,axes in enumerate(ax.ravel()):
    axes.imshow(faces.images[i,:,:] #第i个图片，后面的两个维度构成一张图片
             ,cmap='gray' #选取图片的颜色
             )

fig

4.4.4. 建模降维，提取新特征空间矩阵（在这里我分为了两种情况，第一种就是对上面的练习）

使用 3.3中按照信息量占比选超参数，首先选择特征信息99%

pca = PCA(n_components=0.99,svd_solver='full').fit(x)
x_f = pca.fit_transform(x)

pca.explained_variance_ratio_.sum()
>0.99004287

#查看返回的特征的数量
pca.explained_variance_ratio_.size
>413

pca = PCA(413).fit(x)

#通过components_获取V（k，n），新的特征向量空间
V = pca.components_
#压缩后的特征数，和原特征数
V.shape
>(413, 2914)

选择150

pca_1 = PCA(150).fit(x)

V_1 = pca_1.components_

4.4.5.将新特征空间矩阵可视化

对413个特征的进行可视化

fig, ax = plt.subplots(3,8
                      ,figsize=(8,4)
                      ,subplot_kw={'xticks':[],'yticks':[]})

#faces.images.shape[1],faces.images.shape[2]就是62，47
for i, axes in enumerate(ax.ravel()):
    axes.imshow(V[i].reshape(faces.images.shape[1],faces.images.shape[2]),cmap='gray')

对150个特征的进行可视化

pca_1 = PCA(150).fit(x)

V_1 = pca_1.components_
fig, ax = plt.subplots(3,8
                      ,figsize=(8,4)
                      ,subplot_kw={'xticks':[],'yticks':[]})

for i, axes in enumerate(ax.ravel()):
    axes.imshow(V_1[i].reshape(faces.images.shape[1],faces.images.shape[2]),cmap='gray')

4.4.6. 总结

可以看出，比起降维前的数据，新特征空间可视化后的人脸非常模糊，这是因为原始数据还没有被映射到特征空间中。但是可以看出，整体比较亮的图片，获取的信息较多，整体比较暗的图片，却只能看见黑漆漆的一块。在比较亮的图片中，眼睛，鼻子，嘴巴，都相对清晰，脸的轮廓，头发之类的比较糊。

这说明，新特征空间里的特征向量们，大部分是"五官"和"亮度"相关的向量，所以新特征向量上的信息肯定大部分是由原数据中和"五官"和"亮度"相关的特征中提取出来的。到这里，我们通过可视化新特征空间V，解释了一部分降维后的特征：虽然显示出来的数字看着不知所云，但画出来的图表示，这些特征是和”五官“以及”亮度“有关的。这也再次证明了，PCA能够将原始数据集中重要的数据进行聚集。

5.重要接口inverse_transform

在特征工程中，我们学到了神奇的接口inverse_transform，可以将我们归一化，标准化，甚至做过哑变量的特征矩阵还原回原始数据中的特征矩阵，这几乎在向我们暗示，任何有inverse_transform这个接口的过程都是可逆的。

5.1迷你案例：用人脸识别看PCA降维后的信息保存量

人脸识别是最容易的，用来探索inverse_transform功能的数据.

先调用一组人脸数据X(m,n)，对人脸图像进行绘制，然后我们对人脸数据进行降维得到X_dr，之后再使用inverse_transform(X_dr)返回一个X_inverse(m,n)，并对这个新矩阵中的人脸图像也进行绘制。如果PCA的降维过程是可逆的，我们应当期待X(m,n)和X_inverse(m,n)返回一模一样的图像，即携带一模一样的信息。

利用在 4.4写的代码中得到的，413个特征的pca和150个特征的pca_1

5.1.1. 获取降维后的特征矩阵x_dr

413个特征

x_dr = pca.transform(x)
x_dr.shape
>(1348, 413)

150个特征

x1_dr = pca_1.transform(x)
x1_dr.shape
>(1348, 150)

5.1.2. 将降维后矩阵用inverse_transform返回原空间

#413个特征逆转
x_inverse = pca.inverse_transform(x_dr)

#150个特征逆转
x1_inverse = pca_1.inverse_transform(x1_dr)

5.1.3.将特征矩阵X和X_inverse可视化

fig, ax = plt.subplots(2,10
                  ,figsize=[10,2.5]
                  ,subplot_kw={'xticks':[],'yticks':[]})

我们需要对子图对象进行遍历的循环，来将图像填入子图中，我们需要同时循环两份数据，即一次循环画一列上的两张图，而不是把ax拉平，因为现在我们的ax中是2行10列，第一行是原数据，第二行是inverse_transform后返回的数据

413特征

for i in range(10):
	#第一行是原数据的图像
    ax[0,i].imshow(faces.images[i,:,:],cmap='binary_r')
	#第二行是pca降维后通过inverse逆转的图像
    ax[1,i].imshow(x_inverse[i].reshape(62,47),cmap='binary_r')

150特征

for i in range(10):
	#第一行是原数据的图像
    ax[0,i].imshow(faces.images[i,:,:],cmap='binary_r')
    #第二行是pca降维后通过inverse逆转的图像
    ax[1,i].imshow(x1_inverse[i].reshape(62,47),cmap='binary_r')

fig

可以明显看出，这两组数据可视化后，由降维后再通过inverse_transform转换回原维度的数据画出的图像和原数据画的图像大致相似，但原数据的图像明显更加清晰。这说明，inverse_transform并没有实现数据的完全逆转。

在降维的时候，部分信息已经被舍弃了，X_dr中往往不会包含原数据100%的信息，所以在逆转的时
候，即便维度升高，原数据中已经被舍弃的信息也不可能再回来了。所以，降维不是完全可逆的。

Inverse_transform的功能，是基于X_dr中的数据进行升维，将数据重新映射到原数据所在的特征空间中，而并非恢复所有原有的数据。

同时可以观察出，保留99%特征信息的（413）要比特征数150的要更清楚一些

5.2 迷你案例：用PCA做噪音过滤

降维的目的之一就是希望抛弃掉对模型带来负面影响的特征，而我们相信，带有效信息的特征的方差应该是远大于噪音的，所以相比噪音，有效的特征所带的信息应该不会在PCA过程中被大量抛弃

inverse_transform能够在不恢复原始数据的情况下，将降维后的数据返回到原本的高维空间，即是说能够实现”保证维度，但去掉方差很小特征所带的信息“。利用inverse_transform的这个性质，我们能够实现噪音过滤。

5.2.1.导入所需要的库和模块

from sklearn.datasets import load_digits #手写数字
from sklearn.decomposition import PCA
import numpy as np
import matplotlib.pyplot as plt

5.2.2.导入数据，探索数据

digits = load_digits()
digits

digits.data.shape
>(1797, 64)

digits.images.shape
>(1797, 8, 8)

5.2.3.定义画图函数(忘记代码的含义参考4.4中的第三步)

#传入的data必须是二维数组，并且特征要有64个
def plot_digits(data):
    fig, axes = plt.subplots(4,10
                            ,figsize=[10,4]
                            ,subplot_kw={'xticks':[],'yticks':[]})
    for i, ax in enumerate(axes.ravel()):
        ax.imshow(data[i].reshape(8,8),cmap='binary')

看原数据的图像

plot_digits(digits.data)

5.2.4.为数据加上噪音

rng = np.random.RandomState(50)

#在指定的数据集中，随机抽取服从正态分布的数据
#两个参数，分别是指定的数据集，和抽取出来的正太分布的方差
#方差越大越凌乱
noisy = rng.normal(digits.data,2)
plot_digits(noisy)

5.2.5.降维

pca = PCA(0.7,svd_solver='full').fit(noisy)

x_dr = pca.transform(noisy)
x_dr.shape

>(1797, 13)

5.2.6. 逆转降维结果，实现降噪

without_noise = pca.inverse_transform(x_dr)
without_noise.shape

>(1797, 64)

plot_digits(without_noise)

重要接口，参数和属性总结

重要参数：

n_components：降维后所需要的维度
svd_solver：控制矩阵分解的参数（auto,full,arpack,randomized）
random_state：控制arpack,randomized的随机模式

重要属性：

components_：新特征向量空间
explained_variance_：降维后信息量的大小
explained_variance_ratio_：降维后信息量的占比

接口：

fit：训练
transform：导出结果
fit_transform：两步和一
inverse_transform：逆转降维的数据

你可能感兴趣的:(算法,机器学习,人工智能)

【软件系统架构】系列四：数字信号处理器（DSP）
目录一、什么是DSP？二、DSP的核心架构特点1.基本结构2.工作流程：3.关键特性：三、DSP与MCU/MPU/NPU的对比四、DSP与通用处理器的对比五、常用DSP算法类型六、常见DSP芯片平台七、开发工具链与语言支持八、典型应用场景举例通信领域：音频处理：图像与视频处理：工业控制：军事与航空航天：九、选型关键因素十、技术趋势总结一、什么是DSP？DSP（DigitalSignalProces
AI 技术&AI开发框架 34号树洞人工智能深度学习人工智能机器学习 NLP GAI
目录一、AI技术及其开发框架1.AI技术分类与代表方向2.主流AI开发框架3.AI应用开发流程简述4.补充：基础依赖与生态二、AI技术方向1.机器学习（MachineLearning,ML）✦核心概念：✦关键方法：✦应用案例：2.深度学习（DeepLearning,DL）✦核心概念：✦网络结构举例：✦技术趋势：3.自然语言处理（NLP）✦核心任务：✦代表模型：4.计算机视觉（ComputerVis
机器学习算法——神经网络1（神经元模型）
神经网络是由具有适应性的简单单元组成的广泛并行互连的网络，它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应。神经网络中最基本的成分是神经元（neuron）模型。即上述定义中的“简单单元”。在生物神经网络中，每个神经元与其他申请元相连，当它“兴奋”时，就会向相连的神经元发送化学物质，从而改变这些神经元内的电位；如果某神经元的电位超过一个“阈值”，那么它就会被激活，即“兴奋”起来，向其他神经
【学习】《算法图解》第八章学习笔记：平衡树自学也学好编程程序人生
前言在上一章中，我们学习了二叉搜索树(BST)的基本概念和操作。虽然BST在平均情况下提供了O(logn)的搜索、插入和删除效率，但在最坏情况下（如按顺序插入数据），它可能退化为链表，导致操作效率降为O(n)。为了解决这个问题，《算法图解》第八章介绍了平衡树的概念和几种主要的平衡树结构，这些结构能够在各种情况下保持较好的平衡性，确保操作的高效性。一、平衡树的基本概念（一）什么是平衡树平衡树是一种特
【分治算法】【Python实现】Strassen矩阵乘法「已注销」 #分治算法分治算法 Python
文章目录@[toc]问题描述基础算法时间复杂性Strassen算法时间复杂性问题时间复杂性Python实现个人主页：丷从心·系列专栏：分治算法学习指南：算法学习指南问题描述设AAA和BBB是两个n×nn\timesnn×n矩阵，AAA和BBB的乘积矩阵CCC中元素cij=∑k=1naikbkjc_{ij}=\displaystyle\sum\limits_{k=1}^{n}{a_{ik}b_{kj
【算法设计与分析】（三）二分搜索技术与大整数乘法珹洺 #算法设计与分析算法
【算法设计与分析】（三）二分搜索技术与大整数乘法前言一、二分搜索技术1.为什么需要二分搜索？2.二分搜索怎么做？3.为什么说它很快？4.哪些场景会用到？二、大整数乘法1.问题来了：数字太大怎么办？2.传统方法3.用分治思想优化4.Karatsuba算法：具体怎么算？5.效率提升有多大？6.实际应用场景总结前言在上一篇博客中，我们已深入剖析了递归的本质内涵与分治法的核心思想——通过将复杂问题分解为规
【算法设计与分析】（四）Strassen 矩阵珹洺 #算法设计与分析算法矩阵线性代数
【算法设计与分析】（四）Strassen矩阵前言一、传统矩阵乘法二、Strassen矩阵乘法1.算法步骤2.效率提升三、实际应用场景四、算法的局限性与改进前言上一篇博客我们以生动形象的例子和清晰的步骤，为大家详细讲解了二分搜索技术与大整数乘法。接下来，这篇博客将带大家深入探索**Strassen矩阵**乘法，感受算法优化魅力。我的个人主页，欢迎来阅读我的其他文章https://blog.csdn.
MCP如何助力智能交通系统？从数据融合到精准决策 Echo_Wish Python 进阶 python 开发语言
MCP如何助力智能交通系统？从数据融合到精准决策近年来，智能交通系统（ITS）正在全球范围内快速发展，它结合人工智能（AI）、物联网（IoT）和数据分析，致力于提高交通效率、减少拥堵、增强安全性。而MCP（Multi-ConstraintPathfinding，多约束路径寻优）技术作为一种复杂路径优化算法，在智能交通系统中扮演着重要角色，尤其是在导航优化、公共交通调度、应急响应等场景。今天，我们就
AI如何提升个性化广告精准度——让投放更智能、更懂用户 Echo_Wish 前沿技术人工智能人工智能
AI如何提升个性化广告精准度——让投放更智能、更懂用户随着人工智能（AI）技术的发展，个性化广告已经从粗暴推送演变为智能匹配，广告主再也不想把预算砸给不感兴趣的人，而是精准触达有购买意向的用户。AI在广告投放中的核心优势在于深度数据分析、智能推荐、实时优化，让广告投放更精准、更有效。今天，我们就来聊聊AI如何提升个性化广告的精准度，并用Python代码演示其中的关键技术。1.为什么传统广告投放越来
解锁云原生微服务架构：搭建与部署实战全攻略奔跑吧邓邓子必备核心技能云原生架构微服务搭建与部署实战全攻略
目录一、引言二、微服务拆分2.1拆分的必要性2.2拆分方法2.3注意事项三、服务注册与发现3.1概念与原理3.2常用组件介绍3.3实践案例四、负载均衡4.1作用与原理4.2实现方式4.3负载均衡算法4.4案例与代码实现4.4.1项目依赖配置4.4.2配置Ribbon4.4.3代码实现负载均衡调用五、容器化部署5.1容器化技术基础5.2容器化部署流程5.2.1编写Dockerfile5.2.2构建D
YOLOv13：开启目标检测新时代，手把手教你实操奔跑吧邓邓子必备核心技能 YOLO 目标检测目标跟踪人工智能实操
目录一、YOLOv13初印象1.1YOLO系列发展脉络1.2YOLOv13独特之处二、前期准备工作2.1环境搭建2.2依赖安装三、深入使用指南3.1模型验证3.2模型训练3.3模型推理四、应用案例与拓展4.1实际场景应用展示4.2与其他技术结合思路五、总结与展望一、YOLOv13初印象1.1YOLO系列发展脉络YOLO（YouOnlyLookOnce）系列算法在目标检测领域中，就如同一位不断进化的
道可云人工智能每日资讯｜江苏首个机器人训练中心在苏州吴江启动道可云道可云人工智能人工智能机器人 ar DeepSeek xr 百度
道可云人工智能&元宇宙每日简报（2025年6月26日）讯，今日人工智能&元宇宙新鲜事有：江苏首个机器人训练中心在苏州吴江启动近日，长三角一体化示范区智能机器人训练中心在东太湖度假区（太湖新城）正式启用，成为江苏省首个机器人智能训练中心。该中心占地1500平方米，设有8个训练场景和30个生产工位，涵盖智能制造、商业服务、特种应用三大领域，年产数据可超200万条，旨在加速机器人从实验室走向真实产业场景
道可云人工智能每日资讯｜《辽宁省促进人工智能创新发展实施方案》发布道可云道可云人工智能人工智能 ar DeepSeek xr
道可云人工智能&元宇宙每日简报（2025年6月13日）讯，今日人工智能&元宇宙新鲜事有：《辽宁省促进人工智能创新发展实施方案》发布近日，辽宁省人民政府办公厅印发《辽宁省促进人工智能创新发展实施方案》。根据《实施方案》可知，到2027年，实现以沈阳、大连“双核”牵引辐射带动，各地协同共进，千行百业深度赋能，打造人工智能创新发展和融合应用的新高地。人工智能赋能可持续发展论坛于成都市天府国际会议中心举办
Java AI 新纪元：Spring AI 与 Spring AI Alibaba 的崛起小沛9 Spring AI Alibaba Spring AI java 人工智能 spring spring ai SAA
此章节没什么营养，只是一个描述，同时也能看到AI的能力（文章基本都是AI进行生成的），小沛觉得开始不写点引言好像差了点什么东西，好像鱼离开了自行车。引言：AI时代对Java开发者的机遇与挑战，Java在AI领域的现状在当今技术飞速发展的时代，人工智能（AI）已不再是遥不可及的未来概念，而是深刻地融入到我们生活的方方面面，从智能推荐系统到自动驾驶，从自然语言处理到计算机视觉，AI正以前所未有的速度改
Java 开发新手必看：Eclipse 基础操作 Java大师兄学大数据AI应用开发 java eclipse python ai
Java开发新手必看：Eclipse基础操作关键词：Java开发、Eclipse、基础操作、新手入门、集成开发环境摘要：本文专为Java开发新手打造，详细介绍了Eclipse这一强大集成开发环境的基础操作。从背景知识入手，逐步解释核心概念，深入剖析核心算法原理，通过项目实战展示具体操作，还介绍了实际应用场景、工具资源推荐以及未来发展趋势。旨在帮助新手快速上手Eclipse，开启Java开发之旅。背
统一认证、限流、Mock 一网打尽！用 APISIX/Kong 让低代码平台更清爽网罗开发实战源码前端 kong 低代码
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
浅谈新能源与计算机萝萝仔笔记能源计算机新能源
最刚开始听到老师说让谈新能源跟计算机的关系的时候，我是感觉怎么这两者完全扯不上什么联系，根本就是两个不同领域啊。后来想着计算机本身也是需要能源支撑着的，这不就是联系所在，而且就我现在的专业——计算机系统结构而言，现在越来越多的研究想要做到计算机的能耗与效率的负载均衡，从体系结构层次、软件层次、算法层次，都是想要尽量节约计算机的能源。再后来想着我本科的专业——物联网工程，其实就是提倡物物相连的一个概
红黑树与2-3树：插入、删除操作的时间复杂度与实现机制比较一键难忘红黑树数据结构
本文收录于专栏：算法之翼红黑树与2-3树：插入、删除操作的时间复杂度与实现机制比较红黑树（Red-BlackTree）和2-3树（2-3Tree）是两种广泛用于平衡二叉查找树的自平衡树结构。它们在插入、删除和查找操作中的性能都表现良好，并且可以确保树的高度是对数级别，从而保证了高效的操作时间。本文将对红黑树和2-3树进行深入的比较，并结合代码实例说明它们的实现和应用。1.数据结构简介1.1红黑树简
【力扣hot100】python刷题笔记之哈希 Animato. 哈希算法 leetcode 笔记
1.两数之和（简单）题目描述：给定一个整数数组nums和一个整数目标值target，请你在该数组中找出和为目标值target的那两个整数，并返回它们的数组下标。你可以假设每种输入只会对应一个答案，并且你不能使用两次相同的元素。你可以按任意顺序返回答案。示例：解法一：暴力解法：双层循环（这里就不给代码了）解法二：哈希表（时间复杂度O(n)）算法思路：（1）先创建一个空字典当做哈希表来存储已经遍历过的
生成式AI技术对未来知识生产模式的颠覆性影响：跨学科案例分析德宿人工智能
引言随着人工智能技术的迅猛发展，生成式AI作为一种革命性技术正在深刻地改变人类知识生产和学术研究的范式。生成式AI不仅能够创建原创内容，还能模拟人类思维过程，处理和生成大量数据，从而在各个学科领域展现出广阔的应用前景。本研究报告旨在深入探讨生成式AI技术对未来知识生产模式的颠覆性影响，通过对比传统学术研究与AI辅助研究的范式差异，并选取医学、法学、文学、经济学和艺术学等五个典型领域进行深度案例分析
ChatGPT驱动的跨学科研究灵感挖掘指南学境思源AcademicIdeas 学境思源 AI写作 ChatGPT chatgpt
跨学科研究已成为解决复杂问题的重要手段。学境思源，无论是人工智能与心理学的结合，一键生成论文初稿！还是生态学与经济学的融合，越来越多的研究者正试图打破学科界限，探索全新问题域。但问题是：acaids.com。我们如何高效发现这些跨学科交叉点？使用传统方式，像文献综述、领域专家访谈或大型头脑风暴虽有效，但耗时，且受限于已有认知。今天为大家分享一种高效、智能、可复制的方法——利用ChatGPT进行跨学
大模型本地部署，拥有属于自己的ChatGpt 小妖同学学AI chatgpt
ChatGpt以其强大的信息整合和对话能力惊艳了全球，在自然语言处理上面表现出了惊人的能力。不管用于文案撰写还是程序辅助开发都大大提高了我们的工作效率，但是其使用有一定的门槛，让我们大多数人都望而却步，今天我们利用ollama实现本地大模型的步骤，让我们轻松拥有自己的人工智能。Ollama作为一个轻量级的工具，可以帮助用户在本地运行这些大型语言模型，无需持续依赖云服务，既保护了数据隐私，又能减少网
左神算法之矩阵旋转90度岳轩子左神算法算法矩阵线性代数
目录旋转矩阵90度（原地操作）1.题目2.解释3.思路4.代码5.总结6.其他旋转矩阵90度（原地操作）1.题目旋转矩阵90度，且只能用有限的几个变量。比如下面的矩阵：12345678910111213141516转换结果为：139511410621511731612842.解释旋转矩阵90度是指将矩阵顺时针旋转90度。观察旋转前后的变化可以发现：原矩阵的第一行变为旋转后矩阵的最后一列原矩阵的第二
左神算法之二叉树最大路径和问题岳轩子左神算法算法深度优先
二叉树最大路径和问题（Java实现）文章目录二叉树最大路径和问题（Java实现）1.题目描述2.问题解释3.解决思路4.代码实现5.总结1.题目描述给定一棵二叉树，其中每个节点都包含一个整型权值。要求计算从根节点到叶节点的所有路径中，权值和最大的值是多少。2.问题解释必须从根节点出发到叶子节点结束需要遍历所有可能的路径找出所有路径和中最大的那个值叶子节点是指没有子节点的节点3.解决思路采用深度优先
矩阵（二维数组）局部极大/小值-python实现银河系渐入佳境编程指南算法 python 算法矩阵
题目来源：某为面试/算法第四版：Algs4-1.4.19矩阵的局部最小元素参考思路：传送CODE：importnumpyasnp'''deffindMin():arr=np.random.rand(10,10)index_arr=np.zeros((10,10))foriinrange(arr.shape[0]):forjinrange(arr.shape[1]):ifi>0andi0andj
PPT 要你好看（全彩）又是一个装逼的
分享一下我老师大神的人工智能教程！零基础，通俗易懂！http://blog.csdn.net/jiangjunshow也欢迎大家转载本篇文章。分享知识，造福人民，实现我们中华民族伟大复兴！PPT,要你好看（全彩）杨臻编著ISBN978-7-121-14725-82011年11月出版定价：49.90元16开264页宣传语：般若黑洞▪百万点击之升华16位知名PPT高手联袂热议内容简介此刻呈现在你面前的
左神算法之有序二维矩阵中的目标值查找岳轩子左神算法算法矩阵线性代数
有序二维矩阵中的目标值查找目录有序二维矩阵中的目标值查找1.题目描述2.问题解释3.解决思路方法一：逐行二分查找（适合行数较少的情况）方法二：利用行列有序特性（最优解）4.代码实现5.总结1.题目描述给定一个元素为非负整数的二维数组matrix，其中：每一行按照从左到右递增的顺序排列每一列按照从上到下递增的顺序排列再给定一个非负整数aim，请判断aim是否存在于matrix中。示例：int[][]
技术开发全流程管理：涵盖天线系统的仿真建模（HFSS/CST等）、原型设计、调试优化（网络分析仪/暗室测试）到量产导入（LDS工艺识别），需主导技术文档编写（设计规范/测试报告）。百态老人网络设计规范
以下是针对天线系统技术开发全流程管理的完整解析，涵盖仿真建模、原型设计、调试优化、量产导入及技术文档编写五大环节，结合行业实践与资料核心信息进行系统阐述：一、仿真建模（HFSS/CST）1.软件选择与算法差异HFSS：基于有限元法（FEM），擅长电小尺寸、窄带天线设计（如微带天线、滤波电路），可精确计算辐射方向图、增益、S参数等。其自适应网格技术确保高精度，但计算资源消耗大，不适于电大尺寸模型。C
Spring AI 结合 MCP MySQL 实现对话式数据库查询没刮胡子软件开发技术实战专栏人工智能AI Spring 数据库 spring 人工智能 spring-ai mcp-server mysql
在现代应用开发中，将人工智能与数据库查询结合可以创造更自然、更智能的用户交互方式。下面我将详细介绍如何使用SpringAI框架结合MCP（可能指MySQL连接池或相关组件）实现对话中的数据库查询功能。什么是SpringAI和MCPMySQLSpringAI框架概述SpringAI是基于Spring生态的人工智能集成框架，它提供了：与大型语言模型(LLM)的集成能力对话管理和自然语言处理功能业务逻辑
MiniMax - M1：开源大模型的革命性突破
开源大模型MiniMax-M1研究报告一、引言在人工智能技术飞速发展的当下，大模型领域的竞争愈发激烈。开源大模型以其开放性、可定制性和社区协作的优势，逐渐成为推动人工智能技术进步的重要力量。MiniMax-M1作为全球首个开源大规模混合架构的推理模型，一经发布便引起了广泛关注。它在长上下文处理、推理效率和成本控制等方面展现出了卓越的性能，为人工智能的发展带来了新的思路和方向。本文将对MiniMax
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n
【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析 bit1129 Stream
以如下代码为例（SocketInputDStream）： Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据
spark master web ui 端口8080被占用解决方法 daizj 8080 端口占用 spark master web ui
spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1，但为了可以控制到指定的端口，我们可以自行设置，修改方法： 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分
oracle_执行计划_谓词信息和数据获取周凡杨 oracle 执行计划
oracle_执行计划_谓词信息和数据获取(上) 一：简要说明在查看执行计划的信息中，经常会看到两个谓词filter和access，它们的区别是什么，理解了这两个词对我们解读Oracle的执行计划信息会有所帮助。简单说，执行计划如果显示是access，就表示这个谓词条件的值将会影响数据的访问路径（表还是索引），而filter表示谓词条件的值并不会影响数据访问路径，只起到
spring中datasource配置 g21121 dataSource
datasource配置有很多种，我介绍的一种是采用c3p0的，它的百科地址是： http://baike.baidu.com/view/920062.htm  <bean name="propertiesConfig" class="org.springframework.b
web报表工具FineReport使用中遇到的常见报错及解决办法（三）老A不折腾 finereport FAQ 报表软件
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、repeated column width is largerthan paper width：这个看这段话应该是很好理解的。比如做的模板页面宽度只能放
mysql 用户管理墙头上一根草 linux mysql user
1.新建用户 //登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’));//刷新系统权限表mysql>flush privileges;这样就创建了一个名为：
关于使用Spring导致c3p0数据库死锁问题 aijuans spring Spring 入门 Spring 实例 Spring3 Spring 教程
这个问题我实在是为整个 springsource 的员工蒙羞如果大家使用 spring 控制事务，使用 Open Session In View 模式， com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.
百度词库联想 annan211 百度
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title&g
int数据与byte之间的相互转换实现代码百合不是茶位移 int转byte byte转int 基本数据类型的实现
在BMP文件和文件压缩时需要用到的int与byte转换,现将理解的贴出来; 主要是要理解;位移等概念 http://baihe747.iteye.com/blog/2078029 int转byte; byte转int; /** * 字节转成int,int转成字节 * @author Administrator *
简单模拟实现数据库连接池 bijian1013 java thread java多线程简单模拟实现数据库连接池
简单模拟实现数据库连接池实例1： package com.bijian.thread; public class DB { //private static final int MAX_COUNT = 10; private static final DB instance = new DB(); private int count = 0; private i
一种基于Weblogic容器的鉴权设计 bijian1013 java weblogic
服务器对请求的鉴权可以在请求头中加Authorization之类的key，将用户名、密码保存到此key对应的value中，当然对于用户名、密码这种高机密的信息，应该对其进行加砂加密等，最简单的方法如下： String vuser_id = "weblogic"; String vuse
【RPC框架Hessian二】Hessian 对象序列化和反序列化 bit1129 hessian
任何一个对象从一个JVM传输到另一个JVM，都要经过序列化为二进制数据(或者字符串等其他格式，比如JSON)，然后在反序列化为Java对象，这最后都是通过二进制的数据在不同的JVM之间传输(一般是通过Socket和二进制的数据传输)，本文定义一个比较符合工作中。 1. 定义三个POJO Person类 package com.tom.hes
【Hadoop十四】Hadoop提供的脚本的功能 bit1129 hadoop
1. hadoop-daemon.sh 1.1 启动HDFS ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode 通过这种逐步启动的方式，比start-all.sh方式少了一个SecondaryNameNode进程，这不影响Hadoop的使用，其实在 Hadoop2.0中，SecondaryNa
中国互联网走在“灰度”上 ronin47 管理灰度
中国互联网走在“灰度”上（转）文/孕峰第一次听说灰度这个词，是任正非说新型管理者所需要的素质。第二次听说是来自马化腾。似乎其他人包括马云也用不同的语言说过类似的意思。灰度这个词所包含的意义和视野是广远的。要理解这个词，可能同样要用“灰度”的心态。灰度的反面，是规规矩矩，清清楚楚，泾渭分明，严谨条理，是决不妥协，不转弯，认死理。黑白分明不是灰度，像彩虹那样
java-51-输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。 bylijinnan java
public class PrintMatrixClockwisely { /** * Q51.输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。例如：如果输入如下矩阵： 1 2 3 4 5 6 7 8 9
mongoDB 用户管理开窍的石头 mongoDB用户管理
1:添加用户第一次设置用户需要进入admin数据库下设置超级用户（use admin） db.addUsr({user:'useName',pwd:'111111',roles:[readWrite,dbAdmin]}); 第一个参数用户的名字第二个参数
[游戏与生活]玩暗黑破坏神3的一些问题 comsci 生活
暗黑破坏神3是有史以来最让人激动的游戏。。。。但是有几个问题需要我们注意玩这个游戏的时间，每天不要超过一个小时，且每次玩游戏最好在白天结束游戏之后，最好在太阳下面来晒一下身上的暗黑气息，让自己恢复人的生气 &nb
java 二维数组如何存入数据库 cuiyadll java
using System; using System.Linq; using System.Text; using System.Windows.Forms; using System.Xml; using System.Xml.Serialization; using System.IO; namespace WindowsFormsApplication1 {
本地事务和全局事务Local Transaction and Global Transaction(JTA) darrenzhu java spring local global transaction
Configuring Spring and JTA without full Java EE http://spring.io/blog/2011/08/15/configuring-spring-and-jta-without-full-java-ee/ Spring doc -Transaction Management http://docs.spring.io/spri
Linux命令之alias - 设置命令的别名，让 Linux 命令更简练 dcj3sjt126com linux alias
用途说明设置命令的别名。在linux系统中如果命令太长又不符合用户的习惯，那么我们可以为它指定一个别名。虽然可以为命令建立“链接”解决长文件名的问题，但对于带命令行参数的命令，链接就无能为力了。而指定别名则可以解决此类所有问题【1】。常用别名来简化ssh登录【见示例三】，使长命令变短，使常用的长命令行变短，强制执行命令时询问等。常用参数格式：alias 格式：ali
yii2 restful web服务[格式响应] dcj3sjt126com PHP yii2
响应格式当处理一个 RESTful API 请求时，一个应用程序通常需要如下步骤来处理响应格式：确定可能影响响应格式的各种因素，例如媒介类型，语言，版本，等等。这个过程也被称为 content negotiation。资源对象转换为数组，如在 Resources 部分中所描述的。通过 [[yii\rest\Serializer]]
MongoDB索引调优（2）——[十] eksliang mongodb MongoDB索引优化
转载请出自出处：http://eksliang.iteye.com/blog/2178555 一、概述上一篇文档中也说明了，MongoDB的索引几乎与关系型数据库的索引一模一样，优化关系型数据库的技巧通用适合MongoDB，所有这里只讲MongoDB需要注意的地方二、索引内嵌文档可以在嵌套文档的键上建立索引，方式与正常
当滑动到顶部和底部时，实现Item的分离效果的ListView gundumw100 android
拉动ListView，Item之间的间距会变大，释放后恢复原样； package cn.tangdada.tangbang.widget; import android.annotation.TargetApi; import android.content.Context; import android.content.res.TypedArray; import andr
程序员用HTML5制作的爱心树表白动画 ini JavaScript jquery Web html5 css
体验效果：http://keleyi.com/keleyi/phtml/html5/31.htmHTML代码如下： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"><head><meta charset="UTF-8" > <ti
预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版 kakajw ThinkPad 预装改装 windows 7 windows 8
该教程具有普遍参考性，特别适用于联想的机器，其他品牌机器的处理过程也大同小异。该教程是个人多次尝试和总结的结果，实用性强，推荐给需要的人！缘由小弟最近入手笔记本ThinkPad T440，但是特别不能习惯笔记本出厂预装的Windows 8系统，而且厂商自作聪明地预装了一堆没用的应用软件，消耗不少的系统资源（本本的内存为4G，系统启动完成时，物理内存占用比
Nginx学习笔记 mcj8089 nginx
一、安装nginx 1、在nginx官方网站下载一个包，下载地址是： http://nginx.org/download/nginx-1.4.2.tar.gz 2、WinSCP(ftp上传工
mongodb 聚合查询每天论坛链接点击次数 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 18 */ { "_id" : ObjectId("5596414cbe4d73a327e50274"), "msgType" : "text", "sendTime" : ISODate("2015-07-03T08:01:16.000Z"
java术语（PO/POJO/VO/BO/DAO/DTO） Luob. DAO POJO DTO po VO BO
PO(persistant object) 持久对象在o/r 映射的时候出现的概念,如果没有o/r映射,就没有这个概念存在了.通常对应数据模型(数据库),本身还有部分业务逻辑的处理.可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合.PO中应该不包含任何对数据库的操作. VO(value object) 值对象通
算法复杂度 Wuaner Algorithm
Time Complexity & Big-O： http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o http://bigocheatsheet.com/ http://www.sitepoint.com/time-complexity-algorithms/