阿尔法旺旺

机器学习中的降维算法汇总归纳

最近看了降维的各类算法，想简单做个回顾和小结，先上图

一、浅谈协方差矩阵

1.1、统计学的基本概念

均值： x ¯ =∑ n i=1 x i n

方差： var(x)=∑ n i=1 (x i −x ¯ ) 2 n−1

标准差： var(x) − − − − − √

均值描述的是样本集合的中间点，它告诉我们的信息是有限的，而标准差给我们描述的是样本集合的各个样本点到均值的距离之平均。

以这两个集合为例，[0, 8, 12, 20]和[8, 9, 11, 12]，两个集合的均值都是10，但显然两个集合的差别是很大的，计算两者的标准差，前者是8.3后者是1.8，显然后者较为集中，故其标准差小一些，标准差描述的就是这种“散布度”。之所以除以n-1而不是n，是因为这样能使我们以较小的样本集更好地逼近总体的标准差，即统计上所谓的“无偏估计”。而方差则仅仅是标准差的平方。

1.2、为啥需要协方差

标准差和方差一般是用来描述一维数据的，但现实生活中我们常常会遇到含有多维数据的数据集，最简单的是大家上学时免不了要统计多个学科的考试成绩。面对这样的数据集，我们当然可以按照每一维独立的计算其方差，但是通常我们还想了解更多，比如，一个男孩子的猥琐程度跟他受女孩子的欢迎程度是否存在一些联系。协方差就是这样一种用来度量两个随机变量关系的统计量，我们可以仿照方差的定义： var(x)=∑ n i=1 (x i −x ¯ ) 2 n−1

来度量各个维度偏离其均值的程度，协方差可以这样来定义：

cov(x,y)=∑ n i=1 (x i −x ¯ )(y i −y ¯ )n−1

协方差的结果有什么意义呢？如果结果为正值，则说明两者是正相关的（从协方差可以引出“相关系数”的定义），也就是说一个人越猥琐越受女孩欢迎。如果结果为负值，就说明两者是负相关，越猥琐女孩子越讨厌。如果为0，则两者之间没有关系，猥琐不猥琐和女孩子喜不喜欢之间没有关联，就是统计上说的“相互独立”。

从协方差的定义上我们也可以看出一些显而易见的性质，如：

1、 cov(X,X)=var(X)
2、 cov(X,Y)=cov(Y,X)

1.3、协方差矩阵

前面提到的猥琐和受欢迎的问题是典型的二维问题，而协方差也只能处理二维问题，那维数多了自然就需要计算多个协方差，比如n维的数据集就需要计算 n!(n−2)!∗2 个协方差，那自然而然我们会想到使用矩阵来组织这些数据。给出协方差矩阵的定义：

C n∗n =(c i,j ,c i,j =cov(Dim i ,Dim j ))

这个定义还是很容易理解的。协方差矩阵是一个对称的矩阵，而且对角线是各个维度的方差。

1.4、小结

理解协方差矩阵的关键就在于牢记它的计算是不同维度之间的协方差，而不是不同样本之间。拿到一个样本矩阵，最先要明确的就是一行是一个样本还是一个维度，心中明确整个计算过程就会顺流而下，这么一来就不会迷茫了。

二、PCA（主成分分析）

本质上讲，PCA就是将高维的数据通过线性变换投影到低维空间上去，但这个投影可不是随便投投，要遵循一个指导思想，那就是：找出最能够代表原始数据的投影方法。这里怎么理解这个思想呢？“最能代表原始数据”希望降维后的数据不能失真，也就是说，被PCA降掉的那些维度只能是那些噪声或是冗余的数据。这里的噪声和冗余我认为可以这样认识：

我们常说“噪音污染”，意思就是“噪声”干扰我们想听到的真正声音。同样，假设样本中某个主要的维度A，它能代表原始数据，是“我们真正想听到的东西”，它本身含有的“能量”(即该维度的方差，为啥？别急，后文该解释的时候就有啦~)本来应该是很大的，但由于它与其他维度有那么一些千丝万缕的相关性，受到这些个相关维度的干扰，它的能量被削弱了，我们就希望通过PCA处理后，使维度A与其他维度的相关性尽可能减弱，进而恢复维度A应有的能量，让我们“听的更清楚”！
冗余：冗余也就是多余的意思，就是有它没它都一样，放着就是占地方。同样，假如样本中有些个维度，在所有的样本上变化不明显(极端情况：在所有的样本中该维度都等于同一个数)，也就是说该维度上的方差接近于零，那么显然它对区分不同的样本丝毫起不到任何作用，这个维度即是冗余的，有它没它一个样，所以PCA应该去掉这些维度。

协方差阵

协方差矩阵度量的是维度与维度之间的关系，而非样本与样本之间。协方差矩阵的主对角线上的元素是各个维度上的方差(即能量)，其他元素是两两维度间的协方差(即相关性)。我们要的东西协方差矩阵都有了，先来看“降噪”，让保留下的不同维度间的相关性尽可能小，也就是说让协方差矩阵中非对角线元素都基本为零。达到这个目的的方式自然不用说，线代中讲的很明确——矩阵对角化。而对角化后得到的矩阵，其对角线上是协方差矩阵的特征值，它还有两个身份：首先，它还是各个维度上的新方差；其次，它是各个维度本身应该拥有的能量(能量的概念伴随特征值而来)。这也就是我们为何在前面称“方差”为“能量”的原因。也许第二点可能存在疑问，但我们应该注意到这个事实，通过对角化后，剩余维度间的相关性已经减到最弱，已经不会再受“噪声”的影响了，故此时拥有的能量应该比先前大了。看完了“降噪”，我们的“去冗余”还没完呢。对角化后的协方差矩阵，对角线上较小的新方差对应的就是那些该去掉的维度。

所以我们只取那些含有较大能量(特征值)的维度，其余的就舍掉即可。PCA的本质其实就是对角化协方差矩阵。

总结一下PCA的算法步骤：

设有m条n维数据。
1）将原始数据按列组成n行m列矩阵X
2）将X的每一行（代表一个属性字段）进行零均值化，即减去这一行的均值
3）求出协方差矩阵 C=1m XX T
4）求出协方差矩阵的特征值及对应的特征向量
5）将特征向量按对应特征值大小从上到下按行排列成矩阵，取前k行组成矩阵P
6） Y=PX 即为降维到k维后的数据

PCA理解第一层境界：最大方差投影

正如PCA的名字一样，你要找到主成分所在方向，那么这个主成分所在方向是如何来的呢？

其实是希望你找到一个垂直的新的坐标系，然后投影过去，这里有两个问题。 第一问题：找这个坐标系的标准或者目标是什么？ 第二个问题，为什么要垂直的，如果不是垂直的呢？

如果你能理解第一个问题，那么你就知道为什么PCA主成分是特征值和特征向量了。如果你能理解第二个问题，那么你就知道PCA和ICA到底有什么区别了。

对于第一个问题：其实是要求解方差最小或者最大。按照这个目标，你代入拉格朗日求最值，你可以解出来，主成分方向，刚好是S的特征向量和特征值！是不是很神奇？ 伟大的拉格朗日(参考 “一步一步走向锥规划 - QP” “一挑三 FJ vs KKT “)

现在回答了，希望你理解了， PCA是对什么东西求解特征值和特征向量。也理解为什么是求解的结果就是特征值和特征向量吧！

这仅仅是PCA的本意！我们也经常看到PCA用在图像处理里面，希望用最早的主成分重建图像：

这是怎么做到的呢？

PCA理解第二层境界：最小重建误差

什么是重建，那么就是找个新的基坐标，然后减少一维或者多维自由度。然后重建整个数据。好比你找到一个新的视角去看这个问题，但是希望自由度小一维或者几维。

那么目标就是要最小重建误差，同样我们可以根据最小重建误差推导出类似的目标形式。

虽然在第二层境界里面，也可以直观的看成忽略了最小特征值对应的特征向量所在的维度。但是你能体会到和第一层境界的差别么？一个是找主成分，一个是维度缩减。所以在这个层次上，才是把PCA看成降维工具的最佳视角。

PCA理解第三层境界：高斯先验误差

在第二层的基础上，如果引入最小二乘法和带高斯先验的最大似然估计的等价性。（参考”一步一步走向锥规划 - LS” “最小二乘法的4种求解” ）那么就到了理解的第三层境界了。

所以，重最小重建误差，我们知道求解最小二乘法，从最小二乘法，我们可以得到高斯先验误差。

有了高斯先验误差的认识，我们对PCA的理解，进入了概率分布的层次了。而正是基于这个概率分布层次的理解，才能走到Hinton的理解境界。

PCA理解第四层境界(Hinton境界)：线性流形对齐

如果我们把高斯先验的认识，到到数据联合分布，但是如果把数据概率值看成是空间。那么我们可以直接到达一个新的空间认知。

这就是“Deep Learning”书里面写的，烙饼空间（Pancake），而在烙饼空间里面找一个线性流行，就是PCA要干的事情。我们看到目标函数形式和最小重建误差完全一致。但是认知完全不在一个层次了。

小结

这里罗列理解PCA的4种境界，试图通过解释Hinton如何理解PCA的，来强调PCA的重要程度。尤其崇拜Hinton对简单问题的高深认知。不仅仅是PCA，尤其是他对EM算法的再认识，诞生了VBEM算法，让VB算法完全从物理界过渡到了机器学习界（参考 “变の贝叶斯”）。有机会可以看我对EM算法的回答，理解EM算法的9种境界。

三、SVD（奇异值分解）

http://www.cnblogs.com/peizhe123/p/5113357.html
https://www.cnblogs.com/pinard/p/6251584.html
https://blog.csdn.net/u010099080/article/details/68060274

从Andrew的课来看：SVD相当于an implementation of PCA 1.现在的计算机计算SVD已经很成熟了，Andrew本人将其视作平方运算这样的计算。 2.用SVD来实现PCA，避免了高维sigma矩阵（设计矩阵/协方差矩阵）的计算。

回顾下特征值和特征向量的定义如下： Ax=λx

其中A是一个 n×n 的矩阵，x 是一个n维向量，则我们说 λ 是矩阵A的一个特征值，而x是矩阵A的特征值λ所对应的特征向量。

求出特征值和特征向量有什么好处呢？就是我们可以将矩阵A特征分解。如果我们求出了矩阵A的n 个特征值 λ 1 ≤λ 2 ≤...≤λ n ,以及这n n 个特征值所对应的特征向量 w 1 ,w 2 ,...w n ，如果这n个特征向量线性无关，那么矩阵A就可以用下式的特征分解表示：

A=WΣW −1

其中W是这n个特征向量所张成的 n×n 维矩阵，而 ∑ 为这n个特征值为主对角线的 n×n 维矩阵。

一般我们会把W的这n个特征向量标准化，即满足 ||w i || 2 =1 , 或者说 w T i w i =1 , 此时W的n个特征向量为标准正交基，满足 W T W=I , 即 W T =W −1 , 也就是说W为酉矩阵。

这样我们的特征分解表达式可以写成 A=W∑W T

注意到要进行特征分解，矩阵A必须为方阵。那么如果A不是方阵，即行和列不相同时，我们还可以对矩阵进行分解吗？答案是可以，此时我们的SVD登场了。

假设有 m×n 的矩阵 A, 那么 SVD 就是要找到如下式的这么一个分解，将 A分解为 3 个矩阵的乘积： A m×n =U m×m Σ m×n V T n×n

其中，U 和 V都是正交矩阵 （Orthogonal Matrix），在复数域内的话就是酉矩阵（Unitary Matrix），即 U T U=E m×m , V T V=E n×n 换句话说，就是说 U的转置等于 U的逆，V 的转置等于 V 的逆。而 ∑ 就是一个非负实对角矩阵。

求解

U 和V 的列分别叫做 A的 左奇异向量（left-singular vectors）和 右奇异向量（right-singular vectors）， ∑ 的对角线上的值叫做 A的奇异值（singular values）。

其实整个求解 SVD 的过程就是求解这 3 个矩阵的过程，而求解这 3 个矩阵的过程就是求解特征值和特征向量的过程，问题就在于 求谁的特征值和特征向量。

U 的列由 AA T 的单位化过的特征向量构成
V 的列由 A T A 的单位化过的特征向量构成
∑ 的对角元素来源于 AA T 或 A T A 的特征值的平方根，并且是按从大到小的顺序排列的

那么求解 SVD 的步骤就显而易见了：

求 AA T 的特征值和特征向量，用单位化的特征向量构成 U
求 A T A 的特征值和特征向量，用单位化的特征向量构成 V
将AA T 或者 A T A 的特征值求平方根，然后构成 ∑

四、FA（因子分析）

https://blog.csdn.net/yujianmin1990/article/details/49247307
https://blog.csdn.net/sinat_37965706/article/details/71330979

因子分析其实就是认为高维样本点实际上是由低维样本点经过高斯分布、线性变换、误差扰动生成的，因此高维数据可以使用低维来表示（本质上就是一种降维算法）。因子分析(factor analysis)是一种数据简化的技术。它通过研究众多变量之间的内部依赖关系，探求观测数据中的基本结构，并用少数几个假想变量来表示其基本的数据结构。这几个假想变量能够反映原来众多变量的主要信息。原始的变量是可观测的显在变量，而假想变量是不可观测的潜在变量，称为因子。

因子分析，实际上应该叫做公共因子分析，看其定义：
　　 X=AF+ϵ
X 表示原始数据， F 表示公共因子，ϵ 是特殊因子

因子分析的原理是假设原始的数据是由公共因子（公共维度）与误差因子（非公共维度）构成的，如上式所写。（但因子分析更关心公共因子，对特殊因子不甚关心）

那么，如何找到公共因子呢？我们先尝试对上式变形运算：

X T X=(AF+ϵ) T (AF+ϵ)

先看右侧，我们将非公共部分去掉，得到：

X T X≈(AF) T (AF)

注意此处的约等于不是抽取公共因子（用少量公共因子）之后造成的约等，而是因为去掉了特殊因子造成的约等。

X T X=VΛV T 实对称矩阵的特征值分解,此处不做单位化处理。

X T X=[β 1 ,β 2 ,...,β n ]⎡ ⎣ ⎢ ⎢ ⎢ λ 1 λ 2 ... λ n ⎤ ⎦ ⎥ ⎥ ⎥ ⎡ ⎣ ⎢ ⎢ ⎢ β 1 β 2 ...β n ⎤ ⎦ ⎥ ⎥ ⎥

X T X=[λ 1 − − √ β 1 ,λ 2 − − √ β 2 ,...,λ n − − √ β n ]⎡ ⎣ ⎢ ⎢ ⎢ ⎢ λ 1 − − √ β 1 λ 2 − − √ β 2 ...λ n − − √ β n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥

对比上式： X T X≈(AF) T (AF) 看着形式是一样的，并且符合了定义的公共因子的样子。

如果从 [λ 1 − − √ β 1 ,λ 2 − − √ β 2 ,...,λ n − − √ β n ] 抽取几个 β 作为公共因子，岂不是个很好的想法。于是，就有了公共因子。

此处的左侧 X T X ，怎么看着这么眼熟，是不是跟前面提到的协方差矩阵很像。哈哈，是的，很像。但是请注意：

这里可以不用去中心化，因为没有严格的去研究维度之间的相关性，而是单纯的做了转置再乘以自身（当然也可以去中心化），这种变形运算是为了凑出右侧乘的形式，以便于跟定义的公共因子的样子相近。

至此，公共因子的抽取也就结束了，至于公共因子旋转之类的操作，是为了使得公共因子更具有可解释性，暂时还不做解释了。

还有如何利用公共因子去分析原始维度的重要性，这里也不做赘述了，大家自己上网搜索了解吧。

公共因子的形式可以有很多种，都能凑出定义的形式来，那么也就有很多因子分析方法了。

小结 PCA和FA是很常用的因素分析方法，他们之间既有联系又各不相同。

主成分分析，是分析维度属性的主要成分表示。
因子分析，是分析属性们的公共部分的表示。

from sklearn import datasets
from matplotlib import pyplot as plt

iris = datasets.load_iris()
from sklearn.decomposition import FactorAnalysis
fa = FactorAnalysis(n_components=2)
iris_two_dim = fa.fit_transform(iris.data)
iris_two_dim[:5]

f = plt.figure(figsize=(5, 5))
ax = f.add_subplot(111)
ax.scatter(iris_two_dim[:,0], iris_two_dim[:, 1], c=iris.target)
ax.set_title("Factor Analysis 2 Components")

五、独立成分分析（ICA）

https://blog.csdn.net/shenziheng1/article/details/53637907
https://blog.csdn.net/cai2016/article/details/52983473

动机源自于cocktail party problem（鸡尾酒会问题），ICA与被称为盲源分离(Blind Source Separation,BSS)或盲信号分离的方法具有非常密切的关系。“源”在此处的意思是指原始信号，即独立成分，如鸡尾酒会中的说话者；而“盲”表示我们对于混合矩阵所知甚少，仅仅对源信号做非常弱的假定。ICA是实现盲源分离的其中一种，但也许是被最广泛使用的方法。

推荐电子工业出版社的一本中译本教材《独立成分分析》，稍稍一读感觉之前到处搜罗资料的时间真是浪费了，很多时候确实是外国的月亮更圆啊。

以鸡尾酒会声音辨别为例，将每个声音区分出来，这样人大脑就可以很快集中听需要注意的声音。以下以三个独立源为例，三个接收端，每个接收端都含有三个声音源的线性叠加。下图是示例图：

对模型参数的解释

A=[a11,a12,a12;a21,a22,a23;a31,a32,a32]作为一个混合矩阵，这里的每一个元素可以表示鸡尾酒舞会问题中物理意义为距离，X为观测信号，S为独立源也就是声音信号。以上模型中假设每个独立源噪声干扰很小，忽略影响。实际上在ICA信号盲源分离中可以将噪声信号单独一种独立源处理较好，一些文献对于ICA噪声就是采用这种方案进行处理。

半盲源分离信号分离

在混合矩阵A已知的前提下，反解出独立源就很简单。ICA常用的情形是混合矩阵和独立源都不明确的条件下一种估计算法。真正实现信号的盲源分离。

ICA盲源分离流程

上述流程图中，由独立源线性组合成的观测信号X，只需要对S进行求解即可。S=B*X，其中B为A的逆，通过迭代对A进行逼近，当达到设置的精度时即可分离出混合矩阵的近似。盲源分离的目的是求得源信号的最佳估计。

ICA假设的三个条件

独立成分被假设是统计独立。对于这一条可以从概率密度以及其他算法可以判断。我们说随机变量 y 1 ，y 2 ..y n 独立，是指在i≠j时，有关 y i 的取值情况对于 y j 如何取值没有提供任何信息。
独立成分具有非高斯分布。如果观测到的变量具有高斯分布，那么ICA在本质上是不可能实现的。假定S经过混合矩阵A后，他们的联合概率密度仍然不变化，因此我们没有办法在混合中的得到混合矩阵的信息。
假设混合矩阵是方阵。这个条件是为了后续ICA算法求解的便利。当混合矩阵A是方阵时就意味着独立源的个数和监测信号的个数数目是一致。

ICA算法步骤

观测信号构成一个混合矩阵，通过数学算法进行对混合矩阵A的逆进行近似求解分为三个步骤：

1) 去均值。去均值也就是中心化，实质是使信号X均值是零。
2) 白化。白化就是去相关性。
3) 构建正交系统。在常用的ICA算法基础上已经有了一些改进，形成了fastICA算法。fastICA实际上是一种寻找 w T z（即Y=w T z）的非高斯最大的不动点迭代方案。

以上有较多的数学推导，这里就省略了，下面给出fastICA的算法流程：

1 观测数据的中心化
2 数据白化
3 选择需要估计的分量个数m，设置迭代次数和范围
4 随机选择初始权重
5 选择非线性函数
6 迭代 
7 判断收敛，是下一步，否则返回步骤6
8 返回近似混合矩阵的逆矩阵

六、LDA(linear discriminant analysis)

https://www.cnblogs.com/pinard/p/6244265.html

6.1 LDA 思想

LDA是一种监督学习的降维技术，也就是说它的数据集的每个样本是有类别输出的。这点和PCA不同。PCA是不考虑样本类别输出的无监督降维技术。LDA的思想可以用一句话概括，就是“投影后类内方差最小，类间方差最大”。什么意思呢？我们要将数据在低维度上进行投影，投影后希望每一种类别数据的投影点尽可能的接近，而不同类别的数据的类别中心之间的距离尽可能的大。

我们先看看最简单的情况。假设我们有两类数据分别为红色和蓝色，如下图所示，这些数据特征是二维的，我们希望将这些数据投影到一维的一条直线，让每一种类别数据的投影点尽可能的接近，而红色和蓝色数据中心之间的距离尽可能的大。

上图中国提供了两种投影方式，哪一种能更好的满足我们的标准呢？从直观上可以看出，右图要比左图的投影效果好，因为右图的黑色数据和蓝色数据各个较为集中，且类别之间的距离明显。左图则在边界处数据混杂。以上就是LDA的主要思想了，当然在实际应用中，我们的数据是多个类别的，我们的原始数据一般也是超过二维的，投影后的也一般不是直线，而是一个低维的超平面。

6.2 算法流程

现在我们对LDA降维的流程做一个总结。

输入：数据集 D={(x 1 ,y 1 ),(x 2 ,y 2 ),...,((x m ,y m ))} ,其中任意样本 x i 为n维向量， y i ∈{C 1 ,C 2 ,...,C k } , 降维到的维度d。

输出：降维后的样本集 D'

　1) 计算类内散度矩阵 S w
　2) 计算类间散度矩阵 S b
　3) 计算矩阵 S −1 w S b
　4）计算 S −1 w S b   的最大的d个特征值和对应的d个特征向量 (w 1 ,w 2 ,...w d ) ,得到投影矩阵
　5) 对样本集中的每一个样本特征 x i   , 转化为新的样本 z i =W T x i
　6) 得到输出样本集 D'={(z 1 ,y 1 ),(z 2 ,y 2 ),...,(z m ,y m )}

以上就是使用LDA进行降维的算法流程。实际上LDA除了可以用于降维以外，还可以用于分类。一个常见的LDA分类基本思想是假设各个类别的样本数据符合高斯分布，这样利用LDA进行投影后，可以利用极大似然估计计算各个类别投影数据的均值和方差，进而得到该类别高斯分布的概率密度函数。当一个新的样本到来后，我们可以将它投影，然后将投影后的样本特征分别带入各个类别的高斯分布概率密度函数，计算它属于这个类别的概率，最大的概率对应的类别即为预测类别。　

6.3 LDA vs PCA

LDA用于降维，和PCA有很多相同，也有很多不同的地方，因此值得好好的比较一下两者的降维异同点。

首先我们看看相同点：

1）两者均可以对数据进行降维。
2）两者在降维时均使用了矩阵特征分解的思想。
3）两者都假设数据符合高斯分布。

我们接着看看不同点：

　1）LDA是有监督的降维方法，而PCA是无监督的降维方法
　2）LDA降维最多降到类别数k-1的维数，而PCA没有这个限制。
　3）LDA除了可以用于降维，还可以用于分类。
　4）LDA选择分类性能最好的投影方向，而PCA选择样本点投影具有最大方差的方向。

这点可以从下图形象的看出，在某些数据分布下LDA比PCA降维较优。

当然，某些某些数据分布下PCA比LDA降维较优，如下图所示：

6.4. 小结

LDA算法既可以用来降维，又可以用来分类，但是目前来说，主要还是用于降维。在我们进行图像识别图像识别相关的数据分析时，LDA是一个有力的工具。下面总结下LDA算法的优缺点。

LDA算法的主要优点有：

　1）在降维过程中可以使用类别的先验知识经验，而像PCA这样的无监督学习则无法使用类别先验知识。
　2）LDA在样本分类信息依赖均值而不是方差的时候，比PCA之类的算法较优。

LDA算法的主要缺点有：

　1）LDA不适合对非高斯分布样本进行降维，PCA也有这个问题。
　2）LDA降维最多降到类别数k-1的维数，如果我们降维的维度大于k-1，则不能使用LDA。当然目前有一些LDA的进化版算法可以绕过这个问题。
　3）LDA在样本分类信息依赖方差而不是均值的时候，降维效果不好。
　4）LDA可能过度拟合数据。

七、t-SNE(t-distributed Stochastic Neighbor Embedding)

http://bindog.github.io/blog/2016/06/04/from-sne-to-tsne-to-largevis/
http://www.datakit.cn/blog/2017/02/05/t_sne_full.html

t-SNE（TSNE）将数据点之间的相似度转换为概率。原始空间中的相似度由高斯联合概率表示，嵌入空间的相似度由“t分布”表示。

7.1 SNE基本原理

SNE是通过仿射(affinitie)变换将数据点映射到概率分布上，主要包括两个步骤：

SNE构建一个高维对象之间的概率分布，使得相似的对象有更高的概率被选择，而不相似的对象有较低的概率被选择。
SNE在低维空间里在构建这些点的概率分布，使得这两个概率分布之间尽可能的相似。

我们看到t-SNE模型是非监督的降维，他跟kmeans等不同，他不能通过训练得到一些东西之后再用于其它数据（比如kmeans可以通过训练得到k个点，再用于其它数据集，而t-SNE只能单独的对数据做操作，也就是说他只有fit_transform，而没有fit操作）

7.2 t-SNE

尽管SNE提供了很好的可视化方法，但是他很难优化，而且存在”crowding problem”(拥挤问题)。后续中，Hinton等人又提出了t-SNE的方法。与SNE不同，主要如下:

使用对称版的SNE，简化梯度公式
低维空间下，使用t分布替代高斯分布表达两点之间的相似度

7.3 不足

主要不足有四个:

主要用于可视化，很难用于其他目的。比如测试集合降维，因为他没有显式的预估部分，不能在测试集合直接降维；比如降维到10维，因为t分布偏重长尾，1个自由度的t分布很难保存好局部特征，可能需要设置成更高的自由度。
t-SNE倾向于保存局部特征，对于本征维数(intrinsic dimensionality)本身就很高的数据集，是不可能完整的映射到2-3维的空间
t-SNE没有唯一最优解，且没有预估部分。如果想要做预估，可以考虑降维之后，再构建一个回归方程之类的模型去做。但是要注意，t-sne中距离本身是没有意义，都是概率分布问题。
训练太慢。有很多基于树的算法在t-sne上做一些改进

7.4 变种

multiple maps of t-SNE
parametric t-SNE
Visualizing Large-scale and High-dimensional Data

八、UMAP（Uniform Manifold Approximation and Projection）

https://github.com/lmcinnes/umap
https://umap-learn.readthedocs.io/en/latest/
https://arxiv.org/abs/1802.03426

是一种类似t-SNE的降维可视化技术，用于非线性降维。算法是基于以下3个数据假设前提。

The data is uniformly distributed on Riemannian manifold;
The Riemannian metric is locally constant (or can be approximated as such);
The manifold is locally connected.

九、Isomap

参考：https://blog.csdn.net/zhangweiguo_717/article/details/69802312

Isomap算法是在MDS算法的基础上衍生出的一种算法，MDS算法是保持降维后的样本间距离不变，Isomap算法引进了邻域图，样本只与其相邻的样本连接，他们之间的距离可直接计算，较远的点可通过最小路径算出距离，在此基础上进行降维保距。

计算流程如下：

设定邻域点个数，计算邻接距离矩阵，不在邻域之外的距离设为无穷大；
求每对点之间的最小路径，将邻接矩阵矩阵转为最小路径矩阵；
输入MDS算法，得出结果，即为Isomap算法的结果。

最小路径这里采用Floyd算法：输入邻接矩阵，邻接矩阵中，除了邻域点之外，其余距离都是无穷大，输出完整的距离矩阵。

参考：

https://www.zhihu.com/question/36348219/answer/275378672
https://mp.weixin.qq.com/s/G6ryJ0iLQ0dvMZbUj-71mw
https://blog.csdn.net/qiusuoxiaozi/article/details/50810521
https://wenku.baidu.com/view/ce7ee04bcc175527072208ca.html

你可能感兴趣的:(机器学习中的降维算法汇总归纳)

009 【入门】单双链表及其反转-堆栈诠释要天天开心啊算法专栏算法链表
链表与堆栈系统详解|[数据结构]-[中级]-[通用]一、基础概念与内存模型1.按值传递vs按引用传递|[Java]-[基础]-[内存]//[典型错误示例]-Java中的引用传递陷阱voidmodify(Nodenode){node=node.next;//[警告]错误！仅修改局部引用的指向，不影响原始链表}//[正确做法]-通过引用修改对象内部状态voidrealModify(Nodenode){
GitHub Actions 的深度解析与概念介绍青草地溪水旁 linux 环境配置开发管理 github linux ubuntu docker
GitHubActions核心定义GitActions是GitHub原生提供的自动化工作流引擎，允许开发者在代码仓库中直接创建、测试、部署代码。其本质是通过事件驱动（Event-Driven）的自动化管道，将软件开发中的重复任务抽象为可编排的流程。架构核心四要素工作流（Workflow）仓库中的自动化流程蓝图（.yml文件）存储在.github/workflows目录单仓库可包含多个独立工作流事件
[email protected]: Permission denied (publickey)解决方案（简单粗暴）自戀自動治姓病 git github
1.输入ssh-keygen-trsa-C“[email protected]",其中“”中填上在github中的邮箱2.然后一直enter，不用考虑提示3.输入cat~/.ssh/id_rsa.pub，出来的就是SSHKey
【数据结构】顺序表 nanguochenchuan 数据结构数据结构
一，顺序表1.顺序表的定义顺序表是一种线性表的数据结构，它的数据元素按照一定次序依次存储在计算机存储器中，使用连续的存储空间来存储。顺序表中每个数据元素的位置都有一个序号，这个序号也称为元素在顺序表中的下标。顺序表的特点是：元素的逻辑顺序与物理顺序相同，支持随机访问，插入和删除元素的时间复杂度为O(n)，查找元素的时间复杂度为O(1)。2.优点与不足优点是访问速度快，因为它的元素在内存中是连续存储
Linux tcp_info：监控TCP连接的秘密武器 CodeWithMe 网络 linux tcp/ip
深入解析Linuxtcp_info：TCP状态的实时监控利器在开发和运维网络服务时，我们常常遇到这些问题：我的TCP连接为什么速度慢？是发生了重传，还是窗口太小？拥塞控制到底有没有生效？这些问题的答案，其实隐藏在内核的tcp_info结构中。本文将详细介绍：tcp_info是什么，怎么用？各字段含义和实际用途在调优TCP服务中的应用实践一、什么是tcp_info？tcp_info是Linux内核中
Python编程：使用Opencv进行图像处理
【参考】https://github.com/opencv/opencv/tree/4.x/samples/pythonPython使用OpenCV进行图像处理OpenCV(OpenSourceComputerVisionLibrary)是一个开源的计算机视觉和机器学习软件库。下面将从基础到高阶介绍如何使用Python中的OpenCV进行图像处理。一、安装首先需要安装OpenCV库：pipinst
JavaScript中的函数柯里化（Currying）：从概念到实战 coding随想 JavaScript javascript ecmascript 开发语言前端
JavaScript中的函数柯里化（Currying）：从概念到实战在JavaScript开发中，函数式编程（FunctionalProgramming）逐渐成为一种主流思想。而函数柯里化（Currying），正是这一思想中的核心技巧之一。它不仅能提升代码的复用性和灵活性，还能帮助我们构建更优雅、更模块化的解决方案。本文将带你从零开始，深入理解柯里化的原理、实现方式及实际应用场景。一、什么是函数柯
掌握Web3开发：从入门到精通夲奋亻Jay Web3 web3
掌握Web3开发是一个涉及多个步骤和学习阶段的过程。以下是一些关键的步骤和开发案例，以及它们在搜索结果中的索引编号：了解区块链基础：学习区块链的基本概念，如去中心化、加密技术、共识机制等[1]。学习智能合约：学习智能合约的工作原理和它们在区块链上的应用，特别是以太坊平台上的智能合约[1]。掌握Web3.js或Ethers.js：学习如何使用这些JavaScript库与智能合约交互、发送交易和监听事
网站策划书通用模板程序员小郑1024 项目策划专区 java 编程语言大数据
网站策划书通用模板一个网站的成功与否与建站前的网站策划有着极为重要的关系。在建立网站前应明确建设网站的目的，确定网站的功能，确定网站规模、投入费用，进行必要的市场分析等。只有详细的策划，才能避免在网站建设中出现的很多问题，使网站建设能顺利进行。网站策划是指在网站建设前对市场进行分析、确定网站的目的和功能，并根据需要对网站建设中的技术、内容、费用、测试、维护等做出策划。网站策划对网站建设起到计划和指
go关闭linux进程,Golang信号处理和优雅退出守护进程凯然 go关闭linux进程
Golang中的信号处理信号类型个平台的信号定义或许有些不同。下面列出了POSIX中定义的信号。Linux使用34-64信号用作实时系统中。命令mansignal提供了官方的信号介绍。在POSIX.1-1990标准中定义的信号列表信号值动作说明SIGHUP1Term终端控制进程结束(终端连接断开)SIGINT2Term用户发送INTR字符(Ctrl+C)触发SIGQUIT3Core用户发送QUIT
基于机器学习的智能文本分类技术研究与应用
在当今数字化时代，文本数据的爆炸式增长给信息管理和知识发现带来了巨大的挑战。从新闻文章、社交媒体帖子到企业文档和学术论文，海量的文本数据需要高效地分类和管理，以便用户能够快速找到所需信息。传统的文本分类方法主要依赖于人工规则和关键词匹配，这些方法不仅效率低下，而且难以应对复杂多变的文本内容。近年来，机器学习技术的快速发展为文本分类提供了一种高效、自动化的解决方案。一、机器学习在文本分类中的应用概述
《Python数据分析与挖掘实战》Chapter8中医证型关联规则挖掘笔记茫茫大地真干净机器学习 Python 数据挖掘
最近在学习《Python数据分析与挖掘实战》中的案例，写写自己的心得。代码分为两大部分：1.读取数据并进行聚类分析2.应用Apriori关联规则挖掘规律1.聚类部分函数分析：defprogrammer_1():datafile="C:/Users/longming/Desktop/chapter8/data/data.xls"processedfile="C:/Users/longming/Des
Practical TLA+ 项目中的Dekker算法形式化验证焦习娜Samantha
PracticalTLA+项目中的Dekker算法形式化验证practical-tla-plusSourceCodefor'PracticalTLA+'byHillelWayne项目地址:https://gitcode.com/gh_mirrors/pr/practical-tla-plus概述本文分析PracticalTLA+项目中关于Dekker互斥算法的形式化规范。Dekker算法是解决多线
深入理解reeze/tipi项目中的词法分析与语法分析技术焦习娜Samantha
深入理解reeze/tipi项目中的词法分析与语法分析技术tipiThinkingInPHPInternals,AnopenbookonPHPInternals项目地址:https://gitcode.com/gh_mirrors/ti/tipi引言在编程语言实现领域，词法分析和语法分析是构建编译器或解释器的关键环节。本文将基于reeze/tipi项目中的相关内容，深入浅出地讲解这些核心技术原理。
【机器学习与数据挖掘实战 | 医疗】案例18：基于Apriori算法的中医证型关联规则分析 Francek Chen 机器学习与数据挖掘实战机器学习数据挖掘 Apriori python 关联规则人工智能
【作者主页】FrancekChen【专栏介绍】⌈⌈⌈机器学习与数据挖掘实战⌋⌋⌋机器学习是人工智能的一个分支，专注于让计算机系统通过数据学习和改进。它利用统计和计算方法，使模型能够从数据中自动提取特征并做出预测或决策。数据挖掘则是从大型数据集中发现模式、关联和异常的过程，旨在提取有价值的信息和知识。机器学习为数据挖掘提供了强大的分析工具，而数据挖掘则是机器学习应用的重要领域，两者相辅相成，共同推动
linux日志文件详解 MagnumOvO 云计算 linux 5G linux 运维 centos
目录一、日志文件的分类二、日志文件位置三、常见日志文件1.分析日志文件2.内核及系统日志四、日志消息等级五、日志文件分析1.用户日志2.程序日志六、日志分析注意事项一、日志文件的分类日志文件是用于记录Linux系统中各种运行消息的文件,相当于Linux主机的“日记”。不同的日志文件记载了不同类型的信息,如Linux内核消息、用户登录事件、程序错误等·日志文件对于诊断和解决系统中的问题很有帮助,因为
【C++】命令模式
目录一、模式核心概念与结构二、C++实现示例：遥控器与家电控制三、命令模式的关键特性四、应用场景五、命令模式与其他设计模式的关系六、C++标准库中的命令模式应用七、优缺点分析八、实战案例：数据库事务命令九、实现注意事项如果这篇文章对你有所帮助，渴望获得你的一个点赞！命令模式（CommandPattern）是一种【行为型】设计模式，它将请求封装为对象，从而使你可以用不同的请求对客户端进行参数化，对请
力扣网C语言编程题：在数组中查找目标值位置魏劭逻辑编程题 C语言算法 c语言 leetcode
一.简介本文记录一下力扣网上涉及数组的问题：排序数组中查找目标值的位置。主要以C语言实现。二.力扣网C语言编程题：在数组中查找目标值位置题目：在排序数组中查找元素的第一个和最后一个位置给你一个按照非递减顺序排列的整数数组nums，和一个目标值target。请你找出给定目标值在数组中的开始位置和结束位置。如果数组中不存在目标值target，返回[-1,-1]。你必须设计并实现时间复杂度为O(logn
css同心圆扩散 weixin_43966308 css布局
同心圆扩散要点：定位：每个圆形定位要相同，因为为了达到同心圆扩散的效果有一个定宽定高的圆形，剩下的圆形通过缩放和透明的改变而改变，因此必须保证定位的位置相同为了达到垂直居中的效果，可以通过transfrom(-50%,-50%),但是因为需要通过transfrom的缩放来达到扩散的效果，因此会发现之前水平垂直的效果没有达到，因为被动画中的trasnfrom缩放的语句覆盖了可以通过margin负值宽
【Html实现“心形日出”（附效果+源代码）】| JavaScript面试题：解释一下异步编程中的回调函数、Promise和Async/Await的概念。它们有什么区别？追光者♂ html5 css3 心形日出前端特效 JS面试题 Promise Async/Await
风会带走你曾经存在过的证明。——虞姬作者主页：追光者♂个人简介：[1]计算机专业硕士研究生[2]2023年城市之星领跑者TOP1(哈尔滨)[3]2022年度博客之星人工智能领域TOP4[4]阿里云社区特邀专家博主[5]CSDN-人工智能领域优质创作者无限进步，一起追光！！！
通过npm install安装依赖包美丽先生困难与解决
使用命令npminstall(npmi)安装package.json文件中的依赖包node_modules（installinit会生成package.json文件，有些框架初始化过程也会生成package.json文件，初始化以后需要配置淘宝NPM镜像，原因：大家都知道国内直接使用npm的官方镜像是非常慢的，这里推荐使用淘宝NPM镜像。淘宝NPM镜像是一个完整npmjs.org镜像，你可以用此代
深入了解SIP架构与多媒体通信协议亜恵恵阿由 SIP架构 SDP协议 RTP协议 MGCP协议 RTSP协议
深入了解SIP架构与多媒体通信协议背景简介在现代网络通信中，会话发起协议（SIP）已成为关键的组件，特别是在VoIP和多媒体通信领域。SIP不仅支持音频和视频通信，还通过各种协议和架构实现复杂的通信场景。本文将对SIP相关的关键技术进行分析，探讨它们在实时通信中的作用和意义。会话描述协议（SDP）SDP是一种文本协议，用于在SIP会话初始化时发送必要的多媒体信息。它提供了关于会话名称、活动时间、交
XSL-FO 块：深入解析与最佳实践沐知全栈开发开发语言
XSL-FO块：深入解析与最佳实践概述XSL-FO（XSLFormattingObjects）是一种用于生成格式化文档的语言，它允许开发者将XML数据转换成PDF、HTML、PostScript等格式。在XSL-FO中，块（Block）是一个重要的概念，它定义了文档中的矩形区域，包括文本、图像、表格等。本文将深入解析XSL-FO块的相关知识，并分享一些最佳实践。XSL-FO块的定义与属性定义XSL
redis的scan使用详解，结合spring使用详解黑皮爱学习 redis自学笔记 redis spring 数据库
Redis的SCAN命令是一种非阻塞的迭代器，用于逐步遍历数据库中的键，特别适合处理大数据库。下面详细介绍其使用方法及在Spring框架中的集成方式。SCAN命令基础SCAN命令的基本语法：SCANcursor[MATCHpattern][COUNTcount]cursor：迭代游标，初始为0，每次迭代返回新的游标值。MATCHpattern：可选，用于过滤键的模式（如user:*）。COUNTc
opensuse安装rabbitmq 翻滚吧键盘 openSUSE rabbitmq ruby 分布式
您好！安装RabbitMQ消息队列是一个非常棒的选择，它是许多现代应用架构中的核心组件。在openSUSETumbleweed上安装RabbitMQ主要有两种流行的方式：一种是使用系统的包管理器zypper，另一种是使用Docker容器。我将为您详细介绍这两种方法。前置知识：RabbitMQ是用Erlang语言编写的，因此安装RabbitMQ时会自动安装Erlang语言环境作为其依赖。您无需手动安
redis配置文件-redis.conf THe CHallEnge of THe BrAve 笔记 redis 数据库缓存
在Redis中，redis-4.0.1/redis.conf和/etc/redis/6379.conf两个配置文件的区别主要体现在来源、用途和生效场景上，具体如下：1.redis-4.0.1/redis.conf：源码包中的默认配置模板来源：该文件通常位于Redis源码包解压后的根目录（例如通过wget下载redis-4.0.1.tar.gz并解压后生成），是Redis官方提供的默认配置模板。作用
破局与重构：IT从业者生存困境与行业发展新生态
破局与重构：IT从业者生存困境与行业发展新生态文章目录一、技术迭代漩涡中的个体焦虑二、需求迷宫中的项目失控三、加班文化：用生命燃烧代码的可持续性困境四、质量与速度的辩证困境五、年龄歧视阴影下的职业发展天花板六、薪资与付出的价值失衡七、协作壁垒：团队智商低于个体智商之和八、技术选型的西西弗斯困境九、业务理解的技术近视症十、远程协作：打破物理边界的组织重构十一、竞争压力：行业内卷与个人突围十二、破局之
Java基础：流程控制语句：条件、循环和跳转越重天 Java 基础入门教程 Java 宝藏 java 开发语言 java流程控制语句零到一学Java
前言Java中的流程控制语句其实和C、C++一样，在Java中，流程控制会涉及到包括if-else、while、do-while、for、return、break以及选择语句switch。下面以此进行分析。流程控制语句，分为三大类：条件语句，循环语句和跳转语句，如下图所示：1.条件语句条件语句可根据不同的条件执行不同的语句。包括if条件语句与switch多分支语句。1.1if语句if语句
Wpf之命名空间！ weixin_44710358 Wpf wpf c#开发语言
文章目录前言一、命名空间二、命名空间讲解总结前言Wpf之命名空间！一、命名空间我们的程序中有许多的命名空间，例如一个程序中有Window类–Window类可能是指System.Windows.Window类,也可能是指位于第三方组件中的Window类，或您自己在应用程序中定义的Window类等。为了弄清你实际使用的是哪个类，XAML解析器会检查应用于元素的XML名称空间。二、命名空间讲解第一行代码
Android-Layout Inspector使用手册每次的天空 android 学习
LayoutInspectorAndroidLayoutInspector是AndroidStudio中用于调试应用布局的工具启动方法：通过下载LayoutInspector插件，在“View-ToolWindows-LayoutInspector”或“Tools-LayoutInspector”启动。主要界面区域：ComponentTree：显示布局中视图的层次结构，帮助直观查看应用中的元素及其
对于规范和实现，你会混淆吗？ yangshangchuan HotSpot
昨晚和朋友聊天，喝了点咖啡，由于我经常喝茶，很长时间没喝咖啡了，所以失眠了，于是起床读JVM规范，读完后在朋友圈发了一条信息： JVM Run-Time Data Areas：The Java Virtual Machine defines various run-time data areas that are used during execution of a program. So
android 网络百合不是茶网络
android的网络编程和java的一样没什么好分析的都是一些死的照着写就可以了,所以记录下来方便查找 , 服务器使用的是TomCat 服务器代码; servlet的使用需要在xml中注册 package servlet; import java.io.IOException; import java.util.Arr
[读书笔记]读法拉第传 comsci 读书笔记
1831年的时候,一年可以赚到1000英镑的人..应该很少的... 要成为一个科学家,没有足够的资金支持,很多实验都无法完成但是当钱赚够了以后....就不能够一直在商业和市场中徘徊......
随机数的产生沐刃青蛟随机数
c++中阐述随机数的方法有两种：一是产生假随机数（不管操作多少次，所产生的数都不会改变）这类随机数是使用了默认的种子值产生的，所以每次都是一样的。 //默认种子 for (int i = 0; i < 5; i++) { cout<<
PHP检测函数所在的文件名 IT独行者 PHP 函数
很简单的功能，用到PHP中的反射机制，具体使用的是ReflectionFunction类，可以获取指定函数所在PHP脚本中的具体位置。创建引用脚本。代码： [php] view plain copy // Filename: functions.php <?php&nbs
银行各系统功能简介文强chu 金融
银行各系统功能简介　业务系统核心业务系统业务功能包括：总账管理、卡系统管理、客户信息管理、额度控管、存款、贷款、资金业务、国际结算、支付结算、对外接口等清分清算系统以清算日期为准，将账务类交易、非账务类交易的手续费、代理费、网络服务费等相关费用，按费用类型计算应收、应付金额，经过清算人员确认后上送核心系统完成结算的过程国际结算系
Python学习1(pip django 安装以及第一个project) 小桔子 python django pip
最近开始学习python,要安装个pip的工具。听说这个工具很强大，安装了它，在安装第三方工具的话so easy!然后也下载了，按照别人给的教程开始安装，奶奶的怎么也安装不上！第一步：官方下载pip-1.5.6.tar.gz, https://pypi.python.org/pypi/pip easy! 第二部：解压这个压缩文件，会看到一个setup.p
php 数组 aichenglong PHP 排序数组循环多维数组
1 php中的创建数组 $product = array('tires','oil','spark');//array()实际上是语言结构而不是函数 2 如果需要创建一个升序的排列的数字保存在一个数组中，可以使用range()函数来自动创建数组 $numbers=range(1,10)//1 2 3 4 5 6 7 8 9 10 $numbers=range(1,10,
安装python2.7 AILIKES python
安装python2.7 1、下载可从 http://www.python.org/进行下载#wget https://www.python.org/ftp/python/2.7.10/Python-2.7.10.tgz 2、复制解压 #mkdir -p /opt/usr/python #cp /opt/soft/Python-2
java异常的处理探讨百合不是茶 JAVA异常
//java异常 /* 1，了解java 中的异常处理机制，有三种操作 a,声明异常 b,抛出异常 c,捕获异常 2，学会使用try-catch-finally来处理异常 3，学会如何声明异常和抛出异常 4，学会创建自己的异常 */ //2，学会使用try-catch-finally来处理异常
getElementsByName实例 bijian1013 element
实例1： <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/x
探索JUnit4扩展：Runner bijian1013 java 单元测试 JUnit
参加敏捷培训时，教练提到Junit4的Runner和Rule，于是特上网查一下，发现很多都讲的太理论，或者是举的例子实在是太牵强。多搜索了几下，搜索到两篇我觉得写的非常好的文章。文章地址：http://www.blogjava.net/jiangshachina/archive/20
[MongoDB学习笔记二]MongoDB副本集 bit1129 mongodb
1. 副本集的特性 1)一台主服务器(Primary),多台从服务器(Secondary) 2)Primary挂了之后，从服务器自动完成从它们之中选举一台服务器作为主服务器，继续工作，这就解决了单点故障，因此，在这种情况下，MongoDB集群能够继续工作 3)挂了的主服务器恢复到集群中只能以Secondary服务器的角色加入进来 2
【Spark八十一】Hive in the spark assembly bit1129 assembly
Spark SQL supports most commonly used features of HiveQL. However, different HiveQL statements are executed in different manners: 1. DDL statements (e.g. CREATE TABLE, DROP TABLE, etc.)
Nginx问题定位之监控进程异常退出 ronin47
nginx在运行过程中是否稳定，是否有异常退出过？这里总结几项平时会用到的小技巧。 1. 在error.log中查看是否有signal项，如果有，看看signal是多少。比如，这是一个异常退出的情况： $grep signal error.log 2012/12/24 16:39:56 [alert] 13661#0: worker process 13666 exited on s
No grammar constraints (DTD or XML schema).....两种解决方法 byalias xml
方法一：常用方法关闭XML验证工具栏：windows => preferences => xml => xml files => validation => Indicate when no grammar is specified:选择Ignore即可。方法二：（个人推荐）添加内容如下 <?xml version=
Netty源码学习-DefaultChannelPipeline bylijinnan netty
package com.ljn.channel; /** * ChannelPipeline采用的是Intercepting Filter 模式 * 但由于用到两个双向链表和内部类，这个模式看起来不是那么明显，需要仔细查看调用过程才发现 * * 下面对ChannelPipeline作一个模拟，只模拟关键代码： */ public class Pipeline {
MYSQL数据库常用备份及恢复语句 chicony mysql
备份MySQL数据库的命令，可以加选不同的参数选项来实现不同格式的要求。 mysqldump -h主机 -u用户名 -p密码数据库名 > 文件备份MySQL数据库为带删除表的格式，能够让该备份覆盖已有数据库而不需要手动删除原有数据库。 mysqldump -–add-drop-table -uusername -ppassword databasename > ba
小白谈谈云计算--基于Google三大论文 CrazyMizzz Google 云计算 GFS
之前在没有接触到云计算之前，只是对云计算有一点点模糊的概念，觉得这是一个很高大上的东西，似乎离我们大一的还很远。后来有机会上了一节云计算的普及课程吧，并且在之前的一周里拜读了谷歌三大论文。不敢说理解，至少囫囵吞枣啃下了一大堆看不明白的理论。现在就简单聊聊我对于云计算的了解。我先说说GFS &n
hadoop 平衡空间设置方法 daizj hadoop balancer
在hdfs-site.xml中增加设置balance的带宽，默认只有1M： <property> <name>dfs.balance.bandwidthPerSec</name> <value>10485760</value> <description&g
Eclipse程序员要掌握的常用快捷键 dcj3sjt126com 编程
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得
Android学习之路 dcj3sjt126com Android学习
转自：http://blog.csdn.net/ryantang03/article/details/6901459 以前有J2EE基础，接触JAVA也有两三年的时间了，上手Android并不困难，思维上稍微转变一下就可以很快适应。以前做的都是WEB项目，现今体验移动终端项目，让我越来越觉得移动互联网应用是未来的主宰。下面说说我学习Android的感受，我学Android首先是看MARS的视
java 遍历Map的四种方法 eksliang java HashMap java 遍历Map的四种方法
转载请出自出处： http://eksliang.iteye.com/blog/2059996 package com.ickes; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Map.Entry; /** * 遍历Map的四种方式
【精典】数据库相关相关 gengzg 数据库
package C3P0; import java.sql.Connection; import java.sql.SQLException; import java.beans.PropertyVetoException; import com.mchange.v2.c3p0.ComboPooledDataSource; public class DBPool{
自动补全 huyana_town 自动补全
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml&quo
jquery在线预览PDF文件，打开PDF文件天梯梦 jquery
最主要的是使用到了一个jquery的插件jquery.media.js，使用这个插件就很容易实现了。核心代码 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.
ViewPager刷新单个页面的方法 lovelease android viewpager tag 刷新
使用ViewPager做滑动切换图片的效果时，如果图片是从网络下载的，那么再子线程中下载完图片时我们会使用handler通知UI线程，然后UI线程就可以调用mViewPager.getAdapter().notifyDataSetChanged()进行页面的刷新，但是viewpager不同于listview，你会发现单纯的调用notifyDataSetChanged()并不能刷新页面
利用按位取反（~）从复合枚举值里清除枚举值草料场 enum
以 C# 中的 System.Drawing.FontStyle 为例。如果需要同时有多种效果，如：“粗体”和“下划线”的效果，可以用按位或（|） FontStyle style = FontStyle.Bold | FontStyle.Underline; 如果需要去除 style 里的某一种效果，
Linux系统新手学习的11点建议刘星宇编程工作 linux 脚本
　　随着Linux应用的扩展许多朋友开始接触Linux，根据学习Windwos的经验往往有一些茫然的感觉：不知从何处开始学起。这里介绍学习Linux的一些建议。　　一、从基础开始：常常有些朋友在Linux论坛问一些问题，不过，其中大多数的问题都是很基础的。例如：为什么我使用一个命令的时候，系统告诉我找不到该目录，我要如何限制使用者的权限等问题，这些问题其实都不是很难的，只要了解了 Linu
hibernate dao层应用之HibernateDaoSupport二次封装 wangzhezichuan DAO Hibernate
/** * 方法描述:sql语句查询返回List<Class> * 方法备注: Class 只能是自定义类 * @param calzz * @param sql * @return * 创建人：王川 * 创建时间：Jul