Thinkgamer_

无监督学习中的无监督特征学习、聚类和密度估计

无监督学习概述

无监督学习（Unsupervised Learning）是指从无标签的数据中学习出一些有用的模式，无监督学习一般直接从原始数据进行学习，不借助人工标签和反馈等信息。典型的无监督学习问题可以分为以下几类：

无监督特征学习（Unsupervised Feature Learning）

从无标签的训练数据中挖掘有效的特征表示，无监督特征学习一般用来进行降维，数据可视化或监督学习前期的特征预处理。

密度估计（Density Estimation）

是根据一组训练样本来估计样本空间的概率密度。密度估计可以分为：参数密度估计和非参数密度估计。参数密度估计是假设数据服从某个已知概率密度函数形式的分布，然后根据训练样本去估计该分布的参数。非参数密度估计是不假设服从某个概率分布，只利用训练样本对密度进行估计，可以进行任意形状的密度估计，非参数密度估计的方法包括：直方图、核密度估计等。

聚类（Clustering）

是将一组样本根据一定的准则划分到不同的组。一个通用的准则是组内的样本相似性要高于组间的样本相似性。常见的聚类方法包括：KMeans、谱聚类、层次聚类等。

聚类大家已经非常熟悉了，下文主要介绍无监督特征学习和概率密度估计。

无监督特征学习

无监督特征学习是指从无标注的数据中自动学习有效的数据表示，从而能够帮助后续的机器学习模型达到更好的性能。无监督特征学习主要方法有：

主成分分析
稀疏编码
自编码器

主成分分析

主成分分析（Principal Component Analysis，PCA）是一种最常用的数据降维方法，使得在转换后的空间中数据的方差最大。以下部分摘自于 https://zhuanlan.zhihu.com/p/32412043

PCA中的最大可分性思想

PCA降维，用原始样本数据中最主要的方面代替原始数据，最简单的情况是从2维降到1维，如下图所示，我们希望找到某一个维度方向，可以代表两个维度的数据，图中列了两个方向 $u_1, u_2$ ，那么哪个方向可以更好的代表原始数据呢？

从直观上看， $u_1$ 比 $u_2$ 好，这就是所说的最大可分性。

基变换

其中 $p_i \in {p_1, p_2, ..., p_R}$ ， $p_i \in R^{1*N}$ 是一个行向量，表示第i个基， $a_j \in {a_1, a_2, ..., a_M}$ ， $a_i \in R^{N*1}$ 是一个列向量，表示第 $j$ 个原始数据记录，特别要注意的是，这里R可以小于N，而R决定了变维后数据的维数。

从上图和文字解释我们可以得到一种矩阵相乘的物理解释：两个矩阵相乘的意义是将右边矩阵中的每一列列向量变换到左边矩阵中每一行行向量为基所表示的空间中去。更抽象的说，一个矩阵可以表示一种线性变换。很多同学在学习矩阵相乘时，只是简单的记住了相乘的规则，但并不清楚其背后的物理意义。

方差

如何考虑一个方向或者基是最优的，看下图：

我们将所有的点向两条直线做投影，基于前面PCA最大可分性思想，我们要找的是降维后损失最小，可以理解为投影后数据尽可能的分开，那么在数学中去表示数据的分散使用的是方差，我们都知道方差越大，数据越分散，方差的表达式如下：

$\frac{1}{m} \sum_{i=1}^{m} (a_i - \mu)^2$
其中 $\mu$ 为样本均值，如果提前对样本做去中心化，则方差表达式为：
$\frac{1}{m} \sum_{i=1}^{m} (a_i)^2$

到现在，我们知道了以下几点：

对原始数据进行（线性变换）基变换可以对原始样本给出不同的表示
基的维度小于样本的维度可以起到降维的作用，
对基变换后新的样本求其方差，选取使其方差最大的基

那么再考虑另外一个问题？

上面只是说明了优化目标，但并没有给出一个可行性的操作方案或者算法，因为只说明了要什么，但没说怎么做，所以继续进行探讨。

协方差

从二维降到一维可以采用方差最大来选出能使基变换后数据分散最大的方向（基），但遇到高纬的基变换，当完成第一个方向（基）选择后，第二个投影方向应该和第一个“几乎重合在一起”，这样显然是没有用的，要有其他的约束，我们希望两个字段尽量表示更多的信息，使其不存在相关性。

数学上使用协方差表示其相关性。
$\frac{1}{m} \sum_{i=1}^{m}a_i b_i$
当Cov(a,b)=0时表示两个字段完全独立，也是我们优化的目标。

注意这里的 $a_i,b_i$ 是经过去中心化处理的。

协方差矩阵

我们想要达到的目标与字段内方差及协方差有密切的关系，假如只有a、b两个字段，将他们按行组成矩阵X，表示如下：

然后用X乘以X的转置矩阵，并乘以系数 $\frac{1}{m}$ 得：

可见，协方差矩阵是一个对称的矩阵，而且对角线是各个维度的方差，而其他元素是a 和 b的协方差，然后会发现两者被合并到了一个矩阵内。

协方差矩阵对角化

我们的目标是使 $\frac{1}{m}\sum_{i=1}^{m}a_ib_i=0$ ，根据上述的推导，可以看出优化目标是 $C=\frac{1}{m}XX^T$ 等价于协方差矩阵对角化。即除对角线外的其他元素（如 $\frac{1}{m} \sum_{i=1}^{m}a_i b_i$ ）化为0，并且在对角线上将元素按大小从上到下排列，这样我们就达成了优化目的。

这样说可能不是很明晰，我们进一步看下原矩阵和基变换后矩阵协方差矩阵的关系：

设原始数据矩阵为X，对应的协方差矩阵为C，而P是一组基按行组成的矩阵，设Y=PX，则Y为X对P做基变换后的数据。设Y的协方差矩阵为D，我们推导一下D与C的关系：
$D=\frac{1}{m}YY^T \\ = \frac{1}{m}(PX)(PX)^T \\ = \frac{1}{m} PXX^TP^T \\ =P(\frac{1}{m} XX^T)P^T \\ = PCP^T \\ =P \begin{pmatrix} \frac{1}{m} \sum_{i=1}^{m} a_i^2 & \frac{1}{m} \sum_{i=1}^{m} a_i b_i \\ \frac{1}{m} \sum_{i=1}^{m} a_ib_i & \frac{1}{m} \sum_{i=1}^{m} b_i^2 \end{pmatrix} P^T$

可见我们要找的P不是别的，而是能让原始协方差矩阵对角化的P。换句话说，优化目标变成了寻找一个矩阵P，满足 $PCP^T$ 是一个对角矩阵，并且对角元素按从大到小依次排列，那么P的前K行就是要寻找的基，用P的前K行组成的矩阵乘以X就使得X从N维降到了K维并满足上述优化条件。

我们希望投影后的方差最大化，于是优化目标可以改写为：
$\underset{P}{max} \, tr(PCP^T) \\ s.t. \,PP^T=I$
利用拉格朗日函数可以得到：
$tr(PCP^T) + \lambda(PP^T - I)$
对P求导有 $CP^T + \lambda P^T = 0$ ，整理得：
$CP^T = (- \lambda) P^T$
于是，只需对协方差矩阵C进行特征分解，对求得的特征值进行排序，再对 $P^T = (P_1, P_2, ..., P_R)$ 取前K列组成的矩阵乘以原始数据矩阵X，就得到了我们需要的降维后的数据矩阵Y。

PCA算法流程

从上边可以看出，求样本 $x_i$ 的 $n^{'}$ 维的主成分，其实就是求样本集的协方差矩阵 $\frac{1}{m}XX^T$ 的前 $n^{'}$ 维个特征值对应特征向量矩阵P，然后对于每个样本 $x_i$ ，做如下变换 $y_i = P x_i$ ，即达到PCA降维的目的。

具体的算法流程如下：

输入：n维的样本集 $X=(x_i, x_2,...,x_m)$ ，要降维到的维数 $n^{'}$
输出：降维后的维度Y

对所有的样本集去中心化 $x_i = x_i - \frac{1}{m} \sum_{j=1}^{m}x_j$
计算样本的协方差矩阵 $\frac{1}{m}XX^T$
求出协方差矩阵对应的特征值和对应的特征向量
将特征向量按照特征值从大到小，从上到下按行排列成矩阵，取前k行组成矩阵P
$Y = P X$ 即为降维到K维之后的数据

注意：有时候降维并不会指定维数，而是指定一个比例 $t$ ，比如降维到原先的t比例。

PCA算法总结

PCA算法的主要优点：

仅仅需要以方差衡量信息量，不受数据集意外因素的影响
各主成分之间正交，可消除原始数据各成分间的相互影响的因素
方法设计简单，主要运算是特征值分解，易于实现

PCA算法的主要缺点：

主成分各个特征维度的含义具有一定的模糊性，不如原始样本特征的可解释性强
方差小的非主成分也可能包含对样本差异的重要信息，因降维丢弃可能会对后续数据处理有影响
当样本特征维度较大时，需要巨大的计算量（比如，10000*10000，这时候就需要SVD[奇异值分解]，SVD不仅可以得到PCA降维的结果，而且可以大大的减小计算量）

稀疏编码

稀疏编码（Sparse Coding）介绍

在数学上，线性编码是指给定一组基向量 $A=[a_1,a_2,...,a_p]$ ，将输入样本 $x\in R$ 表示为这些基向量的线性组合
$\sum _{i=1}^{p} z_i a_i = Az$
其中基向量的系数 $z=[z_1,...,z_p]$ 称为输入样本x的编码，基向量A也称为字典（dictionary）。

编码是对d维空间中的样本x找到其在p维空间中的表示（或投影），其目标通常是编码的各个维度都是统计独立的，并且可以重构出输入样本。编码的关键是找到一组“完备”的基向量A，比如主成分分析等。但是是主成分分析得到的编码通常是稠密向量，没有稀疏性。

如果p个基向量刚好可以支撑p维的欧式空间，则这p个基向量是完备的，如果p个基向量可以支撑d维的欧式空间，并且p>d，则这p个基向量是过完备，冗余的。

“过完备”基向量一般指的是基向量个数远大于其支撑空间维度，因此这些基向量一般是不具备独立，正交等性质。

给定一组N个输入向量 $x^1, ..., x^N$ ，其稀疏编码的目标函数定义为：
$\sum _{n=1}^{N}( || x^n - Az^n || ^2 + \eta \rho (z^n))$
其中 $\rho(.)$ 是一个稀疏性衡量函数， $\eta$ 是一个超参数，用来控制稀疏性的强度。

对于一个向量 $\in R$ ，其稀疏性定义为非零元素的比例。如果一个向量只有很少的几个非零元素，就说这个向量是稀疏的。稀疏性衡量函数 $\rho(z)$ 是给向量z一个标量分数。z越稀疏， $\rho(z)$ 越小。

稀疏性衡量函数有多种选择，最直接的衡量向量z稀疏性的函数是 $l_0$ 范式
$\rho(z) = \sum _{i=1}^{p} I(|z_i| > 0)$
但 $l_0$ 范数不满足连续可导，因此很难进行优化，在实际中，稀疏性衡量函数通常选用 $l_1$ 范数
$\rho(z) = \sum _{i=1}^{p} |z_i|$
或对数函数
$\rho(z) = \sum _{i=1}^{p} log(1+z_i^2)$
或指数函数
$\rho(z) = \sum _{i=1}^{p} -exp(-z_i^2)$

训练方法

给定一组N个输入向量 $x^1, ... , x^N$ ，需要同时学习基向量A以及每个输入样本对应的稀疏编码 $z^1, ...,z^N$ 。

稀疏编码的训练过程一般用交替优化的方法进行（这一点和ALS很相似）。

（1）固定基向量A，对每个输入 $x^n$ ，计算其对应的最优编码（原内容为减去稀疏性衡量函数，觉得不对）
$\underset{x^n}{min} || x^n - Az^n ||^2 + \eta \rho (z^n), \forall n \in [1,N]$
（2）固定上一步得到的编码 $z^1, ...,z^N$ ，计算其最优的基向量
$\underset{A}{min} \sum _{i=1}^{N} ( || x^n - Az^n ||^2 ) + \lambda \frac{1}{2} ||A||^2$
其中第二项为正则化项， $\lambda$ 为正则化项系数。

稀疏编码优缺点

稀疏编码的每一维都可以看作是一种特征，和基于稠密向量的分布式表示相比，稀疏编码具有更小的计算量和更好的可解释性等优点。

计算量 稀疏性带来的最大好处就是可以极大的降低计算量

可解释性 因为稀疏编码只有少数的非零元素，相当于将一个输入样本表示为少数几个相关的特征，这样我们可以更好的描述其特征，并易于理解

特征选择 稀疏性带来的另一个好处是可以实现特征的自动选择，只选择和输入样本相关的最少特征，从而可以更好的表示输入样本，降低噪声并减轻过拟合

自编码器

自编码器（Auto-Encoder，AE）是通过无监督的方式来学习一组数据的有效编码。

假设有一组d维的样本 $x^n \in R^d, 1 \leq n \leq N$ ，自编码器将这组数据映射到特征空间得到每个样本的编码 $z^n \in R^p, 1 \leq n \leq N$ ，并且希望这组编码可以重构出原来的样本。

自编码器的结构可分为两部分：编码器（encoder）： $f: R^d -> R^p$ 和解码器（decoder）： $R^p -> R^d$

自编码器的学习目标是最小化重构误差（reconstruction errors）

$\sum_{n=1}^{N} || x^n -g(f(x^n)) ||^2 = \sum || x^n -f \cdot g(x^n) ||^2$
如果特征空间的维度p小雨原始空间的维度d，自编码器相当于是一种降维或特征抽取方法。如果 $\geq d$ ，一定可以找到一组或多组解使得 $\cdot g$ 为单位函数（Identity Function），并使得重构错误为0。但是这样的解并没有太多的意义，但是如果再加上一些附加的约束，就可以得到一些有意义的解，比如编码的稀疏性、取值范围，f和g的具体形式等。如果我们让编码只能取k个不同的值（k

最简单的自编码器如下图所示的两层神经网络，输入层到隐藏层用来编码，隐藏层到输出层用来解码，层与层之间互相全连接。

对于样本x，中间隐藏层为编码：
$z = s(W^1 x + b^l)$
输出为重构的数据
$x' = s(W^2 z + b^l)$
其中 $W, b$ 为网格参数， $s (.)$ 为激活函数。如果令 $W^2$ 等于 $W^1$ 的转置，即 $W^2=W^{(1)T}$ ，称为捆绑权重（tied weights）。

给定一组样本 $x^n \in [0,1]^d, 1 \leq n \leq N$ ，其重构错误为：
$\sum_{n=1}^{N} || x^n -x^{'n} ||^2 + \lambda ||W||_F^2$
其中 $\lambda$ 为正则化系数，通过最小化重构误差，可以有效的学习网格的参数。

我们使用自编码器是为了得到有效的数据表示，因此在训练数据后，我们一般去掉解码器，只保留编码器，编码器的输出可以直接作为后续机器学习模型的输入。

稀疏自编码器

自编码器除了可以学习低维编码之外，也学习高维的稀疏编码。假设中间隐藏层z的维度为p，大于输入样本的维度，并让z尽量稀疏，这就是稀疏自编码器（Sparse Auto-Encoder）。和稀疏编码一样，稀疏自编码器的优点是有很高的模型可解释性，并同时进行了隐式的特征选择。

通过给自编码器中隐藏单元z加上稀疏性限制，自编码器可以学习到数据中一些有用的结构。

堆叠自编码器

对于很多数据来说，仅使用两层神经网络的自编码器还不足以获取一种好的数据表示，为了获取更好的数据表示，我们可以使用更深层的神经网络。深层神经网络作为自编码器提取的数据表示一般会更加抽象，能够很好的捕捉到数据的语义信息。在实践中经常使用逐层堆叠的方式来训练一个深层的自编码器，称为堆叠自编码器（Stacked Auto-Encoder，SAE）。堆叠自编码一般可以采用逐层训练（layer-wise training）来学习网络参数。

降噪自编码器

降噪自编码器（Denoising Autoencoder）就是一种通过引入噪声来增加编码鲁棒性的自编码器。对于一个向量x，我们首先根据一个比例 $\mu$ 随机将x的一些维度的值设置为0，得到一个被损坏的向量 $\tilde x$ 。然后将被损坏的向量 $\tilde x$ 输入给自编码器得到编码z，并重构原始的无损输入x。

下图给出了自编码器和降噪自编码器的对比，其中 $f_{\theta}$ 为编码器， $g_{\theta^’}$ 为解码器， $L (x, x^{'})$ 为重构错误。

降噪自编码器的思想十分简单，通过引入噪声来学习更鲁棒性的数据编码，并提高模型的泛化能力。

概率密度估计

概率密度估计（Probabilistic Density Estimation）简称密度估计（Density Estimation），是基于一些观测样本来估计一个随机变量的概率密度函数。密度估计在机器学习和数学建模中应用十分广泛。

概率密度估计分为：

参数密度估计
非参数密度估计

参数密度估计

参数密度估计（Parametric Density Estimation）是根据先验知识假设随机变量服从某种分布，然后通过训练样本来估计分布的参数。

令 $D = {\{x^n\}}_{i=1}^{N}$ 为某个未知分布中独立抽取的N个训练样本，假设这些样本服从一个概率分布函数 $p(x|\theta)$ ，其对数似然函数为：
$log\,p(D|\theta) = \sum_{n=1}^{N}log\,p(x^n|\theta)$

要估计一个参数 $\theta ^{ML}$ 来使得：
$\theta ^{ML} = \underset{\theta}{arg\,max } \sum_{n=1}^{N}log\,p(x^n|\theta)$
这样参数估计问题就转化为最优化问题。

正态分布中的参数密度估计

假设样本 $\in X$ 服从正态分布 $\sim N(\mu,\sigma^2)$ ，正态分布的表达式如下：
$\sim N(\mu,\sigma^2) = \frac{1}{ \sqrt{2\pi} \sigma^2} e^{- \frac{(x-\mu)^2}{2\sigma^2}}$
求 $\mu,\sigma^2$ 的最大似然估计量。

$X$ 的概率密度为：
$f(x;\mu,\sigma^2) = \frac{1}{ \sqrt{2\pi} \sigma^2} e^{- \frac{(x-\mu)^2}{2\sigma^2}}$
似然函数为：
$L(\mu,\sigma^2) = \prod_{i=1}^{N} \frac{1}{ \sqrt{2\pi} \sigma^2} e^{- \frac{(x-\mu)^2}{2\sigma^2}} \\ = (2\pi)^{-\frac{N}{2}} (\sigma^2)^{-\frac{N}{2}} e^{(-\frac{1}{2\sigma^2} \sum_{i=1}^{N} (x_i - \mu)^2)}$
对其求导可得对数似然函数为：
$Ln\, L =-\frac{N}{2} ln(2\pi)-\frac{N}{2} ln(\sigma^2) - \frac{1}{2\sigma^2} \sum_{i=1}^{N}(x_i - \mu)^2$
令：
$\left\{\begin{matrix} \frac{\partial }{\partial \mu }ln\, L = \frac{1}{\sigma^2} (\sum_{i=1}^{N} x_i -N\mu ) =0 & \\ \\ \frac{\partial }{\partial \sigma^2 }ln\, L = - \frac{N}{2\sigma^2} + \frac{1}{ (2\sigma^2)^2} \sum_{i=1}^{N}(x_i-\mu)^2 =0& \end{matrix}\right.$
由前一式解得 $\tilde{\mu}=\frac{1}{N}\sum_{i=1}^{N}x_i = \bar{\mu}$ ，代入后一式得 $\tilde{\sigma^2}=\frac{1}{N}\sum_{i=1}^{N}(x_i-\bar{x})^2$ ，因此得 $\mu,\sigma^2$ 的最大似然估计为：
$\tilde{\mu} = \bar{X},\tilde{\sigma^2}=\frac{1}{N}(x_i - \bar{x})^2$

多项分布中的参数密度估计

假设样本服从K个状态的多态分布，令onehot向量 $x\in[0,1]^K$ 来表示第K个状态，即 $x_k=1$ ，其余 $x_{i,k \neq k}=0$ ，则样本x的概率密度函数为：
$p(x|\mu) = \prod_{k=1}^{K}\mu_k ^{x_K}$
其中 $\mu_k$ 为第k个状态的概率，并且满足 $\sum_{k=1}^{K} \mu_k =1$ 。

数据集 $D={\{x^n\}}_{n=1}^{N}$ 的对数似然函数为：
$log(D|\mu) = \sum_{n=1}^{N} \sum_{k=1}^{K} x_n ^k log (\mu _k)$
多项分布的参数估计为约束优化问题，引入拉格朗日乘子 $\lambda$ ，将原问题转化为无约束优化问题。

$\underset{\mu, \lambda}{ max} \sum_{n=1}^{N} \sum_{k=1}^{K} x_k ^n log(\mu_k) + \lambda (\sum_{k=1}^{K} \mu_k -1)$
上式分别对 $\mu_k,\lambda$ 求偏，并令其等于0，得到：
$\mu_k ^{ML} = \frac{m_k}{N}, 1 \leq N \leq K$
其中 $m_k = \sum_{n=1}^{N} x_k ^n$ 为数据集中取值为第k个状态的样本数量。

在实际应用中，参数密度估计一般存在两个问题：

（1）模型选择问题，即如何选择数据分布的密度函数，实际的数据分布往往是非常复杂的，而不是简单的正态分布或者多项分布。
（2）不可观测变量问题，即我们用来训练数据的样本只包含部分的可观测变量，还有一些非常关键的变量是无法观测的，这导致我们很难估计数据的真实分布。
（3）维度灾难问题，即高维的参数估计十分困难。随着维度的增加，估计参数所需要的样本量呈指数增加。在样本不足时会出现过拟合。

非参数密度估计

非参数密度估计（Nonparametric Density Estimation）是不假设数据服从某种分布，通过将样本空间划分为不同的区域并估计每个区域的概率来近似数据的概率密度函数。

对于高纬空间中的一个随机向量x，假设其服从一个未知分布p(x)，则x落入空间中的小区域R的概率为： $P=\int_{R} p(x)dx$ 。

给定N个训练样本 $D=\{x^n\}_{n=1}^{N}$ ，落入区域R的样本数量K服从二项分布：
$P_K = \binom{N}{K}P^K(1-P)^{1-K}$
其中 $K / N$ 的期望为 $E [K / N] = P$ ，方差为 $v a r (K / N) = P (1 - P) / N$ 。当N非常大时，我们可以近似认为： $P\approx \frac{K}{N}$ ，假设区域R足够小，其内部的概率密度是相同的，则有 $P\approx p(x)V$ ，其中V为区域R的提及，结合前边的两个公式，可得： $p(x)\approx \frac{K}{NV}$ 。

根据上式，要准确的估计p(x)需要尽量使得样本数量N足够大，区域体积V尽可能的小。但在具体的应用中吗，样本数量一般有限，过小的区域导致落入该区域的样本比较少，这样估计的概率密度就不太准确。

因此在实践中估计非参数密度通常使用两种方法：

（1）固定区域大小V，统计落入不同区域的数量，这种方式包括直方图和核方法两种
（2）改变区域大小，以使得落入每个区域的样本数量为K，这种方法成为K近邻方法

直方图方法

直方图（Histogram Method）是一种非常直观的估计连续变量密度函数的方法，可以表示为一种柱状图。

以一维随机变量为例，首先将其取值范围划分为M个连续的、不重叠的区间，每个区间的宽度为 $\Delta m$ ，给定 $N$ 个训练样本，我们统计这些样本落入每个区间的数量 $K_m$ ，然后将他们归一化为密度函数。

$p_m = \frac {K_m}{N\Delta m},1 \leq m \leq M$
直方图的关键问题是如何选择一个合适的 $\Delta m$ ，如果该值太小，那么落入每个区间的样本会特别少，其估计的区间密度也会有很大的随机性，如果该值过大，其估计的密度函数会变得十分平滑。下图给出了两个直方图的例子，其中蓝色表示真实的密度函数，红色表示直方图估计的密度函数。

直方图通常用来处理低维随机变量，可以非常快速的对数据的分布进行可视化，但其缺点是很难扩展到高维变量，假设一个d维的随机变量，如果每一维都划分为M个空间，那么整个空间的区域数量为 $M^d$ ，直方图估计的方法会随着空间的增大而指数增长，从而形成维度灾难（Curse Of Dimensionality）

核方法

核密度估计（Kernel Density Estimation），也叫Parzen窗方法，是一种直方图方法的改进。

假设 $R$ 为 $d$ 维空间中的一个以点x为中心的“超立方体”，并定义核函数
$\phi (\frac{z-x}{h}) = \left\{\begin{matrix} 1 \,\,\,\,\,\, if \, |z_i - x_i|< \frac{h}{2}, 1 \leq i \leq d & \\ 0 \,\,\,\,\,\, else & \end{matrix}\right.$

来表示一个样本是否落入该超立方体中，其中 $h$ 为超立方体的边长，也称为核函数的密宽度。

给定 $N$ 个训练样本 $D$ ，落入区域 $R$ 的样本数量 $K$ 为：
$\sum_{n=1}^{K} \phi (\frac {x^n - x}{h})$
则点 $x$ 的密度估计为：
$\frac{K}{Nh^d} =\frac{1}{Nh^d} \sum_{n=1}^{K} \phi (\frac {x^n - x}{h})$
其中 $h^d$ 表示区域 $R$ 的体积。

除了超立方体的核函数意外之外，我们还可以选择更加平滑的核函数，比如高斯核函数：
$\phi (\frac {z-x}{h}) = \frac {1}{ (2\pi)^{\frac{1}{2}} h} exp(- \frac{||z-x||^2}{2h^2})$
其中 $h^2$ 可以看做是高斯核函数的方差，这样点 $x$ 的密度估计为：
$\frac{1}{N} \sum_{n=1}^{N} \frac {1}{ (2\pi)^{\frac{1}{2}} h} exp(- \frac{||z-x||^2}{2h^2})$

K近邻方法

核密度估计方法中的核宽度是固定的，因此同一个宽度可能对高密度的区域过大，而对低密度的区域过小。一种更加灵活的方式是设置一种可变宽度的区域，并使得落入每个区域中的样本数量固定为K。

要估计点x的密度，首先找到一个以x为中心的球体，使得落入球体的样本数量为K，然后根据公式 $p(x)\approx \frac{K}{NV}$ 就可以计算出点x的密度。因为落入球体的样本也是离x最近的K个样本，所以这种方法也称为K近邻（K-Nearest Neughbor）方法。

在K近邻方法中，K值的选择十分重要，如果K太小，无法有效的估计密度函数，而K太大也会使局部的密度不准确，并且会增加计算开销。

K近邻方法也经常用于分类问题，称为K近邻分类器。当K=1时为最近邻分类器。

最近邻分类器的一个性质是，当 $\rightarrow \infty$ ，其分类错误率不超过最优分类器错误率的两倍。

总结

无监督学习是一种十分重要的机器学习方法，无监督学习问题主要可以分为聚类，特征学习，密度估计等几种类型。但是无监督学习并没有像有监督学习那样取得广泛的成功，主要原因在于其缺少有效客观评价的方法，导致很难衡量一个无监督学习方法的好坏。

【技术服务】，详情点击查看： https://mp.weixin.qq.com/s/PtX9ukKRBmazAWARprGIAg

扫一扫关注微信公众号！号主专注于搜索和推荐系统，尝试使用算法去更好的服务于用户，包括但不局限于机器学习，深度学习，强化学习，自然语言理解，知识图谱，还不定时分享技术，资料，思考等文章！

你可能感兴趣的:(#,TensorFlow)

基于深度学习的推荐系统构建：Movielens 数据集 fresh的转码之路深度学习人工智能机器学习推荐算法
基于深度学习的推荐系统构建：Movielens数据集依赖环境代码语言：python3.11.5开发平台：pycharmtensorflow版本：2.18.0MovieLen1M数据及简介MovieLens1M数据集包含包含6000个用户在近4000部电影上的100万条评分，也包括电影元数据信息和用户属性信息。下载地址为：http://files.grouplens.org/datasets/mov
tf.function-＞ AttributeError: ‘double‘ object has no attribute ‘shape‘ 乔宇同学学习tensorflow
跑tensorflow时出现的bug,不使用tf.function没问题，一旦挂上装饰符，就报错，报错内容如下：Traceback(mostrecentcalllast):File"D:\Anaconda3\envs\tensorflow2\lib\site-packages\tensorflow_core\python\eager\function.py",line111,in_make_inp
用TensorFlow.NET搭建一个全连接神经网络 chiyong7717 人工智能 c#python
在本文中，我们将学习如何在C＃中构建神经网络模型计算图。与线性分类器相比，神经网络的关键优势在于它可以分离不可线性分离的数据。我们将实现此模型来对MNIST数据集的手写数字图像进行分类。我们要构建的神经网络的结构如下。MNIST数据的手写数字图像有10个类（从0到9）。该网络具有2个隐藏层：第一层具有200个隐藏单元（神经元），第二层具有10个神经元（称为分类器层）。让我们一步一步地用代码来实现：
C#遇见TensorFlow.NET：开启机器学习的全新时代墨夶 C#学习资料1 机器学习 c#tensorflow
在当今快速发展的科技世界里，机器学习（MachineLearning,ML）已经成为推动创新的重要力量。从个性化推荐系统到自动驾驶汽车，ML的应用无处不在。对于那些习惯于使用C#进行开发的程序员来说，将机器学习集成到他们的项目中似乎是一项具有挑战性的任务。但随着TensorFlow.NET的出现，这一切变得不再困难。今天，我们将一起探索如何利用这一强大的工具，在熟悉的.NET环境中轻松构建、训练和
python中tensorflow_python机器学习TensorFlow框架弦歌缓缓
TensorFlow框架关注公众号“轻松学编程”了解更多。一、简介TensorFlow是谷歌基于DistBelief进行研发的第二代人工智能学习系统，其命名来源于本身的运行原理。Tensor(张量)意味着N维数组，Flow(流)意味着基于数据流图的计算，TensorFlow为张量从流图的一端流动到另一端的计算过程。TensorFlow是将复杂的数据结构传输至人工智能神经网中进行分析和处理过程的系统
基于深度学习CNN网络 mini-xception网络实现构建一个完整的人脸表情检测_识别分类系统，包括训练、评估、前端和服务端代码计算机c9硕士算法工程师卷积神经网络深度学习 cnn 分类
人脸表情检测该项目已训练好网络模型，配置好环境即可运行使用，效果见图像，实现图像识别、摄像头识别、摄像头识别/识别分类项目-说明文档-UI界面-cnn网络项目基本介绍：【网络】深度学习CNN网络mini-xception网络【环境】python>=3.5tensorflow2opencvpyqt5【文件】训练预测全部源代码、训练好的模型、fer2013数据集、程序算法讲解文档【类别】对7种表情检测
推荐3D UNet实现：深度学习3D体素数据语义分割的利器！滑辰煦Marc
推荐3DUNet实现：深度学习3D体素数据语义分割的利器！去发现同类优质开源项目:https://gitcode.com/在这个快速发展的深度学习时代，3DUNet已经成为3D图像处理领域中不可或缺的工具，尤其在医疗影像分析和3D物体识别等任务上展现出强大的潜力。这个开源项目为我们提供了一个高效、灵活的3DUNet实现，支持Tensorflow、PyTorch和Chainer三种主流深度学习框架。
深度学习驱动的极端天气预测：时空数据异常检测与应用全解析（基于Python + TensorFlow） AI_DL_CODE 深度学习 python tensorflow 人工智能天气预测
摘要：时空数据异常检测在气象领域识别偏离正常模式的数据点，对极端天气预测至关重要。深度学习，尤其是LSTM网络，因其强大的特征学习能力在该领域显示出巨大潜力。通过整合多源气象数据，深度学习模型能够自动挖掘复杂模式和非线性关系，提高预测准确性。然而，挑战依然存在，包括数据质量问题、模型可解释性不足以及极端天气的内在复杂性和不确定性。未来，通过模型架构创新、训练算法优化以及探索深度学习在气候预测、气象
python 代码实现了一个条件生成对抗网络（Conditional Generative Adversarial Network，CGAN），用于生成与给定的理化值相关的光谱数据 max500600 算法开发语言 python 生成对抗网络开发语言
importtensorflowastfimportnumpyasnpimportpandasaspdimportosimportmatplotlib.pyplotaspltfromsklearn.model_selectionimporttrain_test_splitfromtensorflow.keras.layersimportAdd,BatchNormalizationos.enviro
MindIE+MindFormers推理方案指导人工智能pytorch
组件介绍CANNCANN是什么异构计算架构CANN（ComputeArchitectureforNeuralNetworks）是昇腾针对AI场景推出的异构计算架构，向上支持多种AI框架，包括MindSpore、PyTorch、TensorFlow等，向下服务AI处理器与编程，发挥承上启下的关键作用，是提升昇腾AI处理器计算效率的关键平台。同时针对多样化应用场景，提供多层次编程接口，支持用户快速构建
开源人工智能模型框架：探索与实践 CodeJourney. 人工智能能源
摘要本文深入探讨了开源人工智能模型框架，旨在为研究人员、开发者及相关从业者提供全面的理解与参考。通过对多个主流开源框架，如TensorFlow、PyTorch、Keras、Detectron2、OpenCV、HuggingFaceTransformers、AllenNLP、MindSpore和Fastai的详细分析，阐述其特点、应用场景、优势与不足，并结合具体示例说明其使用方法，同时配以相关架构图
【机器学习：十五、神经网络的编译和训练】 KeyPan 机器学习机器学习神经网络人工智能深度学习 pytorch ubuntu linux
1.TensorFlow实现代码TensorFlow是深度学习中最为广泛使用的框架之一，提供了灵活的接口来构建、编译和训练神经网络。以下是实现神经网络的一个完整代码示例，以“手写数字识别”为例：importtensorflowastffromtensorflow.kerasimportlayers,models#加载MNIST数据集(x_train,y_train),(x_test,y_test)
应急救援路径规划中的蚁群算法与路径评价研究【附代码】拉勾科研工作室算法
数据科学与大数据专业|数据分析与模型构建|数据驱动决策✨专业领域：数据挖掘与清洗大数据处理与存储技术机器学习与深度学习模型数据可视化与报告生成分布式计算与云计算数据安全与隐私保护擅长工具：Python/R/Matlab数据分析与建模Hadoop/Spark大数据处理平台SQL数据库管理与优化Tableau/PowerBI数据可视化工具TensorFlow/PyTorch深度学习框架✅具体问题可以私
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
关于python版本与TensorFlow安装的版本问题 iiimharrygGc. python tensorflow 开发语言
实测在conda环境下，python3.12的版本无法安装TensorFlow2.14.0（截至2024.5.21）最新版本在python3.7版本下正常安装ps：上述安装均在anacondanavigator软件内安装
Vue + Django的人脸识别系统 DXSsssss python DRF tensorflow 人脸识别
最近在研究机器学习，刚好最近看了vue+Djangodrf的一些课程，学以致用，做了一个人脸识别系统。项目前端使用Vue框架，用到了elementui组件，写起来真是方便。比之前传统的dtl方便了太多。后端使用了drf，识别知识刚开始打算使用opencv+tensorflow,但是发现吧识别以后的结果返回到浏览器当中时使用opencv比较麻烦（主要是我太菜，想不到比较好的方法），因此最终使用了tf
Awesome TensorFlow weixin_30594001 人工智能移动开发大数据
AwesomeTensorFlowAcuratedlistofawesomeTensorFlowexperiments,libraries,andprojects.Inspiredbyawesome-machine-learning.WhatisTensorFlow?TensorFlowisanopensourcesoftwarelibraryfornumericalcomputationusin
【ShuQiHere】小白也能懂的 TensorFlow 和 PyTorch GPU 配置教程 ShuQiHere tensorflow pytorch 人工智能
【ShuQiHere】在深度学习中，GPU的使用对于加速模型训练至关重要。然而，对于许多刚刚入门的小白来说，如何在TensorFlow和PyTorch中指定使用GPU进行训练可能会感到困惑。在本文中，我将详细介绍如何在这两个主流的深度学习框架中指定使用GPU进行训练，并确保每一个步骤都简单易懂，跟着我的步骤来，你也能轻松上手！1.安装所需库首先，确保你已经安装了TensorFlow或PyTorch
TensorFlow的基本概念以及使用场景张柏慈决策树
TensorFlow是一个机器学习平台，用于构建和训练机器学习模型。它使用图形表示计算任务，其中节点表示数学操作，边表示计算之间的数据流动。TensorFlow的主要特点包括：1.多平台支持：TensorFlow可以运行在多种硬件和操作系统上，包括CPU、GPU和移动设备。2.自动求导：TensorFlow可以自动计算模型参数的梯度，通过优化算法更新参数，以提高模型的准确性。3.分布式计算：Ten
基于VGG的猫狗识别卑微小鹿 tensorflow tensorflow
由于猫和狗的数据在这里，所以就做了一下分类的神经网络1、首先进行图像处理：importcsvimportglobimportosimportrandomos.environ['TF_CPP_MIN_LOG_LEVEL']='2'importtensorflowastffromtensorflowimportkerasfromtensorflow.kerasimportlayersimportnum
轻松升级：Ollama + OpenWebUI 安装与配置【AIStarter】 ai_xiaogui AI作画 AI软件人工智能 AI写作 AIStarter
Ollama是一个开源项目，用于构建和训练大规模语言模型，而OpenWebUI则提供了一个方便的前端界面来管理和监控这些模型。本文将指导你如何更新这两个工具，并顺利完成配置。准备工作确保你的系统已安装Git和Python环境。安装必要的依赖库，如TensorFlow或PyTorch等。更新步骤克隆项目：使用Git命令行工具克隆最新的Ollama和OpenWebUI仓库到本地。更新代码：确保你正在使
深度学习之基于Tensorflow卷积神经网络水果蔬菜分类识别系统 qq1744828575 python python plotly
欢迎大家点赞、收藏、关注、评论啦，由于篇幅有限，只展示了部分核心代码。文章目录一项目简介二、功能三、系统四.总结一项目简介一、项目背景与目标背景：在现代农业、智能零售等领域，自动化分类与识别技术对于提高效率、优化供应链管理具有重要意义。为了响应这一需求，本项目旨在构建一个基于深度学习技术的水果蔬菜分类识别系统。目标：构建一个准确率高、性能稳定的水果蔬菜分类识别模型，利用Tensorflow框架
ImportError: cannot import name ‘conv_utils‘ from ‘keras.utils‘ CheCacao keras 深度学习 python tensorflow tensorflow2 人工智能
将fromkeras.utilsimportconv_utils改为fromtensorflow.python.keras.utilsimportconv_utilsImportError:nomodulenamed'tensorflow.keras.engine将fromkeras.engine.topologyimportLayer改为fromtensorflow.python.keras.l
jupyter出错ImportError: cannot import name ‘np_utils‘ from ‘keras.utils‘ ，怎么解决？七月初七淮水竹亭～人工智能 python jupyter keras 深度学习
文章前言此篇文章主要是记录一下我遇到的问题以及我是如何解决的，希望下次遇到类似问题可以很快解决。此外，也希望能帮助到大家。遇到的问题出错：ImportError:cannotimportname'np_utils'from'keras.utils'，如图：如何解决首先我根据网上文章的一些提示，将fromkeras.utilsimportnp_utils换成了fromtensorflow.keras
tensorflow和python不兼容_tensorflow与numpy的版本兼容性问题的解决 weixin_39727934
在Python交互式窗口导入tensorflow出现了下面的错误：ox8免费资源网root@ubuntu:~#python3Python3.6.8(default,Oct72019,12:59:55)[GCC8.3.0]onlinuxType"help","copyright","credits"or"license"formoreinformation.>>>importtensorflowas
numpy python 兼容_tensorflow与numpy的版本兼容性问题 weixin_39761822 numpy python 兼容
在Python交互式窗口导入tensorflow出现了下面的错误：root@ubuntu:~#python3Python3.6.8(default,Oct72019,12:59:55)[GCC8.3.0]onlinuxType"help","copyright","credits"or"license"formoreinformation.>>>importtensorflowastf;/usr/
安装tensorflow2.5.0 发现 tensorflow 和 numba 两者对应Numpy版本冲突 GJK_ tensorflow numpy 人工智能
问题：python3.8安装tensorflow2.5.0发现tensorflow和numba两者对应Numpy版本冲突tensorflow-gpu2.5.0requiresnumpy~=1.19.2numba0.58.1requiresnumpy=1.22解决方法：将numba降低版本为0.53pipinstallnumba==0.53再将numpy版本改为1.19.2pipinstallnum
python3.7安装keras教程_python 3.7 安装 sklearn keras(tf.keras) weixin_39641103
#1sklearn一般方法网上有很多教程，不再赘述。注意顺序是numpy+mkl，然后scipy的环境，scipy，然后sklearn#2anocondaanaconda原始的环境已经自带了sklearn，这里说一下新建环境（比如创建了一个tensorflow的环境），activatetensorflow2.0，然后condainstallsklearn即可，会帮你把各种需要的库都安装。#kera
Python高层神经网络 API库之Keras使用详解 Rocky006 python keras 开发语言
概要随着深度学习在各个领域的广泛应用，许多开发者开始使用各种框架来构建和训练神经网络模型。Keras是一个高层神经网络API，使用Python编写，并能够运行在TensorFlow、CNTK和Theano之上。Keras旨在简化深度学习模型的构建过程，使得开发者能够更加专注于实验和研究。本文将详细介绍Keras库，包括其安装方法、主要特性、基本和高级功能，以及实际应用场景，帮助全面了解并掌握该库的
将本地已有的项目上传到新建的git仓库的方法 10676
将本地已有的一个非git项目上传到新建的git仓库的方法一共有两种。一、克隆+拷贝第一种方法比较简单，直接用把远程仓库拉到本地，然后再把自己本地的项目拷贝到仓库中去。然后push到远程仓库上去即可。此方法适用于本地项目不是一个git仓库的情况。1、首先克隆[email protected]:yuanmingchen/tensorflow_study.git2、然后复制自己项目的所有文件到
戴尔笔记本win8系统改装win7系统 sophia天雪 win7 戴尔改装系统 win8
戴尔win8 系统改装win7 系统详述第一步：使用U盘制作虚拟光驱： 1）下载安装UltraISO：注册码可以在网上搜索。 2）启动UltraISO，点击“文件”—》“打开”按钮，打开已经准备好的ISO镜像文
BeanUtils.copyProperties使用笔记 bylijinnan java
BeanUtils.copyProperties VS PropertyUtils.copyProperties 两者最大的区别是： BeanUtils.copyProperties会进行类型转换，而PropertyUtils.copyProperties不会。既然进行了类型转换，那BeanUtils.copyProperties的速度比不上PropertyUtils.copyProp
MyEclipse中文乱码问题 0624chenhong MyEclipse
一、设置新建常见文件的默认编码格式，也就是文件保存的格式。在不对MyEclipse进行设置的时候，默认保存文件的编码，一般跟简体中文操作系统（如windows2000，windowsXP）的编码一致，即GBK。在简体中文系统下，ANSI 编码代表 GBK编码;在日文操作系统下，ANSI 编码代表 JIS 编码。 Window-->Preferences-->General -
发送邮件不懂事的小屁孩 send email
import org.apache.commons.mail.EmailAttachment; import org.apache.commons.mail.EmailException; import org.apache.commons.mail.HtmlEmail; import org.apache.commons.mail.MultiPartEmail;
动画合集换个号韩国红果果 html css
动画指一种样式变为另一种样式 keyframes应当始终定义0 100 过程 1 transition 制作鼠标滑过图片时的放大效果 css .wrap{ width: 340px;height: 340px; position: absolute; top: 30%; left: 20%; overflow: hidden; bor
网络最常见的攻击方式竟然是SQL注入蓝儿唯美 sql注入
NTT研究表明，尽管SQL注入（SQLi）型攻击记录详尽且为人熟知，但目前网络应用程序仍然是SQLi攻击的重灾区。信息安全和风险管理公司NTTCom Security发布的《2015全球智能威胁风险报告》表明，目前黑客攻击网络应用程序方式中最流行的，要数SQLi攻击。报告对去年发生的60亿攻击行为进行分析，指出SQLi攻击是最常见的网络应用程序攻击方式。全球网络应用程序攻击中，SQLi攻击占
java笔记2 a-john java
类的封装： 1，java中，对象就是一个封装体。封装是把对象的属性和服务结合成一个独立的的单位。并尽可能隐藏对象的内部细节（尤其是私有数据） 2，目的：使对象以外的部分不能随意存取对象的内部数据（如属性），从而使软件错误能够局部化，减少差错和排错的难度。 3，简单来说，“隐藏属性、方法或实现细节的过程”称为——封装。 4，封装的特性： 4.1设置
[Andengine]Error：can't creat bitmap form path “gfx/xxx.xxx” aijuans 学习Android遇到的错误
最开始遇到这个错误是很早以前了，以前也没注意，只当是一个不理解的bug，因为所有的texture，textureregion都没有问题，但是就是提示错误。昨天和美工要图片，本来是要背景透明的png格式，可是她却给了我一个jpg的。说明了之后她说没法改，因为没有png这个保存选项。我就看了一下，和她要了psd的文件，还好我有一点
自己写的一个繁体到简体的转换程序 asialee java 转换繁体 filter 简体
今天调研一个任务，基于java的filter实现繁体到简体的转换，于是写了一个demo，给各位博友奉上，欢迎批评指正。实现的思路是重载request的调取参数的几个方法，然后做下转换。
android意图和意图监听器技术百合不是茶 android 显示意图隐式意图意图监听器
Intent是在activity之间传递数据;Intent的传递分为显示传递和隐式传递显式意图：调用Intent.setComponent() 或 Intent.setClassName() 或 Intent.setClass()方法明确指定了组件名的Intent为显式意图，显式意图明确指定了Intent应该传递给哪个组件。隐式意图;不指明调用的名称,根据设
spring3中新增的@value注解 bijian1013 java spring @Value
在spring 3.0中，可以通过使用@value，对一些如xxx.properties文件中的文件，进行键值对的注入，例子如下： 1.首先在applicationContext.xml中加入： <beans xmlns="http://www.springframework.
Jboss启用CXF日志 sunjing log jboss CXF
1. 在standalone.xml配置文件中添加system-properties： <system-properties> <property name="org.apache.cxf.logging.enabled" value=&
【Hadoop三】Centos7_x86_64部署Hadoop集群之编译Hadoop源代码 bit1129 centos
编译必需的软件 Firebugs3.0.0 Maven3.2.3 Ant JDK1.7.0_67 protobuf-2.5.0 Hadoop 2.5.2源码包 Firebugs3.0.0 http://sourceforge.jp/projects/sfnet_findbug
struts2验证框架的使用和扩展白糖_ 框架 xml bean struts 正则表达式
struts2能够对前台提交的表单数据进行输入有效性校验，通常有两种方式： 1、在Action类中通过validatexx方法验证，这种方式很简单，在此不再赘述； 2、通过编写xx-validation.xml文件执行表单验证，当用户提交表单请求后，struts会优先执行xml文件，如果校验不通过是不会让请求访问指定action的。本文介绍一下struts2通过xml文件进行校验的方法并说
记录-感悟 braveCS 感悟
再翻翻以前写的感悟，有时会发现自己很幼稚，也会让自己找回初心。 2015-1-11 1. 能在工作之余学习感兴趣的东西已经很幸福了； 2. 要改变自己，不能这样一直在原来区域，要突破安全区舒适区，才能提高自己，往好的方面发展； 3. 多反省多思考；要会用工具，而不是变成工具的奴隶； 4. 一天内集中一个定长时间段看最新资讯和偏流式博
编程之美-数组中最长递增子序列 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class LongestAccendingSubSequence { /** * 编程之美数组中最长递增子序列 * 书上的解法容易理解 * 另一方法书上没有提到的是，可以将数组排序（由小到大）得到新的数组， * 然后求排序后的数组与原数
读书笔记5 chengxuyuancsdn 重复提交 struts2的token验证
1、重复提交 2、struts2的token验证 3、用response返回xml时的注意 1、重复提交 (1)应用场景 (1-1)点击提交按钮两次。 (1-2)使用浏览器后退按钮重复之前的操作，导致重复提交表单。 (1-3)刷新页面 (1-4)使用浏览器历史记录重复提交表单。 (1-5)浏览器重复的 HTTP 请求。 (2)解决方法 (2-1)禁掉提交按钮 (2-2)
[时空与探索]全球联合进行第二次费城实验的可能性 comsci
二次世界大战前后,由爱因斯坦参加的一次在海军舰艇上进行的物理学实验 -费城实验至今给我们大家留下很多迷团..... 关于费城实验的详细过程,大家可以在网络上搜索一下,我这里就不详细描述了在这里,我的意思是,现在
easy connect 之 ORA-12154: TNS: 无法解析指定的连接标识符 daizj oracle ORA-12154
用easy connect连接出现“tns无法解析指定的连接标示符”的错误，如下： C:\Users\Administrator>sqlplus username/[email protected]:1521/orcl SQL*Plus: Release 10.2.0.1.0 – Production on 星期一 5月 21 18:16:20 2012 Copyright (c) 198
简单排序:归并排序 dieslrae 归并排序
public void mergeSort(int[] array){ int temp = array.length/2; if(temp == 0){ return; } int[] a = new int[temp]; int
C语言中字符串的\0和空格 dcj3sjt126com c
\0 为字符串结束符，比如说： abcd (空格)cdefg；存入数组时，空格作为一个字符占有一个字节的空间，我们
解决Composer国内速度慢的办法 dcj3sjt126com Composer
用法：有两种方式启用本镜像服务： 1 将以下配置信息添加到 Composer 的配置文件 config.json 中（系统全局配置）。见“例1” 2 将以下配置信息添加到你的项目的 composer.json 文件中（针对单个项目配置）。见“例2” 为了避免安装包的时候都要执行两次查询，切记要添加禁用 packagist 的设置，如下 1 2 3 4 5
高效可伸缩的结果缓存 shuizhaosi888 高效可伸缩的结果缓存
/** * 要执行的算法，返回结果v */ public interface Computable<A, V> { public V comput(final A arg); } /** * 用于缓存数据 */ public class Memoizer<A, V> implements Computable<A,
三点定位的算法 haoningabc c 算法
三点定位，已知a,b,c三个顶点的x,y坐标和三个点都z坐标的距离，la，lb,lc 求z点的坐标原理就是围绕a,b,c 三个点画圆，三个圆焦点的部分就是所求但是，由于三个点的距离可能不准，不一定会有结果，所以是三个圆环的焦点，环的宽度开始为0，没有取到则加1 运行 gcc -lm test.c test.c代码如下 #include "stdi
epoll使用详解 jimmee c linux 服务端编程 epoll
epoll - I/O event notification facility在linux的网络编程中，很长的时间都在使用select来做事件触发。在linux新的内核中，有了一种替换它的机制，就是epoll。相比于select，epoll最大的好处在于它不会随着监听fd数目的增长而降低效率。因为在内核中的select实现中，它是采用轮询来处理的，轮询的fd数目越多，自然耗时越多。并且，在linu
Hibernate对Enum的映射的基本使用方法 linzx0212 enum Hibernate
枚举 /** * 性别枚举 */ public enum Gender { MALE(0), FEMALE(1), OTHER(2); private Gender(int i) { this.i = i; } private int i; public int getI
第10章高级事件（下） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
孙子兵法 roadrunners 孙子兵法
始计第一孙子曰：兵者，国之大事，死生之地，存亡之道，不可不察也。故经之以五事，校之以计，而索其情：一曰道，二曰天，三曰地，四曰将，五曰法。道者，令民于上同意，可与之死，可与之生，而不危也；天者，阴阳、寒暑、时制也；地者，远近、险易、广狭、死生也；将者，智、信、仁、勇、严也；法者，曲制、官道、主用也。凡此五者，将莫不闻，知之者胜，不知之者不胜。故校之以计，而索其情，曰
MySQL双向复制 tomcat_oracle mysql
本文包括: 主机配置从机配置建立主-从复制建立双向复制背景按照以下简单的步骤: 参考一下：在机器A配置主机(192.168.1.30) 在机器B配置从机(192.168.1.29) 我们可以使用下面的步骤来实现这一点步骤1：机器A设置主机在主机中打开配置文件 ,
zoj 3822 Domination(dp) 阿尔萨斯 Mina
题目链接：zoj 3822 Domination 题目大意：给定一个N∗M的棋盘，每次任选一个位置放置一枚棋子，直到每行每列上都至少有一枚棋子，问放置棋子个数的期望。解题思路：大白书上概率那一张有一道类似的题目，但是因为时间比较久了，还是稍微想了一下。dp[i][j][k]表示i行j列上均有至少一枚棋子，并且消耗k步的概率（k≤i∗j）,因为放置在i+1~n上等价与放在i+1行上，同理