FiOQA

机器学习与数据挖掘(下)——期末复习

机器学习与数据挖掘(上)——期末复习

无监督学习

主成分分析(PCA)

降维

就是一种对高维度特征数据预处理方法。降维是将高维度的数据保留下最重要的一些特征，去除噪声和不重要的特征，从而实现提升数据处理速度的目的。在实际的生产和应用中，降维在一定的信息损失范围内，可以为我们节省大量的时间和成本。降维也成为应用非常广泛的数据预处理方法。

降维具有如下一些优点：

使得数据集更易使用。
降低算法的计算开销。
去除噪声。
使得结果容易理解。

PCA(Principal Component Analysis)，即主成分分析方法，是一种使用最广泛的数据降维算法。PCA的主要思想是将n维特征映射到k维上，这k维是全新的正交特征也被称为主成分，是在原有n维特征的基础上重新构造出来的k维特征。其中，第一个新坐标轴选择是原始数据中方差最大的方向，第二个新坐标轴选取是与第一个坐标轴正交的平面中使得方差最大的，第三个轴是与第1,2个轴正交的平面中方差最大的。依次类推，可以得到n个这样的坐标轴。方差越大，则样本在该特征上的差异就越大，因此该特征就越重要。通过这种方式获得的新的坐标轴，我们发现，大部分方差都包含在前面k个坐标轴中，后面的坐标轴所含的方差几乎为0。于是，我们可以忽略余下的坐标轴，只保留前面k个含有绝大部分方差的坐标轴。事实上，这相当于只保留包含绝大部分方差的维度特征，而忽略包含方差几乎为0的特征维度，实现对数据特征的降维处理。

问题：如何得到这些包含最大差异性的主成分方向？
通过计算数据矩阵的协方差矩阵，然后得到协方差矩阵的特征值特征向量，选择特征值最大(即方差最大)的k个特征所对应的特征向量组成的矩阵。这样就可以将数据矩阵转换到新的空间当中，实现数据特征的降维。

得到协方差矩阵的特征值特征向量有两种方法：特征值分解协方差矩阵、奇异值分解协方差矩阵，所以PCA算法有两种实现方法：基于特征值分解协方差矩阵实现PCA算法、基于SVD分解协方差矩阵实现PCA算法。

基于特征值分解协方差矩阵实现PCA算法

输入：数据集 $X=\{x_1,x_2,\ldots,x_n\}$ ，需要降到K维。

去平均值(即去中心化)，即每一位特征减去各自的平均值。
计算协方差矩阵 $\frac1nXX^T$ ，这里除或不除样本数量 $n$ 或 $n - 1$ ,其实对求出的特征向量没有影响。
用特征值分解方法求协方差矩阵 $\frac1nXX^T$ 的特征值与特征向量
对特征值从大到小排序，选择其中最大的 $k$ 个。然后将其对应的 $k$ 个特征向量分别作为行向量组成特征向量矩阵P。
将数据转换到k个特征向量构建的新空间中，即 $Y = P X$ 。

基于SVD分解协方差矩阵实现PCA算法

输入：数据集 $X=\{x_1,x_2,\ldots,x_n\}$ ，需要降到K维。

去平均值(即去中心化)，即每一位特征减去各自的平均值。
计算协方差矩阵 $\frac1nXX^T$ ，这里除或不除样本数量 $n$ 或 $n - 1$ ,其实对求出的特征向量没有影响。
通过 $S V D$ 计算协方差矩阵的特征值与特征向量。
对特征值从大到小排序，选择其中最大的 $k$ 个。然后将其对应的 $k$ 个特征向量分别作为行向量组成特征向量矩阵P。
将数据转换到k个特征向量构建的新空间中，即 $Y = P X$ 。

推导

假设 $m$ 个 $n$ 维数据 $x^{(1)},x^{(2)},...,x^{(m)})$ 都已经进行了中心化，即 $\sum_{i=1}^mx^{(i)}=0$ 。经过投影变换后得到的新坐标系为 ${w_1,w_2,...,w_n\}$ ,其中 $w$ 是标准正交基，即 $\Vert w\Vert_2=1,w_i^Tw_j=0$ 。

如果我们将数据从 $n$ 维降到 $n^{'}$ 维，即丢弃新坐标系中的部分坐标，则新的坐标系为 ${w_1,w_2,...,w_{n′}}$ ，样本点 $x^{(i)}$ 在 $n^{'}$ 维坐标系中的投影为： $z{^{(i)}}=(z^{(i)}_1,z^{(i)}_2,...,z^{(i)}_{n′})T$ .其中， $z^{(i)}_j=w^T_jx^{(i)}$ 是 $x^{(i)}$ 在低维坐标系里第 $j$ 维的坐标。

基于最小投影距离

即样本点到超平面的距离足够近。

如果我们用 $z^{(i)}$ 来恢复原始数据 $x^{(i)}$ ,则得到的恢复数据 $\bar{x}^{(i)}=\sum_{j=1}^{n'}z^{(i)}_jw_j=Wz^{(i)}$ ，其中， $W$ 为标准正交基组成的矩阵。

现在我们考虑整个样本集，我们希望所有的样本到这个超平面的距离足够近，即最小化下式：
$\sum^m_{i=1}\Vert \bar{x}^{(i)}-x^{(i)}\Vert ^2_2$
对该式整理，可以得到：
$\begin{aligned} \sum^m_{i=1}\Vert \bar{x}^{(i)}-x^{(i)}\Vert ^2_2&=\sum^m_{i=1}\Vert Wz^{(i)}-x^{(i)}\Vert ^2_2\\ &= \sum^m_{i=1}(Wz^{(i)})^T(Wz^{(i)})-2\sum^m_{i=1}(Wz^{(i)})^Tx^{(i)}+\sum^m_{i=1}(x^{(i)})^T(x^{(i)})\\ &= \sum^m_{i=1}(z^{(i)})^T(z^{(i)})-2\sum^m_{i=1}(z^{(i)})^TW^Tx^{(i)}+\sum^m_{i=1}(x^{(i)})^T(x^{(i)})\\ &= \sum^m_{i=1}(z^{(i)})^T(z^{(i)})-2\sum^m_{i=1}(z^{(i)})^T(z^{(i)})+\sum^m_{i=1}(x^{(i)})^T(x^{(i)})\\ &= -\sum^m_{i=1}(z^{(i)})^T(z^{(i)})+\sum^m_{i=1}(x^{(i)})^T(x^{(i)})\\ &= -tr\left(W^T\left(\sum^m_{i=1}(x^{(i)})(x^{(i)})\right)^TW\right)+\sum^m_{i=1}(x^{(i)})^T(x^{(i)})\\ &= -tr\left(W^TXX^TW\right)+\sum^m_{i=1}(x^{(i)})^T(x^{(i)})\\ \end{aligned}$

其中第 $(1)$ 行用到了 $\bar{x}^{(i)}=Wz^{(i)}$ ，第 $(2)$ 行用到了平方和展开，第 $(3)$ 行用到了矩阵转置公式 $AB)^T=B^TAT$ 和 $W^TW=I$ ,第 $(4)$ 行用到了 $z^{(i)}=W^Tx^{(i)}$ ，第 $(5)$ 行合并同类项，第 $(6)$ 行用到了 $z^{(i)}=W^Tx^{(i)}$ 和矩阵的迹，第 $(7)$ 行将代数和表达为矩阵形式。

注意到 $\sum^m_{i=1}(x^{(i)})^T(x^{(i)})$ 是数据集的协方差矩阵，为常量，最小化上式等价于：
$\underset{W}{\arg \min} -tr(W^TXX^TW) \qquad s.t.W^TW=I$
利用拉格朗日函数得到：
$J(W)=-tr(W^TXX^TW+\lambda(W^TW-I))$
对 $W$ 求导有 $-XX^TW+\lambda W=0$ ，即
$XX^TW=\lambda W$
这样可以更清楚的看出， $W$ 为 $XX^T$ 的 $n^{'}$ 个特征向量组成的矩阵，而 $\lambda$ 为 $XX^T$ 的若干特征值组成的矩阵，特征值在主对角线上，其余位置为0。当我们将数据集从 $n$ 维降到 $n^{'}$ 维时，需要找到最大的 $n^{'}$ 个特征值对应的特征向量。这 $n^{'}$ 个特征向量组成的矩阵 $W$ 即为我们需要的矩阵。对于原始数据集，我们只需要用 $z(i)=W^Tx^{(i)}$ ，就可以把原始数据集降维到最小投影距离的 $n^{'}$ 维数据集。

基于最大投影方差

对于任意一个样本 $x^{(i)}$ ，在新的坐标系中的投影为 $W^Tx^{(i)}$ ，在新坐标系中的投影方差为 $x^{(i)})^TWW^Tx^{(i)}$ ，要使所有的样本的投影方差和最大，也就是最大化 $\sum_{i=1}^mW^Tx^{(i)}(x^{(i)})^TW$ 的迹，即：
$\underset{W}{\arg \min} tr(W^TXX^TW) \qquad s.t.W^TW=I$
观察基于最小投影距离的优化目标，可以发现完全一样，只是一个是加负号的最小化，一个是最大化。利用拉格朗日函数得到：
$J(W)=tr(W^TXX^TW+\lambda(W^TW-I))$
对 $W$ 求导有 $XX^TW+\lambda W=0$ ，即
$XX^TW=(-\lambda) W$
$W$ 为 $XX^T$ 的 $n^{'}$ 个特征向量组成的矩阵，而 $-\lambda$ 为 $XX^T$ 的若干特征值组成的矩阵，特征值在主对角线上，其余位置为0。当我们将数据集从 $n$ 维降到 $n^{'}$ 维时，需要找到最大的 $n^{'}$ 个特征值对应的特征向量。这 $n^{'}$ 个特征向量组成的矩阵 $W$ 即为我们需要的矩阵。对于原始数据集，我们只需要用 $z(i)=W^Tx^{(i)}$ ，就可以把原始数据集降维到最小投影距离的 $n^{'}$ 维数据集。

基于奇异值分解
奇异值分解公式中 $A=U\Sigma V^T$ 的 $V^T$ 正是我们想要的所有主成分，每个主成分轴对数据集方差的贡献度是依次减少的，对应特征值对角矩阵 $\Sigma$ 也是从左上到右下依次减少的。奇异值转换的目的，正是将这些绝大部分信息由靠前的i个主成分轴提供，而越往后所提供的信息越少，从而方便降维。

如欲降维，只需保留前 $d$ 列主成分，而将后 $(n - d)$ 列删去即可，还可以保证大部分信息不被删去，这是奇异值转换之前不能达到的。

K-Means聚类

概述

KMEANS算法又被成为K均值算法，是一种常用的聚类算法，由于不需要根据给定的训练集训练模型因此是一种无监督学习算法。其本质是根据选定的参数K将数据分类成K类，在聚类过程中从单一样本开始通过不断计算聚类数据的均值来作为整个类的中心进而再将距离此类别中心最近的数据纳入同一类。

通常用作探索性数据分析工具，在一维中，将重估变量量化为k个非均匀桶的好方法，用于语音理解中的声学数据，将波形转换为k类中的一种(称为矢量量化)，还用于在老式图形显示设备上选择调色板。

算法原理

1、首先确定一个k值，即我们希望将数据集经过聚类得到k个集合。

2、从数据集中随机选择k个数据点作为质心。

3、对数据集中每一个点，计算其与每一个质心的距离（如欧式距离），离哪个质心近，就划分到那个质心所属的集合。

4、把所有数据归好集合后，一共有k个集合。然后重新计算每个集合的质心。

5、如果新计算出来的质心和原来的质心之间的距离小于某一个设置的阈值（表示重新计算的质心的位置变化不大，趋于稳定，或者说收敛），我们可以认为聚类已经达到期望的结果，算法终止。

6、如果新质心和原质心距离变化很大，需要迭代3~5步骤。

优化目标
$\min\sum^K_{i=1}\sum_{x\in C_i}(C_i-x)^2$

注：K是中心点，即簇数目； $C_i$ 表示每个簇内的中心点， $x$ 属于每个簇内的样本点；我们的目的是优化每个簇的点使得它到样本中心点的距离是最短的。

求上式的偏导数，使其为0：
$C_i=\frac1{\vert OwnedBy(C_i)\vert}$
也即每个中心是它所拥有的点的质心。

算法性能评估指标
轮廓系数：
$SC_i=\frac{b_i-a_i}{\max(b_i,a_i)}$

对于每个点 $i$ 为已聚类数据中的样本， $b_i$ 为 $i$ 到其他簇群的所有样本的距离最小值， $a_i$ 为 $i$ 到本身簇的距离平均值，最终计算出所有的样本点的轮廓系数平均值。

$SC_i$ 越接近1，说明样本 $i$ 聚类合理， $SC_i$ 接近-1，则说明样本 $i$ 更应该分类到另外的簇，若接近0，则说明样本 $i$ 在两个簇的边界上。

优缺点

优点
1、原理简单（靠近中心点），实现容易，收敛速度快

2、聚类效果中上（依赖K的选择）

3、空间复杂度 $o (N)$ 时间复杂度 $o (I K N)$ ，N为样本点个数，K为中心点个数，I为迭代次数）
缺点

1、对离群点，噪声敏感（中心点易偏移）

2、很难发现大小差别很大的簇及进行增量计算

3、结果不一定是全局最优，只能保证局部最优（与K的个数及初值选取有关）

4、K值需要预先给定，很多情况下K值的估计是非常困难的。

5、对初始选取的质心点是敏感的

K值的选择

肘部法则适用于 K 值相对较小的情况，当选择的k值小于真正的时，k每增加1，cost值就会大幅的减小；当选择的k值大于真正的K时， k每增加1，cost值的变化就不会那么明显。这样，正确的k值就会在这个转折点。

KNN与K-means区别

KNN	K-Means
1. KNN是分类算法 2. 属于监督学习 3. 训练数据集是带label的数据	1. K-Means是聚类算法 2. 属于无监督学习 3. 训练数据集是无label数据，杂乱的，经过聚类之后变有序
没有明显的前期训练过程，属于memory based learning	有明显的前期训练过程
K的含义：一个样本x，对它进行分类，就从训练数据中，在x附近找到离它最近的K个数据点，这K个数据点中类别c占的个数最多，就把x的label设为c。	K的含义：K是人工固定好的数字，假设数据集合可以分为K个簇，那么就利用训练数据这K个分类。

层次聚类方法

聚类方法	两类之间的距离定义
单联动	一个类中的点和另一个类中的点的最小距离
全联动	一个类中的点和另一个类中的点的最大距离
平均联动	一个类中的点和另一个类中的点的平均距离
质心	两类中质心之间的距离，对于单个观测值来说，质心就是变量的值
Ward法	两个类之间所有变量的方差分析的平方和

单联动聚类方法倾向于发现细长的、雪茄型的类。它也通常展示一种链式的现象，即不相似的观测值分到一类中，因为它们和它们的中间值很相像。
全联动聚类倾向于发现大致相等的直径紧凑类。它对异常值很敏感。
平均联动提供了以上两种方法的折中。相对来说，它不像链式，而且对异常值没有那么敏感。它倾向于把方差小的类聚合。
质心法是一种很受欢迎的方法，因为其中类距离的定义比较简单、易于理解。相比其他方法，它对异常值不是很敏感。但是它可能不如平均联动法或Ward方法表现得好。
Ward法倾向于把有少量观测值的类聚合到一起，并且倾向于产生与观测值个数大致相等的类。它对异常值也是敏感的。

EM算法

EM 算法，全称 Expectation Maximization Algorithm。期望最大算法是一种迭代算法，用于含有隐变量（Hidden Variable）的概率参数模型的最大似然估计或极大后验概率估计。

EM 算法的核心思想非常简单，分为两步：Expection-Step 和 Maximization-Step。E-Step 主要通过观察数据和现有模型来估计参数，然后用这个估计的参数值来计算似然函数的期望值；而 M-Step 是寻找似然函数最大化时对应的参数。由于算法会保证在每次迭代之后似然函数都会增加，所以函数最终会收敛。

Jensen不等式

如果 $f$ 是凸函数， $X$ 是随机变量，那么： $E(f(X))\ge f(E(X))$ 。当且仅当 $X$ 是常量时，该式取等号。其中， $E (X)$ 表示 $X$ 的数学期望。

推导流程

对于n个样本观察数据 $x=(x_1,x_2,\ldots,x_n)$ ，找出样本的参数 $\theta$ ，极大化模型分布的对数似然如下：
$\hat{\theta}=\argmax \sum^n_{i=1}\log p(x_i;\theta)$
如果我们得到的观察数据有未观察到的隐含数据 $z=(z_1,z_2,\ldots,z_n)$ ，即上文中每个样本属于哪个分布是未知的，此时我们极大化模型分布的对数似然函数如下：
$\hat{\theta}=\argmax \sum^n_{i=1}\log p(x_i;\theta)=\argmax \sum^n_{i=1}\log \sum_{z_i} p(x_i,z_i;\theta)$
上面这个式子是根据 $x_i$ 的边缘概率计算得来，没有办法直接求出 $\theta$ 。因此需要一些特殊的技巧，使用Jensen不等式对这个式子进行缩放如下：
$\begin{aligned} \sum^n_{i=1}\log \sum_{z_i} p(x_i,z_i;\theta)&=\sum^n_{i=1}\log \sum_{z_i} Q_i(z_i)\frac{p(x_i,z_i;\theta)}{Q_i(z_i)}\\&\ge \sum^n_{i=1}\sum_{z_i} Q_i(z_i)\log \frac{p(x_i,z_i;\theta)}{Q_i(z_i)} \end{aligned}$
如果要满足Jensen不等式的等号，则有：
$\frac{p(x_i,z_i;\theta)}{Q_i(z_i)}=c\qquad c为常数$
由于 $Q_i(z_i)$ 是一个分布，所以满足 $\sum_{z}Q_i(z_i)=1$ ，则 $\sum_zp(x_i,z_i;\theta)=c$ 。
$Q_i(z_i)=\frac{p(x_i,z_i;\theta)}{\sum_zp(x_i,z_i;\theta)}=\frac{p(x_i,z_i;\theta)}{p(x_i,\theta)}=p(z_i|x_i;\theta)$
至此，我们推出了在固定其他参数 $\theta$ 后， $Q_i(z_i)$ 的计算公式就是后验概率，解决了 $Q_i(z_i)$ 的问题。

如果 $Q_i(z_i)=p(z_i|x_i;\theta)$ ，则使用Jensen得到的公式是我们包含隐藏数据的对数似然函数的一个下界。如果我们能该式这个下界，则也是在极大化我们的对数似然函数。即我们需要最大化下式：
$\argmax \sum^n_{i=1}\sum_{z_i} Q_i(z_i)\log \frac{p(x_i,z_i;\theta)}{Q_i(z_i)}$
上式也就是我们的EM算法的 $M$ 步，解决了 $Q_i(z_i)$ 如何选择的问题，这一步就是 $E$ 步

算法

输入：观测变量数据 $Y$ ，隐变量数据 $Z$ ，联合分布 $P(Y,Z|\theta)$ ，条件分布 $P(Z|Y,\theta)$

输出：模型参数 $\theta$ 。

选择参数的初值 $\theta^{(0)}$ ，开始迭代；
$E$ 步：记 $\theta^{(j)}$ 维第 $i$ 次迭代参数 $\theta$ 的估计值，在第 $j + 1$ 次迭代的 $E$ 步，计算
$\begin{aligned} Q_i(z_i)&=p(z_i|x_i,\theta^{(j)})\\ \ell(\theta,\theta^{(j)})&=\sum^n_{i=1}\sum_{z_i} Q_i(z_i)\log \frac{p(x_i,z_i;\theta)}{Q_i(z_i)} \end{aligned}$
$M$ 步：求使 $\ell(\theta,\theta^{(j)})$ 极大化的 $\theta$ ，确定第 $j + 1$ 次迭代的参数的估计值 $\theta^{(j+1)}$
$\theta^{(j+1)}=\underset{\theta}{\argmax} \quad \ell(\theta,\theta^{(j)})$
重复第 (2) 步和第 (3) 步，直到收敛。

传统EM算法对初始值敏感，聚类结果随不同的初始值而波动较大。总的来说，EM算法收敛的优劣很大程度上取决于其初始参数。

EM算法可以保证收敛到一个稳定点，即EM算法是一定收敛的。但是却不能保证收敛到全局的极大值点，因此它是局部最优的算法，当然，如果我们的优化目标 $\ell(\theta,\theta^{(l)})$ 是凸的，则EM算法可以保证收敛到全局最大值，这点和梯度下降法这样的迭代算法相同。

高斯混合聚类

高斯混合模型是一种概率式的聚类方法，它假定所有的数据样本 $x$ 由 $k$ 个混合多元高斯分布组成的混合分布生成。
$p(x)=\sum^k_{i=1}\alpha_i\times p(x|\mu_i,\Sigma_i)$
其中 $p(x|\mu_i,\Sigma_i)$ 为服从高斯分布的 $n$ 维随机向量 $x$ 的概率密度函数：
$p(x|\mu_i,\Sigma_i)=\frac{1}{(2\pi)^\frac{n}{2}\vert\Sigma|^\frac12}e^{-\frac12(x-\mu_i)^T\Sigma^{-1}_i(x-\mu_i)}$
其中 $\mu$ 是 $n$ 维均值向量， $\Sigma$ 是 $n\times n$ 的协方差矩阵， $\alpha_i>0$ 为相应的混合系数， $\sum^k_{i=1}\alpha_i=1$ 。

利用GMM进行聚类的过程是利用GMM生成数据样本的“逆过程”：

给定聚类簇数 $k$ ，通过给定的数据集，以某一种参数估计的方法，推导出每一个混合成分的参数:均值向量 $\mu$ ，协方差矩阵 $\Sigma$ ，和混合系数 $\alpha$ 。每一个多元高斯分布成分即对应于聚类后的一个簇。

高斯混合模型在训练时使用了极大似然估计法，最大化以下对数似然函数：
$L=\log \prod_{j=1}^{m}p(x)=\sum^m_{j=1}\log \sum^k_{i=1}\alpha_i\times p(x|\mu_i,\Sigma_i)$
若参数 $\{(\alpha_i,\mu_i,\Sigma_i)|(1\le i\le k)\}$ 能使对数似然函数最大化，则由 $\frac{\partial L}{\partial \mu_i}=0$ 有
$\sum^m_{j=1}\frac{\alpha_i\cdot p(x_j|\mu_i,\Sigma_i)}{\sum^k_{l=1}\alpha_l\cdot p(x_j|\mu_l,\Sigma_i)}(x_j-\mu_i)=0$
令
$\gamma_{ji}=\frac{\alpha_i\cdot p(x_j|\mu_i,\Sigma_i)}{\sum^k_{l=1}\alpha_l\cdot p(x_j|\mu_l,\Sigma_i)}$
表示样本 $x_j$ 和由第 $i$ 个混合成分生成的后验概率。则
$\mu_i=\frac{\sum^m_{j=1}(\gamma_{ji\cdot x_j})}{\sum^m_{j=1}\gamma_{ji}}$
即各混合成分的均值可通过样本加权平均来估计，样本权重是每个样本属于该成分的后验概率。

类似的，由 $\frac{\partial L}{\partial \Sigma_i}=0$ 有
$\Sigma_i=\frac{\sum^m_{j=1}\gamma_{ji}(x_j-\mu_i)(x_j-\mu_i)^T}{\sum^m_{j=1}\gamma_{ji}}$
对于混合系数 $\alpha_i$ 除了要最大化对数似然函数，还需满足 $\alpha_i\ge0,\sum^k_{i=1}\alpha_i=1$ ，考虑 $L$ 的拉格朗日形式
$L+\lambda(\sum^k_{i=1}\alpha_i-1)$
其中 $\lambda$ 为拉格朗日乘子，令上式对 $\alpha_i$ 的导数为0，有
$\sum^m_{j=1}\frac{p(x_j|\mu_i,\Sigma_i)}{\sum^k_{l=1}\alpha_l\cdot p(x_j|\mu_l,\Sigma_l)}+\lambda=0$
两边同时乘以 $\alpha_i$ ，对所有样本求和可知 $\lambda=-m$ ，有
$\alpha_i=\frac1m\sum^m_{j=1}\gamma_{ji}$
优缺点

优点
投影后样本点不是得到一个确定的分类标记，而是得到每个类的概率
不仅可以用在聚类上，也可以用在概率密度估计上
缺点

当每个混合模型没有足够多的点时，估算协方差变得困难起来，同时算法会发散并且找具有无穷大似然函数值的解，除非人为地对协方差进行正则化。
GMM每一步迭代的计算量比较大，大于k-means
GMM的求解办法基于EM算法，因此有可能陷入局部极值，这和初始值的选取十分相关

	预测为正	预测为反
真实为正	TP(预测正确的正例)	FN(预测错误的反例)
真实为反	FP(预测错误的正例)	TN(预测正确的反例)

【参考博文】

主成分分析（PCA）原理详解

机器学习算法—KMEANS算法原理

K-means聚类算法

聚类算法，k-means，高斯混合模型(GMM)

EM算法详解

[聚类四原型聚类]之高斯混合模型聚类

推荐系统原理

推荐系统：协同过滤CF和基于内容的推荐CB

推荐系统从入门到接着入门

混合推荐系统介绍

主成分分析（PCA）原理总结 - 刘建平Pinard - 博客园 (cnblogs.com)

机器学习(六)：K-means聚类原理及案例分析 - 简书 (jianshu.com)

无监督机器学习-聚类分析 - 知乎 (zhihu.com)

你可能感兴趣的:(数据挖掘,机器学习,人工智能)

一周热点：微软攻克语音输入、文本输出难题-Phi-4-multimodal 数据分析能量站机器学习人工智能
微软Phi-4-multimodal模型是人工智能领域的一个重要进展，它标志着微软在多模态人工智能技术上的突破。以下是对该模型的详细解释：模型概述微软Phi-4-multimodal是一个能够同时处理文本、图像和语音的多模态大型语言模型。它通过创新的架构和训练方法，实现了在不同模态之间的无缝交互，为用户提供更自然、更智能的交互体验。模型架构该模型采用多模态Transformer架构，通过LoRA（
清华大学《DeepSeek赋能家庭教育》深度解析：AI如何重塑现代家庭教育模式硅基打工人 AI 人工智能经验分享大数据开源语言模型
引言：家庭教育的困境与AI的破局在数字化与智能化浪潮下，家庭教育面临多重挑战：家长教育能力不足、教育资源分配不均、亲子沟通效率低下、个性化需求难以满足等。清华大学发布的《DeepSeek赋能家庭教育》系列报告（共56页）提出了一种基于人工智能的解决方案，通过深度学习平台DeepSeek，为家庭教育注入科技动能。本文将从技术原理、核心功能、应用场景、伦理安全及未来展望等多维度展开分析。一、DeepS
小语言模型（SLM）技术解析：如何在有限资源下实现高效AI推理硅基打工人 AI 人工智能语言模型自然语言处理
引言：为什么小语言模型（SLM）是2025年的技术焦点？2025年，人工智能领域正经历一场“由大变小”的革命。尽管大语言模型（LLM）如GPT-4、GeminiUltra等在复杂任务中表现惊艳，但其高昂的算力成本、庞大的参数量（通常超过千亿）和依赖云端的特性，使得实际落地面临诸多瓶颈。**小语言模型（SmallLanguageModel,SLM）**应运而生，凭借其高效性、经济性和本地化部署能力，
AI开拓者指南：GenAI产品应用TIPs——从采购到使用（采购篇） ai开发
AI浪潮愈发澎湃的当下，生成式人工智能技术已成为企业创新与效率提升的重要工具。企业对生成式人工智能产品（以下简称为“GenAI产品”）的应用需求日益增长，其应用场景也愈发多样化：开展营销活动的过程中利用AI生成创意文案和视觉设计素材，极大地缩短了创作周期并降低了成本；使用AI客服机器人处理客户咨询，显著地提高了客户满意度和响应速度；使用AI还可以为客户提供个性化的产品推荐，提高销售转化率等等。然而
Python精进系列： K-Means 聚类算法调用库函数和手动实现对比分析进一步有进一步的欢喜 Python 精进系列算法 python kmeans
一、引言在机器学习领域，聚类分析是一种重要的无监督学习方法，用于将数据集中的样本划分为不同的组或簇，使得同一簇内的样本具有较高的相似性，而不同簇之间的样本具有较大的差异性。K-Means聚类算法是最常用的聚类算法之一，它以其简单性和高效性在数据挖掘、图像分割、模式识别等领域得到了广泛应用。本文将详细介绍K-Means聚类算法，并分别给出调用现成函数和不调用任何现成函数实现K-Means聚类的代码示
热门AI创作助手推荐【第一期】量子星澜文心一言 AI写作 chatgpt
星游AI创作助手人工智能在现代科技中的应用非常广泛，涵盖了诸多领域，包括但不限于以下几个方面：1.语音识别和自然语言处理：人工智能技术被广泛应用于语音识别和自然语言处理领域，例如智能助手、翻译系统、语音交互系统等。2.机器学习和数据分析：人工智能的机器学习算法被用于数据分析、预测建模、用户个性化推荐等领域，帮助企业做出更准确的商业决策。3.计算机视觉：人工智能在计算机视觉领域的应用包括图像识别、视
Prompt工程全解析：从入门到精通的终极指南二川bro 智能AI 人工智能 prompt
Prompt工程全解析：从入门到精通的终极指南发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，可以分享一下给大家。点击跳转到网站。https://www.captainbed.cn/ccc一、Prompt设计核心法则1.1角色定位法则[角色设定]你是一位资深全栈工程师，拥有10年React和Node.js开发经验[任务要求]为电商系统设计购物车模块，要求：1.支持商品增删改查2.实时计算总价
新手村：线性回归-实战-波士顿房价预测嘉羽很烦机器学习线性回归算法回归
新手村：线性回归-实战-波士顿房价预测前置条件阅读：新手村：线性回归了解相关概念实验目的1.熟悉机器学习的一般流程2.掌握基础的数据处理方法3.理解常用的回归算法教学例子：预测房价（以波士顿房价数据集为例）本次实验，你将使用真实的波士顿房价数据集建立起一个房价预测模型，并且了解到机器学习中的若干重要概念和评价方法，请通过机器学习建立回归模型，即:Y=θ0+θ1×X1+θ2×X2+θ3×X3+⋯+θ
Python 3.12 新特性解析及对开发效率的提升叶间清风1998 python 开发语言
目录一、性能优化（一）FasterCPython（二）新的内存管理机制二、新语法和语言特性（一）Self-typeannotations（二）PatternMatchingEnhancements三、标准库更新（一）NewModulesandFunctions（二）ImprovementstoExistingModulesPython作为一种广泛应用于数据科学、人工智能、Web开发等众多领域的编程
RAG技术深度解析：从基础Agent到复杂推理Deep Search的架构实践小爷毛毛（卓寿杰）系统架构与解决方案搜索推荐架构语言模型人工智能自然语言处理
重磅推荐专栏：《大模型AIGC》《课程大纲》《知识星球》本专栏致力于探索和讨论当今最前沿的技术趋势和应用领域，包括但不限于ChatGPT和StableDiffusion等。我们将深入研究大型模型的开发和应用，以及与之相关的人工智能生成内容（AIGC）技术。通过深入的技术解析和实践经验分享，旨在帮助读者更好地理解和应用这些领域的最新进展一、什么是RAGAgent？1.从信息处理到智能生成在自然语言处
免费DeepSeek与ChatGPT（200美元/月）大比拼！小焱创作 chatgpt 人工智能人工智能写作 ai写作深度学习神经网络 ai
目录免费DeepSeek与ChatGPT（200美元/月）大比拼！免费DeepSeek与ChatGPT（200美元/月）大比拼！在人工智能领域，DeepSeek与ChatGPT无疑是两位耀眼的明星。前者以免费服务迅速崛起，后者则以200美元/月的订阅费维持其高端定位。两者之间的竞争，不仅引发了业界对AI技术发展的关注，更深刻地影响了现代生活的方方面面。本文将从基本概念、深层次解读、具体落地实操等多
【解锁机器学习：探寻数学基石】游戏乐趣机器学习人工智能
机器学习中的数学基础探秘在当今数字化时代，机器学习无疑是最具影响力和发展潜力的技术领域之一。从图像识别到自然语言处理，从智能推荐系统到自动驾驶，机器学习的应用无处不在，深刻地改变着我们的生活和工作方式。然而，在这看似神奇的机器学习背后，数学作为其坚实的理论基础，起着不可或缺的关键作用。毫不夸张地说，数学是打开机器学习大门的钥匙，是理解和掌握机器学习算法与模型的核心所在。想象一下，机器学习就像是一座
机器学习——正则化、欠拟合、过拟合、学习曲线代码的建筑师学习记录机器学习机器学习学习曲线过拟合欠拟合正则化
过拟合（overfitting）:模型只能拟合训练数据的状态。即过度训练。避免过拟合的几种方法：①增加全部训练数据的数量（最为有效的方式）②使用简单的模型（简单的模型学不够，复杂的模型学的太多），这里的简单指的是不要过于复杂③正则化（对目标函数后加上正则化项）：使得这个“目标函数+正则化项”的值最小，即为正则化，用防止参数变得过大（参数值变小，意味着对目标函数的影响变小），λ是正则化参数，代表正则
知识图谱与知识表示：人工智能的基石醉心编码 c/c++人工智能知识图谱
知识图谱与知识表示：人工智能的基石一、知识图谱：连接数据的桥梁1.1知识图谱的构成1.2知识图谱的应用二、知识表示：AI的推理基础2.1知识表示的定义2.2知识表示的形式三、从符号表示到向量表示3.1符号表示与向量表示3.2向量表示的优势四、智能的精华：推理与学习4.1推理的重要性4.2学习的局限性五、结论在人工智能领域，知识图谱和知识表示是两个核心概念，它们构成了AI理解、推理和学习的基础。本文
从过拟合到强化学习：机器学习核心知识全解析吴师兄大模型 0基础实现机器学习入门到精通机器学习人工智能过拟合强化学习 python LLM scikit-learn
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
从LangChain到LangGraph：轻松迁移指南 tt_jishu langchain 前端 javascript python
引言在人工智能应用的开发过程中，从一个框架迁移到另一个框架可能是一个复杂的过程。本文将深入探讨如何从传统的LangChain代理迁移到LangGraph代理，这将为您的工具调用和对话管理带来更大的灵活性。主要内容1.安装和设置确保已安装所需的依赖包：%%capture--no-stderr%pipinstall-Ulanggraphlangchainlangchain-openai设置OpenAI
利用matlab实现贝叶斯优化算法（BO）优化支持向量机回归(SVR)的超参数是内啡肽耶算法 matlab 支持向量机机器学习回归
【导读】在机器学习建模中，支持向量机（SVM）回归模型的效果高度依赖超参数选择。但手动调参就像"大海捞针"，而网格搜索又面临"计算爆炸"的难题。今天给大家介绍一个智能调参黑科技——贝叶斯优化算法。通过Matlab实现，只需几分钟就能让模型性能自动升级！一、为什么要用贝叶斯优化调参？传统调参三大痛点：C参数（正则化强度）：过小导致过拟合，过大削弱模型能力ε参数（不敏感区域）：决定对预测误差的容忍度核
AI笔记——语音识别 Yuki-^_^ 人工智能 AI 人工智能笔记语音识别
摘要：语音识别（AutomaticSpeechRecognition,ASR）是人工智能领域的一项重要技术，它将人类的语音信号转换成文字。随着科技的发展，语音识别已经成为现代生活和工作中不可或缺的一部分。本文旨在介绍语音识别的基本原理、关键技术、应用场景以及未来发展趋势。一、历史与发展语音识别技术的历史可以追溯到20世纪50年代，那时的技术基于规则和模板。随着计算能力的提升和深度学习方法的出现，语
机器学习的下一个前沿是因果推理吗？——探索机器学习的未来方向！真智AI 人工智能机器学习
机器学习的进化：从预测到因果推理机器学习凭借强大的预测能力，已经彻底改变了多个行业。然而，要实现真正的突破，机器学习还需要克服实践和计算上的挑战，特别是在因果推理方面的应用。未来，因果推理或许将成为推动机器学习发展的新前沿。什么是因果推理，它如何与机器学习相关？如果你和我一样没有数学背景，你可能会好奇“因果推理”到底意味着什么？它与机器学习又有什么关系？当我刚开始学习机器学习时，第一次听到“因果推
使用Python和LangChain创建可调用工具的智能对话机器人：全面指南 m0_57781768 python langchain 机器人
使用Python和LangChain创建可调用工具的智能对话机器人：全面指南在当今技术迅猛发展的时代，人工智能（AI）和自然语言处理（NLP）技术的应用范围越来越广。尤其是对话机器人，它们不仅能与人类进行自然交互，还能通过调用外部API与各种系统对接，为用户提供更加智能和灵活的服务。本文将通过一系列实例和代码演示，向您展示如何利用Python编程语言和LangChain框架，创建能够使用外部工具（
智能编程新时代：DeepSeek加持下的开发工具革新 inscode_013
最新接入DeepSeek-V3模型，点击下载最新版本InsCodeAIIDE标题：智能编程新时代：DeepSeek加持下的开发工具革新在当今快速发展的科技领域，编程工具的智能化已经成为不可阻挡的趋势。随着人工智能技术的不断进步，开发者们迎来了前所未有的机遇和挑战。其中，集成DeepSeek模型的AI开发工具，正以其强大的功能和便捷的操作，引领着编程方式的革命性变革。本文将探讨这种创新工具的应用场景
智能编程新时代：DeepSeek加持下的开发利器 inscode_099
最新接入DeepSeek-V3模型，点击下载最新版本InsCodeAIIDE智能编程新时代：DeepSeek加持下的开发利器在当今快速发展的科技时代，编程工具的智能化已经成为不可阻挡的趋势。随着人工智能技术的不断进步，开发者们不再满足于传统的IDE（集成开发环境），而是渴望更加智能、高效的开发工具。在这种背景下，一款集成了DeepSeek-V3模型的AI开发工具应运而生，它不仅能够大幅提升开发效率
智能化编程新时代，DeepSeek加持下的开发革命 ObsidianRaven13
最新接入DeepSeek-V3模型，点击下载最新版本InsCodeAIIDE标题：智能化编程新时代，DeepSeek加持下的开发革命随着人工智能技术的飞速发展，编程领域正迎来一场前所未有的变革。从传统的手动编码到如今的智能辅助开发，这一过程不仅极大地提升了开发效率，还让编程变得更加简单和高效。在众多新兴工具中，基于DeepSeek模型的智能编程助手正在成为开发者的新宠。今天，我们将探讨这种工具如何
智能化开发新时代：DeepSeek加持下的编程革命 MoonbeamOwl67
最新接入DeepSeek-V3模型，点击下载最新版本InsCodeAIIDE标题：智能化开发新时代：DeepSeek加持下的编程革命在当今快速发展的科技时代，软件开发已经成为推动社会进步的重要动力。然而，对于许多开发者而言，编写高质量的代码仍然是一项充满挑战的任务。从复杂的算法设计到繁琐的调试过程，每一个环节都需要耗费大量的时间和精力。而随着人工智能技术的迅猛发展，一种全新的编程方式正在悄然改变这
深入解析LTE-A到5G的系统消息架构与功能演进罗博深
本文还有配套的精品资源，点击获取简介：系统消息是移动通信网络中，UE与网络间信息交换的核心，涵盖了网络状态、服务信息与系统配置。文章深入分析了4GLTE-A到5G网络中系统消息的组成、作用及其演进，包括MIB和SIBs的功能与内容，以及5G对系统消息的优化和新技术的引入，如动态调度、网络切片和针对物联网设备的特定参数配置。5G系统消息还通过机器学习和大数据分析实现智能化分发，增强了网络灵活性、智能
解决约束多目标优化问题的新方法：MOEA/D-DAE算法深度解析木子算法多目标优化人工智能算法多目标人工智能
解决约束多目标优化问题的新方法：MOEA/D-DAE算法深度解析在工程优化、机器学习等众多领域，约束多目标优化问题（CMOPs）广泛存在。传统方法在处理这类问题时，常因可行区域不连通或约束违反局部极小点陷入停滞。近期，IEEETransactionsonEvolutionaryComputation上的一篇论文提出了一种新颖的解决方案——MOEA/D-DAE算法，通过结合检测-逃逸策略（DAE）和
python 人工智能实战案例 2401_86114612 pygame python java
大家好，今天我们要分享，python编程人工智能小例子python人工智能100例子，一起探索吧！1.背景介绍概述在这个世纪，人类已经处于数字化的时代，而这也让很多其他行业都进入了数字化领域python列表有哪些基本操作,python列表功能很重要吗。其中包括游戏行业。游戏行业的蓬勃发展促使机器学习的产生，通过计算机能够进行高效率地模拟人类的学习、决策过程，不断升级提升人类的能力。游戏领域中的AI
Python 在人工智能领域的实际6大案例 Solomon_肖哥弹架构人工智能机器学习 python
Python作为一种功能强大且易于学习的编程语言，在人工智能（AI）领域得到了广泛的应用。从机器学习到深度学习，从自然语言处理到计算机视觉，Python提供了丰富的库和框架，使得开发者能够快速实现各种AI应用。本文将通过多个实际案例，展示Python在人工智能领域的强大功能和应用前景。二、案例一：手写数字识别（MNIST）1.背景介绍手写数字识别是机器学习领域的经典入门项目，MNIST数据集包含了
基于AI算法实现的情感倾向分析的方法程序员奇奇计算机毕设人工智能算法
完整代码：https://download.csdn.net/download/pythonyanyan/87430621背景目前，情感倾向分析的方法主要分为两类：一种是基于情感词典的方法；一种是基于机器学习的方法，如基于大规模语料库的机器学习。前者需要用到标注好的情感词典，英文的词典有很多，中文主要有知网整理的情感词典Hownet和台湾大学整理发布的NTUSD两个情感词典，还有哈工大信息检索研究
机器学习算法实战——天气数据分析（主页有源码）喵了个AI 机器学习实战机器学习算法数据分析
✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨1.引言天气数据分析是气象学和数据科学交叉领域的一个重要研究方向。随着大数据技术的发展，气象数据的采集、存储和分析能力得到了显著提升。机器学习算法在天气数据分析中的应用，不仅能够提高天气预报的准确性，还能为气候研究、灾害预警等提供有力支持。本文将介绍机器学习在天气数据分析中的应用，探讨
apache ftpserver-CentOS config gengzg apache
<server xmlns="http://mina.apache.org/ftpserver/spring/v1" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation=" http://mina.apache.o
优化MySQL数据库性能的八种方法 AILIKES sql mysql
1、选取最适用的字段属性　　MySQL可以很好的支持大数据量的存取，但是一般说来，数据库中的表越小，在它上面执行的查询也就会越快。因此，在创建表的时候，为了获得更好的性能，我们可以将表中字段的宽度设得尽可能小。例如，在定义邮政编码这个字段时，如果将其设置为CHAR(255),显然给数据库增加了不必要的空间，甚至使用VARCHAR这种类型也是多余的，因为CHAR(6)就可以很
JeeSite 企业信息化快速开发平台 Kai_Ge JeeSite
JeeSite 企业信息化快速开发平台平台简介 JeeSite是基于多个优秀的开源项目，高度整合封装而成的高效，高性能，强安全性的开源Java EE快速开发平台。 JeeSite本身是以Spring Framework为核心容器，Spring MVC为模型视图控制器，MyBatis为数据访问层， Apache Shiro为权限授权层，Ehcahe对常用数据进行缓存，Activit为工作流
通过Spring Mail Api发送邮件 120153216 邮件 main
原文地址：http://www.open-open.com/lib/view/open1346857871615.html 使用Java Mail API来发送邮件也很容易实现，但是最近公司一个同事封装的邮件API实在让我无法接受，于是便打算改用Spring Mail API来发送邮件，顺便记录下这篇文章。【Spring Mail API】 Spring Mail API都在org.spri
Pysvn 程序员使用指南 2002wmj SVN
源文件:http://ju.outofmemory.cn/entry/35762 这是一篇关于pysvn模块的指南. 完整和详细的API请参考 http://pysvn.tigris.org/docs/pysvn_prog_ref.html. pysvn是操作Subversion版本控制的Python接口模块. 这个API接口可以管理一个工作副本, 查询档案库, 和同步两个. 该
在SQLSERVER中查找被阻塞和正在被阻塞的SQL 357029540 SQL Server
SELECT R.session_id AS BlockedSessionID , S.session_id AS BlockingSessionID , Q1.text AS Block
Intent 常用的用法备忘 7454103 .net android Google Blog F#
Intent 应该算是Android中特有的东西。你可以在Intent中指定程序要执行的动作（比如：view,edit,dial），以及程序执行到该动作时所需要的资料。都指定好后，只要调用startActivity()，Android系统会自动寻找最符合你指定要求的应用程序，并执行该程序。下面列出几种Intent 的用法显示网页:
Spring定时器时间配置 adminjun spring 时间配置定时器
红圈中的值由6个数字组成，中间用空格分隔。第一个数字表示定时任务执行时间的秒，第二个数字表示分钟，第三个数字表示小时，后面三个数字表示日，月，年，< xmlnamespace prefix ="o" ns ="urn:schemas-microsoft-com:office:office" /> 测试的时候，由于是每天定时执行，所以后面三个数
POJ 2421 Constructing Roads 最小生成树 aijuans 最小生成树
来源：http://poj.org/problem?id=2421 题意：还是给你n个点，然后求最小生成树。特殊之处在于有一些点之间已经连上了边。思路：对于已经有边的点，特殊标记一下，加边的时候把这些边的权值赋值为0即可。这样就可以既保证这些边一定存在，又保证了所求的结果正确。代码： #include <iostream> #include <cstdio>
重构笔记——提取方法（Extract Method） ayaoxinchao java 重构提炼函数局部变量提取方法
提取方法（Extract Method）是最常用的重构手法之一。当看到一个方法过长或者方法很难让人理解其意图的时候，这时候就可以用提取方法这种重构手法。下面是我学习这个重构手法的笔记：提取方法看起来好像仅仅是将被提取方法中的一段代码，放到目标方法中。其实，当方法足够复杂的时候，提取方法也会变得复杂。当然，如果提取方法这种重构手法无法进行时，就可能需要选择其他
为UILabel添加点击事件 bewithme UILabel
默认情况下UILabel是不支持点击事件的，网上查了查居然没有一个是完整的答案，现在我提供一个完整的代码。 UILabel *l = [[UILabel alloc] initWithFrame:CGRectMake(60, 0, listV.frame.size.width - 60, listV.frame.size.height)]
NoSQL数据库之Redis数据库管理(PHP-REDIS实例) bijian1013 redis 数据库 NoSQL
一.redis.php <?php //实例化 $redis = new Redis(); //连接服务器 $redis->connect("localhost"); //授权 $redis->auth("lamplijie"); //相关操
SecureCRT使用备注 bingyingao secureCRT 每页行数
SecureCRT日志和卷屏行数设置一、使用securecrt时，设置自动日志记录功能。 1、在C:\Program Files\SecureCRT\下新建一个文件夹(也就是你的CRT可执行文件的路径），命名为Logs； 2、点击Options -> Global Options -> Default Session -> Edite Default Sett
【Scala九】Scala核心三：泛型 bit1129 scala
泛型类 package spark.examples.scala.generics class GenericClass[K, V](val k: K, val v: V) { def print() { println(k + "," + v) } } object GenericClass { def main(args: Arr
素数与音乐 bookjovi 素数数学 haskell
由于一直在看haskell，不可避免的接触到了很多数学知识，其中数论最多，如素数，斐波那契数列等，很多在学生时代无法理解的数学现在似乎也能领悟到那么一点。闲暇之余，从图书馆找了<<The music of primes>>和<<世界数学通史>>读了几遍。其中素数的音乐这本书与软件界熟知的&l
Java-Collections Framework学习与总结-IdentityHashMap BrokenDreams Collections
这篇总结一下java.util.IdentityHashMap。从类名上可以猜到，这个类本质应该还是一个散列表，只是前面有Identity修饰，是一种特殊的HashMap。简单的说，IdentityHashMap和HashM
读《研磨设计模式》-代码笔记-享元模式-Flyweight bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.HashMap; import java.util.List; import java
PS人像润饰&调色教程集锦 cherishLC PS
1、仿制图章沿轮廓润饰——柔化图像，凸显轮廓 http://www.howzhi.com/course/retouching/ 新建一个透明图层，使用仿制图章不断Alt+鼠标左键选点，设置透明度为21%，大小为修饰区域的1/3左右（比如胳膊宽度的1/3），再沿纹理方向（比如胳膊方向）进行修饰。所有修饰完成后，对该润饰图层添加噪声，噪声大小应该和
更新多个字段的UPDATE语句 crabdave update
更新多个字段的UPDATE语句 update tableA a set (a.v1, a.v2, a.v3, a.v4) = --使用括号确定更新的字段范围
hive实例讲解实现in和not in子句 daizj hive not in in
本文转自：http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2842855.html 当前hive不支持 in或not in 中包含查询子句的语法，所以只能通过left join实现。假设有一个登陆表login(当天登陆记录,只有一个uid),和一个用户注册表regusers(当天注册用户，字段只有一个uid)，这两个表都包含
一道24点的10+种非人类解法（2,3,10,10） dsjt 算法
这是人类算24点的方法？！！！事件缘由：今天晚上突然看到一条24点状态，当时惊为天人，这NM叫人啊？以下是那条状态朱明西 : 24点，算2 3 10 10，我LX炮狗等面对四张牌痛不欲生，结果跑跑同学扫了一眼说，算出来了，2的10次方减10的3次方。。我草这是人类的算24点啊。。然后么。。。我就在深夜很得瑟的问室友求室友算刚出完题，文哥的暴走之旅开始了 5秒后
关于YII的菜单插件 CMenu和面包末breadcrumbs路径管理插件的一些使用问题 dcj3sjt126com yii framework
在使用 YIi的路径管理工具时，发现了一个问题。 <?php
对象与关系之间的矛盾：“阻抗失配”效应[转] come_for_dream 对象
概述 “阻抗失配”这一词组通常用来描述面向对象应用向传统的关系数据库（RDBMS）存放数据时所遇到的数据表述不一致问题。C++程序员已经被这个问题困扰了好多年，而现在的Java程序员和其它面向对象开发人员也对这个问题深感头痛。 “阻抗失配”产生的原因是因为对象模型与关系模型之间缺乏固有的亲合力。“阻抗失配”所带来的问题包括：类的层次关系必须绑定为关系模式（将对象
学习编程那点事 gcq511120594 编程互联网
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
Reverse Linked List II hcx2013 list
Reverse a linked list from position m to n. Do it in-place and in one-pass. For example:Given 1->2->3->4->5->NULL, m = 2 and n = 4, return
Spring4.1新特性——页面自动化测试框架Spring MVC Test HtmlUnit简介 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Hadoop集群工具distcp liyonghui160com
1. 环境描述两个集群：rock 和 stone rock无kerberos权限认证，stone有要求认证。 1. 从rock复制到stone，采用hdfs Hadoop distcp -i hdfs://rock-nn:8020/user/cxz/input hdfs://stone-nn:8020/user/cxz/运行在rock端，即源端问题：报版本
一个备份MySQL数据库的简单Shell脚本 pda158 mysql 脚本
　　主脚本（用于备份mysql数据库）：　　该Shell脚本可以自动备份数据库。只要复制粘贴本脚本到文本编辑器中，输入数据库用户名、密码以及数据库名即可。我备份数据库使用的是mysqlump 命令。后面会对每行脚本命令进行说明。　　 1. 分别建立目录“backup”和“oldbackup” 　　#mkdir /backup 　　#mkdir /oldbackup 　
300个涵盖IT各方面的免费资源（中）——设计与编码篇 shoothao IT资源图标库图片库色彩板字体
A. 免费的设计资源 Freebbble:来自于Dribbble的免费的高质量作品。 Dribbble:Dribbble上“免费”的搜索结果——这是巨大的宝藏。 Graphic Burger:每个像素点都做得很细的绝佳的设计资源。 Pixel Buddha:免费和优质资源的专业社区。 Premium Pixels:为那些有创意的人提供免费的素材。
thrift总结 - 跨语言服务开发 uule thrift
官网官网JAVA例子 thrift入门介绍 IBM-Apache Thrift - 可伸缩的跨语言服务开发框架 Thrift入门及Java实例演示 thrift的使用介绍 RPC POM： <dependency> <groupId>org.apache.thrift</groupId>