一入材料深似海

机器学习入门-西瓜书总结笔记第十三章

西瓜书第十三章-半监督学习

一、未标记样本
二、生成式方法
三、半监督SVM
四、图半监督学习
五、基于分歧的方法
六、半监督聚类

一、未标记样本

形式化地看，有训练样本集 $D_l = \{(\pmb x_1,y_1),(\pmb x_2,y_2),\cdots,(\pmb x_l,y_l)\}$ ，这 $l$ 个样本的类别标记已知，称为 “有标记”（labeled） 样本；此外，还有 $D_u = \{\pmb x_{l+1},\pmb x_{l+2},\cdots,\pmb x_{l+u}\},l\ll u$ ，这u个样本的类别标记未知，称为 “未标记”（unlabeled） 样本。若直接使用传统监督学习技术，则仅有 $D_l$ 能用于构建模型， $D_u$ 所包含的信息被浪费了；另一方面，若 $D_l$ 较小，则由于训练样本不足，学得模型的泛化能力往往不佳。
一种简单的做法，是将 $D_u$ 中的示例全部标记后用于学习。显然，这样做需耗费大量时间和精力。
我们可以利用 $D_l$ 先训练一个模型，拿这个模型去标记其他未标记样本，若每次都挑出对改善模型性能帮助大的样本，则只需要比较少的样本就能构建出比较强的模型，从而大幅降低标记成本。这样的学习方式称为“主动学习”（active learning），其目标是使用尽量少的“查询”（query）来获得尽量好的性能。
显然，主动学习加入了额外的专家知识，通过与外界交互来将部分未标记样本转变为有标记样本。若不与专家交互，没有获得额外信息，还能利用未标记样本来提高泛化性能吗？
事实上，未标记样本虽未直接包含标记信息，但若它们与有标记样本是从同样的数据源独立同分布采样而来，则它们所包含的关于数据分布的信息对建立模型将大有裨益。
上图给出了一个直观的例示。若仅基于图中的一个正例和一个反例，则由于判别样本恰位于两者正中间，大体上只能随机猜测；若能观察到图中的未标记样本，则将很有把握地判别为正例。
让学习去不依赖外界交互、自动地利用未标记样本来提升学习性能，这就是 半监督学习（semi-supervised learning）。半监督学习的现实需求非常强烈，因为在现实应用中往往很容易地收集到大量未标记样本，而获取“标记”却需耗费人力，物理。例如，在尽心计算机辅助医学影响分析时，可以从医院获得大量医学影响，但若希望医学专家把影像中的病灶全部标记出来则是不现实的。“有标记数据少，未标记数据多”这个现象在互联网应用中更明显，例如在进行网页推荐时需请用户标记出感兴趣的网页，但很少有用户愿意花很多时间来提供标记，因此，有标记网页样本少，但在互联网上存在无数网页可作为未标记样本来使用。半监督学习恰是提供了一条利用“廉价”的未标记样本的途径。
要利用未标记样本，必须要做一些将未标记样本所揭示的数据分布信息与类别标记相联系的假设。最常见的是 “聚类假设”（cluster assumption），即假设数据存在簇结构，同一个簇的样本属于同一个类别。如上图基于聚类假设来利用未标记样本，由于待预测样本与正例样本通过未标记样本的“撮合”聚在一起，与相对分离的反例样本相比，待判别样本更属于正类。半监督学习中另一个常见的假设是“流形假设”（manifold assumption），即假设数据分布在一个流形结构上，邻近的样本拥有相似的输出值。“邻近”程度常用“相似”程度来刻画，因此，流形假设可看作聚类假设的推广，但流形假设对输出值没有限制，因此比聚类假设的适用性范围更广，可用于更多类型的学习任务。事实上，无论聚类假设还是流形假设，其本质就是“相似的样本拥有相似的输出”这个基本假设。
半监督学习可进一步划分为纯（pure）半监督学习和直推学习（transductive learning），前者假定训练数据中的未标记样本并非待预测的数据，而后者假定学习过程中所考虑的未标记样本恰是待预测数据，学习的目的就是在这些未标记样本上获得最优泛化性能。换言之，纯半监督学习是基于“开放世界”假设，希望学得模型能适用于训练过程中未观察到的数据；而直推学习是基于“封闭世界”假设，仅试图对学习过程中观察到的未标记数据进行预测。如下图，直观地显示出主动学习、纯半监督学习、直推学习的区别。需注意的是，纯半监督学习和直推学习常合称为半监督学习

二、生成式方法

生成式方法（generative methods） 是直接基于生成式模型的方法。此类方法假设所有数据（无论是否标记）都是由同一个潜在的模型“生成”的。这个假设使得我们能够通过潜在的参数将未标记数据与学习目标联系起来，而未标记数据的标记则可看作模型的缺失参数，通常可基于EM算法进行极大似然估计求解。此类方法的区别主要在于生成式模型的假设，不同的模型假设将产生不同的方法。
给定样本 $\pmb x$ ，其真实标记类别为 $y\in \mathcal Y$ ，其中 $\mathcal Y = \{1,2,\cdots,N\}$ 为所有可能的类别。假定样本由高斯混合模型生成，且每个类别对应一个高斯混合成分。换言之，数据样本是基于如下概率密度生成：
$p(\pmb x) = \sum_{i=1}^N \alpha_i\cdot p(\pmb x|\pmb \mu_i,\pmb \Sigma_i),$
其中，混合系数 $\alpha_i \ge 0,\sum_{i=1}^N \alpha_i=1;p(\pmb x|\pmb \mu_i,\pmb \Sigma_i)$ 是样本 $\pmb x$ 属于第 $i$ 个高斯混合成分的概率； $\pmb \mu_i$ 和 $\pmb \Sigma_i$ 为该高斯混合成分的参数。
令 $f(\pmb x)\in \mathcal Y$ 表示模型 $f$ 对 $\pmb x$ 的预测标记， $\Theta\in \{1,2,\cdots,N\}$ 表示样本 $\pmb x$ 隶属的高斯混合成分。由最大化后验概率可知
$\begin{aligned} f(\pmb x) &= \underset{j\in \mathcal Y}{\operatorname{arg \ max}} \ p(y=j|\pmb x)\\ & = \underset{j\in \mathcal Y}{\operatorname{arg \ max}} \ \sum_{i=1}^Np(y=j,\Theta = i|\pmb x)\\ & = \underset{j\in \mathcal Y}{\operatorname{arg \ max}} \ \sum_{i=1}^Np(y=j|\Theta = i,\pmb x)\cdot p(\Theta=i|\pmb x)\\ \end{aligned}$
其中
$p(\Theta=i|\pmb x) = \frac{\alpha_i\cdot p(\pmb x|\pmb \mu_i,\pmb \Sigma_i)}{\sum_{i=1}^N\alpha_i\cdot p(\pmb x|\pmb \mu_i,\pmb \Sigma_i)}$
为样本 $\pmb x$ 由第 $i$ 个高斯混合成分生成的后验概率， $p(y=j|\Theta = i,\pmb x)$ 为 $\pmb x$ 由第 $i$ 个高斯混合成分生成且类别为 $j$ 的概率。由于假设每个类别对应一个高斯混合成分，因此 $p(y=j|\Theta = i,\pmb x)$ 仅与样本 $\pmb x$ 所属的高斯混合成分 $\Theta$ 有关，可用 $p(y=j|\Theta = i)$ 代替。不失一般性，假定第i个类别对应于第i个高斯混合成分，即 $p(y=j|\Theta = i) = 1$ 当且仅当 $i = j$ ，否则 $p(y=j|\Theta = i) = 0$
不难发现， $p(y=j|\Theta = i,\pmb x)$ 需知道样本的标记，因此仅能使用有标记数据；而 $p(\Theta=i|\pmb x)$ 不涉及样本标记，因此有标记和未标记数据均可利用，通过引入大量的未标记数据，对这一项的估计可望由于数据量的增长而更为准确，于是整体的估计可能会更准确。由此可清楚地看出未标记数据何以辅助提高分类器模型的性能。
给定有标记样本集 $D_l = \{(\pmb x_1,y_1),(\pmb x_2,y_2),\cdots,(\pmb x_l,y_l)\}$ 和未标记样本集 $D_u = \{(\pmb x_{l+1},y_{l+1}),(\pmb x_{l+2},y_{l+2}),\cdots,(\pmb x_{l+u},y_{l+u})\},l\ll u,l+u = m$ 。假设所有样本独立同分布，且都是由同一个高斯混合模型生成的。用极大似然法来估计高斯混合模型的参数 $\{(\alpha_i,\pmb \mu_i,\pmb \Sigma_i)|1\le i\le N\}，D_l\cup D_u$ 的对数似然是
$\begin{aligned} LL(D_l\cup D_u) &= \sum_{(x_j,y_j)\in D_l} \ \operatorname{ln}\bigg(\sum_{i=1}^N\alpha_i\cdot p(\pmb x_j|\pmb \mu_i,\Sigma_i)\cdot p(y_j|\Theta = i,\pmb x_j)\bigg)\\ & + \sum_{x_j\in D_u}\operatorname{ln}\bigg(\sum_{i=1}^N\alpha_i\cdot p(\pmb x_j|\pmb \mu_i,\Sigma_i)\bigg)\\ \end{aligned}$
上式由两项组成：基于有标记数据 $D_l$ 的有监督项和基于未标记数据 $D_u$ 的无监督项。显然，高斯混合模型参数估计可用EM算法求解，迭代更新式如下
E步：根据当前模型参数计算未标记样本 $\pmb x_j$ 属于各高斯混合成分的概率
$\gamma_{ji} =\frac{\alpha_i\cdot p(\pmb x_j|\pmb \mu_i,\pmb \Sigma_i)}{\sum_{i=1}^N\alpha_i\cdot p(\pmb x_j|\pmb \mu_i,\pmb \Sigma_i)}$
M步：基于 $\gamma_{ji}$ 更新模型参数，其中 $l_i$ 表示第 $i$ 类的有标记样本数目
$\begin{aligned} \pmb \mu_i &= \frac{1}{\sum_{x_j\in D_u}\gamma_{ji} + l_i}\Bigg( \sum_{x_j\in D_u}\gamma_{ji}\pmb x_j + \sum_{(x_j,y_j)\in D_l\wedge y_j = i}\pmb x_j\Bigg),\\ \pmb \Sigma_i &= \frac{1}{\sum_{x_j\in D_u}\gamma_{ji} + l_i}\Bigg(\sum_{x_j\in D_u}\gamma_{ji}(\pmb x_j - \pmb \mu_i)(\pmb x_j - \pmb \mu_i)^T + \sum_{(x_j,y_j)\in D_l\wedge y_j = i}(\pmb x_j - \pmb \mu_i)(\pmb x_j - \pmb \mu_i)^T\Bigg),\\ \alpha_i & = \frac{1}{m}\Bigg(\sum_{x_j\in D_u}\gamma_{ji} + l_i\Bigg) \end{aligned}$
上述过程不断迭代直至收敛，即可获得模型参数。
将上述过程中的高斯混合模型换成混合专家模型、朴素贝叶斯模型等即可推导出其他的生成式半监督学习方法。此类方法简单，易于实现，在有标记数据极少的情形下往往比其他方法性能更好。然而，此类方法有一个关键：模型假设必须准确，即假设的生成式模型必须与真实数据分布吻合；否则利用未标记数据反倒会降低泛化性能。遗憾的是，在现实任务中往往很难事先做出准确的模型假设，除非拥有充分可靠的领域知识。

三、半监督SVM

半监督支持向量机（Semi-Supervised Support Vector Machine，简称S3VM） 是支持向量机在半监督学习上的推广。在不考虑未标记样本时，支持向量机试图找到最大间隔划分超平面，而在考虑未标记样本后，S3VM试图找到能将两类有标记样本分开，且穿过数据低密度区域的划分超平面，如下图，这里的基本假设是“低密度分隔”（low-density separation），显然，这是聚类假设在考虑了线性超平面划分后的推广。
半监督支持向量机中最著名的是 TSVM（Transductive Support Vector Machine）。与标准SVM一样，TSVM也是针对二分类问题的学习方法。TSVM试图考虑对未标记样本进行各种可能的标记指派（label assignment），即尝试将每个未标记样本分别作为正例或反例，然后在所有这些结果中，寻求一个在所有样本（包括有标记样本和进行了标记指派的未标记样本）上间隔最大化的划分超平面。一旦划分超平面得以确定，未标记样本的最终标记指派就是其预测结果。
形式化地说，给定 $D_l = \{(\pmb x_1,y_1),(\pmb x_2,y_2),\cdots,(\pmb x_l,y_l)\}$ 和 $D_u = \{(\pmb x_{l+1},y_{l+1}),(\pmb x_{l+2},y_{l+2}),\cdots,(\pmb x_{l+u},y_{l+u})\}$ ，其中 $y_i\in\{-1,+1\},l\ll u,l+u = m$ 。TSVM的学习目标是为 $D_u$ 中的样本给出预测标记 $\hat {\pmb y} = (\hat y_{l+1},\hat y_{l+2},\cdots,\hat y_{l+u})$ ，使得
$\begin{aligned} \underset{w,b,\hat y,\xi}{\operatorname{min}} \ & \frac{1}{2}||\pmb w||_2^2 + C_l\sum_{i=1}^l \xi_i + C_u\sum_{i=l+1}^m \xi_i\\ s.t. \ & y_i(\pmb w^T\pmb x_i + b)\ge 1-\xi_i,\quad i =1,2,\cdots,l,\\ & \hat y_i(\pmb w^T\pmb x_i + b)\ge 1-\xi_i,\quad i =l+1,l+2,\cdots,m,\\ & \xi\ge0,\quad i =1,2,\cdots,l,\\ \end{aligned}$
其中， $(\pmb w,b)$ 确定了一个划分超平面； $\pmb \xi$ 为松弛向量， $\xi_i(i=1,2,\cdots,l)$ 对应于有标记样本， $\xi_i(i=l+1,l+2,\cdots,m)$ 对应于未标记样本； $C_l$ 和 $C_l$ 是由用户指定的用于平衡模型复杂度、有标记样本与未标记样本重要程度的折中参数。
显然，尝试未标记样本的各种标记指派是一个穷举过程，仅当未标记样本很少时才有可能直接求解。在一般情形下，必须考虑更高效的优化策略。
TSVM采用局部搜索来迭代地寻找近似解。具体来说，它先利用有标记样本学得一个SVM，即忽略关于 $D_u$ 与 $\hat {\pmb y}$ 的项及约束。然后，利用这个SVM对未标记数据进行标记指派（label assignment），即将SVM预测的结果所谓 “伪标记”（pseudo-label） 赋予未标记样本。此时 $\hat{\pmb y}$ 称为已知，将其带入即得到一个标准SVM问题，于是可求解出新的划分超平面和松弛向量；注意到此时未标记样本的伪标记很可能不准确，因此 $C_u$ 要设置为比 $C_l$ 小的值，使有标记样本所起作用更大。接下来，TSVM找出两个标记指派为异类且很可能发生错误的未标记样本，交换它们的标记，再重新基于上式求解更新后的划分超平面和松弛变量，然后再找出两个标记指派为异类且很可能发生错误的未标记样本， $\cdots$ 标记指派调整完成后，逐渐增大 $C_u$ 以提高未标记样本对优化目标的影响，进行下一轮标记指派，直至 $C_u = C_l$ 为止。此时求解得到的SVM不仅给未标记样本提供了标记，还能对训练过程中未见的示例进行预测。

在对未标记样本进行标记指派及调整的过程中，有可能出现类别不平衡问题，即某类的样本远多于另一类，这将对SVM的训练造成困扰。为了减轻类别不平衡性所造成的不利影响，可对上图中算法稍加改进：将优化目标中的 $C_u$ 项拆分为 $C_u^+$ 和 $C_u^-$ 两项，分别对应基于伪标记而作正、反例使用的未标记样本，并在初始化时令
$C_u^+ = \frac{u_-}{u_+}C_u^-$
其中 $u_+$ 与 $u_-$ 为基于伪标记而当作正、反例使用的未标记样本数。
显然，搜寻标记指派可能出错的每一对未标记样本进行调整，是一个涉及巨大计算开销的大规模优化问题。因此，半监督SVM研究的一个重点是如何设计出高效的优化求解策略，由此发展出很多方法，如基于图核（graph kernel）函数梯度下降的LDS、基于标记均值估计得meanS3VM等

四、图半监督学习

给定一个数据集，我们可将其映射为一个图，数据集中每个样本对应于图中一个结点，若两个样本之间得相似度很高（或相关性很强），则对应的结点之间存在一条边，边的 “强度”（strength） 正比于样本之间的相似度（或相关性）。可将有标记样本所对应的结点想象为染过色，而未标记样本所对应的结点尚未染色。于是，半监督学习就对应于“颜色”在图上扩散或传播的过程。由于一个图对应了一个矩阵，这就使我们能基于矩阵运算来进行半监督学习算法推导与分析。
给定 $D_l = \{(\pmb x_1,y_1),(\pmb x_2,y_2),\cdots,(\pmb x_l,y_l)\}$ 和 $D_u = \{(\pmb x_{l+1},y_{l+1}),(\pmb x_{l+2},y_{l+2}),\cdots,(\pmb x_{l+u},y_{l+u})\}$ ，其中 $y_i\in\{-1,+1\},l\ll u,l+u = m$ 。先基于 $D_l\cup D_u$ 构建一个图 $G = (V, E)$ ，其中结点集 $V=\{\pmb x_1,\cdots,\pmb x_l,\pmb x_{l+1},\cdots,\pmb x_{l+u}\}$ ，边集E可表示为一个 亲和矩阵（affinity matrix）
，常基于高斯函数定义为
$(\pmb W)_{ij}= \begin{cases} \operatorname{exp}\bigg(\frac{-|| x_i - x_j||_2^2}{2\sigma^2}\bigg),\quad \operatorname{if} \ i\ne j;\\ 0,\quad \operatorname{otherwise} \end{cases}$
其中 $i,j\in\{1,2,\cdots,m\},\sigma>0$ 是用户指定的高斯函数带宽参数。
假定从图 $G = (V, E)$ 将学得一个实值函数 $f:V\rightarrow R$ ，其对应的分类规则为： $y_i = sign((f(\pmb x_i)),y_i\in\{-1,+1\}$ .直观上看，相似的样本应具有相似的标记，于是可定义关于 $f$ 的“能量函数”（energy function）
$\begin{aligned} E(f) &= \frac{1}{2}\sum_{i=1}^m\sum_{j=1}^m(\pmb W)_{ij}(f(\pmb x_i)-f(\pmb x_j))^2\\ & = \frac{1}{2}\bigg(\sum_{i=1}^m d_i f^2(\pmb x_i) + \sum_{j=1}^m d_j f^2(\pmb x_j)-2\sum_{i=1}^m\sum_{j=1}^m(\pmb W)_{ij}f(\pmb x_i)f(\pmb x_j)\bigg)\\ & = \sum_{i=1}^m d_i f^2(\pmb x_i) - \sum_{i=1}^m\sum_{j=1}^m(\pmb W)_{ij}f(\pmb x_i)f(\pmb x_j)\\ & = \pmb f^T(\pmb D - \pmb W) \pmb f \end{aligned}$
其中 $\pmb f = (\pmb f_l^T \ \pmb f_u^T)^T, \pmb f_l = (f(\pmb x_1);f(\pmb x_2);\cdots;f(\pmb x_l)),\pmb f_u = (f(\pmb x_{l+1});f(\pmb x_{l+2});\cdots;f(\pmb x_{l+u}))$ 分别为函数 $f$ 在有标记样本与未标记样本上的预测结果， $\pmb D = \operatorname{diag}(d_1,d_2,\cdots,d_{l+u})$ 是一个对角矩阵，其对角元素 $d_i = \sum_{j=1}^{l+u}(\pmb W)_{ij}$ 为矩阵 $\pmb W$ 的第 $i$ 行元素之和。
具有最小能量的函数 $f$ 在有标记样本上满足 $f(\pmb x_i) = y_i(i=1,2,\cdots,l)$ ，在未标记样本上满足 $\Delta \pmb f = \pmb 0$ ，其中 $\Delta = \pmb D- \pmb W$ 为拉普拉斯矩阵（Laplacian matirx）。以第 $l$ 行与第 $l$ 列为界，采用分块矩阵表示方式：
$\pmb W = \begin{bmatrix} \pmb W_{ll} & \pmb W_{lu}\\ \pmb W_{ul} & \pmb W_{uu} \end{bmatrix}$ ,
$\pmb D = \begin{bmatrix} \pmb D_{ll} & \pmb 0_{lu}\\ \pmb 0_{ul} & \pmb D_{uu} \end{bmatrix}$ ，则上式可重写为
$\begin{aligned} E(f) &= (\pmb f_l^T \ \pmb f_u^T)\Bigg( \begin{bmatrix} \pmb D_{ll} & \pmb D_{lu}\\ \pmb D_{ul} & \pmb D_{uu} \end{bmatrix}-\begin{bmatrix} \pmb W_{ll} & \pmb W_{lu}\\ \pmb W_{ul} & \pmb W_{uu} \end{bmatrix} \Bigg)\begin{bmatrix} \pmb f_l\\ \pmb f_u \end{bmatrix}\\ & = \pmb f_l^T(D_{ll} - W_{ll})\pmb f_l - 2\pmb f_u^T\pmb W_{ul}\pmb f_l + \pmb f_u^T(\pmb D_{uu}- \pmb W_{uu})\pmb f_u \end{aligned}$
由 $\frac{\partial E(f)}{\partial f_u} = 0$ 可得
$\pmb f_u = (\pmb D_{uu} - \pmb W_{uu})^{-1}\pmb W_{ul}\pmb f_l$
令

后续步骤略

于是将 $D_l$ 上的标记信息作为 $\pmb f_l = (y_1;y_2;\cdots;y_l)$ 代入，即可利用求得的 $\pmb f_u$ 对未标记样本进行预测。
上述描述的是一个针对二分类问题的 **标记传播（label propagation）**方法，下面来看一个适用于多分类问题的标记传播方法
假定 $y_i\in \mathcal Y$ ，仍基于 $D_l\cup D_u$ 构建一个图 $G = (V, E)$ ，其中结点集 $\{\pmb x_1,\cdots,\pmb x_l,\cdots,\pmb x_{l+u}\}$ ，边集E所对应的 $\pmb W$ 仍使用上述亲和矩阵，对角矩阵 $\pmb D = \operatorname{diag}(d_1,d_2,\cdots,d_{l+u})$ 的对角元素 $d_i = \sum_{j=1}^{l+u}(\pmb W)_{ij}$ 。定义一个 $(l+u)\times|\mathcal Y|$ 的非负标记矩阵 $\pmb F = (\pmb F_1^T,\pmb F_2^T,\cdots,\pmb F_{l+u}^T)$ ，其第 $i$ 行元素 $\pmb F_i = ((\pmb F)_{i1},(\pmb F)_{i2},\cdots,(\pmb F)_{i|\mathcal Y|},)$ 为示例 $\pmb x_i$ 的标记向量，相应的分类规则为： $y_i = \operatorname{arg \ max} _{1\le j\le |\mathcal Y|}(\pmb F)_{ij}$
对 $i=1,2,\cdots,m,j=1,2,\cdots,|\mathcal Y|$ ，将 $\pmb F$ 初始化为
$\pmb F(0) = (\pmb Y)_{ij} = \begin{cases} 1,\quad \operatorname{if}(1\le i\le l)\wedge(y_j = j)\\ 0, \quad \operatorname{otherwise} \end{cases}$
显然， $\pmb Y$ 的前 $l$ 行就是 $l$ 个有标记样本的标记向量。
基于 $\pmb W$ 构造一个标记传播矩阵 $\pmb S = \pmb D^{\frac{1}{2}}\pmb W\pmb D^{\frac{1}{2}}$ ，其中 $\pmb D^{\frac{1}{2}} = \operatorname{diag}\bigg(\frac{1}{\sqrt{d_1}},\frac{1}{\sqrt{d_2}},\cdots,\frac{1}{\sqrt{d_{l+u}}}\bigg)$ ，于是有迭代计算式
$\pmb F(t+1) = \alpha \pmb S\pmb F(t) + (1- \alpha)\pmb Y$
其中 $\alpha\in (0,1)$ 为用户指定的参数，用于对标记传播项 $\pmb S\pmb F(t)$ 与初始化项 $\pmb Y$ 重要性进行折中。基于上式迭代收敛可得
$\pmb F^* = \underset{t\rightarrow \infin}{\operatorname{lim}}\pmb F(t) = (1-\alpha)(\pmb I-\alpha\pmb S)^{-1}\pmb Y$
由 $\pmb F^*$ 可获得 $D_u$ 中样本的标记 $(\hat y_{l+1},\hat y_{l+2},\cdots,\hat y_{l+u})$ 。算法描述如下
事实上，上图中的算法对应于正则化框架
$\underset{F}{\operatorname{min}}\frac{1}{2}\Bigg(\sum_{i,j =1}^{l+u}(\pmb W)_{ij}\Bigg|\Bigg|\frac{1}{\sqrt{d_i}}\pmb F_i-\frac{1}{ \sqrt{d_j}}\pmb F_j\Bigg|\Bigg|^2\Bigg) + \mu\sum_{i=1}^l ||\pmb F_i - \pmb Y_i||^2$
其中 $\mu>0$ 为正则化参数。当 $\mu =\frac{1-\alpha}{\alpha}$ 时，上式的最优解恰为图中算法的迭代收敛解 $\pmb F^*$ 。
上式右边第二项是迫使学得结果在有标记样本上的预测与真实标记尽可能相同，而第一项则迫使相近样本具有相似的标记。
图半监督学习算法在概念上相当清晰，且易于通过对所涉及矩阵运算的分析来探索算法的性质。但此类算法的缺陷也相当明显。首先是在存储开销上，若样本数 $O (m)$ ，则算法所设计的矩阵规模为 $O(m^2)$ ，这使得此类算法很难直接处理大规模数据。另一方面，由于构图过程仅能考虑训练样本集，难以判知新样本在图中的位置，因此，在接受到新样本时，或是将其加入原数据集对图进行重构并重新进行标记传播，或是需引入额外的预测机制，例如将 $D_l$ 和经标记传播后得到标记的 $D_u$ 合并作为训练集，另外训练一个学习去例如支持向量机来对新样本进行预测。

五、基于分歧的方法

与生成式方法、半监督SVM、图半监督学习等基于单学习去利用未标记数据不同，基于分歧的方法（disagreement-based methods） 使用多学习器，而学习去之间的“分歧”（disagreement）对未标记数据的利用至关重要。
“协同训练”（co-training） 是此类方法的重要代表，最初是针对 “多视图”（multi-view） 数据设计的，因此也被看作 “多视图学习”（multi-view learning） 的代表。
在不少现实应用中，一个数据对象往往同时拥有多个 “属性集”（attribute set），每个属性集就构成了一个 “视图”（view）。例如对一部电影来说，它拥有多个属性集：图像画面信息所对应的属性集、声音信息所对应的属性集等。每个属性集都可看作一个视图。为简化讨论，暂且仅考虑图像画面属性集所构成的视图和声音属性所构成的视图。于是，一个电影片段可表示为样本 $(\langle\pmb x^1,\pmb x^2\rangle,y)$ ，其中 $\pmb x^i$ 是样本在视图 $i$ 中的示例，即基于该视图属性描述而得的属性向量，不妨假设 $\pmb x_1$ 为图像视图中的属性向量， $\pmb x_2$ 为声音视图中的属性向量； $y$ 是标记，假定是电影的类型，例如“动作片”、“爱情片”等。 $(\langle\pmb x^1,\pmb x^2\rangle,y)$ 这样的数据就是多视图数据。
假定不同视图具有 “相容性”（compatibility） 即其所包含的关于输出空间 $\mathcal Y$ 的信息是一致的：令 $\mathcal Y^1$ 表示从图像画面信息判别的标记空间， $\mathcal Y^2$ 表示从声音信息判别的标记空间，则有 $\mathcal Y = \mathcal Y^1 = \mathcal Y^2$ .在此假设下，显式地考虑多视图有很多好处。仍以电影为例，某个片段上有两人对视，仅凭图像画面信息难以分辨其类型，但此时若从声音信息听到“我爱你”，则可判断出该片段很可能属于“爱情片”；另一方面，若仅凭图像画面信息认为“可能是动作片”，仅凭声音信息也认为“可能是动作片”，则当两者一起考虑时就有很大的把握判别为“动作片”。显然，在“相容性”基础上，不同视图信息的“互补性”会给学习去的构建带来很多便利。
协同训练正式很好地利用了多视图的“相容互补性”。假设数据拥有两个充分（sufficient）且条件独立视图，“充分”是指每个视图都包含足以产生最优学习器的信息，“条件独立”则是指在给定类别标记条件下两个视图独立。在此情形下，可用一个简单的办法来利用未标记数据：首先在每个视图上基于有标记的样本分别训练出一个分类器，然后让每个分类器分别去挑选自己“最有把握的”未标记样本赋予伪标记，并将伪标记样本提供给另一个分类器作为新增的有标记样本用于训练更新 $\cdots\cdots$ 这个“互相学习、共同进步”的过程不断迭代进行，直至两个分类器都不再发生变化，或达到预先设定的迭代轮数为止。
算法如图所示，若在每轮学习中都考察分类器在所有未标记样本上的分类置信度，会有很大的计算开销，因此在算法中使用了未标记样本缓冲池。分类置信度的估计则因基学习算法 $\mathfrak{L}$ 而异，例如若使用朴素贝叶斯分类器，则可将后验概率转化为分类置信度；若使用支持向量机，则可将间隔大小转化为分类置信度。
协同训练过程虽简单，但令人惊讶的是，理论证明显示出，若两个视图充分且条件独立，则可利用未标记样本通过协同训练将弱分类器的泛化性能提升到任意高。不过，视图的条件独立性在现实任务中通常很难满足，因此性能提升幅度不会那么大，但研究表明，即便在更弱的条件下，协同训练仍可有效地提升弱分类器的性能。
协同训练算法本身是为多视图数据而设计的，但此后出现了一些能在单视图数据上使用的变体算法，它们或是使用不同的学习算法，或是使用不同的数据采样，甚至使用不同的参数设置来产生不同的学习去，也能有效的利用未标记数据来提升性能。后续理论研究发现，此类算法事实上无需数据拥有多视图，仅需若学习器之间具有显著的分歧（或差异），即通过相互提供伪标记样本的方式来提升泛化性能；不同视图、不同算法、不同采样、不同参数设置等，都仅是产生差异的渠道，而非必要条件。
基于分歧的方法只需采用合适的基学习器，就能较少受到模型假设、损失函数非凸性和数据规模问题的影响，学习方法简单有效、理论基础相对坚实、适用范围较为广泛。为了使用此类方法，需能生成具有显著分歧、性能尚可的多个学习器，但当有标记样本较少，尤其是数据不具有多视图时，要做到这一点并不容易，需有巧妙的设计。

六、半监督聚类

聚类是一种典型的无监督学习任务，然而在现实聚类任务中往往能获得一些额外的监督信息，于是可通过半监督聚类（semi-supervised clustering）来利用监督信息以获得更好的聚类效果。
聚类任务中获得的监督信息大致有两种类型。第一种类型是 “必连”（must-link） 与 “勿连”（connot-link），前者是指样本比属于同一个簇，后者是指样本比不属于同一个簇；第二种类型的监督信息则是少量的有标记样本。
约束k均值（Constrained k-means）算法是利用第一类监督信息的代表。给定样本集 $\{\pmb x_1,\pmb x_2,\cdots,\pmb x_3\}$ 以及“必连”关系集合 $\mathcal M$ 和“勿连”关系集合 $\mathcal C,(\pmb x_i,\pmb x_j)\in \mathcal M$ 表示 $\pmb x_i$ 与 $\pmb x_j$ 必属于同簇， $(\pmb x_i,\pmb x_j)\in \mathcal C$ 表示两者必不属于同簇。该算法是k均值算法的拓展，它在聚类过程中要确保 $\mathcal M$ 与 $\mathcal C$ 中的约束得以满足，否则将返回错误提示，算法如下

 第二种监督信息是少量有标记样本。给定样本集 $\{\pmb x_1,\pmb x_2,\cdots,\pmb x_m\}$ ，假定少量的有标记样本为 $S=\bigcup_{j=1}^k S_j \subset D$ ，其中 $S_j\ne \emptyset$ 为隶属于第j个聚类簇的样本。这样的监督信息利用起来很容易：直接将它们作为“种子”，用它们初始化k均值算法的k个聚类中心，并且在聚类迭代更新过程中不改变种子样本的隶属关系。这样就得到了约束种子k均值（Constrained Seed k-mean）算法，算法如下

你可能感兴趣的:(学习笔记,机器学习)

机器学习笔记：MATLAB实践 techDM 机器学习笔记 matlab Matlab
在机器学习领域，MATLAB是一种功能强大且广泛使用的工具，它提供了许多内置函数和工具箱，方便开发者进行各种机器学习任务。本文将介绍一些常见的机器学习任务，并提供相应的MATLAB源代码示例。数据预处理在进行机器学习之前，通常需要对原始数据进行预处理。这包括数据清洗、特征选择、特征缩放和数据划分等步骤。%导入数据data=readmatrix('data.csv');%数据清洗cleaned_da
vue3学习笔记朝凡FR 其他学习笔记 vue.js 前端
目录vue3学习笔记数据绑定'v-bind'简写为':'，语法v-bind:id='变量'v-on指令通过v-on:event="method"语法工作，简写语法：@event="method"v-model绑定到你在其上设置的数据属性，并使其与````保持同步v-model修饰符.trim，将删除输入之前或之后的空格；.lazy修饰符导致v-model使用change事件代替使用自定义事件将数据
学习记录：DAY35
《技术学习笔记：Swagger、SpringBoot配置与AOP实践》前言昨天熬死我了，md，舍友不睡觉搁那敲鼠标，byd哪里买的那么响的鼠标，铛铛铛把我血压都敲高了，我想找都找不到。又要在睡眠上投资了。开始调整生物钟的计划，今天很困，但是必须顶到晚上才能睡觉，再顶个一俩天就好了。byd舍友最好早点回去，不然留你和我，你看我把不把你当日本人整。日程9：00，很困，先趁着还有点状态学会习。22：42
西南交通大学【机器学习实验1】
实验目的理解和掌握回归问题和分类问题模型评估方法，学会使用均方误差、最大绝对误差、均方根误差指标评估回归模型，学会使用错误率、精度、查全率、查准率、F1指标评价分类模型。实验内容给定回归问题的真实标签和多个算法的预测结果，编程实现MSE、MAE、RMSE三种评测指标，对模型进行对比分析。给定二分类问题真实标签和多个算法的预测结果，编程实现混淆矩阵评测，采用错误率、精度、查全率、查准率、F1指标对结
用sklearn库中的算法对数据集进行训练和auc评估（个人学习笔记） ZD困困困 python 机器学习
本文为个人学习笔记，仅供学习参考，欢迎讨论，要是有哪里写的不对或有疑问的欢迎讨论。题目：运用已给数据集进行模型训练，使用逻辑回归、决策树、随机森林和AdaBoost几个算法进行训练，并打印各个算法训练后的auc评价指标。文章目录1.导入数据集①read_csv():读取数据并以某字符分隔。②merge():合并③drop():删除行或列④tolist():将数组或矩阵转换为列表⑤train_tes
学习笔记(28):随机噪声的原理、作用及代码实现详解宁儿数据安全 #机器学习学习笔记 python
学习笔记(28):随机噪声的原理、作用及代码实现详解一、什么是随机噪声？为什么需要添加？在机器学习中，随机噪声是指数据中无法用特征解释的随机波动，通常符合某种概率分布（如正态分布）。在房价模拟中添加噪声的核心原因如下：1.模拟真实世界的不确定性真实房价除了受面积、房龄影响，还受装修情况、学区、交通、政策等未被建模的特征影响，这些因素的综合效应可抽象为“噪声”。示例：两套面积和房龄相同的房子，房价可
学习笔记(29):训练集与测试集划分详解：train_test_split 函数深度解析宁儿数据安全 #机器学习学习笔记深度学习
学习笔记(29):训练集与测试集划分详解：train_test_split函数深度解析一、为什么需要划分训练集和测试集？在机器学习中，模型需要经历两个核心阶段：训练阶段：用训练集数据学习特征与目标值的映射关系（如线性回归的权重）。测试阶段：用测试集评估模型在未见过的数据上的表现，避免“过拟合”（模型只记住训练数据的噪声，无法泛化到新数据）。类比场景：学生通过“练习题”（训练集）学习知识，再通过“考
《dlib库中的聚类》算法详解：从原理到实践 A小庞算法算法聚类数据挖掘机器学习 c++
一、dlib库与聚类算法的关联1.1dlib库的核心功能dlib是一个基于C++的机器学习和计算机视觉工具库，其聚类算法模块提供了多种高效的无监督学习工具。聚类算法在dlib中主要用于：数据分组：将相似的数据点划分为同一簇。特征分析：通过聚类结果发现数据潜在的结构。降维辅助：结合聚类结果进行特征选择或数据压缩。dlib支持的经典聚类算法包括K-Means和ChineseWhispers，适用于图像
机器学习：集成算法的装袋法（Bagging）：随机森林（Random Forest） rubyw #概念及理论机器学习算法随机森林
随机森林（RandomForest）是一种集成学习方法，通过构建多个决策树并结合其预测结果来提升模型的性能和稳定性。它由LeoBreiman于2001年提出，广泛应用于分类和回归任务。以下是随机森林的详细介绍，包括其基本概念、构建过程、优缺点及应用场景。基本概念随机森林是一种基于决策树的集成算法，通过生成多棵决策树，并将这些树的预测结果结合起来，以提高整体模型的预测准确性和稳定性。每棵决策树都是在
森林的智慧：随机森林与集成学习的民主之道田园Coder 人工智能科普人工智能科普
当约阿夫·弗罗因德和罗伯特·沙皮尔提出的AdaBoost算法在90年代末期以其强大的预测精度震惊机器学习界，展示了“团结弱者为强者”的集成魅力时，另一种集成思想也在悄然孕育。这种思想同样信奉“众人拾柴火焰高”，但走的是一条与AdaBoost截然不同的路径：它不执着于反复调整数据权重去“关注”被前序模型分错的困难样本，而是致力于创造尽可能多样化的模型，然后让这些模型平等地投票。它的核心哲学是：如果每
机器学习：集成学习方法之随机森林(Random Forest) 慕婉0307 机器学习集成学习机器学习随机森林
一、集成学习与随机森林概述1.1什么是集成学习集成学习(EnsembleLearning)是机器学习中一种强大的范式，它通过构建并结合多个基学习器(baselearner)来完成学习任务。集成学习的主要思想是"三个臭皮匠，顶个诸葛亮"，即通过组合多个弱学习器来获得一个强学习器。集成学习方法主要分为两大类：Bagging(BootstrapAggregating)：并行训练多个基学习器，然后通过投票
机器学习在智能金融风险评估中的应用：信用评分与欺诈检测 Blossom.118 机器学习与人工智能机器人机器学习人工智能 python 深度学习 sklearn 计算机视觉
在金融行业，风险评估是确保金融机构稳健运营的关键环节。随着大数据和机器学习技术的快速发展，金融机构开始探索如何利用机器学习算法来提高风险评估的准确性和效率。本文将探讨机器学习在智能金融风险评估中的应用，特别是信用评分和欺诈检测方面的最新进展，并分析其带来的机遇和挑战。一、智能金融风险评估中的信用评分（一）传统信用评分方法的局限性传统的信用评分主要依赖于人工规则和简单的统计模型，如逻辑回归。这些方法
机器学习在智能制造业中的应用：质量检测与设备故障预测 Blossom.118 机器学习与人工智能机器学习人工智能深度学习神经网络机器人 sklearn tensorflow
随着工业4.0和智能制造的推进，制造业正经历着一场深刻的数字化转型。智能制造业通过整合物联网（IoT）、大数据和机器学习等先进技术，实现从生产计划到质量控制的全流程优化。机器学习技术在智能制造业中的应用尤为突出，尤其是在质量检测和设备故障预测方面。本文将探讨机器学习在智能制造业中的应用，并分析其带来的机遇和挑战。一、智能制造业中的质量检测（一）传统质量检测方法的局限性传统的质量检测主要依赖于人工检
面了字节跳动的数据挖掘岗，感觉真的很难。。。大模型爱好者社区机器学习深度学习面试宝典数据挖掘人工智能数据分析算法面试
节前，我们社群组织了一场技术&面试讨论会，邀请了一些互联网大厂同学、参加社招和校招面试的同学，针对新手如何入门机器学习算法、该如何备战、面试常考点分享等热门话题进行了深入的讨论。基于社群的讨论，今天我整理了一个同学的面试题，分享给大家，希望对后续找工作的有所帮助。喜欢记得点赞、收藏、关注。更多技术交流&面经学习，可以文末加入我们交流群。一面40min【编程题】有两种数据，分别是被转发的用户和转发的
【学习】《算法图解》第十二章学习笔记：K近邻算法程序员
前言《算法图解》第十二章介绍了一种简单而强大的机器学习算法——K近邻算法（K-NearestNeighbors，简称KNN）。这是一种基于实例的学习方法，也是机器学习领域中最基础、最直观的算法之一。本章不仅讲解了KNN的基本原理和实现方式，还探讨了特征提取、归一化等重要概念，为读者打开了机器学习的大门。本笔记将梳理KNN算法的核心思想、实现步骤以及应用场景。一、K近邻算法概述（一）基本思想K近邻算
AttributeError: module ‘openai‘ has no attribute ‘ChatCompletion‘解决方案爱编程的喵喵 Python基础课程 python AttributeError openai ChatCompletion 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了AttributeError:mod
C++：指向类的成员的指针是席木木啊 C/C++c++指针 c语言
引：想必接触过C的朋友们对C语言中指针的概念已经有了深入的了解(如果初步进行了解的朋友可以看一下**C语言基础学习笔记**)。指针展开来讲的基本知识点包括：指针的概念、指针的定义和初始化及简单使用、指针函数和函数指针（有关指针函数和函数指针的内容上面的链接中也有介绍）。不得不说，C++作为C语言的扩展，在面向对象这一主体部分处处体现着指针的思想，好比：指针和引用。之所以这么说，是因
嵌套列表与二维列表的遍历方法
在Python的世界中，列表（list）是最为基础而强大的数据结构之一。而当一个列表的元素本身又是列表时，我们便进入了嵌套列表（NestedList）或更通用的二维列表（2DList）的语境中。无论是在软件开发、测试数据构造、数据分析、机器学习、自动化运维还是教育教学场景中，嵌套结构的遍历与处理都是工程能力的一项基本功。本文将系统剖析Python中处理嵌套列表和二维列表的常用遍历方式，从基础语法到
Rust 学习笔记：比较数值 UestcXiye Rust Rust
Rust学习笔记：比较数值Rust学习笔记：比较数值整数类型浮点类型NANRust学习笔记：比较数值整数类型在Rust中，可以用以下运算符比较数值：>、=、i32。但要注意从范围大的类型转换成范围小的类型，编译不会报错，但结果可能不对。解决方法2：使用try_into()进行类型转换try_into()方法：导入std::convert::TryIntotrait。该方法返回Result类型。us
大神之路-起始篇 | 第13章.计算机科学导论之【文件结构】学习笔记全栈工程师修炼指南从业必看书籍专栏学习笔记
欢迎关注「WeiyiGeek」公众号点击下方卡片即可关注我哟!设为「星标⭐」每天带你基础入门到进阶实践再到放弃学习！涉及网络安全运维、应用开发、物联网IOT、学习路径、个人感悟等知识“花开堪折直须折，莫待无花空折枝。”作者主页：[https://www.weiyigeek.top]作者博客：[https://blog.weiyigeek.top]作者答疑学习交流群：
Android学习笔记 LXR小朋友 android 学习笔记
一、Android四大组件精要1.Activity生命周期：onCreate()→onStart()→onResume()→onPause()→onStop()→onDestroy()重点场景：屏幕旋转：onSaveInstanceState()保存临时数据返回栈管理：launchMode（standard/singleTop/singleTask/singleInstance）页面跳转：Inte
AppML 案例简介沐知全栈开发开发语言
AppML案例简介引言AppML，全称为“应用程序机器学习”，是一种将机器学习技术与移动应用开发相结合的技术框架。它旨在简化移动应用的机器学习功能集成，使得开发者无需深入了解复杂的机器学习算法，即可将强大的AI功能引入他们的应用中。本文将简要介绍AppML的一些成功案例，展示其在不同领域的应用和价值。AppML案例一：健康监测应用案例概述：一款名为“HealthMate”的健康监测应用利用AppM
＜电子幽灵＞开发笔记:BAT基础笔记(一）
BAT脚本基础笔记(一)介绍费曼学习法最重要的部分，即把知识教给一个完全不懂的孩子——或者小白。为了更好的自我学习，也为了让第一次接触某个知识范畴的同学快速入门，我会把我的学习笔记整理成电子幽灵系列。提示：作为低代码工具的笔记，这里会用特殊字体表示要用到的函数等等。请若要学习，请结合相关工具边用边学。BAT基础笔记（一）BAT脚本基础笔记(一)介绍简介在哪里编写BAT代码？BAT基本语法1.基本命
＜电子幽灵＞前端第一件：HTML基础笔记下靈镌sama 电子幽灵随手记前端 html 笔记
HTML基础笔记（下）介绍费曼学习法最重要的部分，即把知识教给一个完全不懂的孩子——或者小白。为了更好的自我学习，也为了让第一次接触某个知识范畴的同学快速入门，我会把我的学习笔记整理成电子幽灵系列。提示：文章的是以解释-代码块-解释的结构呈现的。当你看到代码块并准备复制复现的时候，最好先保证自己看过了代码块前后的解释。＜电子幽灵＞前端第一件：HTML基础笔记上中，最基础的一部分HTML标签和已经以
《UE5_C++多人TPS完整教程》学习笔记40 ——《P41 装备（武器）姿势（Equipped Pose）》 SHOTJEE #ue5 游戏 c++
本文为B站系列教学视频《UE5_C++多人TPS完整教程》——《P41装备（武器）姿势（EquippedPose）》的学习笔记，该系列教学视频为计算机工程师、程序员、游戏开发者、作家（Engineer,Programmer,GameDeveloper,Author）StephenUlibarri发布在Udemy上的课程《UnrealEngine5C++MultiplayerShooter》的中文字
Vue3.3 + TypeScript ，自主打造媲美 ElementPlus 的组件库之学习笔记怪我冷i 大前端 typescript 学习笔记
Vue3.3+TS4，自主打造媲美ElementPlus的组件库第1章课程介绍1-1课程导学1-2代码库使用注意事项1-3项目演示地址：http://element.vikingship.xyz/第2章Typescript基础知识2-1什么是Typescript为什么要学习它2-2安装Typescript2-3原始数据类型和Any类型2-4数组和元组2-5Interface-接口初探2-6函数2-
【Java】已解决java.sql.SQLRecoverableException异常屿小夏 java 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
深度学习流体力学【干货】人工智能交叉前沿技术，人工智能深度学习 python 机器学习
深度学习作为一种新兴的机器学习技术，为流体科学的研究提供了新的思路和方法。通过对大量数据的学习和分析，深度学习模型可以自动提取特征和模式，为流体科学中的复杂问题提供解决方案。然而，深度学习在流体科学中的应用还面临一些挑战，需要进一步研究和探索。未来，深度学习与传统流体力学方法的结合将成为流体科学研究的重要方向，多模态数据的融合、模型的可解释性、实时预测和控制等将是深度学习在流体科学中发展的重点。相
使用GPU进行机器学习训练时，如果GPU-Util计算核心满载工作但是显存占用较少，应该如何优化？十子木机器学习深度学习人工智能
是否需要优化？如果任务运行正常：无需干预（GPU设计本就是优先榨干计算性能）。如果出现卡顿或效率低下：增大batch_size：提升显存占用，减少数据搬运次数（但需避免OOM）。启用混合精度：torch.cuda.amp可减少显存占用并加速计算。检查CPU到GPU的数据流：避免频繁的小数据拷贝（如DataLoader的num_workers设置）。
探秘Swift高级开发：深度解析与实践指南强妲佳Darlene
探秘Swift高级开发：深度解析与实践指南Advanced-SwiftNotesofAdvancedSwift.《swift进阶》学习笔记swift5.3项目地址:https://gitcode.com/gh_mirrors/ad/Advanced-Swift在软件开发的世界里，掌握一门编程语言的精髓，意味着你可以创造出无限可能的应用。而Swift，这款由Apple推出的高性能编程语言，以其易学易
基本数据类型和引用类型的初始值 3213213333332132 java基础
package com.array; /** * @Description 测试初始值 * @author FuJianyong * 2015-1-22上午10:31:53 */ public class ArrayTest { ArrayTest at; String str; byte bt; short s; int i; long
摘抄笔记--《编写高质量代码：改善Java程序的151个建议》白糖_ 高质量代码
记得3年前刚到公司，同桌同事见我无事可做就借我看《编写高质量代码：改善Java程序的151个建议》这本书，当时看了几页没上心就没研究了。到上个月在公司偶然看到，于是乎又找来看看，我的天，真是非常多的干货，对于我这种静不下心的人真是帮助莫大呀。看完整本书，也记了不少笔记
【备忘】Django 常用命令及最佳实践 dongwei_6688 django
注意：本文基于 Django 1.8.2 版本生成数据库迁移脚本（python 脚本） python manage.py makemigrations polls 说明：polls 是你的应用名字，运行该命令时需要根据你的应用名字进行调整查看该次迁移需要执行的 SQL 语句（只查看语句，并不应用到数据库上）： python manage.p
阶乘算法之一N! 末尾有多少个零周凡杨 java 算法阶乘面试效率
&n
spring注入servlet g21121 Spring注入
传统的配置方法是无法将bean或属性直接注入到servlet中的，配置代理servlet亦比较麻烦，这里其实有比较简单的方法，其实就是在servlet的init()方法中加入要注入的内容： ServletContext application = getServletContext(); WebApplicationContext wac = WebApplicationContextUtil
Jenkins 命令行操作说明文档 510888780 centos
假设Jenkins的URL为http://22.11.140.38:9080/jenkins/ 基本的格式为 java 基本的格式为 java -jar jenkins-cli.jar [-s JENKINS_URL] command [options][args] 下面具体介绍各个命令的作用及基本使用方法 1. &nb
UnicodeBlock检测中文用法布衣凌宇 UnicodeBlock
/** * 判断输入的是汉字 */ public static boolean isChinese(char c) { Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
java下实现调用oracle的存储过程和函数 aijuans java orale
1.创建表：STOCK_PRICES 2.插入测试数据： 3.建立一个返回游标： PKG_PUB_UTILS 4.创建和存储过程：P_GET_PRICE 5.创建函数： 6.JAVA调用存储过程返回结果集 JDBCoracle10G_INVO
Velocity Toolbox antlove 模板 tool box velocity
velocity.VelocityUtil package velocity; import org.apache.velocity.Template; import org.apache.velocity.app.Velocity; import org.apache.velocity.app.VelocityEngine; import org.apache.velocity.c
JAVA正则表达式匹配基础百合不是茶 java 正则表达式的匹配
正则表达式;提高程序的性能,简化代码,提高代码的可读性,简化对字符串的操作正则表达式的用途; 字符串的匹配字符串的分割字符串的查找字符串的替换正则表达式的验证语法 [a] //[]表示这个字符只出现一次 ,[a] 表示a只出现一
是否使用EL表达式的配置 bijian1013 jsp web.xml EL EasyTemplate
今天在开发过程中发现一个细节问题，由于前端采用EasyTemplate模板方法实现数据展示，但老是不能正常显示出来。后来发现竟是EL将我的EasyTemplate的${...}解释执行了，导致我的模板不能正常展示后台数据。网
精通Oracle10编程SQL(1-3)PLSQL基础 bijian1013 oracle 数据库 plsql
--只包含执行部分的PL/SQL块 --set serveroutput off begin dbms_output.put_line('Hello,everyone!'); end; select * from emp; --包含定义部分和执行部分的PL/SQL块 declare v_ename varchar2(5); begin select
【Nginx三】Nginx作为反向代理服务器 bit1129 nginx
Nginx一个常用的功能是作为代理服务器。代理服务器通常完成如下的功能：接受客户端请求将请求转发给被代理的服务器从被代理的服务器获得响应结果把响应结果返回给客户端实例本文把Nginx配置成一个简单的代理服务器对于静态的html和图片，直接从Nginx获取对于动态的页面，例如JSP或者Servlet，Nginx则将请求转发给Res
Plugin execution not covered by lifecycle configuration: org.apache.maven.plugin blackproof maven 报错
转：http://stackoverflow.com/questions/6352208/how-to-solve-plugin-execution-not-covered-by-lifecycle-configuration-for-sprin maven报错： Plugin execution not covered by lifecycle configuration:
发布docker程序到marathon ronin47 docker 发布应用
1 发布docker程序到marathon 1.1 搭建私有docker registry 1.1.1 安装docker regisry docker pull docker-registry docker run -t -p 5000:5000 docker-registry 下载docker镜像并发布到私有registry docker pull consol/tomcat-8.0
java-57-用两个栈实现队列&&用两个队列实现一个栈 bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; /* * Q 57 用两个栈实现队列 */ public class QueueImplementByTwoStacks { private Stack<Integer> stack1; pr
Nginx配置性能优化 cfyme nginx
转载地址：http://blog.csdn.net/xifeijian/article/details/20956605 大多数的Nginx安装指南告诉你如下基础知识——通过apt-get安装，修改这里或那里的几行配置，好了，你已经有了一个Web服务器了。而且，在大多数情况下，一个常规安装的nginx对你的网站来说已经能很好地工作了。然而，如果你真的想挤压出Nginx的性能，你必
[JAVA图形图像]JAVA体系需要稳扎稳打,逐步推进图像图形处理技术 comsci java
对图形图像进行精确处理，需要大量的数学工具，即使是从底层硬件模拟层开始设计，也离不开大量的数学工具包，因为我认为，JAVA语言体系在图形图像处理模块上面的研发工作，需要从开发一些基础的，类似实时数学函数构造器和解析器的软件包入手，而不是急于利用第三方代码工具来实现一个不严格的图形图像处理软件...... &nb
MonkeyRunner的使用 dai_lm android MonkeyRunner
要使用MonkeyRunner，就要学习使用Python，哎先抄一段官方doc里的代码作用是启动一个程序（应该是启动程序默认的Activity），然后按MENU键，并截屏 # Imports the monkeyrunner modules used by this program from com.android.monkeyrunner import MonkeyRun
Hadoop-- 海量文件的分布式计算处理方案 datamachine mapreduce hadoop 分布式计算
csdn的一个关于hadoop的分布式处理方案，存档。原帖：http://blog.csdn.net/calvinxiu/article/details/1506112。 Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式，让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同ja
以資料庫驗證登入 dcj3sjt126com yii
以資料庫驗證登入由於 Yii 內定的原始框架程式, 採用綁定在UserIdentity.php 的 demo 與 admin 帳號密碼: public function authenticate() { $users=array( &nbs
github做webhooks：[2]php版本自动触发更新 dcj3sjt126com github git webhooks
上次已经说过了如何在github控制面板做查看url的返回信息了。这次就到了直接贴钩子代码的时候了。工具/原料 git github 方法/步骤在github的setting里面的webhooks里把我们的url地址填进去。钩子更新的代码如下： error_reportin
Eos开发常用表达式蕃薯耀 Eos开发 Eos入门 Eos开发常用表达式
Eos开发常用表达式 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2014年8月18日 15:03:35 星期一 &
SpringSecurity3.X--SpEL 表达式 hanqunfeng SpringSecurity
使用 Spring 表达式语言配置访问控制，要实现这一功能的直接方式是在<http>配置元素上添加 use-expressions 属性： <http auto-config="true" use-expressions="true"> 这样就会在投票器中自动增加一个投票器：org.springframework
Redis vs Memcache IXHONG redis
1. Redis中，并不是所有的数据都一直存储在内存中的，这是和Memcached相比一个最大的区别。 2. Redis不仅仅支持简单的k/v类型的数据，同时还提供list，set，hash等数据结构的存储。 3. Redis支持数据的备份，即master-slave模式的数据备份。 4. Redis支持数据的持久化，可以将内存中的数据保持在磁盘中，重启的时候可以再次加载进行使用。 Red
Python - 装饰器使用过程中的误区解读 kvhur JavaScript jquery html5 css
大家都知道装饰器是一个很著名的设计模式，经常被用于AOP(面向切面编程)的场景，较为经典的有插入日志，性能测试，事务处理，Web权限校验， Cache等。原文链接：http://www.gbtags.com/gb/share/5563.htm Python语言本身提供了装饰器语法（@），典型的装饰器实现如下： @function_wrapper de
架构师之mybatis-----update 带case when 针对多种情况更新 nannan408 case when
1.前言. 如题. 2. 代码. <update id="batchUpdate" parameterType="java.util.List"> <foreach collection="list" item="list" index=&
Algorithm算法视频教程栏目记者 Algorithm 算法
课程：Algorithm算法视频教程百度网盘下载地址： http://pan.baidu.com/s/1qWFjjQW 密码: 2mji 程序写的好不好,还得看算法屌不屌！Algorithm算法博大精深。一、课程内容：课时1、算法的基本概念 + Sequential search 课时2、Binary search 课时3、Hash table 课时4、Algor
C语言算法之冒泡排序 qiufeihu c 算法
任意输入10个数字由小到大进行排序。代码： #include <stdio.h> int main() { int i,j,t,a[11]; /*定义变量及数组为基本类型*/ for(i = 1;i < 11;i++){ scanf("%d",&a[i]); /*从键盘中输入10个数*/ } for
JSP异常处理 wyzuomumu Web jsp
1.在可能发生异常的网页中通过指令将HTTP请求转发给另一个专门处理异常的网页中: <%@ page errorPage="errors.jsp"%> 2.在处理异常的网页中做如下声明： errors.jsp: <%@ page isErrorPage="true"%>，这样设置完后就可以在网页中直接访问exc