u013378306

lpa 半监督学习之--标签传播算法

众所周知，机器学习可以大体分为三大类：监督学习、非监督学习和半监督学习。监督学习可以认为是我们有非常多的labeled标注数据来train一个模型，期待这个模型能学习到数据的分布，以期对未来没有见到的样本做预测。那这个性能的源头--训练数据，就显得非常感觉。你必须有足够的训练数据，以覆盖真正现实数据中的样本分布才可以，这样学习到的模型才有意义。那非监督学习就是没有任何的labeled数据，就是平时所说的聚类了，利用他们本身的数据分布，给他们划分类别。而半监督学习，顾名思义就是处于两者之间的，只有少量的labeled数据，我们试图从这少量的labeled数据和大量的unlabeled数据中学习到有用的信息。

1、社区及社区发现：
网络图内部连接比较紧密的节点子集合对应的子图叫做社区（community），各社区节点集合彼此没有交集的称为非重叠型（disjoint）社区，有交集的称为重叠型（overlapping）社区。对给定的网络图寻找其社区结构的过程称为“社区发现”。大体上看，社区发现的过程就是一种聚类的过程。

2、基本思想
标签传播算法是不重叠社区发现的经典算法，其基本思想是：将一个节点的邻居节点的标签中数量最多的标签作为该节点自身的标签。给每个节点添加标签（label）以代表它所属的社区，并通过标签的“传播”形成同一标签的“社区”结构。

给每个节点添加标签（label）以代表它所属的社区，并通过标签的“传播”形成同一标签的“社区”结构。一个节点的标签取决于它邻居节点的标签：假设节点z的邻居节点有z1至zk，那么哪个社区包含z的邻居节点最多z就属于那个社区（或者说z的邻居中包含哪个社区的标签最多，z就属于哪个社区）。优点是收敛周期短，无需任何先验参数(不需事先指定社区个数和大小)，算法执行过程中不需要计算任何社区指标。

时间复杂度接近线性：对顶点分配标签的复杂度为O(n)，每次迭代时间为O( m)，找出所有社区的复杂度为O (n +m)，但迭代次数难以估计

3、传播过程：
1)初始时，给每个节点一个唯一的标签；
2)每个节点使用其邻居节点的标签中最多的标签来更新自身的标签。
3)反复执行步骤2)，直到每个节点的标签都不再发生变化为止。
一次迭代过程中一个节点标签的更新可以分为同步和异步两种。所谓同步更新，即节点z在第t次迭代的label依据于它的邻居节点在第t-1次迭代时所得的label；异步更新，即节点z在第t次迭代的label依据于第t次迭代已经更新过label的节点和第t次迭代未更新过label的节点在第t-1次迭代时的label。

注：
1、迭代次数设定一个阈值，可以防止过度运算；
2、对于二分图等网络结构，同步更新会引起震荡；
//3、类似（“强”社区>）定义的结构（该社区>=）；
4、每个顶点在初始的时候赋予唯一的标签，即“重要性”相同，而迭代过程又采用随机序列，会导致同一初始状态不同结果甚至巨型社区的出现；
5、如果能预测“社区中心”点，能有效提高社区发现的准确度，大幅提高效率；
6、同一节点的邻居节点的标签可能存在多种社区最大数目相同的情况，取“随机”一个作为其标签

4、算法改进思路：初始化或传播改进
1)给节点或边添加权重（势函数、模块密度优化、LeaderRank值、局部拓扑信息的相似度、标签从属系数等），信息熵等描述节点的传播优先度，进而初步确定社区中心点以提高社区划分的精度；
2）标签初始化改进，如提取一些较为紧密的子结构来作为标签传播的初始标签（非重叠最小极大团提取算法 orz。。。）或通过初始社区划分算法先确定社区的雏形再进行传播。
3）标签随机选择改进，将1）中的权值和节点邻接点的度数等作为参考因素，对标签更新过程进行修正。

1)在社区中寻找不重叠三角形作为起始簇的雏形，以提高算法结果的稳定性和运行效率；
2)添加标签熵属性，在迭代过程中不采用随机序列，而是根据每个节点的标签熵来排序序列；
3)在2）的基础上，为了不完全消除标签传播算法的随机性，将排序好的队列平均分成三个部分，在每个部分内，节点进行随机排列。
4)对于同一节点的邻居节点的标签可能存在多种社区最大数目相同的情况，不使用随机方法，而是分析该节点的邻节点的邻节点集标签分布情况来决定该节点的标签
5)在社区中寻找以度最大的若干节点为中心的“雪花型”结构作为起始簇的雏形
在实现的过程中，将上述方案进行组合衍生出更多的可行方案，初步试验结果表明算法的随机性与稳定性很难同时保证，设定起始簇的结构收敛速度快但有可能生成巨型社区；在节点较少的情况下，标签熵的方法准确率和稳定性最好；至于组合方案初步的试验验证发现效果反而下降了。

5、评价标准：社区发现的主要评价指标有Jaccard指数，fsame指数、NMI（规范化交互信息）以及Modularity（模块度）等，常用的训练集是一些真实基准网络，如：karate（空手道俱乐部，34个节点，78条边的无向图）、Football（美国大学橄榄球联盟、115个节点无向图）等
Modularity（模块度）：网络中连接社区内部边所占的比例与另一网络中的内部边的期望值之间的差值

Jaccard指数：衡量社区分割正确性的指标，在已知正确划分的情况下通过正确分类的节点对的数量来计量
NMI：依然是已知划分情况下与真实结果差异度的比较指标，其标准差可以衡量算法的稳定性

6、伪代码

<code class="hljs delphi has-numbering" style="display: block; padding: 0px; color: inherit; box-sizing: border-box; font-family: 'Source Code Pro', monospace;font-size:undefined; white-space: pre; border-radius: 0px; word-wrap: normal; background: transparent;">输入：无向图邻接矩阵AdjacentMatrix，节点个数VerticeNum 
输出：存储节点标签的分类数组Community
<span class="hljs-comment" style="color: rgb(136, 0, 0); box-sizing: border-box;">//初始化每个节点的标签</span>
<span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">For</span> i <- <span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">0</span> <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">to</span> VerticeNum <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">Do</span>
    Community[i] <- i
    <span class="hljs-comment" style="color: rgb(136, 0, 0); box-sizing: border-box;">//寻找i节点的所有邻居存入Neighbor[i]</span>
    FindMaetexNonZero(i,AdjacentMatrix,NeighBor[i])
<span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">while</span> 未达到分类标准 <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">or</span> 未超出迭代阈值 <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">then</span>
    RandomSort(SS)<span class="hljs-comment" style="color: rgb(136, 0, 0); box-sizing: border-box;">//生成随机序数队列SS</span>
    <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">For</span> i <- <span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">0</span> <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">to</span> VerticeNum <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">Do</span>
        <span class="hljs-comment" style="color: rgb(136, 0, 0); box-sizing: border-box;">//统计节点i邻居中数量最多的标签</span>
        VectorFrequency(Neighbor[i], lable)
        <span class="hljs-comment" style="color: rgb(136, 0, 0); box-sizing: border-box;">//若只有一个数量最多则直接赋值</span>
        <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">if</span> lable.size() = <span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">1</span> <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">then</span>
            Community[i] <- lable[<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">0</span>]
        <span class="hljs-comment" style="color: rgb(136, 0, 0); box-sizing: border-box;">//若有多个相同数量的标签则随机选择一个</span>
        <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">else</span> <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">then</span>
            Community[i] <- lable[random]
return Community</code><ul class="pre-numbering" style="box-sizing: border-box; position: absolute; width: 50px; top: 0px; left: 0px; margin: 0px; padding: 6px 0px 40px; border-right-width: 1px; border-right-style: solid; border-right-color: rgb(221, 221, 221); list-style: none; text-align: right; background-color: rgb(238, 238, 238);"><li style="box-sizing: border-box; padding: 0px 5px;">1</li><li style="box-sizing: border-box; padding: 0px 5px;">2</li><li style="box-sizing: border-box; padding: 0px 5px;">3</li><li style="box-sizing: border-box; padding: 0px 5px;">4</li><li style="box-sizing: border-box; padding: 0px 5px;">5</li><li style="box-sizing: border-box; padding: 0px 5px;">6</li><li style="box-sizing: border-box; padding: 0px 5px;">7</li><li style="box-sizing: border-box; padding: 0px 5px;">8</li><li style="box-sizing: border-box; padding: 0px 5px;">9</li><li style="box-sizing: border-box; padding: 0px 5px;">10</li><li style="box-sizing: border-box; padding: 0px 5px;">11</li><li style="box-sizing: border-box; padding: 0px 5px;">12</li><li style="box-sizing: border-box; padding: 0px 5px;">13</li><li style="box-sizing: border-box; padding: 0px 5px;">14</li><li style="box-sizing: border-box; padding: 0px 5px;">15</li><li style="box-sizing: border-box; padding: 0px 5px;">16</li><li style="box-sizing: border-box; padding: 0px 5px;">17</li><li style="box-sizing: border-box; padding: 0px 5px;">18</li><li style="box-sizing: border-box; padding: 0px 5px;">19</li></ul>

一、半监督学习

半监督学习（Semi-supervised learning）发挥作用的场合是：你的数据有一些有label，一些没有。而且一般是绝大部分都没有，只有少许几个有label。半监督学习算法会充分的利用unlabeled数据来捕捉我们整个数据的潜在分布。它基于三大假设：

1）Smoothness平滑假设：相似的数据具有相同的label。

2）Cluster聚类假设：处于同一个聚类下的数据具有相同label。

3）Manifold流形假设：处于同一流形结构下的数据具有相同label。

例如下图，只有两个labeled数据，如果直接用他们来训练一个分类器，例如LR或者SVM，那么学出来的分类面就是左图那样的。如果现实中，这个数据是右图那边分布的话，猪都看得出来，左图训练的这个分类器烂的一塌糊涂、惨不忍睹。因为我们的labeled训练数据太少了，都没办法覆盖我们未来可能遇到的情况。但是，如果右图那样，把大量的unlabeled数据（黑色的）都考虑进来，有个全局观念，牛逼的算法会发现，哎哟，原来是两个圈圈（分别处于两个圆形的流形之上）！那算法就很聪明，把大圈的数据都归类为红色类别，把内圈的数据都归类为蓝色类别。因为，实践中，labeled数据是昂贵，很难获得的，但unlabeled数据就不是了，写个脚本在网上爬就可以了，因此如果能充分利用大量的unlabeled数据来辅助提升我们的模型学习，这个价值就非常大。

半监督学习算法有很多，下面我们介绍最简单的标签传播算法（label propagation），最喜欢简单了，哈哈。

二、标签传播算法

标签传播算法（label propagation）的核心思想非常简单：相似的数据应该具有相同的label。LP算法包括两大步骤：1）构造相似矩阵；2）勇敢的传播吧。

2.1、相似矩阵构建

LP算法是基于Graph的，因此我们需要先构建一个图。我们为所有的数据构建一个图，图的节点就是一个数据点，包含labeled和unlabeled的数据。节点i和节点j的边表示他们的相似度。这个图的构建方法有很多，这里我们假设这个图是全连接的，节点i和节点j的边权重为：

这里，α是超参。

还有个非常常用的图构建方法是knn图，也就是只保留每个节点的k近邻权重，其他的为0，也就是不存在边，因此是稀疏的相似矩阵。

2.2、LP算法

标签传播算法非常简单：通过节点之间的边传播label。边的权重越大，表示两个节点越相似，那么label越容易传播过去。我们定义一个NxN的概率转移矩阵P：

P_ij表示从节点i转移到节点j的概率。假设有C个类和L个labeled样本，我们定义一个LxC的label矩阵Y_L，第i行表示第i个样本的标签指示向量，即如果第i个样本的类别是j，那么该行的第j个元素为1，其他为0。同样，我们也给U个unlabeled样本一个UxC的label矩阵Y_U。把他们合并，我们得到一个NxC的soft label矩阵F=[Y_L;Y_U]。soft label的意思是，我们保留样本i属于每个类别的概率，而不是互斥性的，这个样本以概率1只属于一个类。当然了，最后确定这个样本i的类别的时候，是取max也就是概率最大的那个类作为它的类别的。那F里面有个Y_U，它一开始是不知道的，那最开始的值是多少？无所谓，随便设置一个值就可以了。

千呼万唤始出来，简单的LP算法如下：

1）执行传播：F=PF

2）重置F中labeled样本的标签：F_L=Y_L

3）重复步骤1）和2）直到F收敛。

步骤1）就是将矩阵P和矩阵F相乘，这一步，每个节点都将自己的label以P确定的概率传播给其他节点。如果两个节点越相似（在欧式空间中距离越近），那么对方的label就越容易被自己的label赋予，就是更容易拉帮结派。步骤2）非常关键，因为labeled数据的label是事先确定的，它不能被带跑，所以每次传播完，它都得回归它本来的label。随着labeled数据不断的将自己的label传播出去，最后的类边界会穿越高密度区域，而停留在低密度的间隔中。相当于每个不同类别的labeled样本划分了势力范围。

2.3、变身的LP算法

我们知道，我们每次迭代都是计算一个soft label矩阵F=[Y_L;Y_U]，但是Y_L是已知的，计算它没有什么用，在步骤2）的时候，还得把它弄回来。我们关心的只是Y_U，那我们能不能只计算Y_U呢？Yes。我们将矩阵P做以下划分：

这时候，我们的算法就一个运算：

迭代上面这个步骤直到收敛就ok了，是不是很cool。可以看到F_U不但取决于labeled数据的标签及其转移概率，还取决了unlabeled数据的当前label和转移概率。因此LP算法能额外运用unlabeled数据的分布特点。

这个算法的收敛性也非常容易证明，具体见参考文献[1]。实际上，它是可以收敛到一个凸解的：

所以我们也可以直接这样求解，以获得最终的Y_U。但是在实际的应用过程中，由于矩阵求逆需要O(n³)的复杂度，所以如果unlabeled数据非常多，那么I – P_UU矩阵的求逆将会非常耗时，因此这时候一般选择迭代算法来实现。

三、LP算法的Python实现

Python环境的搭建就不啰嗦了，可以参考前面的博客。需要额外依赖的库是经典的numpy和matplotlib。代码中包含了两种图的构建方法：RBF和KNN指定。同时，自己生成了两个toy数据库：两条长形形状和两个圈圈的数据。第四部分我们用大点的数据库来做实验，先简单的可视化验证代码的正确性，再前线。

算法代码：

[python]  view plain 
     copy 
    
 #***************************************************************************  
 #*   
 #* Description: label propagation  
 #* Author: Zou Xiaoyi ([email protected])  
 #* Date:   2015-10-15  
 #* HomePage: http://blog.csdn.net/zouxy09  
 #*   
 #**************************************************************************  
   
 import time  
 import numpy as np  
   
 # return k neighbors index  
 def navie_knn(dataSet, query, k):  
     numSamples = dataSet.shape[0]  
   
     ## step 1: calculate Euclidean distance  
     diff = np.tile(query, (numSamples, 1)) - dataSet  
     squaredDiff = diff ** 2  
     squaredDist = np.sum(squaredDiff, axis = 1) # sum is performed by row  
   
     ## step 2: sort the distance  
     sortedDistIndices = np.argsort(squaredDist)  
     if k > len(sortedDistIndices):  
         k = len(sortedDistIndices)  
   
     return sortedDistIndices[0:k]  
   
   
 # build a big graph (normalized weight matrix)  
 def buildGraph(MatX, kernel_type, rbf_sigma = None, knn_num_neighbors = None):  
     num_samples = MatX.shape[0]  
     affinity_matrix = np.zeros((num_samples, num_samples), np.float32)  
     if kernel_type == 'rbf':  
         if rbf_sigma == None:  
             raise ValueError('You should input a sigma of rbf kernel!')  
         for i in xrange(num_samples):  
             row_sum = 0.0  
             for j in xrange(num_samples):  
                 diff = MatX[i, :] - MatX[j, :]  
                 affinity_matrix[i][j] = np.exp(sum(diff**2) / (-2.0 * rbf_sigma**2))  
                 row_sum += affinity_matrix[i][j]  
             affinity_matrix[i][:] /= row_sum  
     elif kernel_type == 'knn':  
         if knn_num_neighbors == None:  
             raise ValueError('You should input a k of knn kernel!')  
         for i in xrange(num_samples):  
             k_neighbors = navie_knn(MatX, MatX[i, :], knn_num_neighbors)  
             affinity_matrix[i][k_neighbors] = 1.0 / knn_num_neighbors  
     else:  
         raise NameError('Not support kernel type! You can use knn or rbf!')  
       
     return affinity_matrix  
   
   
 # label propagation  
 def labelPropagation(Mat_Label, Mat_Unlabel, labels, kernel_type = 'rbf', rbf_sigma = 1.5, \  
                     knn_num_neighbors = 10, max_iter = 500, tol = 1e-3):  
     # initialize  
     num_label_samples = Mat_Label.shape[0]  
     num_unlabel_samples = Mat_Unlabel.shape[0]  
     num_samples = num_label_samples + num_unlabel_samples  
     labels_list = np.unique(labels)  
     num_classes = len(labels_list)  
       
     MatX = np.vstack((Mat_Label, Mat_Unlabel))  
     clamp_data_label = np.zeros((num_label_samples, num_classes), np.float32)  
     for i in xrange(num_label_samples):  
         clamp_data_label[i][labels[i]] = 1.0  
       
     label_function = np.zeros((num_samples, num_classes), np.float32)  
     label_function[0 : num_label_samples] = clamp_data_label  
     label_function[num_label_samples : num_samples] = -1  
       
     # graph construction  
     affinity_matrix = buildGraph(MatX, kernel_type, rbf_sigma, knn_num_neighbors)  
       
     # start to propagation  
     iter = 0; pre_label_function = np.zeros((num_samples, num_classes), np.float32)  
     changed = np.abs(pre_label_function - label_function).sum()  
     while iter < max_iter and changed > tol:  
         if iter % 1 == 0:  
             print "---> Iteration %d/%d, changed: %f" % (iter, max_iter, changed)  
         pre_label_function = label_function  
         iter += 1  
           
         # propagation  
         label_function = np.dot(affinity_matrix, label_function)  
           
         # clamp  
         label_function[0 : num_label_samples] = clamp_data_label  
           
         # check converge  
         changed = np.abs(pre_label_function - label_function).sum()  
       
     # get terminate label of unlabeled data  
     unlabel_data_labels = np.zeros(num_unlabel_samples)  
     for i in xrange(num_unlabel_samples):  
         unlabel_data_labels[i] = np.argmax(label_function[i+num_label_samples])  
       
     return unlabel_data_labels  

测试代码：

[python]  view plain 
     copy 
    
 #***************************************************************************  
 #*   
 #* Description: label propagation  
 #* Author: Zou Xiaoyi ([email protected])  
 #* Date:   2015-10-15  
 #* HomePage: http://blog.csdn.net/zouxy09  
 #*   
 #**************************************************************************  
   
 import time  
 import math  
 import numpy as np  
 from label_propagation import labelPropagation  
   
 # show  
 def show(Mat_Label, labels, Mat_Unlabel, unlabel_data_labels):   
     import matplotlib.pyplot as plt   
       
     for i in range(Mat_Label.shape[0]):  
         if int(labels[i]) == 0:    
             plt.plot(Mat_Label[i, 0], Mat_Label[i, 1], 'Dr')    
         elif int(labels[i]) == 1:    
             plt.plot(Mat_Label[i, 0], Mat_Label[i, 1], 'Db')  
         else:  
             plt.plot(Mat_Label[i, 0], Mat_Label[i, 1], 'Dy')  
       
     for i in range(Mat_Unlabel.shape[0]):  
         if int(unlabel_data_labels[i]) == 0:    
             plt.plot(Mat_Unlabel[i, 0], Mat_Unlabel[i, 1], 'or')    
         elif int(unlabel_data_labels[i]) == 1:    
             plt.plot(Mat_Unlabel[i, 0], Mat_Unlabel[i, 1], 'ob')  
         else:  
             plt.plot(Mat_Unlabel[i, 0], Mat_Unlabel[i, 1], 'oy')  
       
     plt.xlabel('X1'); plt.ylabel('X2')   
     plt.xlim(0.0, 12.)  
     plt.ylim(0.0, 12.)  
     plt.show()    
   
   
 def loadCircleData(num_data):  
     center = np.array([5.0, 5.0])  
     radiu_inner = 2  
     radiu_outer = 4  
     num_inner = num_data / 3  
     num_outer = num_data - num_inner  
       
     data = []  
     theta = 0.0  
     for i in range(num_inner):  
         pho = (theta % 360) * math.pi / 180  
         tmp = np.zeros(2, np.float32)  
         tmp[0] = radiu_inner * math.cos(pho) + np.random.rand(1) + center[0]  
         tmp[1] = radiu_inner * math.sin(pho) + np.random.rand(1) + center[1]  
         data.append(tmp)  
         theta += 2  
       
     theta = 0.0  
     for i in range(num_outer):  
         pho = (theta % 360) * math.pi / 180  
         tmp = np.zeros(2, np.float32)  
         tmp[0] = radiu_outer * math.cos(pho) + np.random.rand(1) + center[0]  
         tmp[1] = radiu_outer * math.sin(pho) + np.random.rand(1) + center[1]  
         data.append(tmp)  
         theta += 1  
       
     Mat_Label = np.zeros((2, 2), np.float32)  
     Mat_Label[0] = center + np.array([-radiu_inner + 0.5, 0])  
     Mat_Label[1] = center + np.array([-radiu_outer + 0.5, 0])  
     labels = [0, 1]  
     Mat_Unlabel = np.vstack(data)  
     return Mat_Label, labels, Mat_Unlabel  
   
   
 def loadBandData(num_unlabel_samples):  
     #Mat_Label = np.array([[5.0, 2.], [5.0, 8.0]])  
     #labels = [0, 1]  
     #Mat_Unlabel = np.array([[5.1, 2.], [5.0, 8.1]])  
       
     Mat_Label = np.array([[5.0, 2.], [5.0, 8.0]])  
     labels = [0, 1]  
     num_dim = Mat_Label.shape[1]  
     Mat_Unlabel = np.zeros((num_unlabel_samples, num_dim), np.float32)  
     Mat_Unlabel[:num_unlabel_samples/2, :] = (np.random.rand(num_unlabel_samples/2, num_dim) - 0.5) * np.array([3, 1]) + Mat_Label[0]  
     Mat_Unlabel[num_unlabel_samples/2 : num_unlabel_samples, :] = (np.random.rand(num_unlabel_samples/2, num_dim) - 0.5) * np.array([3, 1]) + Mat_Label[1]  
     return Mat_Label, labels, Mat_Unlabel  
   
   
 # main function  
 if __name__ == "__main__":  
     num_unlabel_samples = 800  
     #Mat_Label, labels, Mat_Unlabel = loadBandData(num_unlabel_samples)  
     Mat_Label, labels, Mat_Unlabel = loadCircleData(num_unlabel_samples)  
       
     ## Notice: when use 'rbf' as our kernel, the choice of hyper parameter 'sigma' is very import! It should be  
     ## chose according to your dataset, specific the distance of two data points. I think it should ensure that  
     ## each point has about 10 knn or w_i,j is large enough. It also influence the speed of converge. So, may be  
     ## 'knn' kernel is better!  
     #unlabel_data_labels = labelPropagation(Mat_Label, Mat_Unlabel, labels, kernel_type = 'rbf', rbf_sigma = 0.2)  
     unlabel_data_labels = labelPropagation(Mat_Label, Mat_Unlabel, labels, kernel_type = 'knn', knn_num_neighbors = 10, max_iter = 400)  
     show(Mat_Label, labels, Mat_Unlabel, unlabel_data_labels)  
       

该注释的，代码都注释的，有看不明白的，欢迎交流。不同迭代次数时候的结果如下：

是不是很漂亮的传播过程？！在数值上也是可以看到随着迭代的进行逐渐收敛的，迭代的数值变化过程如下：

[python]  view plain 
     copy 
    
 ---> Iteration 0/400, changed: 1602.000000  
 ---> Iteration 1/400, changed: 6.300182  
 ---> Iteration 2/400, changed: 5.129996  
 ---> Iteration 3/400, changed: 4.301994  
 ---> Iteration 4/400, changed: 3.819295  
 ---> Iteration 5/400, changed: 3.501743  
 ---> Iteration 6/400, changed: 3.277122  
 ---> Iteration 7/400, changed: 3.105952  
 ---> Iteration 8/400, changed: 2.967030  
 ---> Iteration 9/400, changed: 2.848606  
 ---> Iteration 10/400, changed: 2.743997  
 ---> Iteration 11/400, changed: 2.649270  
 ---> Iteration 12/400, changed: 2.562057  
 ---> Iteration 13/400, changed: 2.480885  
 ---> Iteration 14/400, changed: 2.404774  
 ---> Iteration 15/400, changed: 2.333075  
 ---> Iteration 16/400, changed: 2.265301  
 ---> Iteration 17/400, changed: 2.201107  
 ---> Iteration 18/400, changed: 2.140209  
 ---> Iteration 19/400, changed: 2.082354  
 ---> Iteration 20/400, changed: 2.027376  
 ---> Iteration 21/400, changed: 1.975071  
 ---> Iteration 22/400, changed: 1.925286  
 ---> Iteration 23/400, changed: 1.877894  
 ---> Iteration 24/400, changed: 1.832743  
 ---> Iteration 25/400, changed: 1.789721  
 ---> Iteration 26/400, changed: 1.748706  
 ---> Iteration 27/400, changed: 1.709593  
 ---> Iteration 28/400, changed: 1.672284  
 ---> Iteration 29/400, changed: 1.636668  
 ---> Iteration 30/400, changed: 1.602668  
 ---> Iteration 31/400, changed: 1.570200  
 ---> Iteration 32/400, changed: 1.539179  
 ---> Iteration 33/400, changed: 1.509530  
 ---> Iteration 34/400, changed: 1.481182  
 ---> Iteration 35/400, changed: 1.454066  
 ---> Iteration 36/400, changed: 1.428120  
 ---> Iteration 37/400, changed: 1.403283  
 ---> Iteration 38/400, changed: 1.379502  
 ---> Iteration 39/400, changed: 1.356734  
 ---> Iteration 40/400, changed: 1.334906  
 ---> Iteration 41/400, changed: 1.313983  
 ---> Iteration 42/400, changed: 1.293921  
 ---> Iteration 43/400, changed: 1.274681  
 ---> Iteration 44/400, changed: 1.256214  
 ---> Iteration 45/400, changed: 1.238491  
 ---> Iteration 46/400, changed: 1.221474  
 ---> Iteration 47/400, changed: 1.205126  
 ---> Iteration 48/400, changed: 1.189417  
 ---> Iteration 49/400, changed: 1.174316  
 ---> Iteration 50/400, changed: 1.159804  
 ---> Iteration 51/400, changed: 1.145844  
 ---> Iteration 52/400, changed: 1.132414  
 ---> Iteration 53/400, changed: 1.119490  
 ---> Iteration 54/400, changed: 1.107032  
 ---> Iteration 55/400, changed: 1.095054  
 ---> Iteration 56/400, changed: 1.083513  
 ---> Iteration 57/400, changed: 1.072397  
 ---> Iteration 58/400, changed: 1.061671  
 ---> Iteration 59/400, changed: 1.051324  
 ---> Iteration 60/400, changed: 1.041363  
 ---> Iteration 61/400, changed: 1.031742  
 ---> Iteration 62/400, changed: 1.022459  
 ---> Iteration 63/400, changed: 1.013494  
 ---> Iteration 64/400, changed: 1.004836  
 ---> Iteration 65/400, changed: 0.996484  
 ---> Iteration 66/400, changed: 0.988407  
 ---> Iteration 67/400, changed: 0.980592  
 ---> Iteration 68/400, changed: 0.973045  
 ---> Iteration 69/400, changed: 0.965744  
 ---> Iteration 70/400, changed: 0.958682  
 ---> Iteration 71/400, changed: 0.951848  
 ---> Iteration 72/400, changed: 0.945227  
 ---> Iteration 73/400, changed: 0.938820  
 ---> Iteration 74/400, changed: 0.932608  
 ---> Iteration 75/400, changed: 0.926590  
 ---> Iteration 76/400, changed: 0.920765  
 ---> Iteration 77/400, changed: 0.915107  
 ---> Iteration 78/400, changed: 0.909628  
 ---> Iteration 79/400, changed: 0.904309  
 ---> Iteration 80/400, changed: 0.899143  
 ---> Iteration 81/400, changed: 0.894122  
 ---> Iteration 82/400, changed: 0.889259  
 ---> Iteration 83/400, changed: 0.884530  
 ---> Iteration 84/400, changed: 0.879933  
 ---> Iteration 85/400, changed: 0.875464  
 ---> Iteration 86/400, changed: 0.871121  
 ---> Iteration 87/400, changed: 0.866888  
 ---> Iteration 88/400, changed: 0.862773  
 ---> Iteration 89/400, changed: 0.858783  
 ---> Iteration 90/400, changed: 0.854879  
 ---> Iteration 91/400, changed: 0.851084  
 ---> Iteration 92/400, changed: 0.847382  
 ---> Iteration 93/400, changed: 0.843779  
 ---> Iteration 94/400, changed: 0.840274  
 ---> Iteration 95/400, changed: 0.836842  
 ---> Iteration 96/400, changed: 0.833501  
 ---> Iteration 97/400, changed: 0.830240  
 ---> Iteration 98/400, changed: 0.827051  
 ---> Iteration 99/400, changed: 0.823950  
 ---> Iteration 100/400, changed: 0.820906  
 ---> Iteration 101/400, changed: 0.817946  
 ---> Iteration 102/400, changed: 0.815053  
 ---> Iteration 103/400, changed: 0.812217  
 ---> Iteration 104/400, changed: 0.809437  
 ---> Iteration 105/400, changed: 0.806724  
 ---> Iteration 106/400, changed: 0.804076  
 ---> Iteration 107/400, changed: 0.801480  
 ---> Iteration 108/400, changed: 0.798937  
 ---> Iteration 109/400, changed: 0.796448  
 ---> Iteration 110/400, changed: 0.794008  
 ---> Iteration 111/400, changed: 0.791612  
 ---> Iteration 112/400, changed: 0.789282  
 ---> Iteration 113/400, changed: 0.786984  
 ---> Iteration 114/400, changed: 0.784728  
 ---> Iteration 115/400, changed: 0.782516  
 ---> Iteration 116/400, changed: 0.780355  
 ---> Iteration 117/400, changed: 0.778216  
 ---> Iteration 118/400, changed: 0.776139  
 ---> Iteration 119/400, changed: 0.774087  
 ---> Iteration 120/400, changed: 0.772072  
 ---> Iteration 121/400, changed: 0.770085  
 ---> Iteration 122/400, changed: 0.768146  
 ---> Iteration 123/400, changed: 0.766232  
 ---> Iteration 124/400, changed: 0.764356  
 ---> Iteration 125/400, changed: 0.762504  
 ---> Iteration 126/400, changed: 0.760685  
 ---> Iteration 127/400, changed: 0.758889  
 ---> Iteration 128/400, changed: 0.757135  
 ---> Iteration 129/400, changed: 0.755406  

四、LP算法MPI并行实现

这里，我们测试的是LP的变身版本。从公式，我们可以看到，第二项P_ULY_L迭代过程并没有发生变化，所以这部分实际上从迭代开始就可以计算好，从而避免重复计算。不过，不管怎样，LP算法都要计算一个UxU的矩阵P_UU和一个UxC矩阵F_U的乘积。当我们的unlabeled数据非常多，而且类别也很多的时候，计算是很慢的，同时占用的内存量也非常大。另外，构造Graph需要计算两两的相似度，也是O(n²)的复杂度，当我们数据的特征维度很大的时候，这个计算量也是非常客观的。所以我们就得考虑并行处理了。而且最好是能放到集群上并行。那如何并行呢？

对算法的并行化，一般分为两种：数据并行和模型并行。

数据并行很好理解，就是将数据划分，每个节点只处理一部分数据，例如我们构造图的时候，计算每个数据的k近邻。例如我们有1000个样本和20个CPU节点，那么就平均分发，让每个CPU节点计算50个样本的k近邻，然后最后再合并大家的结果。可见这个加速比也是非常可观的。

模型并行一般发生在模型很大，无法放到单机的内存里面的时候。例如庞大的深度神经网络训练的时候，就需要把这个网络切开，然后分别求解梯度，最后有个leader的节点来收集大家的梯度，再反馈给大家去更新。当然了，其中存在更细致和高效的工程处理方法。在我们的LP算法中，也是可以做模型并行的。假如我们的类别数C很大，把类别数切开，让不同的CPU节点处理，实际上就相当于模型并行了。

那为啥不切大矩阵P_UU，而是切小点的矩阵F_U，因为大矩阵P_UU没法独立分块，并行的一个原则是处理必须是独立的。矩阵F_U依赖的是所有的U，而把P_UU切开分发到其他节点的时候，每次F_U的更新都需要和其他的节点通信，这个通信的代价是很大的（实际上，很多并行系统没法达到线性的加速度的瓶颈是通信！线性加速比是，我增加了n台机器，速度就提升了n倍）。但是对类别C也就是矩阵F_U切分，就不会有这个问题，因为他们的计算是独立的。只是决定样本的最终类别的时候，将所有的F_U收集回来求max就可以了。

所以，在下面的代码中，是同时包含了数据并行和模型并行的雏形的。另外，还值得一提的是，我们是迭代算法，那决定什么时候迭代算法停止？除了判断收敛外，我们还可以让每迭代几步，就用测试label测试一次结果，看模型的整体训练性能如何。特别是判断训练是否过拟合的时候非常有效。因此，代码中包含了这部分内容。

好了，代码终于来了。大家可以搞点大数据库来测试，如果有MPI集群条件的话就更好了。

下面的代码依赖numpy、scipy（用其稀疏矩阵加速计算）和mpi4py。其中mpi4py需要依赖openmpi和Cpython，可以参考我之前的博客进行安装。

[python]  view plain 
     copy 
    
 #***************************************************************************  
 #*   
 #* Description: label propagation  
 #* Author: Zou Xiaoyi ([email protected])  
 #* Date:   2015-10-15  
 #* HomePage: http://blog.csdn.net/zouxy09  
 #*   
 #**************************************************************************  
   
 import os, sys, time  
 import numpy as np  
 from scipy.sparse import csr_matrix, lil_matrix, eye  
 import operator  
 import cPickle as pickle  
 import mpi4py.MPI as MPI  
   
 #  
 #   Global variables for MPI  
 #  
   
 # instance for invoking MPI related functions  
 comm = MPI.COMM_WORLD  
 # the node rank in the whole community  
 comm_rank = comm.Get_rank()  
 # the size of the whole community, i.e., the total number of working nodes in the MPI cluster  
 comm_size = comm.Get_size()  
   
 # load mnist dataset  
 def load_MNIST():  
     import gzip  
     f = gzip.open("mnist.pkl.gz", "rb")  
     train, val, test = pickle.load(f)  
     f.close()  
       
     Mat_Label = train[0]  
     labels = train[1]  
     Mat_Unlabel = test[0]  
     groundtruth = test[1]  
     labels_id = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]  
   
     return Mat_Label, labels, labels_id, Mat_Unlabel, groundtruth  
   
 # return k neighbors index  
 def navie_knn(dataSet, query, k):  
     numSamples = dataSet.shape[0]  
   
     ## step 1: calculate Euclidean distance  
     diff = np.tile(query, (numSamples, 1)) - dataSet  
     squaredDiff = diff ** 2  
     squaredDist = np.sum(squaredDiff, axis = 1) # sum is performed by row  
   
     ## step 2: sort the distance  
     sortedDistIndices = np.argsort(squaredDist)  
     if k > len(sortedDistIndices):  
         k = len(sortedDistIndices)  
     return sortedDistIndices[0:k]  
   
   
 # build a big graph (normalized weight matrix)  
 # sparse U x (U + L) matrix  
 def buildSubGraph(Mat_Label, Mat_Unlabel, knn_num_neighbors):  
     num_unlabel_samples = Mat_Unlabel.shape[0]  
     data = []; indices = []; indptr = [0]  
     Mat_all = np.vstack((Mat_Label, Mat_Unlabel))  
     values = np.ones(knn_num_neighbors, np.float32) / knn_num_neighbors  
     for i in xrange(num_unlabel_samples):  
         k_neighbors = navie_knn(Mat_all, Mat_Unlabel[i, :], knn_num_neighbors)  
         indptr.append(np.int32(indptr[-1]) + knn_num_neighbors)  
         indices.extend(k_neighbors)  
         data.append(values)   
     return csr_matrix((np.hstack(data), indices, indptr))  
   
   
 # build a big graph (normalized weight matrix)  
 # sparse U x (U + L) matrix  
 def buildSubGraph_MPI(Mat_Label, Mat_Unlabel, knn_num_neighbors):  
     num_unlabel_samples = Mat_Unlabel.shape[0]  
     local_data = []; local_indices = []; local_indptr = [0]  
     Mat_all = np.vstack((Mat_Label, Mat_Unlabel))  
     values = np.ones(knn_num_neighbors, np.float32) / knn_num_neighbors  
     sample_offset = np.linspace(0, num_unlabel_samples, comm_size + 1).astype('int')  
     for i in range(sample_offset[comm_rank], sample_offset[comm_rank+1]):  
         k_neighbors = navie_knn(Mat_all, Mat_Unlabel[i, :], knn_num_neighbors)  
         local_indptr.append(np.int32(local_indptr[-1]) + knn_num_neighbors)  
         local_indices.extend(k_neighbors)  
         local_data.append(values)  
     data = np.hstack(comm.allgather(local_data))  
     indices = np.hstack(comm.allgather(local_indices))  
     indptr_tmp = comm.allgather(local_indptr)  
     indptr = []  
     for i in range(len(indptr_tmp)):  
         if i == 0:  
             indptr.extend(indptr_tmp[i])  
         else:  
             last_indptr = indptr[-1]  
             del(indptr[-1])  
             indptr.extend(indptr_tmp[i] + last_indptr)  
     return csr_matrix((np.hstack(data), indices, indptr), dtype = np.float32)  
   
   
 # label propagation  
 def run_label_propagation_sparse(knn_num_neighbors = 20, max_iter = 100, tol = 1e-4, test_per_iter = 1):  
     # load data and graph  
     print "Processor %d/%d loading graph file..." % (comm_rank, comm_size)  
     #Mat_Label, labels, Mat_Unlabel, groundtruth = loadFourBandData()  
     Mat_Label, labels, labels_id, Mat_Unlabel, unlabel_data_id = load_MNIST()  
     if comm_size > len(labels_id):  
         raise ValueError("Sorry, the processors must be less than the number of classes")  
     #affinity_matrix = buildSubGraph(Mat_Label, Mat_Unlabel, knn_num_neighbors)  
     affinity_matrix = buildSubGraph_MPI(Mat_Label, Mat_Unlabel, knn_num_neighbors)  
       
     # get some parameters  
     num_classes = len(labels_id)  
     num_label_samples = len(labels)  
     num_unlabel_samples = Mat_Unlabel.shape[0]  
   
     affinity_matrix_UL = affinity_matrix[:, 0:num_label_samples]  
     affinity_matrix_UU = affinity_matrix[:, num_label_samples:num_label_samples+num_unlabel_samples]  
   
     if comm_rank == 0:  
         print "Have %d labeled images, %d unlabeled images and %d classes" % (num_label_samples, num_unlabel_samples, num_classes)  
       
     # divide label_function_U and label_function_L to all processors  
     class_offset = np.linspace(0, num_classes, comm_size + 1).astype('int')  
       
     # initialize local label_function_U  
     local_start_class = class_offset[comm_rank]  
     local_num_classes = class_offset[comm_rank+1] - local_start_class  
     local_label_function_U = eye(num_unlabel_samples, local_num_classes, 0, np.float32, format='csr')  
       
     # initialize local label_function_L  
     local_label_function_L = lil_matrix((num_label_samples, local_num_classes), dtype = np.float32)  
     for i in xrange(num_label_samples):  
         class_off = int(labels[i]) - local_start_class  
         if class_off >= 0 and class_off < local_num_classes:  
             local_label_function_L[i, class_off] = 1.0  
     local_label_function_L = local_label_function_L.tocsr()  
     local_label_info = affinity_matrix_UL.dot(local_label_function_L)  
     print "Processor %d/%d has to process %d classes..." % (comm_rank, comm_size, local_label_function_L.shape[1])  
       
     # start to propagation  
     iter = 1; changed = 100.0;  
     evaluation(num_unlabel_samples, local_start_class, local_label_function_U, unlabel_data_id, labels_id)  
     while True:  
         pre_label_function = local_label_function_U.copy()  
           
         # propagation  
         local_label_function_U = affinity_matrix_UU.dot(local_label_function_U) + local_label_info  
           
         # check converge  
         local_changed = abs(pre_label_function - local_label_function_U).sum()  
         changed = comm.reduce(local_changed, root = 0, op = MPI.SUM)  
         status = 'RUN'  
         test = False  
         if comm_rank == 0:  
             if iter % 1 == 0:  
                 norm_changed = changed / (num_unlabel_samples * num_classes)  
                 print "---> Iteration %d/%d, changed: %f" % (iter, max_iter, norm_changed)  
             if iter >= max_iter or changed < tol:  
                 status = 'STOP'  
                 print "************** Iteration over! ****************"  
             if iter % test_per_iter == 0:  
                 test = True  
             iter += 1  
         test = comm.bcast(test if comm_rank == 0 else None, root = 0)  
         status = comm.bcast(status if comm_rank == 0 else None, root = 0)  
         if status == 'STOP':  
             break  
         if test == True:  
             evaluation(num_unlabel_samples, local_start_class, local_label_function_U, unlabel_data_id, labels_id)  
     evaluation(num_unlabel_samples, local_start_class, local_label_function_U, unlabel_data_id, labels_id)  
   
   
 def evaluation(num_unlabel_samples, local_start_class, local_label_function_U, unlabel_data_id, labels_id):  
     # get local label with max score  
     if comm_rank == 0:  
         print "Start to combine local result..."  
     local_max_score = np.zeros((num_unlabel_samples, 1), np.float32)   
     local_max_label = np.zeros((num_unlabel_samples, 1), np.int32)  
     for i in xrange(num_unlabel_samples):  
         local_max_label[i, 0] = np.argmax(local_label_function_U.getrow(i).todense())  
         local_max_score[i, 0] = local_label_function_U[i, local_max_label[i, 0]]  
         local_max_label[i, 0] += local_start_class  
           
     # gather the results from all the processors  
     if comm_rank == 0:  
         print "Start to gather results from all processors"  
     all_max_label = np.hstack(comm.allgather(local_max_label))  
     all_max_score = np.hstack(comm.allgather(local_max_score))  
       
     # get terminate label of unlabeled data  
     if comm_rank == 0:  
         print "Start to analysis the results..."  
         right_predict_count = 0  
         for i in xrange(num_unlabel_samples):  
             if i % 1000 == 0:  
                 print "***", all_max_score[i]  
             max_idx = np.argmax(all_max_score[i])  
             max_label = all_max_label[i, max_idx]  
             if int(unlabel_data_id[i]) == int(labels_id[max_label]):  
                 right_predict_count += 1  
         accuracy = float(right_predict_count) * 100.0 / num_unlabel_samples  
         print "Have %d samples, accuracy: %.3f%%!" % (num_unlabel_samples, accuracy)  
   
   
 if __name__ == '__main__':  
     run_label_propagation_sparse(knn_num_neighbors = 20, max_iter = 30)  

你可能感兴趣的:(lpa 半监督学习之--标签传播算法)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
扫地机类清洁产品之直流无刷电机控制悟空胆好小清洁服务机器人单片机人工智能
扫地机类清洁产品之直流无刷电机控制1.1前言扫地机产品有很多的电机控制，滚刷电机1个，边刷电机1-2个，清水泵电机，风机一个，部分中高端产品支持抹布功能，也就是存在抹布盘电机，还有追觅科沃斯石头等边刷抬升电机，滚刷抬升电机等的，这些电机有直流有刷电机，直接无刷电机，步进电机，电磁阀，挪动泵等不同类型。电机的原理，驱动控制方式也不行。接下来一段时间的几个文章会作个专题分析分享。直流有刷电机会自动持续
2018-07-23-催眠日作业-#不一样的31天#-66小鹿小鹿_33
预言日：人总是在逃避命运的路上，与之不期而遇。心理学上有个著名的名词，叫做自证预言；经济学上也有一个很著名的定律叫做，墨菲定律；在灵修派上，还有一个很著名的法则，叫做吸引力法则。这3个领域的词，虽然看起来不太一样，但是他们都在告诉人们一个现象：你越担心什么，就越有可能会发生什么。同样的道理，你越想得到什么，就应该要积极地去创造什么。无论是自证预言，墨菲定律还是吸引力法则，对人都有正反2个维度的影响
《大清方方案》| 第二话谁佐清欢
和珅究竟说了些什么？竟能令堂堂九五之尊龙颜失色！此处暂且按下不表；单说这位乾隆皇帝，果真不愧是康熙从小带过的，一旦决定了要做的事，便杀伐决断毫不含糊。他当即亲自拟旨，着令和珅为钦差大臣，全权负责处理方方事件，并钦赐尚方宝剑，遇急则三品以下官员可先斩后奏。和珅身负皇上重托，岂敢有半点怠慢，当夜即率领相关人等，马不停蹄杀奔江汉。这一路上，和珅的几位幕僚一直在商讨方方事件的处置方案。有位年轻幕僚建议快刀
《庄子.达生9》钱江潮369
【原文】孔子观于吕梁，县水三十仞，流沫四十里，鼋鼍鱼鳖之所不能游也。见一丈夫游之，以为有苦而欲死也，使弟子并流而拯之。数百步而出，被发行歌而游于塘下。孔子从而问焉，曰：“吾以子为鬼，察子则人也。请问，‘蹈水有道乎’”曰：“亡，吾无道。吾始乎故，长乎性，成乎命。与齐俱入，与汩偕出，从水之道而不为私焉。此吾所以蹈之也。”孔子曰：“何谓始乎故，长乎性，成乎命？”曰：“吾生于陵而安于陵，故也；长于水而安于
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
高端密码学院笔记285 柚子_b4b4
高端幸福密码学院（高级班）幸福使者：李华第（598）期《幸福》之回归内在深层生命原动力基础篇——揭秘“激励”成长的喜悦心理案例分析主讲：刘莉一，知识扩充:成功=艰苦劳动+正确方法+少说空话。贪图省力的船夫，目标永远下游。智者的梦再美，也不如愚人实干的脚印。幸福早课堂2020.10.16星期五一笔记:1，重视和珍惜的前提是知道它的价值非常重要，当你珍惜了，你就真正定下来，真正的学到身上。2，大家需要
2020-04-12每天三百字之连接与替代冷眼看潮
不知道是不是好为人师，有时候还真想和别人分享一下我对某些现象的看法或者解释。人类社会不断发展进步的过程，就是不断连接与替代的过程。人类发现了火并应用火以后，告别了茹毛饮血的野兽般的原始生活（火烧、烹饪替代了生食）人类用石器代替了完全手工，工具的使用使人类进步一大步。类似这样的替代还有很多，随着科技的发展，有更多的原始的事物被替代，代之以更高效、更先进的技术。在近现代，汽车替代了马车，高速公路和铁路
东南林氏之九牧林候选父系祖缘树TheYtree
渊源介绍东晋初年晋安林始祖林禄公入闽，传十世隋右丞林茂，由晋安迁居莆田北螺村。又五世而至林万宠，唐开元间任高平太守，生三子：韬、披、昌。韬公之孙攒，唐德宗立双阙以旌表其孝，时号"阙下林家"。昌公字茂吉，乃万宠公第三子，官兵部司马，配宋氏，生一子名萍。萍于唐贞元间明经及第，官沣洲司马(后追赠中宪大夫)。唐太和年间归隐后，迁居仙游游洋，世称“游洋林”；其后裔居游洋后迁移漳州漳浦路下，由路下林第四房平和
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
大伟说成语之唉声叹气求索大伟
＊大伟说成语＊【唉声叹气】叹气：因心里不痛快或不如意而吐出长气，发出声音。因为痛苦、憋闷或感伤而发出叹息的声音。【大伟说】情绪外露，非人类所特有，动物亦有情绪，悲哀和欢乐所表示的情绪亦是不一样的，会嗷嗷大叫也会低吟痛哭。不同的是，人类的情绪更复杂，更多样，更丰富。唉声叹气，可以说是最基础的情绪，因为无奈而举足无措，不知该如何如何化解，只有独自一人慢慢承受，长吁短叹不知如何是好，其实是无能无力的表现
2022现在哪个打车软件比较好用又便宜实惠的打车软件合集高省APP珊珊
这是一个信息高速传播的社会。信息可以通过手机，微信，自媒体，抖音等方式进行传播。但同时这也是一个交通四通发达的社会。高省APP，是2022年推出的平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，也期待你的加入。珊珊导师，高省邀请码777777，注册送2皇冠会员，送万元推广大礼包，教你如何1年做到百万团队。高
libyuv之linux编译 jaronho Linux linux 运维服务器
文章目录一、下载源码二、编译源码三、注意事项1、银河麒麟系统（aarch64）（1）解决armv8-a+dotprod+i8mm指令集支持问题（2）解决armv9-a+sve2指令集支持问题一、下载源码到GitHub网站下载https://github.com/lemenkov/libyuv源码，或者用直接用git克隆到本地，如：gitclonehttps://github.com/lemenko
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
怎么做淘客赚钱(2022最新免费淘客盈利的方法) 高省_飞智666600
很多人都不知道什么是淘宝客，今天小编为大家解答一下吧。淘宝客，现在简称淘客，是时下比较流行的一个词语，特质为淘宝店推广商品获取提成的人，这些人没有自己的产品，只是在淘宝里面选择适合自己的产品，在自己比较熟悉的领域推广，把产品卖出去之后，会从淘宝店家那里获得百分之五到百分之五十左右的佣金。淘宝客付出的是什么呢？时间。你需要花时间去选适合自己推广的产品，需要花时间去选自己的推广方法，如果你打算自己做个
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
锁之缘尘缘诗词原创作品
是谁追寻梦的足迹，是谁在偷偷的哭泣，日月隔离在黑白天地情感在心中蔓延的痕迹天与地的距离有多远流失的星晨落入哪片空间不要让泪水模糊双眼心牢中一样充满温暖谁说爱情没有永远白娘子又为何爱许仙蝴蝶墓地展翅翩翩轻歌慢舞袖卷人间传奇千古留爱万年…………月落星飞徘徊是选择不去问自已为合舍不得寂寞本就是痛苦的不在追寻梦中的痕迹才不会失去真实的自已
ARM驱动学习之基础小知识 JT灬新一 ARM 嵌入式 arm开发学习
ARM驱动学习之基础小知识•sch原理图工程师工作内容–方案–元器件选型–采购（能不能买到，价格）–原理图（涉及到稳定性）•layout画板工程师–layout（封装、布局，布线，log）（涉及到稳定性）–焊接的一部分工作（调试阶段板子的焊接）•驱动工程师–驱动，原理图，layout三部分的交集容易发生矛盾•PCB研发流程介绍–方案，原理图(网表)–layout工程师（gerber文件）–PCB板
ARM驱动学习之5 LEDS驱动 JT灬新一嵌入式 C 底层 arm开发学习单片机
ARM驱动学习之5LEDS驱动知识点：•linuxGPIO申请函数和赋值函数–gpio_request–gpio_set_value•三星平台配置GPIO函数–s3c_gpio_cfgpin•GPIO配置输出模式的宏变量–S3C_GPIO_OUTPUT注意点：DRIVER_NAME和DEVICE_NAME匹配。实现步骤：1.加入需要的头文件：//Linux平台的gpio头文件#include//三
ARM驱动学习之4小结 JT灬新一嵌入式 C++arm开发学习 linux
ARM驱动学习之4小结#include#include#include#include#include#defineDEVICE_NAME"hello_ctl123"MODULE_LICENSE("DualBSD/GPL");MODULE_AUTHOR("TOPEET");staticlonghello_ioctl(structfile*file,unsignedintcmd,unsignedlo
C++ | Leetcode C++题解之第409题最长回文串 Ddddddd_158 经验分享 C++Leetcode 题解
题目：题解：classSolution{public:intlongestPalindrome(strings){unordered_mapcount;intans=0;for(charc:s)++count[c];for(autop:count){intv=p.second;ans+=v/2*2;if(v%2==1andans%2==0)++ans;}returnans;}};
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
2020-12-24 我和我的天使们
阅读《老子的心事》391—403“将欲取之，必固与之”：想要得到什么，首先就要送出什么。我常常对孩子们说，你希望别人怎样对你你就怎样对待别人。想要得到别人的尊重，首先要尊重别人。我希望她们可以不迟到，因为不迟到是对别人的尊重，我就自己就先做到不迟到。哪怕是约朋友逛街，我尽量准时赴约。我严格要求孩子们，也同样严格要求自己，我跟孩子们一起把好的品格变成习惯。“是谓微明”：这就是微妙的智慧。看起来很少很
18、架构-可观测性之聚合度量大树~~ 架构 java python 后端架构
聚合度量聚合度量是指对系统运行时产生的各种指标数据进行收集、聚合和分析，以了解系统的健康状况和性能表现。聚合度量是可观测性的关键组成部分，通过对度量数据的分析，可以及时发现系统中的异常和瓶颈。以下是对聚合度量各个方面的详细解析，并结合具体的数据案例和技术支撑。指标收集收集系统运行时产生的各种指标数据是聚合度量的基础。常见的指标包括CPU使用率、内存使用率、请求处理时间、请求数、错误率等。以下是指标
【Git】常见命令(仅笔记) 好想有猫猫 Git Linux学习笔记 git 笔记 elasticsearch linux c++
文章目录创建/初始化本地仓库添加本地仓库配置项提交文件查看仓库状态回退仓库查看日志分支删除文件暂存工作区代码远程仓库使用`.gitigore`文件让git不追踪一些文件标签创建/初始化本地仓库gitinit添加本地仓库配置项gitconfig-l#以列表形式显示配置项gitconfiguser.name"ljh"#配置user.namegitconfiguser.email"[email protected]
学习“论语”-第59天春峰轩
12.14子张问政。子曰：“居之无倦，行之以忠。”子张问为政之道。孔子说：“在位尽职不懈怠，执行政令要忠诚。”12.15子曰：“博学于文，约之以礼，亦可以弗畔矣夫！”孔子说：“君子广泛地学习文献，并且用礼节约束自己，也就不会离经叛道了。”12.16子曰：“君子成人之美，不成人之恶。小人反是。”孔子说：“君子成全别人的好事，而不助长别人的坏处。小人则与此相反行事。”知识点:“成人之美，不成人之恶”贯
2021-11-15 宙火
我给宋小姐写了首诗，是我在课上因思恋宋小姐而写的。“自古多情是唐宋，从来双飞归巢燕。邻家小女相聘婷，常使春意荡漾我。不知单思可为爱，惟愿一心付之汝。”我拿给宋小姐看了，她说我写得很棒。我很开心，但又不是那么开心。宋小姐是回复我了，但也只是说我写得很棒，对我诗句中蕴藏的真切感情，不知道是真的没发现，还是装作没发现。但我不深究，只是这样，我就很开心了。我答应宋小姐，一天给她写一首诗。
《我的青葱岁月之缘来是你》第二章迎新晚会思源思缘思怨
“怎么你也来了这里？”我愉快的问到，想着这是上天给的缘分吗？我还没去找他竟然就相遇了。那个让我开心的老乡。“你好，我也是舞蹈社的新人啊！”他说，笑起来回答我，眼睛弯弯的。“这么巧，我叫吴倩，你叫啥？”“我叫韩欢，你也是B市人吧，c中毕业的？”“我不是，我是f中的，不然肯定会认识你的”“是吗？以后多多关照了”他还冲我眨了眨眼睛。内心一阵悸动，这是……回到寝室，我兴奋的告诉我的室友这个事情，我再次觉得
统一思想认识永夜-极光思想
1.统一思想认识的基础,才能有的放矢原因: 总有一种描述事物的方式最贴近本质,最容易让人理解. 如何让教育更轻松,在于找到最适合学生的方式. 难点在于,如何模拟对方的思维基础选择合适的方式. &
Joda Time使用笔记 bylijinnan java joda time
Joda Time的介绍可以参考这篇文章： http://www.ibm.com/developerworks/cn/java/j-jodatime.html 工作中也常常用到Joda Time，为了避免每次使用都查API，记录一下常用的用法： /** * DateTime变化（增减） */ @Tes
FileUtils API eksliang FileUtils FileUtils API
转载请出自出处：http://eksliang.iteye.com/blog/2217374 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
各种新兴技术不懂事的小屁孩技术
1:gradle Gradle 是以 Groovy 语言为基础，面向Java应用为主。基于DSL（领域特定语言）语法的自动化构建工具。现在构建系统常用到maven工具，现在有更容易上手的gradle，搭建java环境: http://www.ibm.com/developerworks/cn/opensource/os-cn-gradle/ 搭建android环境： http://m
tomcat6的https双向认证酷的飞上天空 tomcat6
1.生成服务器端证书 keytool -genkey -keyalg RSA -dname "cn=localhost,ou=sango,o=none,l=china,st=beijing,c=cn" -alias server -keypass password -keystore server.jks -storepass password -validity 36
托管虚拟桌面市场势不可挡蓝儿唯美
用户还需要冗余的数据中心，dinCloud的高级副总裁兼首席营销官Ali Din指出。该公司转售一个MSP可以让用户登录并管理和提供服务的用于DaaS的云自动化控制台，提供服务或者MSP也可以自己来控制。在某些情况下，MSP会在dinCloud的云服务上进行服务分层，如监控和补丁管理。 MSP的利润空间将根据其参与的程度而有所不同，Din说。 “我们有一些合作伙伴负责将我们推荐给客户作为个
spring学习——xml文件的配置 a-john spring
在Spring的学习中，对于其xml文件的配置是必不可少的。在Spring的多种装配Bean的方式中，采用XML配置也是最常见的。以下是一个简单的XML配置文件： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.or
HDU 4342 History repeat itself 模拟 aijuans 模拟
来源：http://acm.hdu.edu.cn/showproblem.php?pid=4342 题意：首先让求第几个非平方数，然后求从1到该数之间的每个sqrt(i)的下取整的和。思路：一个简单的模拟题目，但是由于数据范围大，需要用__int64。我们可以首先把平方数筛选出来，假如让求第n个非平方数的话，看n前面有多少个平方数，假设有x个，则第n个非平方数就是n+x。注意两种特殊情况，即
java中最常用jar包的用途 asia007 java
java中最常用jar包的用途 jar包用途axis.jarSOAP引擎包commons-discovery-0.2.jar用来发现、查找和实现可插入式接口，提供一些一般类实例化、单件的生命周期管理的常用方法.jaxrpc.jarAxis运行所需要的组件包saaj.jar创建到端点的点到点连接的方法、创建并处理SOAP消息和附件的方法，以及接收和处理SOAP错误的方法. w
ajax获取Struts框架中的json编码异常和Struts中的主控制器异常的解决办法百合不是茶 js json编码返回异常
一:ajax获取自定义Struts框架中的json编码出现以下问题: 1,强制flush输出 json编码打印在首页 2, 不强制flush js会解析json 打印出来的是错误的jsp页面却没有跳转到错误页面 3, ajax中的dataType的json 改为text 会
JUnit使用的设计模式 bijian1013 java 设计模式 JUnit
JUnit源代码涉及使用了大量设计模式 1、模板方法模式（Template Method）定义一个操作中的算法骨架，而将一些步骤延伸到子类中去，使得子类可以不改变一个算法的结构，即可重新定义该算法的某些特定步骤。这里需要复用的是算法的结构，也就是步骤，而步骤的实现可以在子类中完成。
Linux常用命令（摘录） sunjing crond chkconfig
chkconfig --list 查看linux所有服务 chkconfig --add servicename 添加linux服务 netstat -apn | grep 8080 查看端口占用 env 查看所有环境变量 echo $JAVA_HOME 查看JAVA_HOME环境变量安装编译器 yum install -y gcc
【Hadoop一】Hadoop伪集群环境搭建 bit1129 hadoop
结合网上多份文档，不断反复的修正hadoop启动和运行过程中出现的问题，终于把Hadoop2.5.2伪分布式安装起来，跑通了wordcount例子。Hadoop的安装复杂性的体现之一是，Hadoop的安装文档非常多，但是能一个文档走下来的少之又少，尤其是Hadoop不同版本的配置差异非常的大。Hadoop2.5.2于前两天发布，但是它的配置跟2.5.0，2.5.1没有分别。 &nb
Anychart图表系列五之事件监听白糖_ chart
创建图表事件监听非常简单：首先是通过addEventListener('监听类型',js监听方法)添加事件监听，然后在js监听方法中定义具体监听逻辑。以钻取操作为例，当用户点击图表某一个point的时候弹出point的name和value，代码如下： <script> //创建AnyChart var chart = new AnyChart(); //添加钻取操作&quo
Web前端相关段子 braveCS web前端
Web标准：结构、样式和行为分离使用语义化标签 0）标签的语义：使用有良好语义的标签，能够很好地实现自我解释，方便搜索引擎理解网页结构，抓取重要内容。去样式后也会根据浏览器的默认样式很好的组织网页内容，具有很好的可读性，从而实现对特殊终端的兼容。 1）div和span是没有语义的：只是分别用作块级元素和行内元素的区域分隔符。当页面内标签无法满足设计需求时，才会适当添加div
编程之美-24点游戏 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Arrays; import java.util.HashSet; import java.util.List; import java.util.Random; import java.util.Set; public class PointGame { /**编程之美
主页面子页面传值总结 chengxuyuancsdn 总结
1、showModalDialog returnValue是javascript中html的window对象的属性,目的是返回窗口值,当用window.showModalDialog函数打开一个IE的模式窗口时,用于返回窗口的值主界面 var sonValue=window.showModalDialog("son.jsp"); 子界面 window.retu
[网络与经济]互联网+的含义 comsci 互联网+
互联网+后面是一个人的名字 = 网络控制系统互联网+你的名字 = 网络个人数据库每日提示:如果人觉得不舒服,千万不要外出到处走动,就呆在床上,玩玩手游,更不能够去开车,现在交通状况不
oracle 创建视图 with check option daizj 视图 view oralce
我们来看下面的例子： create or replace view testview as select empno,ename from emp where ename like ‘M%’ with check option; 这里我们创建了一个视图，并使用了with check option来限制了视图。然后我们来看一下视图包含的结果： select * from testv
ToastPlugin插件在cordova3.3下使用 dibov Cordova
自己开发的Todos应用，想实现“ 再按一次返回键退出程序 ”的功能，采用网上的ToastPlugins插件，发现代码或文章基本都是老版本，运行问题比较多。折腾了好久才弄好。下面吧基于cordova3.3下的ToastPlugins相关代码共享。 ToastPlugin.java package&nbs
C语言22个系统函数 dcj3sjt126com c function
C语言系统函数一、数学函数下列函数存放在math.h头文件中Double floor(double num) 求出不大于num的最大数。Double fmod(x, y) 求整数x/y的余数。Double frexp(num, exp); double num; int *exp; 将num分为数字部分（尾数）x和以2位的指数部分n，即num=x*2n，指数n存放在exp指向的变量中，返回x。D
开发一个类的流程 dcj3sjt126com 开发
本人近日根据自己的开发经验总结了一个类的开发流程。这个流程适用于单独开发的构件，并不适用于对一个项目中的系统对象开发。开发出的类可以存入私人类库，供以后复用。以下是开发流程： 1. 明确类的功能，抽象出类的大概结构 2. 初步设想类的接口 3. 类名设计（驼峰式命名） 4. 属性设置(权限设置) 判断某些变量是否有必要作为成员属
java 并发 shuizhaosi888 java 并发
能够写出高伸缩性的并发是一门艺术在JAVA SE5中新增了3个包 java.util.concurrent java.util.concurrent.atomic java.util.concurrent.locks 在java的内存模型中，类的实例字段、静态字段和构成数组的对象元素都会被多个线程所共享，局部变量与方法参数都是线程私有的，不会被共享。
Spring Security（11）——匿名认证 234390216 Spring Security ROLE_ANNOYMOUS 匿名
匿名认证目录 1.1 配置 1.2 AuthenticationTrustResolver 对于匿名访问的用户，Spring Security支持为其建立一个匿名的AnonymousAuthenticat
NODEJS项目实践0.2[ express,ajax通信...] 逐行分析JS源代码 Ajax nodejs express
一、前言通过上节学习，我们已经 ubuntu系统搭建了一个可以访问的nodejs系统，并做了nginx转发。本节原要做web端服务及 mongodb的存取，但写着写着，web端就
在Struts2 的Action中怎样获取表单提交上来的多个checkbox的值 lhbthanks java html struts checkbox
第一种方法：获取结果String类型在 Action 中获得的是一个 String 型数据，每一个被选中的 checkbox 的 value 被拼接在一起，每个值之间以逗号隔开(,)。所以在 Action 中定义一个跟 checkbox 的 name 同名的属性来接收这些被选中的 checkbox 的 value 即可。以下是实现的代码：前台 HTML 代码：
003.Kafka基本概念 nweiren hadoop kafka
Kafka基本概念：Topic、Partition、Message、Producer、Broker、Consumer。 Topic：消息源（Message）的分类。 Partition： Topic物理上的分组，一
Linux环境下安装JDK roadrunners jdk linux
1、准备工作创建JDK的安装目录： mkdir -p /usr/java/ 下载JDK，找到适合自己系统的JDK版本进行下载： http://www.oracle.com/technetwork/java/javase/downloads/index.html 把JDK安装包下载到/usr/java/目录，然后进行解压： tar -zxvf jre-7
Linux忘记root密码的解决思路 tomcat_oracle linux
1：使用同版本的linux启动系统，chroot到忘记密码的根分区passwd改密码　　2：grub启动菜单中加入init=/bin/bash进入系统，不过这时挂载的是只读分区。根据系统的分区情况进一步判断. 　　3: grub启动菜单中加入 single以单用户进入系统. 　　4:用以上方法mount到根分区把/etc/passwd中的root密码去除　　例如: 　　ro
跨浏览器 HTML5 postMessage 方法以及 message 事件模拟实现 xueyou jsonp jquery 框架 UI html5
postMessage 是 HTML5 新方法，它可以实现跨域窗口之间通讯。到目前为止，只有 IE8+, Firefox 3, Opera 9, Chrome 3和 Safari 4 支持，而本篇文章主要讲述 postMessage 方法与 message 事件跨浏览器实现。postMessage 方法 JSONP 技术不一样，前者是前端擅长跨域文档数据即时通讯，后者擅长针对跨域服务端数据通讯，p

lpa 半监督学习 之--标签传播算法

你可能感兴趣的:(lpa 半监督学习 之--标签传播算法)

lpa 半监督学习之--标签传播算法

你可能感兴趣的:(lpa 半监督学习之--标签传播算法)