野路子的数据科学

标签传播算法（Label Propagation）及Python实现

转：https://blog.csdn.net/zouxy09/article/details/49105265#commentBox

标签传播算法（Label Propagation）及Python实现

众所周知，机器学习可以大体分为三大类：监督学习、非监督学习和半监督学习。监督学习可以认为是我们有非常多的labeled标注数据来train一个模型，期待这个模型能学习到数据的分布，以期对未来没有见到的样本做预测。那这个性能的源头--训练数据，就显得非常感觉。你必须有足够的训练数据，以覆盖真正现实数据中的样本分布才可以，这样学习到的模型才有意义。那非监督学习就是没有任何的labeled数据，就是平时所说的聚类了，利用他们本身的数据分布，给他们划分类别。而半监督学习，顾名思义就是处于两者之间的，只有少量的labeled数据，我们试图从这少量的labeled数据和大量的unlabeled数据中学习到有用的信息。

一、半监督学习

半监督学习（Semi-supervised learning）发挥作用的场合是：你的数据有一些有label，一些没有。而且一般是绝大部分都没有，只有少许几个有label。半监督学习算法会充分的利用unlabeled数据来捕捉我们整个数据的潜在分布。它基于三大假设：

1）Smoothness平滑假设：相似的数据具有相同的label。

2）Cluster聚类假设：处于同一个聚类下的数据具有相同label。

3）Manifold流形假设：处于同一流形结构下的数据具有相同label。

例如下图，只有两个labeled数据，如果直接用他们来训练一个分类器，例如LR或者SVM，那么学出来的分类面就是左图那样的。如果现实中，这个数据是右图那边分布的话，猪都看得出来，左图训练的这个分类器烂的一塌糊涂、惨不忍睹。因为我们的labeled训练数据太少了，都没办法覆盖我们未来可能遇到的情况。但是，如果右图那样，把大量的unlabeled数据（黑色的）都考虑进来，有个全局观念，牛逼的算法会发现，哎哟，原来是两个圈圈（分别处于两个圆形的流形之上）！那算法就很聪明，把大圈的数据都归类为红色类别，把内圈的数据都归类为蓝色类别。因为，实践中，labeled数据是昂贵，很难获得的，但unlabeled数据就不是了，写个脚本在网上爬就可以了，因此如果能充分利用大量的unlabeled数据来辅助提升我们的模型学习，这个价值就非常大。

半监督学习算法有很多，下面我们介绍最简单的标签传播算法（label propagation），最喜欢简单了，哈哈。

二、标签传播算法

标签传播算法（label propagation）的核心思想非常简单：相似的数据应该具有相同的label。LP算法包括两大步骤：1）构造相似矩阵；2）勇敢的传播吧。

2.1、相似矩阵构建

LP算法是基于Graph的，因此我们需要先构建一个图。我们为所有的数据构建一个图，图的节点就是一个数据点，包含labeled和unlabeled的数据。节点i和节点j的边表示他们的相似度。这个图的构建方法有很多，这里我们假设这个图是全连接的，节点i和节点j的边权重为：

这里，α是超参。

还有个非常常用的图构建方法是knn图，也就是只保留每个节点的k近邻权重，其他的为0，也就是不存在边，因此是稀疏的相似矩阵。

2.2、LP算法

标签传播算法非常简单：通过节点之间的边传播label。边的权重越大，表示两个节点越相似，那么label越容易传播过去。我们定义一个NxN的概率转移矩阵P：

P_ij表示从节点i转移到节点j的概率。假设有C个类和L个labeled样本，我们定义一个LxC的label矩阵Y_L，第i行表示第i个样本的标签指示向量，即如果第i个样本的类别是j，那么该行的第j个元素为1，其他为0。同样，我们也给U个unlabeled样本一个UxC的label矩阵Y_U。把他们合并，我们得到一个NxC的soft label矩阵F=[Y_L;Y_U]。soft label的意思是，我们保留样本i属于每个类别的概率，而不是互斥性的，这个样本以概率1只属于一个类。当然了，最后确定这个样本i的类别的时候，是取max也就是概率最大的那个类作为它的类别的。那F里面有个Y_U，它一开始是不知道的，那最开始的值是多少？无所谓，随便设置一个值就可以了。

千呼万唤始出来，简单的LP算法如下：

1）执行传播：F=PF

2）重置F中labeled样本的标签：F_L=Y_L

3）重复步骤1）和2）直到F收敛。

步骤1）就是将矩阵P和矩阵F相乘，这一步，每个节点都将自己的label以P确定的概率传播给其他节点。如果两个节点越相似（在欧式空间中距离越近），那么对方的label就越容易被自己的label赋予，就是更容易拉帮结派。步骤2）非常关键，因为labeled数据的label是事先确定的，它不能被带跑，所以每次传播完，它都得回归它本来的label。随着labeled数据不断的将自己的label传播出去，最后的类边界会穿越高密度区域，而停留在低密度的间隔中。相当于每个不同类别的labeled样本划分了势力范围。

2.3、变身的LP算法

我们知道，我们每次迭代都是计算一个soft label矩阵F=[Y_L;Y_U]，但是Y_L是已知的，计算它没有什么用，在步骤2）的时候，还得把它弄回来。我们关心的只是Y_U，那我们能不能只计算Y_U呢？Yes。我们将矩阵P做以下划分：

这时候，我们的算法就一个运算：

迭代上面这个步骤直到收敛就ok了，是不是很cool。可以看到F_U不但取决于labeled数据的标签及其转移概率，还取决了unlabeled数据的当前label和转移概率。因此LP算法能额外运用unlabeled数据的分布特点。

这个算法的收敛性也非常容易证明，具体见参考文献[1]。实际上，它是可以收敛到一个凸解的：

所以我们也可以直接这样求解，以获得最终的Y_U。但是在实际的应用过程中，由于矩阵求逆需要O(n³)的复杂度，所以如果unlabeled数据非常多，那么I – P_UU矩阵的求逆将会非常耗时，因此这时候一般选择迭代算法来实现。

三、LP算法的Python实现

Python环境的搭建就不啰嗦了，可以参考前面的博客。需要额外依赖的库是经典的numpy和matplotlib。代码中包含了两种图的构建方法：RBF和KNN指定。同时，自己生成了两个toy数据库：两条长形形状和两个圈圈的数据。第四部分我们用大点的数据库来做实验，先简单的可视化验证代码的正确性，再前线。

算法代码：


    
    
    
    
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        #***************************************************************************
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        #* 
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        #* Description: label propagation
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        #* Author: Zou Xiaoyi ([email protected])
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        #* Date:   2015-10-15
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        #* HomePage: http://blog.csdn.net/zouxy09
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        #* 
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        #**************************************************************************
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
        
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        import time
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        import numpy 
        
        
        
        as np
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
        
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        # return k neighbors index
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        def navie_knn(dataSet, query, k):
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            numSamples = dataSet.shape[
        
        
        
        0]
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
        
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
        
        
        
        ## step 1: calculate Euclidean distance
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            diff = np.tile(query, (numSamples, 
        
        
        
        1)) - dataSet
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            squaredDiff = diff ** 
        
        
        
        2
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            squaredDist = np.sum(squaredDiff, axis = 
        
        
        
        1) 
        
        
        
        # sum is performed by row
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
        
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
        
        
        
        ## step 2: sort the distance
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            sortedDistIndices = np.argsort(squaredDist)
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
        
        
        
        if k > len(sortedDistIndices):
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
                k = len(sortedDistIndices)
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
        
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
        
        
        
        return sortedDistIndices[
        
        
        
        0:k]
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
        
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
        
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        # build a big graph (normalized weight matrix)
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        def buildGraph(MatX, kernel_type, rbf_sigma = None, knn_num_neighbors = None):
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            num_samples = MatX.shape[
        
        
        
        0]
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            affinity_matrix = np.zeros((num_samples, num_samples), np.float32)
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
        
        
        
        if kernel_type == 
        
        
        
        'rbf':
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
               
        
        
        
        if rbf_sigma == 
        
        
        
        None:
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
                   
        
        
        
        raise ValueError(
        
        
        
        'You should input a sigma of rbf kernel!')
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
               
        
        
        
        for i 
        
        
        
        in xrange(num_samples):
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
                    row_sum = 
        
        
        
        0.0
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
                   
        
        
        
        for j 
        
        
        
        in xrange(num_samples):
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
                        diff = MatX[i, :] - MatX[j, :]
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
                        affinity_matrix[i][j] = np.exp(sum(diff**
        
        
        
        2) / (
        
        
        
        -2.0 * rbf_sigma**
        
        
        
        2))
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
                        row_sum += affinity_matrix[i][j]
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
                    affinity_matrix[i][:] /= row_sum
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
        
        
        
        elif kernel_type == 
        
        
        
        'knn':
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
               
        
        
        
        if knn_num_neighbors == 
        
        
        
        None:
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
                   
        
        
        
        raise ValueError(
        
        
        
        'You should input a k of knn kernel!')
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
               
        
        
        
        for i 
        
        
        
        in xrange(num_samples):
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
                    k_neighbors = navie_knn(MatX, MatX[i, :], knn_num_neighbors)
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
                    affinity_matrix[i][k_neighbors] = 
        
        
        
        1.0 / knn_num_neighbors
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
        
        
        
        else:
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
               
        
        
        
        raise NameError(
        
        
        
        'Not support kernel type! You can use knn or rbf!')
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
        
        
        
        return affinity_matrix
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
        
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
        
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        # label propagation
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        def labelPropagation(Mat_Label, Mat_Unlabel, labels, kernel_type = 'rbf', rbf_sigma = 1.5, \
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
                            knn_num_neighbors = 10, max_iter = 500, tol = 1e-3):
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
        
        
        
        # initialize
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            num_label_samples = Mat_Label.shape[
        
        
        
        0]
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            num_unlabel_samples = Mat_Unlabel.shape[
        
        
        
        0]
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            num_samples = num_label_samples + num_unlabel_samples
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            labels_list = np.unique(labels)
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            num_classes = len(labels_list)
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            MatX = np.vstack((Mat_Label, Mat_Unlabel))
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            clamp_data_label = np.zeros((num_label_samples, num_classes), np.float32)
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
        
        
        
        for i 
        
        
        
        in xrange(num_label_samples):
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
                clamp_data_label[i][labels[i]] = 
        
        
        
        1.0
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            label_function = np.zeros((num_samples, num_classes), np.float32)
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            label_function[
        
        
        
        0 : num_label_samples] = clamp_data_label
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            label_function[num_label_samples : num_samples] = 
        
        
        
        -1
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
        
        
        
        # graph construction
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            affinity_matrix = buildGraph(MatX, kernel_type, rbf_sigma, knn_num_neighbors)
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
        
        
        
        # start to propagation
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            iter = 
        
        
        
        0; pre_label_function = np.zeros((num_samples, num_classes), np.float32)
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            changed = np.abs(pre_label_function - label_function).sum()
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
        
        
        
        while iter < max_iter 
        
        
        
        and changed > tol:
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
               
        
        
        
        if iter % 
        
        
        
        1 == 
        
        
        
        0:
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
                   
        
        
        
        print 
        
        
        
        "---> Iteration %d/%d, changed: %f" % (iter, max_iter, changed)
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
                pre_label_function = label_function
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
                iter += 
        
        
        
        1
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
               
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
               
        
        
        
        # propagation
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
                label_function = np.dot(affinity_matrix, label_function)
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
               
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
               
        
        
        
        # clamp
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
                label_function[
        
        
        
        0 : num_label_samples] = clamp_data_label
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
               
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
               
        
        
        
        # check converge
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
                changed = np.abs(pre_label_function - label_function).sum()
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
        
        
        
        # get terminate label of unlabeled data
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            unlabel_data_labels = np.zeros(num_unlabel_samples)
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
        
        
        
        for i 
        
        
        
        in xrange(num_unlabel_samples):
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
                unlabel_data_labels[i] = np.argmax(label_function[i+num_label_samples])
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
        
        
        
        return unlabel_data_labels

测试代码：


    
    
    
    
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        #***************************************************************************
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        #* 
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        #* Description: label propagation
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        #* Author: Zou Xiaoyi ([email protected])
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        #* Date:   2015-10-15
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        #* HomePage: http://blog.csdn.net/zouxy09
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        #* 
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        #**************************************************************************
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
        
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        import time
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        import math
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        import numpy 
        
        
        
        as np
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        from label_propagation 
        
        
        
        import labelPropagation
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
        
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        # show
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        def show(Mat_Label, labels, Mat_Unlabel, unlabel_data_labels): 
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
        
        
        
        import matplotlib.pyplot 
        
        
        
        as plt 
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
        
        
        
        for i 
        
        
        
        in range(Mat_Label.shape[
        
        
        
        0]):
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
               
        
        
        
        if int(labels[i]) == 
        
        
        
        0:  
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
                    plt.plot(Mat_Label[i, 
        
        
        
        0], Mat_Label[i, 
        
        
        
        1], 
        
        
        
        'Dr')  
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
               
        
        
        
        elif int(labels[i]) == 
        
        
        
        1:  
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
                    plt.plot(Mat_Label[i, 
        
        
        
        0], Mat_Label[i, 
        
        
        
        1], 
        
        
        
        'Db')
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
               
        
        
        
        else:
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
                    plt.plot(Mat_Label[i, 
        
        
        
        0], Mat_Label[i, 
        
        
        
        1], 
        
        
        
        'Dy')
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
        
        
        
        for i 
        
        
        
        in range(Mat_Unlabel.shape[
        
        
        
        0]):
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
               
        
        
        
        if int(unlabel_data_labels[i]) == 
        
        
        
        0:  
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
                    plt.plot(Mat_Unlabel[i, 
        
        
        
        0], Mat_Unlabel[i, 
        
        
        
        1], 
        
        
        
        'or')  
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
               
        
        
        
        elif int(unlabel_data_labels[i]) == 
        
        
        
        1:  
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
                    plt.plot(Mat_Unlabel[i, 
        
        
        
        0], Mat_Unlabel[i, 
        
        
        
        1], 
        
        
        
        'ob')
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
               
        
        
        
        else:
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
                    plt.plot(Mat_Unlabel[i, 
        
        
        
        0], Mat_Unlabel[i, 
        
        
        
        1], 
        
        
        
        'oy')
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            plt.xlabel(
        
        
        
        'X1'); plt.ylabel(
        
        
        
        'X2') 
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            plt.xlim(
        
        
        
        0.0, 
        
        
        
        12.)
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            plt.ylim(
        
        
        
        0.0, 
        
        
        
        12.)
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            plt.show()  
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
        
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
        
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        def loadCircleData(num_data):
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            center = np.array([
        
        
        
        5.0, 
        
        
        
        5.0])
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            radiu_inner = 
        
        
        
        2
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            radiu_outer = 
        
        
        
        4
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            num_inner = num_data / 
        
        
        
        3
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            num_outer = num_data - num_inner
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            data = []
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            theta = 
        
        
        
        0.0
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
        
        
        
        for i 
        
        
        
        in range(num_inner):
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
                pho = (theta % 
        
        
        
        360) * math.pi / 
        
        
        
        180
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
                tmp = np.zeros(
        
        
        
        2, np.float32)
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
                tmp[
        
        
        
        0] = radiu_inner * math.cos(pho) + np.random.rand(
        
        
        
        1) + center[
        
        
        
        0]
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
                tmp[
        
        
        
        1] = radiu_inner * math.sin(pho) + np.random.rand(
        
        
        
        1) + center[
        
        
        
        1]
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
                data.append(tmp)
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
                theta += 
        
        
        
        2
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            theta = 
        
        
        
        0.0
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
        
        
        
        for i 
        
        
        
        in range(num_outer):
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
                pho = (theta % 
        
        
        
        360) * math.pi / 
        
        
        
        180
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
                tmp = np.zeros(
        
        
        
        2, np.float32)
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
                tmp[
        
        
        
        0] = radiu_outer * math.cos(pho) + np.random.rand(
        
        
        
        1) + center[
        
        
        
        0]
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
                tmp[
        
        
        
        1] = radiu_outer * math.sin(pho) + np.random.rand(
        
        
        
        1) + center[
        
        
        
        1]
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
                data.append(tmp)
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
                theta += 
        
        
        
        1
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            Mat_Label = np.zeros((
        
        
        
        2, 
        
        
        
        2), np.float32)
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            Mat_Label[
        
        
        
        0] = center + np.array([-radiu_inner + 
        
        
        
        0.5, 
        
        
        
        0])
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            Mat_Label[
        
        
        
        1] = center + np.array([-radiu_outer + 
        
        
        
        0.5, 
        
        
        
        0])
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            labels = [
        
        
        
        0, 
        
        
        
        1]
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            Mat_Unlabel = np.vstack(data)
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
        
        
        
        return Mat_Label, labels, Mat_Unlabel
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
        
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
        
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        def loadBandData(num_unlabel_samples):
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
        
        
        
        #Mat_Label = np.array([[5.0, 2.], [5.0, 8.0]])
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
        
        
        
        #labels = [0, 1]
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
        
        
        
        #Mat_Unlabel = np.array([[5.1, 2.], [5.0, 8.1]])
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            Mat_Label = np.array([[
        
        
        
        5.0, 
        
        
        
        2.], [
        
        
        
        5.0, 
        
        
        
        8.0]])
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            labels = [
        
        
        
        0, 
        
        
        
        1]
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            num_dim = Mat_Label.shape[
        
        
        
        1]
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            Mat_Unlabel = np.zeros((num_unlabel_samples, num_dim), np.float32)
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            Mat_Unlabel[:num_unlabel_samples/
        
        
        
        2, :] = (np.random.rand(num_unlabel_samples/
        
        
        
        2, num_dim) - 
        
        
        
        0.5) * np.array([
        
        
        
        3, 
        
        
        
        1]) + Mat_Label[
        
        
        
        0]
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            Mat_Unlabel[num_unlabel_samples/
        
        
        
        2 : num_unlabel_samples, :] = (np.random.rand(num_unlabel_samples/
        
        
        
        2, num_dim) - 
        
        
        
        0.5) * np.array([
        
        
        
        3, 
        
        
        
        1]) + Mat_Label[
        
        
        
        1]
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
        
        
        
        return Mat_Label, labels, Mat_Unlabel
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
        
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
        
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        # main function
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        if __name__ == 
        
        
        
        "__main__":
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            num_unlabel_samples = 
        
        
        
        800
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
        
        
        
        #Mat_Label, labels, Mat_Unlabel = loadBandData(num_unlabel_samples)
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            Mat_Label, labels, Mat_Unlabel = loadCircleData(num_unlabel_samples)
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
        
        
        
        ## Notice: when use 'rbf' as our kernel, the choice of hyper parameter 'sigma' is very import! It should be
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
        
        
        
        ## chose according to your dataset, specific the distance of two data points. I think it should ensure that
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
        
        
        
        ## each point has about 10 knn or w_i,j is large enough. It also influence the speed of converge. So, may be
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
        
        
        
        ## 'knn' kernel is better!
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
        
        
        
        #unlabel_data_labels = labelPropagation(Mat_Label, Mat_Unlabel, labels, kernel_type = 'rbf', rbf_sigma = 0.2)
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            unlabel_data_labels = labelPropagation(Mat_Label, Mat_Unlabel, labels, kernel_type = 
        
        
        
        'knn', knn_num_neighbors = 
        
        
        
        10, max_iter = 
        
        
        
        400)
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            show(Mat_Label, labels, Mat_Unlabel, unlabel_data_labels)

该注释的，代码都注释的，有看不明白的，欢迎交流。不同迭代次数时候的结果如下：

是不是很漂亮的传播过程？！在数值上也是可以看到随着迭代的进行逐渐收敛的，迭代的数值变化过程如下：


    
    
    
    
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        0/
        
        
        
        400, changed: 
        
        
        
        1602.000000
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        1/
        
        
        
        400, changed: 
        
        
        
        6.300182
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        2/
        
        
        
        400, changed: 
        
        
        
        5.129996
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        3/
        
        
        
        400, changed: 
        
        
        
        4.301994
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        4/
        
        
        
        400, changed: 
        
        
        
        3.819295
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        5/
        
        
        
        400, changed: 
        
        
        
        3.501743
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        6/
        
        
        
        400, changed: 
        
        
        
        3.277122
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        7/
        
        
        
        400, changed: 
        
        
        
        3.105952
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        8/
        
        
        
        400, changed: 
        
        
        
        2.967030
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        9/
        
        
        
        400, changed: 
        
        
        
        2.848606
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        10/
        
        
        
        400, changed: 
        
        
        
        2.743997
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        11/
        
        
        
        400, changed: 
        
        
        
        2.649270
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        12/
        
        
        
        400, changed: 
        
        
        
        2.562057
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        13/
        
        
        
        400, changed: 
        
        
        
        2.480885
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        14/
        
        
        
        400, changed: 
        
        
        
        2.404774
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        15/
        
        
        
        400, changed: 
        
        
        
        2.333075
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        16/
        
        
        
        400, changed: 
        
        
        
        2.265301
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        17/
        
        
        
        400, changed: 
        
        
        
        2.201107
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        18/
        
        
        
        400, changed: 
        
        
        
        2.140209
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        19/
        
        
        
        400, changed: 
        
        
        
        2.082354
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        20/
        
        
        
        400, changed: 
        
        
        
        2.027376
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        21/
        
        
        
        400, changed: 
        
        
        
        1.975071
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        22/
        
        
        
        400, changed: 
        
        
        
        1.925286
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        23/
        
        
        
        400, changed: 
        
        
        
        1.877894
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        24/
        
        
        
        400, changed: 
        
        
        
        1.832743
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        25/
        
        
        
        400, changed: 
        
        
        
        1.789721
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        26/
        
        
        
        400, changed: 
        
        
        
        1.748706
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        27/
        
        
        
        400, changed: 
        
        
        
        1.709593
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        28/
        
        
        
        400, changed: 
        
        
        
        1.672284
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        29/
        
        
        
        400, changed: 
        
        
        
        1.636668
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        30/
        
        
        
        400, changed: 
        
        
        
        1.602668
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        31/
        
        
        
        400, changed: 
        
        
        
        1.570200
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        32/
        
        
        
        400, changed: 
        
        
        
        1.539179
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        33/
        
        
        
        400, changed: 
        
        
        
        1.509530
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        34/
        
        
        
        400, changed: 
        
        
        
        1.481182
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        35/
        
        
        
        400, changed: 
        
        
        
        1.454066
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        36/
        
        
        
        400, changed: 
        
        
        
        1.428120
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        37/
        
        
        
        400, changed: 
        
        
        
        1.403283
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        38/
        
        
        
        400, changed: 
        
        
        
        1.379502
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        39/
        
        
        
        400, changed: 
        
        
        
        1.356734
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        40/
        
        
        
        400, changed: 
        
        
        
        1.334906
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        41/
        
        
        
        400, changed: 
        
        
        
        1.313983
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        42/
        
        
        
        400, changed: 
        
        
        
        1.293921
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        43/
        
        
        
        400, changed: 
        
        
        
        1.274681
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        44/
        
        
        
        400, changed: 
        
        
        
        1.256214
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        45/
        
        
        
        400, changed: 
        
        
        
        1.238491
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        46/
        
        
        
        400, changed: 
        
        
        
        1.221474
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        47/
        
        
        
        400, changed: 
        
        
        
        1.205126
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        48/
        
        
        
        400, changed: 
        
        
        
        1.189417
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        49/
        
        
        
        400, changed: 
        
        
        
        1.174316
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        50/
        
        
        
        400, changed: 
        
        
        
        1.159804
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        51/
        
        
        
        400, changed: 
        
        
        
        1.145844
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        52/
        
        
        
        400, changed: 
        
        
        
        1.132414
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        53/
        
        
        
        400, changed: 
        
        
        
        1.119490
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        54/
        
        
        
        400, changed: 
        
        
        
        1.107032
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        55/
        
        
        
        400, changed: 
        
        
        
        1.095054
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        56/
        
        
        
        400, changed: 
        
        
        
        1.083513
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        57/
        
        
        
        400, changed: 
        
        
        
        1.072397
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        58/
        
        
        
        400, changed: 
        
        
        
        1.061671
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        59/
        
        
        
        400, changed: 
        
        
        
        1.051324
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        60/
        
        
        
        400, changed: 
        
        
        
        1.041363
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        61/
        
        
        
        400, changed: 
        
        
        
        1.031742
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        62/
        
        
        
        400, changed: 
        
        
        
        1.022459
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        63/
        
        
        
        400, changed: 
        
        
        
        1.013494
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        64/
        
        
        
        400, changed: 
        
        
        
        1.004836
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        65/
        
        
        
        400, changed: 
        
        
        
        0.996484
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        66/
        
        
        
        400, changed: 
        
        
        
        0.988407
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        67/
        
        
        
        400, changed: 
        
        
        
        0.980592
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        68/
        
        
        
        400, changed: 
        
        
        
        0.973045
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        69/
        
        
        
        400, changed: 
        
        
        
        0.965744
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        70/
        
        
        
        400, changed: 
        
        
        
        0.958682
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        71/
        
        
        
        400, changed: 
        
        
        
        0.951848
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        72/
        
        
        
        400, changed: 
        
        
        
        0.945227
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        73/
        
        
        
        400, changed: 
        
        
        
        0.938820
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        74/
        
        
        
        400, changed: 
        
        
        
        0.932608
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        75/
        
        
        
        400, changed: 
        
        
        
        0.926590
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        76/
        
        
        
        400, changed: 
        
        
        
        0.920765
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        77/
        
        
        
        400, changed: 
        
        
        
        0.915107
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        78/
        
        
        
        400, changed: 
        
        
        
        0.909628
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        79/
        
        
        
        400, changed: 
        
        
        
        0.904309
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        80/
        
        
        
        400, changed: 
        
        
        
        0.899143
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        81/
        
        
        
        400, changed: 
        
        
        
        0.894122
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        82/
        
        
        
        400, changed: 
        
        
        
        0.889259
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        83/
        
        
        
        400, changed: 
        
        
        
        0.884530
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        84/
        
        
        
        400, changed: 
        
        
        
        0.879933
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        85/
        
        
        
        400, changed: 
        
        
        
        0.875464
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        86/
        
        
        
        400, changed: 
        
        
        
        0.871121
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        87/
        
        
        
        400, changed: 
        
        
        
        0.866888
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        88/
        
        
        
        400, changed: 
        
        
        
        0.862773
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        89/
        
        
        
        400, changed: 
        
        
        
        0.858783
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        90/
        
        
        
        400, changed: 
        
        
        
        0.854879
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        91/
        
        
        
        400, changed: 
        
        
        
        0.851084
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        92/
        
        
        
        400, changed: 
        
        
        
        0.847382
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        93/
        
        
        
        400, changed: 
        
        
        
        0.843779
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        94/
        
        
        
        400, changed: 
        
        
        
        0.840274
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        95/
        
        
        
        400, changed: 
        
        
        
        0.836842
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        96/
        
        
        
        400, changed: 
        
        
        
        0.833501
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        97/
        
        
        
        400, changed: 
        
        
        
        0.830240
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        98/
        
        
        
        400, changed: 
        
        
        
        0.827051
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        99/
        
        
        
        400, changed: 
        
        
        
        0.823950
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        100/
        
        
        
        400, changed: 
        
        
        
        0.820906
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        101/
        
        
        
        400, changed: 
        
        
        
        0.817946
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        102/
        
        
        
        400, changed: 
        
        
        
        0.815053
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        103/
        
        
        
        400, changed: 
        
        
        
        0.812217
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        104/
        
        
        
        400, changed: 
        
        
        
        0.809437
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        105/
        
        
        
        400, changed: 
        
        
        
        0.806724
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        106/
        
        
        
        400, changed: 
        
        
        
        0.804076
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        107/
        
        
        
        400, changed: 
        
        
        
        0.801480
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        108/
        
        
        
        400, changed: 
        
        
        
        0.798937
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        109/
        
        
        
        400, changed: 
        
        
        
        0.796448
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        110/
        
        
        
        400, changed: 
        
        
        
        0.794008
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        111/
        
        
        
        400, changed: 
        
        
        
        0.791612
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        112/
        
        
        
        400, changed: 
        
        
        
        0.789282
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        113/
        
        
        
        400, changed: 
        
        
        
        0.786984
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        114/
        
        
        
        400, changed: 
        
        
        
        0.784728
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        115/
        
        
        
        400, changed: 
        
        
        
        0.782516
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        116/
        
        
        
        400, changed: 
        
        
        
        0.780355
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        117/
        
        
        
        400, changed: 
        
        
        
        0.778216
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        118/
        
        
        
        400, changed: 
        
        
        
        0.776139
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        119/
        
        
        
        400, changed: 
        
        
        
        0.774087
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        120/
        
        
        
        400, changed: 
        
        
        
        0.772072
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        121/
        
        
        
        400, changed: 
        
        
        
        0.770085
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        122/
        
        
        
        400, changed: 
        
        
        
        0.768146
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        123/
        
        
        
        400, changed: 
        
        
        
        0.766232
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        124/
        
        
        
        400, changed: 
        
        
        
        0.764356
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        125/
        
        
        
        400, changed: 
        
        
        
        0.762504
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        126/
        
        
        
        400, changed: 
        
        
        
        0.760685
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        127/
        
        
        
        400, changed: 
        
        
        
        0.758889
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        128/
        
        
        
        400, changed: 
        
        
        
        0.757135
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        ---> Iteration 
        
        
        
        129/
        
        
        
        400, changed: 
        
        
        
        0.755406

四、LP算法MPI并行实现

这里，我们测试的是LP的变身版本。从公式，我们可以看到，第二项P_ULY_L迭代过程并没有发生变化，所以这部分实际上从迭代开始就可以计算好，从而避免重复计算。不过，不管怎样，LP算法都要计算一个UxU的矩阵P_UU和一个UxC矩阵F_U的乘积。当我们的unlabeled数据非常多，而且类别也很多的时候，计算是很慢的，同时占用的内存量也非常大。另外，构造Graph需要计算两两的相似度，也是O(n²)的复杂度，当我们数据的特征维度很大的时候，这个计算量也是非常客观的。所以我们就得考虑并行处理了。而且最好是能放到集群上并行。那如何并行呢？

对算法的并行化，一般分为两种：数据并行和模型并行。

数据并行很好理解，就是将数据划分，每个节点只处理一部分数据，例如我们构造图的时候，计算每个数据的k近邻。例如我们有1000个样本和20个CPU节点，那么就平均分发，让每个CPU节点计算50个样本的k近邻，然后最后再合并大家的结果。可见这个加速比也是非常可观的。

模型并行一般发生在模型很大，无法放到单机的内存里面的时候。例如庞大的深度神经网络训练的时候，就需要把这个网络切开，然后分别求解梯度，最后有个leader的节点来收集大家的梯度，再反馈给大家去更新。当然了，其中存在更细致和高效的工程处理方法。在我们的LP算法中，也是可以做模型并行的。假如我们的类别数C很大，把类别数切开，让不同的CPU节点处理，实际上就相当于模型并行了。

那为啥不切大矩阵P_UU，而是切小点的矩阵F_U，因为大矩阵P_UU没法独立分块，并行的一个原则是处理必须是独立的。矩阵F_U依赖的是所有的U，而把P_UU切开分发到其他节点的时候，每次F_U的更新都需要和其他的节点通信，这个通信的代价是很大的（实际上，很多并行系统没法达到线性的加速度的瓶颈是通信！线性加速比是，我增加了n台机器，速度就提升了n倍）。但是对类别C也就是矩阵F_U切分，就不会有这个问题，因为他们的计算是独立的。只是决定样本的最终类别的时候，将所有的F_U收集回来求max就可以了。

所以，在下面的代码中，是同时包含了数据并行和模型并行的雏形的。另外，还值得一提的是，我们是迭代算法，那决定什么时候迭代算法停止？除了判断收敛外，我们还可以让每迭代几步，就用测试label测试一次结果，看模型的整体训练性能如何。特别是判断训练是否过拟合的时候非常有效。因此，代码中包含了这部分内容。

好了，代码终于来了。大家可以搞点大数据库来测试，如果有MPI集群条件的话就更好了。

下面的代码依赖numpy、scipy（用其稀疏矩阵加速计算）和mpi4py。其中mpi4py需要依赖openmpi和Cpython，可以参考我之前的博客进行安装。


    
    
    
    
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        #***************************************************************************
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        #* 
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        #* Description: label propagation
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        #* Author: Zou Xiaoyi ([email protected])
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        #* Date:   2015-10-15
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        #* HomePage: http://blog.csdn.net/zouxy09
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        #* 
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        #**************************************************************************
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
        
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        import os, sys, time
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        import numpy 
        
        
        
        as np
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        from scipy.sparse 
        
        
        
        import csr_matrix, lil_matrix, eye
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        import operator
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        import cPickle 
        
        
        
        as pickle
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        import mpi4py.MPI 
        
        
        
        as MPI
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
        
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        #
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        #   Global variables for MPI
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        #
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
        
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        # instance for invoking MPI related functions
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        comm = MPI.COMM_WORLD
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        # the node rank in the whole community
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        comm_rank = comm.Get_rank()
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        # the size of the whole community, i.e., the total number of working nodes in the MPI cluster
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        comm_size = comm.Get_size()
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
        
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        # load mnist dataset
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        def load_MNIST():
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
        
        
        
        import gzip
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            f = gzip.open(
        
        
        
        "mnist.pkl.gz", 
        
        
        
        "rb")
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            train, val, test = pickle.load(f)
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            f.close()
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            Mat_Label = train[
        
        
        
        0]
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            labels = train[
        
        
        
        1]
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            Mat_Unlabel = test[
        
        
        
        0]
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            groundtruth = test[
        
        
        
        1]
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            labels_id = [
        
        
        
        0, 
        
        
        
        1, 
        
        
        
        2, 
        
        
        
        3, 
        
        
        
        4, 
        
        
        
        5, 
        
        
        
        6, 
        
        
        
        7, 
        
        
        
        8, 
        
        
        
        9]
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
        
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
        
        
        
        return Mat_Label, labels, labels_id, Mat_Unlabel, groundtruth
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
        
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        # return k neighbors index
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        def navie_knn(dataSet, query, k):
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            numSamples = dataSet.shape[
        
        
        
        0]
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
        
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
        
        
        
        ## step 1: calculate Euclidean distance
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            diff = np.tile(query, (numSamples, 
        
        
        
        1)) - dataSet
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            squaredDiff = diff ** 
        
        
        
        2
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            squaredDist = np.sum(squaredDiff, axis = 
        
        
        
        1) 
        
        
        
        # sum is performed by row
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
        
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
        
        
        
        ## step 2: sort the distance
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            sortedDistIndices = np.argsort(squaredDist)
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
        
        
        
        if k > len(sortedDistIndices):
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
                k = len(sortedDistIndices)
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
        
        
        
        return sortedDistIndices[
        
        
        
        0:k]
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
        
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
        
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        # build a big graph (normalized weight matrix)
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        # sparse U x (U + L) matrix
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        def buildSubGraph(Mat_Label, Mat_Unlabel, knn_num_neighbors):
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            num_unlabel_samples = Mat_Unlabel.shape[
        
        
        
        0]
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            data = []; indices = []; indptr = [
        
        
        
        0]
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            Mat_all = np.vstack((Mat_Label, Mat_Unlabel))
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            values = np.ones(knn_num_neighbors, np.float32) / knn_num_neighbors
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
        
        
        
        for i 
        
        
        
        in xrange(num_unlabel_samples):
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
                k_neighbors = navie_knn(Mat_all, Mat_Unlabel[i, :], knn_num_neighbors)
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
                indptr.append(np.int32(indptr[
        
        
        
        -1]) + knn_num_neighbors)
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
                indices.extend(k_neighbors)
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
                data.append(values) 
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
        
        
        
        return csr_matrix((np.hstack(data), indices, indptr))
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
        
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
        
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        # build a big graph (normalized weight matrix)
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        # sparse U x (U + L) matrix
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        def buildSubGraph_MPI(Mat_Label, Mat_Unlabel, knn_num_neighbors):
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            num_unlabel_samples = Mat_Unlabel.shape[
        
        
        
        0]
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            local_data = []; local_indices = []; local_indptr = [
        
        
        
        0]
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            Mat_all = np.vstack((Mat_Label, Mat_Unlabel))
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            values = np.ones(knn_num_neighbors, np.float32) / knn_num_neighbors
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            sample_offset = np.linspace(
        
        
        
        0, num_unlabel_samples, comm_size + 
        
        
        
        1).astype(
        
        
        
        'int')
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
        
        
        
        for i 
        
        
        
        in range(sample_offset[comm_rank], sample_offset[comm_rank+
        
        
        
        1]):
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
                k_neighbors = navie_knn(Mat_all, Mat_Unlabel[i, :], knn_num_neighbors)
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
                local_indptr.append(np.int32(local_indptr[
        
        
        
        -1]) + knn_num_neighbors)
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
                local_indices.extend(k_neighbors)
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
                local_data.append(values)
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            data = np.hstack(comm.allgather(local_data))
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            indices = np.hstack(comm.allgather(local_indices))
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            indptr_tmp = comm.allgather(local_indptr)
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            indptr = []
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
        
        
        
        for i 
        
        
        
        in range(len(indptr_tmp)):
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
               
        
        
        
        if i == 
        
        
        
        0:
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
                    indptr.extend(indptr_tmp[i])
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
               
        
        
        
        else:
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
                    last_indptr = indptr[
        
        
        
        -1]
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
                   
        
        
        
        del(indptr[
        
        
        
        -1])
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
                    indptr.extend(indptr_tmp[i] + last_indptr)
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
        
        
        
        return csr_matrix((np.hstack(data), indices, indptr), dtype = np.float32)
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
        
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
        
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        # label propagation
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        def run_label_propagation_sparse(knn_num_neighbors = 20, max_iter = 100, tol = 1e-4, test_per_iter = 1):
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
        
        
        
        # load data and graph
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
        
        
        
        print 
        
        
        
        "Processor %d/%d loading graph file..." % (comm_rank, comm_size)
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
        
        
        
        #Mat_Label, labels, Mat_Unlabel, groundtruth = loadFourBandData()
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            Mat_Label, labels, labels_id, Mat_Unlabel, unlabel_data_id = load_MNIST()
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
        
        
        
        if comm_size > len(labels_id):
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
               
        
        
        
        raise ValueError(
        
        
        
        "Sorry, the processors must be less than the number of classes")
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
        
        
        
        #affinity_matrix = buildSubGraph(Mat_Label, Mat_Unlabel, knn_num_neighbors)
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            affinity_matrix = buildSubGraph_MPI(Mat_Label, Mat_Unlabel, knn_num_neighbors)
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
        
        
        
        # get some parameters
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            num_classes = len(labels_id)
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            num_label_samples = len(labels)
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            num_unlabel_samples = Mat_Unlabel.shape[
        
        
        
        0]
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
        
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            affinity_matrix_UL = affinity_matrix[:, 
        
        
        
        0:num_label_samples]
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            affinity_matrix_UU = affinity_matrix[:, num_label_samples:num_label_samples+num_unlabel_samples]
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
        
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
        
        
        
        if comm_rank == 
        
        
        
        0:
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
               
        
        
        
        print 
        
        
        
        "Have %d labeled images, %d unlabeled images and %d classes" % (num_label_samples, num_unlabel_samples, num_classes)
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
        
        
        
        # divide label_function_U and label_function_L to all processors
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            class_offset = np.linspace(
        
        
        
        0, num_classes, comm_size + 
        
        
        
        1).astype(
        
        
        
        'int')
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
        
        
        
        # initialize local label_function_U
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            local_start_class = class_offset[comm_rank]
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            local_num_classes = class_offset[comm_rank+
        
        
        
        1] - local_start_class
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            local_label_function_U = eye(num_unlabel_samples, local_num_classes, 
        
        
        
        0, np.float32, format=
        
        
        
        'csr')
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
        
        
        
        # initialize local label_function_L
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            local_label_function_L = lil_matrix((num_label_samples, local_num_classes), dtype = np.float32)
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
        
        
        
        for i 
        
        
        
        in xrange(num_label_samples):
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
                class_off = int(labels[i]) - local_start_class
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
               
        
        
        
        if class_off >= 
        
        
        
        0 
        
        
        
        and class_off < local_num_classes:
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
                    local_label_function_L[i, class_off] = 
        
        
        
        1.0
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            local_label_function_L = local_label_function_L.tocsr()
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            local_label_info = affinity_matrix_UL.dot(local_label_function_L)
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
        
        
        
        print 
        
        
        
        "Processor %d/%d has to process %d classes..." % (comm_rank, comm_size, local_label_function_L.shape[
        
        
        
        1])
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
        
        
        
        # start to propagation
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            iter = 
        
        
        
        1; changed = 
        
        
        
        100.0;
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            evaluation(num_unlabel_samples, local_start_class, local_label_function_U, unlabel_data_id, labels_id)
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
        
        
        
        while 
        
        
        
        True:
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
                pre_label_function = local_label_function_U.copy()
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
               
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
               
        
        
        
        # propagation
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
                local_label_function_U = affinity_matrix_UU.dot(local_label_function_U) + local_label_info
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
               
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
               
        
        
        
        # check converge
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
                local_changed = abs(pre_label_function - local_label_function_U).sum()
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
                changed = comm.reduce(local_changed, root = 
        
        
        
        0, op = MPI.SUM)
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
                status = 
        
        
        
        'RUN'
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
                test = 
        
        
        
        False
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
               
        
        
        
        if comm_rank == 
        
        
        
        0:
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
                   
        
        
        
        if iter % 
        
        
        
        1 == 
        
        
        
        0:
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
                        norm_changed = changed / (num_unlabel_samples * num_classes)
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
                       
        
        
        
        print 
        
        
        
        "---> Iteration %d/%d, changed: %f" % (iter, max_iter, norm_changed)
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
                   
        
        
        
        if iter >= max_iter 
        
        
        
        or changed < tol:
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
                        status = 
        
        
        
        'STOP'
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
                       
        
        
        
        print 
        
        
        
        "************** Iteration over! ****************"
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
                   
        
        
        
        if iter % test_per_iter == 
        
        
        
        0:
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
                        test = 
        
        
        
        True
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
                    iter += 
        
        
        
        1
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
                test = comm.bcast(test 
        
        
        
        if comm_rank == 
        
        
        
        0 
        
        
        
        else 
        
        
        
        None, root = 
        
        
        
        0)
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
                status = comm.bcast(status 
        
        
        
        if comm_rank == 
        
        
        
        0 
        
        
        
        else 
        
        
        
        None, root = 
        
        
        
        0)
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
               
        
        
        
        if status == 
        
        
        
        'STOP':
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
                   
        
        
        
        break
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
               
        
        
        
        if test == 
        
        
        
        True:
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
                    evaluation(num_unlabel_samples, local_start_class, local_label_function_U, unlabel_data_id, labels_id)
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            evaluation(num_unlabel_samples, local_start_class, local_label_function_U, unlabel_data_id, labels_id)
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
        
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
        
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        def evaluation(num_unlabel_samples, local_start_class, local_label_function_U, unlabel_data_id, labels_id):
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
        
        
        
        # get local label with max score
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
        
        
        
        if comm_rank == 
        
        
        
        0:
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
               
        
        
        
        print 
        
        
        
        "Start to combine local result..."
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            local_max_score = np.zeros((num_unlabel_samples, 
        
        
        
        1), np.float32) 
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            local_max_label = np.zeros((num_unlabel_samples, 
        
        
        
        1), np.int32)
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
        
        
        
        for i 
        
        
        
        in xrange(num_unlabel_samples):
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
                local_max_label[i, 
        
        
        
        0] = np.argmax(local_label_function_U.getrow(i).todense())
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
                local_max_score[i, 
        
        
        
        0] = local_label_function_U[i, local_max_label[i, 
        
        
        
        0]]
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
                local_max_label[i, 
        
        
        
        0] += local_start_class
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
               
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
        
        
        
        # gather the results from all the processors
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
        
        
        
        if comm_rank == 
        
        
        
        0:
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
               
        
        
        
        print 
        
        
        
        "Start to gather results from all processors"
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            all_max_label = np.hstack(comm.allgather(local_max_label))
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            all_max_score = np.hstack(comm.allgather(local_max_score))
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
        
        
        
        # get terminate label of unlabeled data
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
           
        
        
        
        if comm_rank == 
        
        
        
        0:
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
               
        
        
        
        print 
        
        
        
        "Start to analysis the results..."
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
                right_predict_count = 
        
        
        
        0
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
               
        
        
        
        for i 
        
        
        
        in xrange(num_unlabel_samples):
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
                   
        
        
        
        if i % 
        
        
        
        1000 == 
        
        
        
        0:
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
                       
        
        
        
        print 
        
        
        
        "***", all_max_score[i]
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
                    max_idx = np.argmax(all_max_score[i])
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
                    max_label = all_max_label[i, max_idx]
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
                   
        
        
        
        if int(unlabel_data_id[i]) == int(labels_id[max_label]):
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
                        right_predict_count += 
        
        
        
        1
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
                accuracy = float(right_predict_count) * 
        
        
        
        100.0 / num_unlabel_samples
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
               
        
        
        
        print 
        
        
        
        "Have %d samples, accuracy: %.3f%%!" % (num_unlabel_samples, accuracy)
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
        
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
        
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
        if __name__ == 
        
        
        
        '__main__':
       
       
       
       
      
      
      
      
     
     
     
     
      
      
      
      
       
       
       
       
      
      
      
      
      
      
      
      
       
       
       
       
        
        
        
            run_label_propagation_sparse(knn_num_neighbors = 
        
        
        
        20, max_iter = 
        
        
        
        30)

五、参考资料

[1]Semi-SupervisedLearning with Graphs.pdf

你可能感兴趣的:(自然语言处理)

探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
自然语言处理_tf-idf _feivirus_ 算法机器学习和数学自然语言处理 tf-idf 逆文档频率词频
importpandasaspdimportmath1.数据预处理docA="Thecatsatonmyface"docB="Thedogsatonmybed"wordsA=docA.split("")wordsB=docB.split("")wordsSet=set(wordsA).union(set(wordsB))print(wordsSet){'on','my','face','sat',
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI论文题目生成器怎么用？9款论文写作网站简单3步搞定小猪包333 写论文人工智能深度学习计算机视觉
在当今信息爆炸的时代，AI写作工具的出现极大地提高了写作效率和质量。本文将详细介绍9款优秀的论文写作网站，并重点推荐千笔-AIPassPaper。一、千笔-AIPassPaper千笔-AIPassPaper是一款功能强大的AI论文生成器，基于最新的自然语言处理技术，能够一键生成高质量的毕业论文、开题报告等文本内容。它不仅提供智能选题、文献推荐和论文润色等功能，还具有较高的用户评价。其文献综述生成功
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
FlagEmbedding 吉小雨 python库 python
FlagEmbedding教程FlagEmbedding是一个用于生成文本嵌入（textembeddings）的库，适合处理自然语言处理（NLP）中的各种任务。嵌入（embeddings）是将文本表示为连续向量，能够捕捉语义上的相似性，常用于文本分类、聚类、信息检索等场景。官方文档链接：FlagEmbedding官方GitHub一、FlagEmbedding库概述1.1什么是FlagEmbeddi
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
Humanize 项目教程尤嫒冰
Humanize项目教程humanizeAJSlibraryforaddinga“humantouch”todata.项目地址:https://gitcode.com/gh_mirrors/humani/humanize项目介绍Humanize是一个开源项目，旨在将机器生成的文本转换为更加自然、人性化的文本。该项目通过先进的算法和自然语言处理技术，使得AI生成的内容更加贴近人类的表达方式，从而提高
全自动解密解码神器 — Ciphey K'illCode python_模块 python vscode
Ciphey是一个使用自然语言处理和人工智能的全自动解密/解码/破解工具。简单地来讲，你只需要输入加密文本，它就能给你返回解密文本。就是这么牛逼。有了Ciphey，你根本不需要知道你的密文是哪种类型的加密，你只知道它是加密的，那么Ciphey就能在3秒甚至更短的时间内给你解密，返回你想要的大部分密文的答案。下面就给大家介绍Ciphey的实战使用教程。1.准备开始之前，你要确保Python和pip已
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
深度解析：如何使用输出解析器将大型语言模型（LLM）的响应解析为结构化JSON格式 m0_57781768 语言模型 json 人工智能
深度解析：如何使用输出解析器将大型语言模型（LLM）的响应解析为结构化JSON格式在现代自然语言处理（NLP）的应用中，大型语言模型（LLM）已经成为了重要的工具。这些模型能够生成丰富的自然语言文本，适用于各种应用场景。然而，在某些应用中，开发者不仅仅需要生成文本，还需要将这些生成的文本转换为结构化的数据格式，例如JSON。这种结构化的数据格式在数据传输、存储以及进一步处理时具有显著优势。本文将深
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况 m0_57781768 python langchain 语言模型
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况在现代的人工智能开发中，大型语言模型（LLM）已经成为了不可或缺的工具，无论是用于自然语言处理、对话生成，还是其他复杂的文本生成任务。然而，随着这些模型的广泛应用，开发者面临的一个重要挑战是如何有效地追踪和管理Token的使用情况，特别是在生产环境中，Token的使用直接影响着API调用的成本
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性 aehrutktrjk 人工智能 easyui 前端 python
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性引言在机器学习和自然语言处理领域，选择合适的训练示例对模型性能至关重要。最大边际相关性(MaximalMarginalRelevance,MMR)是一种优秀的示例选择方法，它不仅考虑了示例与输入的相关性，还注重保持所选示例之间的多样性。本文将深入探讨如何使用MMR来选择示例，以提高AI模型的性能和泛化能力。什么是最大边际相关性(MM
使用LangChain和OpenAI实现高效文本标注 aehrutktrjk langchain python
使用LangChain和OpenAI实现高效文本标注引言在自然语言处理(NLP)领域，文本标注是一项重要且常见的任务。它涉及为文本分配标签，如情感、语言、风格等。本文将介绍如何使用LangChain和OpenAI的API来实现高效的文本标注系统。我们将探讨如何设置环境、定义标注模式，以及如何使用OpenAI的模型来执行标注任务。环境准备首先，我们需要安装必要的库并设置API密钥：%pipinsta
基于深度学习的文本引导的图像编辑 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的文本引导的图像编辑（Text-GuidedImageEditing）是一种通过自然语言文本指令对图像进行编辑或修改的技术。它结合了图像生成和自然语言处理（NLP）的最新进展，使用户能够通过描述性文本对图像内容进行精确的调整和操控。1.文本引导的图像编辑的挑战文本和图像之间的对齐：如何将文本中的语义信息准确地映射到图像中的特定区域或元素是一个关键挑战。这涉及到多模态数据的对齐和理解。编
多模态Transformer之文本与图像联合建模 - Transformer教程 shandianfk_com ChatGPT Transformer transformer 深度学习人工智能
大家好，今天我们来聊聊一个既前沿又有趣的话题——多模态Transformer，特别是文本与图像的联合建模。对于很多小伙伴来说，Transformer这个词已经不陌生了，但它不仅仅应用于自然语言处理，还能在图像处理、甚至是多模态数据的处理上大显身手。接下来，我会带大家深入了解什么是多模态Transformer，以及它是如何实现文本与图像的联合建模的。Transformer简介首先，我们简单回顾一下T
什么是AIGC？有哪些免费工具？ chent_某位 AIGC
AIGC（AIGeneratedContent），即“人工智能生成内容”，是指通过人工智能技术自动生成各种类型的数字内容。AIGC让机器能够根据输入的信息或数据生成符合人类需求的文本、图像、音频、视频等内容，极大提高了内容创作的效率。AIGC的背景与起源随着深度学习和自然语言处理技术的快速发展，人工智能已经不再局限于简单的任务，如分类、预测和数据分析，而是具备了生成内容的能力。生成式AI模型，如O
transformer架构(Transformer Architecture)原理与代码实战案例讲解 AI架构设计之禅大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
transformer架构(TransformerArchitecture)原理与代码实战案例讲解关键词：Transformer,自注意力机制,编码器-解码器,预训练,微调,NLP,机器翻译作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来自然语言处理（NLP）领域的发展经历了从规则驱动到统计驱动再到深度学习驱动的三个阶段。
英伟达（NVIDIA）B200架构解读 weixin_41205263 芯际争霸 GPGPU架构 gpu算力人工智能硬件架构
H100芯片是一款高性能AI芯片，其中的TransformerEngine是专门用于加速Transformer模型计算的核心部件。Transformer模型是一种自然语言处理（NLP）模型，广泛应用于机器翻译、文本生成等任务。TransformerEngine的电路设计原理主要包括以下几个方面：
使用LangChain与Together AI模型交互：深入探讨和实践指南 llzwxh888 langchain 人工智能交互 python
使用LangChain与TogetherAI模型交互：深入探讨和实践指南1.引言在人工智能和自然语言处理领域，TogetherAI已经成为一个强大的平台，提供了对50多个领先开源模型的访问。本文将深入探讨如何使用LangChain与TogetherAI模型进行交互，为开发者提供实用的知识和见解，同时解决可能遇到的常见问题。2.TogetherAI简介TogetherAI是一个强大的API平台，允许
OpenLM: 一个灵活的开源大语言模型接口工具 llzwxh888 语言模型人工智能自然语言处理 python
OpenLM:一个灵活的开源大语言模型接口工具引言在人工智能和自然语言处理快速发展的今天，大语言模型(LLM)已经成为许多应用的核心。然而，不同的LLM提供商往往有着各自的API和使用方式，这给开发者带来了一定的挑战。本文将介绍OpenLM，这是一个零依赖、兼容OpenAIAPI的LLM提供者接口，它可以直接通过HTTP调用不同的推理端点。我们将深入探讨OpenLM的特性、使用方法，以及如何将其与
使用中专API实现AI模型调用与部署 llzwxh888 人工智能 easyui 前端 python
在AI技术领域，如何调用和部署大语言模型（LLM）是一个常见的需求。本文将详细介绍如何通过中专API地址http://api.wlai.vip，实现对OpenAI大模型的调用与部署，并提供一个详细的demo代码示例。引言随着人工智能技术的飞速发展，大语言模型在自然语言处理任务中的表现尤为突出。然而，由于国内访问海外API存在一定限制，本文将使用中专API地址来解决这一问题，并展示如何在本地环境中配
深度学习入门篇：PyTorch实现手写数字识别 AI_Guru人工智能深度学习 pytorch 人工智能
深度学习作为机器学习的一个分支，近年来在图像识别、自然语言处理等领域取得了显著的成就。在众多的深度学习框架中，PyTorch以其动态计算图、易用性强和灵活度高等特点，受到了广泛的喜爱。本篇文章将带领大家使用PyTorch框架，实现一个手写数字识别的基础模型。手写数字识别简介手写数字识别是计算机视觉领域的一个经典问题，目的是让计算机能够识别并理解手写数字图像。这个问题通常作为深度学习入门的练习，因为
基于人工智能的智能语音助手人工智能发烧友人工智能
语音助手的自然语言处理模块是语音助手系统的关键组成部分。通过这个模块，系统能够识别用户的意图并做出相应的回应。我们可以使用NLP技术来解析文本输入，并将其转换为系统可以理解的命令或指令。在本项目中，我们将结合语音识别、自然语言处理和语音合成技术，构建一个功能简化的语音助手。一、项目背景与需求分析1.1项目目标本项目旨在创建一个语音助手系统，它可以：1.语音识别：从用户的语音输入中提取文本信息。2.
深入掌握大模型精髓：《实战AI大模型》带你全面理解大模型开发！努力的光头强人工智能 langchain prompt transformer 深度学习
今天，人工智能技术的快速发展和广泛应用已经引起了大众的关注和兴趣，它不仅成为技术发展的核心驱动力，更是推动着社会生活的全方位变革。特别是作为AI重要分支的深度学习，通过不断刷新的表现力已引领并定义了一场科技革命。大型深度学习模型（简称AI大模型）以其强大的表征能力和卓越的性能，在自然语言处理、计算机视觉、推荐系统等领域均取得了突破性的进展。尤其随着AI大模型的广泛应用，无数领域因此受益。AI大模型
安装jina，并使用jina的向量化和重排序的功能 MonkeyKing.sun milvus numpy
为了在Python的FastAPI项目中使用Jina进行向量化和重排序，您需要按照以下步骤安装和使用Jina。1.安装Jina首先，确保您已经安装了Jina。可以使用pip来安装。pipinstalljina如果需要特定的功能模块，例如自然语言处理相关的向量化模型，可以通过JinaHub获取。pipinstalljina[hub]2.在FastAPI项目中集成Jina接下来，我们将Jina集成到F
Matlab,Python,Java,C++的比较 Codefengfeng python java c++
Matlabmatlab是一个大型计算机，擅长矩阵计算与科学计算，适合构建模型；然而，编译软件的运行效率低，不适合大型软件开发。Pythonpython的优势是简单，入门快。适合做数据挖掘、数据分析、机器学习、人工智能、自然语言处理、爬虫、批量文件处理等，此外，Python开源免费，有很多的库，开发环境开发社区都比较友好；不过，Python是动态型的语言，需要更多的测试，并且错误仅仅是在运行的时候
knob UI插件使用换个号韩国红果果 JavaScript jsonp knob
图形是用canvas绘制的 js代码 var paras = { max:800, min:100, skin:'tron',//button type thickness:.3,//button width width:'200',//define canvas width.,canvas height displayInput:'tr
Android+Jquery Mobile学习系列(5)-SQLite数据库白糖_ JQuery Mobile
目录导航 SQLite是轻量级的、嵌入式的、关系型数据库，目前已经在iPhone、Android等手机系统中使用,SQLite可移植性好，很容易使用，很小，高效而且可靠。因为Android已经集成了SQLite，所以开发人员无需引入任何JAR包，而且Android也针对SQLite封装了专属的API，调用起来非常快捷方便。我也是第一次接触S
impala-2.1.2-CDH5.3.2 dayutianfei impala
最近在整理impala编译的东西，简单记录几个要点：根据官网的信息（https://github.com/cloudera/Impala/wiki/How-to-build-Impala）： 1. 首次编译impala，推荐使用命令： ${IMPALA_HOME}/buildall.sh -skiptests -build_shared_libs -format 2.仅编译BE ${I
求二进制数中1的个数周凡杨 java 算法二进制
解法一：对于一个正整数如果是偶数，该数的二进制数的最后一位是 0 ，反之若是奇数，则该数的二进制数的最后一位是 1 。因此，可以考虑利用位移、判断奇偶来实现。 public int bitCount(int x){ int count = 0; while(x!=0){ if(x%2!=0){ /
spring中hibernate及事务配置 g21121 Hibernate
hibernate的sessionFactory配置：  <bean id="sessionFactory" class="org.springframework.orm.hibernate3.LocalSessionFactoryBean"> <
log4j.properties 使用 510888780 log4j
log4j.properties 使用一.参数意义说明输出级别的种类 ERROR、WARN、INFO、DEBUG ERROR 为严重错误主要是程序的错误 WARN 为一般警告，比如session丢失 INFO 为一般要显示的信息，比如登录登出 DEBUG 为程序的调试信息配置日志信息输出目的地 log4j.appender.appenderName = fully.qua
Spring mvc-jfreeChart柱图（2）布衣凌宇 jfreechart
上一篇中生成的图是静态的，这篇将按条件进行搜索，并统计成图表，左面为统计图，右面显示搜索出的结果。第一步：导包第二步；配置web.xml(上一篇有代码) 建BarRenderer类用于柱子颜色 import java.awt.Color; import java.awt.Paint; import org.jfree.chart.renderer.category.BarR
我的spring学习笔记14-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。 PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java
maven 之 cobertura 简单使用 antlove maven test unit cobertura report
1. 创建一个maven项目 2. 创建com.CoberturaStart.java package com; public class CoberturaStart { public void helloEveryone(){ System.out.println("=================================================
程序的执行顺序百合不是茶 JAVA执行顺序
刚在看java核心技术时发现对java的执行顺序不是很明白了,百度一下也没有找到适合自己的资料,所以就简单的回顾一下吧代码如下; 经典的程序执行面试题 //关于程序执行的顺序 //例如： //定义一个基类 public class A(){ public A(
设置session失效的几种方法 bijian1013 web.xml session失效监听器
在系统登录后，都会设置一个当前session失效的时间，以确保在用户长时间不与服务器交互，自动退出登录，销毁session。具体设置很简单，方法有三种：（1）在主页面或者公共页面中加入：session.setMaxInactiveInterval(900);参数900单位是秒，即在没有活动15分钟后，session将失效。这里要注意这个session设置的时间是根据服务器来计算的，而不是客户端。所
java jvm常用命令工具 bijian1013 java jvm
一.概述程序运行中经常会遇到各种问题，定位问题时通常需要综合各种信息，如系统日志、堆dump文件、线程dump文件、GC日志等。通过虚拟机监控和诊断工具可以帮忙我们快速获取、分析需要的数据，进而提高问题解决速度。本文将介绍虚拟机常用监控和问题诊断命令工具的使用方法，主要包含以下工具: &nbs
【Spring框架一】Spring常用注解之Autowired和Resource注解 bit1129 Spring常用注解
Spring自从2.0引入注解的方式取代XML配置的方式来做IOC之后，对Spring一些常用注解的含义行为一直处于比较模糊的状态，写几篇总结下Spring常用的注解。本篇包含的注解有如下几个： Autowired Resource Component Service Controller Transactional 根据它们的功能、目的，可以分为三组，Autow
mysql 操作遇到safe update mode问题 bitray update
我并不知道出现这个问题的实际原理,只是通过其他朋友的博客,文章得知的一个解决方案,目前先记录一个解决方法,未来要是真了解以后,还会继续补全. 在mysql5中有一个safe update mode,这个模式让sql操作更加安全,据说要求有where条件,防止全表更新操作.如果必须要进行全表操作,我们可以执行 SET
nginx_perl试用 ronin47 nginx_perl试用
因为空闲时间比较多，所以在CPAN上乱翻，看到了nginx_perl这个项目(原名Nginx::Engine)，现在托管在github.com上。地址见：https://github.com/zzzcpan/nginx-perl 这个模块的目的，是在nginx内置官方perl模块的基础上，实现一系列异步非阻塞的api。用connector/writer/reader完成类似proxy的功能（这里
java-63-在字符串中删除特定的字符 bylijinnan java
public class DeleteSpecificChars { /** * Q 63 在字符串中删除特定的字符 * 输入两个字符串，从第一字符串中删除第二个字符串中所有的字符。 * 例如，输入”They are students.”和”aeiou”，则删除之后的第一个字符串变成”Thy r stdnts.” */ public static voi
EffectiveJava--创建和销毁对象 ccii 创建和销毁对象
本章内容： 1. 考虑用静态工厂方法代替构造器 2. 遇到多个构造器参数时要考虑用构建器（Builder模式） 3. 用私有构造器或者枚举类型强化Singleton属性 4. 通过私有构造器强化不可实例化的能力 5. 避免创建不必要的对象 6. 消除过期的对象引用 7. 避免使用终结方法 1. 考虑用静态工厂方法代替构造器类可以通过
[宇宙时代]四边形理论与光速飞行 comsci
从四边形理论来推论为什么光子飞船必须获得星光信号才能够进行光速飞行？一组星体组成星座向空间辐射一组由复杂星光信号组成的辐射频带，按照四边形-频率假说一组频率就代表一个时空的入口那么这种由星光信号组成的辐射频带就代表由这些星体所控制的时空通道，该时空通道在三维空间的投影是一
ubuntu server下python脚本迁移数据 cywhoyi python Kettle pymysql cx_Oracle ubuntu server
因为是在Ubuntu下，所以安装python、pip、pymysql等都极其方便，sudo apt-get install pymysql，但是在安装cx_Oracle（连接oracle的模块）出现许多问题，查阅相关资料，发现这边文章能够帮我解决，希望大家少走点弯路。http://www.tbdazhe.com/archives/602 1.安装python 2.安装pip、pymysql
Ajax正确但是请求不到值解决方案 dashuaifu Ajax async
Ajax正确但是请求不到值解决方案解决方案：1 . async: false , 2. 设置延时执行js里的ajax或者延时后台java方法！！！！！！！例如： $.ajax({ &
windows安装配置php+memcached dcj3sjt126com PHP Install memcache
Windows下Memcached的安装配置方法 1、将第一个包解压放某个盘下面，比如在c:\memcached。 2、在终端（也即cmd命令界面）下输入 'c:\memcached\memcached.exe -d install' 安装。 3、再输入： 'c:\memcached\memcached.exe -d start' 启动。（需要注意的: 以后memcached将作为windo
iOS开发学习路径的一些建议 dcj3sjt126com ios
iOS论坛里有朋友要求回答帖子，帖子的标题是：想学IOS开发高阶一点的东西，从何开始，然后我吧啦吧啦回答写了很多。既然敲了那么多字，我就把我写的回复也贴到博客里来分享，希望能对大家有帮助。欢迎大家也到帖子里讨论和分享，地址：http://bbs.csdn.net/topics/390920759 下面是我回复的内容：结合自己情况聊下iOS学习建议，
Javascript闭包概念 fanfanlovey JavaScript 闭包
1.参考资料 http://www.jb51.net/article/24101.htm http://blog.csdn.net/yn49782026/article/details/8549462 2.内容概述要理解闭包，首先需要理解变量作用域问题内部函数可以饮用外面全局变量 var n=999; 　　functio
yum安装mysql5.6 haisheng mysql
1、安装http://dev.mysql.com/get/mysql-community-release-el7-5.noarch.rpm 2、yum install mysql 3、yum install mysql-server 4、vi /etc/my.cnf 添加character_set_server=utf8
po/bo/vo/dao/pojo的详介 IT_zhlp80 java BO VO DAO POJO po
JAVA几种对象的解释 PO:persistant object持久对象,可以看成是与数据库中的表相映射的java对象。最简单的PO就是对应数据库中某个表中的一条记录，多个记录可以用PO的集合。PO中应该不包含任何对数据库的操作. VO:value object值对象。通常用于业务层之间的数据传递，和PO一样也是仅仅包含数据而已。但应是抽象出的业务对象,可
java设计模式 kerryg java 设计模式
设计模式的分类：一、设计模式总体分为三大类： 1、创建型模式（5种）：工厂方法模式，抽象工厂模式，单例模式，建造者模式，原型模式。 2、结构型模式（7种）：适配器模式，装饰器模式，代理模式，外观模式，桥接模式，组合模式，享元模式。 3、行为型模式（11种）：策略模式，模版方法模式，观察者模式，迭代子模式，责任链模式，命令模式，备忘录模式，状态模式，访问者
[1]CXF3.1整合Spring开发webservice——helloworld篇木头.java spring webservice CXF
Spring 版本3.2.10 CXF 版本3.1.1 项目采用MAVEN组织依赖jar 我这里是有parent的pom，为了简洁明了，我直接把所有的依赖都列一起了，所以都没version，反正上面已经写了版本 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="ht
Google 工程师亲授：菜鸟开发者一定要投资的十大目标 qindongliang1922 工作感悟人生
身为软件开发者，有什么是一定得投资的？ Google 软件工程师 Emanuel Saringan 整理了十项他认为必要的投资，第一项就是身体健康，英文与数学也都是必备能力吗？来看看他怎么说。（以下文字以作者第一人称撰写））你的健康无疑地，软件开发者是世界上最久坐不动的职业之一。每天连坐八到十六小时，休息时间只有一点点，绝对会让你的鲔鱼肚肆无忌惮的生长。肥胖容易扩大罹患其他疾病的风险，
linux打开最大文件数量1,048,576 tianzhihehe c linux
File descriptors are represented by the C int type. Not using a special type is often considered odd, but is, historically, the Unix way. Each Linux process has a maximum number of files th
java语言中PO、VO、DAO、BO、POJO几种对象的解释衞酆夼 java VO BO POJO po
PO:persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。可以看成是与数据库中的表相映射的java对象。最简单的PO就是对应数据库中某个表中的一条记录，多个记录可以用PO的集合。PO中应该不包含任何对数据库的操作。 BO:business object业务对象封装业务逻辑的java对象