weixin_30823833

基于SIFT+Kmeans+LDA的图片分类器的实现

PS: 很久没做CV的事情了，这是很早以前刚入门时候的一篇，以后再有CV相关工作会发布在新的个人站点：http://my.phirobot.com/blog/category/cv.html CV分类下。

posted @ 2012-04-24 20:36 from [FreedomShe]

题记：2012年4月1日回到家，南大计算机研究僧复试以后，等待着的就是独坐家中无聊的潇洒。不知哪日，无意中和未来的同学潘潘聊到了图像处理，聊到了她的论文《基于LDA的行人检测》，出于有一年半工作经验的IT男人的本能，就一起开始学习研究这篇“论文”了。众所周知，老师给学生设置论文题目的，起初都是很模糊的——自己没有思考清楚实践上的可行性和具体思路，仅从理论了解上就给学生设置一些“难以实现”的论文任务。几经修改和商讨，最后的论文实际上就是“基于SIFT+Kmeans+LDA的图片分类器的实现”了。至此，代码已经编写完毕，图片分类的效果还算满意。

——copyright：由于是一起学习研究的结果，相关所有内容潘潘童鞋可以以第一作者身份使用！

1. 实现思路
2. 软件环境
3. Step1——SIFT应用
4. Step2——Kmeans应用
5. Step3——数词频的实现
6. Step4——LDA应用
7. 参考

一、实现思路

　　分类器的功能是：输入一组图片，给定需要分类的类别数lda_k(>1)；输出lda_k个文件夹，每个文件夹内的图片为一类图片。

　　第一步是SIFT特征提取：输入图片，输出图片的特征点集，即feature列表，每个feature代表一个图片的某个局部特征，每个feature的数据结构由一个128维浮点数组表示。至此，可以将一幅图片转换成一个feature集。

　　第二步是Kmeans聚类：输入是所有图片的feature集的综合，给定参数km_k代表需要聚类的类别数；输出是km_k个feature，在LDA的视角看来就是“单词表”，用“单词表”中的一个“单词”（类中的质心feature）代表kmeans聚类里面一类的所有feature。

　　第三步是统计词频：（对每个图片）输入是图片的feature集和“单词表”，分别计算该图片feature集中每个feature对应的“单词”，并统计每个“单词”在该feature集中出现的次数即词频；输出是词频统计数据。

　　最后一步是LDA训练潜在主题：输入是所有图片文件的词频统计数据，以及给定的需要训练出来的主题类别数lda_k；LDA输出参数较多，其中最有用的就是文档-主题条件概率矩阵（theta矩阵），即举证中每个元素表示P(主题k|文档m)——在文档m中，主题是k的概率——通过该概率即可判断当前文档最可能的主题，实现了将所有文档分类为lda_k个主题。

　　总之，理论上LDA研究的实体是一组文档，每个文档由若干单词组成，通过无监督学习，能够发现lda_k个主题，并且确定theta矩阵——文档确定的情况下生成主题k的概率，以及phi矩阵——主题确定的情况下生成单词v的概率。分类器通过SIFT算法将图片转换为若干feature，即将图片看成是“文档”feature看成是“单词”。而仅通过SIFT处理后的feature并不能直接单做“单词”作为LDA的输入，因为几乎每个feature都不一样，还需要Kmeans算法对所有图片的feature集的总和做一次聚类，得到km_k个类别的中心feature，即生成km_k个“单词”的“单词表”，并以此中心feature代替一个类别内的所有其他feature，从而将一个图片“文档”中的所有feature均在“单词表”中能够找到代表它的“单词”，这样图片就真正转换为了LDA能够处理的“文档”。

[Go Top]

二、软件环境

　　VS2010，MFC，C++。
　　安装并配置Opencv，参见VS2010+Opencv-2.4.0的配置攻略。
　　下载并集成SIFT源码，参见在VS2010中应用SIFT（C）源码。
　　下载并集成LDA源码，参见在VS2010中应用LDA（C）源码。

　　Kmeans为Opencv自带函数，无需应用其他源码。建立好自己的工程，集成算法源码后，工程文件夹大致结构应为下图所示：

　　设计好自己的例程界面，并关联好响应函数和成员变量，本例程界面如下：

[Go Top]

三、Step1——SIFT应用

　　在该步骤内，程序依据“图片源目录”给出的图片目录路径，扫描目录内的所有图片文件，对每个执行如下操作：

...
n = _sift_features(img, &features, SIFT_INTVLS/*3*/, SIFT_SIGMA/*1.6*/, SIFT_CONTR_THR/*0.04*/,
    SIFT_CURV_THR/*10*/, SIFT_IMG_DBL/*1*/, SIFT_DESCR_WIDTH/*4*/, SIFT_DESCR_HIST_BINS/*8*/); //SIFTfeature提取
...
export_features(out_file_name, features, n); //将features导出为文件
...
if(勾选了“保存SIFT特征图”)
{
  draw_features(img, features, n); //在img图片上标记出features
  cvSaveImage(out_img_name, img, NULL); //将标记后的图片保存
}
...

　　其中最主要的三个函数就是_sift_features(…), export_features(…), draw_features(…)均为sift源码所提供。（注：feature有两种类型——OXFD和LOWE，本程序只涉及LOWE类型，所有OXFD相关格式均自动忽略。）

　　_sift_features(…)函数第一个参数img为传入图片的IplImage指针格式，为Opencv所定义的图片数据结构；features后面的参数均为SIFT算法的输入参数，具体含义见作者的源码注释。

需要注意和理解的是features这个参数，其指向的为一个结构体feature的数组，feature结构为：

/**
Structure to represent an affine invariant image feature.  The fields
x, y, a, b, c represent the affine region around the feature:
a(x-u)(x-u) + 2b(x-u)(y-v) + c(y-v)(y-v) = 1
*/
struct feature
{
    double x;                      /**< x coord */
    double y;                      /**< y coord */
    double a;                      /**< Oxford-type affine region parameter */
    double b;                      /**< Oxford-type affine region parameter */
    double c;                      /**< Oxford-type affine region parameter */
    double scl;                    /**< scale of a Lowe-style feature */
    double ori;                    /**< orientation of a Lowe-style feature */
    int d;                         /**< descriptor length */
    double descr[FEATURE_MAX_D];   /**< descriptor */
    int type;                      /**< feature type, OXFD or LOWE */
    int category;                  /**< all-purpose feature category */
    struct feature* fwd_match;     /**< matching feature from forward image */
    struct feature* bck_match;     /**< matching feature from backmward image */
    struct feature* mdl_match;     /**< matching feature from model */
    CvPoint2D64f img_pt;           /**< location in image */
    CvPoint2D64f mdl_pt;           /**< location in model */
    void* feature_data;            /**< user-definable data */
};

　　其中x,y表示feature在图片中的坐标，scl, ori表示在图中标记特征的强度和方向，descr是最重要的特征信息即128维的特征向量（FEATURE_MAX_D==128）。实际上所保存的特征文件里面也只保存了feature的这些信息。features就是feature的一个数组，包含了SIFT算法所提取的图片的所有feature，返回值n表示features数组中有多少个feature元素。

　　export_features(…)就是将上一步中的features保存为文件，文件格式如下：

441 128
178.616459 111.621902 34.241822 1.292619
 0 0 0 0 0 0 0 0 12 0 0 0 1 3 0 8 140 4 0 0
 0 0 0 30 43 3 0 0 0 0 0 2 0 0 0 0 2 9 0 0
 94 0 0 0 8 72 6 37 172 15 0 0 0 2 1 119 122 5 0 0
 0 0 0 12 0 0 0 0 0 2 0 0 57 5 0 0 2 73 9 14
 172 133 0 0 0 11 3 14 128 45 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 4 1 2 2 4 13 0 1 172 152 2 4 4 6 0 2
 145 116 0 0 0 0 0 0
220.732993 432.886679 20.895674 -1.740551
 6 0 0 1 168 133 17 5 60 0 0 1 37 20 24 25 3 0 0 0
 14 26 17 3 0 0 0 0 0 0 0 0 7 0 0 0 168 144 2 1
 123 0 0 0 80 38 2 15 13 0 0 0 12 44 4 4 0 0 0 0
 0 0 0 0 2 0 0 1 168 67 0 0 121 13 0 2 144 16 0 3
 22 2 0 4 30 7 0 0 0 0 0 0 1 0 0 0 0 0 0 0
 168 81 0 0 87 9 0 1 125 38 2 5 24 2 0 3 20 16 2 2
 0 0 0 0 1 3 0 0
……

　　其中第一行的第一个int表示文件中feature的个数，第二个int表示feature的维数。接下来每段132个浮点数（后128个近似为整数）为一个feautre，前4个分别为x, y, scr, ori，后128个为表征feature的128维向量。

　　draw_features(…)就是将feature信息示例性地标注在图上了，图片如下：

　　cvSaveImage(…)是Opencv的函数，将加过标注的图片保存为文件。

　　这一步实际上要做的重点就是输入为图片，输出为SIFT算法后为每张图片生成的feature文件集：

　　这样每张图片就相当于一个“文档”，而feature就是“文档”中的“预备单词”。

[Go Top]

四、Step2——Kmeans应用

　　Step1里面的feature只是“预备单词”，在成为单词之前还要通过Step2生成“单词表”和Step3将“文档”中的“预备单词”找到“单词表”中最相近的“单词”替换之（并不是真正操作上的替换，只是当成“单词表”中的“单词”统计出来而已）。

　　在Step2中，关键操作如下：

...
CvMat *samples=cvCreateMat(featureNum, dims, CV_32FC1); //包含所有图片的所有feature信息的矩阵，featureNum个feature，每个feature为dims（128）维向量，每一维的元素类型为32位浮点数
CvMat *clusters=cvCreateMat(featureNum, 1, CV_32SC1); //每个feature所在“质心”的指针（实际上本例程中没有用到该信息）
CvMat *centers=cvCreateMat(k, dims, CV_32FC1); //“质心”信息的数组，k个“质心”每个质心都是dims（128）维向量，每一维的元素类型为32位浮点数
cvSetZero(clusters); //将矩阵初始化为0
cvSetZero(centers); //将矩阵初始化为0
while(file.ReadString(strLine)) 
{
    ...
    n = import_features(CIni::CStrToChar(fileName), FEATURE_LOWE, &features); //导入feature文件，n为导入的feature个数
    ...
    //将feature文件内所有feature信息存入samples矩阵结构内
    for(int i = 0; i < n; i++)
    {
        for(int j = 0; j < dims; j++)
        {
            samples->data.fl[temp++] = features[i].descr[j];
        }
    }
}
cvKMeans2(samples, k, clusters,cvTermCriteria(CV_TERMCRIT_EPS,10,1.0), 3, (CvRNG *)0, KMEANS_USE_INITIAL_LABELS, centers); //Kmeans聚类
...
cvSave(CIni::CStrToChar(ini.getWordListFilePath()), centers); //保存单词表
...

　　其中关键函数当然是import_features(...)和cvKMeans2(...)，前者是sift源码里的方法，用来导入feature文件使之成为内存数据结构，后者是Opencv里的kmeans算法之一（cvKMeans2(...)内部调用了kmeans(...)）。

　　在说明他们之前首先要了解Opencv内部通用数据结构——用来存储矩阵类型的CvMat，其声明如下：

typedef struct CvMat
{
    int type;
    int step;

    /* for internal use only */
    int* refcount;
    int hdr_refcount;

    union
    {
        uchar* ptr;
        short* s;
        int* i;
        float* fl;
        double* db;
    } data;

#ifdef __cplusplus
    union
    {
        int rows;
        int height;
    };

    union
    {
        int cols;
        int width;
    };
#else
    int rows;
    int cols;
#endif
}

　　其中最重要的就是用来存储元素信息的一维数组data，data为一个联合体，包含了各种通用类型。data虽然是一维结构，但通过rows, cols标识，可以将data看成二维的矩阵结构，type就标识了元素类型，而step就标识了一行的步长（占用字节数）。
　　cvCreateMat(int rows, int cols, int type);包含了三个参数，rows和cols分别表示data二维矩阵的行数和列数，type表示元素的类型。元素类型通过宏来定义，CV_32FC1中的32表示元素的位数，F表示是浮点数，Cn表示通道数，C1表示1通道，C3表示3通道（只有在类似RGB的三元表示一个像素点颜色时才用到多通道，而通道实际上就是说一个元素应该由几列来表示）。
　　有了上面的知识，就知道了samples矩阵是featureNum行，128列的矩阵，而矩阵元素类型为32位浮点数。featureNum的值为所有图片所有feature的总和，也就是说把所有的feature文件里面的feature信息都读入到samples矩阵内用来作为Kmeans的输入。clusters矩阵是featureNum行1列的矩阵，实际上就是featureNum个int元素的数组，每个int元素都相当于一个下标，标识对应feature（一行）属于centers中的哪个类（“质心”），而本程序里面没有使用到clusters提供的信息，featuresNum个feature分别对应于哪个“质心”是在Step3算词频里面实现的。centers就是保存“单词表”信息的矩阵了，k行128列的32位浮点矩阵，即k个feature，每个feature都是一类feature的“质心”——该类所有feature中最中间那个（通过欧式距离来计算的）feature。

　　关键操作来了，import_features(...)就是将feature文件读入内存，使之成为feature的内存数据结构。
　　int import_features(char* filename, int type, struct feature** feat)第一个参数就是feature文件的路径，第二个参数是feature的类型，本文是FEATURE_LOWE类型，第三个参数就是传出参数feature数组了，返回值为读入内存的feature个数。在接下来的操作中就需要把features里面的数据全部拷贝到samples矩阵结构内，这样所有文件的feature信息都拷贝到samples内后就完成了kmeans传入数据的工作。

　　cvKMeans2(...)是Opencv在kmeans(...)之上封装的一个函数，参数含义可以参照Hongquan的博客中的《OpenCV中kmean算法的实现》，本文需要说明的几个参数是：第一个参数samples——传入所有图片feature信息的总和；第二个参数k即kmeans的聚类个数（本程序通过界面的类别数设置）；第七个参数flags表示生成随机数的方式，可能每次运行程序对相同的输入输出的单词表都不同，那么就跟这个参数相关；第八个参数centers，这就是我们需要的输出了，即“单词表”信息，每一行就是一个feature也就是一个“单词”。

　　这样，读入Step1中输出的所有feature文件，然后综合起来并输入参数k（聚类类别数），然后就可以生成一张包含k个“单词”的“单词表”了，用Opencv的cvSave(...)函数把这张“单词表”保存为yml文件，就是本步骤的主要输出了。输出“单词表”文件wordList.yml格式类似：

%YAML:1.0
wordList: !!opencv-matrix
   rows: 80
   cols: 128
   dt: f
   data: [ 1.64593754e+001, 2.11062511e+001, 30.,
       3.48312492e+001, 2.39375000e+001, 1.28156252e+001,
       1.25531254e+001, 1.16812506e+001, 4.92906265e+001,
       3.61625023e+001, 2.94968758e+001, 23., 1.70375004e+001,
       1.12718754e+001, 1.71968746e+001, 3.13437500e+001,
       3.27593765e+001, 2.25156250e+001, 2.02625008e+001,
       2.26406250e+001, 2.73750000e+001, 1.90531254e+001,
       2.41375008e+001, 2.85156250e+001, 1.92875004e+001,
       ............................................. ]

[Go Top]

五、Step3——数词频的实现

　　前面已经说过，Step2是生成“单词表”，而Step3就是通过计算欧式距离来确定原始feature文档中每个feature对应“单词表”中的哪个“单词”，然后统计出来，生成对应的统计文件——词频文件wordF.data。主要操作如下：

...
FileStorage readfs(CIni::CStrToChar(ini.getWordListFilePath()), FileStorage::READ); //以只读的形式打开yml。
Mat wordList; //单词表矩阵
readfs[CIni::CStrToChar(CIni::removeSuffix(CIni::getFileNameFromPath(ini.getWordListFilePath())))] >> wordList; //读取单词表
...
while(“对于每个feature文档”) 
{
  ...
  int n = import_features(CIni::CStrToChar(fileName), FEATURE_LOWE, &features);
  ...
  for(int i = 0; i < n; i++)
  {
    ...
    distMin = normL2Sqr_(pa, pb, dims); //计算欧式距离
    ...
    for(int j = 1; j < wordNum; j++)
    {
      ...
      dist = normL2Sqr_(pa, pb, dims); //计算欧式距离
      ...
    }
  }
}
...

　　显而易见，前三个操作就是利用Opencv的函数，将Step2中生成的“单词表”读入矩阵结构（Mat）的变量wordList中。而对于每个feature文档，通过sift源码的import_features(...)函数读入以feature结构体为元素的数组features中。接下来对于每个feature计算它与wordList中哪个“单词”最接近，最后统计出该文档中包含的单词及其个数。

　　normL2Sqr_(pa, pb, dims)是Opencv中计算欧式距离的函数，其中pa指向一个feature，而pb指向单词表中的一个“单词”（“单词”也是feature），dims表示待计算数据的维数，在这里就是128了。

　　经过上面的操作，统计好每个图片文档中每个“单词”出现的次数后，统一保存为一个词频文档，即将所有图片文档的词频信息保存在一个文件wordF.data内，其文件结构为：

72 0:3 1:4 2:3 3:39 4:6 5:10 6:1 7:4 8:4 9:30 10:8 11:3 13:5 14:7 15:20 16:3 17:2 18:5 19:6 20:7 21:2 22:8 23:11 24:15 25:8 26:9 27:9 28:4 29:3 30:14 31:2 34:4 35:4 36:3 37:4 38:8 39:7 40:15 42:7 44:6 45:4 46:8 47:15 48:9 49:3 50:3 51:1 53:4 54:2 55:3 56:2 57:3 58:9 59:1 60:1 61:8 62:4 63:4 64:7 65:3 66:1 68:3 69:1 70:4 71:1 72:1 73:1 74:6 76:2 77:6 78:5 79:3
60 0:2 1:1 3:29 4:3 5:13 6:1 7:1 8:5 9:30 10:4 11:2 13:1 14:2 15:17 17:1 18:4 19:2 20:1 22:3 23:3 24:4 25:2 26:4 27:4 28:1 29:2 30:8 31:1 32:3 34:1 35:3 36:4 37:4 38:4 39:6 40:15 42:3 44:3 45:2 47:13 48:6 49:3 51:1 52:2 54:2 56:1 57:2 58:13 61:2 63:3 64:6 66:1 67:2 71:1 73:1 74:1 76:1 77:2 78:1 79:4
75 1:3 2:2 3:30 4:4 5:7 6:1 7:3 8:2 9:32 10:9 11:3 12:3 13:9 14:2 15:22 16:5 17:2 18:5 19:1 20:3 21:3 22:1 23:11 24:6 25:2 26:11 27:6 28:3 29:9 30:5 31:2 32:5 34:3 35:6 36:2 37:10 38:2 39:8 40:20 42:8 43:1 44:7 45:4 46:2 47:14 48:3 49:3 50:3 51:4 52:2 53:5 54:2 55:2 56:1 57:3 58:12 59:1 60:2 61:1 62:4 64:2 65:4 66:4 67:3 68:1 69:1 70:5 71:3 72:2 73:1 74:3 76:5 77:2 78:6 79:4
73 0:2 1:2 2:1 3:29 4:8 5:6 6:4 7:6 8:3 9:26 10:10 11:2 12:2 13:6 14:1 15:16 16:2 17:8 18:5 19:3 20:2 21:6 22:5 23:4 24:5 25:5 26:12 27:2 28:1 29:10 30:6 31:1 32:2 33:1 34:2 35:9 36:2 37:7 39:5 40:16 42:6 43:1 44:4 46:2 47:17 48:9 49:2 50:3 52:5 53:1 54:2 55:3 56:2 57:3 58:9 59:2 60:1 62:2 63:3 64:1 65:4 66:2 67:1 68:3 69:3 70:7 72:2 73:1 74:3 75:1 76:7 78:8 79:5
70 0:1 1:5 3:23 4:5 5:2 6:2 7:4 8:5 9:27 10:11 11:2 12:1 13:6 14:4 15:15 16:4 17:4 18:5 19:6 20:4 21:4 22:6 23:7 24:4 25:2 26:12 27:3 28:2 29:13 30:7 31:1 32:4 33:2 34:5 35:12 36:4 37:8 38:3 40:21 42:6 43:1 44:5 45:4 46:3 47:14 48:6 49:5 50:3 51:1 52:6 53:2 54:3 55:2 57:7 58:12 59:2 62:3 63:4 65:5 66:3 67:3 69:1 70:5 71:2 72:3 73:4 74:3 76:6 78:8 79:2
70 0:1 1:2 2:2 3:25 4:2 5:6 7:1 8:3 9:35 10:7 12:1 13:4 14:4 15:17 16:2 17:7 18:7 19:3 20:3 21:2 22:6 23:5 24:1 25:2 26:9 27:4 28:1 29:7 31:1 32:2 34:3 35:4 36:1 37:8 38:1 39:1 40:19 42:6 44:5 45:2 47:15 48:7 49:5 51:2 52:4 53:1 54:2 55:2 56:2 57:3 58:16 59:2 60:1 61:3 62:4 63:6 65:3 66:3 67:2 68:1 69:1 70:3 71:3 72:4 73:3 74:4 76:2 77:3 78:7 79:9

　　其中每一行代表一个文档（图片文档），%d:%d的结构表示单词ID:单词个数，第一个数字表示后面的元素项个数。这些数据就是Step3统计词频的输出了，也是Step4LDA运算的输入。

[Go Top]

六、Step4——LDA应用

　　作者对LDA的实现并不是像sift和kmeans那样由一个函数通过参数传入传出来给出，而是作者的main函数的一个实现过程。本例程LDA的主要过程为：

...
int topic_num = lda_k; //LDA分类数
struct corpus *cps;
struct est_param param;
...
cps = read_corpus(data); //读取训练集
init_param(cps,¶m,topic_num); //初始化参数
//迭代计算
while (1)
{
  //对每个文档使用sampling方法计算
  for (int m=0; mnum_docs; m++)
  {
    ...
    for (int l=0; ldocs[m].length; l++)
    {
      for (int c=0; cdocs[m].words[l].count; c++)
      {
        param.z[m][word_index] = sampling(m,word_index,cps->docs[m].words[l].id,topic_num,cps,¶m,alpha,beta,p,s_talpha,vbeta); //sampling计算
        ...
      }
    }
  }
  if ((iter_time >= burn_in_num) && (iter_time % SAMPLE_LAG == 0))
  {
    calcu_param(¶m, cps,topic_num,alpha,beta); //计算参数
    ...
  }
  //迭代结束条件
  if (sample_time ==sample_num)
  {
    break;
  }
}
average_param(¶m, cps,topic_num,alpha,beta,sample_num); //计算theta，phi平均值
save_model(cps,¶m,model_name,alpha,beta,topic_num,sample_num); //保存结果数据
...

　　对于没有接触过LDA的人要看懂函数过程还是很困难的，但对于有语言功底的程序员，如果只是应用LDA过程，只需要了解几个主要的LDA概念就行了。（其他部分请参考作者代码注释）

1、LDA的输入。LDA的输入除了Step3生成的词频统计信息外，还需要一些参数。这些参数一般设置为通用参数就行了，本例程只有lda_k为界面输入，表示LDA训练的主题个数。
　　read_corpus(data)方法中，data为字符串，表示输入数据的路径，该方法将文件读取为struct corpus的格式。corpus结构体表示的是一个文档集，其结构可以从声明中看出：

struct word
{
    int id;
    int count;
};

struct document
{
    int id; //文档id
    int num_term; //文档包含的单词个数（count的总和）
    int length; //文档包含的单词类别个数（id:count结构的个数）
    struct word* words;
};

struct corpus
{
    struct document* docs;
    int num_docs; //文档个数
    int num_terms; //单词表中单词总数（实际上是所有单词中最大id+1）
};

　　对比Step3中生成的词频文件，不难看懂上面这些结构体的意义。

2、LDA的输出。LDA的输出包含很多数据，由save_model(...)函数输出为文件：

　　lda.other文件保存参数alpha, beta, topic_num, sample_num的值。lda.topic_assgin文件保存z矩阵，z[m][n]==k表示文档m中的单词n所对应的主题为k。lda.theta文件保存theta矩阵，theta[m][k]表示在文档为m时，生成主题k的概率，即条件概率p(主题k|文档m)。lda.phi文件保存phi矩阵，phi[k][v]表示在主题为k时，生成单词v的概率，即条件概率p(单词v|主题k)。

　　其中需要关注的只有theta和phi两个矩阵，而本例程只用到了theta矩阵的信息。theta矩阵和phi矩阵的例子如下表：

P(Topic_k\|Doc_m)	Topic1	Topic2
Doc1	0.45	0.55
Doc2	0.1	0.9
Doc3	0.6	0.4

P(Word_v\|Topic_k)	Word1	Word2	Word3	Word4
Topic1	0.45	0.15	0.2	0.2
Topic2	0.1	0.5	0.3	0.1

theta矩阵

phi矩阵

　　其中的Topic都是由LDA通过无监督学习得到的潜在主题，只需要用户告诉LDA主题数目就行了。从上面的表格中不难看出，在theta矩阵中，我们知道了每个文档生成每个主题的概率，通过比较概率大小就可以确定文档所对应的主题了。

3、LDA算法及其运算所需结构体struct est_param。

struct est_param
{
    int **z; //z[m][n] stands for topic assigned to nth word in mth document
    double **theta; // theta[m][k] stands for the topic mixture proportion for document m
    double **phi; // phi[k][v] stands for the probability of vth word in vocabulary is assigned to topic k 
    // count statistics
    int **nd; //nd[m][k] stands for the number of words assigned to kth topic in mth document
    int **nw; //nw[k][t] stands for the number of kth topic assigned to tth term
    int *nd_sum; //nd_sum[m] total number of word in mth document
    int *nw_sum; //nw_sum[k] total number of terms assigned to kth topic
};

　　该结构体内theta和phi二维数组是我们熟悉的输出，z数组也是前面提到的输出之一，后面的四个变量是LDA运算中间过程的必备临时变量。LDA算法，如果了解了相关的变量名和LDA过程，通过下面这幅图是不难了解算法过程的：

　　综上，知道了每个图片文档对应哪个主题的概率最大后，就可以根据主题个数新建lda_k个文件夹，然后把分类到对应主题的图片拷贝过去，从而实现了对图片的LDA分类。分类效果如图：

[Go Top]

七、参考

【Opencv】
Opencv下载：http://sourceforge.net/projects/opencvlibrary/files/
Opencv教程：http://www.opencv.org.cn/index.php

【SIFT】
SIFT源码下载：http://blogs.oregonstate.edu/hess/code/sift/
SIFT源码使用方法：http://www.open-open.com/lib/view/1325332699514

【Kmeans】Kmeans为Opencv自带函数。
OpenCV中kmean算法的实现：http://blog.hongquan.me/?p=8

【LDA】
LDA源码下载：http://code.google.com/p/lsa-lda/
gibbs的LDA实现：http://sourceforge.net/projects/gibbslda/

【Bag-of-words模型】
SIFT算法的应用--目标识别之Bag-of-words模型：http://blog.csdn.net/v_JULY_v/article/details/6555899

[Go Top]

源码下载：http://www.pudn.com/downloads464/sourcecode/graph/texture_mapping/detail1949366.html

转载于:https://www.cnblogs.com/freedomshe/archive/2012/04/24/sift_kmeans_lda_img_classification.html

你可能感兴趣的:(基于SIFT+Kmeans+LDA的图片分类器的实现)

通过SSH隧道与跳板机实现本地端口映射访问服务器文件 t.y.Tang ssh 服务器运维
文章目录场景需求一、服务器端配置1.启动HTTP文件服务2.配置防火墙3.验证服务状态二、SSH隧道建立1.直接连接场景2.通过跳板机连接三、Windows端配置1.使用PowerShell建立隧道2.保持隧道稳定四、浏览器验证五、高阶配置建议1.生产环境增强2.SSH安全加固故障排查指南原理解析场景需求在Windows浏览器访问127.0.0.1:12138自动显示服务器指定路径下的文件列表通过
数字证书与数字签名介绍张紫娃网络编程网络安全服务器
目录数字签名什么时候公钥加密数据，什么时候私钥加密数据？消息认证码（MAC）和数字签名区别数字证书如何使用数字证书验证服务器身份？数字签名定义：它类似于现实生活中的手写签名。手写签名的法律效力1、每个人的笔迹因生理和心理差异而独一无二，难以复制。签名被视为真实性和有效性的直接证明。2、手写签名是法律文件生效的核心要件之一，能证明签署人对文件内容的认可与授权。具有不可否认性。数字签名的过程(1)签名
访问者模式烟沙九洲设计模式访问者模式 java
访问者（Visitor）模式属于行为型模式的一种。访问者模式主要用于分离算法和对象结构，从而在不修改原有对象的情况下扩展新的操作。它适用于数据结构相对稳定，而操作（行为）容易变化的场景。访问者模式允许在不修改现有类的情况下，为类层次结构中的对象定义新的操作。访问者模式通过将操作封装到一个独立的类（即访问者）中，使得对象结构与操作解耦。访问者模式使用了一种名为双分派（在运行时根据两个对象的类型动态选
机器学习--DBSCAN聚类算法详解 2201_75491841 机器学习算法聚类人工智能
目录引言1.什么是DBSCAN聚类？2.DBSCAN聚类算法的原理3.DBSCAN算法的核心概念3.1邻域（Neighborhood）3.2核心点（CorePoint）3.3直接密度可达（DirectlyDensity-Reachable）3.4密度可达（Density-Reachable）3.5密度相连（Density-Connected）4.DBSCAN算法的步骤5.DBSCAN算法的优缺点5
小白学AI量化：DeepSeek+Python构建强大的金融数据挖掘与多维分析机器人老余捞鱼 AI顾投高级策略 AI探讨与学习人工智能 python 金融 deepseek
作者：老余捞鱼原创不易，转载请标明出处及原作者。写在前面的话：在机构主导的量化交易时代，普通投资者如何用一杯奶茶的钱（15元/天）打造专业级智能量化产品？本文将为您揭秘一个革命性的解决方案——基于国产大模型DeepSeek和Python构建的智能数据挖掘分析机器人。它不仅适用于通用网页数据抓取，更能深度应用于金融领域，精准捕捉市场信号。本文“干货”很多，请务必耐心读完。一、颠覆认知的性价比革命1.
项目解决方案：博物馆视频监控系统建设解决方案威迪斯特解决方案博物馆视频联网资源汇聚监控软件音视频客户端
目录一.相关项目背景1.1技术革新背景1.2技术提升背景1.3发展趋势背景1.4合规性要求背景二.与客户确认的需求2.1实时远程监控与高清识别2.2权限管理灵活且安全2.3多平台访问，随时随地监控2.4视频汇聚，集中管理三.实现特点3.1智能预警，守护安全3.2全面支持，无忧运营3.3成本控制，效益最大化3.4拓展集成，信息联动四.必实现的建设目标4.1安全可靠4.2贴合需要4.3易于拓展4.4性
软考中级软件设计师考点知识点笔记总结 day06 莫问alicia 软考中级软件设计师笔记数据结构算法
文章目录6、树和二叉树6.1、树的基本概念6.2、二叉树的基本概念6.3、二叉树的遍历6.4、查找二叉树（二叉排序树）BST6.5、构造霍夫曼树+6.6、线索二叉树6.7、平衡二叉树7、图7.1、存储结构-邻接矩阵7.2、存储结构-邻接表7.3、图的遍历7.4、拓扑排序7.5、最小生成树普利姆算法7.6、克鲁斯卡尔算法6、树和二叉树6.1、树的基本概念结点的度：一个结点的度是指该结点拥有的子树数量
Bash 脚本基础 HXQ_晴天 linux bash chrome 开发语言
一、Bash脚本基础什么是Bash脚本：Bash脚本是一种文本文件，其中包含了一系列的命令，这些命令可以被Bashshell执行。它用于自动化重复性的任务，提高工作效率。Bash脚本的基本结构：以#!/bin/bash开头，表示使用Bash解释器来执行脚本。接下来是具体的命令和操作。二、编写和运行第一个Bash脚本创建脚本文件：使用命令nanohello.sh创建名为hello.sh的文件。编写脚
【机器学习】机器学习工程实战-第3章数据收集和准备腊肉芥末果机器学习工程实战机器学习人工智能
上一章：第2章项目开始前文章目录3.1关于数据的问题3.1.1数据是否可获得3.1.2数据是否相当大3.1.3数据是否可用3.1.4数据是否可理解3.1.5数据是否可靠3.2数据的常见问题3.2.1高成本3.2.2质量差3.2.3噪声（noise）3.2.4偏差（bias）3.2.5预测能力低（lowpredictivepower）3.2.6过时的样本3.2.7离群值3.2.8数据泄露/目标泄漏3
HTML+CSS案例展示(CSS3D效果旋转相册) hacalili html css 前端 css3
参考来源：黑马程序员pink老师前端入门教程，零基础必看的h5(html5)+css3+移动端前端视频教程_哔哩哔哩_bilibili效果展示：总结：transform：translate(x,y)rotate(180deg)scale()...顺序对最后的效果有影响，需要根据需求安排位移和其他属性的顺序；实现暂停动画效果：animation-play-state:paused;经常和鼠标经过等其
linux脚本怎么访问http,如何使用现有的tcp连接从bash脚本访问http服务器？玲珑阁玉韦 linux脚本怎么访问http
在bashshellscipt中,我使用几个命令行工具(wget,curl,httpie)来测试我的http服务器.当使用例如curl调用GET请求,我看到tcp连接打开到我的服务器并在http通信完成后立即关闭.$curlhttp://10.5.1.1/favicon.ico-o/dev/null为了更好地测试我的服务器的保持活动行为,我想在多个http请求/响应周期中保持tcp连接打开.我可以
ngx_http_conf_port_t 若云止水 http 网络协议网络
定义在src\http\ngx_http_core_module.htypedefstruct{ngx_int_tfamily;in_port_tport;ngx_array_taddrs;/*arrayofngx_http_conf_addr_t*/}ngx_http_conf_port_t;该结构体用于在Nginx配置阶段存储监听端口的配置信息，是listen指令解析后的核心数据结构。它将同一
python processpoolexecutor_Python多进程解决方案multiprocessing ProcessPoolExecutor weixin_39599046 python
大多数编程语言都会有多线程和多进程的概念，至于线程和进程的概念，大家可以百度一下。作为一门胶水语言，Python毫不意外，也可以利用多线程和多进程处理并发问题，但是多线程由于GIL的存在，起作用范围大打折扣，仅限于在IO等场景可以发挥点作用。所以，今天要跟大家分享的是Python多进程方案，更好地利用系统多核，从而提升性能。基础方案一：利用Process新建一个子进程，在子进程执行任务。我们写一个
python processpoolexecutor_Python线程和进程池并行编程三千香蕉三千 python
Python3.2版本之后发布了concurrent.futures模块，用以支持和管理并发编程，内容涵盖了进程和线程池(ThreadandProcessPooling)、非确定性执行流(NondeterministicExecutionFlows)以及进程和线程同步。本文通过将带有可选参数的任务提交(Submit)给执行器(Executor)来实例化futures对象。执行器是线程或者进程执行池
html5 相册翻转效果,HTML5 css3：3D旋转木马效果相册岑依惜 html5 相册翻转效果
这篇博客的目的是因为上篇HTML5CSS3专题诱人的实例CSS3打造百度贴吧的3D翻牌效果中有个关于CSS3D效果的比较重要的知识点没讲到，就是perspective和tranlateY效果图：嘿嘿，我把大学毕业时的一些照片，做成旋转木马，绕着我大文理旋转，不忘母校的培育之恩~1、perspectiveperspective属性包括两个属性：none和具有单位的长度值。其中perspective属
python 底层原理processpoolexecutor_Python 并发编程：PoolExecutor 篇风投小虾 python
个人笔记，如有疏漏，还请指正。使用多线程(threading)和多进程(multiprocessing)完成常规的并发需求，在启动的时候start、join等步骤不能省，复杂的需要还要用1-2个队列。随着需求越来越复杂，如果没有良好的设计和抽象这部分的功能层次，代码量越多调试的难度就越大。对于需要并发执行、但是对实时性要求不高的任务，我们可以使用concurrent.futures包中的PoolE
机器学习实战第一章机器学习基础 LuoY、 Machine Learning 机器学习算法人工智能
第一章机器学习1.1何谓机器学习1.2关键术语1.3机器学习的主要任务1.4如何选择合适的算法1.5开发机器学习应用程序的步骤1.6Python语言的优势1.1何谓机器学习 1、简单地说，机器学习就是把无序的数据转换成有用的信息； 2、机器学习能让我们自数据集中受启发，我们会利用计算机来彰显数据背后的真实含义； 3、机器学习横跨计算机科学、工程技术和统计学等多个学科，需要多学科的
HTML5+CSS实现图片3D旋转效果，附音乐宁醉小白 html5 前端 html
利用程序呈现图片，可以俘获一众女生的心，增加音乐可以实现图片变化的同时也带上了想要得到效果，如此一程序实乃众人之喜。先看看程序呈现的效果，还是特别吸引人的。先在网上爬取想要呈现的美女照片，存放在文件夹img-one，与程序路径一致。图片像素需进行调整，同一面图片可以使用同一个图片，保持图片像素一致的同时也增加了立体感。第二张02.jpg和2.jpg可以倒着放，这样在程序实现的时候，可以和其他方向的
炫酷的HTML5粒子动画特效实现详解木木黄木木 html5 前端 html
炫酷的HTML5粒子动画特效实现详解这里写目录标题炫酷的HTML5粒子动画特效实现详解项目介绍技术栈项目架构1.HTML结构2.样式设计核心实现1.粒子类设计2.动画效果实现星空效果烟花效果雨滴效果3.鼠标交互性能优化效果展示总结项目介绍本文将详细介绍如何使用HTML5Canvas技术实现一个炫酷的粒子动画特效系统。该系统包含三种不同的动画效果：星空、烟花和雨滴，并支持鼠标交互功能，能够为网页增添
Matlab绘制台风路径--数据来源：中国气象局热带气旋资料中心 e决 matlab
%读取台风数据fid=fopen('CH2009BST.txt','r');data=textscan(fid,'%s','Delimiter','\n');fclose(fid);data=data{1};%提取台风Morakot数据typhoon_data=[];is_dora=false;fori=1:length(data)line=data{i};%检查是否是Morakot台风的起始行i
SQL自学：怎么创建视图 m0_74823471 面试学习路线阿里巴巴 sql 数据库
在SQL中，视图是一种虚拟表，它是基于一个或多个表的查询结果集。视图并不实际存储数据，而是在每次查询时动态生成结果。一、创建视图的语法（以MySQL为例）CREATEVIEWview_nameASSELECTcolumn1,column2,...FROMtable_nameWHEREcondition;view_name：是要创建的视图的名称。column1,column2,...：要在视图中显示
代码随想录day7-链表俩数相加凌凡天链表数据结构 java 算法 leetcode
给你两个非空的链表，表示两个非负的整数。它们每位数字都是按照逆序的方式存储的，并且每个节点只能存储一位数字。请你将两个数相加，并以相同形式返回一个表示和的链表。你可以假设除了数字0之外，这两个数都不会以0开头。示例1：输入：l1=[2,4,3],l2=[5,6,4]输出：[7,0,8]解释：342+465=807.示例2：输入：l1=[0],l2=[0]输出：[0]示例3：输入：l1=[9,9,9
数据挖掘实战-基于机器学习的垃圾邮件检测模型艾派森数据挖掘实战合集数据挖掘机器学习人工智能 python
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录1.项目背景2.数据集介绍
conda篇----在已有conda环境的基础上升级python包心惠天意 conda python jvm
conda篇----在已有conda环境的基础上升级python包原先的python版本第一步：condaupdate--all(py11)[xxx@aivrs01xxx]$condaupdate--allCollectingpackagemetadata(current_repodata.json):doneSolvingenvironment:done==>WARNING:Anewervers
PTA:数组区间差集A-B 悦悦子a啊 C语言PTA习题算法数据结构
输入一个整数数组（题目保证数组中的整数不重复），然后输入两个闭区间，区间A[L1,R1]和区间B[L2,R2]，L1,R1代表区间A的左/右边界的数组下标；L2,R2代表区间B的左/右边界的数组下标（下标从0开始，且题目保证下标均在有效范围内不会越界）。输出由这两个区间形成的差集（A-B）的数值。输入格式:一个整数n（n不大于20），然后输入n个整数。最后输入4个整数，分别代表区间A和区间B的左边
环境配置（1）：笔记本window、虚拟机ubuntu、开发板三者互ping通信，并且虚拟机ubuntu和开发板能上网 lishing6 ubuntu linux mcu 嵌入式硬件 arm开发物联网硬件工程
1.配置网络我们配置网络是为了方便后续调试开发板系统或者应用程序时，能够使用tftp协议nfs协议等拷贝文件，以及设置文件系统启动方式为nfs挂载启动。2.设置Ubuntu使用NAT网络NAT是什么意思？NetworkAddressTranslation，网络地址转换。举个例子，在NAT里，Windows就是一个爱护孩子的父亲，Ubuntu就是受保护的小孩。小孩要买东西，都由他父亲代劳，别人根本不
systemd-networkd 的 *.network 配置文件详解笔记250323 kfepiza 网络通讯传输协议物联 #控制台命令行 Shell脚本 sh cmd 等 #Linux CentOS Ubuntu 等笔记 tcp/ip 网络 linux
systemd-networkd的*.network配置文件详解笔记250323查看官方文档可以用mansystemd.network命令,或访问:https://www.freedesktop.org/software/systemd/man/latest/systemd.network.html名称systemd.network—网络配置概要network.network描述一个纯INI风格的
systemctl restart 和 systemctl reload 和 systemctl daemon-reload 对比笔记250322 kfepiza #Linux CentOS Ubuntu 等 #控制台命令行 Shell脚本 sh cmd 等笔记 bash
systemctlrestart和systemctlreload和systemctldaemon-reload对比以下是systemctlrestart、systemctlreload和systemctldaemon-reload的对比总结：命令作用对象行为适用场景对服务的影响systemctlrestart服务名具体服务强制停止服务，再重新启动。配置或代码有重大变更，或服务出现异常需完全重启。服
systemd-networkd 的 /etc/systemd/network/*.network 的配置属性名称是不是严格区分大小写?是 kfepiza #Linux CentOS Ubuntu 等网络通讯传输协议物联网络运维 tcp/ip linux
systemd-networkd的/etc/systemd/network/*.network的配置属性名称是不是严格区分大小写?是查看官方文档可以用mansystemd.network命令,或访问:https://www.freedesktop.org/software/systemd/man/latest/systemd.network.html亲测在Debian10.12-standard中
systemd-networkd NetworkManager 介绍追心嵌入式 linux
systemd-networkd和NetworkManager的详细介绍systemd-networkd和NetworkManager都是Linux系统中常用的网络管理工具，但它们的设计目标和使用场景不同。以下是它们的详细介绍、功能、使用场景和差异。1.systemd-networkdsystemd-networkd是一个由systemd提供的网络管理工具，旨在为Linux系统提供网络配置和管理的
关于旗正规则引擎中的MD5加密问题何必如此 jsp MD5 规则加密
一般情况下，为了防止个人隐私的泄露，我们都会对用户登录密码进行加密，使数据库相应字段保存的是加密后的字符串，而非原始密码。在旗正规则引擎中，通过外部调用，可以实现MD5的加密，具体步骤如下： 1.在对象库中选择外部调用，选择“com.flagleader.util.MD5”，在子选项中选择“com.flagleader.util.MD5.getMD5ofStr({arg1})”； 2.在规
【Spark101】Scala Promise/Future在Spark中的应用 bit1129 Promise
Promise和Future是Scala用于异步调用并实现结果汇集的并发原语，Scala的Future同JUC里面的Future接口含义相同，Promise理解起来就有些绕。等有时间了再仔细的研究下Promise和Future的语义以及应用场景，具体参见Scala在线文档：http://docs.scala-lang.org/sips/completed/futures-promises.html
spark sql 访问hive数据的配置详解 daizj spark sql hive thriftserver
spark sql 能够通过thriftserver 访问hive数据，默认spark编译的版本是不支持访问hive，因为hive依赖比较多，因此打的包中不包含hive和thriftserver,因此需要自己下载源码进行编译，将hive，thriftserver打包进去才能够访问，详细配置步骤如下： 1、下载源码 2、下载Maven,并配置此配置简单，就略过
HTTP 协议通信周凡杨 java httpclient http 通信
一：简介 HTTPCLIENT，通过JAVA基于HTTP协议进行点与点间的通信！二：代码举例测试类： import java
java unix时间戳转换 g21121 java
把java时间戳转换成unix时间戳： Timestamp appointTime=Timestamp.valueOf(new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(new Date())) SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd hh:m
web报表工具FineReport常用函数的用法总结（报表函数）老A不折腾 web报表 finereport 总结
说明：本次总结中，凡是以tableName或viewName作为参数因子的。函数在调用的时候均按照先从私有数据源中查找，然后再从公有数据源中查找的顺序。 CLASS CLASS(object):返回object对象的所属的类。 CNMONEY CNMONEY(number,unit)返回人民币大写。 number:需要转换的数值型的数。 unit:单位，
java jni调用c++ 代码报错墙头上一根草 java C++jni
# # A fatal error has been detected by the Java Runtime Environment: # # EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x00000000777c3290, pid=5632, tid=6656 # # JRE version: Java(TM) SE Ru
Spring中事件处理de小技巧 aijuans spring Spring 教程 Spring 实例 Spring 入门 Spring3
Spring 中提供一些Aware相关de接口，BeanFactoryAware、 ApplicationContextAware、ResourceLoaderAware、ServletContextAware等等，其中最常用到de匙ApplicationContextAware.实现ApplicationContextAwaredeBean，在Bean被初始后，将会被注入 Applicati
linux shell ls脚本样例 annan211 linux linux ls源码 linux 源码
#! /bin/sh - #查找输入文件的路径 #在查找路径下寻找一个或多个原始文件或文件模式 # 查找路径由特定的环境变量所定义 #标准输出所产生的结果通常是查找路径下找到的每个文件的第一个实体的完整路径 # 或是filename :not found 的标准错误输出。 #如果文件没有找到则退出码为0 #否则即为找不到的文件个数 #语法 pathfind [--
List,Set,Map遍历方式 (收集的资源,值得看一下) 百合不是茶 list set Map遍历方式
List特点：元素有放入顺序，元素可重复 Map特点：元素按键值对存储，无放入顺序 Set特点：元素无放入顺序，元素不可重复（注意：元素虽然无放入顺序，但是元素在set中的位置是有该元素的HashCode决定的，其位置其实是固定的） List接口有三个实现类：LinkedList，ArrayList，Vector LinkedList：底层基于链表实现，链表内存是散乱的，每一个元素存储本身
解决SimpleDateFormat的线程不安全问题的方法 bijian1013 java thread 线程安全
在Java项目中，我们通常会自己写一个DateUtil类，处理日期和字符串的转换，如下所示： public class DateUtil01 { private SimpleDateFormat dateformat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); public void format(Date d
http请求测试实例（采用fastjson解析） bijian1013 http 测试
在实际开发中，我们经常会去做http请求的开发，下面则是如何请求的单元测试小实例，仅供参考。 import java.util.HashMap; import java.util.Map; import org.apache.commons.httpclient.HttpClient; import
【RPC框架Hessian三】Hessian 异常处理 bit1129 hessian
RPC异常处理概述 RPC异常处理指是，当客户端调用远端的服务，如果服务执行过程中发生异常，这个异常能否序列到客户端？如果服务在执行过程中可能发生异常，那么在服务接口的声明中，就该声明该接口可能抛出的异常。在Hessian中，服务器端发生异常，可以将异常信息从服务器端序列化到客户端，因为Exception本身是实现了Serializable的
【日志分析】日志分析工具 bit1129 日志分析
1. 网站日志实时分析工具 GoAccess http://www.vpsee.com/2014/02/a-real-time-web-log-analyzer-goaccess/ 2. 通过日志监控并收集 Java 应用程序性能数据(Perf4J) http://www.ibm.com/developerworks/cn/java/j-lo-logforperf/ 3.log.io 和
nginx优化加强战斗力及遇到的坑解决 ronin47 nginx 优化
　　　先说遇到个坑，第一个是负载问题，这个问题与架构有关，由于我设计架构多了两层，结果导致会话负载只转向一个。解决这样的问题思路有两个：一是改变负载策略，二是更改架构设计。　　　由于采用动静分离部署，而nginx又设计了静态，结果客户端去读nginx静态，访问量上来，页面加载很慢。解决：二者留其一。最好是保留apache服务器。　　　来以下优化：　　　
java-50-输入两棵二叉树A和B，判断树B是不是A的子结构 bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/25411174201011445550396/ import ljn.help.*; public class HasSubtree { /**Q50. * 输入两棵二叉树A和B，判断树B是不是A的子结构。例如，下图中的两棵树A和B，由于A中有一部分子树的结构和B是一
mongoDB 备份与恢复开窍的石头 mongDB备份与恢复
Mongodb导出与导入 1: 导入/导出可以操作的是本地的mongodb服务器,也可以是远程的. 所以,都有如下通用选项: -h host 主机 --port port 端口 -u username 用户名 -p passwd 密码 2: mongoexport 导出json格式的文件
[网络与通讯]椭圆轨道计算的一些问题 comsci 网络
如果按照中国古代农历的历法，现在应该是某个季节的开始，但是由于农历历法是3000年前的天文观测数据，如果按照现在的天文学记录来进行修正的话，这个季节已经过去一段时间了。。。。。也就是说，还要再等3000年。才有机会了，太阳系的行星的椭圆轨道受到外来天体的干扰，轨道次序发生了变
软件专利如何申请 cuiyadll 软件专利申请
软件技术可以申请软件著作权以保护软件源代码，也可以申请发明专利以保护软件流程中的步骤执行方式。专利保护的是软件解决问题的思想，而软件著作权保护的是软件代码（即软件思想的表达形式）。例如，离线传送文件，那发明专利保护是如何实现离线传送文件。基于相同的软件思想，但实现离线传送的程序代码有千千万万种，每种代码都可以享有各自的软件著作权。申请一个软件发明专利的代理费大概需要5000-8000申请发明专利可
Android学习笔记 darrenzhu android
1.启动一个AVD 2.命令行运行adb shell可连接到AVD,这也就是命令行客户端 3.如何启动一个程序 am start -n package name/.activityName am start -n com.example.helloworld/.MainActivity 启动Android设置工具的命令如下所示： # am start -
apache虚拟机配置，本地多域名访问本地网站 dcj3sjt126com apache
现在假定你有两个目录，一个存在于 /htdocs/a，另一个存在于 /htdocs/b 。现在你想要在本地测试的时候访问 www.freeman.com 对应的目录是 /xampp/htdocs/freeman ,访问 www.duchengjiu.com 对应的目录是 /htdocs/duchengjiu。 1、首先修改C盘WINDOWS\system32\drivers\etc目录下的
yii2 restful web服务[速率限制] dcj3sjt126com PHP yii2
速率限制为防止滥用，你应该考虑增加速率限制到您的API。例如，您可以限制每个用户的API的使用是在10分钟内最多100次的API调用。如果一个用户同一个时间段内太多的请求被接收，将返回响应状态代码 429 (这意味着过多的请求)。要启用速率限制, [[yii\web\User::identityClass|user identity class]] 应该实现 [[yii\filter
Hadoop2.5.2安装——单机模式 eksliang hadoop hadoop单机部署
转载请出自出处：http://eksliang.iteye.com/blog/2185414 一、概述 Hadoop有三种模式单机模式、伪分布模式和完全分布模式，这里先简单介绍单机模式，默认情况下，Hadoop被配置成一个非分布式模式，独立运行JAVA进程，适合开始做调试工作。二、下载地址 Hadoop 网址http:
LoadMoreListView+SwipeRefreshLayout（分页下拉）基本结构 gundumw100 android
一切为了快速迭代 import java.util.ArrayList; import org.json.JSONObject; import android.animation.ObjectAnimator; import android.os.Bundle; import android.support.v4.widget.SwipeRefreshLayo
三道简单的前端HTML/CSS题目 ini html Web 前端 css 题目
使用CSS为多个网页进行相同风格的布局和外观设置时，为了方便对这些网页进行修改，最好使用（）。http://hovertree.com/shortanswer/bjae/7bd72acca3206862.htm 在HTML中加入<table style=”color:red; font-size:10pt”>，此为（）。http://hovertree.com/s
overrided方法编译错误 kane_xie override
问题描述：在实现类中的某一或某几个Override方法发生编译错误如下： Name clash: The method put(String) of type XXXServiceImpl has the same erasure as put(String) of type XXXService but does not override it 当去掉@Over
Java中使用代理IP获取网址内容（防IP被封，做数据爬虫） mcj8089 免费代理IP 代理IP 数据爬虫 JAVA设置代理IP 爬虫封IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ Java语言有两种方式使用代理IP访问网址并获取内容，方式一，设置System系统属性 // 设置代理IP System.getProper
Nodejs Express 报错之 listen EADDRINUSE qiaolevip 每天进步一点点学习永无止境 nodejs 纵观千象
当你启动 nodejs服务报错： >node app Express server listening on port 80 events.js:85 throw er; // Unhandled 'error' event ^ Error: listen EADDRINUSE at exports._errnoException (
C++中三种new的用法 _荆棘鸟_ C++new
转载自：http://news.ccidnet.com/art/32855/20100713/2114025_1.html 作者: mt 其一是new operator，也叫new表达式；其二是operator new，也叫new操作符。这两个英文名称起的也太绝了，很容易搞混，那就记中文名称吧。new表达式比较常见，也最常用，例如： string* ps = new string("
Ruby深入研究笔记1 wudixiaotie Ruby
module是可以定义private方法的 module MTest def aaa puts "aaa" private_method end private def private_method puts "this is private_method" end end