July_Zh1

LDA主题模型学习笔记5：C源码理解

1，说明

本文对LDA原始论文的作者所提供的C代码中LDA的主要逻辑部分做注释，原代码可在这里下载到：https://github.com/Blei-Lab/lda-c

这份代码实现论文《Latent Dirichlet Allocation》中介绍的LDA模型，用变分EM算法求解参数。

为了使代码在vs2013中运行，做了一些微小改动，但不影响原代码的逻辑。

vs2013工程可在我的资源中下载：

http://download.csdn.net/detail/happyer88/8861773

----------------------------------------------------------------------

2，准备知识

2.1，LDA原理及推导

《Latent Dirichlet Allocation》论文

我的LDA学习笔记1-4系列

2.2，充分统计量

https://en.wikipedia.org/wiki/Sufficient_statistic

----------------------------------------------------------------------

3，代码注释

3.1 main.c

原代码中main函数在lda-estimate.c中，创建vs工程时把它挪到了main.c中。

#include  
#include  
#include  
#include
#include "cokus.h"
#include "lda-alpha.h"
#include"lda-data.h"
#include"lda-estimate.h"
#include"lda-inference.h"
#include"lda.h"
#include"utils.h"

char * datasetName	= "scene8";	//数据集名字，必须与文件夹名字相同
int expec = 1;		// expec==1,expect , inf
int vocabularySize_global = 512; // 字典大小
int k = 100; //topic的数目
char* params ="../settings.txt"; //估计：估计过程需要的参数
char* params1 ="../inf-settings.txt";     //推断：推断过程需要的参数
char  dataset_train[500];	//估计：估计参数的数据文件
char  dataset_test[500];   //推断：推断的数据文件
char dir_trainData[500];    //估计：估计的中间数据和最终数据文件夹路径
char dir_testData[500];		//推断：推断的中间数据和最终数据文件夹路径
char model_pre[500];
void assignParameter();
int main()
{
	corpus* corpus;
	clock_t start,finish;
	double totaltime;
	long double totaltime_EMiteration;
	assignParameter();
	//myCreateDirectory();

	start=clock();
	if(expec)
	{
		INITIAL_ALPHA = 1;    //狄利克雷分布的参数alpha
		NTOPICS =k;           //主题个数
		read_settings(params);  //读取参数。。。最大迭代次数，收敛条件阈值；EM的最大迭代次数、收敛条件阈值; 
		corpus = read_data(dataset_train); //读取数据。。。数据格式：（每一行）在一个文档中出现的word总数目（去掉次数=0的）index_word1:counts index_word2:counts  ...........

		totaltime_EMiteration = run_em("seeded", dir_trainData, corpus); //求解参数。。。EM过程求解参数--输入：中间数据和最终数据存放目录、语料库

		printf("inferencing test images!\n");
		read_settings(params1);
		corpus = read_data(dataset_test);
		infer(model_pre, dir_testData, corpus);
		//用完开始释放
	}
	else
	{
		read_settings(params1);
		corpus = read_data(dataset_test);
		infer(model_pre, dir_testData, corpus);
	}
	finish=clock();
	totaltime=(double)(finish-start)/CLOCKS_PER_SEC;

	printf("nTopic = %d, nTerm = %d estimation time: \n", k, vocabularySize_global);
	printf("  EM iteration takes %f seconds(this is %f miniutes)\n", totaltime_EMiteration*60, totaltime_EMiteration);

	printf("Running Time(--estimate trainData and inference trainData and testData--)：%f\n",totaltime);

	printf("\ntrain--- final data are saved to: %s\n", dir_trainData);
	printf("test---- final data are saved to: %s\n", dir_testData);
	getch();
	return(0);
}

void assignParameter()
{
	sprintf(dataset_train,"../train.txt");
	sprintf(dataset_test,"../test.txt");
	
	sprintf(dir_trainData, "../ResultData");
	sprintf(dir_testData, "../ResultData");
	sprintf(model_pre, "../ResultData/final");

}

3.2 lda.h

自定义数据结构

#ifndef LDA_H
#define LDA_H

typedef struct
{
    int* words; //文档中的单词，这里存的是该单词在文档集字典中的ID
    int* counts; //每个单词文档中出现次数
    int length; //文档中出现的单词个数，去重的，也就是重复出现的单词不计
    int total;  //文档中总单词数，不去重
} document;


typedef struct
{
    document* docs;
    int num_terms; //文档集中出现的单词个数，去重的，也就是文档集字典大小
    int num_docs; //文档集中文档个数
} corpus;


typedef struct
{
    double alpha; //论文中的模型参数alpha，本来应该是k维，程序中实现的是对称分布的Dirichlet，k维的值是相同的
    double** log_prob_w; //论文中的模型参数beta，每一行存一个主题的词分布，维度k*V
    int num_topics; //主题个数
    int num_terms;
} lda_model;


typedef struct
{
    double** class_word;//模型参数beta的充分统计量，维度：主题个数*文档集字典大小（K*V）
    double* class_total;//存主题分布z的 充分统计量，维度：主题个数K
    double alpha_suffstats;  //模型参数alpha的充分统计量
    int num_docs;
} lda_suffstats;

#endif

3.3 lda-model.c

主要是初始化lda模型（有三种方法），一种是所有值都为0，'random'是用随机数，'seeded'是随机挑选一些文档来初始化模型

还有计算模型参数alpha , beta (lda_mle)

#include "lda-model.h"

/*
 * compute MLE lda model from sufficient statistics
 *
 */

void lda_mle(lda_model* model, lda_suffstats* ss, int estimate_alpha)
{
    int k; int w;

    for (k = 0; k < model->num_topics; k++)
    {
        for (w = 0; w < model->num_terms; w++)
        {
            if (ss->class_word[k][w] > 0)
            {
				//log_prob_w是模型参数beta，主题-词分布
				//class_word和class_total都是充分统计量(sufficient statistic)
				//所以log相减是在做归一化，beta中的值是概率，要在0-1之间
                model->log_prob_w[k][w] =
                    log(ss->class_word[k][w]) -
                    log(ss->class_total[k]);
            }
            else
                model->log_prob_w[k][w] = -100;
        }
    }
    if (estimate_alpha == 1)
    {
		//用牛顿方法优化得到alpha
		//注意这里alpha_suffstats的值
        model->alpha = opt_alpha(ss->alpha_suffstats,
                                 ss->num_docs,
                                 model->num_topics);

        printf("new alpha = %5.5f\n", model->alpha);
    }
}

/*
 * allocate sufficient statistics
 *
 */

lda_suffstats* new_lda_suffstats(lda_model* model)
{
    int num_topics = model->num_topics;
    int num_terms = model->num_terms;
    int i,j;

    lda_suffstats* ss = malloc(sizeof(lda_suffstats));
    ss->class_total = malloc(sizeof(double)*num_topics);
    ss->class_word = malloc(sizeof(double*)*num_topics);
    for (i = 0; i < num_topics; i++)
    {
		ss->class_total[i] = 0;
		ss->class_word[i] = malloc(sizeof(double)*num_terms);
		for (j = 0; j < num_terms; j++)
		{
			ss->class_word[i][j] = 0;
		}
    }
    return(ss);
}
void free_lda_ss(lda_suffstats* ss, lda_model* model)
{
	int i=0;
	for (i=0; i < model->num_topics; i++)
		free(ss->class_word[i]);
	free(ss->class_word);
	free(ss->class_total);
	free(ss);
}

/*
 * various intializations for the sufficient statistics
 *
 */

void zero_initialize_ss(lda_suffstats* ss, lda_model* model)
{
    int k, w;
    for (k = 0; k < model->num_topics; k++)
    {
        ss->class_total[k] = 0;
        for (w = 0; w < model->num_terms; w++)
        {
            ss->class_word[k][w] = 0;
        }
    }
    ss->num_docs = 0;
    ss->alpha_suffstats = 0;
}


void random_initialize_ss(lda_suffstats* ss, lda_model* model)
{
    int num_topics = model->num_topics;
    int num_terms = model->num_terms;
    int k, n;
    for (k = 0; k < num_topics; k++)
    {
        for (n = 0; n < num_terms; n++)
        {
            ss->class_word[k][n] += 1.0/num_terms + myrand();
            ss->class_total[k] += ss->class_word[k][n];
        }
    }
}


void corpus_initialize_ss(lda_suffstats* ss, lda_model* model, corpus* c)
{
    int num_topics = model->num_topics;
    int i, k, d, n;
    document* doc;
	
    for (k = 0; k < num_topics; k++)//每个主题用一些文档的来初始化其主题-词 分布 的充分统计量
    {
        for (i = 0; i < NUM_INIT; i++)//在文档集中随机挑选NUM_INIT=1个文档
        {
            d = floor(myrand() * c->num_docs); //随机挑选
            printf("initialized with document %d\n", d);
            doc = &(c->docs[d]);
            for (n = 0; n < doc->length; n++)
            {
				//将NUM_INIT个文档的词频统计，作为第k个主题的词分布的统计量
                ss->class_word[k][doc->words[n]] += doc->counts[n]; 
            }
        }
        for (n = 0; n < model->num_terms; n++)
        {
            ss->class_word[k][n] += 1.0;//因为后面要对它求log，所以值必须大于0
			//是对class_word按行求和的结果，是主题k被选中的次数，也就是该主题下的词出现次数的和
            ss->class_total[k] = ss->class_total[k] + ss->class_word[k][n];
        }
		//这样用文档的词频信息初始化，total必然不为0
		//if (ss->class_total[k] == 0)
		//	ss->class_total[k] = 1;         
    }
}

/*
 * allocate new lda model
 *
 */

lda_model* new_lda_model(int num_terms, int num_topics)
{
    int i,j;
    lda_model* model;

    model = malloc(sizeof(lda_model));
    model->num_topics = num_topics;
    model->num_terms = num_terms;
    model->alpha = 1.0;
    model->log_prob_w = malloc(sizeof(double*)*num_topics);
    for (i = 0; i < num_topics; i++)
    {
	model->log_prob_w[i] = malloc(sizeof(double)*num_terms);
	for (j = 0; j < num_terms; j++)
	    model->log_prob_w[i][j] = 0;
    }
    return(model);
}


/*
 * deallocate new lda model
 *
 */

void free_lda_model(lda_model* model)
{
    int i;

    for (i = 0; i < model->num_topics; i++)
    {
		free(model->log_prob_w[i]);
    }
    free(model->log_prob_w);
	free(model);
}


/*
 * save an lda model
 *
 */

void save_lda_model(lda_model* model, char* model_root)
{
    char filename[100];
    FILE* fileptr;
    int i, j;

    sprintf(filename, "%s.beta", model_root);
    fileptr = fopen(filename, "w");
    for (i = 0; i < model->num_topics; i++)
    {
		for (j = 0; j < model->num_terms; j++)
		{
			fprintf(fileptr, " %5.10f", model->log_prob_w[i][j]);
		}
		fprintf(fileptr, "\n");
    }
    fclose(fileptr);

    sprintf(filename, "%s.other", model_root);
    fileptr = fopen(filename, "w");
    fprintf(fileptr, "num_topics %d\n", model->num_topics);
    fprintf(fileptr, "num_terms %d\n", model->num_terms);
    fprintf(fileptr, "alpha %5.10f\n", model->alpha);
    fclose(fileptr);
}


lda_model* load_lda_model(char* model_root)
{
    char filename[100];
    FILE* fileptr;
    int i, j, num_terms, num_topics;
    float x, alpha;
	lda_model* model;

    sprintf(filename, "%s.other", model_root);
    printf("loading %s\n", filename);
    fileptr = fopen(filename, "r");
    fscanf(fileptr, "num_topics %d\n", &num_topics);
    fscanf(fileptr, "num_terms %d\n", &num_terms);
    fscanf(fileptr, "alpha %f\n", &alpha);
    fclose(fileptr);

    model = new_lda_model(num_terms, num_topics);
    model->alpha = alpha;

    sprintf(filename, "%s.beta", model_root);
    printf("loading %s\n", filename);
    fileptr = fopen(filename, "r");
    for (i = 0; i < num_topics; i++)
    {
        for (j = 0; j < num_terms; j++)
        {
            fscanf(fileptr, "%f", &x);
            model->log_prob_w[i][j] = x;
        }
    }
    fclose(fileptr);
    return(model);
}

3.3 lda-estimate.c

其中包含和模型求解相关的函数，em算法(run_em)和e-step(doc_e_step)

#include "lda-estimate.h"

/*
 * perform inference on a document and update sufficient statistics
 *
 */
int LAG=5;
double doc_e_step(document* doc, double* gamma, double** phi,
                  lda_model* model, lda_suffstats* ss)
{
    double likelihood;
    int n, k;
	double gamma_sum;
    // posterior inference
	
    likelihood = lda_inference(doc, model, gamma, phi);

    // update sufficient statistics

	//这里更新alpha的 充分统计量
	//alpha_suffstats = sum(digamma(gamma)) - K*digamma(gamm_sum)
    gamma_sum = 0;
    for (k = 0; k < model->num_topics; k++)
    {
        gamma_sum += gamma[k];
        ss->alpha_suffstats += digamma(gamma[k]); //log gamma函数的一阶导数
    }
    ss->alpha_suffstats -= model->num_topics * digamma(gamma_sum);

    for (n = 0; n < doc->length; n++)
    {
        for (k = 0; k < model->num_topics; k++)
        {
			//phi[n][k]是第n个word由第k个主题生成的概率，在log space
            ss->class_word[k][doc->words[n]] += doc->counts[n]*phi[n][k];
            ss->class_total[k] += doc->counts[n]*phi[n][k];
        }
    }
	//加入充分统计量的文档数
    ss->num_docs = ss->num_docs + 1;

    return(likelihood);
}


/*
 * writes the word assignments line for a document to a file
 *
 */

int write_word_assignment(FILE* result, FILE* f, document* doc, double** phi, lda_model* model)
{
	int n;
	//f中保存phi, result中保存结果：[wordID:概率最大的topicID]
	fprintf(result, "%03d", doc->length); 
	for (n = 0; n < doc->length; n++)
	{
		int k;
		for (k=0;k< model->num_topics;k++) 
			fprintf(f, "%f\t",phi[n][k]); //一行对应一个word由每个topic生成的概率
		fprintf(f, "\n");

		fprintf(result, " %04d:%02d",
			doc->words[n], argmax(phi[n], model->num_topics));//argmax 找出phi[n]中最大的元素对应的索引位置，也就是topicID
	}
	fprintf(result, "\n");  //一行对应一个文档的 每个word对应的概率最大的topic
	fflush(f);
	fflush(result);
	return 0;
	
}

/*
 * saves the gamma parameters of the current dataset
 *
 */

void save_gamma(char* filename, double** gamma, int num_docs, int num_topics)
{
    FILE* fileptr;
    int d, k;
    fileptr = fopen(filename, "w");

    for (d = 0; d < num_docs; d++)
    {
	fprintf(fileptr, "%5.10f", gamma[d][0]);
	for (k = 1; k < num_topics; k++)
	{
	    fprintf(fileptr, " %5.10f", gamma[d][k]);
	}
	fprintf(fileptr, "\n");
    }
    fclose(fileptr);
}


/*
 * run_em
 *
 */

long double  run_em(char* start, char* directory, corpus* corpus)
{
	clock_t start_EM, finish_EM;
	double * theta;
	FILE * thetaFile;

    int d, n;
    lda_model *model = NULL;
    double **var_gamma, **phi;
	FILE* likelihood_file;
	int max_length;
	char filename[500];
	char filename1[500];
	int i;
	double likelihood, likelihood_old, converged;
	lda_suffstats* ss;
	FILE* w_asgn_file;
	FILE* result;

    // allocate variational parameters 
	        //为变分参数gamma分配空间，维度：文档数*主题数 
    var_gamma = malloc(sizeof(double*)*(corpus->num_docs));
    for (d = 0; d < corpus->num_docs; d++)
		var_gamma[d] = malloc(sizeof(double) * NTOPICS);
	        //为变分参数phi分配空间，维度：文档集中文档的最大单词数（去重） * 主题数
    max_length = max_corpus_length(corpus);
    phi = malloc(sizeof(double*)*max_length);
    for (n = 0; n < max_length; n++)
		phi[n] = malloc(sizeof(double) * NTOPICS);

    // initialize model
    ss = NULL;
    if (strcmp(start, "seeded")==0)
    {
        model = new_lda_model(corpus->num_terms, NTOPICS);
        ss = new_lda_suffstats(model);
        corpus_initialize_ss(ss, model, corpus);  //初始化tw分布
        lda_mle(model, ss, 0);  //compute MLE lda model from sufficient statistics
        model->alpha = INITIAL_ALPHA;
    }
    else if (strcmp(start, "random")==0)
    {
        model = new_lda_model(corpus->num_terms, NTOPICS);
        ss = new_lda_suffstats(model);
        random_initialize_ss(ss, model);
        lda_mle(model, ss, 0);
        model->alpha = INITIAL_ALPHA;
    }
    else
    {
        model = load_lda_model(start);
        ss = new_lda_suffstats(model);
    }

    sprintf(filename,"%s/000",directory);
    save_lda_model(model, filename);

    // run expectation maximization

    i = 0;
    likelihood_old = 0;
	converged = 1;
    sprintf(filename, "%s/likelihood.dat", directory);
    likelihood_file = fopen(filename, "w");

	start_EM = clock();
	//em迭代继续执行条件:以下1和2同时满足
	//1,
	//converaged<0 也就是新值比旧值好
	//或converaged>EM_CONVERGED 新值和旧值还不够近似
	//或迭代步骤执行太少(<=2)
	//2,
	//当前迭代step数在规定的最大迭代步数以内
	//或者没有指定最大迭代步数(-1)
    while (((converged < 0) || (converged > EM_CONVERGED) || (i <= 2)) &&  ((i <= EM_MAX_ITER) || (EM_MAX_ITER == -1))   )
    {
        i++; printf("**** em iteration %d ****\n", i);
        likelihood = 0;
        zero_initialize_ss(ss, model); //把统计量的值都赋为0

        // e-step
	//固定alpha和beta，对每一篇文档找到优化的gamma和phi，更新充分统计量，计算似然
        for (d = 0; d < corpus->num_docs; d++)
        {
            if ((d % 10) == 0) printf("document %d in %d EM iteration\n",d, i);
            likelihood += doc_e_step(&(corpus->docs[d]),
                                     var_gamma[d],
                                     phi,
                                     model,
                                     ss);
        }

        // m-step
		
	//根据当前的充分统计量，更新模型参数alpha，beta
        lda_mle(model, ss, ESTIMATE_ALPHA);

        // check for convergence

        converged = (likelihood_old - likelihood) / (likelihood_old);
        if (converged < 0) VAR_MAX_ITER = VAR_MAX_ITER * 2;
        likelihood_old = likelihood;

        // output model and likelihood

        fprintf(likelihood_file, "%10.10f\t%5.5e\n", likelihood, converged);
        fflush(likelihood_file);
        if ((i % LAG) == 0)
        {
            sprintf(filename,"%s/%03d",directory, i);
            save_lda_model(model, filename);
            sprintf(filename,"%s/%03d.gamma",directory, i);
            save_gamma(filename, var_gamma, corpus->num_docs, model->num_topics);
        }
    }
	//EM迭代结束
	finish_EM = clock();
	printf("nTopic = %d, nTerm = %d estimation time: \n", model->num_topics, model->num_terms);
	printf("  EM iteration takes %f seconds(this is %d miniutes)\n", (double)(finish_EM-start_EM)/CLOCKS_PER_SEC, (finish_EM-start_EM)/CLOCKS_PER_SEC/60);

    // output the final model
    sprintf(filename,"%s/final",directory);
    save_lda_model(model, filename);   //此函数中保存了beta到final.beta文件  ， 还有.other文件
    sprintf(filename,"%s/final.gamma",directory);
    save_gamma(filename, var_gamma, corpus->num_docs, model->num_topics);

    
	// output theta
	theta = (double*)malloc(sizeof(double)*model->num_topics);
	sprintf(filename1, "%s/final.theta", directory);  
	thetaFile = fopen(filename1, "w");
	// output the word assignments (for visualization)
	sprintf(filename1, "%s/result-doc-assgn.dat", directory);  
	result = fopen(filename1, "w");
    for (d = 0; d < corpus->num_docs; d++)
    {
	sprintf(filename, "%s/result_%d_phi.dat", directory,d);          //调试这一部分有越界的错误，完毕，filename数组空间太小。
	w_asgn_file = fopen(filename, "w");
        printf("final e step document %d\n",d);
        likelihood += lda_inference(&(corpus->docs[d]), model, var_gamma[d], phi);
	write_word_assignment(result, w_asgn_file, &(corpus->docs[d]), phi, model);    
	computeTheta(  thetaFile,  &(corpus->docs[d]), phi,  model,  theta);
	fclose(w_asgn_file);
    }
    fclose(result);
	fclose(thetaFile);
    fclose(likelihood_file);
	//释放空间
	free(theta);
	for (d = 0; d < corpus->num_docs; d++)
		free(var_gamma[d]);
	free(var_gamma); 
	for (n = 0; n < max_length; n++)
		free(phi[n]);
	free(phi);
	free_lda_ss( ss,  model);
	free_lda_model(model);

	return (long double)(finish_EM-start_EM)/CLOCKS_PER_SEC/60;
}

void computeTheta( FILE* thetaFile, document* doc, double** phi, lda_model* model, double * theta)
{
	int n;

	for (n=0; n< model->num_topics; n++)
		theta[n] = 0;
	for (n = 0;  nlength; n++)
	{
		int topicIndex = argmax(phi[n], model->num_topics);
		theta[  topicIndex  ] = theta[  topicIndex  ] + doc->counts[ n ];
	}

	for (n=0; nnum_topics; n++)
	{
		theta[n] = theta[n]/doc->total;
		fprintf(thetaFile, "%f\t", theta[n]);
	}
	fprintf(thetaFile, "\n");
	fflush(thetaFile);

}

/*
 * read settings.
 *
 */

void read_settings(char* filename)
{
    FILE* fileptr;
    char alpha_action[100];
    fileptr = fopen(filename, "r");
    fscanf(fileptr, "var max iter %d\n", &VAR_MAX_ITER);
    fscanf(fileptr, "var convergence %f\n", &VAR_CONVERGED);
    fscanf(fileptr, "em max iter %d\n", &EM_MAX_ITER);
    fscanf(fileptr, "em convergence %f\n", &EM_CONVERGED);
    fscanf(fileptr, "alpha %s", alpha_action);
    if (strcmp(alpha_action, "fixed")==0)
    {
	ESTIMATE_ALPHA = 0;
    }
    else
    {
	ESTIMATE_ALPHA = 1;
    }
    fclose(fileptr);
}


/*
 * inference only
 *
 */

void infer(char* model_root, char* save, corpus* corpus)
{
    FILE* fileptr;
	FILE* result;
	FILE* w_asgn_file;
    char filename[100]; 
	char filename1[200];
    int i, d, n;
    lda_model *model;
    double **var_gamma, likelihood, **phi;
    document* doc;

	/*double ***corpusPhi;
	corpusPhi = (double***)malloc(sizeof(double**)*(corpus->num_docs));
	for (i=0;inum_docs));
    for (i = 0; i < corpus->num_docs; i++)
		var_gamma[i] = (double*)malloc(sizeof(double)*model->num_topics);

	//int max_length = max_corpus_length(corpus);  

    sprintf(filename, "%s-lda-lhood.dat", save);
    fileptr = fopen(filename, "w");

    for (d = 0; d < corpus->num_docs; d++)
    {
		if (((d % 100) == 0) && (d>0)) printf("document %d\n",d);

		doc = &(corpus->docs[d]);
		phi = (double**) malloc(sizeof(double*) * doc->length);
		//phi = (double**) malloc(sizeof(double*) * max_length);  
		for (n = 0; n < doc->length; n++)
		//for (n = 0; n < max_length; n++)                            
			phi[n] = (double*) malloc(sizeof(double) * model->num_topics);
		likelihood = lda_inference(doc, model, var_gamma[d], phi);

		fprintf(fileptr, "%5.5f\n", likelihood);

		//输出每一个文档的phi到文件result_%d_phi.dat中   另外每一个word对应的概率最大的topic保存在文件result-doc-assgn.dat中  一行对应一个文档
		sprintf(filename, "%s/result_%d_phi.dat", save,d);                                               
		w_asgn_file = fopen(filename, "w");
		printf("final e step document %d\n",d);
		write_word_assignment(result,w_asgn_file, &(corpus->docs[d]), phi, model);
		fclose(w_asgn_file);
		for (n = 0; n < doc->length; n++)
			free(phi[n]);
		free(phi);
    }
    fclose(fileptr);
    sprintf(filename, "%s-gamma.dat", save);
    save_gamma(filename, var_gamma, corpus->num_docs, model->num_topics);

	fclose(result);
	for (d = 0; d < corpus->num_docs; d++)
		free(var_gamma[d]);
	free(var_gamma); 

	free_lda_model(model);
}

3.4 lda-inference.c

其中包含变分参数求解相关的函数

#include "lda-inference.h"

/*
 * variational inference
 *
 */
int lisnan(double x) { 
	return x != x; 
}
double lda_inference(document* doc, lda_model* model, double* var_gamma, double** phi)
{
    double converged = 1;
    double phisum = 0, likelihood = 0;
    double likelihood_old = 0,  *oldphi=(double *)malloc(sizeof(double)*(model->num_topics));
    
    int k, n, var_iter;
   double *digamma_gam=(double *)malloc(sizeof(double)*(model->num_topics));

    // compute posterior dirichlet

    for (k = 0; k < model->num_topics; k++)
    {
	//初始化变分参数gamma=alpha + 当前文档中单词个数（不去重) N / 主题个数 k
        var_gamma[k] = model->alpha + (doc->total/((double) model->num_topics));
        //log gamma函数的一阶导数
	digamma_gam[k] = digamma(var_gamma[k]);
        //初始化变分参数phi=1/k
	for (n = 0; n < doc->length; n++)
            phi[n][k] = 1.0/model->num_topics;
    }
    var_iter = 0;
	//开始迭代
    while ((converged > VAR_CONVERGED) &&
           ((var_iter < VAR_MAX_ITER) || (VAR_MAX_ITER == -1)))
    {
	var_iter++;
	for (n = 0; n < doc->length; n++)
	{
            phisum = 0;
            for (k = 0; k < model->num_topics; k++)
            {
                oldphi[k] = phi[n][k];
		//更新变分参数 phi
		//就是论文中变分推断算法的式子 phi(n,i) = b(i,wn) * exp(digamma(gamma(i)))
		//这里因为有exp所以在log空间计算，算得的phi也是log space的
                phi[n][k] =
                    digamma_gam[k] +
                    model->log_prob_w[k][doc->words[n]];

                if (k > 0)
                    phisum = log_sum(phisum, phi[n][k]);//在log space对phi求和
                else
                    phisum = phi[n][k]; // note, phi is in log space
            }

            for (k = 0; k < model->num_topics; k++)
            {
		//归一化，使phi(n)和为1
                phi[n][k] = exp(phi[n][k] - phisum);
		//更新变分参数 gamma
                var_gamma[k] =
                    var_gamma[k] + doc->counts[n]*(phi[n][k] - oldphi[k]);
                // !!! a lot of extra digamma's here because of how we're computing it
                // !!! but its more automatically updated too.
                digamma_gam[k] = digamma(var_gamma[k]);
            }
        }

        likelihood = compute_likelihood(doc, model, phi, var_gamma);
        assert(!isnan(likelihood));
        converged = (likelihood_old - likelihood) / likelihood_old;
        likelihood_old = likelihood;

        // printf("[LDA INF] %8.5f %1.3e\n", likelihood, converged);
    }//迭代结束
    return(likelihood);
}


/*
 * compute likelihood bound
 *
 */
//按照论文附录(15)式计算L(gamma,phi;alpha,beta)
double
compute_likelihood(document* doc, lda_model* model, double** phi, double* var_gamma)
{
    double likelihood = 0, digsum = 0, var_gamma_sum = 0, *dig=(double *)malloc(sizeof(double)*(model->num_topics));
    int k, n;

    for (k = 0; k < model->num_topics; k++)
    {
	dig[k] = digamma(var_gamma[k]);
	var_gamma_sum += var_gamma[k];
    }
    digsum = digamma(var_gamma_sum);
	//论文(14)式中的Eq，第1个和第4个是合在一起再拆分算的，第2，3，5个是合在一起算的
	//Eq[logp(theta|alpha)]中的前两个部分 和 Eq[logq(theta)]中第一部分 
    likelihood =
	log_gamma(model->alpha * model -> num_topics)
	- model -> num_topics * log_gamma(model->alpha)
	- (log_gamma(var_gamma_sum));

    for (k = 0; k < model->num_topics; k++)
    {
    //Eq[logp(theta|alpha)]中的第三个部分 和 Eq[logq(theta)]中剩余的 
	likelihood +=
	    (model->alpha - 1)*(dig[k] - digsum) + log_gamma(var_gamma[k])
	    - (var_gamma[k] - 1)*(dig[k] - digsum);
	//Eq[logp(z|theta)] + Eq[logp(w|z,beta)] - Eq[logq(z)]
	for (n = 0; n < doc->length; n++)
	{
            if (phi[n][k] > 0)
            {
                likelihood += doc->counts[n]*
                    (phi[n][k]*((dig[k] - digsum) - log(phi[n][k])
                                + model->log_prob_w[k][doc->words[n]]));
            }
        }
    }
    return(likelihood);
}

3.5 lda-data.c

数据集读入

#include "lda-data.h"

corpus* read_data(char* data_filename)
{
    FILE *fileptr;
    int length, count, word, n, nd, nw;
    corpus* c;

    printf("reading data from %s\n", data_filename);
    c = malloc(sizeof(corpus));
    c->docs = 0;
    c->num_terms = 0;
    c->num_docs = 0;
    fileptr = fopen(data_filename, "r");
    nd = 0; nw = 0;
    while ((fscanf_s(fileptr, "%10d", &length) != EOF)) //读入每行数据的第一个数字，是文档的字典大小（文档中单词去重的个数）
    {
	//对于第nd个文档
	c->docs = (document*) realloc(c->docs, sizeof(document)*(nd+1)); //（数据类型*）realloc（要改变内存大小的指针名，新的大小）  新的大小一定要大于原来的大小，不然的话会导致数据丢失！
	c->docs[nd].length = length; //文档中出现过的单词的个数，也就是文档字典大小，是去重的
	c->docs[nd].total = 0; //文档中总单词个数，不去重，是对counts的求和。
	c->docs[nd].words = malloc(sizeof(int)*length); //文档中的word在文档集字典中的ID
	c->docs[nd].counts = malloc(sizeof(int)*length); //文档中word出现次数
	for (n = 0; n < length; n++)//读入每行数据剩下的数据，词频统计
	{
	    fscanf_s(fileptr, "%10d:%10d", &word, &count); //读入每个 [wordID：word出现次数]
	    word = word - OFFSET;
	    c->docs[nd].words[n] = word;
	    c->docs[nd].counts[n] = count;
	    c->docs[nd].total += count;
	    if (word >= nw) { nw = word + 1; } //nw记录文档集最大的那个word ID，也就是文档集字典中的单词个数
		//if (word >= nw) { nw = word; }

	}
		nd++; 
    }
    fclose(fileptr);
    c->num_docs = nd;
    c->num_terms = nw;
    printf("number of docs    : %d\n", nd);
    printf("number of terms   : %d\n", nw);
    return(c);
}

int max_corpus_length(corpus* c)//输出数据集中单词数（去重后）最多的文档的单词数，这个length是去重后的长度
{
    int n, max = 0;
    for (n = 0; n < c->num_docs; n++)
	if (c->docs[n].length > max) max = c->docs[n].length;
    return(max);
}

3.6 lda-alpha.c

牛顿法计算模型参数alpha

#include "lda-alpha.h"
#include "lda-inference.h"
/*
 * objective function and its derivatives
 *
 */

double alhood(double a, double ss, int D, int K)
{ return(D * (log_gamma(K * a) - K * log_gamma(a)) + (a - 1) * ss); }

double d_alhood(double a, double ss, int D, int K)
{ return(D * (K * digamma(K * a) - K * digamma(a)) + ss); }

double d2_alhood(double a, int D, int K)
{ return(D * (K * K * trigamma(K * a) - K * trigamma(a))); }


/*
 * newtons method
 *
 */

double opt_alpha(double ss, int D, int K)
{
    double a, log_a, init_a = 100;
    double f, df, d2f;
    int iter = 0;

    log_a = log(init_a);
    do
    {
        iter++;
        a = exp(log_a);
        if (isnan(a))
        {
            init_a = init_a * 10;
            printf("warning : alpha is nan; new init = %5.5f\n", init_a);
            a = init_a;
            log_a = log(a);
        }
        f = alhood(a, ss, D, K); //附录A4.2中的L(a)
        df = d_alhood(a, ss, D, K); //L对a的一阶偏导
        d2f = d2_alhood(a, D, K); //二阶偏导
        log_a = log_a - df/(d2f * a + df);//迭代公式
        printf("alpha maximization : %5.5f   %5.5f\n", f, df);
    }
    while ((fabs(df) > NEWTON_THRESH) && (iter < MAX_ALPHA_ITER));
    return(exp(log_a));
}

还有cokus.c 和 utils.c 中是一些数学计算的函数。

你可能感兴趣的:(machine,learning)

【学习笔记】李宏毅2021春机器学习课程第2.3节：Adaptive Learning Rate Harryline-lx 机器学习机器学习人工智能深度学习
文章目录Trainingstuck≠SmallGradientDifferentparametersneedsdifferentlearningrateRootmeansquareAdagradRMSPropAdamLearningRateSchedulingTrainingstuck≠SmallGradient首先要明确的一点是，目前当我们用gradientdescend来做optimizati
Go 语言的协程（goroutine） yymagicer go golang 算法
Go语言的协程（goroutine）是轻量级的并发机制，可以理解为Go中的线程，但它比线程更轻量，且由Go语言的运行时调度器管理。下面详细说明Go协程的原理、使用方法以及应用场景。1.协程原理Go协程（goroutine）在运行时由Go调度器管理，其运行时模型不同于传统的操作系统线程。Go的调度器采用M模型，即多个goroutine由少量的线程管理和调度。它依赖于两个关键组件：M（Machine）
Windows 11 安装 Docker mrljw docker 容器运维
1.以管理员身份打开WindowsPowerShell2.执行下面三行命令来启动WSL和虚拟机平台dism.exe/online/enable-feature/featurename:Microsoft-Windows-Subsystem-Linux/all/norestartdism.exe/online/enable-feature/featurename:VirtualMachinePlat
Oracle DBA日常任务——查杀死锁薛定谔之死猫脚本语言编程 oracle 任务 session object kill access
Oracle的锁分为两大类，一类就是极为常见的DML事务锁，是为保障数据库系统数据一致性而存在的锁，其中分共享锁、排它锁等，不同的DBMS对这类锁的实现参差不齐；另一大类锁就是DDL级锁，这类锁一般出现在开发或发布时候，一旦出现比较棘手。下面就两类所的锁查找和灭杀做一个阐述。1、查找DML锁selectp.spid,s.sid,s.serial#,s.username,s.machine,s.os
【deepseek】论文笔记--DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning 大表哥汽车人人工智能大语言模型学习笔记论文阅读人工智能 deepseek
DeepSeek-R1论文解析1.论文基本信息标题：DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsviaReinforcementLearning作者：DeepSeek-AI团队（联系邮箱：research@deepseek.com）发表时间与出处：2024年，AIME2024（人工智能与数学教育国际会议）关键词：ReinforcementLe
ECE 219 Models and Algorithms 后端
Large-ScaleDataMining:ModelsandAlgorithmsECE219Winter2025Project2:DataRepresentationsandClusteringDueFebruary07,2025by11:59pmIntroductionMachinelearningalgorithmsareappliedtoawidevarietyofdata,includi
论文代码阅读及部分复现：Revisiting Deep Learning Models for Tabular Data thorn_r 论文阅读深度学习人工智能
论文地址：https://arxiv.org/pdf/2106.11959.pdf项目地址：GitHub-yandex-research/rtdl-revisiting-models:(NeurIPS2021)RevisitingDeepLearningModelsforTabularData相关数据：https://www.dropbox.com/s/o53umyg6mn3zhxy/2024年2
零基础入门机器学习 -- 第一章什么是机器学习？山海青风 #机器学习机器学习人工智能 python
1.1机器学习的定义机器学习（MachineLearning,ML）是让计算机从数据中学习，然后在没有明确编程的情况下进行预测或决策的技术。传统编程：程序员写出明确的规则，例如“如果温度低于0℃，显示‘结冰’”。机器学习：计算机分析历史天气数据，自行找出“低温→可能结冰”的规律，然后对新数据进行预测。机器学习的核心思想是：数据+算法=经验+预测能力。1.2机器学习vs传统编程特点传统编程机器学习规
【开发语言】层次状态机(HSM)介绍 CSUC qt 开发语言
层次状态机（HierarchicalStateMachine,HSM），从基本原理、结构设计、实现方法以及如何结合Qt进行具体实现等方面进行分析。1.层次状态机的基本原理层次状态机是一种用于管理复杂系统行为的状态机模型，它通过将状态组织成层次结构来简化设计和维护。这种结构使得复杂的逻辑可以分解为更小、更易于管理的部分。关键概念：状态（State）:系统在某一时刻所处的条件或模式。事件（Event）
HAMIL-QA：心房 LGE MRI 质量评估的多实例学习分层方法小杨小杨1 #全监督学习
文章目录HAMIL-QA:HierarchicalApproachtoMultipleInstanceLearningforAtrialLGEMRIQualityAssessment摘要方法实验结果HAMIL-QA:HierarchicalApproachtoMultipleInstanceLearningforAtrialLGEMRIQualityAssessment摘要背景：通过高质量的3D晚
Python 中如何 import 绝对路径的模块斐硕人僧旅 python 开发语言后端
问题：jupter-lab使用时用到其他文件夹下的一个自定义模块，试图使用绝对路径导入解决方式：importsyssys.path.append('模块所在路径')import路径下需要的模块使用场景：importsyssys.path.append('/Users/feishuoren/Projects/pytorch_learning/')#自定义模块fromtorchLearningimpo
DeepSeek底层揭秘——知识图谱与语料库的联邦学习架构 9命怪猫知识图谱架构人工智能
目录1.知识图谱与语料库的联邦学习架构2.技术要素3.技术难点与挑战4.技术路径5.应用场景6.最新研究与技术进展7.未来趋势8.实际案例猫哥说1.知识图谱与语料库的联邦学习架构(1)定义“知识图谱与语料库的联邦学习架构”是一种结合知识图谱（KnowledgeGraph,KG）、语料库（Corpus）和联邦学习（FederatedLearning,FL）的分布式学习框架。其核心目标是通过联邦学习技
书籍-《机器学习数学基础》机器学习深度学习数学
书籍：MathematicsforMachineLearning作者：MarcPeterDeisenroth，A.AldoFaisal，ChengSoonOng出版：CambridgeUniversityPress编辑：陈萍萍的公主@一点人工一点智能下载：书籍下载-《机器学习数学基础》01书籍介绍理解机器学习所需的基本数学工具包括线性代数、解析几何、矩阵分解、向量微积分、最优化、概率论和统计学。这
opencv交叉编译月光下的麦克 opencv 人工智能计算机视觉
适用于瑞芯微，海思，酷芯等ARM平台。采用编译脚本配置编译选项，方便编译。目录一、创建目录二、工具链配置三、编译脚本四、编译一、创建目录mike@mike-virtual-machine:opencv-4.12/opencv/opencv$tree.-L1.├──3rdparty├──apps├──armlinux.toolchain.cmake├──build├──build.sh├──cmak
书籍-《强化学习数学基础》强化学习数学人工智能
书籍：MathematicalFoundationsofReinforcementLearning作者：赵世钰出版：Springer编辑：陈萍萍的公主@一点人工一点智能下载：书籍下载-《强化学习数学基础》01书籍介绍本书对基本概念、核心挑战和经典强化学习算法进行了数学但易于理解的介绍。它旨在帮助读者理解算法的理论基础，提供对其设计和功能的见解。整个过程中包括许多说明性示例。数学内容经过精心设计，以
攻克AWS认证机器学习工程师（AWS Certified Machine Learning Engineer） - 助理级别认证：我的成功路线图硅基创想家 AI-人工智能与大模型 aws 机器学习云计算 AWS认证
引言当我决定考取AWS认证机器学习工程师-助理（AWSCertifiedMachineLearningEngineer—Associate）级别证书时，我就预料到这将是一段充满挑战但回报颇丰的旅程。跟你说吧，它在这两方面都没让我失望。这项考试面向的是不仅理解机器学习原理，还对AWS生态系统有扎实基础认知的专业人士。如果你还未达到AWS认证解决方案架构师-助理级别的水平，那你得先夯实这些基础。一个不
机器翻译技术的演进与未来趋势：从规则到神经网络的革新 Echo_Wish 人工智能前沿技术机器翻译神经网络人工智能
随着全球化的不断推进和多语言交流的日益频繁，机器翻译（MachineTranslation,MT）技术的需求日益增长。机器翻译技术经历了从基于规则的方法到统计方法，再到如今的神经网络方法的发展历程。本文将探讨机器翻译技术的演进过程及其未来趋势，并结合Python代码示例，展示现代机器翻译技术的应用。一、机器翻译技术的发展历程1.基于规则的机器翻译（RBMT）早期的机器翻译技术主要基于规则（Rule
Java虚拟机：JVM介绍啊Q老师 #JVM篇 Java开发技术从零到壹 JVM概述 JVM架构
1024程序员节日快乐！愿您我的代码永远没有bug，人生永远没有bug！JVM概述JVM架构概述JVM（JavaVirtualMachine，Java虚拟机），是Java语言的运行环境，是运行所有Java程序的抽象计算机（一个虚构出来的计算机，通过在实际的计算机上仿真模拟各种计算机功能来实现）。JVM的主要功能是执行Java字节码，JVM是Java程序的中间表示形式，是Java程序从源代码到实际运
强化学习算法：蒙特卡洛树搜索 (Monte Carlo Tree Search) 原理与代码实例讲解杭州大厂Java程序媛 DeepSeek R1 &AI人工智能与大数据 java python javascript kotlin golang 架构人工智能
强化学习算法：蒙特卡洛树搜索(MonteCarloTreeSearch)原理与代码实例讲解关键词：蒙特卡洛树搜索,强化学习,决策树,搜索算法,博弈策略,应用场景,代码实现1.背景介绍1.1问题由来强化学习（ReinforcementLearning,RL）是人工智能领域的一个核心分支，专注于通过与环境交互，学习最优策略以实现特定目标。传统的强化学习算法，如Q-learning、SARSA等，通常依
推荐项目：AWS Certified Machine Learning Specialty (MLS-C01) 课程赵鹰伟Meadow
推荐项目：AWSCertifiedMachineLearningSpecialty(MLS-C01)课程AmazonSageMakerCourseInthisAWSMachineLearningSpecialtyCourse,Youwillgainfirst-handexperienceonhowtotrain,optimize,deploy,andintegrateMLinAWScloud.Le
AnyPlace：学习机器人操作的泛化目标放置硅谷秋水计算机视觉大模型智能体机器人机器学习计算机视觉人工智能语言模型深度学习
25年2月来自多伦多大学、VectorInst、上海交大等机构的论文“AnyPlace:LearningGeneralizedObjectPlacementforRobotManipulation”。由于目标几何形状和放置的配置多种多样，因此在机器人任务中放置目标本身就具有挑战性。为了解决这个问题，AnyPlace，一种完全基于合成数据训练的两阶段方法，能够预测现实世界任务中各种可行的放置姿势。其
深入解析 JVM vs JDK vs JRE：三者区别与联系详解李老头探索 jvm java 开发语言
深入解析JVMvsJDKvsJRE：三者区别与联系详解在学习Java的过程中，JVM、JDK和JRE是最常提到的三个术语。然而，很多初学者甚至有经验的开发者对它们之间的区别和联系常常感到困惑。本文将从基础概念、组成结构和使用场景等方面详细讲解，帮助你彻底搞清楚JVM、JDK和JRE。点击获取2024Java学习资料1.什么是JVM？定义：JVM（JavaVirtualMachine，Java虚拟机
17.推荐系统的在线学习与实时更新郑万通推荐系统
接下来就讲解推荐系统的在线学习与实时更新。推荐系统的在线学习和实时更新是为了使推荐系统能够动态地适应用户行为的变化，保持推荐结果的实时性和相关性。以下是详细的介绍和实现方法。推荐系统的在线学习与实时更新在线学习的概念在线学习（OnlineLearning）是一种机器学习方法，与传统的批量学习（BatchLearning）不同，在线学习模型能够在数据流到达时逐步更新，而不是在整个数据集上训练一次。这
FPGA状态机设计 FPGA小学生 fpga 状态机 verilog
B站对应讲解本文视频链接状态机：状态机是逻辑设计里面重要的内容，许多公司的硬件和逻辑工程师面试中，状态机设计几乎是必选题目。所以本次以状态机为话题进行重点讨论，以及如何写好状态机。状态机全称是有限状态机（FiniteStateMachine、FSM），是表示有限个状态以及在这些状态之间的转移和动作等行为的数学模型。本篇博客对相关概念以及使用状态机实现特定字符串的检测，并通过程序具体理解一段式、两段
KDD 2023 | 先睹为快！KDD 2023论文合集50篇（附下载地址）马拉AI 机器学习人工智能深度学习
下载地址：点我跳转1.DoubleAdapt:AMeta-learningApproachtoIncrementalLearningforStockTrendForecastingCode：NoneArea：一种用于股票趋势预测增量学习的元学习方法2.HomoGCL:RethinkingHomophilyinGraphContrastiveLearningCode：https://github.c
springcloud 启动时报org.springframework.beans.factory.BeanCreationException注入 bean 失败异常。 Gelbes Ferkel intellij-idea maven spring
springcloud启动时就报bean注入异常。/Library/Java/JavaVirtualMachines/jdk1.8.0_181.jdk/Contents/Home/bin/java-XX:TieredStopAtLevel=1-noverify-Dspring.output.ansi.enabled=always-Dcom.sun.management.jmxremote-Dspr
日志2025.2.11 science怪兽 unity
日志2025.2.111.增加了敌人滚动这个特殊技能//具有翻滚技能的敌人实现翻滚publicvoidActivateDodgeRoll(){if(meleeType!=EnemyType_Melee.Dodge){return;}if(stateMachine.currentState!=chaseState){return;}animator.SetTrigger("DodgeRoll");}
蓝桥杯真题 - 更小的数 - 题解 ExRoc 蓝桥杯 c++算法
题目链接：https://www.lanqiao.cn/problems/3503/learning/个人评价：难度2星（满星：5）前置知识：区间dp整体思路反转区间[l,r][l,r][l,r]内的数字，范围外所有数字仍然与原数相等，所以只要[l,r][l,r][l,r]范围内的数字反转后比原来小，整个数字就比原来的数字小；朴素的比较方法是：O(n2)O(n^2)O(n2)枚举所有区间，对于被反
Cartesi 生态系统动态 #1 (2025年) Black_mario 区块链
技术新版CartesiMachine即将发布，带来一些激动人心的新功能。通过最新优化，原生运行变得更简单且速度提升两倍。节点方面，稳定版V2已正式推出。在Espresso的支持下，它将为即将推出的测试网中的DrawingCanvas提供支持。Cartesi与EigenLayer携手合作第三届实验周，在Cartesi基于Linux的协处理器与EigenLayer的重质押协议交汇处，展开为期一周的新用
快速搭建GRU循环神经网络预测模型智汇未来 rnn 深度学习 gru 人工智能神经网络 matlab 算法
首先，我需要使用GRU神经网络进行预测。GRU是GatedRecurrentUnit的缩写，是一种常用的循环神经网络结构，适用于序列数据的预测任务。但是，我需要确保MATLAB支持GRU网络的创建和训练。让我想想，MATLAB的DeepLearningToolbox提供了设计和训练神经网络的功能，包括GRU层。等等，我需要确认一下如何在MATLAB中创建包含GRU层的网络。好的，那我就开始写代码吧
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数