lda实验相关

(一)lda训练:数据很大,使用R的lda包,进行数据的处理及分析,其中重要的几个参数的输入的设置依据:

数据比较大,主要参考的是SIGIR'06 的论文LDA-Based Document Models for Ad-hoc Retrieval。K=400,alpha=50/K, eta或者beta=0.01,iteration number=30.

(二)topic相似度

这个继续找论文看比较权威的相似度计算方法,未完待续。

这个比较权威:Divergence Measures Based on the Shannon Entropy

你可能感兴趣的:(lda实验相关)