《textanalytics》课程简单总结(3):text clustering

coursera上的公开课《https://www.coursera.org/course/textanalytics》系列,讲的非常不错哦。


1、text clustering的总体思想:

类似于topic mining,但要求每个text只有一个主题构成

To generate a document, firstchoose a theta_i according to  p(theta_i), and then generateall words in the document using p(w|theta_i) 。


2、text clustering和topic mining的文本产生公式的区别:

每个document的产生有区别:

《textanalytics》课程简单总结(3):text clustering_第1张图片

语料库产生无差别:

给定documents collection C={d1,...,dn},则都是:



3、EM algorithm for text clustering:

《textanalytics》课程简单总结(3):text clustering_第2张图片


4、(An Example of 2 Clusters for)EM text clustering:

《textanalytics》课程简单总结(3):text clustering_第3张图片


《textanalytics》课程简单总结(3):text clustering_第4张图片

你可能感兴趣的:(《textanalytics》课程简单总结(3):text clustering)