关于无监督、聚类和主题模型

Some references

  • http://www.52nlp.cn/2012/04
  • https://github.com/Computing-Intelligence/References
  • http://web.stanford.edu/class/cs224n/
  • https://study.163.com/course/courseLearn.htm?courseId=1004570029#/learn/video?lessonId=1052316982&courseId=1004570029

1 吴恩达ML

Clustering

image.png

K-Means (usually two steps in each inner loop)

image.png

First step: Cluster assignments steps
Next: move cluster centroid to where close to the average of other dots

image.png

Optimization objective
image.png

distortion function

Random Initialization

随机选点

容易陷入局部最优 所以要多次kmeans

K值较小时random可以更好的最小化畸变函数而比较好地聚类

Choosing the number of K
更多的时候是自己设置,there isnt always a good answer

elbow并不常用

image.png

2. 北理工ML

主题模型

发展历程

image.png

MK矩阵:每个词w 在 m行文档K列主题 的分布矩阵
image.png

吉布斯采样

3. 周志华ML

聚类

  • 聚类试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集 称为一个"簇" (cluster). 聚类过程仅能自动形成簇结构,簇所对应的概念语义需由使用者来把握和命名.
  • 性能度量:聚类结果的"簇内相似 度" (intra-cluster similarity)高且"簇间相似度" (inter-cluster similarity)低. 聚类性能度量大致有两类. 一类是将聚类结果与某个"参考模 型" (reference model)进行比较,称为"外部指标" (external i丑dex); 另一 类是直接考察聚类结果而不利用任何参考模型,称为"内部指标" (internal index).

Prototype-based clustering

K-means


你可能感兴趣的:(关于无监督、聚类和主题模型)