BERTopic

BERTopic

  1. doc2vec (sentence BERT)
  2. doc_emb reduce dimension (UMAP)
  3. clustering to generate topics (HDBSCAN)
  4. find key words for every topic (class TF-IDF)


    BERTopic.png

UMAP

属于降维技术
核心思想是在高纬度空间相近的点在低纬度空间也应该相近,反之亦然。
涉及到:

  1. 计算每个点跟其他点的similar_score 加和等于 log2(neighbor_num)
  2. 根据t分布调整点与点之间的相对位置
    核心参数是临近neighbor的个数,需要调参。
    具体参考视频:https://www.youtube.com/watch?v=eN0wFzBA4Sc

HDBSCAN 层次密度聚类

自动聚类 不需要像k-means指定类簇个数

  1. Estimate the densities
  2. Pick regions of high density
  3. Combine points in these selected regions

参考

  1. https://towardsdatascience.com/a-gentle-introduction-to-hdbscan-and-density-based-clustering-5fd79329c1e8
  2. https://pberba.github.io/stats/2020/01/17/hdbscan/
  3. https://hdbscan.readthedocs.io/en/latest/how_hdbscan_works.html

你可能感兴趣的:(BERTopic)