文本向量化——以句子为单位 (主题词模型)

文本向量化——以词为单位

以词为单位的文本向量化方法 : SOW, BOW, n-gram, TF-IDF, word2vec

以句子为单位的主题模型方法 :
LSA
NMF
pLSA
LDA等

Pq topic model

Si nous avons deux articles, genre comme “bru” et “belle-fille”. Au vue du mot, ils sont deux mots complètement différents, c’est difficile de les régler par la fréquence de mot. Mais ils évidemment aient les mêmes sens. Ici, on peut les traiter par topic model, sopposon qu’ils deux ont sens sous-jacents “épouser mon fils” et “se mariger avec un homme”, then, on calculera leurs similarité avec leurs topics occultes

Topic models principaux

							01 LDA

1.1, concepts

1.2, codes

							02 LSA

2.1, concepts

2.2 codes

							03 NMF

3.1, concepts

3.2, codes

							04 pLSA

4.1, concepts

4.2, codes

你可能感兴趣的:(machine,learning)