初探文本聚类

初探文本聚类
文本聚类是搜索引擎和语义web的基本技术,本文简单的文本聚类算法,对于想学搜索技术的初学者有一定入门作用的。这里会用到TF/IDF权重,用余弦夹角计算文本相似度,用方差计算两个数据间欧式距离,用k-means进行数据聚类等数学和统计知识。

你可能感兴趣的:(初探文本聚类)