一种快速高效的文本分类方法(二)

向量空间法(VSM)

在过去的40多年中,许多关于信息检索的研究工作都是围绕着Salton提出的向量空间法展开的,它也是被广泛使用的Smart系统的基础。在向量空间法中,每个文档被看成一个词袋,然后被表示成词条权重的向量:Di = (Wi1,Wi2,Wi3,...,Win),其中D表示一个文档,n表示词条空间的维数。每一个词条的权重代表了该词条在文档中的重要性。通常我们使用tf-idf方法或者它的一些变形来表示词条的权重。两个文档的相似度用它们对应向量的夹角的余弦值来表示。尽管向量空间法最初是用于信息检索,它也被广泛地用于许多分类系统。此时每个类用一个中心向量代表。分类时通过检查待分类文档和这些中心向量的相似度,把它分到最相似的中心向量所代表的类中。

你可能感兴趣的:(算法)