聚类

        一条数据,与某些数据之间是比较相似的,而与其他一些数据是差别较大的。我们把一些相似度较高的数据归为一类,把另一些相似度较高的数据归为另外一类,这样,最后可能会出现几个数据集,也叫做数据簇。

分类与聚类

    简单地说,分类(Categorization or Classification)就是按照某种标准给对象贴标签(label),再根据标签来区分归类。聚类是指事先没有“标签”而通过某种分析找出事物之间存在聚集性原因的过程。

分类器需要由人工标注的分类训练数据训练得到,属于有指导学习范畴。聚类则没有事先预定的类别,类别数不确定,类别在聚类过程中自动生成 。

所以,分类适合类别或分类体系已经确定的场合,比如按照国图分类法分类图书;聚类则适合不存在分类体系、类别数不确定的场合,一般作为某些应用的前端,比如多文档文摘、搜索引擎结果后聚类(元搜索)等。

你可能感兴趣的:(聚类)