读论文笔记(1)——web文本挖掘技术研究

刚开始接触,从中文的开始,有点大概的了解吧。。。
-------------------------------------------------------------
提到的文本聚类:
大致可以分类为两种类型:
(1) 以G-HAC等算法为代表的层次凝聚法
(Mladenic D. feature subset in text-learning. In proc of the 10th European conf. on Machine learning ECML98,1998)
(2) 以K-MEANS等算法为代表的平面划分法
(Sagar N. Sublanguage: Linguistic Phenomenon ,Computational Tool. 1986)

文本特征表示中, 矢量空间模型(VSM)应用较多。
                        
层次凝聚:简单说就是对文档集中的每个文档进行相似度计算,把相似度最近的两个文档合并,重复步骤,直到只剩下一个簇为止。相当于构造了一颗生成树。
(缺点:运行速度慢,不适合大量文档的集合)

平面划分:确定要生产的聚类数目,生成这么多个数目的种子,然后计算文档与种子之间的距离,按最近原则划分,重复,直到聚类结果稳定。
(缺点,种子选取的好坏对结果有很大的影响)

你可能感兴趣的:(Web,算法)