Single-Pass聚类算法 及其在新事件探测中的应用


 

Single-pass算法的思想是


按一定顺序依次读取数据,每次读取的新数据都和已经读取并聚类的数据进行比较,如果按照一定规则找到相应的近似组别,则将这个新数据归入这个类中,如果没有,则将这个新数据视为一个新类。就这样反复执行,直到所有的数据都读完。整个过程只对数据进行一次读取(single)。

 

Single-Pass算法又称单通道法或单遍法,是流式数据聚类的经典方法。对于依次到达的数据流,该方法按输入顺序每次处理一个数据,依据当前数据与已有类的匹配度大小,将该数据判为已有类或者创建一个新的数据类,实现流式数据的增量和动态聚类。

Single-Pass算法是一种增量算法,适合对流数据进行挖掘,而且算法的时间效率高;不足之处主要表现在该方法具有输入次序依赖特性,即对于同一聚类对象按不同的次序输入,会出现不同的聚类结果。



Single-Pass聚类算法在新事件探测中的应用


将要检测的文档,可以视为按时间排序的文档流,该算法将按照这个流顺序顺次地处理每一个新的文档。

 

利用特征选取技术,对文档内容生成相对应的查询表示。

对新文档进行计算初始阈值。

将这篇新文档与内存中已存在的查询表示做比较。

如果这篇新文档较以前的查询表示并未超过其阈值,则将这个文档标记为其包含新事件。

如果这篇新文档触发了某个已有的查询,则将这个文档标记为不包含新事件。

读取下一篇文档,并继续以上过程。

 

这里将每篇文档的内容表示为一个查询(query)。如果一篇文档触发(trigger)了已存在的查询A,则认为这篇文档讨论了A查询中的事件,否则,将这篇文档视为包含新的事件。

 --------------------------------------------------------------------------------------------------------------------






参考文献:

Ron Papka,James Allan.On-Line New Event Detection using Single-Pass Clustering.

你可能感兴趣的:(舆情系统,算法分析)