基于Storm的海量数据实时聚类

title:基于Storm的海量数据实时聚类

contribution

本文提出的聚类方案是基于DBSCAN密度聚类的方法。首先对于输入的样本进行缓冲,当缓冲样本的数量达到条件之后,对这些批量的样本(mini-batch)进行密度聚类,得到相应的核心对象。

对于历史的已经聚好类的样本,需要维护核心对象列表,然后将新来的mini-batch得到的核心对象和该列表重新进行DBSCAN聚类,如果核心对象在一起,则合并两个类簇。

你可能感兴趣的:(基于Storm的海量数据实时聚类)