滑动窗口 TOPN 技术实现演变

需求:

        文章表一张。

        每小时,统计出上一个小时(发文时间)文章内容中出现最多的前100个单词。

        其实就是一个 滑动窗口 TOPN

 

       方案1:单机单线程,定时每小时统计上一个小时的文章单词的前100个。

       优点:简单

       缺点: 数据量大,速度慢

 

   

      方案2:单机多线程,定时每小时统计上一个小时的文章单词的前100个。

       优点:较简单

       缺点: 数据量大,速度较慢

 

       方案3:多机多线程,Spark streaming, storm 

       优点: 复杂

       缺点: 数据量大,速度较块

       

 

 

 

       

你可能感兴趣的:(滑动窗口 TOPN 技术实现演变)