Storm 入门

storm 是什么

apache顶级项目,免费开源分布式实时流处理计算系统,能实现高频数据和大规模数据的实时处理
storm 官网
storm github

Storm vs Hadoop

  • 数据源/处理领域:实时 vs 离线
  • 处理过程: Spout Bolt vs Map Reduce
  • 进程是否结束:否 vs 是
  • 处理速度:快 vs 慢
  • 使用场景

Storm核心概念

  • Topologies: 计算拓扑由spout和bolt组成,将整个流程串起来
  • Streams: 消息流(数据流/水流),没有边界的tuple构成
  • Tuple: 消息/数据,传递的基本单元
  • Spouts: 消息流的源头(产生数据/水的东西)
  • Blots:消息处理单元(处理数据/水的东西 (水壶),可以做过滤、聚合、查询、写数据库操作

你可能感兴趣的:(Storm 入门)