大数据系统的多种处理技术

对于仅需要批处理的工作负载,如果对时间不敏感,比其他解决方案实现成本更低的Hadoop将是一个比较好的选择。

仅需流式处理的工作负载,Starm可支持更广泛的语言并实现极地延迟的处理。但默认配置可能产生重复结果并且无法保证顺序。

Smaza与YARN和kafka密集成可提供更大灵活性,更易用的多团队使用,以及更简单的复制和状态管理。

对于混合型工作负载,Spark可提供高速批处理和微批处理批次的流处理,该技术支持完善,具备各种集成库和工具,可实现灵活的集成。

Flink提供了真正的流处理并具备批处理能力。

你可能感兴趣的:(大数据系统的多种处理技术)