大数据争论:批处理与流处理的C位之战

数据无疑是当今数字经济中的新货币,但要跟上企业数据变化和递增的业务信息需求,仍然是非常艰难。这也就解释了公司将数据从传统基础构架中迁移至云中,以衡量数据驱动决策的原因。这可确保公司宝贵资源——数据——受到监管,值得信任,方便管理和访问。

虽然企业也认可:基于云的技术是确保跨企业间的数据管理、数据安全、隐私和流程合规性的关键,但关于如何更快地处理数据仍然存在一个有趣的争论。那就是批处理与流处理之间的PK。

每种处理方法都有其优缺点,但如何选择还是依据具体的业务需求。下面会深入探讨哪些用例需要使用批处理,又有哪些用例需要使用流处理。

批处理和流处理之间有什么区别?

批次是在特定时间间隔内组合在一起的数据点集合。通常用于此的另一个术语是数据窗口。流处理,用于处理连续数据,是将大数据转换为快速数据的关键。这两种模型都很有价值,每种模型都可用于解决不同的用例。他们甚至可以“融合”,可以在数据流中做数据窗口,也就是微批量。

虽然批处理模型需要时间段内收集的一组数据,但流处理需要将数据送入分析工具中,通常以实时微批量方式送入。处理来自传统架构的大量数据或数据源时经常使用批处理,而在流中直接处理数据是不可行的。根据定义,批处理数据还需要将批处理需要的所有数据加载成某种类型的存储、数据库或文件系统,然后才进行处理。有时,在开始分析阶段之前,IT团队可能会无所事事地等待,直至所有数据加载完成。

大数据争论:批处理与流处理的C位之战_第1张图片

流处理也可以用于处理大量数据,但是当您不需要实时分析时,批处理工作效果最佳。由于流处理负责处理运动中的数据并快速提供分析结果

你可能感兴趣的:(大数据,大数据)