传统的大数据架构:
原始数据经过ETL之后进行数据处理然后直接落地提供服务.
本质上只是用大数据架构替换了之前的传统数据库,基本的思想没有发生变化,
流式架构:
原始数据进过数据拉取然后通过流式处理进行ETL和数据处理然后落地到本地或直接提供服务
在传统大数据架构的基础上流式架构非常的激进直接拔掉了批处理虽然有存储部分但是该存储更多的是以窗口的形式进行存储的,并非是发生在数据湖.
缺点不太稳定如果程序挂了数据分析也就停止了,会影响业务的逻辑.而且对离线的数据分析只支持窗口之内的数据的分析.
Lambda架构:
此架构是大数据系统里面举足亲重的架构,大多数的架构都是基于Lambda架构或者基于其的变种架构.主要将数据分析分成了两个分支:实时流和离线,实时的依照了流式架构,保障了时效性.而批处理则对数据进行全量的运算,保证其最终的一致性.
优点:既有实时又有离线,对于数据分析场景涵盖十分的到位.
缺点:离线层和实实时流的逻辑存在大量相同,因此大量的资源浪费
Kappa架构:
在Lambda的基础上进行了优化,将实时和流处理的部分进行了合并,将数据通道以消息队列的形式进行替代.确保其稳定性,还有降低了高并发时对程序的冲击.但依然是以流处理为主.将数据在湖面层进行了存储,当需要离线分析或者再次计算的时候,则将数据再次经过消息队列重播一次.
缺点:实施的难度相对来讲比较高尤其是在数据重播部分.
Unifield架构:
新增了机器学习和数据处理揉在一起,解决了机器学习如何与数据平台进行结合的问题.
缺点:实施的复杂度贼高,对于机器学习的架构来说,从软件部署都和数据分析平台有很大的差别.因此在实施的过程中难度系数更高.