大数据原理-流计算

概述

静态数据:数据仓库Hive只读数据(批量计算)
流数据:大量快速、变化实时(实时计算)

三大计算框架

hadoop:离线批量处理
spark:实时查询
storm:流计算

概念

实时获取数据分析获取价值
价值随时间降低

流计算处理流程

数据实时采集:日志数据
Agent主动采集数据推送到Collector
Collector接收后实现有序、可靠、高性能的转发
存储到Store

数据实时计算:数据实时计算后可以存储或者丢弃

实时查询服务:得出结果展示、实时推送给用户

应用

需要较高的实时性要求

Storm

处理流数据的框架(相当于hadoop之于批处理)

Stream:无限的Tuple序列

Tuple是一堆值,每个值有名字相当于键值对的形式

Sqout:数据源读取数据后封装成Tuple不断生成Tuple

Bolt:Storm将Streams抽象为Bolt处理Tuple
自动执行execute(Tuple input)方法

Topology(作业==job):数据流转换图、组件并行执行

Master:Nimbus后台
Worker:Supervisor后台,启动task
使用Zookeeper作为分布式协调组件

流程:

用户端提交Topology到Nimbus,Nimbus将任务存储在Zookeeper中,Supervisor获取分配的任务启动Worker,Worker进程执行具体的任务Task

你可能感兴趣的:(大数据原理)