大数据教育平台数仓实时计算实现 附安装包与脚本

一、Spark Streaming

Spark Streaming 是核心Spark API的扩展,可实现实时数据的可扩展,高吞吐量,容错处理。数据可以从许多来源(如Kafka,Flume,Kinesis,或TCP套接字)中获取,并可以使用高级函数进行处理,处理完后的数据可以推送到文件系统,数据库和实时仪表板。

大数据教育平台数仓实时计算实现 附安装包与脚本_第1张图片

在内部,他的工作原理如下,Spark Streaming接收实时输入数据流并将数据分成批处理,然后由Spark引擎处理以批处理生成最终结果流。 

大数据教育平台数仓实时计算实现 附安装包与脚本_第2张图片

二、实时项目需求架构设计

1、项目需求分析

  • 数据采集平台搭建
  • Kafka、Zookeeper中间件准备
  • 下游Spark Streaming对接Kafka接收数据,实现vip个数统计、栏目打标签功能、做题正确率与掌握度的实时计算功能。

2、技术选型

  • 数据存储:Kafka、MySql
  • 数据处理:Spark

你可能感兴趣的:(Hadoop,Hive,Spark,大数据安全,大数据,spark,分布式)