Spark(46) -- SparkStreaming整合kafka数据源

1. 回顾 Kafka

可以看我前面kafka文章

核心概念图解

  • Broker : 安装Kafka服务的机器就是一个broker
  • Producer :消息的生产者,负责将数据写入到broker中(push)
  • Consumer:消息的消费者,负责从kafka中拉取数据(pull),老版本的消费者需要依赖zk,新版本的不需要
  • Topic: 主题,相当于是数据的一个分类,不同topic存放不同业务的数据 --主题:区分业务
  • Replication:副本,数据保存多少份(保证数据不丢失) --副本:数据安全
  • Partition:分区,是一个物理的分区,一个分区就是一个文件,一个Topic可以有1~n个分区,每个分区都有自己的副本 --分区:并发读写
  • Consumer Group:消费者组,一个topic可以有多个消费者/组同时消费,多个消费者如果在一个消费者组中,那么他们不能重复消费数据 --消费者组:提高消

你可能感兴趣的:(大数据学习,spark)