Spark-ClickHouse-ES实时项目第四天-消费Kafka数据

仓库位置

日志生成:https://github.com/SmallScorpion/gmall-mock.git
日志服务器:https://github.com/SmallScorpion/gmall-spark-ch-es-realtime.git

需求

Spark-ClickHouse-ES实时项目第四天-消费Kafka数据_第1张图片

分析

  1. 做日活,取启动日志“GMALL_SPARK_CK_ES_START”中的数据(事件日志也可以做,但是会麻烦一点)
  2. 消费kafka中的数据。
  3. 利用redis过滤当日已经计入的日活设备
  4. 把每批次新增的当日日活信息保存到ES中(也可以做一层聚合数据量变小之后保存到redis或者MDB中)
  5. 从ES中查询出数据,发布成数据接口,通可视化化工程调用。

消费Kafka数据测试

  1. 启动zookeeper和kafka
  2. 启动nginx和日志服务器
  3. 启动sparkstreaming
  4. 开启日志生成jar
    Spark-ClickHouse-ES实时项目第四天-消费Kafka数据_第2张图片

你可能感兴趣的:(ClickHouse,Spark,ElasticSearch,kafka)