Spark+Scala:数据分析统计

本项目适合初学者,订阅该 Chat 前,希望您:

  1. 了解 Scala 语法;
  2. 已经安装好 Logstash(项目中不会讲解 Logstash 的安装);
  3. 知晓 Spark 基本操作,例如:Map、Filter、foreachPartition 等;
  4. 了解 Kafka。

该项目大概架构为:

  1. 利用 Python 生成相对应的文件格式,当做 Demo 日志供程序调用;
  2. 通过 Logstash,筛选出符合要求的数据,并存入 Kafka;
  3. 通过 KafkaUtils.createDirectStream 读取 Kafka 中数据,并进行分析(该处其版本为 Spark-Streaming-Kafka-0-10:2.3.1);
  4. 存入数据库。

本项目模拟分析的文件暂定为统计电视剧的播放量,通过本次例子,希望您可以了解并学会如何统计例如网站到访量分析、广告点击量分析、日常程序 Log 日志分析。

除此之外,本项目还会对日常程序 Log 的日志分析进行讲解,并附带小部分 Python 爬虫知识。

阅读全文: http://gitbook.cn/gitchat/activity/5badfebb524a5b4df6f91c64

您还可以下载 CSDN 旗下精品原创内容社区 GitChat App ,阅读更多 GitChat 专享技术内容哦。

FtooAtPSkEJwnW-9xkCLqSTRpBKX

你可能感兴趣的:(Spark+Scala:数据分析统计)