大数据实战项目(1)-项目简介、开发技术、工具、架构等

项目目标

  • 完成大数据项目的架构设计,安装部署,架构继承与开发,用户可视化交互设计
  • 完成实时在线数据分析
  • 完成离线数据分析

具体功能

  • 捕获用户浏览日志信息(TB)
  • 实时分析前N名流量最高的新闻话题
  • 实时统计当前线上已曝光的新闻话题
  • 统计哪个时段用户浏览量最高
  • 报表展示

工具、技术、语言

开发工具

  • VMware Workstation
  • CentOS 6.4
  • Xshell 6
  • FileZilla
  • IntelliJ IDEA 2018
  • Notepad++
  • maven-3.6.0

项目技术点

  • zookeeper-3.4.5-cdh5.10.0
  • hadoop-2.6.0
  • hbase-1.0.0-cdh5.4.0
  • spark-2.2.0
  • kafka_2.11-0.10.0.0
  • flume-1.7.0-bin
  • hive-2.1.0
  • hue-3.9.0-cdh5.15.0
  • mysql
  • J2EE
  • Websocket
  • Echarts

项目语言

  • jdk1.8.0_191
  • scala-2.11.12
  • shell

架构、数据流程、资源规划

数据流程

大数据实战项目(1)-项目简介、开发技术、工具、架构等_第1张图片

(图片来自于所学课程)

集群资源规划

bigdata-pro01.bigDAta.com bigdata-pro02.bigDAta.com bigdata-pro03.bigDAta.com
HDFS NameNode DataNode NameNode DataNode DataNode
YARN RescourceManager NodeManager RescourceManager NodeManager NodeManager
ZooKeeper ZooKeeper ZooKeeper ZooKeeper
Kafka Kafka Kafka Kafka
HBase Master RegionServer Master RegionServer RegionServer
Flume 日志合并预处理 日志采集 日志采集
MySQL MySQL
Spark Spark worker Spark master worker Spark worker
Hive Hive
Hue Hue

大数据实战项目(2)-数据采集、处理、分发流程所涉及到的框架及配置
大数据实战项目(3)-离线处理及实时处理部分

你可能感兴趣的:(big_data)