大数据实战项目之新闻话题分析 学习笔记(二)——企业项目案例需求分析

文章目录

        • 第3章:企业项目案例需求分析
          • 案例需求分析
          • 系统架构设计
          • 系统数据流设计
          • 集群资源规划设计

第3章:企业项目案例需求分析

案例需求分析

用户日志行为分析(新闻网)业务需求:

1.捕获用户浏览日志信息(TB)
2.实时分析前20名流量最高的新闻话题
3.实时统计当前线上已曝光的新闻话题
4.统计哪个时段用户浏览量最高
5.报表等形式展示(提供给业务、领导做决策)

系统架构设计

系统架构图
大数据实战项目之新闻话题分析 学习笔记(二)——企业项目案例需求分析_第1张图片

系统数据流设计

数据流程图
大数据实战项目之新闻话题分析 学习笔记(二)——企业项目案例需求分析_第2张图片
备注:

HBase:一般应用于数据并发量较大读写的情况。因为是存在hdfs上,所以HBase有非常好的扩展性。
Hive-mapreduce:hive进行实时查询底层使用的mapreduce。

集群资源规划设计

机器资源足够的情况:
大数据实战项目之新闻话题分析 学习笔记(二)——企业项目案例需求分析_第3张图片
考虑到尽可能在本机执行,最后使用3台机器
大数据实战项目之新闻话题分析 学习笔记(二)——企业项目案例需求分析_第4张图片

实际配置及相关命令:
大数据实战项目之新闻话题分析 学习笔记(二)——企业项目案例需求分析_第5张图片
实际开发使用版本

虚拟机:
CentOS 6.4版本64位操作系统虚拟机

安装服务版本:
flume-1.7.0-bin
hadoop-2.5.0
hbase-0.98.6-cdh5.3.0
jdk1.8.0_11
kafka_2.11-0.10.0.0
zookeeper-3.4.5-cdh5.10.0
hive-0.13.1-bin
maven-3.3.9
scala-2.11.8
spark-2.2.0-bin

开发环境:
IDEA 2016.2
Tomcat 7.0.92
Jquery 3.2.1
Echarts 4.2.1

—————————————————————————————————————
说明:
此系列文章为网课学习时所记录的笔记,希望给同为小白的学习者贡献一点帮助吧,如有理解错误之处,还请大佬指出。学习不就是不断纠错不断成长的过程嘛~

你可能感兴趣的:(技术学习)