hadoop学习笔记1了解流程大概

海量数据的存储hdfs
海量数据的计算:mapreduce
hdfs概述
namenode:元数据,存储在哪个节点,存储什么信息
datanode:存储数据
2nn:备份namenode的信息

yarn概述
负责集群资源的管理
ResourceManger:服务器运行的老大
nodemanger:单个服务器运行的老大

MapReduce架构概述
mapreduce将计算分为两个阶段:
map阶段 把任务分下去
reduce阶段:把任务汇总

hdfs yarn MapReduce的三者关系

要找一个15年的视频,提交任务,集群开始工作,MapReduce中的resource找一个node开启一个容器,把任务放在容器中app mstr,容器所在的节点申请需要运行的资源,resourcemanger给nodemanger开启对应的资源,datanode此时map阶段完成,
每一个map独立工作负责检索对应的信息。不管有没有找到都把结果写到节点上。此时合起来的过程是reduce的过程写在hdfs,datanode负责记账操作,把数据存储,2nn负责记录操作
hadoop学习笔记1了解流程大概_第1张图片
大数据技术生态体系
大数据中数据源有三类分别是。
结构化数据:有行有列的数据在mysql中
半结构化数据:一段一段的可以导入到sql中。
非结构化数据:视频或者音频存入不到mysql中
hadoop学习笔记1了解流程大概_第2张图片
数据库使用sqoop数据传递,文件日志使用flume日志收集,视频,ppt使用kafka放到hive中,kafka还可以将结构化数据和半结构化数据传递到hive中。
存储完数据后进行存储,hdfs和kafka都可以进行数据存储。yarn进行资源调度

之后在进行计算,mapreduce基于硬盘的,spark基于内存得
hive类似于sql语句对数据进行计算和操作。sparksql同样也是,以上是离线计算
实时计算时使用flink进行计算
hadoop学习笔记1了解流程大概_第3张图片
五点执行任务和七点执行任务,由调度器进行配置。zookeper整个调度辅助大数据进行管理和操作,用的不是特别多能正常启动就行。

购买人参丸的时候记录会被记录下来nginx,存储到tomcat中,数据为半结构化的,由flume给kafka消息队列,进入到flink实时计算,计算行为想要什么,推荐什么商品,返回给javaee的后台,有两种形式,一种是数据库的形式,另外一种是分析结果文件。javaee把数据读走返回给数据展示页面。大数据闭环的流程。

你可能感兴趣的:(hadoop,学习,大数据)