Hadoop学习笔记(1)

目录

一、Hadoop入门

1、Hadoop概述 

1.1 Hadoop是什么

1.2 Hadoop发展历史

1.3 Hadoop三大发行版本(了解)

1.4 Hadoop的优势

1.5 Hadoop1.x、2.x、3.x区别

2、Hadoop组成 

2.1 HDFS架构概述

2.2 YARN架构概述

2.3 MapReduce架构概述

2.4 HDFS、YARN、MapReduce三者关系

 2.5 大数据技术生态体系

2.6 推荐系统框架图

二、Hadoop(1)——运行模式

1、本地运行模式

2、完全分布式运行模式

2.1 编写集群分发脚本xsync

2.2 SSH无密登陆配置

2.4 集群配置

2.5 群起集群

2.6 配置历史服务器

2.7 日志聚集功能配置

2.8 集群启动/停止方式总结

2.9 两个常用的脚本

2.10 面试题(关于端口号和配置文件) 

2.11 集群时间同步

3、常见错误及解决方案


一、Hadoop入门

内容:Hadoop学习笔记(1)_第1张图片

1、Hadoop概述 

1.1 Hadoop是什么

1.2 Hadoop发展历史

Hadoop学习笔记(1)_第2张图片

Hadoop学习笔记(1)_第3张图片

1.3 Hadoop三大发行版本(了解)

Hadoop学习笔记(1)_第4张图片

1.4 Hadoop的优势

Hadoop学习笔记(1)_第5张图片

Hadoop学习笔记(1)_第6张图片

1.5 Hadoop1.x、2.x、3.x区别

Hadoop学习笔记(1)_第7张图片

2、Hadoop组成 

2.1 HDFS架构概述

Hadoop Distributed File System,简称HDFS,是一个分布式文件系统

示意图:

Hadoop学习笔记(1)_第8张图片

2.2 YARN架构概述

Yet Another Resource Negotiator简称YARN,另一种资源协调者,是Hadoop的资源管理器

2.3 MapReduce架构概述

MapReduce将计算过程分为两个阶段:Map和Reduce

1、Map阶段并行处理输入数据(分工给多个服务器)

2、Reduce阶段对Map结果进行汇总

Hadoop学习笔记(1)_第9张图片

2.4 HDFS、YARN、MapReduce三者关系

Hadoop学习笔记(1)_第10张图片

 2.5 大数据技术生态体系

2.6 推荐系统框架图

二、Hadoop(1)——运行模式

Hadoop学习笔记(1)_第11张图片

1、本地运行模式

Hadoop学习笔记(1)_第12张图片

Hadoop学习笔记(1)_第13张图片

 注意:

1、每一步输入查看路径时候不要按回车,要使用table键

2、这里一定要指明输出路径,且输出路径还不能存在

2、完全分布式运行模式

Hadoop学习笔记(1)_第14张图片

2.1 编写集群分发脚本xsync

1、scp安全拷贝 

Hadoop学习笔记(1)_第15张图片

Hadoop学习笔记(1)_第16张图片

以下几种方法都可以

方法1:在102中从102拷贝到103

方法2:在103中从102拷贝到103 

方法3:在103中从102拷贝到104

2、ysync远程同步工具

Hadoop学习笔记(1)_第17张图片

当修改了一个文件时,同步只更改该文件,而拷贝要整个文件进行复制拷贝 

3、xsync集群分发脚本

Hadoop学习笔记(1)_第18张图片

 /home/atguigu/bin目录下的文件是全局环境变量,因此可以在任何地方声明

Hadoop学习笔记(1)_第19张图片 Hadoop学习笔记(1)_第20张图片

 dirname $file可以获取父目录

Hadoop学习笔记(1)_第21张图片

-P防止读取到软连接的目录

Hadoop学习笔记(1)_第22张图片

ssh可以远程连接,比如可以在102转换到103,-p可以实现覆盖

Hadoop学习笔记(1)_第23张图片

2.2 SSH无密登陆配置

免密登录原理

Hadoop学习笔记(1)_第24张图片

2.4 集群配置

1、集群部署的规划

Hadoop学习笔记(1)_第25张图片

2、配置文件说明 

Hadoop学习笔记(1)_第26张图片

3、配置集群

Hadoop学习笔记(1)_第27张图片

Hadoop学习笔记(1)_第28张图片

Hadoop学习笔记(1)_第29张图片

4、5 分发配置文件及查看分发情况 

Hadoop学习笔记(1)_第30张图片

2.5 群起集群

Hadoop学习笔记(1)_第31张图片

Hadoop学习笔记(1)_第32张图片

注意:要在103上启动ResourceManager 

Hadoop学习笔记(1)_第33张图片

1、实践可以看出来,存储路径就在data目录下

2、关闭yarn等使用kill 进程号

2.6 配置历史服务器

为了查看程序的历史运行情况,需要配置以下历史服务器,具体配置步骤如下:

Hadoop学习笔记(1)_第34张图片

2.7 日志聚集功能配置

Hadoop学习笔记(1)_第35张图片

Hadoop学习笔记(1)_第36张图片

Hadoop学习笔记(1)_第37张图片

在102中使用mapred --daemon stop historyserver可以停止历史服务器

在hadoop103中使用sbin/stop-yarn.sh可以停止yarn

2.8 集群启动/停止方式总结

Hadoop学习笔记(1)_第38张图片

 可以kill 进程去停止

2.9 两个常用的脚本

Hadoop学习笔记(1)_第39张图片

Hadoop学习笔记(1)_第40张图片

2.10 面试题(关于端口号和配置文件) 

Hadoop学习笔记(1)_第41张图片

2.11 集群时间同步

Hadoop学习笔记(1)_第42张图片

我们的虚拟机联网了,因此不用打开

3、常见错误及解决方案

Hadoop学习笔记(1)_第43张图片

 Hadoop学习笔记(1)_第44张图片

附上HDFS和YARN的图

Hadoop学习笔记(1)_第45张图片

Hadoop学习笔记(1)_第46张图片

你可能感兴趣的:(hadoop,学习,大数据)