20180613早课记录30-Hadoop

1.hadoop是什么

狭义上说就是hdfs、mr、YARN组成的hadoop,广义上指的是整个生态圈

2.hadoop三大组件,分别做什么

HDFS 存储
MapReduce计算
Yarn资源调度

3.hdfs默认块大小多少

128m

4.副本三份,块128M,一个文件260M,多少块,实际存储多少

9个块 780M

5.hdfs的nn snn dn启动顺序是什么

nn dn snn

6.hdfs的读流程 ,那幅图有印象没

7.同之,hdfs的写流程,是不是所有块的第一个副本写完,再统一去写第二个副本

写顺序在不出错的情况下,是管道内顺序把每个块写到指定数量的副本里,然后再继续下个块

8.hdfs读写谁是input 谁是out

写是outputstream 读是inputstream

9.NN节点是做什么的?

存储元数据

10.snn是做什么的

冷备份 定时合并镜像和日志文件

11.副本放置策略,那幅图有没有印象?

副本就近原则先备 当前节点--》同机柜节点--》跨机柜节点--》跨机房节点

12.hdfs dfs命令和什么命令一样

hadoop fs

13.mr提交流程,来简单说说(我是面试官)

客户端提交job给 Applications Manager 连接Node Manager去申请一个Container的容器,这个容器运行作业的App Mstr的主程序,启动后向App Manager进行注册,然后可以访问URL界面,然后App Mastr向 Resource Scheduler申请资源,拿到一个资源的列表,和对应的NodeManager进行通信,去启动对应的Container容器,去运行 Reduce Task 和 Map Task (两个先后运行顺序随机运行),它们是向App Mstr进行汇报它们的运行状态, 当所有作业运行完成后还需要向Applications Manager进行汇报并注销和关闭

14.hdfs yarn web界面默认端口号多少

50070 8088

15.知不知道,windows也有hosts这个文件?

知道 在C:\Windows\System32\drivers\etc路径下

16.来来来 老生常谈一个问题,敲完命令,not found,你们觉得从该怎么办

首先看看命令有没有打错 然后检查环境变量或者find下 实在没有进行安装

你可能感兴趣的:(20180613早课记录30-Hadoop)