大数据系列面试一

1.简要描述如何安装配置apache的一个开源Hadoop,只描述即可,无需列出具体步骤,列出具体步骤更好

①根据Hadoop版本安装匹配的JDK版本,配置JAVA_HOME;
②解压安装Hadoop,配置HADOOP_HOME,将hadoop安装目录下bin/sbin加入到PATH中,方便以后使用;
③配置hadoop的配置文件,core-site.xml,hdfs-site.xml,mapred-site.xml,yarn-site.xml;
④如果为完全分布式的集群,则需要配置所有机器的hosts映射信息,配置rm所在机器到其他机器的ssh免密登陆;
⑤在rm所在主机编辑$HADOOP_HOME/etc/hadoop/slaves文件,配置集群中的所有的主机名
⑥分发安装的hadoop到其他节点
关键字:JDK、hadoop、配置文件、ssh、slaves、分发

  1. Hadoop中需要哪些配置文件,其作用是什么?

①xx-env.sh 配置hadoop中各个组件运行的环境信息。
②core-site.xml 用户自定义核心组件,例如namenode的rpc地址
③hdfs-site.xml 用户自定义和hdfs相关参数
④mapred-site.xml 用户自定义和MapReduce相关参数
⑤yarn-site.xml 用户自定义和yarn相关参数

3.请列出正常工作的Hadoop集群中Hadoop都分别需要启动哪些进程,它们的作用分别是什么?

①Namenode:负责hdfs元数据的管理以及处理客户端的请求
②Datanode:一块为单位存储HDFS文件
③SecondaryNamenode:辅助Namenode合并fsimage与edits文件,但在HA集群中可以省略此进程
④ResourceManager:负责整个集群中所有系统资源的管理(cpu,内存,io,硬盘)
⑤NodeManager:负责单个节点中所有计算资源的管理,领取RM中的Task任务,分配container运行Task。

4.简述Hadoop的几个默认端口及其含义

①50070:hdfs的http服务的端口
②9000:hdfs的内部通讯端口
③8088:yarn的http服务端口
④19888:yarn日志的http服务端口
⑤60010:HBase的http服务端口
⑥2181:zookeeper对客户端提供服务的端口
⑦8080:Spark的Web监控端口
⑧4040:Spark的Job监控端口

你可能感兴趣的:(大数据系列面试一)