【原创】拉勾课程速推指南-阶段四模块五 Hadoop分布式文件系统HDFS、海量列式存储数据库HBase（1）

文章内容输出来源：拉勾教育Java高薪训练营

学习心得

【拉勾课程速推指南】学习心得

课程介绍

第四阶段大型分布式存储系统架构进阶
模块五 Hadoop分布式文件系统HDFS、海量列式存储数据库HBase
本模块对大数据的基石HDFS进行系统讲解，对HBase 性能提升策略与读写速率优化提出解决方案。

作业内容

作业一：

hdfs 集群安装成功展示页面（需要展示 hdfs 和 yarn 两个页面） Hdfs 搭建成功，需要打开 hdfs 的 http 服务页面，展示效果：

打开 namenode 节点的 50070 端口：

比如我的 namenode 安装在 teacher1 节点: http://teacher1:50070/dfshealth.html#tab-datanode 可以看到机器有哪些节点

Yarn 的管理页面：需要看http://teacher2:8088/cluster/nodes中nodes list 跟集群安装是否一致

课程目录及观看建议

2倍速模式
*** 必看
** 建议看
* 可不看

课程介绍（09:54）
大数据概述（22:31）
hadoop入门（11:47）*
hdfs和yarn架构概述（15:11）*
MapReduce概述（20:06）
大数据组件介绍（17:22）
hadoop集群搭建（44:24）***
hadoop集群配置（35:47）***

课程时间：1小时
作业时间：2小时

作业说明

软件版本

最好和课程内容版本保持一致，否则会遇到版本冲突问题

CentOS 7.7
JDK 1.8
Hadoop 2.7.2

注意事项

分发ssh秘钥时，需要复制到所有节点，包括当前机器的hostname，否则集群启动时无法访问。
如需要显示调试信息，可在 hadoop-env.sh 中添加以下内容：

export HADOOP_ROOT_LOGGER=DEBUG,console

解决启动hadoop集群时看不到DataNode问题（需要清空不同步的数据）

https://blog.csdn.net/qq_39207647/article/details/100085173?utm_medium=distribute.pc_relevant_bbs_down.none-task-blog-baidujs-2.nonecase&depth_1-utm_source=distribute.pc_relevant_bbs_down.none-task-blog-baidujs-2.nonecase

yarn-site.xml 中的内存设置不要小于1024，否则在1024M内存虚拟机中启动NodeManager后会立即关闭，导致yarn页面中无法看到相应节点信息。
推荐安装步骤为先装1台主节点的虚拟机，然后克隆出另外的从节点虚拟机，最后再生成ssh秘钥并分发到各个节点。这样安装效率最快。
格式化文件分区前最好创建虚拟机镜像，方便随时回退，避免因环境受损而重新安装。

作业步骤

参看课程内容

【原创】拉勾课程速推指南-阶段四 模块五 Hadoop分布式文件系统HDFS、海量列式存储数据库HBase（1）