【原创】拉勾课程速推指南-阶段四 模块五 Hadoop分布式文件系统HDFS、海量列式存储数据库HBase(1)

文章内容输出来源:拉勾教育Java高薪训练营

学习心得

【拉勾课程速推指南】学习心得

课程介绍

第四阶段 大型分布式存储系统架构进阶
模块五 Hadoop分布式文件系统HDFS、海量列式存储数据库HBase
本模块对大数据的基石HDFS进行系统讲解,对HBase 性能提升策略与读写速率优化提出解决方案。

作业内容

作业一:

hdfs 集群安装成功展示页面(需要展示 hdfs 和 yarn 两 个页面) Hdfs 搭建成功,需要打开 hdfs 的 http 服务页面,展示效果:

打开 namenode 节点的 50070 端口:

  1. 比如我的 namenode 安装在 teacher1 节点: http://teacher1:50070/dfshealth.html#tab-datanode 可以看到机器有哪些节点

  2. Yarn 的管理页面:需要看http://teacher2:8088/cluster/nodes中nodes list 跟集群安装是否一致

课程目录及观看建议

2倍速模式
*** 必看
** 建议看
* 可不看

  1. 课程介绍(09:54)
  2. 大数据概述(22:31)
  3. hadoop入门(11:47)*
  4. hdfs和yarn架构概述(15:11)*
  5. MapReduce概述(20:06)
  6. 大数据组件介绍(17:22)
  7. hadoop集群搭建(44:24)***
  8. hadoop集群配置(35:47)***

课程时间:1小时
作业时间:2小时

作业说明

软件版本

最好和课程内容版本保持一致,否则会遇到版本冲突问题

CentOS 7.7
JDK 1.8
Hadoop 2.7.2

注意事项

  1. 分发ssh秘钥时,需要复制到所有节点,包括当前机器的hostname,否则集群启动时无法访问。

  2. 如需要显示调试信息,可在 hadoop-env.sh 中添加以下内容:

export HADOOP_ROOT_LOGGER=DEBUG,console
  1. 解决启动hadoop集群时看不到DataNode问题(需要清空不同步的数据)

https://blog.csdn.net/qq_39207647/article/details/100085173?utm_medium=distribute.pc_relevant_bbs_down.none-task-blog-baidujs-2.nonecase&depth_1-utm_source=distribute.pc_relevant_bbs_down.none-task-blog-baidujs-2.nonecase

  1. yarn-site.xml 中的内存设置不要小于1024,否则在1024M内存虚拟机中启动NodeManager后会立即关闭,导致yarn页面中无法看到相应节点信息。

  2. 推荐安装步骤为先装1台主节点的虚拟机,然后克隆出另外的从节点虚拟机,最后再生成ssh秘钥并分发到各个节点。这样安装效率最快。

  3. 格式化文件分区前最好创建虚拟机镜像,方便随时回退,避免因环境受损而重新安装。

作业步骤

参看课程内容

你可能感兴趣的:(【原创】拉勾课程速推指南-阶段四 模块五 Hadoop分布式文件系统HDFS、海量列式存储数据库HBase(1))