087-BigData-15Hadoop阶段小结

上一篇：086-BigData-14MapReduce实战

一、概述

学习只是知道，而使用才是学会。

这是一个实践性很强的内容，理论再好很有可能是空中楼阁，实践起来完全不会。或者遇到问题完全无法解决。

理论学起来快，但也忘得快。实践写代码才是真正费时的。

二、应该实践内容

1、软件安装，装多了就有种一通百通的感觉。再加上收集一些软件安装包。源头也解决了就没啥大问题了。

image.png

2、能装VMWare虚拟机，能装Linux操作系统，起码得照着资料装几台，然后再不看任何资料自己能装好。

里面涉及到网卡配置，一些命令行使用，重启网卡，配置路径，重启服务，关闭防火墙等等。

不实践基本等于不会。

3、Linux常用命令使用

这是个长期使用问题，起码要熟悉大部分常用的命令。

其实，只是听说命令行强大的话，完全没有任何感觉，自己体会不到啊，所以学起来比学英语还难。

在工作中，遇到翻译文件需要翻译，打开excel，拷贝，写进去，保存。word打开，拷贝，保存，检查等等。而一个sed命令，就完美搞定。文件都不用打开就可以完成所有操作，而且执行效率高的爽爆了。用cat查看内容，要查找就grep，要修改就sed。完全接触不到垃圾的办公软件，不用漫长的等待打开，不用操作超级卡的界面，不用怕意外经常还得保存一下。所有一切，命令行能轻松搞定。只有真切体会到其中的厉害之处，才会爱上命令行，才会记得牢。

本人也是多个实际案例，现在已经完全爱上命令行了，也比较深刻知道其强大的地方了。

手动拷贝或者删除后缀.xx的文件？用ls列出所有，然后find找到.xx或者grep都行，要cp或者delete都行。要递归还能加r。

长期有意识多用命令行，工作生活效率大大提高。

4、hadoop环境搭建

这个其实就是解压安装包出来。

但又涉及到环境配置，环境变量等一些问题不大但又需要知道的地方。

参考文章：078-BigData-06hadoop架构及环境搭建

5、hadoop伪分布式和分布式

环境好了之后，必须得实践的就是配一下分布式。

如果不熟悉可以先搞个简单的伪分布式玩玩熟悉下。

然后再搞大于3台的分布式。

最坑点莫过于各种配置了，各种xml配置文件里需要特定的配置，而内容要背下来还真心容易，还怕犯错。所以需要专门准备一个小本本记下来各种配置该怎么配。

参考文章：079-BigData-07hadoop伪分布式和分布式

6、maven的安装和配置

这是打通开发环境和Linux的通道。也是开发hadoop所需。

本人试过win和mac，不难但还是有必要操作一下。

参考文章：080-BigData-08HDFS

7、HDFS上传与下载

这算是正头戏的第一餐了。

上传，下载，查看，删除都用命令行试试，再用代码试试。第一餐。

参考文章：081-BigData-09HDFS上传与下载

8、HDFS运行状态下扩展集群

这个可以算工作中用得到的第一餐吧。环境搭建很难遇到完全没有，需要我们去从头搞起的。但扩展集群，被我们遇到还需要操作的可能性就大多了。

这个实践下，再顺带练练回收站，快照(又是各种xml配置恶心)，掉线参数设置？集群间数据拷贝，归档，Hadoop HDFS 数据自动平衡等。一套真心走下来，还真是不易的。也需要较多时间。

参考文章：083-BigData-11HDFS目录结构

9、自己写一个WordCount理解下MapReduce

这就是功能性第一餐了。

简单功能实现后，还有一大波操作。

功能自定义分区，序列化，模型建立等，太重要了，得放在大点写。见下面。

参考理论文章：084-BigData-12MapReduce入门

10、真。实战。倒序排序，二次排序，自定义分组，辅助排序。

遇到排序问题，可迅速参考。

11、压缩和解压缩。mapjoin，reducejoin。

选哪种压缩，综合考虑等。

作为优化项，算是比较重要的一个优化点。

12、倒排索引。多job串联。

重要实战。

13、找共同好友。

有意思的练习和实战。

14、自定义InputFormat，把很多小文件合并成大sequence文件，用数据流形式。

难度开始起来了。

15、自定义OutPutFormat。过滤日志文件。自定义日志输出路径。

16、然后就是看看源码，性能优化了。做几个工作项目。

17、搭建一下ZooKeeper环境及配置好。

18、再练一下秒杀。和搭建高可用。

下一篇：088-BigData-16ZooKeeper

087-BigData-15Hadoop阶段小结

一、概述

二、应该实践内容

你可能感兴趣的:(087-BigData-15Hadoop阶段小结)