大数据入门

刚开始接触大数据生态圈,经过两周的努力终于在自己实验室的机子上搭建成功了hadoop环境(伪分布模式),对于所有涉及到的知识全部是第一次学习和实践,包括虚拟机安装、虚拟化相关知识、虚拟机上安装Ubuntu系统、终端、控制台常用Linux命令、Xshell实现远程访问、文件互传(这个之前有用过)等。

PS:

Hadoop伪分布模式:

Hadoop在单节点上以伪分布的方式进行,Hadoop进程以分离的java进程运行,节点既作为NameNode也作为DataNode,同时读取的是HDFS的文件。其守护进程运行在本地机器上,模拟一个小规模的集群。

常用Linux命令可以参考我的另一篇博客:Linux命令,不是很全只是汇总最近用到的基本命令。

版本信息:

Hadoop 2.8.1

jdk1.8.0_144

Ubuntu14.04LTS

VMware-workstation14.04

以下大致讲述以下hadoop伪分布模式搭建过程(假设已经安装了虚拟机和Ubuntu操作系统):

1、新建hadoop用户(在此用户下搭建环境)并让用户拥有root权限

adduser hadoop

sudo vim /etc/sudoers

将文件修改为:
# User privilege specification
root ALL=(ALL) ALL
hadoop ALL=(ALL) ALL
保存退出,hadoop用户就拥有了root权限

2、安装SSH并配置SSH免密登录

安装SSH server

sudo apt-get install openssh-server

ssh免密登录:
先退出刚才的ssh,然后生成ssh证书:
exit                           # 退出 ssh localhost
cd ~/.ssh                      # 如果没有该目录,先执行一次ssh localhost
ssh-keygen -t rsa              # 一直按回车就可以
cp id_rsa.pub authorized_keys
此时再用ssh localhost命令,就可以直接登陆

3、安装JDK并配置环境变量

创建目录(目录可以自定):
sudo mkdir /usr/lib/jvm

将已经下载好的jdk解压至usr/lib/jvm

sudo tar -zxvf /home/hadoop/jdk-8u144-linux-x64.tar.gz -C /usr/lib/jvm/


修改环境变量:  
sudo vim ~/.bashrc
文件的末尾追加下面内容:
#set oracle jdk environment
export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_144  ## 这里要注意目录要换成自己解压的jdk 目录
export JRE_HOME=${JAVA_HOME}/jre  
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib  
export PATH=${JAVA_HOME}/bin:$PATH


使环境变量马上生效
source ~/.bashrc

可以使用 java -version 验证是否安装成功

4、hadoop安装

将下载好的压缩文件解压至你想安装的目录(我的/usr/local,网上大多数都是安装在此目录下~~)

sudo tar -zxvf /home/hadoop/hadoop-2.8.1.tar.gz  -C /usr/local

cd /

cd /usr/local

sudo mv ./hadoop-2.8.1 hadoop #重命名为hadoop

sudo chown -R  hadoop ./hadoop #修改文件权限

查看hadoop是否可用,成功即显示版本信息

cd /usr/local/hadoop

./bin/hadoop version

5、hadoop伪分布模式配置

hadoop的配置文件位于/usr/local/hadoop/etc/hadoop中,需要修改3个配置文件core-site.xml、hdfs-site.xml和hadoop-env.sh

core-site.xml修改为如下所示:



             hadoop.tmp.dir
             file:/usr/local/hadoop/tmp
             Abase for other temporary directories.
       

       
             fs.defaultFS
             hdfs://localhost:9000
       


hdfs-site.xml修改为如下所示:



             dfs.replication
             1
       

       
             dfs.namenode.name.dir
             file:/usr/local/hadoop/tmp/dfs/name
       

       
             dfs.datanode.data.dir
             file:/usr/local/hadoop/tmp/dfs/data
       


hadoop-env.sh修改为如下所示:

# The java implementation to use.
export JAVA_HOME=${JAVA_HOME}

在JAVA-HOME后追加
export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_144

配置完成后,执行NameNode的格式化:

相对路径 ./bin/hafs namenode  -format

接着开启NameNode和DataNode守护进程

./sbin/start-dfs.sh

启动成功后可以输入jps来判断是否成功启动。

成功启动后,可以访问web界面http://localhost:50070(注:如果是在虚拟中安装的hadoop并且想在本地机子中访问的话把localhost换成虚拟机的IP即可)。查看namenode和DataNode信息,还可以在线查看HDFS的文件。

新版的hadoop使用了新的MapReduce框架-YARN

YARN是从MapReduce中分离出来的,负责资源管理与任务调度。yarn运行于MapReduce之上,提供了高可用性、高扩展性。在启动hadoop后可以启动yarn来负责资源管理和任务调度。

首先修改配置文件mapred-site.xml,这边需要先进行重命名:

sudo mv ./etc/hadoop/mapred-site.xml.template ./etc/hadoop/mapred-site.xml
然后再进行编辑
sudo vim ./etc/hadoop/mapred-site.xml :

       
             mapreduce.framework.name
             yarn
       


接着修改配置文件 yarn-site.xml:

       
             yarn.nodemanager.aux-services
             mapreduce_shuffle
           


然后就启动 YARN 
./sbin/start-yarn.sh      # 启动YARN
./sbin/mr-jobhistory-daemon.sh start historyserver  # 开启历史服务器,才能在Web中查看任务运行情况
开启后通过 jps 查看,可以看到多了 NodeManager 和 ResourceManager 两个后台进程
启动 YARN后可以通过 Web 界面查看任务的运行情况:http://localhost:8088/cluster。localhost同上

至此,hadoop伪分布模式搭建成功。

一言以蔽之:最近沉迷于学习无法自拔。

如果您觉得写的还可以,请您打赏给撰稿人,打赏多少您随意,谢谢:

大数据入门_第1张图片

你可能感兴趣的:(大数据学习)