Hadoop 安装

打开xshell连接Linux系统,

1.查看Java版本:Java -version
2.查看mysql:mysql -uroot -proot
//打开mysql
mysql> use mysql

​ Reading table information for completion of table and column names
​ You can turn off this feature to get a quicker startup with -A

​ Database changed

​ //查询user

mysql> select user,host from user where user='root' ;

+------+-----------+
| user | host |
+------+-----------+
| root | % |
| root | 127.0.0.1 |
| root | bigdata |
| root | localhost |
+------+-----------+
5 rows in set (0.00 sec)

​ mysql> Ctrl-C -- exit!
​ Aborted

3.把Hadoop文件拉到opt文件夹下面

1566913958146

查看JAVA_HOME的路径等会要用
4.[root@bigdata opt]# echo $JAVA_HOME
/opt/inst/jdk181
5.解压hadoop-2.6.0-cdh5.14.2.tar.gz
[root@bigdata opt]# tar -zxvf hadoop-2.6.0-cdh5.14.2.tar.gz
6.新建文件夹bigdata

[root@bigdata opt]# mkdir bigdata

//把 hadoop-2.6.0-cdh5.14.2移动到bigdata下面的hadoop260(新建的)

[root@bigdata opt]# mv hadoop-2.6.0-cdh5.14.2 bigdata/hadoop260

6.进入Hadoop准备改配置文件(共5个)

[root@bigdata opt]# cd bigdata/hadoop260/etc/hadoop(这是Hadoop存放文件的路径)

core-site.xml hdfs-site.xml hadoop-env.sh mapred-site.xml yarn-site.xml
(1)配置环境变量里的运行脚本

[root@bigdata hadoop]# vi hadoop-env.sh

export JAVA_HOME=/opt/inst/jdk181
(2)配置核心文件
//进入浏览器Hadoop.apache.org下载Hadoop的地址

[root@bigdata hadoop]# vi core-site.xml


        
                //想要和环境系统通信就要使用fs.defaultFS地址
                fs.defaultFS
                //hdfs协议://主机名:端口号9000
                //查看主机名:hostname
                hdfs://bigdata:9000
        
        
                //基本的临时目录(记录一些信息)
                hadoop.tmp.dir
                //在opt下新建hadoopdata文件夹,这样就不会轻易丢东西了
                /opt/hadoopdata
        
        
                //设置Hadoop权限,准备以后安装的软件和Hadoop整合,给root用户身份登录
                hadoop.proxyuser.root.users
                //只要是root型用户就可以登录
                *
        
        
                //开放权限:只要是root用户组的用户,也可以登录
                hadoop.proxyuser.root.groups
                *
        

(3)配置文件系统(当前计算机有什么约束?就是准备文件备份几次)

[root@bigdata hadoop]# vi hdfs-site.xml

//一般情况下是三个备份1,本机中 2,同机架中 3,跨另外机架中(电路不一样了)


        
                //单节点:配置副本数为1    (replication就是副本的意思)
                dfs.replication
                1
        

(4)配置资源管理文件(计算用的)

//先拷贝mapred

[root@bigdata hadoop]# cp mapred-site.xml.template mapred-site.xml

//编辑mapred

[root@bigdata hadoop]# vi mapred-site.xml


        
                //计算的时候会调用资源框架,分配任务(mapreduce依赖于yarn(雅恩))
                mapreduce.framework.name
                yarn
        
(5)配置yarn框架(就是调度资源的那个)

[root@bigdata hadoop]# vi yarn-site.xml


        
                //资源管理器(把拿到的文件分配给谁,让谁去写)可以指定ip地址
                yarn.resourcemanager.localhost
                //单机版或者伪分布式版可以这样配置
                localhost
        
        
                //节点管理器(每隔5分钟给我一个回应(以心跳的方式通知资源管理器))管理的是硬件信息(就                   是发信息的,如:cpu的状态,心跳等等)
                yarn.nodemanager.aux-services
                mapreduce_shuffle
        

7.将用户配置到环境变量

[root@bigdata hadoop]# vi /etc/profile //配置全局变量

export HADOOP_HOME=/opt/bigdata/hadoop260  //我自己的Hadoop路径
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
export HADOOP_INSTALL=$HADOOP_HOME

进程于主机之间的关系

1566924788369

先激活一下hadoop的配置文件

[root@bigdata hadoop]# source /etc/profile

准备格式化hdfs

[root@bigdata hadoop]# hdfs namenode -format

启动上面的节点(5个)

[root@bigdata hadoop]# start-all.sh

查看后台进程命令:jps

停止进程

[root@bigdata hadoop]# stop-all.sh

//hdfs是正常命令 dfs 是文件目录操作命令 -ls 查看 / 根目录

[root@bigdata hadoop]# hdfs dfs -ls /

//创建一个文件夹

[root@bigdata hadoop]# hdfs dfs -mkdir /cm

[root@bigdata hadoop]# vi /opt/a.txt

[root@bigdata hadoop]# cat /opt/a.txt 查看文件夹

//将虚拟机里面的文件夹考到Hadoop系统里(U盘里)

[root@bigdata hadoop]# hdfs dfs -put /opt/a.txt /cm/

[root@bigdata hadoop]# hdfs dfs -ls /cm 查看一下

启动Hadoop命令:[root@bigdata hadoop]#start-all.sh

【注意!!!】

本机的ResourceManager端口和docker端口是同一个端口:192.168.56.101:8088

下次启动可能还会抢占端口,出现异常关闭dockers服务:[root@bigdata logs]# systemctl stop docker 启动 systemctl start docker

netstat:查看所有的网络数据结构的网络状态(端口号)