Hadoop伪分布环境部署之Hadoop

将JDK与Hadoop解压到/opt/ydbsoftware
使用 tar -zxvf 解压 tar.gz文件
使用 unzip 解压.zip文件
1.配置JAVA_HOME及HADOOP_HOME
关于JAVA_HOME配置
HADOOP_HOME配置

使用vi命令打开/etc/profile/
在文档下方添加:
export HADOOP_HOME=/opt/ydbsoftware/hadoop
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
在path变量中添加:
$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

2.配置SSH无密码登陆

ssh-keygen
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 700 ~/.ssh
chmod 600 ~/.ssh/authorized_keys

3.关闭防火墙

iptables -P INPUT ACCEPT
iptables -P FORWARD ACCEPT
iptables -P OUTPUT ACCEPT
iptables -F
chkconfig iptables off
/etc/init.d/iptables stop

4.配置hosts文件

hostname ydbmaster
vi /etc/sysconfig/network
vi /etc/hosts

5常见的hadoop配置文档变量
core-site.xml配置项有:

<property>
  <name>fs.defaultFSname>
  <value>hdfs://mastervalue>
property>

#设置默认的hdfs文件系统名uri,uri的作用是用来确定一个文件系统的主机,端口号等
<property>
  <name>hadoop.tmp.dirname>
  <value>/data/tmp/hadoopvalue>
property>

#hadoop的临时文件目录

hadoop-env.sh配置项有:

export JAVA_HOME=/opt/ydbmaster/jdk1.8.0_60
# java_home
export HADOOP_LOG_DIR=/data/log/hadoop
# hadoop的log目录
export HADOOP_PID_DIR=/data/run/hadoop
# hadoop的pid目录
export YARN_LOG_DIR=/data/log/yarn
# yarn的log目录

hdfs-site.xml配置项有:

#副本数
<property>
  <name>dfs.replicationname>
  <value>1value>
property>
#名称节点列表目录
<property>
  <name>dfs.namenode.name.dirname>
  <value>/data/hadoop/hdfs/nnvalue>
property>
#数据节点目录
<property>
  <name>dfs.datanode.data.dirname>
  <value>/data/hadoop/hdfs/dnvalue>
property>
#Snamenode目录
<property>
  <name>dfs.namenode.checkpoint.dirname>
  <value>/data/hadoop/hdfs/snvalue>
property>
#SnamenodeUI页面
<property>
  <name>dfs.namenode.secondary.http-addressname>
  <value>master:50090value>
property>

yarn-site.xml配置项有

#配置主机的hosts
 <property>
  <name>yarn.resourcemanager.hostnamename>
  <value>mastervalue>
property>
#nodemanager的总可用内存 
<property>
  <name>yarn.nodemanager.resource.memory-mbname>
  <value>6144value>
property>
#nodemanager可用的cpu vcore 数,系统核数的80%
<property>
  <name>yarn.nodemanager.resource.cpu-vcoresname>
  <value>6value>
property>
#yarn的最小计费机制,改为32m
<property>
  <name>yarn.scheduler.minimum-allocation-mbname>
  <value>32value>
property>
#yarn能够使用的内存最大值,配置为系统内存的80%
<property>
  <name>yarn.scheduler.maximum-allocation-mbname>
  <value>6144value>
property>
#yarn能够使用的最小vcore数
<property>
  <name>yarn.scheduler.minimum-allocation-vcoresname>
  <value>1value>
property>
#yarn能够使用的最大vcore数,系统vcore数的80%
<property>
  <name>yarn.scheduler.maximum-allocation-vcoresname>
  <value>6value>
property>
#yarn的内存检查机制,设置成false
<property>
  <name>yarn.nodemanager.pmem-check-enabledname>
  <value>falsevalue>
property>
#同上
<property>
  <name>yarn.nodemanager.vmem-check-enabledname>
  <value>falsevalue>
property>
#yarn名称节点log目录
<property>
  <name>yarn.nodemanager.log-dirsname>
  <value>/data/log/yarnvalue>
property>

6.格式化namenode
进入hadoop根目录,输入如下命令

./bin/hdfs namenode -format 

7.开启namenode 和datanode 守护进程

./sbin/start-dfs.sh

8.检测
通过jps命令;判断是否成功启动,若成功启动则会列出如下进程: “NameNode”、”DataNode”和SecondaryNameNode,如果 SecondaryNameNode 没有启动,请运行 sbin/stop-dfs.sh 关闭进程,然后再次尝试启动尝试
9.排除异常
通过查看启动日志分析启动失败原因,
有时 Hadoop 无法正确启动,如 NameNode 进程没有顺利启动,这时可以查看启动日志来排查原因,注意几点:
启动时会提示形如 “dblab: starting namenode, logging to /usr/local/hadoop/logs/hadoop-hadoop-namenode-dblab.out”,
其中 dblab 对应你的主机名,但启动的日志信息是记录在 /usr/local/hadoop/logs/hadoop-hadoop-namenode-dblab.log 中,所以应该查看这个后缀为 .log 的文件;
每一次的启动日志都是追加在日志文件之后,所以得拉到最后面看,看下记录的时间就知道了。
一般出错的提示在最后面,也就是写着 Fatal、Error 或者 Java Exception 的地方。
可以在网上搜索一下出错信息,看能否找到一些相关的解决方法。
10.启动yarn

./sbin/start-yarn.sh  

11.启动历史服务器

./sbin/mr-jobhistory-daemon.sh start historyserver

启动历史服务器,开启历史服务器,才能在Web中查看任务运行情况

注:本文中有对其他笔者内容的摘录,在此感谢各位大牛的无私奉献,如内容有误请在评论中留言,我会尽快改正,望诸位不吝赐教。

你可能感兴趣的:(延云工作笔记)