Hadoop2.7.7 API: hadoop-env.sh 解析

name description default value
export JAVA_HOME=/home/hadoop/software/jdk1.8.0_171 设置 JAVA HOME  
export HADOOP_HOME_WARN_SUPPRESS=1 压制警告 1
export HADOOP_HOME=${HADOOP_HOME:-/usr/hdp/2.6.5.0-292/hadoop} 设置HADOOP_HOME目录  
export JSVC_HOME=/usr/lib/bigtop-utils 供secure HDP 2.0 datanode 使用  
export HADOOP_HEAPSIZE="1024" 设置堆内存,默认单位 MB 1000
export HADOOP_NAMENODE_INIT_HEAPSIZE="-Xms1024m" HADOOP NAMENODE 堆内存设置  
export HADOOP_OPTS="-Djava.net.preferIPv4Stack=true ${HADOOP_OPTS}" 配置可选参数:
-Djava.net.preferIPv4Stack=true
在ipv4的机器上想获取到完整的机器名
使用了Java网络编程,涉及到ipv4和ipv6的问题,在hadoop集群中由于机器配置不一,
会导致不同机器获取的机器名长短不一,从而引发一系列问题,
如“hadoop或yarn集群任务数据本地化很差。
USER="$(whoami)" 获取当前操作用户  
HADOOP_JOBTRACKER_OPTS="  ${HADOOP_JOBTRACKER_OPTS}"  HADOOP JOBTRACKER 可选配置参数  
             -server  设置 JDK 为 server 模式  
             -XX:ParallelGCThreads=8  设置 GC 线程数量 8  
             -XX:+UseConcMarkSweepGC  设置垃圾回收器为 CMS  
             -XX:ErrorFile=/data/var/log/hadoop/$USER/hs_err_pid%p.log  设置错误日志目录  
             -XX:NewSize=200m  新生代大小  
             -XX:MaxNewSize=200m  最大新生代大小  
             -Xloggc:/data/var/log/hadoop/$USER/gc.log-`date +'%Y%m%d%H%M'`  GC 日志  
             -verbose:gc  用于垃圾收集时的信息打印  
             -XX:+PrintGCDetails B18 输出 gc 日志信息  
             -XX:+PrintGCTimeStamps  输出 GC 时间戳  
             -XX:+PrintGCDateStamps  输出 GC 日期时间戳  
             -Xmx1024m  设置堆内存  
             -Dhadoop.security.logger=INFO,DRFAS  设置 hadoop security 日志级别  
             -Dmapred.audit.logger=INFO,MRAUDIT  设置 hadoop audit 日志级别  
             -Dhadoop.mapreduce.jobsummary.logger=INFO,JSA 设置 hadoop papreduce 日志级别  
HADOOP_TASKTRACKER_OPTS ="  ${HADOOP_TASKTRACKER_OPTS}"" 设置TASKTRACKER 参数  
             -server  设置 JDK 为 server 模式  
             -Xmx1024m  设置堆内存  
             -Dhadoop.security.logger=ERROR,console  设置 hadoop security 日志级别  
             -Dmapred.audit.logger=ERROR,console 设置 hadoop audit 日志级别  
SHARED_HADOOP_NAMENODE_OPTS 设置HADOOP NAMENODE共享参数供
NAMENODE和SECONDARYNAMENODE使用
 
             -server  设置 JDK 为 server 模式  
             -XX:ParallelGCThreads=8  设置 GC 线程数量 8  
             -XX:+UseConcMarkSweepGC  设置垃圾回收器为 CMS  
             -XX:ErrorFile=/data/var/log/hadoop/$USER/hs_err_pid%p.log ' 设置错误日志目录  
             -XX:NewSize=128m  新生代大小  
             -XX:MaxNewSize=128m  最大新生代大小  
             -Xloggc:/data/var/log/hadoop/$USER/gc.log-`date +'%Y%m%d%H%M'`  GC 日志  
             -verbose:gc -XX:+PrintGCDetails  用于垃圾收集时的信息打印  
             -XX:+PrintGCTimeStamps  输出 GC 时间戳  
             -XX:+PrintGCDateStamps  输出 GC 日期时间戳  
             -XX:CMSInitiatingOccupancyFraction=70  使用cms作为垃圾回收
使用70%后开始CMS收集
 
             -XX:+UseCMSInitiatingOccupancyOnly  使用手动定义初始化定义开始CMS收集  
             -Xms1024m  设置初始堆内存  
             -Xmx1024m  设置最大堆内存  
             -Dhadoop.security.logger=INFO,DRFAS  设置 hadoop security 日志级别  
             -Dhdfs.audit.logger=INFO 设置 hadoop audit 日志级别  

export HADOOP_NAMENODE_OPTS=

"${SHARED_HADOOP_NAMENODE_OPTS} ${HADOOP_NAMENODE_OPTS}"

设置 NAMENODE 参数  
             -XX:OnOutOfMemoryError=\"/usr/hdp/current/hadoop-hdfs-namenode/bin/kill-name-node\"  设置内存溢出错误处理方式,杀死 name-node  
             -Dorg.mortbay.jetty.Request.maxFormContentSize=-1  Jetty设置请求表单最大值  -1 : 无限制  
export HADOOP_DATANODE_OPTS=" ${HADOOP_DATANODE_OPTS} " 设置 HADOOP DATANODE 参数  
             -server  设置 JDK 为 server 模式  
             -XX:ParallelGCThreads=4  设置 GC 线程数量 8  
             -XX:+UseConcMarkSweepGC  设置垃圾回收器为 CMS  
             -XX:ErrorFile=/data/var/log/hadoop/$USER/hs_err_pid%p.log  设置错误日志目录  
             -XX:NewSize=200m  新生代大小  
             -XX:MaxNewSize=200m  最大新生代大小  
             -Xloggc:/data/var/log/hadoop/$USER/gc.log-`date +'%Y%m%d%H%M'`  GC 日志  
             -verbose:gc  -XX:+PrintGCDetails  用于垃圾收集时的信息打印  
             -XX:+PrintGCTimeStamps  输出 GC 时间戳  
             -XX:+PrintGCDateStamps  输出 GC 日期时间戳  
             -Xms1024m -Xmx1024m  设置堆内存大小  
             -XX:CMSInitiatingOccupancyFraction=70  使用cms作为垃圾回收
使用70%后开始CMS收集
 
             -XX:+UseCMSInitiatingOccupancyOnly 使用手动定义初始化定义开始CMS收集  
             -Dhadoop.security.logger=INFO,DRFAS  设置 hadoop security 日志级别  
             -Dhdfs.audit.logger=INFO 设置 hadoop audit 日志级别  
export HADOOP_SECONDARYNAMENODE_OPTS=
"${SHARED_HADOOP_NAMENODE_OPTS} ${HADOOP_SECONDARYNAMENODE_OPTS}"
设置SECONDARYNAMENODE参数  

             -XX:OnOutOfMemoryError=

\"/usr/hdp/current/hadoop-hdfs-secondarynamenode/bin/kill-secondary-name-node\"

secondarynamenode内存溢出操作  
export HADOOP_CLIENT_OPTS="-Xmx${HADOOP_HEAPSIZE}m $HADOOP_CLIENT_OPTS" 设置 HADOOP_CLIENT 参数  fs, dfs, fsck,
distcp etc 命令涉及
HADOOP_NFS3_OPTS="-Xmx1024m -Dhadoop.security.logger=ERROR,DRFAS ${HADOOP_NFS3_OPTS}" 设置 HADOOP NFS3  
HADOOP_BALANCER_OPTS="-server -Xmx1024m ${HADOOP_BALANCER_OPTS}" 设置 HADOOP BALANCER   
export HADOOP_SECURE_DN_USER=${HADOOP_SECURE_DN_USER:-""} 设置 DATENODE 删除权限用户  
export HADOOP_SSH_OPTS="-o ConnectTimeout=5 -o SendEnv=HADOOP_CONF_DIR" SSH 参数,默认空  
export HADOOP_LOG_DIR=/data/var/log/hadoop/$USER log 文件存储目录  $HADOOP_HOME/logs
export HADOOP_MAPRED_LOG_DIR=/data/var/log/hadoop-mapreduce/$USER History server 日志  
export HADOOP_SECURE_DN_LOG_DIR=/data/var/log/hadoop/$HADOOP_SECURE_DN_USER HADOOP_SECURE_DN 存储目录  
export HADOOP_SLAVES=${HADOOP_HOME}/conf/slaves 远程 slave hosts 文件 $HADOOP_HOME/conf/slaves by default.
export HADOOP_MASTER=master:/home/$USER/src/hadoop 设置HADOOP_MASTER  默认不设置
export HADOOP_SLAVE_SLEEP=0.1 在大型集群中,若rsync已启用,
则集群启动时所有工作节点几乎同时启动,
且同时向主节点发出rsync请求,可能导致主节点瘫痪。
默认不设置
export HADOOP_PID_DIR=/var/run/hadoop/$USER HADOOP_PID_DIR   PID 存储目录 /tmp by default.
export HADOOP_SECURE_DN_PID_DIR=/var/run/hadoop/$HADOOP_SECURE_DN_USER HADOOP_SECURE_DN_PID_DIR  PID存储目录 /tmp by default.
export HADOOP_MAPRED_PID_DIR=/var/run/hadoop-mapreduce/$USER HADOOP_MAPRED_PID_DIR  PID存储目录 /tmp by default.
YARN_RESOURCEMANAGER_OPTS="-Dyarn.server.resourcemanager.appsummary.logger=INFO,RMSUMMARY" 设置RESOURCEMANAGER 参数  
export HADOOP_IDENT_STRING=$USER A string representing this instance of hadoop.  $USER by default.
export HADOOP_NICENESS=10 The scheduling priority for daemon processes.
See 'man nice'.
 
export HADOOP_CLASSPATH=${HADOOP_CLASSPATH} Add libraries to the hadoop classpath
some may not need a colon as they already include it
 
export HADOOP_LIBEXEC_DIR=/usr/hdp/2.6.5.0-292/hadoop/libexec Setting path to hdfs command line  

你可能感兴趣的:(Hadoop官方API,工具,API,速查)