name | description | default value |
export JAVA_HOME=/home/hadoop/software/jdk1.8.0_171 | 设置 JAVA HOME | |
export HADOOP_HOME_WARN_SUPPRESS=1 | 压制警告 | 1 |
export HADOOP_HOME=${HADOOP_HOME:-/usr/hdp/2.6.5.0-292/hadoop} | 设置HADOOP_HOME目录 | |
export JSVC_HOME=/usr/lib/bigtop-utils | 供secure HDP 2.0 datanode 使用 | |
export HADOOP_HEAPSIZE="1024" | 设置堆内存,默认单位 MB | 1000 |
export HADOOP_NAMENODE_INIT_HEAPSIZE="-Xms1024m" | HADOOP NAMENODE 堆内存设置 | |
export HADOOP_OPTS="-Djava.net.preferIPv4Stack=true ${HADOOP_OPTS}" | 配置可选参数: -Djava.net.preferIPv4Stack=true 在ipv4的机器上想获取到完整的机器名 |
使用了Java网络编程,涉及到ipv4和ipv6的问题,在hadoop集群中由于机器配置不一, 会导致不同机器获取的机器名长短不一,从而引发一系列问题, 如“hadoop或yarn集群任务数据本地化很差。 |
USER="$(whoami)" | 获取当前操作用户 | |
HADOOP_JOBTRACKER_OPTS=" ${HADOOP_JOBTRACKER_OPTS}" | HADOOP JOBTRACKER 可选配置参数 | |
-server | 设置 JDK 为 server 模式 | |
-XX:ParallelGCThreads=8 | 设置 GC 线程数量 8 | |
-XX:+UseConcMarkSweepGC | 设置垃圾回收器为 CMS | |
-XX:ErrorFile=/data/var/log/hadoop/$USER/hs_err_pid%p.log | 设置错误日志目录 | |
-XX:NewSize=200m | 新生代大小 | |
-XX:MaxNewSize=200m | 最大新生代大小 | |
-Xloggc:/data/var/log/hadoop/$USER/gc.log-`date +'%Y%m%d%H%M'` | GC 日志 | |
-verbose:gc | 用于垃圾收集时的信息打印 | |
-XX:+PrintGCDetails B18 | 输出 gc 日志信息 | |
-XX:+PrintGCTimeStamps | 输出 GC 时间戳 | |
-XX:+PrintGCDateStamps | 输出 GC 日期时间戳 | |
-Xmx1024m | 设置堆内存 | |
-Dhadoop.security.logger=INFO,DRFAS | 设置 hadoop security 日志级别 | |
-Dmapred.audit.logger=INFO,MRAUDIT | 设置 hadoop audit 日志级别 | |
-Dhadoop.mapreduce.jobsummary.logger=INFO,JSA | 设置 hadoop papreduce 日志级别 | |
HADOOP_TASKTRACKER_OPTS =" ${HADOOP_TASKTRACKER_OPTS}"" | 设置TASKTRACKER 参数 | |
-server | 设置 JDK 为 server 模式 | |
-Xmx1024m | 设置堆内存 | |
-Dhadoop.security.logger=ERROR,console | 设置 hadoop security 日志级别 | |
-Dmapred.audit.logger=ERROR,console | 设置 hadoop audit 日志级别 | |
SHARED_HADOOP_NAMENODE_OPTS | 设置HADOOP NAMENODE共享参数供 NAMENODE和SECONDARYNAMENODE使用 |
|
-server | 设置 JDK 为 server 模式 | |
-XX:ParallelGCThreads=8 | 设置 GC 线程数量 8 | |
-XX:+UseConcMarkSweepGC | 设置垃圾回收器为 CMS | |
-XX:ErrorFile=/data/var/log/hadoop/$USER/hs_err_pid%p.log ' | 设置错误日志目录 | |
-XX:NewSize=128m | 新生代大小 | |
-XX:MaxNewSize=128m | 最大新生代大小 | |
-Xloggc:/data/var/log/hadoop/$USER/gc.log-`date +'%Y%m%d%H%M'` | GC 日志 | |
-verbose:gc -XX:+PrintGCDetails | 用于垃圾收集时的信息打印 | |
-XX:+PrintGCTimeStamps | 输出 GC 时间戳 | |
-XX:+PrintGCDateStamps | 输出 GC 日期时间戳 | |
-XX:CMSInitiatingOccupancyFraction=70 | 使用cms作为垃圾回收 使用70%后开始CMS收集 |
|
-XX:+UseCMSInitiatingOccupancyOnly | 使用手动定义初始化定义开始CMS收集 | |
-Xms1024m | 设置初始堆内存 | |
-Xmx1024m | 设置最大堆内存 | |
-Dhadoop.security.logger=INFO,DRFAS | 设置 hadoop security 日志级别 | |
-Dhdfs.audit.logger=INFO | 设置 hadoop audit 日志级别 | |
export HADOOP_NAMENODE_OPTS= "${SHARED_HADOOP_NAMENODE_OPTS} ${HADOOP_NAMENODE_OPTS}" |
设置 NAMENODE 参数 | |
-XX:OnOutOfMemoryError=\"/usr/hdp/current/hadoop-hdfs-namenode/bin/kill-name-node\" | 设置内存溢出错误处理方式,杀死 name-node | |
-Dorg.mortbay.jetty.Request.maxFormContentSize=-1 | Jetty设置请求表单最大值 -1 : 无限制 | |
export HADOOP_DATANODE_OPTS=" ${HADOOP_DATANODE_OPTS} " | 设置 HADOOP DATANODE 参数 | |
-server | 设置 JDK 为 server 模式 | |
-XX:ParallelGCThreads=4 | 设置 GC 线程数量 8 | |
-XX:+UseConcMarkSweepGC | 设置垃圾回收器为 CMS | |
-XX:ErrorFile=/data/var/log/hadoop/$USER/hs_err_pid%p.log | 设置错误日志目录 | |
-XX:NewSize=200m | 新生代大小 | |
-XX:MaxNewSize=200m | 最大新生代大小 | |
-Xloggc:/data/var/log/hadoop/$USER/gc.log-`date +'%Y%m%d%H%M'` | GC 日志 | |
-verbose:gc -XX:+PrintGCDetails | 用于垃圾收集时的信息打印 | |
-XX:+PrintGCTimeStamps | 输出 GC 时间戳 | |
-XX:+PrintGCDateStamps | 输出 GC 日期时间戳 | |
-Xms1024m -Xmx1024m | 设置堆内存大小 | |
-XX:CMSInitiatingOccupancyFraction=70 | 使用cms作为垃圾回收 使用70%后开始CMS收集 |
|
-XX:+UseCMSInitiatingOccupancyOnly | 使用手动定义初始化定义开始CMS收集 | |
-Dhadoop.security.logger=INFO,DRFAS | 设置 hadoop security 日志级别 | |
-Dhdfs.audit.logger=INFO | 设置 hadoop audit 日志级别 | |
export HADOOP_SECONDARYNAMENODE_OPTS= "${SHARED_HADOOP_NAMENODE_OPTS} ${HADOOP_SECONDARYNAMENODE_OPTS}" |
设置SECONDARYNAMENODE参数 | |
-XX:OnOutOfMemoryError= \"/usr/hdp/current/hadoop-hdfs-secondarynamenode/bin/kill-secondary-name-node\" |
secondarynamenode内存溢出操作 | |
export HADOOP_CLIENT_OPTS="-Xmx${HADOOP_HEAPSIZE}m $HADOOP_CLIENT_OPTS" | 设置 HADOOP_CLIENT 参数 | fs, dfs, fsck, distcp etc 命令涉及 |
HADOOP_NFS3_OPTS="-Xmx1024m -Dhadoop.security.logger=ERROR,DRFAS ${HADOOP_NFS3_OPTS}" | 设置 HADOOP NFS3 | |
HADOOP_BALANCER_OPTS="-server -Xmx1024m ${HADOOP_BALANCER_OPTS}" | 设置 HADOOP BALANCER | |
export HADOOP_SECURE_DN_USER=${HADOOP_SECURE_DN_USER:-""} | 设置 DATENODE 删除权限用户 | |
export HADOOP_SSH_OPTS="-o ConnectTimeout=5 -o SendEnv=HADOOP_CONF_DIR" | SSH 参数,默认空 | |
export HADOOP_LOG_DIR=/data/var/log/hadoop/$USER | log 文件存储目录 | $HADOOP_HOME/logs |
export HADOOP_MAPRED_LOG_DIR=/data/var/log/hadoop-mapreduce/$USER | History server 日志 | |
export HADOOP_SECURE_DN_LOG_DIR=/data/var/log/hadoop/$HADOOP_SECURE_DN_USER | HADOOP_SECURE_DN 存储目录 | |
export HADOOP_SLAVES=${HADOOP_HOME}/conf/slaves | 远程 slave hosts 文件 | $HADOOP_HOME/conf/slaves by default. |
export HADOOP_MASTER=master:/home/$USER/src/hadoop | 设置HADOOP_MASTER | 默认不设置 |
export HADOOP_SLAVE_SLEEP=0.1 | 在大型集群中,若rsync已启用, 则集群启动时所有工作节点几乎同时启动, 且同时向主节点发出rsync请求,可能导致主节点瘫痪。 |
默认不设置 |
export HADOOP_PID_DIR=/var/run/hadoop/$USER | HADOOP_PID_DIR PID 存储目录 | /tmp by default. |
export HADOOP_SECURE_DN_PID_DIR=/var/run/hadoop/$HADOOP_SECURE_DN_USER | HADOOP_SECURE_DN_PID_DIR PID存储目录 | /tmp by default. |
export HADOOP_MAPRED_PID_DIR=/var/run/hadoop-mapreduce/$USER | HADOOP_MAPRED_PID_DIR PID存储目录 | /tmp by default. |
YARN_RESOURCEMANAGER_OPTS="-Dyarn.server.resourcemanager.appsummary.logger=INFO,RMSUMMARY" | 设置RESOURCEMANAGER 参数 | |
export HADOOP_IDENT_STRING=$USER | A string representing this instance of hadoop. | $USER by default. |
export HADOOP_NICENESS=10 | The scheduling priority for daemon processes. See 'man nice'. |
|
export HADOOP_CLASSPATH=${HADOOP_CLASSPATH} | Add libraries to the hadoop classpath some may not need a colon as they already include it |
|
export HADOOP_LIBEXEC_DIR=/usr/hdp/2.6.5.0-292/hadoop/libexec | Setting path to hdfs command line |