java程序员的大数据之路(12):Hadoop的守护进程

关键属性

Hadoop守护进程的关键属性大多标记为final,使作业的配置无法覆盖。

典型的core-site.xml配置文件




    
        fs.default.name
        hdfs://namenode/
        true
    

典型的hdfs-site.xml配置文件

version="1.0">
-- hdfs-site.xml -->

    <property>
        <name>dfs.name.dirname>
        /disk1/hdfs/name,/remote/hdfs/name
        true
    property>

    <property>
        <name>dfs.data.dirname>
        /disk1/hdfs/data,/remote/hdfs/data
        true
    property>

    <property>
        <name>fs.checkpoint.dirname>
        /disk1/hdfs/namesecondary,/disk2/hdfs/namesecondary
        true
    property>

典型的mapred-site.xml配置文件

version="1.0">
-- mapred-site.xml -->

    <property>
        <name>mapred.job.trackername>
        jobtracker:8021
        true
    property>

    <property>
        <name>mapred.local.dirname>
        /disk1/mapred/local,/disk2/mapred/local
        true
    property>

    <property>
        <name>mapred.system.dirname>
        /tmp/hadoop/mapred/system
        true
    property>

    <property>
        <name>mapred.tasktracker.map.tasks.maximumname>
        7
        true
    property>


    <property>
        <name>mapred.tasktracker.reduce.tasks.maximumname>
        7
        true
    property>

    <property>
        <name>mapred.child.java.optsname>
        -Xmx400m
    property>

HDFS

运行HDFS需要将一台机器指定为namenode。上文中,fs.default.name描述HDFS文件系统的URI,其主机是namenode的主机名称或IP地址,端口号是namenode监听RPC的端口,默认是8020。
fs.default.name也指定了默认文件系统,可以解析相对路径。
属性项dfs.name.dir指定一系列目录来供namenode存储永久性的文件系统元数据。通常情况下,配置dfs.name.dir,将namenode的元数据写到一个(或两个)本地磁盘和一个远程磁盘之中。
属性项dfs.data.dir指定datanode存储数据的目录。dfs.name.dir描述一系列目录,其目的是支持冗余备份。但是dfs.data.dir描述一系列目录的目的是提高性能。
最后,还需要指定辅助namenode存储文件系统的检查点目录。属性项fs.checkpoint.dir指定一系列目录来保存检查点。与namenode类似,检查点映像文件也会分包存储在各个目录之中。

MapReduce

运行MapReduce需要用户指定一台机器为jobtracker。设置mapred.job.tracker属性,指定jobtracker的主机名或IP地址以及它在监听的端口。该属性并非URI格式,而是“主机:端口”格式,默认端口号为8021。
MapReduce作业在执行过程中,产生的中间数据和工作文件被写到临时本地文件中。这个数据量可能非常大,所以本地临时存储空间必须足够大。在设置mapred.local.dir属性时,使用一个逗号分隔的目录名列表,用户最好将这些目录分散到所以本地磁盘,以提升磁盘I/O效率。
属性项mapred.system.dir指定存储各个tasktracker共享文件的目录。
最后,属性mapred.tasktracker.map.tasks.maximum和mapred.tasktracker.reduce.tasks.maximum表示在tasktracker机器上有多少核是可用的,mapred.child.java.opts表示tasktracker子JVM的有效内存大小。

地址和端口

Hadoop守护进程一般同时运行RPC和HTTP两个服务器。RPC服务器支持守护进程间的通信,HTTP服务器则提供与用户交互的Web页面。当网络地址被设置为0.0.0.0时,Hadoop将与本机上的所有地址绑定。端口号0表示服务器会选择一个空闲的端口号,但这种做法与集群范围的防火墙策略不兼容,所以不推荐。

RPC服务器属性

属性名称 默认值 说明
fs.default.name file:// 被设为一个HDFS的URI时,该属性描述namenode的RPC服务器地址和端口,默认端口号是8020
dfs.datanode.ipc.address 0.0.0.0:50020 datanode的RPC服务器地址和端口
mapred.job.tracker local 被设为主机名和端口号时,该属性指定jobtracker的RPC服务器地址和端口号,默认端口号是8021
mapred.task.tracker.report.address 127.0.0.1:0 tasktracker的RPC服务器地址和端口号。tasktracker的子JVM利用它和tasktracker通信。

HTTP服务器的属性

属性名称 默认值 说明
mapred.job.tracker.http.address 0.0.0.0:50030 jobtracker的HTTP服务器地址和端口
mapred.task.tracker.http.addresss 0.0.0.0:50060 tasktracker的HTTP服务器地址和端口
dfs.http.address 0.0.0.0:50070 namenode的HTTP服务器地址和端口
dfs.datanode.http.address 0.0.0.0:50075 datanode的HTTP服务器地址和端口
dfs.secondary.http.address 0.0.0.0:50090 辅助namenode的HTTP服务器地址和端口

如果有多个网络接口时,可以选择其中某一个网络接口作为各个datanode和tasktracker的IP地址。可以通过修改dfs.datanode.dns.interface和mapred.tasktracker.dns.interface来变更网络接口的地址。

你可能感兴趣的:(Hadoop)