Hadoop配置部分内容


    [size=medium;]Hadoop配置部分内容[/size]

[size=small;]Hadoop配置文件[/size]


hadoop-env.sh

?????????? 记录脚本要用的环境变量,以运行Hadoop,比如:jdk的环境变量配置

core-site.xml

?????????? Hadoop Core的配置项,例如HAFD和Mapredure常用的I/O设置等。

hdfs-site.xml

?????????? Hadoop守护进程的配置项,包括namenode,辅助namenode和datanode等。

slaves

?????????? 运行datanode和tasktracker的机器列表(每行一个)

[size=small;]配置管理[/size]


????? Hadoop没有将所有配置信息放在一个单独的全局位置中。反之,集群的Hadoop节点都各自保存一系列配置文件,并由管理员完成这些配置文件的同步工作。

????? <span style="color: #ff0000;">Hadoop支持为所有的主机器和工作机器采用同一套配置文件</span>
<span style="color: #ff0000;">
。</span>


????? 最大的优势在于简单,不仅体现在理论上(仅需要处理一套配置文件),也体现在可操作性上(使用hadoop脚本就能进行管理)。

[size=small;]控制脚本[/size]


????? Hadoop内置一些脚本来运行指令、在集群内启动和终止守护进程。为了运行这些脚本(存放在bin目录中),还需要指定集群内的所有机器。有两个文件能达到这个目标,即masters和slaves。各文件逐行记录一些机器的名称或ip地址。masters主要记录拟运行辅助namenode的所有机器。slaves文件记录了运行datanode和tasktracker的所有机器。

????? 这两个文件存放在配置目录中。此外,<span style="color: #ff0000;">这些文件无需分发到各个工作节点,因为只有运行在namenode或jobtracker上的控制脚本能使用这些文件。</span>


????? 脚本start-dfs.sh脚本用于<span style="color: #0000ff;">启动集群中所有的HAFS守护进程</span>
,但是该脚本运行时会在同一机器上运行namenode。详细步骤如下:

????? 1.在本地机器上启动一个namenode(脚本所运行的机器)

????? 2.在slaves文件中记录的各个机器上启动一个datanode

????? 3.在masters文件中所记录的各机器上启动一个辅助namonode。

 

你可能感兴趣的:(java,工作,Hadoop配置部分内容)