hadoop的HDFS部分配置说明

1.   Core-site.xml配置说明(文件所在目录:${Hadoop_Home}/etc/hadoop/)

(1)    配置namdenode节点URI

fs.defaultFS

hdfs://bigdata1:8020

(2)    设置回收站

默认trash功能没有启动,生产环境中最好可以把他起来,以恢复误删数据。启用回收站后,用户删除的目录和文件会移到自己家目录下的.trash文件夹暂时保存。可以配置一个延迟时间,文件到期就会被删除。如果误删文件,直接把文件从.trash目录拷出来即可。如果删除时需要马上释放空间,可以使用能够下面语句删除文件:

[root@hexel ~]#hadoop fs -rm -skipTrash  /index.php

回收站重要参数

fs.trash.interval:表示文件可以存放的事件,以分钟为单位,0表示禁用trash。CDH4.2以上可以在server和client两端设置,Server端的值优先于Client.

fs.trash.checkpoint.interval:表示回收站检查点的间隔时间,单位也是分钟,只能在服务端设置。这个参数默认是0,就等于fs.trash.interval。

本文两个参数配置如下:

fs.trash.checkpoint.interval

90

 

fs.trash.interval

180

2.   Hdfs-site.xml配置说明(文件所在目录:${Hadoop_Home}/etc/hadoop/)

(1)    关闭权限检查

关闭权限检查后,任何客户端都可以登录hadoop进行操作,不受权限影响

dfs.permissions

false

(2)namenode节点数据放置位置

最好写多个路径,不同路径的数据是冗余关系

dfs.namenode.name.dir

/hadoop/hadoop-2.0.0-cdh4.5.0/name1,/hadoop/hadoop-2.0.0-cdh4.5.0/name2

(3)启用WebHDFS

Namenode的web访问方式是否开启,默认已经开启了,要关闭就设成false:

dfs.webhdfs.enabled

true

(4)配置namenode节点的http访问地址和端口

默认端口是50070,可手动设置:

dfs.namenode.http-address

bigdata1:50071

(5)datanode节点数据存放位置

多个路径之间是循环写入,负载均衡的关系:

dfs.datanode.data.dir

/hadoop/hadoop-2.0.0-cdh4.5.0/data1,/hadoop/hadoop-2.0.0-cdh4.5.0/data2

(6)配置数据副本份数

默认是3份,这里暂时写成两份:

dfs.replication

2

     (7)配置block的大小

      Hdfs的块大小由dfs.block.size参数决定,默认是67108864

dfs.block.size

67108864

Thedefault block size for new files

(8)配置数据节点本地磁盘目录失效的阀值

默认条件下,数据节点上单个数据目录失效会导致datanode进程关闭,namenode节点将在其他datanode节点上复制该datanode节点上的数据,以保证冗余度。但是实际上该datanode上正常目录的数据是不需要复制的,参数dfs.datanode.failed.volumes.tolerated可以改变这个特性。假定设定为3,只有当datanode节点上4个以上目录失效,datanode进程才会关闭。如果目录本来就较少,那么不建议设置这个数

你可能感兴趣的:(hadoop)