Hadoop配置文件 -------未完!!!!!!

搭建Hadoop  HA--Federation集群的节点部署规划:(备注:namenode是高可用联盟,resourcemanager是高可用)

bigdata-senior01.chybinmy.com bigdata-senior02.chybinmy.com bigdata-senior03.chybinmy.com client-test
(ha:ns12) NameNode (ha:ns12) NameNode (ha:ns34) NameNode (ha:ns34)NameNode
DataNode DataNode DataNode DataNode
zkfc zkfc zkfc zkfc
Zookeeper Zookeeper Zookeeper  
(ha:rm1)ResourceManager   (ha:rm3) ResourceManager  
NodeManager NodeManager NodeManager NodeManager

一:core-site.xml

     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     

二 :hdfs-site.xml

 

name(属性名)

value(属性值) description

2

 

hadoop.hdfs.configuration.version

1 此配置文件的版本

3

dfs.namenode.rpc-address

 

处理所有客户端请求的RPC地址。在多个namenodes存在的HA/Federation的情况下,the name service id将添加到name属性上,比如dfs.namenode.rpc-address.ns1【dfs.namenode.rpc-address.EXAMPLENAEMSERVICE】。

此属性值的形式:nn-host1:rpc-port

4

dfs.namenode.rpc-bind-host

  RPC服务器将绑定的实际地址。如果设置了这个可选的地址,那么它只覆盖dfs.namenode.rpc-addres的主机名部分。它也可以指定HA/Federation中的每个namenode或name service。这有助于通过设置它的值为0.0.0.0来使name node 监听所有的接口。

5

dfs.namenode.servicerpc-address   用于HDFS服务通信的RPC地址。如果配置了,则BackupNode,DataNode 和其它所有的服务都应该连接到这个地址。

在多个namenodes存在的HA/Federation的情况下,the name service id将添加到name属性上,比如dfs.namenode.servicerpc-address.ns1【dfs.namenode.rpc-address.EXAMPLENAEMSERVICE】。

此属性值的形式:nn-host1:rpc-port。如果此属性的值未设置,那么dfs.namenode.rpc-address将使用默认值。。

6 dfs.namenode.servicerpc-bind-host   RPC服务器将绑定的实际地址。如果设置了这个可选的地址,那么它只覆盖dfs.namenode.servicerpc-addres的主机名部分。它也可以指定HA/Federation中的每个namenode或name service。这有助于通过设置它的值为0.0.0.0来使name node 监听所有的接口。
7 dfs.namenode-secondary.http-address

0.0.0.0:50090

(默认设置)

secondarynamenode HTTP服务器的地址和端口
8 dfs.namenode-secondary.https-address

0.0.0.0:50091

(默认设置)

secondarynamenode HTTPS服务器的地址和端口
9 dfs.datanode.address

0.0.0.0:50010

(默认设置)

用于数据传输的datanode服务器地址和端口
10 dfs.datanode.http.address

0.0.0.0:50075

(默认设置)

datanode HTTP服务器地址和端口
11

dfs.datanode.ipc.address

备注:ipc:inter-process communication 内部过程通信

0.0.0.0:50020

(默认设置)

datanode ipc服务器地址和端口
12 dfs.datanode.http.internal-proxy.port

0

(默认设置)

datanode的内部web代理端口。默认随机选择一个运行时可用的端口
13 dfs.datanode.handler.count

10

(默认设置)

datanode的服务器线程数
14 dfs.namenode.http-address

0.0.0.0:50070

(默认设置)

dfs namenode web用户界面将要监听的地址和基端口
15 dfs.namenode.http-bind-host   HTTP服务器将绑定的实际地址。如果设置了这个可选的地址,那么它只覆盖dfs.namenode.http-addres的主机名部分。它也可以指定HA/Federation中的每个namenode或name service。这有助于通过设置它的值为0.0.0.0来使name node HTTP服务器 监听所有的接口。
16 dfs.namenode.heartbeat.recheck-interval

300000

(默认设置)

这一时间决定了检查过期的datanode的时间间隔。利用这个值和dfs.heartbeat.interval,决定datanode是否过时的间隔也被计算。此配置的单位是毫秒。
17 dfs.http.policy

HTTP_ONLY

(默认设置)

决定了HDFS是否支持HTTPS(SSL)。这为HDFS守护进程配置HTTP终端,支持如下值:

HTTP_ONLY:仅在HTTP上提供服务;

HTTPS_ONLY:仅在HTTPS上提供服务;

HTTP_AND_HTTPS:在HTTP和HTTPS上都提供服务。

18 dfs.client.https.need-auth

false

(默认设置)

是否需要SSL客户端证书身份验证
19 dfs.client.cached.conn.retry

 

3

(默认设置)

HDFS客户端将从缓存中提取套接字的次数。一旦超过这个数量,客户端将尝试创建一个新的套接字。
20 dfs.https.server.keystore.resource

ssh-server.xml

(默认设置)

将从中提取SSL服务器密钥存储信息的资源文件 
21 dfs.client.https.keystore.resource

ssh-client.xml

(默认设置)

将从中提取SSL客户端密钥存储信息的资源文件 
22 dfs.datanode.https.address

0.0.0.0:50475

(默认设置)

datanode安全的http服务器地址和端口
23 dfs.namenode.https-address

0.0.0.0:50470

(默认设置)

namenode安全的http服务器地址和端口
24 dfs.namenode.https-bind-host   HTTPS服务器将绑定的实际地址。如果设置了这个可选的地址,那么它只覆盖dfs.namenode.https-addres的主机名部分。它也可以指定HA/Federation中的每个namenode或name service。这有助于通过设置它的值为0.0.0.0来使name node HTTPS服务器 监听所有的接口
25 dfs.datanode.dns.interface default

从中数据节点应该报告其IP地址的网络接口的名称。比如:eth2。对于一些多宿主节点(datanodes被分配为多个主机名,并且datanodes希望使用一个非默认主机名)可能需要此设置。

hadoop.security.dns.interface的优先级高于dfs.datanode.dns.interface

26 dfs.datanode.dns.nameserver default

名称服务器(DNS)的主机名和IP地址,一个datanode应该用它来确定自己的主机名。

hadoop.security.dns.nameserver的优先级高于dfs.datanode.dns.nameserver

27 dfs.namenode.backup.address 0.0.0.0:50100 备份节点服务器的地址和端口。如果端口为0,那么服务器将在自由端口启动。
28 dfs.namenode.backup.http-address 0.0.0.0:50105 备份节点http服务器的地址和端口。如果端口为0,那么服务器将在自由端口启动。
29 dfs.namenode.replication.considerLoad

true

(默认设置)

决定了选择目标是否考虑目标的负载
30 dfs.namenode.replication.considerLoad.factor

2.0

(默认设置)

只有在considerLoad为true的情况下,在被拒绝写入之前一个节点才能超出平均值的因数
31 dfs.default.chunck.view.size

32768

(默认设置)

在浏览器上的文件要查看的字节数
  dfs.datanode.du.reserved.calculator

org.apache.hadoop.hdfs.server.datanode.fsdataset.impl.

ReservedSpaceCalculator$ReservedSpaceCalculatorAbsolute

确定用于计算非hdfs数据保留的磁盘空间的ReservedSpaceCalculator类。默认的计算器是ReservedSpaceCalculatorAbsolute,它将使用df .datanode.du.reserved作为为静态保留字节数。ReservedSpaceCalculatorPercentage将使用dfs.datanode.du.reserved.pct根据存储的大小计算保留的字节数。ReservedSpaceCalculatorConservative和ReservedSpaceCalculatorAggressive将使用它们的组合,Conservative将使用最大限度, Aggressive最小限度。有关更多细节,请参见ReservedSpaceCalculator。
32 dfs.datanode.du.reserved 0 每卷保留字节的空间。总是为非dfs使用留下这么多空间。还支持特定的基于存储类型的保留。对于具有异构存储类型的集群,该属性后面可以跟相应的存储类型[ssd]/[disk]/[archive]/[ram_disk])。比如,可以使用属性dfs.datanode.du.reserved.ram_disk来配置RAM_DISK存储的保留空间。如果未配置特定存储类型预留,则使用dfs.datanode.du.reserved。
33 dfs.namenode.name.dir

file://${hadoop.tmp.dir}/dfs/name

(默认设置)

确定本地文件系统上DFS namenode应该存储名称表(fsimage)的位置。如果这是一个逗号分隔的目录列表,那么会在所有的目录中复制名称表,用于冗余。
34

dfs.namenode.name.dir.restore

备注:restore---恢复

false

(默认设置)

设置为true来启动namenode以尝试恢复一个以前任何失败的dfs.namenode.name.dir

。当启用时,在检查点期间,尝试恢复任何失败的目录。

35 dfs.nameode.fs-limits.max-component-length

255

(默认设置)

定义一个路径中每个组件中UTF-8编码的最大字节数。如果此属性值是零则将禁用检查。
35 dfs.namenode.fs-limits.max-directory-items

1048576

(默认设置)

定义一个目录中包含的最大项目数。此属性值的设置范围是1
36 dfs.namenode.fs-limits.max-blocks-per-file

1048576

(默认设置)

每个文件的最大块数,有namenode在写上强制执行。这可以创建防止非常大的文件,这些文件会降低性能。
37 dfs.namenode.edits.dir

${dfs.namenode.name.dir}

(默认设置)

确定本地文件系统上DFS namenode应该存储事务(edits)文件的位置。如果这是一个逗号分隔的目录列表,那么会在所有的目录中复制事务文件(即,transaction file),用于冗余。默认值和dfs.namenode.name.dir一样。
38 dfs.namenode.edits.dir.required   这应该是dfs.namenode.edits.dir的一个子集,以确保这些地方的事务(edits)文件总是最新的。 
39 dfs.namenode.shared.edits.dir   一个HA集群中多个namenode之间共享存储的一个目录。为了保持命名空间(namespaces)同步,这个目录将由active写入,而由standby读取。这个目录没必要列到dfs.namenode.edits.dir中。在非HA集群中,此属性值应该是空的。
40 dfs.namenode.edits.journal-plugin.qjournal

org.apache.hadoop.hdfs.qjournal.client.

QuorumJournalManager

(默认设置)

 
41 dfs.permissions.enabled

true

(默认设置)

如果是true,在HDFS中开启权限检查。如果是false,则关闭权限检查,但其它所有行为并没有变化。从一个参数值切换到另一个值,不会改变文件或目录的模式、属主或数组。
42 dfs.permissions.superusergroup supergroup  super-users的组名。该值应该是单组名。
43 dfs.cluster.administrators  

管理员访问控制列表(Access Control List,ACL),此配置用来控制谁可以访问namenode中默认的小服务程序,等等。此属性值应该是一个 各个用户之间用逗号分隔和各个组之间用逗号分隔的列表。用户列表排在前面,组列表排在后面,两列表之间用一个空格分离,例如:"user1,user2 group1,group2"。用户和组都是可选的,所以"user1",

" group1"(注意其中的前导符,即一个空格),"","user1 group1","user1,user2 group1,group2"都是有效的(注意" group1"中的前导符)。'*'表示授予所有用户和组访问权限,例如,'*','* ',' *'都是有效的。

44 dfs.namenode.acls.enabled

false

(默认)

设置为true来启用HDFS访问控制列表。ACLs默认是禁用的。当ACLs被禁用时,namenode拒绝所有与设置或获取ACLs相关的RPCs。
45 dfs.namenode.lazypersist.file.scrub.interval.sec

300

(默认)

namenode周期性的扫描具有缺失块的LazyPersist文件的命名空间,并将它们从命名空间中解开。这个配置钥匙用来控制逐行扫描之间的间隔。设置一个负值可以禁用此行为。
46 dfs.block.access.token.enable

false

(默认设置)

如果是true,访问令牌被用作访问datanodes的能力;如果是false,则访问datanodes时不检查访问令牌
47 dfs.block.access.key.update.interval

600

(默认设置)

namenode更新它的访问密钥的分钟间隔
48 dfs.block.access.token.lifetime

600

(默认设置)

访问令牌的分钟生命周期
49 dfs.datanode.data.dir

file://${hadoop.tmp.dir}/dfs/data

(默认设置)

确定本地文件系统上一个DFS datanode

应该存储它的块的位置。如果这是一个逗号分隔的目录列表,那么数据将存储在所有命名的目录中,通常存储在不同的设备上。对于HDFS存储策略,目录应该标记相应的存储类型([SSD]/[DISK]/[ARCHIVE]/[RAM_DISK])。如果目录没有一个显式标记的存储类型,则默认存储类型为DISK。如果本地文件系统权限允许,将创建不存在的目录。

50 dfs.datanode.data.dir.perm

700

(默认设置)

DFS datanode存储其块的本地文件系统上目录的权限。权限可以是八进制的,也可以是符号的。
51 dfs.replication

3

(默认设置)

默认的块复制。创建文件时可以指定实际的复制次数。如果在创建时没有指定复制,则使用默认值。
52 dfs.replication.max

512

(默认设置)

块复制最大次数
53 dfs.namenode.replication.min

1

(默认设置)

块复制最小次数
54 dfs.namenode.maintenance.replication.min

1

(默认设置)

存在维护模式时的最小活块复制。
55 dfs.namenode.safemode.replication.min   用于计算安全块计数的独立最小复制因子。这是一个专家级别的设置。对于生产环境来说,将其设置得低于dfs.namenode. replication.min是不推荐的和/或危险的。当它没有设置时,它会从dfs.namenode. replication .min中获取值
56 dfs.blocksize

134217728

(默认设置128M)

新文件的默认块大小(以字节为单位)。您可以使用以下后缀(不区分大小写):k(千)、m(百万)、g(千)、t(tera)、p(peta)、e(exa)来指定大小(如128k、512m、1g等),或提供完整的大小(如128MB为134217728)。
57 dfs.client.block.write.retries

3

(默认设置)

在向应用程序发出故障信号之前,向datanode写入块的重试次数。
58 dfs.client.block.write.replace-datanode-on-failure.enable

true

(默认设置)

如果写入管道中有datanode/network故障,DFSClient将尝试从管道中删除失败的datanode,然后继续使用剩余的datanodes进行写入。因此,管道中数据阳极的数量减少了。该特性是向管道中添加新的datanodes。这是一个站点范围的属性,用于启用/禁用该特性。当集群规模非常小时,例如3个节点或更少,集群管理员可能希望将策略设置为在默认配置文件中永远不会出现(即策略:NEVER),或者禁用此特性。否则,用户可能会经历异常高的管道故障率,因为不可能找到新的datanodes来替换。参见dfs.client.block.write.replace-datanode-on-failure.policy
59 dfs.client.block.write.replace-datanode-on-failure.policy

DEFAULT

(默认设置)

只有当dfs.client.block.write.replace-datanode-on-failure的值为true时,才使用此属性。

ALWAYS:总是在删除一个现有的datanode时添加一个新的datanode。

NEVER:永远不要添加一个新的datanode。

DEFAULT:设r为复制数。设n为现有datanodes的数量。仅当r大于等于3且(1)(r/2)取地后大于或等于n时,;或者(2)r大于n,块被hflushed /appended时,才添加一个新的datanode。

60 dfs.client.block.write.replace-datanode-on-failue.best-effort

false

(默认设置)

只有当dfs.client.block.write.replace-datanode-on-failure的值为true时,才使用此属性。Best effort表示客户端将尝试在写管道中替换失败的datanode(只要策略满足),但是,如果datanode替换失败,它将继续写操作。

假设datanode替换失败。false:应该抛出异常,这样写就会失败。true:写操作应与剩余datanodes一起恢复。请注意,如果将此属性设置为true,则可以将其写入具有少量datanodes的管道。因此,它增加了数据丢失的概率。

61 dfs.client.block.write.replace-datanode-on-failure.min-replication

0

(默认设置)

如果在写管道中找不到新的datanodes来替换失败的datanodes(可能是由于网络故障),就需要最少的复制数量来避免写管道失败。如果写管道中剩余的datanodes数量大于或等于这个属性值,那么继续写到剩余节点。否则,抛出异常。如果将其设置为0,则在找不到替换时将引发异常。参见dfs.client.block.write.replace-datanode-on-failure.policy
62 dfs.blockreport.intervalMsec

21600000

(默认设置,6小时)

确定以毫秒为单位的块报告间隔
63 dfs.blockreport.initialDelay

0

(默认设置)

第一个块报告的延迟时间(以秒为单位)。
64 dfs.blockreport.split.threshold 1000000 如果DataNodes上的块数量低于此阈值,那么它将在单个消息中为所有存储目录发送块报告。如果块的数量超过这个阈值,那么DataNodes将在单独的消息中为每个存储目录发送块报告,即每个存储目录都有单独的消息来发送块报告。设置为零,以始终切分(即一个目录对应一条块报告消息)。
65 dfs.namenode.max.full.block.report.leases 6 namenode将在任何给定时间发布的完整块报告的最大租用数量。

 

你可能感兴趣的:(Hadoop配置文件 -------未完!!!!!!)