详解Hadoop六个配置文件的作用

详解Hadoop六个配置文件的作用

  • 主要常用的文件夹
  • 六个配置文件的作用 etc/hadoop
    • core-site.xml
    • hdfs-site.xml
      • 额外知识点
    • hadoop-env.sh
    • mapred-site.xml
    • yarn-site.xml

本文以apache的hadoop-2.7.5为列,主要讲解Hadoop目录下每个文件的作用
详解Hadoop六个配置文件的作用_第1张图片

主要常用的文件夹

文件夹名称 作用
bin shell脚本
sbin shell脚本,如启动hdfs需要用到
etc/hadoop 所有配置文件的路径
lib/native 本地的C程序库

六个配置文件的作用 etc/hadoop

配置文件的名称 作用
core-site.xml 核心配置文件,主要定义了我们文件访问的格式 hdfs://
hadoop-env.sh 主要配置我们的java路径
hdfs-site.xml 主要定义配置我们的hdfs的相关配置
mapred-site.xml 主要定义我们的mapreduce相关的一些配置
slaves 控制我们的从节点在哪里 datanode nodemanager在哪些机器上
yarm-site.xml 配置我们的resourcemanager资源调度

core-site.xml

主要配置

  1. 文件系统采用hdfs实现
  2. 临时数据存放的位置
  3. 缓冲区大小,实际工作中根据服务器性能动态调整
  4. 开启hdfs的垃圾桶机制,删除掉的数据可以从垃圾桶中回收,单位分钟



    
	
		fs.defaultFS
		hdfs://192.168.238.100:8020
	
	
	
		hadoop.tmp.dir
		/export/servers/hadoop-2.7.5/hadoopDatas/tempDatas
	
	
	
		io.file.buffer.size
		4096
	

	
	
		fs.trash.interval
		10080
	

hdfs-site.xml

主要配置

  1. NameNode与2nn的访问地址
  2. NameNode与DataNode数据的存放路径
  3. FSImage,Edits,Checkpoint的存放位置
  4. 设置文件的副本数,一份文件保存多少份
  5. 设置文件存储的block块大小 128M



	 
	 
			dfs.namenode.secondary.http-address
			node01:50090
	
	
	
		dfs.namenode.http-address
		node01:50070
	
	
	
	
		dfs.namenode.name.dir
		file:///export/servers/hadoop-2.7.5/hadoopDatas/namenodeDatas,file:///export/servers/hadoop-2.7.5/hadoopDatas/namenodeDatas2
	
	
	
		dfs.datanode.data.dir
		file:///export/servers/hadoop-2.7.5/hadoopDatas/datanodeDatas,file:///export/servers/hadoop-2.7.5/hadoopDatas/datanodeDatas2
	
	
	
		dfs.namenode.edits.dir
		file:///export/servers/hadoop-2.7.5/hadoopDatas/nn/edits
	
	
	
		dfs.namenode.checkpoint.dir
		file:///export/servers/hadoop-2.7.5/hadoopDatas/snn/name
	
	
	
		dfs.namenode.checkpoint.edits.dir
		file:///export/servers/hadoop-2.7.5/hadoopDatas/dfs/snn/edits
	
	
	
		dfs.replication
		3
	
	
	
		dfs.permissions
		false
	
	
    
		dfs.blocksize
		134217728
	


额外知识点

查看LINUX下磁盘的挂载路径的命令

df -lh  

如下图:
/dev/sdc1与 /dev/sdb1 分别有1.9T 这就是Linux系统的挂载磁盘,路径分别是 /datadisk 和 /mnt/resource
所以我们在设置NameNode与DataNode的数据存放路径时一定要确认挂载磁盘的路径存放在哪里
详解Hadoop六个配置文件的作用_第2张图片

hadoop-env.sh

主要配置java路径

export JAVA_HOME=/export/servers/jdk1.8.0_141

mapred-site.xml

设置mapReduce的相关





	
		mapreduce.framework.name
		yarn
	
	
	
		mapreduce.job.ubertask.enable
		true
	
	
	
		mapreduce.jobhistory.address
		node01:10020
	
	
	
		mapreduce.jobhistory.webapp.address
		node01:19888
	

yarn-site.xml

配置yarn的相关信息




	
		yarn.resourcemanager.hostname
		node01
	
	
	
		yarn.nodemanager.aux-services
		mapreduce_shuffle
	
	
	
		yarn.log-aggregation-enable
		true
	
	
	
		yarn.log-aggregation.retain-seconds
		604800
	

你可能感兴趣的:(大数据技术之路)