大数据————HDFS分布式搭建

安装hdfs集群
1、上传hadoop安装包到hdp-01

2、修改配置文件
要点提示 核心配置参数:
1)指定hadoop的默认文件系统为:hdfs
2)指定hdfs的namenode节点为哪台机器
3)指定namenode软件存储元数据的本地目录
4)指定datanode软件存放文件块的本地目录

hadoop的配置文件在:/root/apps/hadoop安装目录/etc/hadoop/

  1. 修改hadoop-env.sh
    export JAVA_HOME=/root/apps/jdk1.8.0_60

  2. 修改core-site.xml


    fs.defaultFS
    hdfs://hdp-01:9000

  3. 修改hdfs-site.xml


    dfs.namenode.name.dir
    /root/dfs/name

dfs.datanode.data.dir /root/dfs/data
  1. 拷贝整个hadoop安装目录到其他机器
    scp -r /root/apps/hadoop-2.8.0 hdp-02:/root/apps/
    scp -r /root/apps/hadoop-2.8.0 hdp-03:/root/apps/
    scp -r /root/apps/hadoop-2.8.0 hdp-04:/root/apps/

  2. 启动HDFS

所谓的启动HDFS,就是在对的机器上启动对的软件
要点
提示: 要运行hadoop的命令,需要在linux环境中配置HADOOP_HOME和PATH环境变量
vi /etc/profile
export JAVA_HOME=/root/apps/jdk1.8.0_60
export HADOOP_HOME=/root/apps/hadoop-2.8.0
export PATH= P A T H : PATH: PATH:JAVA_HOME/bin: H A D O O P H O M E / b i n : HADOOP_HOME/bin: HADOOPHOME/bin:HADOOP_HOME/sbin

首先,初始化namenode的元数据目录
要在hdp-01上执行hadoop的一个命令来初始化namenode的元数据存储目录
hadoop namenode -format
创建一个全新的元数据存储目录
生成记录元数据的文件fsimage
生成集群的相关标识:如:集群id——clusterID

然后,启动namenode进程(在hdp-01上)
hadoop-daemon.sh start namenode
启动完后,首先用jps查看一下namenode的进程是否存在

然后,在windows中用浏览器访问namenode提供的web端口:50070
http://hdp-01:50070

然后,启动众datanode们(在任意地方)
hadoop-daemon.sh start datanode

  1. 用自动批量启动脚本来启动HDFS
    1)先配置hdp-01到集群中所有机器(包含自己)的免密登陆
    2)配完免密后,可以执行一次 ssh 0.0.0.0
    3)修改hadoop安装目录中/etc/hadoop/slaves(把需要启动datanode进程的节点列入)
    hdp-01
    hdp-02
    hdp-03
    hdp-04

4)在hdp-01上用脚本:start-dfs.sh 来自动启动整个集群
5)如果要停止,则用脚本:stop-dfs.sh

5、hdfs的客户端操作
客户端的理解
hdfs的客户端有多种形式:
1、网页形式
2、命令行形式
3、客户端在哪里运行,没有约束,只要运行客户端的机器能够跟hdfs集群联网

文件的切块大小和存储的副本数量,都是由客户端决定!
所谓的由客户端决定,是通过配置参数来定的
hdfs的客户端会读以下两个参数,来决定切块大小、副本数量:
切块大小的参数: dfs.blocksize
副本数量的参数: dfs.replication

上面两个参数应该配置在客户端机器的hadoop目录中的hdfs-site.xml中配置

dfs.blocksize
64m

dfs.replication 2

你可能感兴趣的:(大数据,HDFS)