xk_一步一步来

史上最详细的hadoop环境搭建

转自：https://blog.csdn.net/hliq5399/article/details/78193113

前言

Hadoop在大数据技术体系中的地位至关重要，Hadoop是大数据技术的基础，对Hadoop基础知识的掌握的扎实程度，会决定在大数据技术道路上走多远。

这是一篇入门文章，Hadoop的学习方法很多，网上也有很多学习路线图。本文的思路是：以安装部署Apache Hadoop2.x版本为主线，来介绍Hadoop2.x的架构组成、各模块协同工作原理、技术细节。安装不是目的，通过安装认识Hadoop才是目的。

本文分为五个部分、十三节、四十九步。

第一部分：Linux环境安装

Hadoop是运行在Linux，虽然借助工具也可以运行在Windows上，但是建议还是运行在Linux系统上，第一部分介绍Linux环境的安装、配置、Java JDK安装等。

第二部分：Hadoop本地模式安装

Hadoop本地模式只是用于本地开发调试，或者快速安装体验Hadoop，这部分做简单的介绍。

第三部分：Hadoop伪分布式模式安装

学习Hadoop一般是在伪分布式模式下进行。这种模式是在一台机器上各个进程上运行Hadoop的各个模块，伪分布式的意思是虽然各个模块是在各个进程上分开运行的，但是只是运行在一个操作系统上的，并不是真正的分布式。

第四部分：完全分布式安装

完全分布式模式才是生产环境采用的模式，Hadoop运行在服务器集群上，生产环境一般都会做HA，以实现高可用。

第五部分：Hadoop HA安装

HA是指高可用，为了解决Hadoop单点故障问题，生产环境一般都做HA部署。这部分介绍了如何配置Hadoop2.x的高可用，并简单介绍了HA的工作原理。
安装过程中，会穿插简单介绍涉及到的知识。希望能对大家有所帮助。

第一部分：Linux环境安装

第一步、配置Vmware NAT网络

一、Vmware网络模式介绍

参考：http://blog.csdn.net/collection4u/article/details/14127671

二、NAT模式配置

NAT是网络地址转换，是在宿主机和虚拟机之间增加一个地址转换服务，负责外部和虚拟机之间的通讯转接和IP转换。

我们部署Hadoop集群，这里选择NAT模式，各个虚拟机通过NAT使用宿主机的IP来访问外网。

我们的要求是集群中的各个虚拟机有固定的IP、可以访问外网，所以进行如下设置：

1、 Vmware安装后，默认的NAT设置如下：

2、默认的设置是启动DHCP服务的，NAT会自动给虚拟机分配IP，但是我们需要将各个机器的IP固定下来，所以要取消这个默认设置。

3、为机器设置一个子网网段，默认是192.168.136网段，我们这里设置为100网段，将来各个虚拟机Ip就为 192.168.100.*。

4、点击NAT设置按钮，打开对话框，可以修改网关地址和DNS地址。这里我们为NAT指定DNS地址。

5、网关地址为当前网段里的.2地址，好像是固定的，我们不做修改，先记住网关地址就好了，后面会用到。

第二步、安装Linux操作系统

三、Vmware上安装Linux系统

1、文件菜单选择新建虚拟机

2、选择经典类型安装，下一步。

3、选择稍后安装操作系统，下一步。

4、选择Linux系统，版本选择CentOS 64位。

5、命名虚拟机，给虚拟机起个名字，将来显示在Vmware左侧。并选择Linux系统保存在宿主机的哪个目录下，应该一个虚拟机保存在一个目录下，不能多个虚拟机使用一个目录。

6、指定磁盘容量，是指定分给Linux虚拟机多大的硬盘，默认20G就可以，下一步。

7、点击自定义硬件，可以查看、修改虚拟机的硬件配置，这里我们不做修改。

8、点击完成后，就创建了一个虚拟机，但是此时的虚拟机还是一个空壳，没有操作系统，接下来安装操作系统。

9、点击编辑虚拟机设置，找到DVD，指定操作系统ISO文件所在位置。

10、点击开启此虚拟机，选择第一个回车开始安装操作系统。

11、设置root密码。

12、选择Desktop，这样就会装一个Xwindow。

13、先不添加普通用户，其他用默认的，就把Linux安装完毕了。

四、设置网络

因为Vmware的NAT设置中关闭了DHCP自动分配IP功能，所以Linux还没有IP，需要我们设置网络各个参数。

1、用root进入Xwindow，右击右上角的网络连接图标，选择修改连接。

2、网络连接里列出了当前Linux里所有的网卡，这里只有一个网卡System eth0，点击编辑。

3、配置IP、子网掩码、网关（和NAT设置的一样）、DNS等参数，因为NAT里设置网段为100.*，所以这台机器可以设置为192.168.100.10网关和NAT一致，为192.168.100.2

4、用ping来检查是否可以连接外网，如下图，已经连接成功。

五、修改Hostname

1、临时修改hostname

[root@localhost Desktop]# hostname bigdata-senior01.chybinmy.com
 
 
   
   
   
   
    
    
    
    1

这种修改方式，系统重启后就会失效。

2、永久修改hostname

想永久修改，应该修改配置文件 /etc/sysconfig/network。

命令：[root@bigdata-senior01 ~] vim /etc/sysconfig/network
 
 
   
   
   
   
    
    
    
    1

打开文件后，


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     NETWORKING=yes  #使用网络
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     HOSTNAME=bigdata-senior01.chybinmy.com  #设置主机名
    
    
      
      
      
      
   
   
     
     
     
     
   
   
   
   
 
 
   
   
   
   
    
    
    
    1
    
    
    
    2

六、配置Host


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     命令：[root
     
     @bigdata-senior01 ~] vim /etc/hosts
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     添加hosts: 
     
     192.168
     
     .100
     
     .10 bigdata-senior01.chybinmy.com
    
    
      
      
      
      
   
   
     
     
     
     
   
   
   
   
 
 
   
   
   
   
    
    
    
    1
    
    
    
    2

七、关闭防火墙

学习环境可以直接把防火墙关闭掉。

(1) 用root用户登录后，执行查看防火墙状态。

[root@bigdata-senior01 hadoop]# service iptables status
 
 
   
   
   
   
    
    
    
    1

(2) 用[root@bigdata-senior01 hadoop]# service iptables stop关闭防火墙，这个是临时关闭防火墙。


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     [root
     
     @bigdata-senior01 hadoop-
     
     2.5
     
     .0]# service iptables stop
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     iptables: Setting chains to policy ACCEPT: filter          [  OK  ]
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     iptables: Flushing firewall rules:                         [  OK  ]
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     iptables: Unloading modules:                               [  OK  ]
    
    
      
      
      
      
   
   
     
     
     
     
   
   
   
   
 
 
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4

(3) 如果要永久关闭防火墙用。

[root@bigdata-senior01 hadoop]# chkconfig iptables off
 
 
   
   
   
   
    
    
    
    1

关闭，这种需要重启才能生效。

八、关闭selinux

selinux是Linux一个子安全机制，学习环境可以将它禁用。

[hadoop@bigdata-senior01 hadoop-2.5.0]$ vim /etc/sysconfig/selinux
 
 
   
   
   
   
    
    
    
    1


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     # This file controls the state of SELinux on the system.
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     # SELINUX= can take one of these three values:
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     #     enforcing - SELinux security policy is enforced.
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     #     permissive - SELinux prints warnings instead of enforcing.
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     #     disabled - No SELinux policy is loaded.
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     SELINUX=disabled
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     # SELINUXTYPE= can take one of these two values:
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     #     targeted - Targeted processes are 
     
     protected,
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     #     mls - Multi Level Security protection.
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     SELINUXTYPE=targeted
    
    
      
      
      
      
   
   
     
     
     
     
   
   
   
   
 
 
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4
    
    
    
    5
    
    
    
    6
    
    
    
    7
    
    
    
    8
    
    
    
    9
    
    
    
    10

第三步、安装JDK

九、安装Java JDK

1、查看是否已经安装了java JDK。

[root@bigdata-senior01 Desktop]# java –version
 
 
   
   
   
   
    
    
    
    1

注意：Hadoop机器上的JDK，最好是Oracle的Java JDK，不然会有一些问题，比如可能没有JPS命令。
如果安装了其他版本的JDK，卸载掉。

2、安装java JDK

(1) 去下载Oracle版本Java JDK：jdk-7u67-linux-x64.tar.gz

(2) 将jdk-7u67-linux-x64.tar.gz解压到/opt/modules目录下

[root@bigdata-senior01 /]# tar -zxvf jdk-7u67-linux-x64.tar.gz -C /opt/modules
 
 
   
   
   
   
    
    
    
    1

(3) 添加环境变量

设置JDK的环境变量 JAVA_HOME。需要修改配置文件/etc/profile，追加


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     export JAVA_HOME=
     
     "/opt/modules/jdk1.7.0_67"
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     export PATH=$JAVA_HOME/bin:$PATH
    
    
      
      
      
      
   
   
     
     
     
     
   
   
   
   
 
 
   
   
   
   
    
    
    
    1
    
    
    
    2

修改完毕后，执行 source /etc/profile

(4)安装后再次执行 java –version,可以看见已经安装完成。


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     [root
     
     @bigdata-senior01 /]# java -version
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     java version 
     
     "1.7.0_67"
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     Java(TM) 
     
     SE Runtime Environment (build 
     
     1.7
     
     .0
     
     _67-b01)
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     Java 
     
     HotSpot
     
     (TM) 
     
     64
     
     -Bit Server VM (build 
     
     24.65
     
     -b04, mixed mode)
    
    
      
      
      
      
   
   
     
     
     
     
   
   
   
   
 
 
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4

第二部分：Hadoop本地模式安装

第四步、Hadoop部署模式

Hadoop部署模式有：本地模式、伪分布模式、完全分布式模式、HA完全分布式模式。

区分的依据是NameNode、DataNode、ResourceManager、NodeManager等模块运行在几个JVM进程、几个机器。

模式名称	各个模块占用的JVM进程数	各个模块运行在几个机器数上
本地模式	1个	1个
伪分布式模式	N个	1个
完全分布式模式	N个	N个
HA完全分布式	N个	N个

第五步、本地模式部署

十、本地模式介绍

本地模式是最简单的模式，所有模块都运行与一个JVM进程中，使用的本地文件系统，而不是HDFS，本地模式主要是用于本地开发过程中的运行调试用。下载hadoop安装包后不用任何设置，默认的就是本地模式。

十一、解压hadoop后就是直接可以使用

1、创建一个存放本地模式hadoop的目录

[hadoop@bigdata-senior01 modules]$ mkdir /opt/modules/hadoopstandalone
 
 
   
   
   
   
    
    
    
    1

2、解压hadoop文件

[hadoop@bigdata-senior01 modules]$ tar -zxf /opt/sofeware/hadoop-2.5.0.tar.gz  -C /opt/modules/hadoopstandalone/
 
 
   
   
   
   
    
    
    
    1

3、确保JAVA_HOME环境变量已经配置好


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     [hadoop
     
     @bigdata-senior01 modules]$ echo ${JAVA_HOME}
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     /opt/modules/jdk1
     
     .7
     
     .0_67
    
    
      
      
      
      
   
   
     
     
     
     
   
   
   
   
 
 
   
   
   
   
    
    
    
    1
    
    
    
    2

十二、运行MapReduce程序，验证

我们这里用hadoop自带的wordcount例子来在本地模式下测试跑mapreduce。

1、准备mapreduce输入文件wc.input


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     [hadoop
     
     @bigdata-senior01 modules]$ cat /opt/data/wc.input
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     hadoop mapreduce hive
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     hbase spark storm
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     sqoop hadoop hive
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     spark hadoop
    
    
      
      
      
      
   
   
     
     
     
     
   
   
   
   
 
 
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4
    
    
    
    5

2、运行hadoop自带的mapreduce Demo

[hadoop@bigdata-senior01 hadoopstandalone]$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount /opt/data/wc.input output2
 
 
   
   
   
   
    
    
    
    1

这里可以看到job ID中有local字样，说明是运行在本地模式下的。

3、查看输出文件

本地模式下，mapreduce的输出是输出到本地。


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     [hadoop
     
     @bigdata-senior01 hadoopstandalone]$ ll output2
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     total 
     
     4
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     -rw-r--r-- 
     
     1 hadoop hadoop 
     
     60 Jul  
     
     7 
     
     12:
     
     50 part-r-
     
     00000
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     -rw-r--r-- 
     
     1 hadoop hadoop  
     
     0 Jul  
     
     7 
     
     12:
     
     50 _SUCCESS
    
    
      
      
      
      
   
   
     
     
     
     
   
   
   
   
 
 
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4

输出目录中有_SUCCESS文件说明JOB运行成功，part-r-00000是输出结果文件。

第三部分：Hadoop伪分布式模式安装

第六步、伪分布式Hadoop部署过程

十三、Hadoop所用的用户设置

1、创建一个名字为hadoop的普通用户


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     [root
     
     @bigdata-senior01 ~]# useradd hadoop
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     [root
     
     @bigdata-senior01 ~]# passwd hadoop
    
    
      
      
      
      
   
   
     
     
     
     
   
   
   
   
 
 
   
   
   
   
    
    
    
    1
    
    
    
    2

2、给hadoop用户sudo权限

[root@bigdata-senior01 ~]# vim /etc/sudoers
 
 
   
   
   
   
    
    
    
    1

设置权限，学习环境可以将hadoop用户的权限设置的大一些，但是生产环境一定要注意普通用户的权限限制。


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     root    ALL=(ALL)       ALL
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     hadoop ALL=(root) NOPASSWD:ALL
    
    
      
      
      
      
   
   
     
     
     
     
   
   
   
   
 
 
   
   
   
   
    
    
    
    1
    
    
    
    2

注意：如果root用户无权修改sudoers文件，先手动为root用户添加写权限。

[root@bigdata-senior01 ~]# chmod u+w /etc/sudoers
 
 
   
   
   
   
    
    
    
    1

3、切换到hadoop用户


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     [root
     
     @bigdata-senior01 ~]# su - hadoop
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     [hadoop
     
     @bigdata-senior01 ~]$
    
    
      
      
      
      
   
   
     
     
     
     
   
   
   
   
 
 
   
   
   
   
    
    
    
    1
    
    
    
    2

4、创建存放hadoop文件的目录

[hadoop@bigdata-senior01 ~]$ sudo mkdir /opt/modules
 
 
   
   
   
   
    
    
    
    1

5、将hadoop文件夹的所有者指定为hadoop用户

如果存放hadoop的目录的所有者不是hadoop，之后hadoop运行中可能会有权限问题，那么就讲所有者改为hadoop。

[hadoop@bigdata-senior01 ~]# sudo chown -R hadoop:hadoop /opt/modules
 
 
   
   
   
   
    
    
    
    1

十四、解压Hadoop目录文件

1、复制hadoop-2.5.0.tar.gz到/opt/modules目录下。

2、解压hadoop-2.5.0.tar.gz


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     [hadoop
     
     @bigdata-senior01 ~]# cd /opt/modules
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     [hadoop
     
     @bigdata-senior01 hadoop]# tar -zxvf hadoop-
     
     2.5
     
     .0.tar.gz
    
    
      
      
      
      
   
   
     
     
     
     
   
   
   
   
 
 
   
   
   
   
    
    
    
    1
    
    
    
    2

十五、配置Hadoop

1、配置Hadoop环境变量

[hadoop@bigdata-senior01 hadoop]# vim /etc/profile
 
 
   
   
   
   
    
    
    
    1

追加配置：


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     export HADOOP_HOME=
     
     "/opt/modules/hadoop-2.5.0"
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
    
    
      
      
      
      
   
   
     
     
     
     
   
   
   
   
 
 
   
   
   
   
    
    
    
    1
    
    
    
    2

执行：source /etc/profile 使得配置生效

验证HADOOP_HOME参数：


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     [hadoop
     
     @bigdata-senior01 /]$ echo $HADOOP_HOME
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     /opt/modules/hadoop-
     
     2.5
     
     .0
    
    
      
      
      
      
   
   
     
     
     
     
   
   
   
   
 
 
   
   
   
   
    
    
    
    1
    
    
    
    2

2、配置 hadoop-env.sh、mapred-env.sh、yarn-env.sh文件的JAVA_HOME参数

[hadoop@bigdata-senior01 ~]$ sudo vim  ${HADOOP_HOME}/etc/hadoop/hadoop-env.sh
 
 
   
   
   
   
    
    
    
    1


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     修改JAVA_HOME参数为：
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     export JAVA_HOME=
     
     "/opt/modules/jdk1.7.0_67"
    
    
      
      
      
      
   
   
     
     
     
     
   
   
   
   
 
 
   
   
   
   
    
    
    
    1
    
    
    
    2

3、配置core-site.xml

[hadoop@bigdata-senior01 ~]{HADOOP_HOME}/etc/hadoop/core-site.xml

（1） fs.defaultFS参数配置的是HDFS的地址。


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     <property>
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     <name>fs.defaultFS
     
     name>
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     <value>hdfs://bigdata-senior01.chybinmy.com:8020
     
     value>
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     property>
    
    
      
      
      
      
   
   
     
     
     
     
   
   
   
   
 
 
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4

（2） hadoop.tmp.dir配置的是Hadoop临时目录，比如HDFS的NameNode数据默认都存放这个目录下，查看*-default.xml等默认配置文件，就可以看到很多依赖${hadoop.tmp.dir}的配置。

默认的hadoop.tmp.dir是/tmp/hadoop-${user.name},此时有个问题就是NameNode会将HDFS的元数据存储在这个/tmp目录下，如果操作系统重启了，系统会清空/tmp目录下的东西，导致NameNode元数据丢失，是个非常严重的问题，所有我们应该修改这个路径。

    [hadoop@bigdata-senior01 hadoop-2.5.0]$ sudo mkdir -p /opt/data/tmp
 
 
   
   
   
   
    
    
    
    1

[hadoop@bigdata-senior01 hadoop-2.5.0]$ sudo chown –R hadoop:hadoop /opt/data/tmp
 
 
   
   
   
   
    
    
    
    1

修改hadoop.tmp.dir


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
       
     
     <property>
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
         
     
     <name>hadoop.tmp.dir
     
     name>
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
          
     
     <value>/opt/data/tmp
     
     value>
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
        
     
     property>
    
    
      
      
      
      
   
   
     
     
     
     
   
   
   
   
 
 
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4

十六、配置、格式化、启动HDFS

1、配置hdfs-site.xml

[hadoop@bigdata-senior01 hadoop-2.5.0]$ vim ${HADOOP_HOME}/etc/hadoop/hdfs-site.xml
 
 
   
   
   
   
    
    
    
    1


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
          
     
     <property>
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
             
     
     <name>dfs.replication
     
     name>
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
             
     
     <value>1
     
     value>
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
          
     
     property>
    
    
      
      
      
      
   
   
     
     
     
     
   
   
   
   
 
 
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4

dfs.replication配置的是HDFS存储时的备份数量，因为这里是伪分布式环境只有一个节点，所以这里设置为1。

2、格式化HDFS

[hadoop@bigdata-senior01 ~]$ hdfs namenode –format
 
 
   
   
   
   
    
    
    
    1

格式化是对HDFS这个分布式文件系统中的DataNode进行分块，统计所有分块后的初始元数据的存储在NameNode中。

格式化后，查看core-site.xml里hadoop.tmp.dir（本例是/opt/data目录）指定的目录下是否有了dfs目录，如果有，说明格式化成功。

注意：

格式化时，这里注意hadoop.tmp.dir目录的权限问题，应该hadoop普通用户有读写权限才行，可以将/opt/data的所有者改为hadoop。
[hadoop@bigdata-senior01 hadoop-2.5.0]$ sudo chown -R hadoop:hadoop /opt/data
查看NameNode格式化后的目录。

   [hadoop@bigdata-senior01 ~]$ ll /opt/data/tmp/dfs/name/current
 
 
   
   
   
   
    
    
    
    1

fsimage是NameNode元数据在内存满了后，持久化保存到的文件。

fsimage*.md5 是校验文件，用于校验fsimage的完整性。

seen_txid 是hadoop的版本

vession文件里保存：

namespaceID：NameNode的唯一ID。
clusterID:集群ID，NameNode和DataNode的集群ID应该一致，表明是一个集群。


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     #Mon Jul 
     
     04 
     
     17:
     
     25:
     
     50 CST 
     
     2016
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     namespaceID=
     
     2101579007
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     clusterID=CID-
     
     205277e6-
     
     493b-
     
     4601-
     
     8e33-c09d1d23ece4
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     cTime=
     
     0
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     storageType=NAME_NODE
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     blockpoolID=BP-
     
     1641019026-
     
     127.0
     
     .0
     
     .1-
     
     1467624350057
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     layoutVersion=-
     
     57
    
    
      
      
      
      
   
   
     
     
     
     
   
   
   
   
 
 
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4
    
    
    
    5
    
    
    
    6
    
    
    
    7

3、启动NameNode


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     [hadoop
     
     @bigdata-senior01 hadoop-
     
     2.5
     
     .0]$ ${HADOOP_HOME}/sbin/hadoop-daemon.sh start namenode
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     starting namenode, logging to /opt/modules/hadoop-
     
     2.5
     
     .0/logs/hadoop-hadoop-namenode-bigdata-senior01.chybinmy.com.out
    
    
      
      
      
      
   
   
     
     
     
     
   
   
   
   
 
 
   
   
   
   
    
    
    
    1
    
    
    
    2

4、启动DataNode


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     [hadoop
     
     @bigdata-senior01 hadoop-
     
     2.5
     
     .0]$ ${HADOOP_HOME}/sbin/hadoop-daemon.sh start datanode
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     starting datanode, logging to /opt/modules/hadoop-
     
     2.5
     
     .0/logs/hadoop-hadoop-datanode-bigdata-senior01.chybinmy.com.out
    
    
      
      
      
      
   
   
     
     
     
     
   
   
   
   
 
 
   
   
   
   
    
    
    
    1
    
    
    
    2

5、启动SecondaryNameNode


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     [hadoop
     
     @bigdata-senior01 hadoop-
     
     2.5
     
     .0]$ ${HADOOP_HOME}/sbin/hadoop-daemon.sh start secondarynamenode
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     starting secondarynamenode, logging to /opt/modules/hadoop-
     
     2.5
     
     .0/logs/hadoop-hadoop-secondarynamenode-bigdata-senior01.chybinmy.com.out
    
    
      
      
      
      
   
   
     
     
     
     
   
   
   
   
 
 
   
   
   
   
    
    
    
    1
    
    
    
    2

6、 JPS命令查看是否已经启动成功，有结果就是启动成功了。


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     [hadoop
     
     @bigdata-senior01 hadoop-
     
     2.5
     
     .0]$ jps
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     3034 NameNode
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     3233 Jps
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     3193 SecondaryNameNode
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     3110 DataNode
    
    
      
      
      
      
   
   
     
     
     
     
   
   
   
   
 
 
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4
    
    
    
    5

7、 HDFS上测试创建目录、上传、下载文件

HDFS上创建目录

[hadoop@bigdata-senior01 hadoop-2.5.0]$ ${HADOOP_HOME}/bin/hdfs dfs -mkdir /demo1
 
 
   
   
   
   
    
    
    
    1

上传本地文件到HDFS上


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     [hadoop
     
     @bigdata-senior01 hadoop-
     
     2.5
     
     .0]$ ${HADOOP_HOME}/bin/hdfs dfs -put 
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     ${HADOOP_HOME}/etc/hadoop/core-site.xml /demo1
    
    
      
      
      
      
   
   
     
     
     
     
   
   
   
   
 
 
   
   
   
   
    
    
    
    1
    
    
    
    2

读取HDFS上的文件内容

[hadoop@bigdata-senior01 hadoop-2.5.0]$ ${HADOOP_HOME}/bin/hdfs dfs -cat /demo1/core-site.xml
 
 
   
   
   
   
    
    
    
    1

从HDFS上下载文件到本地

[hadoop@bigdata-senior01 hadoop-2.5.0]$ bin/hdfs dfs -get /demo1/core-site.xml
 
 
   
   
   
   
    
    
    
    1

十七、配置、启动YARN

1、配置mapred-site.xml

默认没有mapred-site.xml文件，但是有个mapred-site.xml.template配置模板文件。复制模板生成mapred-site.xml。

[hadoop@bigdata-senior01 hadoop-2.5.0]# cp etc/hadoop/mapred-site.xml.template etc/hadoop/mapred-site.xml
 
 
   
   
   
   
    
    
    
    1

添加配置如下：


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     <property>
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     <name>mapreduce.framework.name
     
     name>
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     <value>yarn
     
     value>
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     property>
    
    
      
      
      
      
   
   
     
     
     
     
   
   
   
   
 
 
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4

指定mapreduce运行在yarn框架上。

2、配置yarn-site.xml

添加配置如下：


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     <property>
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
        
     
     <name>yarn.nodemanager.aux-services
     
     name>
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
        
     
     <value>mapreduce_shuffle
     
     value>
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     property>
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     <property>
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
          
     
     <name>yarn.resourcemanager.hostname
     
     name>
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
          
     
     <value>bigdata-senior01.chybinmy.com
     
     value>
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
       
     
     property>
    
    
      
      
      
      
   
   
     
     
     
     
   
   
   
   
 
 
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4
    
    
    
    5
    
    
    
    6
    
    
    
    7
    
    
    
    8

yarn.nodemanager.aux-services配置了yarn的默认混洗方式，选择为mapreduce的默认混洗算法。
yarn.resourcemanager.hostname指定了Resourcemanager运行在哪个节点上。

3、启动Resourcemanager

[hadoop@bigdata-senior01 hadoop-2.5.0]$ ${HADOOP_HOME}/sbin/yarn-daemon.sh start resourcemanager
 
 
   
   
   
   
    
    
    
    1

4、启动nodemanager

[hadoop@bigdata-senior01 hadoop-2.5.0]$ ${HADOOP_HOME}/sbin/yarn-daemon.sh start nodemanager
 
 
   
   
   
   
    
    
    
    1

5、查看是否启动成功


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     [hadoop
     
     @bigdata-senior01 hadoop-
     
     2.5
     
     .0]$ jps
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     3034 NameNode
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     4439 NodeManager
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     4197 ResourceManager
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     4543 Jps
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     3193 SecondaryNameNode
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     3110 DataNode
    
    
      
      
      
      
   
   
     
     
     
     
   
   
   
   
 
 
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4
    
    
    
    5
    
    
    
    6
    
    
    
    7

可以看到ResourceManager、NodeManager已经启动成功了。

6、 YARN的Web页面

YARN的Web客户端端口号是8088，通过http://192.168.100.10:8088/可以查看。

十八、运行MapReduce Job

在Hadoop的share目录里，自带了一些jar包，里面带有一些mapreduce实例小例子，位置在share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar，可以运行这些例子体验刚搭建好的Hadoop平台，我们这里来运行最经典的WordCount实例。

1、创建测试用的Input文件

创建输入目录:

[hadoop@bigdata-senior01 hadoop-2.5.0]$ bin/hdfs dfs -mkdir -p /wordcountdemo/input
 
 
   
   
   
   
    
    
    
    1

创建原始文件:

在本地/opt/data目录创建一个文件wc.input,内容如下。

将wc.input文件上传到HDFS的/wordcountdemo/input目录中:

[hadoop@bigdata-senior01 hadoop-2.5.0]$ bin/hdfs dfs -put /opt/data/wc.input /wordcountdemo/input
 
 
   
   
   
   
    
    
    
    1

2、运行WordCount MapReduce Job


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     [hadoop
     
     @bigdata-senior01 hadoop-
     
     2.5
     
     .0]$ bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     2.5
     
     .0.jar wordcount /wordcountdemo/input /wordcountdemo/output
    
    
      
      
      
      
   
   
     
     
     
     
   
   
   
   
 
 
   
   
   
   
    
    
    
    1
    
    
    
    2

3、查看输出结果目录


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     [hadoop
     
     @bigdata-senior01 hadoop-
     
     2.5
     
     .0]$ bin/hdfs dfs -ls /wordcountdemo/output
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     -rw-r--r--   
     
     1 hadoop supergroup          
     
     0 
     
     2016-
     
     07-
     
     05 
     
     05:
     
     12 /wordcountdemo/output/_SUCCESS
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     -rw-r--r--   
     
     1 hadoop supergroup         
     
     60 
     
     2016-
     
     07-
     
     05 
     
     05:
     
     12 /wordcountdemo/output/part-r-
     
     00000
    
    
      
      
      
      
   
   
     
     
     
     
   
   
   
   
 
 
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3

output目录中有两个文件，_SUCCESS文件是空文件，有这个文件说明Job执行成功。
part-r-00000文件是结果文件，其中-r-说明这个文件是Reduce阶段产生的结果，mapreduce程序执行时，可以没有reduce阶段，但是肯定会有map阶段，如果没有reduce阶段这个地方有是-m-。
一个reduce会产生一个part-r-开头的文件。
查看输出文件内容。


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     [hadoop
     
     @bigdata-senior01 hadoop-
     
     2.5
     
     .0]$ bin/hdfs dfs -cat /wordcountdemo/output/part-r-
     
     00000
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     hadoop  
     
     3
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     hbase   
     
     1
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     hive    
     
     2
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     mapreduce       
     
     1
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     spark   
     
     2
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     sqoop   
     
     1
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     storm   
     
     1
    
    
      
      
      
      
   
   
     
     
     
     
   
   
   
   
 
 
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4
    
    
    
    5
    
    
    
    6
    
    
    
    7
    
    
    
    8

结果是按照键值排好序的。

十九、停止Hadoop


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
      [hadoop
     
     @bigdata-senior01 hadoop-
     
     2.5
     
     .0]$ sbin/hadoop-daemon.sh stop namenode
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     stopping namenode
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     [hadoop
     
     @bigdata-senior01 hadoop-
     
     2.5
     
     .0]$ sbin/hadoop-daemon.sh stop datanode
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     stopping datanode
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     [hadoop
     
     @bigdata-senior01 hadoop-
     
     2.5
     
     .0]$ sbin/yarn-daemon.sh stop resourcemanager
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     stopping resourcemanager
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     [hadoop
     
     @bigdata-senior01 hadoop-
     
     2.5
     
     .0]$ sbin/yarn-daemon.sh stop nodemanager
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     stopping nodemanager
    
    
      
      
      
      
   
   
     
     
     
     
   
   
   
   
 
 
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4
    
    
    
    5
    
    
    
    6
    
    
    
    7
    
    
    
    8

二十、 Hadoop各个功能模块的理解

1、 HDFS模块

HDFS负责大数据的存储，通过将大文件分块后进行分布式存储方式，突破了服务器硬盘大小的限制，解决了单台机器无法存储大文件的问题，HDFS是个相对独立的模块，可以为YARN提供服务，也可以为HBase等其他模块提供服务。

2、 YARN模块

YARN是一个通用的资源协同和任务调度框架，是为了解决Hadoop1.x中MapReduce里NameNode负载太大和其他问题而创建的一个框架。

YARN是个通用框架，不止可以运行MapReduce，还可以运行Spark、Storm等其他计算框架。

3、 MapReduce模块

MapReduce是一个计算框架，它给出了一种数据处理的方式，即通过Map阶段、Reduce阶段来分布式地流式处理数据。它只适用于大数据的离线处理，对实时性要求很高的应用不适用。

第七步、开启历史服务

二十一、历史服务介绍

Hadoop开启历史服务可以在web页面上查看Yarn上执行job情况的详细信息。可以通过历史服务器查看已经运行完的Mapreduce作业记录，比如用了多少个Map、用了多少个Reduce、作业提交时间、作业启动时间、作业完成时间等信息。

二十二、开启历史服务

[hadoop@bigdata-senior01 hadoop-2.5.0]$ sbin/mr-jobhistory-daemon.sh start historyserver、
 
 
   
   
   
   
    
    
    
    1

开启后，可以通过Web页面查看历史服务器：

http://bigdata-senior01.chybinmy.com:19888/

二十三、Web查看job执行历史

1、运行一个mapreduce任务


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     [hadoop
     
     @bigdata-senior01 hadoop-
     
     2.5
     
     .0]$ bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     2.5
     
     .0.jar wordcount /wordcountdemo/input /wordcountdemo/output1
    
    
      
      
      
      
   
   
     
     
     
     
   
   
   
   
 
 
   
   
   
   
    
    
    
    1
    
    
    
    2

2、 job执行中

3、查看job历史

历史服务器的Web端口默认是19888，可以查看Web界面。

但是在上面所显示的某一个Job任务页面的最下面，Map和Reduce个数的链接上，点击进入Map的详细信息页面，再查看某一个Map或者Reduce的详细日志是看不到的，是因为没有开启日志聚集服务。

二十四、开启日志聚集

4、日志聚集介绍

MapReduce是在各个机器上运行的，在运行过程中产生的日志存在于各个机器上，为了能够统一查看各个机器的运行日志，将日志集中存放在HDFS上，这个过程就是日志聚集。

5、开启日志聚集

配置日志聚集功能：

Hadoop默认是不启用日志聚集的。在yarn-site.xml文件里配置启用日志聚集。


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     <property>
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
          
     
     <name>yarn.log-aggregation-enable
     
     name>
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
          
     
     <value>true
     
     value>
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
       
     
     property>
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     <property>
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
          
     
     <name>yarn.log-aggregation.retain-seconds
     
     name>
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
          
     
     <value>106800
     
     value>
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
       
     
     property>
    
    
      
      
      
      
   
   
     
     
     
     
   
   
   
   
 
 
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4
    
    
    
    5
    
    
    
    6
    
    
    
    7
    
    
    
    8

yarn.log-aggregation-enable:是否启用日志聚集功能。

yarn.log-aggregation.retain-seconds：设置日志保留时间，单位是秒。

将配置文件分发到其他节点：


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     [hadoop
     
     @bigdata-senior01 hadoop]$ scp /opt/modules/hadoop-
     
     2.5
     
     .0/etc/hadoop/yarn-site.xml bigdata-senior02.chybinmy.com:/opt/modules/hadoop-
     
     2.5
     
     .0/etc/hadoop/
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     [hadoop
     
     @bigdata-senior01 hadoop]$ scp /opt/modules/hadoop-
     
     2.5
     
     .0/etc/hadoop/yarn-site.xml bigdata-senior03.chybinmy.com:/opt/modules/hadoop-
     
     2.5
     
     .0/etc/hadoop/
    
    
      
      
      
      
   
   
     
     
     
     
   
   
   
   
 
 
   
   
   
   
    
    
    
    1
    
    
    
    2

重启Yarn进程：


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     [hadoop
     
     @bigdata-senior01 hadoop-
     
     2.5
     
     .0]$ sbin/stop-yarn.sh
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     [hadoop
     
     @bigdata-senior01 hadoop-
     
     2.5
     
     .0]$ sbin/start-yarn.sh
    
    
      
      
      
      
   
   
     
     
     
     
   
   
   
   
 
 
   
   
   
   
    
    
    
    1
    
    
    
    2

重启HistoryServer进程：


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     [hadoop
     
     @bigdata-senior01 hadoop-
     
     2.5
     
     .0]$ sbin/mr-jobhistory-daemon.sh stop historyserver
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     [hadoop
     
     @bigdata-senior01 hadoop-
     
     2.5
     
     .0]$ sbin/mr-jobhistory-daemon.sh start historyserver
    
    
      
      
      
      
   
   
     
     
     
     
   
   
   
   
 
 
   
   
   
   
    
    
    
    1
    
    
    
    2

6、测试日志聚集

运行一个demo MapReduce，使之产生日志：

bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount /input /output1
 
 
   
   
   
   
    
    
    
    1

查看日志：

运行Job后，就可以在历史服务器Web页面查看各个Map和Reduce的日志了。

第四部分：完全分布式安装

第八步、完全布式环境部署Hadoop

完全分部式是真正利用多台Linux主机来进行部署Hadoop，对Linux机器集群进行规划，使得Hadoop各个模块分别部署在不同的多台机器上。

二十五、环境准备

1、克隆虚拟机

Vmware左侧选中要克隆的机器，这里对原有的BigData01机器进行克隆，虚拟机菜单中，选中管理菜单下的克隆命令。
选择“创建完整克隆”，虚拟机名称为BigData02，选择虚拟机文件保存路径，进行克隆。
再次克隆一个名为BigData03的虚拟机。

2、配置网络

修改网卡名称：

在BigData02和BigData03机器上编辑网卡信息。执行sudo vim /etc/udev/rules.d/70-persistent-net.rules命令。因为是从BigData01机器克隆来的，所以会保留BigData01的网卡eth0，并且再添加一个网卡eth1。并且eth0的Mac地址和BigData01的地址是一样的，Mac地址不允许相同，所以要删除eth0，只保留eth1网卡，并且要将eth1改名为eth0。将修改后的eth0的mac地址复制下来，修改network-scripts文件中的HWADDR属性。

sudo vim /etc/sysconfig/network-scripts/ifcfg-eth0
 
 
   
   
   
   
    
    
    
    1

修改网络参数：

BigData02机器IP改为192.168.100.12

BigData03机器IP改为192.168.100.13

3、配置Hostname

BigData02配置hostname为 bigdata-senior02.chybinmy.com

BigData03配置hostname为 bigdata-senior03.chybinmy.com

4、配置hosts

BigData01、BigData02、BigData03三台机器hosts都配置为：


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     [hadoop@bigdata-senior01 hadoop-2.5.0]$ sudo vim /etc/hosts
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     192.168.100.10 bigdata-senior01.chybinmy.com
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     192.168.100.12 bigdata-senior02.chybinmy.com
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     192.168.100.13 bigdata-senior03.chybinmy.com
    
    
      
      
      
      
   
   
     
     
     
     
   
   
   
   
 
 
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4

5、配置Windows上的SSH客户端

在本地Windows中的SSH客户端上添加对BigData02、BigData03机器的SSH链接。

二十六、服务器功能规划

bigdata-senior01.chybinmy.com	bigdata-senior02.chybinmy.com	bigdata-senior03.chybinmy.com
NameNode	ResourceManage
DataNode	DataNode

你可能感兴趣的:(Hadoop)

应急救援路径规划中的蚁群算法与路径评价研究【附代码】拉勾科研工作室算法
数据科学与大数据专业|数据分析与模型构建|数据驱动决策✨专业领域：数据挖掘与清洗大数据处理与存储技术机器学习与深度学习模型数据可视化与报告生成分布式计算与云计算数据安全与隐私保护擅长工具：Python/R/Matlab数据分析与建模Hadoop/Spark大数据处理平台SQL数据库管理与优化Tableau/PowerBI数据可视化工具TensorFlow/PyTorch深度学习框架✅具体问题可以私
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
hbase介绍 CrazyL- 云计算+大数据 hbase
hbase是一个分布式的、多版本的、面向列的开源数据库hbase利用hadoophdfs作为其文件存储系统，提供高可靠性、高性能、列存储、可伸缩、实时读写、适用于非结构化数据存储的数据库系统hbase利用hadoopmapreduce来处理hbase、中的海量数据hbase利用zookeeper作为分布式系统服务特点：数据量大：一个表可以有上亿行，上百万列（列多时，插入变慢）面向列：面向列（族）的
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
Spark集群的三种模式 MelodyYN #Spark spark hadoop big data
文章目录1、Spark的由来1.1Hadoop的发展1.2MapReduce与Spark对比2、Spark内置模块3、Spark运行模式3.1Standalone模式部署配置历史服务器配置高可用运行模式3.2Yarn模式安装部署配置历史服务器运行模式4、WordCount案例1、Spark的由来定义：Hadoop主要解决，海量数据的存储和海量数据的分析计算。Spark是一种基于内存的快速、通用、可
月度总结 | 2022年03月 | 考研与就业的抉择 | 确定未来走大数据开发路线「已注销」个人总结 hadoop
一、时间线梳理3月3日，寻找到同专业的就业伙伴3月5日，着手准备Java八股文，决定先走Java后端路线3月8月，申请到了校图书馆的考研专座，决定暂时放弃就业，先准备考研，买了数学和408的资料书3月9日-3月13日，因疫情原因，宿舍区暂封，这段时间在准备考研，发现内容特别多3月13日-3月19日，大部分时间在刷Hadoop、Zookeeper、Kafka的视频，同时在准备实习的项目3月20日，退
HBase介绍 mingyu1016 数据库
概述HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable：一个结构化数据的分布式存储系统》。HBase是GoogleBigtable的开源实现，它利用HadoopHDFS作为其文件存储系统，利用HadoopMapReduce来处理HBase中的海量数据，利用Zookeeper作为协同服务。HBase的表结构HBase以表的形式存储数据。表有行和列组成。列划分为
Java中的大数据处理框架对比分析省赚客app开发者 java 开发语言
Java中的大数据处理框架对比分析大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！今天，我们将深入探讨Java中常用的大数据处理框架，并对它们进行对比分析。大数据处理框架是现代数据驱动应用的核心，它们帮助企业处理和分析海量数据，以提取有价值的信息。本文将重点介绍ApacheHadoop、ApacheSpark、ApacheFlink和ApacheStorm这四种流行的
Hadoop windows intelij 跑 MR WordCount piziyang12138
一、软件环境我使用的软件版本如下:IntellijIdea2017.1Maven3.3.9Hadoop分布式环境二、创建maven工程打开Idea,file->new->Project,左侧面板选择maven工程。(如果只跑MapReduce创建java工程即可，不用勾选Creatfromarchetype，如果想创建web工程或者使用骨架可以勾选)image.png设置GroupId和Artif
Hadoop学习第三课（HDFS架构--读、写流程）小小程序员呀~ 数据库 hadoop 架构 big data
1.块概念举例1：一桶水1000ml，瓶子的规格100ml=>需要10个瓶子装完一桶水1010ml，瓶子的规格100ml=>需要11个瓶子装完一桶水1010ml，瓶子的规格200ml=>需要6个瓶子装完块的大小规格，只要是需要存储，哪怕一点点，也是要占用一个块的块大小的参数：dfs.blocksize官方默认的大小为128M官网：https://hadoop.apache.org/docs/r3.
hadoop启动HDFS命令 m0_67401228 java 搜索引擎 linux 后端
启动命令：/hadoop/sbin/start-dfs.sh停止命令：/hadoop/sbin/stop-dfs.sh
【计算机毕设-大数据方向】基于Hadoop的电商交易数据分析可视化系统的设计与实现程序员-石头山大数据实战案例大数据 hadoop 毕业设计毕设
博主介绍：✌全平台粉丝5W+,高级大厂开发程序员，博客之星、掘金/知乎/华为云/阿里云等平台优质作者。【源码获取】关注并且私信我【联系方式】最下边感兴趣的可以先收藏起来，同学门有不懂的毕设选题，项目以及论文编写等相关问题都可以和学长沟通，希望帮助更多同学解决问题前言随着电子商务行业的迅猛发展，电商平台积累了海量的数据资源，这些数据不仅包括用户的基本信息、购物记录，还包括用户的浏览行为、评价反馈等多
分布式离线计算—Spark—基础介绍测试开发abbey 人工智能—大数据
原文作者：饥渴的小苹果原文地址：【Spark】Spark基础教程目录Spark特点Spark相对于Hadoop的优势Spark生态系统Spark基本概念Spark结构设计Spark各种概念之间的关系Executor的优点Spark运行基本流程Spark运行架构的特点Spark的部署模式Spark三种部署方式Hadoop和Spark的统一部署摘要：Spark是基于内存计算的大数据并行计算框架Spar
spark常用命令我是浣熊的微笑 spark
查看报错日志：yarnlogsapplicationIDspark2-submit--masteryarn--classcom.hik.ReadHdfstest-1.0-SNAPSHOT.jar进入$SPARK_HOME目录，输入bin/spark-submit--help可以得到该命令的使用帮助。hadoop@wyy:/app/hadoop/spark100$bin/spark-submit--
spark启动命令学不会又听不懂 spark 大数据分布式
hadoop启动：cd/root/toolssstart-dfs.sh，只需在hadoop01上启动stop-dfs.sh日志查看：cat/root/toolss/hadoop/logs/hadoop-root-datanode-hadoop03.outzookeeper启动：cd/root/toolss/zookeeperbin/zkServer.shstart，三台都要启动bin/zkServ
编程常用命令总结 Yellow0523 Linux BigData 大数据
编程命令大全1.软件环境变量的配置JavaScalaSparkHadoopHive2.大数据软件常用命令Spark基本命令Spark-SQL命令Hive命令HDFS命令YARN命令Zookeeper命令kafka命令Hibench命令MySQL命令3.Linux常用命令Git命令conda命令pip命令查看Linux系统的详细信息查看Linux系统架构(X86还是ARM，两种方法都可)端口号命令L
Hadoop常见面试题整理及解答叶青舟 Linux hdfs 大数据 hadoop linux
Hadoop常见面试题整理及解答一、基础知识篇：1.把数据仓库从传统关系型数据库转到hadoop有什么优势？答：（1）关系型数据库成本高，且存储空间有限。而Hadoop使用较为廉价的机器存储数据，且Hadoop可以将大量机器构建成一个集群，并在集群中使用HDFS文件系统统一管理数据，极大的提高了数据的存储及处理能力。（2）关系型数据库仅支持标准结构化数据格式，Hadoop不仅支持标准结构化数据格式
2025毕业设计指南：如何用Hadoop构建超市进货推荐系统？大数据分析助力精准采购计算机编程指导师 Java实战集 Python实战集大数据实战集课程设计 hadoop 数据分析 spring boot java 进货 python
✍✍计算机编程指导师⭐⭐个人介绍：自己非常喜欢研究技术问题！专业做Java、Python、小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。⛽⛽实战项目：有源码或者技术上的问题欢迎在评论区一起讨论交流！⚡⚡Java实战|SpringBoot/SSMPython实战项目|Django微信小程序/安卓实战项目大数据实战项目⚡⚡文末获取源码文章目录⚡⚡文末获取源码基于hadoop的超市进货推荐系
Hadoop Common 之序列化机制小解猫君之上 #Apache Hadoop
1.JavaSerializable序列化该序列化通过ObjectInputStream的readObject实现序列化，ObjectOutputStream的writeObject实现反序列化。这不过此种序列化虽然跨病态兼容性强，但是因为存储过多的信息，但是传输效率比较低，所以hadoop弃用它。（序列化信息包括这个对象的类，类签名，类的所有静态，费静态成员的值，以及他们父类都要被写入）publ
深入理解hadoop(一)----Common的实现----Configuration maoxiao_jsd 深入理解----hadoop
属本人个人原创，转载请注明,希望对大家有帮助！！一,hadoop的配置管理a,hadoop通过独有的Configuration处理配置信息Configurationconf=newConfiguration();conf.addResource("core-default.xml");conf.addResource("core-site.xml");后者会覆盖前者中未final标记的相同配置项b
hadoop 0.22.0 部署笔记 weixin_33701564 大数据 java 运维
为什么80%的码农都做不了架构师？>>>因为需要使用hbase，所以开始对hbase进行学习。hbase是部署在hadoop平台上的NOSql数据库，因此在部署hbase之前需要先部署hadoop。环境：redhat5、hadoop-0.22.0.tar.gz、jdk-6u13-linux-i586.zipip192.168.1.128hostname：localhost.localdomain（
解决Windows环境下hadoop集群的运行_window运行hadoop,unknown hadoop01(4) 2401_84160087 大数据面试学习
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！org.apache.hadoophadoop-com
解决Windows环境下hadoop集群的运行_window运行hadoop,unknown hadoop01(3) 2401_84160087 大数据面试学习
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！xmlns:xsi="http://www.w3.or
深入解析HDFS：定义、架构、原理、应用场景及常用命令 CloudJourney hdfs 架构 hadoop
引言Hadoop分布式文件系统（HDFS，HadoopDistributedFileSystem）是Hadoop框架的核心组件之一，它提供了高可靠性、高可用性和高吞吐量的大规模数据存储和管理能力。本文将从HDFS的定义、架构、工作原理、应用场景以及常用命令等多个方面进行详细探讨，帮助读者全面深入地了解HDFS。1.HDFS的定义1.1什么是HDFSHDFS是Hadoop生态系统中的一个分布式文件系
Hadoop的搭建流程 lzhlizihang hadoop 大数据分布式
文章目录一、配置IP二、配置主机名三、配置主机映射四、关闭防火墙五、配置免密六、安装jdk1、第一步：2、第二步：3、第三步：4、第四步：5、第五步：七、安装hadoop1、上传2、解压3、重命名4、开始配置环境变量5、刷新配置文件6、验证hadoop命令是否可以识别八、全分布搭建7、修改配置文件core-site.xml8、修改配置文件hdfs-site.xml9、修改配置文件hadoop-en
hive搭建 -----内嵌模式和本地模式 lzhlizihang hive hadoop
文章目录一、内嵌模式（使用较少）1、上传、解压、重命名2、配置环境变量3、配置conf下的hive-env.sh4、修改conf下的hive-site.xml5、启动hadoop集群6、给hdfs创建文件夹7、修改hive-site.xml中的非法字符8、初始化元数据9、测试是否成功10、内嵌模式的缺点二、本地模式（最常用）1、检查mysql是否正常2、上传、解压、重命名3、配置环境变量4、修改c
Hadoop之mapreduce -- WrodCount案例以及各种概念 lzhlizihang hadoop mapreduce 大数据
文章目录一、MapReduce的优缺点二、MapReduce案例--WordCount1、导包2、Mapper方法3、Partitioner方法（自定义分区器）4、reducer方法5、driver（main方法）6、Writable（手机流量统计案例的实体类）三、关于片和块1、什么是片，什么是块？2、mapreduce启动多少个MapTask任务？四、MapReduce的原理五、Shuffle过
java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &