冰河

Hadoop之——基于3台服务器搭建Hadoop3.x集群（实测完整版）

转载请注明出处：https://blog.csdn.net/l1028386804/article/details/93892479

一、服务器规划

二、Hadoop集群环境的准备

搭建Hadoop集群环境之前，需要为搭建Hadoop集群环境做一些相关的准备工作，以达到正确安装Hadoop集群的目的。

1.添加hadoop用户身份

以root身份登录每台虚拟机服务器，在每台服务器上执行如下操作。

groupadd hadoop
useradd -r -g hadoop hadoop
passwd hadoop
Changing password for user hadoop.
New password: 新密码
Retype new password: 确认新密码
passwd: all authentication tokens updated successfully.
chown -R hadoop.hadoop /usr/local/
chown -R hadoop.hadoop /tmp/
chown -R hadoop.hadoop /home/
vim /etc/sudoers
找到
root    ALL=(ALL)       ALL
下面添加
hadoop    ALL=(ALL)       ALL

2.关闭防火墙

以root身份登录虚拟机服务器，在每台服务器上执行如下命令：

#查看防火墙状态
service iptables status
#关闭防火墙
service iptables stop
#关闭防火墙开机启动
chkconfig iptables off
#查看防火墙状态
service iptables status

3.设置静态IP

为每台服务器设置静态IP，这里以服务器binghe201（192.168.175.201）为例，修改配置文件“/etc/sysconfig/network-scripts/ifcfg-eth0”文件，如下：

DEVICE=eth0
TYPE=Ethernet
UUID=11e3b288-72da-4cc6-898d-ee2bf0b44d77
ONBOOT=yes
NM_CONTROLLED=yes
BOOTPROTO=static
IPADDR=192.168.175.201
NETMASK=255.255.255.0
BROADCAST=192.168.175.255
GATEWAY=192.168.175.2
DNS1=114.114.114.114
DNS2=8.8.8.8
DEFROUTE=yes
IPV4_FAILURE_FATAL=yes
IPV6INIT=no
NAME="System eth0"
HWADDR=00:0C:29:7F:45:21
PEERDNS=yes
PEERROUTES=yes
LAST_CONNECT=1561336045

下面，分别列出每台服务器上“/etc/sysconfig/network-scripts/ifcfg-eth0”文件修改过的部分。

binghe202（192.168.175.202）

BOOTPROTO=static
IPADDR=192.168.175.202
NETMASK=255.255.255.0
BROADCAST=192.168.175.255
GATEWAY=192.168.175.2
DNS1=114.114.114.114
DNS2=8.8.8.8

binghe203（192.168.175.203）

BOOTPROTO=static
IPADDR=192.168.175.203
NETMASK=255.255.255.0
BROADCAST=192.168.175.255
GATEWAY=192.168.175.2
DNS1=114.114.114.114
DNS2=8.8.8.8

设置完静态IP之后，在每台服务器上执行如下命令重启网络。

service network restart

4.设置主机名

设置主机名需要在文件“/etc/sysconfig/network”中进行配置。如果需要修改当前会话的主机名需要使用命令“hostname 主机名”的方式进行设置。

下面，分别列出每台服务器上“/etc/sysconfig/network”文件的配置和执行的命令。

binghe201（192.168.175.201）

hostname binghe201
vim /etc/sysconfig/network
NETWORKING=yes
HOSTNAME=binghe201

binghe202（192.168.175.202）

hostname binghe202
vim /etc/sysconfig/network
NETWORKING=yes
HOSTNAME=binghe202

binghe203（192.168.175.203）

hostname binghe203
vim /etc/sysconfig/network
NETWORKING=yes
HOSTNAME=binghe203

5.设置主机名与IP地址的映射关系

在每台服务器上修改“/etc/hosts”文件，添加如下配置：

192.168.175.201   binghe201
192.168.175.202   binghe202
192.168.175.203   binghe203

6.集群环境下配置SSH免密码登录

注意：配置SSH免密码登录，使用hadoop身份登录虚拟机服务器，进行相关的操作。

（1）生成SSH免密码登录公钥和私钥

在每台虚拟机服务器上执行如下命令，在每台服务器上分别生成SSH免密码登录的公钥和私钥。

ssh-keygen -t rsa
cat /home/hadoop/.ssh/id_rsa.pub >> /home/hadoop/.ssh/authorized_keys

（2）设置目录和文件权限

在每台虚拟机服务器上执行如下命令，设置相应目录和文件的权限。

chmod 700 /home/hadoop/ 
chmod 700 /home/hadoop/.ssh 
chmod 644 /home/hadoop/.ssh/authorized_keys 
chmod 600 /home/hadoop/.ssh/id_rsa

（3）将公钥拷贝到每台服务器

在每台虚拟机服务器上执行如下命令，将生成的公钥拷贝到每台虚拟机服务器上。

ssh-copy-id -i /home/hadoop/.ssh/id_rsa.pub  binghe201
ssh-copy-id -i /home/hadoop/.ssh/id_rsa.pub  binghe202
ssh-copy-id -i /home/hadoop/.ssh/id_rsa.pub  binghe203

执行完上面的命令之后，每台服务器之间都可以通过“ssh 服务器主机名”进行免密码登录了。

注意：执行每条命令的时候，都会提示类似如下信息。

Are you sure you want to continue connecting (yes/no)? yes
Warning: Permanently added 'binghe101,192.168.175.101' (RSA) to the list of known hosts.
hadoop@binghe101's password:

在“是否确认继续连接”的地方输入“yes”，提示输入密码的地方输入相应服务器的登录密码即可，后续使用“ssh 主机名”登录相应服务器就不用再输入密码了。

三、集群环境下的JDK安装

（1）安装JDK并配置系统环境便令

在每台服务器上执行安装JDK的操作，同样是将JDK安装在CentOS虚拟机的“/usr/local”目录下，即JAVA_HOME安装目录为“/usr/local/jdk1.8.0_212”。在文件“/etc/profile”中配置的系统环境变量如下：

JAVA_HOME=/usr/local/jdk1.8.0_212
CLASS_PATH=.:$JAVA_HOME/lib
PATH=$JAVA_HOME/bin:$PATH
export JAVA_HOME CLASS_PATH PATH

（2）使系统环境变量生效

在每台服务器上执行如下命令使JDK系统环境变量生效。

source /etc/profile

（3）验证JDK是否安装配置

具体验证方式如下：

-bash-4.1$ java -version
java version "1.8.0_212"
Java(TM) SE Runtime Environment (build 1.8.0_212-b10)
Java HotSpot(TM) 64-Bit Server VM (build 25.212-b10, mixed mode)

可以看到输出了Java版本，说明JDK安装配置成功。

四、搭建并配置Zookeeper集群

安装配置完JDK后，就需要搭建Zookeeper集群了，根据对服务器的规划，现将Zookeeper集群搭建在“binghe201”、“binghe202”、“binghe203”三台服务器上。

注意：步骤1-4是在“binghe201”服务器上进行的操作。

1.下载Zookeeper

在“binghe201”上执行如下命令下载Zookeeper。

wget https://mirrors.tuna.tsinghua.edu.cn/apache/zookeeper/zookeeper-3.5.5/apache-zookeeper-3.5.5-bin.tar.gz

2.安装并配置Zookeeper系统环境变量

这里，将Zookeeper安装在虚拟机的“/usr/local”目录下，即ZOOKEEPER_HOME安装目录为“/usr/local/zookeeper-3.5.5”。

结合配置JDK后，文件“/etc/profile”文件中添加的内容如下：

JAVA_HOME=/usr/local/jdk1.8.0_212
ZOOKEEPER_HOME=/usr/local/zookeeper-3.5.5
CLASS_PATH=.:$JAVA_HOME/lib
PATH=$JAVA_HOME/bin:$ZOOKEEPER_HOME/bin:$PATH
export JAVA_HOME ZOOKEEPER_HOME CLASS_PATH PATH

3.配置Zookeeper

首先，需要将“$ZOOKEEPER_HOME/conf”（“$ZOOKEEPER_HOME”为Zookeeper的安装目录）目录下的zoo_sample.cfg文件修改为zoo.cfg文件。具体命令如下：

cd /usr/local/zookeeper-3.5.5/conf/
mv zoo_sample.cfg zoo.cfg

接下来修改zoo.cfg文件，修改后的具体内容如下：

tickTime=2000
initLimit=10
syncLimit=5
dataDir=/usr/local/zookeeper-3.5.5/data
dataLogDir=/usr/local/zookeeper-3.5.5/dataLog
clientPort=2181
server.1=binghe201:2888:3888
server.2=binghe202:2888:3888
server.3=binghe203:2888:3888

在Zookeeper的安装目录下创建“data”和“dataLog”两个文件夹。

mkdir -p /usr/local/zookeeper-3.5.5/data
mkdir -p /usr/local/zookeeper-3.5.5/dataLog

切换到新建的data目录下，创建myid文件，具体内容为数字“1”，如下所示：

echo "1" >> /usr/local/zookeeper-3.5.5/data/myid

将数字“1”写入到文件myid。

4.复制Zookeeper和系统环境变量到其他服务器

将“binghe201”上安装的Zookeeper和系统环境变量文件拷贝到“binghe202”和“binghe203”服务器，具体操作如下：

scp -r /usr/local/zookeeper-3.5.5/ binghe202:/usr/local/
scp -r /usr/local/zookeeper-3.5.5/ binghe203:/usr/local/
sudo scp /etc/profile binghe202:/etc
sudo scp /etc/profile binghe203:/etc

注意：拷贝系统环境变量文件“/et/profile”文件的时候，如果提示要求输入密码，根据相应的提示输入密码即可。

5.修改myid文件内容

将“binghe202”服务器上Zookeeper的myid文件内容修改为数字2。

在“binghe202”上执行如下命令：

-bash-4.1$ echo "2" > /usr/local/zookeeper-3.5.5/data/myid
-bash-4.1$ cat /usr/local/zookeeper-3.5.5/data/myid
2

可以看到Zookeeper文件的内容被成功修改为数字2了。

将“binghe203”服务器上Zookeeper的myid文件内容修改为数字3。

在“binghe203”服务器上执行如下命令：

-bash-4.1$ echo "3" > /usr/local/zookeeper-3.5.5/data/myid 
-bash-4.1$ cat /usr/local/zookeeper-3.5.5/data/myid
3

可以看到Zookeeper文件的内容被成功修改为数字3了。

6.使环境变量生效

分别在“binghe201”、“binghe202”和“binghe203”上执行如下操作，使系统环境变量生效。

source /etc/profile

五、搭建并配置Hadoop集群

注意：1-5步是在“binghe201”服务器上执行的操作。

1.下载Hadoop

在“binghe201”上执行如下命令下载Hadoop。

wget mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-3.2.0/hadoop-3.2.0.tar.gz

2.解压并配置系统环境变量

（1）解压Hadoop

输入如下命令对Hadoop进行解压。

tar -zxvf hadoop-3.2.0.tar.gz

（2）配置Hadoop系统环境变量

同样，Hadoop的系统环境变量也需要在“/etc/profile”文件中进行相应的配置，通过如下命令打开“/etc/profile”文件并进行相关设置。

sudo vim /etc/profile

上述命令可能要求输入密码，根据提示输入密码即可。

在“/etc/profile”文件中添加如下配置：

HADOOP_HOME=/usr/local/hadoop-3.2.0
PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
export HADOOP_HOME PATH
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_YARN_HOME=$HADOOP_HOME
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native

结合之前配置的JDK和Zookeeper系统环境变量，整体配置信息如下：

JAVA_HOME=/usr/local/jdk1.8.0_212
ZOOKEEPER_HOME=/usr/local/zookeeper-3.5.5
HADOOP_HOME=/usr/local/hadoop-3.2.0
CLASS_PATH=.:$JAVA_HOME/lib
PATH=$JAVA_HOME/bin:$ZOOKEEPER_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
export JAVA_HOME ZOOKEEPER_HOME HADOOP_HOME CLASS_PATH PATH
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_YARN_HOME=$HADOOP_HOME
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native

（3）使系统环境变量生效

source /etc/profile

（4）验证Hadoop系统环境变量是否配置成功

具体验证方式如下所示：

hadoop version       
Hadoop 3.2.0
Source code repository https://github.com/apache/hadoop.git -r e97acb3bd8f3befd27418996fa5d4b50bf2e17bf
Compiled by sunilg on 2019-01-08T06:08Z
Compiled with protoc 2.5.0
From source with checksum d3f0795ed0d9dc378e2c785d3668f39
This command was run using /usr/local/hadoop-3.2.0/share/hadoop/common/hadoop-common-3.2.0.jar

也就是在命令行输入“hadoop version”命令，可以看到输出了Hadoop的版本号“Hadoop 3.2.0”，说明Hadoop系统环境变量配置成功。

3.修改Hadoop配置文件

Hadoop集群环境的搭建流程基本和Zookeeper集群的搭建流程相同，除了要解压安装包和配置系统环境变量外，还需要对自身框架进行相关的配置。

（1）配置hadoop-env.sh

在hadoop-env.sh文件中，需要指定JAVA_HOME的安装目录，具体如下：

cd /usr/local/hadoop-3.2.0/etc/hadoop/
vim hadoop-env.sh
export JAVA_HOME=/usr/local/jdk1.8.0_212

（2）配置core-site.xml

具体配置信息如下：


	
		fs.defaultFS
		hdfs://ns/
	
	
		hadoop.tmp.dir
		/usr/local/hadoop-3.2.0/tmp
	
	
		ha.zookeeper.quorum
		binghe201:2181,binghe202:2181,binghe203:2181

（3）配置hdfs-site.xml

具体配置信息如下：


	
		dfs.nameservices
		ns
	
	
		dfs.ha.namenodes.ns
		nn1,nn2
	
	
		dfs.namenode.rpc-address.ns.nn1
		binghe201:9000
	
	
		dfs.namenode.http-address.ns.nn1
		binghe201:9870
	
	
		dfs.namenode.rpc-address.ns.nn2
		binghe202:9000
	
	
		dfs.namenode.http-address.ns.nn2
		binghe202:9870
	
	
		dfs.namenode.shared.edits.dir
		qjournal://binghe201:8485;binghe202:8485;binghe203:8485/ns
	
	
		dfs.journalnode.edits.dir
		/usr/local/hadoop-3.2.0/journaldata
	
	
		dfs.ha.automatic-failover.enabled
		true
	
	
		dfs.client.failover.proxy.provider.ns
		org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider
	
	
		dfs.ha.fencing.methods
		
			sshfence
			shell(/bin/true)
		
	
	
		dfs.ha.fencing.ssh.private-key-files
		/home/hadoop/.ssh/id_rsa
	
	
		dfs.ha.fencing.ssh.connect-timeout
		30000

（4）配置mapred-site.xml

具体配置信息如下：


	
		mapreduce.framework.name
		yarn
	
	
	  yarn.app.mapreduce.am.env
	  HADOOP_MAPRED_HOME=${HADOOP_HOME}
	
	
	  mapreduce.map.env
	  HADOOP_MAPRED_HOME=${HADOOP_HOME}
	
	
	  mapreduce.reduce.env
	  HADOOP_MAPRED_HOME=${HADOOP_HOME}

（5）配置yarn-site.xml

具体配置信息如下：


	    
		yarn.nodemanager.aux-services    
		mapreduce_shuffle    
      
    
		yarn.resourcemanager.hostname
		binghe203

（6）修改workers文件

这个文件主要是用来存放DataNode节点用的。在Hadoop3.0之前的版本中，这个文件叫作“slaves”。

具体配置信息如下：

binghe201
binghe202
binghe203

4.将配置好的Hadoop拷贝到其他节点

将在“binghe101”上安装并配置好的Hadoop复制到其他服务器上，具体操作如下：

scp -r /usr/local/hadoop-3.2.0/ binghe202:/usr/local/
scp -r /usr/local/hadoop-3.2.0/ binghe203:/usr/local/

5.将配置好的Hadoop系统环境变量拷贝到其他节点

sudo scp /etc/profile binghe202:/etc/
sudo scp /etc/profile binghe203:/etc/

6.使系统环境变量生效

在所有服务器上执行如下命令，使系统环境变量生效，并验证Hadoop系统环境变量是否配置成功。

source /etc/profile
hadoop version

可以看到，输入“hadoop version”命令之后，命令行输出了如下信息：

Hadoop 3.2.0
Source code repository https://github.com/apache/hadoop.git -r e97acb3bd8f3befd27418996fa5d4b50bf2e17bf
Compiled by sunilg on 2019-01-08T06:08Z
Compiled with protoc 2.5.0
From source with checksum d3f0795ed0d9dc378e2c785d3668f39
This command was run using /usr/local/hadoop-3.2.0/share/hadoop/common/hadoop-common-3.2.0.jar

说明，Hadoop系统环境变量配置成功。

六、启动Zookeeper集群

在三台服务器上分别执行如下命令启动Zookeeper进程。

zkServer.sh start

在每台服务器上查看是否存在Zookeeper进程。

“binghe201”服务器

-bash-4.1$ jps
1476 QuorumPeerMain
1514 Jps

“binghe202”服务器

-bash-4.1$ jps
1507 Jps
1462 QuorumPeerMain

“binghe203”服务器

-bash-4.1$ jps
1460 QuorumPeerMain
1498 Jps

可以看到每天服务器上都启动了Zookeeper进程。

查看每台服务器上Zookeeper的运行模式，具体如下所示。

“binghe201”服务器

-bash-4.1$ zkServer.sh status
ZooKeeper JMX enabled by default
Using config: /usr/local/zookeeper-3.5.5/bin/../conf/zoo.cfg
Client port found: 2181. Client address: localhost.
Mode: follower

“binghe202”服务器

-bash-4.1$ zkServer.sh status
ZooKeeper JMX enabled by default
Using config: /usr/local/zookeeper-3.5.5/bin/../conf/zoo.cfg
Client port found: 2181. Client address: localhost.
Mode: leader

“binghe203”服务器

-bash-4.1$ zkServer.sh status
ZooKeeper JMX enabled by default
Using config: /usr/local/zookeeper-3.5.5/bin/../conf/zoo.cfg
Client port found: 2181. Client address: localhost.
Mode: follower

可以看到，在“binghe202”服务器上运行的Zookeeper为“leader”，在“binghe201”和“binghe203”服务器上运行的Zookeeper为“follower”，说明：Zookeeper集群搭建并启动成功。

七、启动Hadoop集群

启动搭建的精简版的Hadoop集群，同样需要启动journalnode进程、格式化HDFS、格式化ZKFC、启动HDFS和启动YARN。具体操作步骤如下（注意：需要严格按照以下步骤启动Hadoop集群）。

1.启动并验证journalnode进程

（1）启动journalnode进程

在“binghe201”服务器上执行如下命令启动journalnode进程。

hdfs --workers --daemon start journalnode

注意：在Hadoop 3.0以前是输入如下命令启动journalnode进程。

hadoop-daemons.sh start journalnode

（2）验证journalnode进程是否启动成功

在三台服务器上分别执行“jps”命令查看是否存在journalnode进程，以此确认journalnode进程是否启动成功。

“binghe201”服务器

-bash-4.1$ jps
1476 QuorumPeerMain
1669 Jps
1640 JournalNode

“binghe202”服务器

-bash-4.1$ jps
1633 Jps
1462 QuorumPeerMain
1594 JournalNode

“binghe203”服务器

-bash-4.1$ jps
1585 JournalNode
1460 QuorumPeerMain
1624 Jps

可以看到，三台服务器均启动了journalnode进程，说明journalnode进程启动成功。

2.格式化HDFS

在“binghe201”服务器上执行如下命令格式化HDFS。

hdfs namenode -format

格式化成功之后，会输出“common.Storage: Storage directory /usr/local/hadoop-3.2.0/tmp/dfs/name has been successfully formatted.”信息，并在HADOOP_HOME（/usr/local/hadoop-3.2.0/）目录下自动创建tmp目录。具体如图所示。

3.格式化ZKFC

在“binghe201”服务器上执行如下命令格式化ZKFC。

hdfs zkfc -formatZK

格式化成功之后，会输出“ha.ActiveStandbyElector: Successfully created /hadoop-ha/ns in ZK.”信息。具体如图所示。

4.启动NameNode并验证

（1）启动NameNode

在“binghe201”服务器上执行如下命令启动NameNode。

hdfs --daemon start namenode

注意：在Hadoop3.0以前的版本启动NameNode是输入如下的命令：

hadoop-daemon.sh start namenode

（2）验证NameNode是否启动成功

在“binghe201”服务器上输入“jps”命令查看是否存在NameNode进程，以此确认NameNode是否启动成功，具体如下：

-bash-4.1$ jps
1892 Jps
1476 QuorumPeerMain
1640 JournalNode
1852 NameNode

从输出结果可以看出，存在“NameNode”进程，说明NameNode启动成功。

5.同步元数据信息

在“binghe202”服务器上执行如下命令进行元数据信息的同步操作。

hdfs namenode -bootstrapStandby

同步元数据信息的时候输出了“common.Storage: Storage directory /usr/local/hadoop-3.2.0/tmp/dfs/name has been successfully formatted.”信息，说明同步元数据信息成功。

6.启动并验证备用NameNode

（1）启动备用NameNode

在“binghe202”服务器上执行如下命令启动备用NameNode。

hdfs --daemon start namenode
注意：在Hadoop3.0以前的版本启动NameNode是输入如下的命令：
hadoop-daemon.sh start namenode

（2）验证备用NameNode是否启动成功

在“binghe202”服务器上输入“jps”命令查看是否存在NameNode进程，以此确认备用NameNode是否启动成功，具体如下：

-bash-4.1$ jps
1750 NameNode
1462 QuorumPeerMain
1816 Jps
1594 JournalNode

从输出结果可以看出，存在“NameNode”进程，说明备用NameNode启动成功。

7.启动并验证DataNode

（1）启动DataNode

在“binghe201”服务器上执行如下命令启动DataNode。

hdfs --workers --daemon start datanode
注意：在Hadoop3.0以前的版本启动DataNode是输入如下的命令：
hadoop-daemons.sh start datanode

（2）验证DataNode是否启动成功

在三台服务器分别输入“jps”命令，查看是否存在“DataNode”进程，以此确认DataNode是否启动成功。

“binghe201”服务器

-bash-4.1$ jps
2145 DataNode
1476 QuorumPeerMain
2231 Jps
1640 JournalNode
1852 NameNode

“binghe202”服务器

-bash-4.1$ jps
1750 NameNode
1462 QuorumPeerMain
1962 DataNode
1594 JournalNode
2063 Jps

“binghe203”服务器

-bash-4.1$ jps
1585 JournalNode
1460 QuorumPeerMain
1703 DataNode
1771 Jps

由输出结果可以看出，三台服务器中均启动了“DataNode”进程，说明DataNode启动成功。

8.启动并验证YARN

（1）启动YARN

在“binghe203”服务器上执行如下命令启动YARN。

start-yarn.sh

（2）验证YARN是否启动成功

在三台服务器上执行“jps”命令来验证YARN是否启动成功。

“binghe201”服务器

-bash-4.1$ jps
2464 Jps
2145 DataNode
1476 QuorumPeerMain
1640 JournalNode
2329 NodeManager
1852 NameNode

“binghe202”服务器

-bash-4.1$ jps
2147 NodeManager
1750 NameNode
1462 QuorumPeerMain
1962 DataNode
1594 JournalNode
2284 Jps

“binghe203”服务器

-bash-4.1$ jps
1585 JournalNode
2354 Jps
1460 QuorumPeerMain
1989 NodeManager
1703 DataNode
1883 ResourceManager

由输出结果可以看出“ResourceManager”进程存在于“binghe203”服务器上；“NodeManager”进程存在于“binghe201”、“binghe202”和“binghe203”服务器上。说明YARN启动成功。

9.启动并验证ZKFC

（1）启动ZKFC

在“binghe201”服务器上执行如下命令启动ZKFC。

hdfs --workers --daemon start zkfc
注意：在Hadoop3.0以前的版本中，启动ZKFC需要使用如下命令：
hadoop-daemons.sh start zkfc

（2）验证ZKFC是否启动成功

在“binghe201”和“binghe202”服务器上分别执行“jps”命令，查看是否存在“DFSZKFailoverController”进程。

“binghe201”服务器

-bash-4.1$ jps
2145 DataNode
1476 QuorumPeerMain
1640 JournalNode
2329 NodeManager
1852 NameNode
2734 Jps
2670 DFSZKFailoverController

“binghe202”服务器

-bash-4.1$ jps
2147 NodeManager
2484 Jps
1750 NameNode
1462 QuorumPeerMain
2439 DFSZKFailoverController
1962 DataNode
1594 JournalNode

由输出结果可以看出，两台服务器均启动了“DFSZKFailoverController”进程，说明ZKFC启动成功。

八、启动Hadoop集群的另一种方式

这种方式要比每次启动单个进程并进行验证方便的多，只需要进行如下操作：

1.格式化HDFS

在“binghe201”服务器上执行如下命令格式化HDFS。

hdfs namenode -format

2.复制元数据信息

将“binghe201”服务器上的“/usr/local/hadoop-3.2.0/tmp/”目录复制到服务器“binghe202”服务上的“/usr/local/hadoop-3.2.0”目录下。

在“binghe201”服务器上执行如下命令进行复制：

scp -r /usr/local/hadoop-3.2.0/tmp/ binghe202:/usr/local/hadoop-3.2.0/

3.格式化ZKFC

在“binghe201”服务器上执行如下命令格式化ZKFC。

hdfs zkfc -formatZK

4.启动HDFS

在“binghe201”服务器上执行启动HDFS的命令，具体如下所示：

start-dfs.sh

5.启动YARN

在“binghe203”服务器上执行启动YARN的命令，具体如下所示：

start-yarn.sh

九、测试Hadoop HA的高可用性

使用浏览器方式验证和程序方式验证两种方式来验证Hadoop HA的高可用性。

1.浏览器方式验证

（1）浏览器访问NameNode

访问“binghe201”服务器上的NameNode

在浏览器中输入链接：http://192.168.175.201:9870 访问“binghe201”服务器上的NameNode

此时，“binghe201”服务器上的NameNode处于“active”状态。

访问“binghe202”服务器上的NameNode

在浏览器中输入链接：http://192.168.175.202:9870 访问“binghe202”服务器上的NameNode

此时，“binghe202”服务器上的NameNode处于“standby”状态。

（2）停止“binghe201”上的NameNode后访问

停止“binghe201”上的NameNode进程

在“binghe201”服务器上执行如下命令停止NameNode进程。

hdfs --daemon stop namenode
注意：在Hadoop3.0之前的版本停止NameNode进程需要输入以下命令：
hadoop-daemon.sh stop namenode

浏览器访问“binghe201”服务器上的NameNode

在浏览器中输入链接：http://192.168.175.201:9870 访问“binghe201”服务器上的NameNode

可以看到，由于停止了“binghe201”服务器上的NameNode进程，导致此服务器上的NameNode已无法访问。

浏览器访问“binghe202”服务器上的NameNode

在浏览器中输入链接：http://192.168.175.202:9870 访问“binghe202”服务器上的NameNode

可以看到，由于“binghe201”服务器上的NameNode无法访问，“binghe202”服务器上的NameNode自动切换为“active”状态。

（3）重启“binghe201”上的NameNode访问

首先，在“binghe201”服务器上执行如下命令启动NameNode进程。

hdfs --daemon start namenode
注意：在Hadoop3.0之前的版本启动NameNode进程需要输入以下命令：
hadoop-daemon.sh stop namenode

接下来访问“binghe201”服务器上的NameNode

总结：正常启动NameNode进程后，“binghe201”服务器上的NameNode处于“active”状态，“binghe202”服务器上的NameNode处于“standby”状态；当停止“binghe201”服务器上的NameNode时，“binghe202”服务器上的NameNode自动切换为“active”状态，而重启“binghe201”服务器上的NameNode后，“binghe201”服务器上的NameNode此时会处于“standby”状态。说明：Hadoop HA搭建并配置成功了。

2.程序方式验证

以程序方式验证，还是运行Hadoop自带的wordcount程序，对文件中的单词进行计数，并输出统计结果。

（1）准备数据文件

在“binghe201”服务器上准备数据文件data.input，并写入测试的单词。具体如下：

vim data.input
hadoop mapreduce hive flume
hbase spark storm flume 
sqoop hadoop hive kafka
spark hadoop storm

（2）上传数据文件到HDFS

首先，在HDFS上创建目录“/data /input”，具体命令如下：

hadoop fs -mkdir -p /data/input

在“binghe201”上执行如下命令将data.input文件上传到HDFS分布式文件系统中的“/data/hadoop/input”目录下，具体命令如下：

hadoop fs -put data.input /data/input

接下来查看文件data.input是否上传成功，具体命令如下：

-bash-4.1$ hadoop fs -ls /data/input
Found 1 items
-rw-r--r--   3 hadoop supergroup         96 2019-06-27 17:04 /data/input/data.input

可以看到，data.input文件已经成功上传到HDFS分布式文件系统的“/data/hadoop/input”目录下。

（3）运行Hadoop MapReduce程序

具体执行命令如下：

hadoop jar /usr/local/hadoop-3.2.0/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.0.jar wordcount /data/input/data.input /data/output201

注意：这里的输出目录是HDFS上的“/data/output201”目录。

（4）查看执行结果

首先，利用如下命令查看HDFS中是否产生了输出结果。

-bash-4.1$ hadoop fs -ls /data/output201
Found 2 items
-rw-r--r--   3 hadoop supergroup          0 2019-06-27 17:16 /data/output201/_SUCCESS
-rw-r--r--   3 hadoop supergroup         76 2019-06-27 17:16 /data/output201/part-r-00000

可以看到在HDFS的“/data/output101”目录下产生了执行结果，接下来查看“part-r-00000”文件的内容，具体如下：

-bash-4.1$ hadoop fs -cat /data/output201/part-r-00000
flume   2
hadoop  3
hbase   1
hive    2
kafka   1
mapreduce       1
spark   2
sqoop   1
storm   2

可以看到，正确地输出了每个单词和单词对应的数量。

（5）停止“binghe201”服务器上的NameNode进程

hdfs --daemon stop namenode
注意：在Hadoop3.0之前的版本停止NameNode进程需要输入以下命令：
hadoop-daemon.sh stop namenode

（6）再次运行MapReduce程序

hadoop jar /usr/local/hadoop-3.2.0/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.0.jar wordcount /data/input/data.input /data/output202

注意：这里的输出目录是HDFS上的“/data/output202”目录。

（7）再次查看执行结果

首先，利用如下命令查看HDFS中是否产生了输出结果。

-bash-4.1$ hadoop fs -ls /data/output202
Found 2 items
-rw-r--r--   3 hadoop supergroup          0 2019-06-27 17:20 /data/output202/_SUCCESS
-rw-r--r--   3 hadoop supergroup         76 2019-06-27 17:20 /data/output202/part-r-00000

可以看到在HDFS的“/data/output102”目录下产生了执行结果，接下来查看“part-r-00000”文件的内容，具体如下：

-bash-4.1$ hadoop fs -cat /data/output202/part-r-00000
flume   2
hadoop  3
hbase   1
hive    2
kafka   1
mapreduce       1
spark   2
sqoop   1
storm   2

说明集群搭建成功。

你可能感兴趣的:(Hadoop,Hadoop生态)

Node.js 中的中间件：概念与应用 JJCTO袁龙 Node.js node.js 中间件
Node.js中的中间件：概念与应用在当今的网络开发中，Node.js作为一种高效、可扩展的JavaScript运行环境，正在快速占领开发者的心智。而在Node.js的生态中，中间件（Middleware）是一个不可或缺的概念，它为构建灵活而高效的应用程序提供了强大的支持。在这篇文章中，我们将详细探讨Node.js中的中间件的概念、工作原理以及实际应用，帮助你更好地理解和使用这一强大工具。什么是中
Node.js日志记录新篇章：morgan中间件的使用与优势真想骂* node.js 中间件
在Node.js的广阔生态系统中，日志记录是开发过程中不可或缺的一部分。它不仅有助于开发者追踪应用程序的运行状态，还能在出现问题时提供宝贵的调试信息。而在众多日志记录工具中，Morgan以其高效、易用和专注于HTTP请求日志的特点，成为了Node.js开发者中的热门选择。本文将深入探讨Morgan中间件的使用方法与优势，为Node.js日志记录翻开新的篇章。一、Morgan中间件简介Morgan是
SpringAI基于API对大语言模型调用 _沉浮_ AI 语言模型人工智能 springAI
引言随着人工智能技术的迅猛发展，大型语言模型（LLM）在各个领域的应用越来越广泛。SpringAI作为一个旨在简化AI集成的框架，为开发者提供了高效、便捷的工具来连接和调用这些大模型。本文将详细探讨如何使用SpringAI整合通义千问等大语言模型，并通过实例演示这一过程，最后提供一些扩展建议。一、SpringAI简介SpringAI是一个专为AI工程设计的应用框架，旨在将Spring生态系统设计原
全能C#（.NET）：三大开发领域，跨平台无忧 Lu01 .net
.NET平台已经成为开发人员的强大工具，广泛应用于桌面应用、Web开发和移动开发领域。通过其丰富的生态系统和跨平台的能力，.NET能够轻松胜任多种类型的开发任务。接下来，我们将深入探讨.NET如何在这三个主要方向中发挥其优势，并且了解C#作为.NET的主要编程语言，其独特的优势。1.桌面应用开发：Avalonia在桌面应用开发方面，.NET通过Avalonia框架为开发者提供了一个强大且灵活的解决
非凸科技招聘来啦！技术岗及非技术岗由你选！欢迎大家加入！招聘
公司介绍：非凸科技成立于2018年，是国内领先的智能算法和交易系统服务公司，专注于智能算法交易领域的研究和开发。公司特点：投研团队来自华尔街顶级资管公司BlackRock等，以及多位来自腾讯、字节跳动的顶尖工程师；在职员工100+，投研和技术团队占总人数比例75%，多位成员是ACM/ICPCWorldFinal选手；公司司正基于Rust生态，结合机器学习、深度学习等新兴技术，打造高效率、低延迟、高
大数据技术之MapReduce wespten Hadoop Hive Spark 大数据安全大数据 mapreduce hadoop
一、MapReduce概述1、MapReduce简介MapReduce是一个分布式运算程序的编程框架，是基于Hadoop的数据分析计算的核心框架。MapReduce处理过程分为两个阶段：Map和Reduce。Map负责把一个任务分解成多个任务，Reduce负责把分解后多任务处理的结果汇总。2、MapReduce优缺点MapReduce优点：MapReduce易于编程：它简单的实现一些接口，就可以完
2025年美赛数学建模F题为农业再培养腾出空间小驴数模数学建模美赛 2025年美赛
b站小驴数模第一时间观看各个题目解析情况：一片充满高耸的树木和各种野生动物的森林被循环为农业让路。曾经繁荣的生态系统，鸟类、昆虫和动物的家园，消失，取而代之的是种植了一排排的作物。土地开始改变——曾经拥有丰富的自然资源的土壤土壤逐渐枯竭，害虫开始入侵庄稼。为了对抗这种情况，农民们转向了化学品，但土地的平衡被破坏了。随着这种转变，在森林里繁荣起来的错综复杂的生命之网被打破了，一种新的、由人类驱动的农
2025年美赛数学建模B题：管理可持续旅游研究及Matlab代码前程算法屋数学建模教程数学建模 matlab 开发语言
目录2025年美赛数学建模B题：管理可持续旅游研究及Matlab代码一、引言1.1、研究背景与意义1.2、研究目的与问题二、文献综述2.1、国内外研究现状2.2、研究方法与理论框架三、研究方法3.1、数据收集与处理3.2、模型构建3.2.1、构建用于评估旅游可持续发展的指标体系3.2.2、应用生态足迹模型分析旅游活动的影响3.2.3、采用系统动力学方法模拟旅游系统的动态变化3.3、模型求解与验证四
更安全、更丰富、更兼容 Anolis OS 23.2 版本重磅上线操作系统开源
经过数月的精心开发与严格的测试流程，龙蜥社区AnolisOS23.2GA版本于2025年伊始首次向广大社区用户发布。该版本是一款基于开源生态发展合作倡议，面向上游原生社区独立选型，持续演进并保障兼容性和稳定性的Linux发行版。本次发布延续了龙蜥社区一贯坚持的高质量、高稳定性的软件包选型原则，在工具链生态、平台支持和安全特性层面有了更多的扩展。该版本将给对安全层面有更多需求的海光和龙芯平台用户提供
龙蜥社区落地开源生态发展合作倡议新进展，推出内核 kABI 和配置统一规范操作系统开源
为共同推动做强做优做大创新操作系统生态，积极响应由龙蜥（OpenAnolis）、开源欧拉（openEuler）、鸥栖（OpenCloudOS）、开放麒麟（openKylin）以及深度（deepin）五大操作系统开源社区联合发起的开源生态发展合作倡议，龙蜥社区在操作系统构建工程落地取得新进展，彰显了龙蜥社区致力于构建一个更加开放、繁荣、安全、高效的全球开源生态系统的坚定承诺。在广泛征求操作系统企业及
anaconda中pyspark_自学大数据——9 Anaconda安装与使用pyspark 步六孤陆
首先从Anaconda官网上下载Anaconda。一、解压安装包sudobashAnaconda3-2020.07-Linux-x86_64.shchown-Rhadoop:hadoop/opt/anaconda/vi/etc/profileexportANACONDA_HOME=/opt/anacondaexportPATH=$PATH:$ANACONDA_HOME/bin:source/etc
PySpark数据处理过程简析 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介PySpark是ApacheSpark的PythonAPI，可以用Python进行分布式数据处理，它在内存中利用了ApacheHadoopYARN资源调度框架对数据进行并行处理。PySpark可以直接使用Hadoop文件系统、HDFS来存储数据，也可以通过S3、GCS、ADLS等云存储平台保存数据。因此，在不同的数据源之间移动数据时，只需要复制一次数据就可以完成
kafka开启kerberos 蘑菇丁 debian 运维
一、基本环境准备创建票据创建Kerberos主体（Principal）：使用kadmin.local或kadmin命令为Zookeeper和Kafka服务创建Kerberos主体。例如：注意有几台机器创建几个kadmin.local-q"addprinc-randkeyzookeeper/[email protected]"kadmin.local-q"addprinc-rand
ranger-kms安装蘑菇丁 eclipse java ide
默认已安装ranger-admin和mysql服务。Ranger组件服务默认都在/opt/bigdata.test/core/ranger目录下安装。解压安装包[hadoop~]$cd/opt/ranger[hadoop@ranger]$tar-xzvfranger-2.1.0-kms.tar.gz[hadoop@xranger]$mvranger-2.1.0-kmsranger/ranger-k
AI DMP 数据基建：构建数据驱动的营销生态 AGI大模型与大数据研究院计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
AIDMP数据基建：构建数据驱动的营销生态作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍在数字化转型的今天，数据已然成为企业最宝贵的资产之一。然而，如何有效地收集、存储、处理和应用这些数据，以实现真正的数据驱动决策，仍然是企业面临的挑战。本文将聚焦于数据管理平台（DataManagementPlatform，DMP），探讨如何通过构建数
ansible批量生产kerberos票据，并批量分发到所有其他主机脚本蘑菇丁 ansible hadoop 学习笔记 eclipse java ide
-name:ConfigureKerberosforHadoopUsershosts:hadoop_serversbecome:nogather_facts:novars:kerberos_server:hadoop1.xuexi.comkeytab_file_path:/home/hadoop/keys/hadoop.keytabprincipals:-nn/-dn/-yarn/-starroc
无耳科技 Solon v3.0.7 发布（2025农历新年版）组合缺一 Solon Java Framework 科技 solon java 后端
Solon框架！Solon框架由杭州无耳科技有限公司（下属Noear团队）开发并开源。是新一代，面向全场景的Java企业级应用开发框架。从零开始构建（非java-ee架构），有灵活的接口规范与开放生态。追求：更快、更小、更简单提倡：克制、高效、开放、生态项目仓库9个，模块200个左右，源码16万行左右，累计1.5万次代码提交，最近半年1200万次maven下载。有透明可预期的《版本发布与维护计划》
网络爬虫相关软件以及论文检索与推荐网站调研 Q7318 网络爬虫网络爬虫搜索引擎
最近接到一个项目，需要做一个基于网络爬虫技术的论文检索与推荐的网站，所以打算先对市面上已有的基于此技术的软件进行一次统计和分析，以备后面查询使用。一.网络爬虫相关软件1.搜索引擎NutchNutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch的创始人是DougCutting，他同时也是Lucene、Hadoop和Avro开源项
Spring Boot 微服务架构的五大挑战与解决方案潘多编程架构 spring boot 微服务
随着软件系统的日益复杂，越来越多的企业选择采用微服务架构来分解大型的应用程序。SpringBoot因其快速的启动特性、简洁的配置方式以及丰富的生态支持，成为构建微服务的首选框架之一。然而，在享受微服务带来的便利的同时，我们也必须面对一些挑战。本文将探讨使用SpringBoot构建微服务项目时遇到的五个主要难点，并提出相应的解决方案。1.服务间通信复杂难点：在微服务架构中，服务之间的交互通常涉及跨多
修改hdfs路径权限 chimchim66 hdfs hadoop 大数据
目录一、背景二、定位问题三、解决一、背景执行insertoverwritetable报错报错内容如下：二、定位问题看报错日志获取到2个信息，一个网络问题，一个是文件权限问题。网络问题重试还是失败，应该不是因为这个，所以要处理文件的权限。三、解决shell执行以下命令，${hdfs_path}替换成目标表的文件路径/usr/local/service/hadoop/bin/hdfsdfs-chmod
HDFS升级和回退小森饭 hdfs hadoop 大数据
概述作为一个大型的分布式系统，Hadoop内部实现了一套升级机制，当在一个集群上升级Hadoop时，像其他的软件升级一样，可能会有新的bug或一些会影响现有应用的非兼容性变更出现；在任何有实际意义的HDFS系统中，丢失数据是不允许的，更不用说重新搭建启动HDFS了；升级可能成功，也可能失败。如果失败了，那就用rollback进行回滚；如果过了一段时间，系统运行正常，那就可以通过finalize正式
C#进阶：在Ubuntu上部署ASP.NET Core Web API应用君君学姐 c#ubuntu asp.net
C#进阶：在Ubuntu上部署ASP.NETCoreWebAPI应用引言随着云计算和跨平台开发的兴起，越来越多的开发者开始在Linux系统上部署ASP.NETCoreWebAPI应用。Ubuntu作为一款流行且稳定的Linux发行版，凭借其出色的性能和丰富的软件生态，成为部署ASP.NETCore应用的理想选择。本文将详细讲解在Ubuntu上部署ASP.NETCoreWebAPI应用的步骤和注意事
docker 部署.netcore应用优势在什么地方？张3蜂软件安装部署开源 linux docker .netcore 容器
目录1.环境一致性2.简化依赖管理3.快速部署与扩展4.资源利用率高5.版本控制与回滚6.安全性7.生态系统支持8.微服务架构支持9.降低成本10.开发体验提升总结使用Docker部署.NETCore应用有许多优势，特别是在开发、测试和生产环境中。以下是Docker部署.NETCore应用的主要优势：1.环境一致性开发与生产环境一致：Docker容器将应用及其依赖项打包在一起，确保开发、测试和生产
云计算架构设计与技术创新 AI天才研究院编程实践 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介在移动互联网、物联网等新兴产业的快速发展中，云计算已经成为新的热点。随着云计算的飞速发展，云计算的架构也在不断演进，云计算的架构设计与技术创新越来越迫切。作为中国通信、网络、电子信息、IT行业的领军企业，华为公司致力于为客户提供优质的网络产品和服务，致力于打造一个开放、包容、智慧、共赢的数字生态圈。我司正在紧锣密鼓地布局云计算时代，并提出了更高端的、具有革命性的
RocketMQ优势剖析-集成云原生环境 Lin_Miao_09 RocketMq rocketmq 云原生
目录弹性和可扩展性Serverless架构支持容器化和Kubernetes支持多协议支持持久化和可靠性分布式事务支持社区和生态系统结论RocketMQ在集成云原生环境方面的优势主要体现在其设计的灵活性、扩展性以及对现代云计算基础设施的支持。以下是对RocketMQ在云原生环境中优势的具体剖析：弹性和可扩展性RocketMQ的设计考虑到了大规模分布式系统的需要，能够很好地适应动态变化的工作负载。它支
vue3 react区别阿芯爱编程 js技巧面试 react.js 前端前端框架
Vue3和React是两个流行的前端JavaScript框架，它们在设计理念、API、生态系统等方面有所不同。以下是Vue3和React之间的一些主要区别：1.设计理念Vue3：以易用性和灵活性为核心，提供了直观的模板语法和渐进式的框架设计。React：由Facebook开发，强调组件化和函数式编程，提供了一个用于构建用户界面的JavaScript库。2.模板vsJSXVue3：使用基于HTML的
大数据平台建设整体架构设计方案 AI天才研究院 ChatGPT AI大模型企业级应用开发实战大数据AI人工智能大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
《大数据平台建设整体架构设计方案》关键词：大数据平台、分布式存储、分布式计算、数据仓库、数据湖、数据安全、数据质量管理、数据治理、数据挖掘、机器学习、图计算、自然语言处理、Hadoop、Spark、Flink、项目规划、运维管理、最佳实践。摘要：本文将深入探讨大数据平台建设整体架构设计方案，从概述与核心概念、技术栈、建设实践、运维管理以及经验展望等多个方面进行详细阐述。通过梳理大数据平台的核心组成
龙蜥衍生版 KOS 助力厦门高校创新实验室智算 300 节点成功迁移 | 龙蜥案例操作系统开源
编者按：近期，龙蜥社区发布《龙蜥操作系统生态用户实践精选V2》，收录包括龙蜥社区版AnolisOS及衍生版AlibabaCloudLinux、浪潮信息云峦服务器操作系统KeyarchOS、统信服务器操作系统V20等案例，涉及政务、金融、交通、电力等重点行业。龙蜥公众号将详细介绍案例内容，形成「龙蜥案例」系列文章，为大家带来不同行业的标杆实践样板。随着CentOS停更，用户无法获得安全补丁和漏洞修复
python操作HBase 王壮_ 大数据 Python hbase 数据库大数据
1.安装happybase和thriftpipinstallhappybasepipinstallthrift2.启动hbase的thrift进程，并指定端口9090hbase-daemon.shstartthrift-p90903.操作HBaseimporthappybaseconnection=happybase.Connection(host='hadoop10',port=9090)tab
HBase伪分布式安装配置流程 TheMountainGhost hbase 数据库大数据
要配置HBase的伪分布式模式，以下是详细的操作步骤，确保每一步都执行准确。1.准备工作确保已经安装并配置好了Hadoop（伪分布式），因为HBase依赖HDFS。Hadoop已经配置并能够正常运行。Java已经安装并配置好了环境变量。SSH配置免密登录（通常在Hadoop环境中已配置）。2.下载并解压HBase下载HBase安装包并解压到你想要的目录：tar-zxvfhbase-2.4.18-b
插入表主键冲突做更新 a-john
有以下场景：用户下了一个订单，订单内的内容较多，且来自多表，首次下单的时候，内容可能会不全（部分内容不是必须，出现有些表根本就没有没有该订单的值）。在以后更改订单时，有些内容会更改，有些内容会新增。问题：如果在sql语句中执行update操作，在没有数据的表中会出错。如果在逻辑代码中先做查询，查询结果有做更新，没有做插入，这样会将代码复杂化。解决： mysql中提供了一个sql语
Android xml资源文件中@、@android:type、@*、？、@+含义和区别 Cb123456 @+@?@*
一.@代表引用资源 1.引用自定义资源。格式：@[package:]type/name android：text="@string/hello" 2.引用系统资源。格式：@android:type/name android:textColor="@android:color/opaque_red"
数据结构的基本介绍天子之骄数据结构散列表树、图线性结构价格标签
数据结构的基本介绍数据结构就是数据的组织形式，用一种提前设计好的框架去存取数据，以便更方便，高效的对数据进行增删查改。正确选择合适的数据结构，对软件程序的高效执行的影响作用不亚于算法的设计。此外，在计算机系统中数据结构的作用也是非同小可。例如常常在编程语言中听到的栈，堆等，就是经典的数据结构。经典的数据结构大致如下：一：线性数据结构 (1)：列表 a
通过二维码开放平台的API快速生成二维码一炮送你回车库 api
现在很多网站都有通过扫二维码用手机连接的功能，联图网(http://www.liantu.com/pingtai/)的二维码开放平台开放了一个生成二维码图片的Api,挺方便使用的。闲着无聊，写了个前台快速生成二维码的方法。 html代码如下:(二维码将生成在这div下) ? 1 &nbs
ImageIO读取一张图片改变大小 3213213333332132 java IO image BufferedImage
package com.demo; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imageio.ImageIO; /** * @Description 读取一张图片改变大小 * @author FuJianyon
myeclipse集成svn（一针见血） 7454103 eclipse SVN MyEclipse
&n
装箱与拆箱----autoboxing和unboxing darkranger J2SE
4.2　自动装箱和拆箱基本数据(Primitive)类型的自动装箱(autoboxing)、拆箱(unboxing)是自J2SE 5.0开始提供的功能。虽然为您打包基本数据类型提供了方便，但提供方便的同时表示隐藏了细节，建议在能够区分基本数据类型与对象的差别时再使用。 4.2.1　autoboxing和unboxing 在Java中，所有要处理的东西几乎都是对象(Object)
ajax传统的方式制作ajax aijuans Ajax
//这是前台的代码 <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); String basePath = request.getScheme()+
只用jre的eclipse是怎么编译java源文件的？ avords java eclipse jdk tomcat
eclipse只需要jre就可以运行开发java程序了，也能自动编译java源代码，但是jre不是java的运行环境么，难道jre中也带有编译工具？还是eclipse自己实现的？谁能给解释一下呢问题补充：假设系统中没有安装jdk or jre，只在eclipse的目录中有一个jre，那么eclipse会采用该jre，问题是eclipse照样可以编译java源文件，为什么呢？ &nb
前端模块化 bee1314 模块化
背景：前端JavaScript模块化，其实已经不是什么新鲜事了。但是很多的项目还没有真正的使用起来，还处于刀耕火种的野蛮生长阶段。 JavaScript一直缺乏有效的包管理机制，造成了大量的全局变量，大量的方法冲突。我们多么渴望有天能像Java（import），Python (import)，Ruby(require)那样写代码。在没有包管理机制的年代，我们是怎么避免所
处理百万级以上的数据处理 bijian1013 oracle sql 数据库大数据查询
一.处理百万级以上的数据提高查询速度的方法： 1.应尽量避免在 where 子句中使用!=或<>操作符，否则将引擎放弃使用索引而进行全表扫描。 2.对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 o
mac 卸载 java 1.7 或更高版本征客丶 java OS
卸载 java 1.7 或更高 sudo rm -rf /Library/Internet\ Plug-Ins/JavaAppletPlugin.plugin 成功执行此命令后，还可以执行 java 与 javac 命令 sudo rm -rf /Library/PreferencePanes/JavaControlPanel.prefPane 成功执行此命令后，还可以执行 java
【Spark六十一】Spark Streaming结合Flume、Kafka进行日志分析 bit1129 Stream
第一步，Flume和Kakfa对接，Flume抓取日志，写到Kafka中第二部，Spark Streaming读取Kafka中的数据，进行实时分析本文首先使用Kakfa自带的消息处理（脚本）来获取消息，走通Flume和Kafka的对接 1. Flume配置 1. 下载Flume和Kafka集成的插件，下载地址：https://github.com/beyondj2ee/f
Erlang vs TNSDL bookjovi erlang
TNSDL是Nokia内部用于开发电信交换软件的私有语言，是在SDL语言的基础上加以修改而成，TNSDL需翻译成C语言得以编译执行，TNSDL语言中实现了异步并行的特点，当然要完整实现异步并行还需要运行时动态库的支持，异步并行类似于Erlang的process（轻量级进程），TNSDL中则称之为hand，Erlang是基于vm(beam)开发，
非常希望有一个预防疲劳的java软件, 预防过劳死和眼睛疲劳,大家一起努力搞一个 ljy325 企业应用
　非常希望有一个预防疲劳的java软件，我看新闻和网站，国防科技大学的科学家累死了，太疲劳，老是加班，不休息，经常吃药，吃药根本就没用，根本原因是疲劳过度。我以前做java,那会公司垃圾，老想赶快学习到东西跳槽离开，搞得超负荷，不明理。深圳做软件开发经常累死人，总有不明理的人，有个软件提醒限制很好，可以挽救很多人的生命。相关新闻：（1）IT行业成五大疾病重灾区：过劳死平均37.9岁
读《研磨设计模式》-代码笔记-原型模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * Effective Java 建议使用copy constructor or copy factory来代替clone()方法： * 1.public Product copy(Product p){} * 2.publi
配置管理---svn工具之权限配置 chenyu19891124 SVN
今天花了大半天的功夫，终于弄懂svn权限配置。下面是今天收获的战绩。安装完svn后就是在svn中建立版本库，比如我本地的是版本库路径是C:\Repositories\pepos。pepos是我的版本库。在pepos的目录结构 pepos component webapps 在conf里面的auth里赋予的权限配置为 [groups]
浅谈程序员的数学修养 comsci 设计模式编程算法面试招聘
浅谈程序员的数学修养
批量执行 bulk collect与forall用法 daizj oracle sql bulk collect forall
BULK COLLECT 子句会批量检索结果，即一次性将结果集绑定到一个集合变量中，并从SQL引擎发送到PL/SQL引擎。通常可以在SELECT INTO、 FETCH INTO以及RETURNING INTO子句中使用BULK COLLECT。本文将逐一描述BULK COLLECT在这几种情形下的用法。有关FORALL语句的用法请参考：批量SQL之 F
Linux下使用rsync最快速删除海量文件的方法 dongwei_6688 OS
1、先安装rsync：yum install rsync 2、建立一个空的文件夹：mkdir /tmp/test 3、用rsync删除目标目录：rsync --delete-before -a -H -v --progress --stats /tmp/test/ log/这样我们要删除的log目录就会被清空了，删除的速度会非常快。rsync实际上用的是替换原理，处理数十万个文件也是秒删。
Yii CModel中rules验证规格 dcj3sjt126com rules yii validate
Yii cValidator主要用法分析： yii验证rulesit 分类： Yii yii的rules验证 cValidator主要属性 attributes ,builtInValidators,enableClientValidation,message,on,safe,skipOnError
基于vagrant的redis主从实验 dcj3sjt126com vagrant
平台: Mac 工具: Vagrant 系统: Centos6.5 实验目的: Redis主从实现思路制作一个基于sentos6.5, 已经安装好reids的box, 添加一个脚本配置从机, 然后作为后面主机从机的基础box 制作sentos6.5+redis的box mkdir vagrant_redis cd vagrant_
Memcached(二)、Centos安装Memcached服务器 frank1234 centos memcached
一、安装gcc rpm和yum安装memcached服务器连接没有找到，所以我使用的是make的方式安装，由于make依赖于gcc，所以要先安装gcc 开始安装，命令如下，[color=red][b]顺序一定不能出错[/b][/color]：建议可以先切换到root用户，不然可能会遇到权限问题：su root 输入密码...... rpm -ivh kernel-head
Remove Duplicates from Sorted List hcx2013 remove
Given a sorted linked list, delete all duplicates such that each element appear only once. For example,Given 1->1->2, return 1->2.Given 1->1->2->3->3, return&
Spring4新特性——JSR310日期时间API的支持 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
浅谈enum与单例设计模式 247687009 java 单例
在JDK1.5之前的单例实现方式有两种(懒汉式和饿汉式并无设计上的区别故看做一种)，两者同是私有构造器，导出静态成员变量，以便调用者访问。第一种 package singleton; public class Singleton { //导出全局成员 public final static Singleton INSTANCE = new S
使用switch条件语句需要注意的几点 openwrt c break switch
1. 当满足条件的case中没有break，程序将依次执行其后的每种条件（包括default）直到遇到break跳出 int main() { int n = 1; switch(n) { case 1: printf("--1--\n"); default: printf("defa
配置Spring Mybatis JUnit测试环境的应用上下文 schnell18 spring mybatis JUnit
Spring-test模块中的应用上下文和web及spring boot的有很大差异。主要试下来差异有：单元测试的app context不支持从外部properties文件注入属性 @Value注解不能解析带通配符的路径字符串解决第一个问题可以配置一个PropertyPlaceholderConfigurer的bean。第二个问题的具体实例是：
Java 定时任务总结一 tuoni java spring timer quartz timertask
Java定时任务总结一.从技术上分类大概分为以下三种方式： 1.Java自带的java.util.Timer类，这个类允许你调度一个java.util.TimerTask任务; 说明： java.util.Timer定时器，实际上是个线程，定时执行TimerTask类 &
一种防止用户生成内容站点出现商业广告以及非法有害等垃圾信息的方法 yangshangchuan rank 相似度计算文本相似度词袋模型余弦相似度
本文描述了一种在ITEYE博客频道上面出现的新型的商业广告形式及其应对方法，对于其他的用户生成内容站点类型也具有同样的适用性。最近在ITEYE博客频道上面出现了一种新型的商业广告形式，方法如下： 1、注册多个账号（一般10个以上）。 2、从多个账号中选择一个账号，发表1-2篇博文

Hadoop之——基于3台服务器搭建Hadoop3.x集群（实测完整版）

一、 服务器规划

二、Hadoop集群环境的准备

1.添加hadoop用户身份

2.关闭防火墙

3.设置静态IP

4.设置主机名

5.设置主机名与IP地址的映射关系

6.集群环境下配置SSH免密码登录

三、集群环境下的JDK安装

四、搭建并配置Zookeeper集群

1.下载Zookeeper

2.安装并配置Zookeeper系统环境变量

3.配置Zookeeper

4.复制Zookeeper和系统环境变量到其他服务器

6.使环境变量生效

五、搭建并配置Hadoop集群

1.下载Hadoop

2.解压并配置系统环境变量

3.修改Hadoop配置文件

4.将配置好的Hadoop拷贝到其他节点

5.将配置好的Hadoop系统环境变量拷贝到其他节点

6.使系统环境变量生效

六、启动Zookeeper集群

七、启动Hadoop集群

1.启动并验证journalnode进程

2.格式化HDFS

3.格式化ZKFC

4.启动NameNode并验证

5.同步元数据信息

7.启动并验证DataNode

8.启动并验证YARN

9.启动并验证ZKFC

八、启动Hadoop集群的另一种方式

1.格式化HDFS

2.复制元数据信息

3.格式化ZKFC

4.启动HDFS

5.启动YARN

九、 测试Hadoop HA的高可用性

1.浏览器方式验证

2.程序方式验证

你可能感兴趣的:(Hadoop,Hadoop生态)

一、服务器规划

九、测试Hadoop HA的高可用性