peng.li

Hadoop HA 原理及HA 高可用集群搭建

完全分布式参考：Hadoop完全分布式搭建。

一、前期准备

二、HA 概述

三、原理

四、HA 集群搭建

4.1 HA集群搭建规划

4.2 Hadoop HA集群搭建

五、web端访问查询

序：

软件版本：

VMware：VMware-15.5.1
Linux：CentOS-7.5-x86_64-DVD-1804.iso
JDK:jdk-8u212-linux-x64.tar.gz
Hadoop：hadoop-3.1.3.tar.gz
Zookeeper:zookeeper 3.5.7

一、前期准备

本次HA集群搭建是在分布式集群搭建的基础上完成。完全分布式搭建参考：Hadoop完全分布式搭建。HA集群搭建之前，需要完成以下准备：

完成JDK的安装及环境变量配置
完成Zookeeper的安装及配置
如Hadoop完全分布式搭建，在其基础上搭建HA 高可用集群

二、HA 概述

所谓HA（High Availablity），即高可用（7*24小时不中断服务）。实现高可用最关键的策略是消除单点故障。HA严格来说应该分成各个组件的HA机制：HDFS的HA和YARN的HA。Hadoop2.0之前，在HDFS集群中NameNode存在单点故障SPOF（Single Points Of Failure）。

NameNode主要在以下两个方面影响HDFS集群（ResourceManager的影响相同）

NameNode机器发生意外，如宕机，集群将无法使用，直到管理员重启
NameNode机器需要升级，包括软件、硬件升级，此时集群也将无法使用

HDFS HA功能通过配置Active/Standby两类NameNodes实现在集群中对NameNode的热备来解决上述问题。如果出现故障，如机器崩溃或机器需要升级维护，这时可通过此种方式将NameNode很快的切换到另外一台机器。

三、原理

通过多NameNode（Active NameNode和Standby NameNode）和ResourceManager（Active ResourceManager和Standby ResourceManager）来消除单点故障，但多NameNode和ResourceManager又会产生如下问题：

如何保证多个NameNode中的数据同步问题？
多个NameNode怎么确定谁是Active NameNode？
Active NameNode故障后，多个Standby如何确定Active NameNode？如何实现Active的自动转移？

在Hadoop HA 高可用集群中，通过创建JournalNode集群来存储各NameNode所需的元数据信息，从而保持元数据信息同步。实现方式是：Active NameNode除了在自己的节点中维护元数据，还会将保存的编辑日志和元数据镜像保存到JournalNode集群中，Standby NameNode会从集群中获取编辑日志和元数据镜像，并在自己的节点中合并成元数据信息，从而实现元数据同步。

Active NodeManage选定的解决方式如图，在HA机制中，增加了ZooKeeper和ZKFailoverController（ZKFC）进程。ZooKeeper是维护少量协调数据，通知客户端这些数据的改变和监视客户端故障的高可用服务。HA的自动故障转移依赖于ZooKeeper的以下功能：

故障检测：

集群中的每个NameNode在ZooKeeper中维护了一个持久会话，如果机器崩溃，ZooKeeper中的会话将终止，ZooKeeper通知另一个NameNode需要触发故障转移。

现役NameNode选择：

ZooKeeper提供了一个简单的机制用于唯一的选择一个节点为active状态。如果目前现役NameNode崩溃，另一个节点可能从ZooKeeper获得特殊的排外锁以表明它应该成为现役NameNode。

ZKFC是自动故障转移中的另一个新组件，是ZooKeeper的客户端，也监视和管理NameNode的状态。每个运行NameNode的主机也运行了一个ZKFC进程，ZKFC负责：

健康监测：ZKFC使用一个健康检查命令定期地ping与之在相同主机的NameNode，只要该NameNode及时地回复健康状态，ZKFC认为该节点是健康的。如果该节点崩溃，冻结或进入不健康状态，健康监测器标识该节点为非健康的。

ZooKeeper会话管理：当本地NameNode是健康的，ZKFC保持一个在ZooKeeper中打开的会话。如果本地NameNode处于active状态，ZKFC也保持一个特殊的znode锁，该锁使用了ZooKeeper对短暂节点的支持，如果会话终止，锁节点将自动删除。

基于ZooKeeper的选择：如果本地NameNode是健康的，且ZKFC发现没有其它的节点当前持有znode锁，它将为自己获取该锁。如果成功，则它已经赢得了选择，并负责运行故障转移进程以使它的本地NameNode为Active。故障转移进程与前面描述的手动故障转移相似，首先如果必要保护之前的现役NameNode，然后本地NameNode转换为Active状态。

如上图，简言之

每个NameNode都有一个对应的ZKFC作为自己的监护线程，HDFS系统初次启动时，多个NameNode对应的ZKFC会进行锁的争夺（即Zookeeper中的节点注册），抢到锁的ZKFC会将对应的NameNode置成Active。若是ZKFC在监视过程发现自己负责的Active NameNode没有信息反馈，则认为该NameNode已经故障，则会将抢到的锁释放。其他的ZKFC会对释放的锁进行争夺，获得者会进入原Active NameNode中将原Active NameNode 线程杀掉，然后将自己对应的NameNode置为Active对外服务，从而解决了单NameNode故障，集群无法工作及Active NameNode的选择问题。ResourceManagerHA的原理相同。

四、HA 集群搭建

4.1 HA集群搭建规划

表1-1: HA 高可用集群3个服务器的节点安排

hadoop102	hadoop103	hadoop104
NameNode	NameNode	NameNode
ZKFC	ZKFC	ZKFC
JournalNode	JournalNode	JournalNode
DataNode	DataNode	DataNode
ZK (zookeeper)	ZK (zookeeper)	ZK (zookeeper)
ResourceManager	ResourceManager	ResourceManager
NodeManager	NodeManager	NodeManager

4.2 Hadoop HA集群搭建

1、将Hadoop 安装在/opt/module/ha/目录下，并在/etc/profile.d/目录下修改my-env.sh，具体内容如下:

#JAVA_HOME
JAVA_HOME=/opt/module/jdk1.8.0_212
#HADOOP_HOME
HADOOP_HOME=/opt/module/ha/hadoop-3.1.3
#ZOOKEEPER_HOME
ZOOKEEPER_HOME=/opt/module/zookeeper-3.5.7

PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$ZOOKEEPER_HOME/bin
export PATH JAVA_HOME HADOOP_HOME ZOOKEEPER_HOME

2、修改hadoop配置文件core-site.xml，位置：opt/module/ha/hadoop-3.1.3/etc/hadoop/。core-site.xml配置如下：



	
	
		ha.zookeeper.quorum
		hadoop102:2181,hadoop103:2181,hadoop104:2181
	


	
	
		fs.defaultFS
		hdfs://mycluster
	
	
	
	
		hadoop.tmp.dir
		/opt/module/ha/hadoop-3.1.3/data/tmp
	
	
        
	
		dfs.journalnode.edits.dir
		file://${hadoop.tmp.dir}/jn
	
	
	
	
		fs.trash.interval
		5
	
	
	
	
		fs.trash.checkpoint.interval
		5
	
	
	
	
		hadoop.http.staticuser.user
		lipeng
	
	
	
	
    
        hadoop.proxyuser.lipeng.hosts
        *
	
	
	
    
        hadoop.proxyuser.lipeng.groups
        *
	
	
	
    
        hadoop.proxyuser.lipeng.users
        *

3、修改hadoop配置文件hdfs-site.xml，位置：opt/module/ha/hadoop-3.1.3/etc/hadoop/。hdfs-site.xml配置如下：



	
	
		dfs.ha.automatic-failover.enabled
		true
	

	
	
		dfs.replication
		3
	

	
	
		dfs.nameservices
		mycluster
	
	
	
	
		dfs.namenode.name.dir
		file://${hadoop.tmp.dir}/name
	
	
	
	
		dfs.datanode.data.dir
		file://${hadoop.tmp.dir}/data
	

	
	
		dfs.ha.namenodes.mycluster
		nn1,nn2,nn3
	

	
	
		dfs.namenode.rpc-address.mycluster.nn1
		hadoop102:9000
	

	
	
		dfs.namenode.rpc-address.mycluster.nn2
		hadoop103:9000
	
	
	
	
		dfs.namenode.rpc-address.mycluster.nn3
		hadoop104:9000
	

	
	
		dfs.namenode.http-address.mycluster.nn1
		hadoop102:9870
	

	
	
		dfs.namenode.http-address.mycluster.nn2
		hadoop103:9870
	
	
	
	
		dfs.namenode.http-address.mycluster.nn3
		hadoop104:9870
	

	
	
		dfs.namenode.shared.edits.dir
		    qjournal://hadoop102:8485;hadoop103:8485;hadoop104:8485/mycluster
	

	
	
		dfs.ha.fencing.methods
		sshfence
	

	
	
		dfs.ha.fencing.ssh.private-key-files
		/home/atguigu/.ssh/id_rsa
	

	
			
		dfs.client.failover.proxy.provider.mycluster
		org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider
	
	
	
        
		dfs.client.datanode-restart.timeout
		30s

4、修改hadoop的yarn-site.xml,位置：opt/module/ha/hadoop-3.1.3/etc/hadoop/。yarn-site.xml的配置如下：



    
        yarn.nodemanager.aux-services
        mapreduce_shuffle
    

    
    
        yarn.resourcemanager.ha.enabled
        true
    
 
    
    
        yarn.resourcemanager.cluster-id
        cluster-yarn
    
	
    
    
        yarn.resourcemanager.ha.rm-ids
        rm1,rm2,rm3
    

    
    
        yarn.resourcemanager.hostname.rm1
        hadoop102
    
	
    
    
        yarn.resourcemanager.webapp.address.rm1
        hadoop102:8088
    
	
     
    
    
        yarn.resourcemanager.address.rm1
        hadoop102:8032
    
	
    
    
        yarn.resourcemanager.scheduler.address.rm1  
        hadoop102:8030
    
	
      
    
        yarn.resourcemanager.resource-tracker.address.rm1
        hadoop102:8031
    

     
    
        yarn.resourcemanager.hostname.rm2
        hadoop103
    

    
        yarn.resourcemanager.webapp.address.rm2
        hadoop103:8088
    
	
    
        yarn.resourcemanager.address.rm2
        hadoop103:8032
    
	
    
        yarn.resourcemanager.scheduler.address.rm2
        hadoop103:8030
    

    
        yarn.resourcemanager.resource-tracker.address.rm2
        hadoop103:8031
    

     
    
        yarn.resourcemanager.hostname.rm3
        hadoop104
    

    
        yarn.resourcemanager.webapp.address.rm3
        hadoop104:8088
    
	
    
        yarn.resourcemanager.address.rm3
        hadoop104:8032
    
	
    
        yarn.resourcemanager.scheduler.address.rm3
        hadoop104:8030
    

    
        yarn.resourcemanager.resource-tracker.address.rm3
        hadoop104:8031
    
 
     
    
        yarn.resourcemanager.zk-address
        hadoop102:2181,hadoop103:2181,hadoop104:2181
    

     
    
        yarn.resourcemanager.recovery.enabled
        true
    
 
     
    
        yarn.resourcemanager.store.class    
		org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore
	
 
    
    
        yarn.nodemanager.env-whitelist
        JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME
    
	
    
    
	yarn.nodemanager.vmem-check-enabled
	false
    

    
    
        yarn.log-aggregation-enable
        true
    
	
    
    
        yarn.log.server.url
        http://hadoop102:19888/jobhistory/logs
    
	
    
    
        yarn.log-aggregation.retain-seconds
        604800

5、hadoop软件、环境变量文件集群分发，使用xsync脚本（没有的可参考行首链接文档）和scp命令

    xsync /op/module/ha/*

    #环境变量设置分发
    scp -r /etc/profile.d/my-env.sh root@hadoop103:/etc/profile.d/
    scp -r /etc/profile.d/my-env.sh root@hadoop104:/etc/profile.d/

    #分发后在集群各节点执行以下操作
    source /etc/profile

6、启动journalnode服务，启动前先确保/tmp目录下为空，不为空需删除目录内容。然后hadoop102、hadoop103、hadoop104分别启动journalnode服务。各服务器执行以下命令，执行完，调用jps查询进程，确保开启。

hdfs --daemon start journalnode

#jps查询如下：
1678 JournalNode
1727 Jps

7、集群各节点启动zookeeper集群，并初始化HA在Zookeeper中的状态

zkServer.sh start

hdfs zkfc -formatZK

8、namenode格式化：在集群中任意一个服务器上进行namenode格式化并启动，执行代码如下：

hdfs namenode -format
hdfs --daemon start namenode

9、其他服务器元数据同步并启动其他的namenode，此时完成所有namenode的启动

hdfs namenode -bootstrapStandby
hdfs --daemon start namenode

10、所有服务器启动datanode

hdfs --daemon start namenode

11、启动集群yarn服务

start-yarn.sh

12、一键启动脚本，由于启动的节点较多，最好的实现方式是编写脚本，实现一键启动，脚本内容如下：

#!/bin/bash

if [ $# -lt 1 ]
then
echo " no args input "
exit
fi

case $1 in
"start")

        echo "==================start hadoop102 zookeeper ==============="
        ssh hadoop102 /opt/module/zookeeper-3.5.7/bin/zkServer.sh start

        echo "==================start hadoop103 zookeeper ==============="
        ssh hadoop103 /opt/module/zookeeper-3.5.7/bin/zkServer.sh start

        echo "==================start hadoop104 zookeeper ==============="
        ssh hadoop104 /opt/module/zookeeper-3.5.7/bin/zkServer.sh start

        echo "====================start $i hdfs==================="
        ssh hadoop102 /opt/module/ha/hadoop-3.1.3/sbin/start-dfs.sh

        echo "====================start $i yarn=================="
        ssh hadoop102 /opt/module/ha/hadoop-3.1.3/sbin/start-yarn.sh

        echo "------------------start historyserver----------------------"
        ssh hadoop102 /opt/module/ha/hadoop-3.1.3/bin/mapred --daemon start historyserver

;;
"stop")

        echo "====================stop $i yarn=================="
        ssh hadoop102 /opt/module/ha/hadoop-3.1.3/sbin/stop-yarn.sh

        echo "------------------stop historyserver-----------------------"
        ssh hadoop102 /opt/module/ha/hadoop-3.1.3/bin/mapred --daemon stop historyserver

        echo "====================stop $i hdfs==================="
        ssh hadoop102 /opt/module/ha/hadoop-3.1.3/sbin/stop-dfs.sh

        echo "==================stop hadoop102 zookeeper ==============="
        ssh hadoop102 /opt/module/zookeeper-3.5.7/bin/zkServer.sh stop

        echo "==================stop hadoop103 zookeeper ==============="
        ssh hadoop103 /opt/module/zookeeper-3.5.7/bin/zkServer.sh stop

        echo "==================stop hadoop104 zookeeper ==============="
        ssh hadoop104 /opt/module/zookeeper-3.5.7/bin/zkServer.sh stop

;;
*)
        echo "input error"
;;
esac

13、一键启动后进程查询，使用myjps脚本

--------------------hadoop102 jps----------------------
3667 DFSZKFailoverController
1796 QuorumPeerMain
3157 NodeManager
2149 DataNode
3381 JobHistoryServer
3014 ResourceManager
4278 Jps
1678 JournalNode
2014 NameNode
--------------------hadoop103 jps----------------------
2053 DataNode
4280 Jps
1977 NameNode
3370 DFSZKFailoverController
2682 QuorumPeerMain
2522 NodeManager
2426 ResourceManager
2172 JournalNode
--------------------hadoop104 jps----------------------
1920 NameNode
2468 NodeManager
2372 ResourceManager
4358 Jps
2118 JournalNode
3000 DFSZKFailoverController
3176 QuorumPeerMain
1996 DataNode

五、web端访问查询

1、namenode web端查询，端口9870，结果如下

2、resourcemanager web端查看，端口号：8088，结果如下：

好啦，到此hadoop HA 高可用集群就搭建好，可以尝试断开Active Namenode或Active ResouceManager来验证单点故障的自动转移。

Hadoop的运行模式对许 #Hadoop hadoop 大数据分布式
Hadoop的运行模式1、本地运行模式2、伪分布式运行模式3、完全分布式运行模式4、区别与总结Hadoop有三种可以运行的模式：本地运行模式、伪分布式运行模式和完全分布式运行模式1、本地运行模式本地运行模式无需任何守护进程，单机运行，所有的程序都运行在同一个JVM上执行Hadoop安装后默认为本地模式，数据存储在Linux本地。在本地模式下调试MapReduce程序非常高效方便，一般该模式主要是在
大数据面试系列之——Hadoop 潜心_守道大数据面经面试大数据 Hadoop
Hadoop的三个核心：HDFS（分布式存储系统）MapReduce（分布式计算系统）YARN(分布式资源调度)1.Hadoop集群的几种搭建模式1.单机模式：直接解压安装，不存在分布式存储系统2.伪分布式：NameNode和DataNode安装于同一个节点，无法体现分布式处理的优势。3.完全分布式：一个主节点，多个从节点，存在如果主节点宕机，集群就无法使用的缺点。4.高可用模式：多个主节点，多个
Spark单机伪分布式环境搭建、完全分布式环境搭建、Spark-on-yarn模式搭建遇安.YuAn Spark 大数据平台组件搭建 hadoop 大数据 Spark scala 环境搭建
搭建Spark需要先配置好scala环境。三种Spark环境搭建互不关联，都是从零开始搭建。如果将文章中的配置文件修改内容复制粘贴的话，所有配置文件添加的内容后面的注释记得删除，可能会报错。保险一点删除最好。Scala环境搭建上传安装包解压并重命名rz上传如果没有安装rz可以使用命令安装：yuminstall-ylrzsz这里我将scala解压到/opt/module目录下：tar-zxvf/op
【大数据技术】搭建完全分布式高可用大数据集群（MySQL+Hive） Want595 Python大数据采集与分析大数据分布式 mysql
搭建完全分布式高可用大数据集群（MySQL+Hive）apache-hive-3.1.3-bin.tar.gzmysql-connector-java-8.0.30注：请在阅读本篇文章前，将以上资源下载下来。写在前面本文主要介绍搭建完全分布式高可用集群Hive的详细步骤。注意：统一约定将软件安装包存放于虚拟机的/software目录下，软件安装至/opt目录下。安装MySQL请按照以下步骤将MyS
【大数据技术】搭建完全分布式高可用大数据集群（Flume） Want595 Python大数据采集与分析大数据分布式 flume
搭建完全分布式高可用大数据集群（Flume）apache-flume-1.11.0-bin.tar.gz注：请在阅读本篇文章前，将以上资源下载下来。写在前面本文主要介绍搭建完全分布式高可用集群Flume的详细步骤。注意：统一约定将软件安装包存放于虚拟机的/software目录下，软件安装至/opt目录下。安装Flume用finalshell将压缩包上传到虚拟机master的/software目录下
【大数据技术】Kafka实时分析用户行为日志（python+zookeeper+kafka） Want595 Python大数据采集与分析 kafka python zookeeper
Kafka实时分析用户行为日志（python+zookeeper+kafka）搭建完全分布式高可用大数据集群（ZooKeeper）搭建完全分布式高可用大数据集群（Kafka）本机PyCharm远程连接虚拟机Python在阅读本文前，请确保已经阅读过以上3篇文章，成功搭建了ZooKeeper+Kafka+Python的大数据集群环境。写在前面本文主要介绍基于ZooKeeper+Kafka技术，编写p
三、大数据之Zookeeper完全分布式集群搭建尘.埃大数据生态框架搭建 zookeeper 大数据
目录Zookeeper简介：（1）集群部署规划（2）安装Zookeeper（3）配置zook.cfg文件（4）配置服务器编号（5）配置Zookeeper环境变量（6）配置文件分发（7）集群启动（8）zookeeper群启脚本（9）Zookeeper官方文档说明：Zookeeper安装包Zookeeper简介：Zookeeper是一个开源的分布式的，为分布式应用提供协调服务的Apache项目。Zoo
大数据集群搭建基础：Hadoop完全分布式搭建学习指南！！初次知晓大数据分布式 hadoop
Hadoop完全分布式搭建学习指南Hadoop版本：Hadoop2.XJDK版本：JDK1.8一、准备工作设置主机名和IP在三台CentOS7.4机器上分别设置主机名和IP：node1:192.168.14.10node2:192.168.14.20node3:192.168.14.30修改主机名（以node1为例）：hostnamectlset-hostnamenode1配置网络（依据具体网络环
【大数据技术】编写Python代码实现词频统计（python+hadoop+mapreduce+yarn） Want595 Python大数据采集与分析大数据 python hadoop
编写Python代码实现词频统计（python+hadoop+mapreduce+yarn）搭建完全分布式高可用大数据集群（VMware+CentOS+FinalShell）搭建完全分布式高可用大数据集群（Hadoop+MapReduce+Yarn）本机PyCharm连接CentOS虚拟机在阅读本文前，请确保已经阅读过以上三篇文章，成功搭建了Hadoop+MapReduce+Yarn+Python
spark集群完全分布式搭建。。，。，。分布式 spark 大数据
1.spark的运行架构（主从模式）主节点：master-----资源管理调度和任务的分配---------类似yarn从节点：worker-----执行具体的计算任务整体运行架构：编写spark运行程序用户将应用程序提交给spark集群驱动其会创建对应的编程入口（sparkcontext/sparksession）主节点复制资源管理调度和任务分配从节点执行计算任务（多个计算任务：每个计算任务会分
docker搭建hadoop hdfs完全分布式集群 shangcunshanfu hadoop docker big data
1制作hadoop镜像参见https://www.cnblogs.com/rmxd/p/12051866.html该博客中只参考制作镜像部分，固定IP及启动集群的部分应该跳过。这里注意，在做好的镜像里，要安装which工具，否则在执行hdfs命令时会报命令不存在异常。yuminstallwhich-y2启动容器dockerrun--namehmaster--hostnamehmaster--net
Hadoop手把手逐级搭建第二阶段: Hadoop完全分布式(full) 郑大能
前置步骤:1).第一阶段：Hadoop单机伪分布(single)0.步骤概述1).克隆4台虚拟机2).为完全分布式配置ssh免密3).将hadoop配置修改为完全分布式4).启动完全分布式集群5).在完全分布式集群上测试wordcount程序1.克隆4台虚拟机1.1使用hadoop0克隆4台虚拟机hadoop1,hadoop2,hadoop3,hadoop41.1.0克隆虚拟机hadoop11.1
2018-11-16 hadoop3.1完全分布式部署 Albert陈凯
Hadoop3.1.0完全分布式集群部署，三台服务器部署结构如下github配置文件源码地址Pdsh使用方法http://kumu-linux.github.io/blog/2013/06/19/pdsh/http://blog.51cto.com/ixdba/1550184
Git学习星石传说其它 git 学习 elasticsearch
Git学习文章目录前言一、Git是什么二、安装三、工作流程总结前言一、Git是什么Git是一个开源的分布式版本控制系统，用于敏捷高效地处理任何或小或大的项目。特点：速度简单的设计对非线性开发模式的强力支持（允许上千个并行开发的分支）完全分布式有能力高效管理类似Linux内核一样的超大规模项目（速度和数据量）二、安装Git各平台安装包下载地址为：http://git-scm.com/download
Hadoop搭建（完全分布式）莫噶搭建分布式 hadoop 大数据
节点分布：bigdata-masterbigdata-slave1bigdata-salve2NameNodeNodeManagerNodeManagerSecondaryNameNodeDataNodeDataNodeResourceManagerNodeManagerDataNode目录一、jdk安装：二、hadoop安装一、jdk安装：jdk-8u212链接：https://pan.baid
Hadoop | 集群配置（一）使用Shell脚本解决完全分布式集群节点之间的文件传输问题 | scp命令 | rsync命令「已注销」 #大数据原理与应用 hadoop 分布式 linux
文章目录参考资料一、前言二、rsync远程同步工具三、使用shell编写分发脚本四、总结参考资料视频链接Linuxscp命令一、前言在Hadoop完全分布式集群环境下，里面的各个节点都是通过SSH免密登陆连接的，比如现有三台集群节点，分别是hadoop101、hadoop102、hadoo103。hadoop101节点可以通过ssh命令连接到hadoop102，即：sshhadoop102那么，除
6.Linux虚拟机下的Hadoop集群搭建之完全分布式配置学习BigData 关于Hadoop的学习笔记 hadoop 分布式 linux
Hadoop及相关组件搭建指导WeChat：h19396218469hadoop-3.1.3jdk-8u162-linux-x64本案例软件包：链接：https://pan.baidu.com/s/1ighxbTNAWqobGpsX0qkD8w提取码：lkjh（若链接失效在下面评论，我会及时更新）一、配置Hadoop集群主节点1.进入目标文件夹。cd/usr/local/hadoop/etc/ha
Flink1.18.0集成Yarn-session模式部署 china-zhz flink yarn hadoop 大数据
上次部署了Hadoop集群Hadoop3.3.6（HDFS、YARN、MapReduce）完全分布式集群安装搭建这次集成下flinkYARN上部署的过程是：客户端把Flink应用提交给Yarn的ResourceManager,Yarn的ResourceManager会向Yarn的NodeManager申请容器。在这些容器上，Flink会部署JobManager和TaskManager的实例，从而启
Hadoop3.3.6（HDFS、YARN、MapReduce）完全分布式集群安装搭建 china-zhz hdfs mapreduce hadoop yarn
目录一、节点部署角色目录二、下载软件三、基础设施1、安装必要插件2、设置IP及主机名3、时间同步4、jdk安装5、ssh免密登录四、Hadoop部署1、目录及环境变量准备2、安装3、修改配置文件4、分发文件5、启动hadoop集群6、集群部署验证一、节点部署角色目录节点ipNNSNNDNRMNMHSnode1192.168.88.11√√node2192.168.88.12√√√√node3192
[绝对要收藏]配置hadoop完全分布式环境 Java小白中的菜鸟 centos7 hadoop 分布式 hdfs
##环境：hadoop-2.7.2，jdk1.8.0_144，CentOS-7-x86_64-Minimal-2009.iso1先创建一个主机2修改id，hostname，hosts3关闭防火墙4连接xshell5在opt下创建en和software包并将java导入到software包中6解压java到en下7配置/etc/profile将java的环境加入进去8让文件生效并检测java环境是否
用户行为数据采集日月交辉数仓DW hive 大数据
Flume——Hadoop——VMVM环境准备安装JDK安装HadoopHadoop运行模式本地模式伪分布式完全分布式集群启动组件逐一启动。模块启动
Spark完全分布式集群下的Hive的安装和配置-安装步骤 Deng872347348 Hadoop Hive hive 大数据
Spark完全分布式集群下的Hive的安装和配置-安装步骤：文章目录Spark完全分布式集群下的Hive的安装和配置-安装步骤：2.安装MySQL数据库3.配置MySQL相关5.设置环境变量6.修改hive配置文件7.上传MySQL连接驱动8.初始化元数据9.启动HiveSparkSQL操作Hive数据库2.安装MySQL数据库安装mysql先检查系统是否装有mysqlrpm-qa|grepmys
Hadoop3完全分布式搭建三木一立大数据分布式 php 开发语言
一、第一台的操作搭建修改主机名使用hostnamectlset-hostname修改当前主机名关闭防火墙和SELlinux1，使用systemctlstopfirewalldsystemctldisablefirewalld关闭防火墙2，使用vim/etc/selinux/config修改为SELINUX=disabled使用NAT模式配置静态IP1，修改网络配置vim/etc/sysconfig
linux 部署Hadoop完全分布式集群教程 qq_61247494 hadoop 分布式 linux
一、准备工作1、本次任务需要三台虚拟机，主机名分别为Master、Slave01、Slave02先在Master上安装好jdk和Hadoop（安装教程可以参考这两篇文章）然后为了简便我们直接克隆两台Master来配置成为Slave01、Slave02；2、把克隆的虚拟机名字改为Slave01、Slave02二、配置IP与密钥1、分别在三台虚拟机上的root下输入命令vi/etc/sysconfig
HBase集群部署 Golden life hbase 数据库大数据
前提条件安装hbse的前提条件是jdk已经搭建完成，虚拟机具有Hadoop伪分布式或完全分布式的集群搭建，以及zookeeper环境搭建完成。HBase安装在虚拟机上上传已经下载好的HBase安装包(官网下载需要的版本，我这里是2.2.3)，使用finalshell上传至虚拟机的目录下，我这里是/opt/software文件夹下使用tar命令参数：-xvzf解压时注意压缩包的名字及指定目录自己要记
MARL——多智能体强化学习特点与架构总结 LENG_Lingliang Python与强化学习架构学习
1.特点概述1）多智能体系统中，每个agent未必能观测到所有的状态信息，此时智能体i得到的观测oio^{i}oi通常不等于状态SSS。2）智能体动作选择互相影响。3）需要通信机制。2.3种框架完全分布式这种算法框架和单智能体强化学习一样，每个个体都根据自身观测进行训练学习。个体之间没有交流。这种效果通常不好，因为没有考虑智能体动作选择互相影响的关系。集中式训练，集中式执行（完全集中式）存在一种中
Zookeeper+Hadoop+Spark+Flink+Kafka+Hbase+Hive nsa65223 hadoop zookeeper spark
说明Zookeeper+Hadoop+Spark+Flink+Kafka+Hbase+Hive完全分布式高可用集群搭建下载https://archive.apache.org/dist/我最终选择Zookeeper3.7.1+Hadoop3.3.5+Spark-3.2.4+Flink-1.16.1+Kafka2.12-3.4.0+HBase2.4.17+Hive3.1.3+JDK1.8.0_391
Spark完全分布式集群搭建小猪Harry
环境准备服务器集群我用的CentOS-6.6版本的4个虚拟机，主机名为hadoop01、hadoop02、hadoop03、hadoop04，另外我会使用hadoop用户搭建集群(生产环境中root用户不是可以任意使用的)spark安装包下载地址：https://mirrors.aliyun.com/apache/spark/我用的spark-2.2.0-bin-hadoop2.7.tgz要根据自
[Introducing Ethereum and Solidity]以太坊和solidity介绍----第一章-连接区块链知识的断点智能合约学习记录区块链以太坊 Solidity 智能合约
1连接区块链知识的断点为高速发展的区块链世界的欢呼是具有挑战的。这本书将会是你的指引。在开始之前，让我们定义一下之后将要用到的一些术语。“区块链”是一种完全分布式的，点对点的软件网络，这个软件网络利用加密学来安全地群集应用软件，储存数据，简单地传输用于代表真实世界金钱的数字化工具。加密学是一个通过编码信息来进行的交流艺术。在比特币和以太坊中，加密学是用来给成千上万个相似的机器创造出来一种安全运算环
2024任务驱动Hadoop应用讲课提纲 howard2005 Hadoop分布式入门 hadoop 大数据分布式
文章目录为何采用任务驱动？任务驱动Hadoop应用课程概述项目一：搭建Hadoop集群任务1：搭建完全分布式Hadoop集群1.思路解析2.编程实现3.知识点讲解4.总结提高任务2：搭建高可用Hadoop集群（HA模式）1.思路解析2.编程实现3.知识点讲解4.总结提高项目二：HDFS操作实践任务1：使用HDFSShell命令行操作1.思路解析2.编程实现3.知识点讲解4.总结提高任务2：通过Ja
面向对象面向过程 3213213333332132 java
面向对象：把要完成的一件事，通过对象间的协作实现。面向过程：把要完成的一件事，通过循序依次调用各个模块实现。我把大象装进冰箱这件事为例，用面向对象和面向过程实现，都是用java代码完成。 1、面向对象 package bigDemo.ObjectOriented; /** * 大象类 * * @Description * @author FuJian
Java Hotspot: Remove the Permanent Generation bookjovi HotSpot
openjdk上关于hotspot将移除永久带的描述非常详细，http://openjdk.java.net/jeps/122 JEP 122: Remove the Permanent Generation Author Jon Masamitsu Organization Oracle Created 2010/8/15 Updated 2011/
正则表达式向前查找向后查找,环绕或零宽断言 dcj3sjt126com 正则表达式
向前查找和向后查找 1. 向前查找：根据要匹配的字符序列后面存在一个特定的字符序列(肯定式向前查找)或不存在一个特定的序列(否定式向前查找)来决定是否匹配。.NET将向前查找称之为零宽度向前查找断言。对于向前查找，出现在指定项之后的字符序列不会被正则表达式引擎返回。 2. 向后查找：一个要匹配的字符序列前面有或者没有指定的
BaseDao 171815164 seda
import java.sql.Connection; import java.sql.DriverManager; import java.sql.SQLException; import java.sql.PreparedStatement; import java.sql.ResultSet; public class BaseDao { public Conn
Ant标签详解--Java命令 g21121 Java命令
这一篇主要介绍与java相关标签的使用终于开始重头戏了，Java部分是我们关注的重点也是项目中用处最多的部分。 1
[简单]代码片段_电梯数字排列 53873039oycg 代码
今天看电梯数字排列是9 18 26这样呈倒N排列的,写了个类似的打印例子，如下: import java.util.Arrays; public class 电梯数字排列_S3_Test { public static void main(S
Hessian原理云端月影 hessian原理
Hessian 原理分析一．远程通讯协议的基本原理网络通信需要做的就是将流从一台计算机传输到另外一台计算机，基于传输协议和网络 IO 来实现，其中传输协议比较出名的有 http 、 tcp 、 udp 等等， http 、 tcp 、 udp 都是在基于 Socket 概念上为某类应用场景而扩展出的传输协
区分Activity的四种加载模式----以及Intent的setFlags aijuans android
在多Activity开发中，有可能是自己应用之间的Activity跳转，或者夹带其他应用的可复用Activity。可能会希望跳转到原来某个Activity实例，而不是产生大量重复的Activity。这需要为Activity配置特定的加载模式，而不是使用默认的加载模式。加载模式分类及在哪里配置 Activity有四种加载模式： standard singleTop
hibernate几个核心API及其查询分析 antonyup_2006 html .net Hibernate xml 配置管理
(一) org.hibernate.cfg.Configuration类读取配置文件并创建唯一的SessionFactory对象.(一般,程序初始化hibernate时创建.) Configuration co
PL/SQL的流程控制百合不是茶 oracle PL/SQL编程循环控制
PL/SQL也是一门高级语言,所以流程控制是必须要有的,oracle数据库的pl/sql比sqlserver数据库要难,很多pl/sql中有的sqlserver里面没有流程控制; 分支语句 if 条件 then 结果 else 结果 end if ; 条件语句 case when 条件 then 结果; 循环语句 loop
强大的Mockito测试框架 bijian1013 mockito 单元测试
一.自动生成Mock类在需要Mock的属性上标记@Mock注解，然后@RunWith中配置Mockito的TestRunner或者在setUp()方法中显示调用MockitoAnnotations.initMocks(this);生成Mock类即可。二.自动注入Mock类到被测试类 &nbs
精通Oracle10编程SQL(11)开发子程序 bijian1013 oracle 数据库 plsql
/* *开发子程序 */ --子程序目是指被命名的PL/SQL块，这种块可以带有参数，可以在不同应用程序中多次调用 --PL/SQL有两种类型的子程序：过程和函数 --开发过程 --建立过程：不带任何参数 CREATE OR REPLACE PROCEDURE out_time IS BEGIN DBMS_OUTPUT.put_line(systimestamp); E
【EhCache一】EhCache版Hello World bit1129 Hello world
本篇是EhCache系列的第一篇，总体介绍使用EhCache缓存进行CRUD的API的基本使用，更细节的内容包括EhCache源代码和设计、实现原理在接下来的文章中进行介绍环境准备 1.新建Maven项目 2.添加EhCache的Maven依赖 <dependency> <groupId>ne
学习EJB3基础知识笔记白糖_ bean Hibernate jboss webservice ejb
最近项目进入系统测试阶段，全赖袁大虾领导有力，保持一周零bug记录，这也让自己腾出不少时间补充知识。花了两天时间把“传智播客EJB3.0”看完了，EJB基本的知识也有些了解，在这记录下EJB的部分知识，以供自己以后复习使用。 EJB是sun的服务器端组件模型，最大的用处是部署分布式应用程序。EJB (Enterprise JavaBean)是J2EE的一部分，定义了一个用于开发基
angular.bootstrap boyitech AngularJS AngularJS API angular中文api
angular.bootstrap 描述：手动初始化angular。这个函数会自动检测创建的module有没有被加载多次，如果有则会在浏览器的控制台打出警告日志，并且不会再次加载。这样可以避免在程序运行过程中许多奇怪的问题发生。使用方法： angular .
java-谷歌面试题-给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数 bylijinnan java
public class SearchInShiftedArray { /** * 题目：给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数。 * 请在这个特殊数组中找出给定的整数。 * 解答： * 其实就是“旋转数组”。旋转数组的最小元素见http://bylijinnan.iteye.com/bl
天使还是魔鬼？都是我们制造 ducklsl 生活教育情感
----------------------------剧透请原谅，有兴趣的朋友可以自己看看电影，互相讨论哦！！！从厦门回来的动车上，无意中瞟到了书中推荐的几部关于儿童的电影。当然，这几部电影可能会另大家失望，并不是类似小鬼当家的电影，而是关于“坏小孩”的电影！自己挑了两部先看了看，但是发现看完之后，心里久久不能平
[机器智能与生物]研究生物智能的问题 comsci 生物
我想,人的神经网络和苍蝇的神经网络,并没有本质的区别...就是大规模拓扑系统和中小规模拓扑分析的区别.... 但是,如果去研究活体人类的神经网络和脑系统,可能会受到一些法律和道德方面的限制,而且研究结果也不一定可靠,那么希望从事生物神经网络研究的朋友,不如把
获取Android Device的信息 dai_lm android
String phoneInfo = "PRODUCT: " + android.os.Build.PRODUCT; phoneInfo += ", CPU_ABI: " + android.os.Build.CPU_ABI; phoneInfo += ", TAGS: " + android.os.Build.TAGS; ph
最佳字符串匹配算法（Damerau-Levenshtein距离算法）的Java实现 datamachine java 算法字符串匹配
原文：http://www.javacodegeeks.com/2013/11/java-implementation-of-optimal-string-alignment.html------------------------------------------------------------------------------------------------------------
小学5年级英语单词背诵第一课 dcj3sjt126com english word
long 长的 show 给...看，出示 mouth 口，嘴 write 写 use 用，使用 take 拿，带来 hand 手 clever 聪明的 often 经常 wash 洗 slow 慢的 house 房子 water 水 clean 清洁的 supper 晚餐 out 在外 face 脸，
macvim的使用实战 dcj3sjt126com mac vim
macvim用的是mac里面的vim, 只不过是一个GUI的APP, 相当于一个壳 1. 下载macvim https://code.google.com/p/macvim/ 2. 了解macvim :h vim的使用帮助信息 :h macvim
java二分法查找蕃薯耀 java二分法查找二分法 java二分法
java二分法查找 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 11:40:03 星期二 http:/
Spring Cache注解+Memcached hanqunfeng spring memcached
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>com.google.code.simple-spring-memcached</groupId> <artifactId>simple-s
apache commons io包快速入门 jackyrong apache commons
原文参考 http://www.javacodegeeks.com/2014/10/apache-commons-io-tutorial.html Apache Commons IO 包绝对是好东西，地址在http://commons.apache.org/proper/commons-io/，下面用例子分别介绍： 1）工具类 2
如何学习编程 lampcy java 编程 C++c
首先,我想说一下学习思想.学编程其实跟网络游戏有着类似的效果.开始的时候,你会对那些代码,函数等产生很大的兴趣,尤其是刚接触编程的人,刚学习第一种语言的人.可是,当你一步步深入的时候,你会发现你没有了以前那种斗志.就好象你在玩韩国泡菜网游似的,玩到一定程度,每天就是练级练级,完全是一个想冲到高级别的意志力在支持着你.而学编程就更难了,学了两个月后,总是觉得你好象全都学会了,却又什么都做不了,又没有
架构师之spring-----spring3.0新特性的bean加载控制@DependsOn和@Lazy nannan408 Spring3
1.前言。如题。 2.描述。 @DependsOn用于强制初始化其他Bean。可以修饰Bean类或方法，使用该Annotation时可以指定一个字符串数组作为参数，每个数组元素对应于一个强制初始化的Bean。 @DependsOn({"steelAxe","abc"}) @Comp
Spring4+quartz2的配置和代码方式调度 Everyday都不同代码配置 spring4 quartz2.x 定时任务
前言：这些天简直被quartz虐哭。。因为quartz 2.x版本相比quartz1.x版本的API改动太多，所以，只好自己去查阅底层API…… quartz定时任务必须搞清楚几个概念： JobDetail——处理类 Trigger——触发器，指定触发时间，必须要有JobDetail属性，即触发对象 Scheduler——调度器，组织处理类和触发器，配置方式一般只需指定触发
Hibernate入门 tntxia Hibernate
前言使用面向对象的语言和关系型的数据库，开发起来很繁琐，费时。由于现在流行的数据库都不面向对象。Hibernate 是一个Java的ORM（Object/Relational Mapping）解决方案。 Hibernte不仅关心把Java对象对应到数据库的表中，而且提供了请求和检索的方法。简化了手工进行JDBC操作的流程。如
Math类 xiaoxing598 Math
一、Java中的数字（Math）类是final类，不可继承。 1、常数 PI：double圆周率 E：double自然对数 2、截取（注意方法的返回类型） double ceil(double d) 返回不小于d的最小整数 double floor(double d) 返回不大于d的整最大数 int round(float f) 返回四舍五入后的整数 long round

Hadoop HA 原理及HA 高可用集群搭建

一、前期准备

二、HA 概述

三、原理

四、HA 集群搭建

4.1 HA集群搭建规划

4.2 Hadoop HA集群搭建

五、web端访问查询

你可能感兴趣的:(完全分布式)