LIUXUN1993728

Hadoop详解(五)——ZooKeeper详解，ZooKeeper伪分布搭建和集群搭建，Hadoop集群搭建，sqoop工具的使用

ZooKeeper简介

什么是ZooKeeper？

ZooKeeper是Google的Chubby一个开源的实现，是Hadoop分布式协调服务。

它包含了一个简单的原语集，分布式应用程序可以基于它实现同步服务，配置维护和命令服务等。

它的结构图如下：

Hadoop详解(五)——ZooKeeper详解，ZooKeeper伪分布搭建和集群搭建，Hadoop集群搭建，sqoop工具的使用_第1张图片

ZooKeeper集群搭建的要求：必须要有奇数台。如果想让ZooKeeper既具有高效性，又能正常工作，只要需要3台的ZooKeeper集群。ZooKeeper允许一般以上的机器不宕机，就能正常启动ZooKeeper服务。(3台ZooKeeper集群允许1台服务器宕机，5台集群允许2台，7台集群允许3台）ZooKeeper集群的数量不需要很大，最大的7台集群的ZooKeeper足够

为什么使用ZooKeeper？

大部分分布式应用需要一个主控、协调器或控制器来管理物理分布的子进程(如资源，任务分配等)。

目前大部分应用需要开发私有的协调程序，缺乏一个通用的机制。

协调程序的反复编写造成很大浪费，且难以形成通用、伸缩性好的协调器。

ZooKeeper：提供通用的分布式锁服务，用以协调分布式应用。

ZooKeeper能做哪些工作？

Hadoop2.0以后，使用ZooKeeper的事件处理可以确保整个集群只有一个活跃的NameNode，存储配置信息等。

HBASE，使用ZooKeeper的事件处理确保整个集群中只有一个活跃的HMaster，觉察HRegionServer联机和宕机，存储访问控制列表。

ZooKeeper特性

ZooKeeper特性：

① 简单

② 富有表现力

③ 具有高可用性

④ 采用松耦合的交互方式

⑤ ZooKeeper是一个资源库

ZooKeeper的数据模型

① 层次化的目录结构，命名符合常规文件系统规范。

② 每个节点在ZooKeeper中叫做znode，并且有一个唯一的路径标识。

③ 节点Znode可以包含数据和子节点，但是EPHEMERAL (中文翻译为短暂的)类型的节点不能有子节点。

④ Znode 中的数据可以有多个版本，比如某一路径下存有多个数据版本，那么查询这个路径下的数据就需要带上版本。

⑤ 客户端应用可以在节点上设置监视器。

⑥ 节点不支持部分读写，而是一次性完整读写。

注意：znode可以被监控，包括这个目录节点中存储的数据的修改，子节点目录的变化等，一旦变化可以通知设置监控的客户端，这个功能是ZooKeeper对于应用最重要的特性，通过这个特性可以实现的功能包括配置的集中管理，集群管理，分布式锁等等。

ZooKeeper的节点

① Znode有两种类型，短暂的(ephemeral)和持久的(persistent)。

② Znode的类型在创建时确定并且之后不能再修改。

③ 短暂Znode的客户端会话结束时，ZooKeeper会将短暂znode删除，短暂znode不可以有子节点。

④ 持久znode不依赖于客户端会话，只有当客户端明确要删除该持久znode时才会被删除。

⑤ Znode有四种形式的目录节点，PERSISTENT、PERSISTENT_SEQUENTIAL、EPHEMERAL、EPHEMERAL_SEQUENTIAL

注意：PERSISTENT-持久化节点：创建这个节点的客户端在与zookeeper服务的连接断开后，这个节点也不会被删除（除非您使用API强制删除）。PERSISTENT_SEQUENTIAL-持久化顺序编号节点：当客户端请求创建这个节点A后，zookeeper会根据parent-znode的zxid状态，为这个A节点编写一个全目录唯一的编号（这个编号只会一直增长）。当客户端与zookeeper服务的连接断开后，这个节点也不会被删除。EPHEMERAL-临时目录节点：创建这个节点的客户端在与zookeeper服务的连接断开后，这个节点（还有涉及到的子节点）就会被删除。EPHEMERAL_SEQUENTIAL-临时顺序编号目录节点：当客户端请求创建这个节点A后，zookeeper会根据parent-znode的zxid状态，为这个A节点编写一个全目录唯一的编号（这个编号只会一直增长）。当创建这个节点的客户端与zookeeper服务的连接断开后，这个节点被删除。另外，无论是EPHEMERAL还是EPHEMERAL_SEQUENTIAL节点类型，在zookeeper的client异常终止后，节点也会被删除。

ZooKeeper的角色

① 领导者(Leader) ，负责进行投票的发起和决议，更新系统状态。

② 学习者（learned），包括跟随者（follower）和观察者（observer），follower用于接收客户端请求并向客户端返回结果，在选主过程中参与投票。

③ Observer可以接受客户端连接，将写请求转发给Leader，但是Observer不参与投票过程，只同步Leader的状态，Observer的目的是为了扩展系统，提高读取速度。

④ 客户端（Client），请求发起方。

ZooKeeper的顺序号

① 创建znode时设置顺序标识，znode名称后会附加一个值。

② 顺序号是一个单调递增的计数器，由父节点维护。

③ 在分布式系统中，顺序号可以被用于为所有的事件进行全局排序，这样客户端可以通过顺序号推断事件的顺序。

ZooKeeper的读写机制

① ZooKeeper是一个由多个Server组成的集群。

② 一个Leader，多个Follower。

③ 每个Server保存一份数据副本。

④ 全局数据一致。

⑤ 分布式读写。

⑥ 更新请求转发由Leader实施。

ZooKeeper的保证

① 更新请求顺序进行，来自同一个Client的更新请求按照其发送顺序依次执行。

② 数据更新原子性，一次数据更新要么成功，要么失败。

③ 全局唯一数据视图，Client无论连接到哪个Server，数据视图都是一致的。

④ 实时性，在一定的事件范围内，Client能读到最新的数据。

ZooKeeper的API接口

① String create(String path, byte[] data, List acl, CreateMode createMode)

创建一个指定的目录节点path，并给它设置数据；
② Stat exists(String path, boolean watch)

判断某个path是否存在，并设置是否监控这个目录节点，这里的watcher是在创建ZooKeeper实例时指定的watcher，exists方法还有一个重载方法，可以指定特定的watcher；
③ void delete(String path, int version)

删除path对应的目录节点，version为-1可以匹配任何版本，也就删除了这个目录的所有数据;
④ List getChildren(String path, boolean watch)

获取指定path下的所有子目录节点。watch表示是否使用初始时的watcher监控子目录。
⑤ List getChildren(String path, Watcher watcher)
同样getChildren方法也有一个重载订单可以设置特定的watcher来监控子节点状态。

⑥ Stat setData(String path, byte[] data, int version)

为path设置数据，可以指定这个数据的版本号，如果version为-1 可以匹配任何版本。
⑦ byte[] getData(String path, boolean watch, Stat stat)

获取这个path对应的目录节点存储的数据，数据的版本信息可以通过stat指定，同时还可以设置是否监控这个目录节点数据的状态；
⑧ void addAuthInfo(String scheme, byte[] auth)

客户端将自己的授权信息提交给服务器，服务器根据这个授权信息验证客户端的访问权限。
⑨ Stat setACL(String path, List acl, int version)

给某个目录节点重新设置访问权限，需要注意的是 Zookeeper 中的目录节点权限不具有传递性，父目录节点的权限不能传递给子目录节点。目录节点 ACL 由两部分组成：perms 和 id。Perms 有 ALL、READ、WRITE、CREATE、DELETE、ADMIN 几种而 id 标识了访问目录节点的身份列表，默认情况下有以下两种：ANYONE_ID_UNSAFE = new Id(“world”, “anyone”) 和 AUTH_IDS = new Id(“auth”, “”) 分别表示任何人都可以访问和创建者拥有访问权限；
⑩ List getACL(String path, Stat stat)
获取某个目录节点的访问权限列表

Watcher

① Watcher在ZooKeeper是一个核心功能，watcher可以监控目录节点的数据变化以及子目录的变化，一旦这些状态发生变化，服务器就会通知所有设置在这个目录节点上的Watcher，从而每个客户端都很快知道它所关注的目录节点的状态发生变化，而做出相应的反向。

② 可以设置观察的操作：exists、getChildren，getData

③ 可以触发观察的操作：create、delete、setData

注意：znode以某种方式发生变化时，“观察”（watch）机制可以让客户端得到通知。可以针对ZooKeeper服务的“操作”来设置观察，该服务的其他操作可以触发观察。比如，客户端可以对某个客户端调用exists操作，同时在它上面设置一个观察，如果此时这个znode不存在，则exists返回 false，如果一段时间之后，这个znode被其他客户端创建，则这个观察会被触发，之前的那个客户端就会得到通知。

(1) 写操作与ZooKeeper内部事件之间的对应关系

Hadoop详解(五)——ZooKeeper详解，ZooKeeper伪分布搭建和集群搭建，Hadoop集群搭建，sqoop工具的使用_第2张图片

(2) ZooKeeper内部事件与watcher的对应关系

Hadoop详解(五)——ZooKeeper详解，ZooKeeper伪分布搭建和集群搭建，Hadoop集群搭建，sqoop工具的使用_第3张图片

(3) 写操作与watcher的对应关系

Hadoop详解(五)——ZooKeeper详解，ZooKeeper伪分布搭建和集群搭建，Hadoop集群搭建，sqoop工具的使用_第4张图片

NodeCreated：节点创建事件。

NodeDeleted：节点被删除事件。

NodeDataChanged：节点数据改变事件。

NodeChildrenChanged：节点的子节点改变事件。

(4) 每个znode被创建时都会带有一个ACL列表，用于决定谁可以对它执行何种操作。

Hadoop详解(五)——ZooKeeper详解，ZooKeeper伪分布搭建和集群搭建，Hadoop集群搭建，sqoop工具的使用_第5张图片

ACL

身份验证模式有三种：
① digest:用户名，密码
② host:通过客户端的主机名来识别客户端
③ ip：通过客户端的ip来识别客户端
new ACL(Perms.READ,new Id("host","example.com"));
这个ACL对应的身份验证模式是host，符合该模式的身份是example.com，权限的组合是：READ

(每个ACL都是身份验证模式、符合该模式的一个身份和一组权限的组合)

Znode的节点状态

Hadoop详解(五)——ZooKeeper详解，ZooKeeper伪分布搭建和集群搭建，Hadoop集群搭建，sqoop工具的使用_第6张图片

ZooKeeper工作原理

① ZooKeeper的核心是原子广播，这个机制保证了各个Server之间的同步。实现这个机制的协议叫做Zab协议。Zab协议有两种模式，它们分别是恢复模式和广播模式。当服务器启动或者领导者崩溃后，Zab就进入了恢复模式，当领导者被选举出来，且大多数Server完成了和Leader的状态同步以后，恢复模式就结束了。状态同步保证了Leader和Server具有相同的系统状态。

② 一旦leader已经和多数的follower进行了状态同步后，他就可以开始广播消息了，即进入广播状态。这时候当一个server加入zookeeper服务中，它会在恢复模式下启动，发现leader，并和leader进行状态同步。待到同步结束，它也参与消息广播。Zookeeper服务一直维持在Broadcast状态，直到leader崩溃了或者leader失去了大部分的followers支持。

③ 广播模式需要保证proposal被按顺序处理，因此zk采用了递增的事务id号(zxid)来保证。所有的提议(proposal)都在被提出的时候加上了zxid。实现中zxid是一个64为的数字，它高32位是epoch用来标识leader关系是否改变，每次一个leader被选出来，它都会有一个新的epoch。低32位是个递增计数。
④ 当leader崩溃或者leader失去大多数的follower，这时候zk进入恢复模式，恢复模式需要重新选举出一个新的leader，让所有的server都恢复到一个正确的状态。

Leader选举

① 每个Server启动以后都询问其它的Server它要投票给谁。
② 对于其他server的询问，server每次根据自己的状态都回复自己推荐的leader的id和上一次处理事务的zxid（系统启动时每个server都会推荐自己）
③ 收到所有Server回复以后，就计算出zxid最大的哪个Server，并将这个Server相关信息设置成下一次要投票的Server。
④ 计算这过程中获得票数最多的的sever为获胜者，如果获胜者的票数超过半数，则改server被选为leader。否则，继续这个过程，直到leader被选举出来。
⑤ leader就会开始等待server连接
⑥ Follower连接leader，将最大的zxid发送给leader
⑦ Leader根据follower的zxid确定同步点
⑧ 完成同步后通知follower 已经成为uptodate状态
⑨ Follower收到uptodate消息后，又可以重新接受client的请求进行服务了

选举的过程，zk的实现中用了基于paxos算法（主要是fastpaxos）的实现。具体如下；此外恢复模式下，如果是重新刚从崩溃状态恢复的或者刚启动的的server还会从磁盘快照中恢复数据和会话信息。（zk会记录事务日志并定期进行快照，方便在恢复时进行状态恢复）

Hadoop详解(五)——ZooKeeper详解，ZooKeeper伪分布搭建和集群搭建，Hadoop集群搭建，sqoop工具的使用_第7张图片

Observing: 观察状态，这时候observer会观察leader是否有改变，然后同步leader的状态；Following: 跟随状态，接收leader的proposal ，进行投票。并和leader进行状态同步

Hadoop详解(五)——ZooKeeper详解，ZooKeeper伪分布搭建和集群搭建，Hadoop集群搭建，sqoop工具的使用_第8张图片

ZooKeeper应用场景

场景一：统一命名服务

① 分布式应用中，通常需要有一套完整的命名规则，既能够产生唯一的名称又便于人识别和记住，通常情况下用树形的名称结构是一个理想的选择，树形的名称结构是一个有层次的目录结构，既对人友好又不会重复。
② Name Service 是 Zookeeper 内置的功能，只要调用 Zookeeper 的 API 就能实现

场景二：配置管理

① 配置的管理在分布式应用环境中很常见，例如同一个应用系统需要多台 PC Server 运行，但是它们运行的应用系统的某些配置项是相同的，如果要修改这些相同的配置项，那么就必须同时修改每台运行这个应用系统的 PC Server，这样非常麻烦而且容易出错。
② 将配置信息保存在 Zookeeper 的某个目录节点中，然后将所有需要修改的应用机器监控配置信息的状态，一旦配置信息发生变化，每台应用机器就会收到 Zookeeper 的通知，然后从 Zookeeper 获取新的配置信息应用到系统中。
举例：Zookeeper很容易实现这种集中式的配置管理，比如将APP1的所有配置配置到/APP1 znode下，APP1所有机器一启动就对/APP1这个节点进行监控(zk.exist(“/APP1″,true)),并且实现回调方法 Watcher，那么在zookeeper上/APP1 znode节点下数据发生变化的时候，每个机器都会收到通知，Watcher方法将会被执行，那么应用再取下数据即可 (zk.getData(“/APP1″,false,null));

Hadoop详解(五)——ZooKeeper详解，ZooKeeper伪分布搭建和集群搭建，Hadoop集群搭建，sqoop工具的使用_第9张图片

场景三：集群管理

① Zookeeper 能够很容易的实现集群管理的功能，如有多台 Server 组成一个服务集群，那么必须要一个“总管”知道当前集群中每台机器的服务状态，一旦有机器不能提供服务，集群中其它集群必须知道，从而做出调整重新分配服务策略。同样当增加集群的服务能力时，就会增加一台或多台 Server，同样也必须让“总管”知道。
② Zookeeper 不仅能够维护当前的集群中机器的服务状态，而且能够选出一个“总管”，让这个总管来管理集群，这就是 Zookeeper 的另一个功能 Leader Election。

③ 规定编号最小的为master,所以当我们对SERVERS节点做监控的时候，得到服务器列表，只要所有集群机器逻辑认为最小编号节点为master，那么master就被选出，而这个master宕机的时候，相应的znode会消失，然后新的服务器列表就被推送到客户端，然后每个节点逻辑认为最小编号节点为master，这样就做到动态master选举。

举例：应用集群中，我们常常需要让每一个机器知道集群中（或依赖的其他某一个集群）哪些机器是活着的，并且在集群机器因为宕机，网络断链等原因能够不在人工介入的情况下迅速通知到每一个机器。Zookeeper同样很容易实现这个功能，比如我在zookeeper服务器端有一个znode叫/APP1SERVERS,那么集群中每一个机器启动的时候都去这个节点下创建一个EPHEMERAL类型的节点，比如server1创建/APP1SERVERS/SERVER1(可以使用ip,保证不重复)，server2创建/APP1SERVERS/SERVER2，然后SERVER1和SERVER2都watch /APP1SERVERS这个父节点，那么也就是这个父节点下数据或者子节点变化都会通知对该节点进行watch的客户端。因为EPHEMERAL类型节点有一个很重要的特性，就是客户端和服务器端连接断掉或者session过期就会使节点消失，那么在某一个机器挂掉或者断链的时候，其对应的节点就会消失，然后集群中所有对/APP1SERVERS进行watch的客户端都会收到通知，然后取得最新列表即可。

场景四：共享锁

共享锁在同一个进程中很容易实现，但是在跨进程或者在不同 Server 之间就不好实现了。Zookeeper 却很容易实现这个功能，实现方式也是需要获得锁的 Server 创建一个 EPHEMERAL_SEQUENTIAL 目录节点，然后调用 getChildren方法获取当前的目录节点列表中最小的目录节点是不是就是自己创建的目录节点，如果正是自己创建的，那么它就获得了这个锁，如果不是那么它就调用 exists(String path, boolean watch) 方法并监控 Zookeeper 上目录节点列表的变化，一直到自己创建的节点是列表中最小编号的目录节点，从而获得锁，释放锁很简单，只要删除前面它自己所创建的目录节点就行了。

Hadoop详解(五)——ZooKeeper详解，ZooKeeper伪分布搭建和集群搭建，Hadoop集群搭建，sqoop工具的使用_第10张图片

场景5：队列管理

① Zookeeper 可以处理两种类型的队列：当一个队列的成员都聚齐时，这个队列才可用，否则一直等待所有成员到达，这种是同步队列；队列按照 FIFO 方式进行入队和出队操作，例如实现生产者和消费者模型
② 创建一个父目录 /synchronizing，每个成员都监控目录 /synchronizing/start 是否存在，然后每个成员都加入这个队列（创建 /synchronizing/member_i 的临时目录节点），然后每个成员获取 / synchronizing 目录的所有目录节点，判断 i 的值是否已经是成员的个数，如果小于成员个数等待 /synchronizing/start 的出现，如果已经相等就创建 /synchronizing/start。

总结：Zookeeper 作为 Hadoop 项目中的一个子项目，是 Hadoop 集群管理的一个必不可少的模块，它主要用来控制集群中的数据，如它管理 Hadoop 集群中的 NameNode，还有 Hbase 中 Master Election、Server 之间状态同步等。

ZooKeeper的安装和配置

ZooKeeper的配置选项

zookeeper的默认配置文件为zookeeper/conf/zoo_sample.cfg，需要将其修改为zoo.cfg。其中各配置项的含义，解释如下：
① tickTime：CS通信心跳时间
Zookeeper 服务器之间或客户端与服务器之间维持心跳的时间间隔，也就是每个 tickTime 时间就会发送一个心跳。tickTime以毫秒为单位。
tickTime=2000
② initLimit：LF初始通信时限
集群中的follower服务器(F)与leader服务器(L)之间初始连接时能容忍的最多心跳数（tickTime的数量）。
initLimit=5
③ syncLimit：LF同步通信时限
集群中的follower服务器与leader服务器之间请求和应答之间能容忍的最多心跳数（tickTime的数量）。
syncLimit=2
④ dataDir：数据文件目录
Zookeeper保存数据的目录，默认情况下，Zookeeper将写数据的日志文件也保存在这个目录里。
dataDir=/home/michael/opt/zookeeper/data
⑤ clientPort：客户端连接端口
客户端连接 Zookeeper 服务器的端口，Zookeeper 会监听这个端口，接受客户端的访问请求。
clientPort=2181
⑥ 服务器名称与地址：集群信息（服务器编号，服务器地址，LF通信端口，选举端口）
这个配置项的书写格式比较特殊，规则如下：
server.N=YYY:A:B
server.1=hadoop4:2888:3888
server.2=hadoop5:2888:3888
server.3=hadoop6:2888:3888

配置说明：

initLimit：这个配置项是用来配置 Zookeeper 接受客户端（这里所说的客户端不是用户连接 Zookeeper 服务器的客户端，而是 Zookeeper 服务器集群中连接到 Leader 的 Follower 服务器）初始化连接时最长能忍受多少个心跳时间间隔数。当已经超过 10 个心跳的时间（也就是 tickTime）长度后 Zookeeper 服务器还没有收到客户端的返回信息，那么表明这个客户端连接失败。总的时间长度就是 5*2000=10 秒

syncLimit：这个配置项标识 Leader 与 Follower 之间发送消息，请求和应答时间长度，最长不能超过多少个 tickTime 的时间长度，总的时间长度就是 2*2000=4 秒

server.A=B：C：D 其中 A 是一个数字，表示这个是第几号服务器；B 是这个服务器的 ip 地址；C 表示的是这个服务器与集群中的 Leader 服务器交换信息的端口；D 表示的是万一集群中的 Leader 服务器挂了，需要一个端口来重新进行选举，选出一个新的 Leader，而这个端口就是用来执行选举时服务器相互通信的端口。如果是伪集群的配置方式，由于 B 都是一样，所以不同的 Zookeeper 实例通信端口号不能一样，所以要给它们分配不同的端口号。除了修改 zoo.cfg 配置文件，集群模式下还要配置一个文件 myid，这个文件在 dataDir 目录下，这个文件里面就有一个数据就是 A 的值，Zookeeper 启动时会读取这个文件，拿到里面的数据与 zoo.cfg 里面的配置信息比较从而判断到底是那个 server。分别在3台机器上启动ZooKeeper的Server：sh bin/zkServer.sh start；运行于一个集群上，适合生产环境，这个计算机集群被称为一个“集合体”（ensemble）

ZooKeeper单机模式安装

只运行在一台服务器上适用于测试环境。

① 下载ZooKeeper 地址：http://archive.apache.org/dist/zookeeper/zookeeper-3.4.5/zookeeper-3.4.5.tar.gz

② 解压到指定目录 tar zxvf zookeeper-3.4.3.tar.gz -C /cloud/

③ 在conf目录下创建一个配置文件zoo.cfg，

tickTime=2000

dataDir=/cloud/zookeeper/data

dataLogDir=/cloud/zookeeper/dataLog

clientPort=2181
启动ZooKeeper的Server：sh bin/zkServer.sh start, 如果想要关闭，输入：zkServer.sh stop

ZooKeeper集群模式安装

在dataDir目录中创建myid文件，server1机器的内容为：1，server2机器的内容为：2，server3机器的内容为：3
在conf目录下创建一个配置文件zoo.cfg，

tickTime=2000

dataDir=/cloud/zookeeper/data

dataLogDir=/cloud/zookeeper/dataLog

clientPort=2181

initLimit=5
syncLimit=2
server.1=server1:2888:3888
server.2=server2:2888:3888
server.3=server3:2888:3888

ZooKeeper伪集群安装

① 建立3个文件夹，server1 server2 server3，然后每个文件夹里面解压一个zookeeper的下载包
② 进入data目录，创建一个myid的文件，里面写入一个数字，server1,就写一个1，server2对应myid文件就写入2，server3对应myid文件就写个3
③ 在conf目录下创建一个配置文件zoo.cfg，
tickTime=2000

dataDir=/cloud/zookeeper/data

dataLogDir=/cloud/zookeeper/dataLog
clientPort=2181
initLimit=5
syncLimit=2
server.1=server1:2888:3888
server.2=server2:2888:3888
server.3=server3:2888:3888

注意事项：

在一台机器上部署了3个server；需要注意的是clientPort这个端口如果在1台机器上部署多个server,那么每台机器都要不同的clientPort，比如 server1是2181,server2是2182，server3是2183，dataDir和dataLogDir也需要区分下。

分别进入三个文件夹分别启动查看即可 ./bin/zkServer.sh status 查看当前节点的状态

ZooKeeper接口

package hadoop.zookeeper.test;

import java.io.IOException;

import org.apache.hadoop.ha.ClientBaseWithFixes;
import org.apache.zookeeper.CreateMode;
import org.apache.zookeeper.WatchedEvent;
import org.apache.zookeeper.Watcher;
import org.apache.zookeeper.ZooDefs.Ids;
import org.apache.zookeeper.ZooKeeper;

public class ZookeeperDemo {
	public static void main(String[] args) throws Exception {
		// 创建一个与服务器的连接
		ZooKeeper zk = new ZooKeeper("hadoop0:2181", ClientBaseWithFixes.CONNECTION_TIMEOUT, new Watcher() {
			// 监控所有触发的事情
			@Override
			public void process(WatchedEvent event) {
				System.out.println("已经触发了"+event.getType()+"事件!");
			}
		});
		// 创建一个目录节点
		zk.create("/testRootPath", "testRootData".getBytes(), Ids.OPEN_ACL_UNSAFE, CreateMode.PERSISTENT);
		// 创建一个子目录节点
		zk.create("/testRootPath/testChildPathOne", "testChildOneData".getBytes(), Ids.OPEN_ACL_UNSAFE, CreateMode.PERSISTENT);
		System.out.println(new String(zk.getData("/testRootPath", false, null)));
		// 取出子目录节点列表
		System.out.println(zk.getChildren("/testRootPath", true));
		// 修改子目录节点数据
		zk.setData("/testRootPath/testChildPathOne", "modifyChildOneData".getBytes(), -1);
		System.out.println("目录节点状态：["+zk.exists("/testRootPath", true)+"]");
		// 创建另外一个子目录节点
		zk.create("/testRootPath/testChildPathTwo", "testChildTwoData".getBytes(), Ids.OPEN_ACL_UNSAFE, CreateMode.PERSISTENT);
		System.out.println(new String(zk.getData("/testRootPath/testChildPathTwo", true, null)));
		// 删除子目录节点
		zk.delete("/testRootPath/testChildPathTwo", -1);
		zk.delete("/testRootPath/testChildPathOne", -1);
		// 删除父目录节点
		zk.delete("/testRootPath", -1);
		// 关闭连接
		zk.close();
		
	}
}

运行结果：

已经触发了None事件!
testRootData
[testChildPathOne]
目录节点状态：[4294967298,4294967298,1504285237971,1504285237971,0,1,0,0,12,1,4294967299
]
已经触发了NodeChildrenChanged事件!
testChildTwoData
已经触发了NodeDeleted事件!
已经触发了NodeDeleted事件!

运行时注意事项：

如果不导入测试包会导致异常java.lang.NoClassDefFoundError: org/apache/zookeeper/ZKTestCase

导入 zookeeper-x.x.x-test.jar即可

Hadoop高可靠性HD的原理

在Hadoop2.0之前NameNode只有一个。如果NameNode宕机了，整个集群就不可用了。在Hadoop2.0之后。对NameNode进行了一次抽象，将NameNode抽象成了一个NameService。一个NameService中有两个NameNode，有了两个NameNode共存，需要进行协调，否则在启动时它们的状态都是Active(主)或者standby(备)。这个协调工作就交给了ZooKeeper，ZooKeeper中有一个master-selection选举机制，它确保任何时候NameService中只有一个活跃的NameNode，当NameService中处于Active状态的NameNode宕机后，处于standby状态的备机NameNode会被自动切换成Active状态，保证NameNode永远处于正常的工作状态。

原理图如下：

如上图所示是两台NM（NameNode），主机和备机它们之间的协调依赖于ZooKeeper和ZKFC(ZKFailoverController)。每一个NameNode所在的机器节点都有一个ZKFC，ZKFC用于向NameNode发送指令来切换NameNode的状态，并对NameNode的状态进行监控，一旦NameNode程序挂掉了，ZKFC就和对应的NameNode失去了联系，就会将其信息发送给ZK (ZooKeeper)。ZK和ZKFC通讯依赖于心跳机制（即每隔一段时间ZKFC将它监控的NameNode信息发送给ZK）。由于ZooKeeper集群中每台信息是同步的，别的处于Follower状态的ZK（ZooKeeper中的节点）得到处于active状态的NameNode挂掉的信息，就会通过心跳机制和复负责监控NameNode备机的ZKFC进行通讯，处于Standby状态的ZKFC就会发送指令将它所监控的NameNode备机切换成active状态。
已知Hadoop1.0 中NameNode会不断的将元数据信息写入edits和fsimage文件中。在Hadoop2.0之后就不再使用这种方式。如上图所示，处于Active活跃状态的NameNode会实时的将eidts文件存入到专门存放edits文件的介质中（JournalNode，它依赖于ZooKeeper），处于standby状态的NameNode会实时的将介质中的数据同步下来，从而完成active状态的NameNode和standby状态的NameNode中数据的实时同步。
隔离机制：第一种是sshfence 当处于active状态的NM出现了问题但是此进程没有死掉，通过通讯，处于standby状态的NM得到了此信息，但是不能启动两个active状态的NM，standby状态的NM就会首先通过sshfence隔离机制发送命令kill掉出问题的active状态的NM，然后自己转为active状态。第二种就是shell(/bin/true) 隔离机制，在处于active状态的NM所在机器宕机后，同时与它在同一台机器的ZKFC也会死掉，当standby状态的NM发现长时间没有收到active状态的NM的信息，就会任务它已经宕机了，然后就会执行shell脚本，只要返回true，它就会切换为active状态。

Hadoop集群搭建

hadoop集群搭建根据版本的阶段分为三种安装方式

2.0之前 ——都是单节点

2.0以后2.4.1之前 ——NameNode 实现了NameService 主机和备机

2.4.1之后—— NameNode和ResourceManager均实现的主机和备机

Hadoop2.2.0集群搭建说明书

hadoop2.0已经发布了稳定版本了，增加了很多特性，比如HDFS HA、YARN等。
1.修改Linux主机名
2.修改IP
3.修改主机名和IP的映射关系
	######注意######如果公司是租用的服务器或是使用的云主机（如华为用主机、阿里云主机等）
	/etc/hosts里面要配置的是内网IP地址和主机名的映射关系	
4.关闭防火墙
5.ssh免登陆 
6.安装JDK，配置环境变量等

集群规划：
	主机名		IP				安装的软件					运行的进程
	hadoop1	192.168.0.10	jdk、hadoop					NameNode、DFSZKFailoverController
	hadoop2	192.168.0.20	jdk、hadoop					NameNode、DFSZKFailoverController
	hadoop3	192.168.0.30	jdk、hadoop					ResourceManager
	hadoop4	192.168.0.40	jdk、hadoop、zookeeper		DataNode、NodeManager、JournalNode、QuorumPeerMain
	hadoop5	192.168.0.50	jdk、hadoop、zookeeper		DataNode、NodeManager、JournalNode、QuorumPeerMain
	hadoop6	192.168.0.60	jdk、hadoop、zookeeper		DataNode、NodeManager、JournalNode、QuorumPeerMain
	
说明：
	在hadoop2.0中通常由两个NameNode组成，一个处于active状态，另一个处于standby状态。Active NameNode对外提供服务，而Standby NameNode则不对外提供服务，仅同步active namenode的状态，以便能够在它失败时快速进行切换。
	hadoop2.0官方提供了两种HDFS HA的解决方案，一种是NFS，另一种是QJM。这里我们使用简单的QJM。在该方案中，主备NameNode之间通过一组JournalNode同步元数据信息，一条数据只要成功写入多数JournalNode即认为写入成功。通常配置奇数个JournalNode
	这里还配置了一个zookeeper集群，用于ZKFC（DFSZKFailoverController）故障转移，当Active NameNode挂掉了，会自动切换Standby NameNode为standby状态
	
安装步骤：
	1.安装配置zooekeeper集群
		1.1解压
			tar -zxvf zookeeper-3.4.5.tar.gz -C /cloud/
		1.2修改配置
			cd /cloud/zookeeper-3.4.5/conf/
			cp zoo_sample.cfg zoo.cfg
			vim zoo.cfg
			修改：dataDir=/cloud/zookeeper-3.4.5/tmp
			在最后添加：
			server.1=hadoop4:2888:3888
			server.2=hadoop5:2888:3888
			server.3=hadoop6:2888:3888
			保存退出
			然后创建一个tmp文件夹
			mkdir /cloud/zookeeper-3.4.5/tmp
			再创建一个空文件
			touch /cloud/zookeeper-3.4.5/tmp/myid
			最后向该文件写入ID
			echo 1 > /cloud/zookeeper-3.4.5/tmp/myid
		1.3将配置好的zookeeper拷贝到其他节点(首先分别在hadoop5、hadoop6根目录下创建一个cloud目录：mkdir /cloud)
			scp -r /cloud/zookeeper-3.4.5/ hadoop5:/cloud/
			scp -r /cloud/zookeeper-3.4.5/ hadoop6:/cloud/
			
			注意：修改hadoop5、hadoop6对应/cloud/zookeeper-3.4.5/tmp/myid内容
			hadoop5：
				echo 2 > /cloud/zookeeper-3.4.5/tmp/myid
			hadoop6：
				echo 3 > /cloud/zookeeper-3.4.5/tmp/myid
	
	2.安装配置hadoop集群
		2.1解压
			tar -zxvf hadoop-2.2.0.tar.gz -C /cloud/
		2.2配置HDFS（hadoop2.0所有的配置文件都在$HADOOP_HOME/etc/hadoop目录下）
			#将hadoop添加到环境变量中
			vim /etc/profile
			export JAVA_HOME=/usr/java/jdk1.7.0_55
			export HADOOP_HOME=/cloud/hadoop-2.2.0
			export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin
			
			#hadoop2.0的配置文件全部在$HADOOP_HOME/etc/hadoop下
			cd /cloud/hadoop-2.2.0/etc/hadoop
			
			2.2.1修改hadoo-env.sh
				export JAVA_HOME=/usr/java/jdk1.7.0_55
				
			2.2.2修改core-site.xml
				
					
					
						fs.defaultFS
						hdfs://ns1
					
					
					
						hadoop.tmp.dir
						/cloud/hadoop-2.2.0/tmp
					
					
					
						ha.zookeeper.quorum
						hadoop4:2181,hadoop5:2181,hadoop6:2181
					
				
				
			2.2.3修改hdfs-site.xml
				
					
					
						dfs.nameservices
						ns1
					
					
					
						dfs.ha.namenodes.ns1
						nn1,nn2
					
					
					
						dfs.namenode.rpc-address.ns1.nn1
						hadoop1:9000
					
					
					
						dfs.namenode.http-address.ns1.nn1
						hadoop1:50070
					
					
					
						dfs.namenode.rpc-address.ns1.nn2
						hadoop2:9000
					
					
					
						dfs.namenode.http-address.ns1.nn2
						hadoop2:50070
					
					
					
						dfs.namenode.shared.edits.dir
						qjournal://hadoop4:8485;hadoop5:8485;hadoop6:8485/ns1
					
					
					
						dfs.journalnode.edits.dir
						/cloud/hadoop-2.2.0/journal
					
					
					
						dfs.ha.automatic-failover.enabled
						true
					
					
					
						dfs.client.failover.proxy.provider.ns1
						org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider
					
					
					
						dfs.ha.fencing.methods
						
							sshfence
							shell(/bin/true)
						
					
					
					
						dfs.ha.fencing.ssh.private-key-files
						/root/.ssh/id_rsa
					
					
					
						dfs.ha.fencing.ssh.connect-timeout
						30000
					
				
			
			2.2.4修改mapred-site.xml
				
					
					
						mapreduce.framework.name
						yarn
					
					
			
			2.2.5修改yarn-site.xml
				
					
					
						yarn.resourcemanager.hostname
						hadoop3
					
					
					
						yarn.nodemanager.aux-services
						mapreduce_shuffle
					
				
			
				
			2.2.6修改slaves(slaves是指定子节点的位置，因为要在hadoop1上启动HDFS、在hadoop3启动yarn，所以hadoop1上的slaves文件指定的是datanode的位置，hadoop3上的slaves文件指定的是nodemanager的位置)
				hadoop4
				hadoop5
				hadoop6

			2.2.7配置免密码登陆
				#首先要配置hadoop1到hadoop2、hadoop3、hadoop4、hadoop5、hadoop6的免密码登陆
				#在hadoop1上生产一对钥匙
				ssh-keygen -t rsa
				#将公钥拷贝到其他节点，包括自己
				ssh-coyp-id hadoop1
				ssh-coyp-id hadoop2
				ssh-coyp-id hadoop3
				ssh-coyp-id hadoop4
				ssh-coyp-id hadoop5
				ssh-coyp-id hadoop6
				
				#配置hadoop3到hadoop4、hadoop5、hadoop6的免密码登陆
				#在hadoop3上生产一对钥匙
				ssh-keygen -t rsa
				#将公钥拷贝到其他节点
				ssh-coyp-id hadoop4
				ssh-coyp-id hadoop5
				ssh-coyp-id hadoop6
				
				#注意：两个namenode之间要配置ssh免密码登陆，别忘了配置hadoop2到hadoop1的免登陆
				在hadoop2上生产一对钥匙
				ssh-keygen -t rsa
				ssh-coyp-id -i hadoop1				
		
		2.4将配置好的hadoop拷贝到其他节点
			scp -r /cloud/ hadoop2:/
			scp -r /cloud/ hadoop3:/
			scp -r /cloud/hadoop-2.2.0/ root@hadoop4:/cloud/
			scp -r /cloud/hadoop-2.2.0/ root@hadoop5:/cloud/
			scp -r /cloud/hadoop-2.2.0/ root@hadoop6:/cloud/
		
		###注意：严格按照下面的步骤
		2.5启动zookeeper集群（分别在hadoop4、hadoop5、hadoop6上启动zk）
			cd /cloud/zookeeper-3.4.5/bin/
			./zkServer.sh start
			#查看状态：一个leader，两个follower
			./zkServer.sh status
			
		2.6启动journalnode（在hadoop1上启动所有journalnode，注意：是调用的hadoop-daemons.sh这个脚本，注意是复数s的那个脚本）
			cd /cloud/hadoop-2.2.0
			sbin/hadoop-daemons.sh start journalnode
			#运行jps命令检验，hadoop4、hadoop5、hadoop6上多了JournalNode进程
		
		2.7格式化HDFS
			#在hadoop1上执行命令:
			hdfs namenode -format
			#格式化后会在根据core-site.xml中的hadoop.tmp.dir配置生成个文件，这里我配置的是/cloud/hadoop-2.2.0/tmp，然后将/cloud/hadoop-2.2.0/tmp拷贝到hadoop2的/cloud/hadoop-2.2.0/下。
			scp -r tmp/ hadoop2:/cloud/hadoop-2.2.0/
		
		2.8格式化ZK(在hadoop1上执行即可)
			hdfs zkfc -formatZK
		
		2.9启动HDFS(在hadoop1上执行)
			sbin/start-dfs.sh

		2.10启动YARN(#####注意#####：是在hadoop3上执行start-yarn.sh，把namenode和resourcemanager分开是因为性能问题，因为他们都要占用大量资源，所以把他们分开了，他们分开了就要分别在不同的机器上启动)
			sbin/start-yarn.sh

	到此，hadoop2.2.0配置完毕，可以统计浏览器访问:
		http://192.168.0.10:50070
		NameNode 'hadoop1:9000' (active)
		http://192.168.0.20:50070
		NameNode 'hadoop2:9000' (standby)
	
	验证HDFS HA
		首先向hdfs上传一个文件
		hadoop fs -put /etc/profile /profile
		hadoop fs -ls /
		然后再kill掉active的NameNode
		kill -9 
		通过浏览器访问：http://192.168.0.20:50070
		NameNode 'hadoop2:9000' (active)
		这个时候hadoop2上的NameNode变成了active
		在执行命令：
		hadoop fs -ls /
		-rw-r--r--   3 root supergroup       1926 2014-02-06 15:36 /profile
		刚才上传的文件依然存在！！！
		手动启动那个挂掉的NameNode
		sbin/hadoop-daemon.sh start namenode
		通过浏览器访问：http://192.168.0.10:50070
		NameNode 'hadoop1:9000' (standby)
	
	验证YARN：
		运行一下hadoop提供的demo中的WordCount程序：
		hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar wordcount /profile /out
	
	OK，大功告成！！！

Hadoop2.4.1集群搭建说明

hadoop2.0已经发布了稳定版本了，增加了很多特性，比如HDFS HA、YARN等。最新的hadoop-2.4.1又增加了YARN HA
1.修改Linux主机名
2.修改IP
3.修改主机名和IP的映射关系
	######注意######如果你们公司是租用的服务器或是使用的云主机（如华为用主机、阿里云主机等）
	/etc/hosts里面要配置的是内网IP地址和主机名的映射关系	
4.关闭防火墙
5.ssh免登陆 
6.安装JDK，配置环境变量等

集群规划：
	主机名		IP				安装的软件					运行的进程
	hadoop1	192.168.0.10	jdk、hadoop					NameNode、DFSZKFailoverController(zkfc)
	hadoop2	192.168.0.20	jdk、hadoop					NameNode、DFSZKFailoverController(zkfc)
	hadoop3	192.168.0.30	jdk、hadoop					ResourceManager
	hadoop4	192.168.0.40	jdk、hadoop					ResourceManager
	hadoop5	192.168.0.50	jdk、hadoop、zookeeper		DataNode、NodeManager、JournalNode、QuorumPeerMain
	hadoop6	192.168.0.60	jdk、hadoop、zookeeper		DataNode、NodeManager、JournalNode、QuorumPeerMain
	hadoop7	192.168.0.70	jdk、hadoop、zookeeper		DataNode、NodeManager、JournalNode、QuorumPeerMain
	
说明：
	1.在hadoop2.0中通常由两个NameNode组成，一个处于active状态，另一个处于standby状态。Active NameNode对外提供服务，而Standby NameNode则不对外提供服务，仅同步active namenode的状态，以便能够在它失败时快速进行切换。
	hadoop2.0官方提供了两种HDFS HA的解决方案，一种是NFS，另一种是QJM。这里我们使用简单的QJM。在该方案中，主备NameNode之间通过一组JournalNode同步元数据信息，一条数据只要成功写入多数JournalNode即认为写入成功。通常配置奇数个JournalNode
	这里还配置了一个zookeeper集群，用于ZKFC（DFSZKFailoverController）故障转移，当Active NameNode挂掉了，会自动切换Standby NameNode为standby状态
	2.hadoop-2.2.0中依然存在一个问题，就是ResourceManager只有一个，存在单点故障，hadoop-2.4.1解决了这个问题，有两个ResourceManager，一个是Active，一个是Standby，状态由zookeeper进行协调
安装步骤：
	1.安装配置zooekeeper集群（在hadoop5上）
		1.1解压
			tar -zxvf zookeeper-3.4.5.tar.gz -C /cloud/
		1.2修改配置
			cd /cloud/zookeeper-3.4.5/conf/
			cp zoo_sample.cfg zoo.cfg
			vim zoo.cfg
			修改：dataDir=/cloud/zookeeper-3.4.5/tmp
			在最后添加：
			server.1=hadoop5:2888:3888
			server.2=hadoop6:2888:3888
			server.3=hadoop7:2888:3888
			保存退出
			然后创建一个tmp文件夹
			mkdir /cloud/zookeeper-3.4.5/tmp
			再创建一个空文件
			touch /cloud/zookeeper-3.4.5/tmp/myid
			最后向该文件写入ID
			echo 1 > /cloud/zookeeper-3.4.5/tmp/myid
		1.3将配置好的zookeeper拷贝到其他节点(首先分别在hadoop6、hadoop7根目录下创建一个cloud目录：mkdir /cloud)
			scp -r /cloud/zookeeper-3.4.5/ hadoop6:/cloud/
			scp -r /cloud/zookeeper-3.4.5/ hadoop7:/cloud/
			
			注意：修改hadoop6、hadoop7对应/cloud/zookeeper-3.4.5/tmp/myid内容
			hadoop6：
				echo 2 > /cloud/zookeeper-3.4.5/tmp/myid
			hadoop7：
				echo 3 > /cloud/zookeeper-3.4.5/tmp/myid
	
	2.安装配置hadoop集群（在hadoop1上操作）
		2.1解压
			tar -zxvf hadoop-2.4.1.tar.gz -C /cloud/
		2.2配置HDFS（hadoop2.0所有的配置文件都在$HADOOP_HOME/etc/hadoop目录下）
			#将hadoop添加到环境变量中
			vim /etc/profile
			export JAVA_HOME=/usr/java/jdk1.7.0_55
			export HADOOP_HOME=/cloud/hadoop-2.4.1
			export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin
			
			#hadoop2.0的配置文件全部在$HADOOP_HOME/etc/hadoop下
			cd /cloud/hadoop-2.4.1/etc/hadoop
			
			2.2.1修改hadoo-env.sh
				export JAVA_HOME=/usr/java/jdk1.7.0_55
				
			2.2.2修改core-site.xml
				
					
					
						fs.defaultFS
						hdfs://ns1
					
					
					
						hadoop.tmp.dir
						/cloud/hadoop-2.4.1/tmp
					
					
					
						ha.zookeeper.quorum
						hadoop5:2181,hadoop6:2181,hadoop7:2181
					
				
				
			2.2.3修改hdfs-site.xml
				
					
					
						dfs.nameservices
						ns1
					
					
					
						dfs.ha.namenodes.ns1
						nn1,nn2
					
					
					
						dfs.namenode.rpc-address.ns1.nn1
						hadoop1:9000
					
					
					
						dfs.namenode.http-address.ns1.nn1
						hadoop1:50070
					
					
					
						dfs.namenode.rpc-address.ns1.nn2
						hadoop2:9000
					
					
					
						dfs.namenode.http-address.ns1.nn2
						hadoop2:50070
					
					
					
						dfs.namenode.shared.edits.dir
						qjournal://hadoop5:8485;hadoop6:8485;hadoop7:8485/ns1
					
					
					
						dfs.journalnode.edits.dir
						/cloud/hadoop-2.4.1/journal
					
					
					
						dfs.ha.automatic-failover.enabled
						true
					
					
					
						dfs.client.failover.proxy.provider.ns1
						org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider
					
					
					
						dfs.ha.fencing.methods
						
							sshfence
							shell(/bin/true)
						
					
					
					
						dfs.ha.fencing.ssh.private-key-files
						/home/hadoop/.ssh/id_rsa
					
					
					
						dfs.ha.fencing.ssh.connect-timeout
						30000
					
				
			
			2.2.4修改mapred-site.xml
				
					
					
						mapreduce.framework.name
						yarn
					
					
			
			2.2.5修改yarn-site.xml
				
						
						
						   yarn.resourcemanager.ha.enabled
						   true
						
						
						
						   yarn.resourcemanager.cluster-id
						   yrc
						
						
						
						   yarn.resourcemanager.ha.rm-ids
						   rm1,rm2
						
						
						
						   yarn.resourcemanager.hostname.rm1
						   hadoop3
						
						
						   yarn.resourcemanager.hostname.rm2
						   hadoop4
						
						
						
						   yarn.resourcemanager.zk-address
						   hadoop5:2181,hadoop6:2181,hadoop7:2181
						
						
						   yarn.nodemanager.aux-services
						   mapreduce_shuffle
						
				
			
				
			2.2.6修改slaves(slaves是指定子节点的位置，因为要在hadoop1上启动HDFS、在hadoop3启动yarn，所以hadoop1上的slaves文件指定的是datanode的位置，hadoop3上的slaves文件指定的是nodemanager的位置)
				hadoop5
				hadoop6
				hadoop7

			2.2.7配置免密码登陆
				#首先要配置hadoop1到hadoop2、hadoop3、hadoop4、hadoop5、hadoop6、hadoop7的免密码登陆
				#在hadoop1上生产一对钥匙
				ssh-keygen -t rsa
				#将公钥拷贝到其他节点，包括自己
				ssh-coyp-id hadoop1
				ssh-coyp-id hadoop2
				ssh-coyp-id hadoop3
				ssh-coyp-id hadoop4
				ssh-coyp-id hadoop5
				ssh-coyp-id hadoop6
				ssh-coyp-id hadoop7
				#配置hadoop3到hadoop4、hadoop5、hadoop6、hadoop7的免密码登陆
				#在hadoop3上生产一对钥匙
				ssh-keygen -t rsa
				#将公钥拷贝到其他节点
				ssh-coyp-id hadoop4
				ssh-coyp-id hadoop5
				ssh-coyp-id hadoop6
				ssh-coyp-id hadoop7
				#注意：两个namenode之间要配置ssh免密码登陆，别忘了配置hadoop2到hadoop1的免登陆
				在hadoop2上生产一对钥匙
				ssh-keygen -t rsa
				ssh-coyp-id -i hadoop1				
		
		2.4将配置好的hadoop拷贝到其他节点
			scp -r /cloud/ hadoop2:/
			scp -r /cloud/ hadoop3:/
			scp -r /cloud/hadoop-2.4.1/ root@hadoop4:/cloud/
			scp -r /cloud/hadoop-2.4.1/ root@hadoop5:/cloud/
			scp -r /cloud/hadoop-2.4.1/ root@hadoop6:/cloud/
			scp -r /cloud/hadoop-2.4.1/ root@hadoop7:/cloud/
		###注意：严格按照下面的步骤
		2.5启动zookeeper集群（分别在hadoop5、hadoop6、tcast07上启动zk）
			cd /cloud/zookeeper-3.4.5/bin/
			./zkServer.sh start
			#查看状态：一个leader，两个follower
			./zkServer.sh status
			
		2.6启动journalnode（分别在在hadoop5、hadoop6、tcast07上执行）
			cd /cloud/hadoop-2.4.1
			sbin/hadoop-daemon.sh start journalnode
			#运行jps命令检验，hadoop5、hadoop6、hadoop7上多了JournalNode进程
		
		2.7格式化HDFS
			#在hadoop1上执行命令:
			hdfs namenode -format
			#格式化后会在根据core-site.xml中的hadoop.tmp.dir配置生成个文件，这里我配置的是/cloud/hadoop-2.4.1/tmp，然后将/cloud/hadoop-2.4.1/tmp拷贝到hadoop2的/cloud/hadoop-2.4.1/下。
			scp -r tmp/ hadoop2:/cloud/hadoop-2.4.1/
		
		2.8格式化ZK(在hadoop1上执行即可)
			hdfs zkfc -formatZK
		
		2.9启动HDFS(在hadoop1上执行)
			sbin/start-dfs.sh

		2.10启动YARN(#####注意#####：是在hadoop3上执行start-yarn.sh，把namenode和resourcemanager分开是因为性能问题，因为他们都要占用大量资源，所以把他们分开了，他们分开了就要分别在不同的机器上启动)
			sbin/start-yarn.sh

		
	到此，hadoop-2.4.1配置完毕，可以统计浏览器访问:
		http://192.168.0.10:50070
		NameNode 'hadoop1:9000' (active)
		http://192.168.0.20:50070
		NameNode 'hadoop2:9000' (standby)
	
	验证HDFS HA
		首先向hdfs上传一个文件
		hadoop fs -put /etc/profile /profile
		hadoop fs -ls /
		然后再kill掉active的NameNode
		kill -9 
		通过浏览器访问：http://192.168.0.20:50070
		NameNode 'hadoop2:9000' (active)
		这个时候hadoop2上的NameNode变成了active
		在执行命令：
		hadoop fs -ls /
		-rw-r--r--   3 root supergroup       1926 2014-02-06 15:36 /profile
		刚才上传的文件依然存在！！！
		手动启动那个挂掉的NameNode
		sbin/hadoop-daemon.sh start namenode
		通过浏览器访问：http://192.168.0.10:50070
		NameNode 'hadoop1:9000' (standby)
	
	验证YARN：
		运行一下hadoop提供的demo中的WordCount程序：
		hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.4.1.jar wordcount /profile /out
 
配置成功！！！

我使用的Hadoop版本是2.7.4 ，由于嫌麻烦，就按照2.2.0的方式进行配置的。

查看启动和停止信息

在hadoop1上停止HDFS

Hadoop详解(五)——ZooKeeper详解，ZooKeeper伪分布搭建和集群搭建，Hadoop集群搭建，sqoop工具的使用_第12张图片

在hadoop3上停止Yarn

Hadoop详解(五)——ZooKeeper详解，ZooKeeper伪分布搭建和集群搭建，Hadoop集群搭建，sqoop工具的使用_第13张图片

再次在hadoop1上启动HDFS 查看启动顺序

Hadoop详解(五)——ZooKeeper详解，ZooKeeper伪分布搭建和集群搭建，Hadoop集群搭建，sqoop工具的使用_第14张图片

启动HDFS文件系统时，在hadoop1中读取$HADOOP_HOME/etc/hadoop/目录中的hdfs-site.xml信息启动NameNode，根据slaves配置文件通过ssh协议启动DataNodes，然后根据hdfs-site.xml中的信息通过ssh协议启动JournalNodes 至于最后启动的ZKFC 是和每台NameNode连在一块的。NameNodes—>DataNodes—>JournalNodes—>ZKFCs
需要注意的是：在安装格式化的时候，需要启动JournalNode，在安装完成后启动HDFS或YARN前只需要启动ZooKeeper集群即可
再次在hadoop3上启动yarn 查看启动顺序

在启动yarn的时候，首先启动ResourceManager 因为在本地的yarn-site.xml中配置的ResourceManager所在主机是hadoop3 所以会在本地启动，然后读取本地的slaves配置文件通过ssh协议将slaves文件中指定的所有的主机上启动NodeManager。注意：启动时都是读取本地的配置文件，在hadoop3上启动yarn 会根据本地的slaves中的配置决定在哪些台机器上启动NodeManager，而在hadoop1上启动HDFS会根据它本地的slaves配置确定在哪些台机器上启动DataNode，一般情况下建议它们的slaves配置文件保持一致，不过不一致也可，如果不一致意味着NodeManager和DataNode不完全在同样的机器中启动。

Hadoop集群下Java操作方式

package liuxun.hadoop.ha.hdfs;

import java.io.FileInputStream;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStream;
import java.io.OutputStream;
import java.net.URI;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;

public class HDFSDemo_HA {
	public static void main(String[] args) throws Exception {
		Configuration conf = new Configuration();
		conf.set("dfs.nameservices", "ns1");
		conf.set("dfs.ha.namenodes.ns1", "nn1,nn2");
		conf.set("dfs.namenode.rpc-address.ns1.nn1", "hadoop1:9000");
		conf.set("dfs.namenode.rpc-address.ns1.nn2", "hadoop2:9000");
		conf.set("dfs.client.failover.proxy.provider.ns1",
				"org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider");
		// FileSystem fs = FileSystem.get(new URI("hdfs://ns1"), conf);
		// 测试下载
		// InputStream in = fs.open(new Path("/profile"));
		// OutputStream out = new FileOutputStream("/Users/liuxun/Downloads/p.txt");
		// IOUtils.copyBytes(in, out, 4096, true);
	
		// 测试上传
		 FileSystem fs = FileSystem.get(new URI("hdfs://ns1"), conf,"root");
		InputStream in = new FileInputStream("/Users/liuxun/Downloads/a.txt");
		OutputStream out = fs.create(new Path("/a"));
		IOUtils.copyBytes(in, out, 4096, true);
	
	}
}

Sqoop

Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。

sqoop
数据迁移工具——主要用于HDFS和关系型数据库之间数据的相互迁移
例如可以将关系型数据库中的历史数据迁移到HDFS上，运行MapReduce计算分析结果输出到HDFS上，再将结果迁移到关系型数据库中。而sqoop有自己独特的语法，底层采用MapReducer实现，可它以启动多个并行的MapReducer.它依赖于yarn和HDFS。
注意：sqoop不需要搭建集群，它可以安装在任意一台机器上

首先下载sqoop http://archive.apache.org/dist/sqoop/1.4.4/

我的安装位置是放在hadoop3上
上传安装包，解压到/cloud/下
tar -zxvf sqoop-1.4.4.bin__hadoop-2.0.4-alpha.tar.gz -C /cloud/
发现名称过长进行重命名
mv sqoop-1.4.4.bin__hadoop-2.0.4-alpha/ sqoop-1.4.4
配置：如果安装配置了Hadoop 则不需要对sqoop的配置文件做任何配置，实际上它会查找环境变量$HADOOP_HOME 找到Hadoop的配置文件然后就可以查找到ResourceManager和NameNode的位置。
(1) 首选将sqoop添加到环境变量
vim /etc/profile 修改成如下配置
export JAVA_HOME=/usr/java/jdk1.8.0_144
export HADOOP_HOME=/cloud/hadoop-2.7.4
export SQOOP_HOME=/cloud/sqoop-1.4.4
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$SQOOP_HOME/bi
n
使其生效：source /etc/profile
(2)将数据库连接驱动拷贝到$SQOOP_HOME/lib里
(3)将数据库开启远程连接
在使用之前首先保证要操作的数据库开启远程连接 MySQL开启远程连接的方法如下
GRANT ALL PRIVILEGES ON myshop.* TO 'root'@'192.168.0.30’ IDENTIFIED BY ‘root’ WITH GRANT OPTION;
FLUSH PRIVILEGES;
GRANT ALL PRIVILEGES ON *.* TO 'root'@'%' IDENTIFIED BY ‘root’ WITH GRANT OPTION;
FLUSH PRIVILEGES
注意：*.* 所有数据库所有表 'root'@'%' 允许任意主机以root用户身份连接 IDENTIFIED BY 表示连接时的密码
(4)使用（可以查看安装包中的文档）

第一类：数据库中的数据导入到HDFS上
① 指定输出哪些列
sqoop import --connect jdbc:mysql://192.168.0.103:3306/myshop --username root --password root --table product --columns 'pid,pname,market_price,shop_price'
② 指定输出路径、指定数据分隔符
sqoop import --connect jdbc:mysql://192.168.0.103:3306/myshop --username root --password root --table product --columns 'pid,pname,market_price,shop_price' --target-dir '/sqoop/td1' --fields-terminated-by '\t'
③ 指定Map数量 -m
sqoop import --connect jdbc:mysql://192.168.0.103:3306/myshop --username root --password root --table product --columns 'pid,pname,market_price,shop_price' --target-dir '/sqoop/td2' --fields-terminated-by '\t' -m 2
(只会生成两个part文件 part-m-00000和part-m-00001 说明sqoop底层只是使用了map没有使用reducer)
④ 增加where条件, 注意：条件必须用引号引起来
sqoop import --connect jdbc:mysql://192.168.0.103:3306/myshop --username root --password root --table product --columns 'pid,pname,market_price,shop_price' --where 'pid>4 and pname like "%装%"' --target-dir '/sqoop/td3' --fields-terminated-by '\t' -m 2
⑤ 增加query语句(使用 \ 将语句换行)
sqoop import --connect jdbc:mysql://192.168.0.103:3306/myshop --username root --password root --query 'select * from product where pid > 6 and pname like "%套%" and $CONDITIONS' --split-by product.pid --target-dir '/sqoop/td4' --fields-terminated-by '\t' -m 3
注意：如果使用--query这个命令的时候，需要注意的是where后面的参数，AND $CONDITIONS这个参数必须加上
而且存在单引号与双引号的区别，如果--query后面使用的是双引号，那么需要在$CONDITIONS前加上\即\$CONDITIONS
如果设置map数量为1个时即-m 1，不用加上--split-by ${tablename.column}，否则需要加上
第二类：将HDFS上的数据导出到数据库中(不要忘记指定分隔符)
首先在数据库中创建和product字段一样的表
create table tab_back like product;
命令：
sqoop export --connect jdbc:mysql://192.168.0.103:3306/myshop --username root --password root --export-dir '/sqoop/td3' --table tab_back -m 1 --fields-terminated-by '\t'
成功执行，刷新数据库，发现tab_back表中有了数据

shell使用技巧

set -x 调试（即在运行脚本的时候，会将脚本里的内容打印出来）

echo "1234" 打印输出

STR="Hello World" 定义一个变量

echo "$STR" 输出变量值

hadoop jar /cloud/hadoop-2.7.4/share/mapreduce/hadoop-mapreduce-examples-2.7.4.jar wordcount /wc.txt /wcount >> /root/logs 2>&1 &

运行计算jar包并将日志打印到指定文件中

2>&1 表示错误输出和标准输出都输出到同一个文件

& 表示使其成为一个后台进程

CURRENT=`date +%Y%m%d`

`` 将方法的返回值赋给变量

你可能感兴趣的:(Hadoop大数据)

分享一个基于Spark的招聘数据可视化与分析系统Hadoop大数据源码（源码、调试、LW、开题、PPT）计算机源码社大数据大数据 spark 毕业设计项目计算机毕业设计源码计算机毕设论文 hadoop 计算机课程设计
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|基
Hadoop大数据实战系列文章之Hive 测试帮日记
hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，Hive定义了简单的类SQL查询语言，称为HQL，它允许熟悉SQL的用户查询数据可以将sql语句转换为MapReduce任务进行运行，不必开发专门的MapReduce。毕竟会写SQL的人比写JAVA的人多，这样可以让一大批运营人员直接获取海量数据。在数据仓库建设中，HIVE灵活易用且
Hadoop 大数据技术原理与应用 kk8_ hadoop 大数据 hdfs
Hadoop大数据技术原理与应用大数据概述定义特征大量，多样，高速，价值研究意义应用场景医疗，金融，零售Hadoop概述历史优势扩容能力强，成本低，高效率，可靠性，高容错Hadoop生态分布式存储系统（HDFS）分布式计算框架（MapReduce）资源管理（YARN）数据迁移（Sqoop）数据挖掘算法库（Mahout）分布式数据库（HBase）分布式协调服务（Zookeeper）数据仓库（Hive
Hadoop大数据原理(3) - 分布式计算框架MapReduce 小爱玄策大数据技术 hadoop mapreduce big data
文章目录1.大数据的通用计算2MapReduce编程模型3.MapReduce计算框架3.1三类关键进程大数据应用进程JobTracker进程TaskTracker进程3.2作业启动和运行机制3.3数据合并与连接机制shuffle的过程1.大数据的通用计算 Hadoop出现前就已经有了分布式计算，那个时候的分布式计算是专用的系统，只能专门处理某一类计算，比如进行大规模数据的排序。这样的系统无法复
Hadoop大数据技术有什么市场价值？2019年Hadoop大数据技术7大应用领域金光闪闪耶
由于国家对大数据、AI等等技术的关注，在多次发展规划中都提高了大数据技术，因此大数据技术对于这个时代的发展来说至关重要，大数据也正处于发展期、巩固期，基于已有的技术去完善和不断的发展大数据技术产品，满足互联网不符按发在的需求，使国家的技术产业得到进步和发展。大数据已经成长为时代发展的标志，在各大行业机领域都拥有其应用，今天小编就带着大家一起了解一下，大数据技术到底带来了什么？大数据技术是如何发挥自
大数据平台的硬件规划、网络调优、架构设计、节点规划小枫@码大数据架构师大数据
1.大数据平台硬件选型要对Hadoop大数据平台进行硬件选型，首先需要了解Hadoop的运行架构以及每个角色的功能。在一个典型的Hadoop架构中，通常有5个角色，分别是NameNode、StandbyNameNode、ResourceManager、NodeManager、DataNode以及外围机。其中NameNode负责协调集群上的数据存储，StandbyNameNode属于NameNode
【项目实战】基于Hadoop大数据电商平台用户行为分析与可视化系统Hive、Spark计算机程序开发 Q2643365023 项目大数据 hadoop 大数据 hive
注意：该项目只展示部分功能，如需了解，评论区咨询即可。本文目录1设计背景2设计意义3系统展示3.1页面展示3.2视频展示4更多推荐5部分功能代码1设计背景在当今数字化时代，电商行业成为全球商业生态系统的关键组成部分，电商平台已经深入各行各业，影响了人们的购物方式和消费习惯。随着互联网技术的不断发展，电商平台产生了大量的用户数据，包括点击、购买、搜索、浏览历史等行为数据。这些数据蕴含着宝贵的商业洞察
HADOOP大数据之HDFS管理与运维奋斗的韭菜汪
一、HDFS数据迁移解决方案HDFS分布式拷贝工具DistCp数据迁移使用场景：冷热集群数据同步、分类存储集群数据整体搬迁数据的准实时同步数据迁移要素考量带宽性能是否支持增量同步4、数据迁移的同步性image.pngDistCp是Hadoop中的一种工具，在hadoop-tools工程下，作为独立子工程存在定位用于数据迁移，定期在集群之间和集群内部备份数据在备份过程中，每次运行DistCp都称为一
基于Hadoop的网上购物行为大数据分析及预测系统【flask+echarts+机器学习】前后端交互王小王-123 hadoop flask 网上购物行为分析 Hadoop大数据淘宝 Hadoop系统
有需要本项目或者部署的系统可以私信博主，提供远程部署和讲解本研究基于淘宝用户行为的开源数据展开大数据分析研究，通过Hadoop大数据分析平台对阿里天池公开的开源数据集进行多维度的用户行为分析，为电商销售提供可行性决策。首先我们将大数据集上传到Hadoop中的HDFS存储，之后利用Hadoop的Flume组件，配置好自动加载数据的环境，将数据加载到hive数据库中进行大数据分析。通过对常见的电商指标
【学习笔记】尚硅谷Hadoop大数据教程笔记棉花糖灬大数据大数据 hadoop MapReduce yarn hdfs
本文是尚硅谷Hadoop教程的学习笔记，由于个人的需要，只致力于搞清楚Hadoop是什么，它可以解决什么问题，以及它的原理是什么。至于具体怎么安装、使用和编写代码不在我考虑的范围内。一、Hadoop入门大数据的特点：Volume（大量）Velocity（高速）Variety（多样）Value（低价值密度）1.Hadoop概念是一个分布式系统基础架构2.Hadoop优势高可靠高扩展性高效性高容错性3
《Hadoop大数据技术原理与运用》知识点总结呆小黎大数据 hadoop 数据库分布式
Hadoop学习过程中的一些笔记参考书籍《Hadoop大数据技术原理与应用》清华大学出版社黑马程序员/编著1.什么是大数据？大数据的四个特征是什么？答：一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合具有海量数据规模、快速数据流转、多样数据类型一级价值密度四大特征。2.另外，在Hadoop架构里面，元数据的含义是什么？答：文件的大小、位置、权限3.本书里面使用
大数据开发个人简历范本（2024最新版-附模板） itLeeyw 简历怎么写大数据简历简历工具个人简历简历模板
大数据开发工程师个人简历范本>男22本科张三计算机科学与技术1234567890个人概述具备深入的Hadoop大数据运维工程师背景，熟悉相关技术和工具具备良好的团队合作能力，善于沟通和协作具有快速学习新知识和解决问题的能力对于数据科学和分析充满热情，喜欢研究和探索新技术专业技能大数据熟悉Hadoop、Spark、Hive等大数据技术栈，具有实际项目经验数据库熟悉MySQL、MongoDB等数据库系
Hadoop大数据生态系统及常用组件简介 669生活大数据编程语言人工智能大数据程序员编程语言 hadoop
经过多年信息化建设，我们已经进入一个神奇的“大数据”时代，无论是在通讯社交过程中使用的微信、QQ、电话、短信，还是吃喝玩乐时的用到的团购、电商、移动支付，都不断产生海量信息数据，数据和我们的工作生活密不可分、须臾难离。什么是大数据什么是大数据，多大算大，100G算大么?如果是用来存储1080P的高清电影，也就是几部影片的容量。但是如果100G都是文本数据，比如我们的后端kafka里的数据，抽取一条
【2023Hadoop大数据技术应用期末复习】填空题题型整理 Lacszer 大数据
大数据的4V特征包含（）（）（）（）答案：大量、多样、高速、价值Hadoop三大组件包含（）（）（）答案：HDFS、MapReduce、YarnHadoop2.x版本中的HDFS是由（）（）（）组成答案：NameNode、DataNode、SecondaryNameNodeHadoop发行版本分为答案：开源社区版、商业版目前Hadoop发布的版本主要有（）（）（）答案：Hadoop1.x、Hado
【2023Hadoop大数据技术应用期末复习】选择题题型整理 Lacszer 大数据
文章目录单选题多选题单选题创建虚拟机的过程中，网络类型建议选择？A.使用桥接网络B.使用网络地址转换（NAT）C.使用仅主机模式网路D.不适用网路连接答案：B使用什么命令对jdk压缩包解压？A.tar-zxvfjdk-8u141-linux-x64.tar.gzB.zip-zxvfjdk-8u141-linux-x64.tar.gzC.uzipjdk-8u141-linux-x64.tar.gzD
Hadoop大数据实战系列文章之HDFS文件系统测试帮日记
Hadoop附带了一个名为HDFS(Hadoop分布式文件系统)的分布式文件系统，专门存储超大数据文件，为整个Hadoop生态圈提供了基础的存储服务。本章内容：1)HDFS文件系统的特点，以及不适用的场景2)HDFS文件系统重点知识点：体系架构和数据读写流程3)关于操作HDFS文件系统的一些基本用户命令1.HDFS特点：HDFS专为解决大数据存储问题而产生的，其具备了以下特点：1)HDFS文件系统
基于Hadoop大数据的物资数据可视化分析系统晨曦编程 python实战项目大数据 hadoop 分布式 1024程序员节 spark 课程设计 python
大家可以帮忙点赞、收藏、关注、评论啦精彩专栏推荐订阅：在下方专栏JAVA实战项目文章目录JAVA实战项目一、项目介绍二、开发环境三、项目展示-基于Hadoop大数据的物资数据可视化分析系统四、代码展示五、项目总结大家点赞、收藏、关注、有问题都可留言交流一、项目介绍一、背景随着经济的快速发展，人类社会面临着诸多挑战，其中之一便是。这一问题的存在已经严重影响到社会各个领域的发展，因此，解决这一问题是当
hadoop大数据学习笔记驰宇爱吃鱼学习笔记大数据 hadoop 学习
一、Hadoop的作用本质来说hadoop的作用是在多计算机集群环境中营造一个统一而稳定的存储和计算环境，并能为其他分布式应用服务提供平台支持。或者说将多台计算机组织成了一台计算机，让他们做同一件事，在这其中HDFS就相当于这台计算机的硬盘，而MapReduce就是这台计算机的CPU控制器。二、Hadoop环境部署按着正常来说我们想要部署Hadoop集群需要把相同的软件部署到众多计算机上，实际学习
DKhadoop大数据平台基础框架方案概述 yoku酱
大数据作为当下最为热门的事件之一，其实已经不算是很新鲜的事情了。如果是三五年前在讨论大数据，那可能会给人一种很新鲜的感觉。大数据作为当下最为重要的一项战略资源，已经是越来越得到国家和企业的高度重视，我们从大数据被上升到国家战略层面就可窥见一二！现在关于大数据的知识分享可以说已经是铺天盖地了，作为新手入门想查询的信息基本都可以通过网络查询到一些。我对的大数据的了解其实也不是特别丰富，毕竟学习的时间也
Hadoop大数据集群搭建（超详细）小飞飞V5 大数据Hadoop hadoop
使用了几个学期的实验手册，应该没有啥大问题了，现在分享给大家，希望对你学习hadoop有用实验环境：Vmwareworkstation+CentOS7+Hadoop3.1.3目录第一步：安装虚拟机第二步：虚拟机克隆第三步：网络配置第四步：ssh服务配置第五步：安装JDK第六步：安装Hadoop第七步：Hadoop集群配置第八步：格式化文件系统第九步：启动和关闭hadoop集群第十步：通过UI界面查
大数据开发：Hbase集群安装配置入门成都加米谷大数据
作为Hadoop大数据生态的重要组件，Hbase的学习是非常重要的一块，Hbase作为Hadoop生态原生支持的数据库，基于列式存储，能够承载规模庞大的数据存储需求任务。今天的大数据开发学习分享，我们就主要来讲讲Hbase集群安装配置入门。一、搭建集群环境1、解压文件tar-zxvfhbase-1.3.1-bin.tar.gz2、配置环境变量vim/etc/profileexportHBASE_H
在centos7上搭建hadoop大数据平台船长灬普朗克大数据 hadoop 大数据 java
目录一、安装搭建java环境1、安装方法2、查看是否已安装3、卸载4、安装4.1检查yum中有没有java1.8包4.2开始安装5、验证二、Hadoop安装1、下载2、准备启动Hadoop集群2.1配置Hadoop守护进程的环境2.2配置系统环境变量2.3配置etc/hadoop/core-site.xml文件2.4配置etc/hadoop/hdfs-site.xml文件2.5配置etc/hado
Hadoop大数据开发__Spark on YARN模式分布式集群安装部署姚华军大数据大数据 hadoop spark Spark on YARN YARN
1、下载解压sparkcd/home/hadoop/apptar-zxvfspark-3.3.0-bin-hadoop3.tgzrmspark-3.3.0-bin-hadoop3.tgzln-sspark-3.3.0-bin-hadoop3spark2、修改spark-env.shcd/home/hadoop/app/spark/confvispark-env.sh#追加下面的路径HADOOP_C
HADOOP大数据之HDFS数据安全与隐私保护奋斗的韭菜汪
HDFSTrash垃圾桶功能概述HDFSTrash机制，叫做回收站或者垃圾桶。Trash就像Windows操作系统中的回收站一样。它的目的是防止你无意中删除某些东西。默认情况下是不开启的。启用ITrash功能后，从HDFS中删除某些内容时，文件或目录不会立即被清除，它们将被移动到回收站Current目录中(/user/$(username}/.Trash/current)。.Trash中的文件在用
cdh亲测2022/11/12 Tian.Mrs 大数据 hadoop spark
一、Hadoop大数据平台1、Hadoop发行版(1)完全开源的原生的ApacheHadoop(2)Cloudera与Hortonworks公司的CDH和HDP：在Cloudera和Hortonworks合并后，Cloudera公司推出了新一代的数据平台产品CDPDataCenter（以下简称为CDP），从2021年1月31日开始，所有Cloudera软件都需要有效的订阅，并且只能通过付费墙进行访
CDH6安装教程(亲自测试越坑版) inrgihc Hadoop big data hadoop spark
一、Hadoop大数据平台1、Hadoop发行版(1)完全开源的原生的ApacheHadoop(2)Cloudera与Hortonworks公司的CDH和HDP：在Cloudera和Hortonworks合并后，Cloudera公司推出了新一代的数据平台产品CDPDataCenter（以下简称为CDP），从2021年1月31日开始，所有Cloudera软件都需要有效的订阅，并且只能通过付费墙进行访
hadoop@bigdate-VirtualBox:/mnt/shared$ tar -xzvf hadoop-2.10.2.tar.gz tar (child): hadoop-2.10.2.tar 北辰Charih 大数据挖掘 hadoop 大数据分布式
在virtualbox的ubuntu虚拟机上使用共享文件夹安装hadoop大数据软件在在virtualbox的ubuntu虚拟机上设置共享文件夹步骤：1.设置共享文件夹自行设定共享文件夹路径以及名称，记得勾选自动挂载（A），运行虚拟机的时候才会自动加载该文件夹。小提示：我按和下面连接的教程差不多的步骤安装配置VM虚拟机Ubuntu系统https://blog.csdn.net/duchenlong
Hadoop大数据学习线路图-单篇 doers123 hadoop hadoop
入门知识对于我们新手入门学习hadoop的朋友来说，首先了解一下云计算和云计算技术是有必要的。下面先是介绍云计算和云计算技术的：云计算，是一种基于互联网的计算方式，通过这种方式，共享的软硬件资源和信息可以按需求提供给计算机和其他设备，主要是基于互联网的相关服务地增加、使用和交付模式，通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。云是网络、互联网的一种比喻说法。过去在图中往往用云来表示电信
《大数据时代》读书笔记 Lucia夏天呀
其实是很久很久之前就应该看的一本书，放在“想读”中，最近终于花了几天时间看完。作者在文中的观点集中在五个方面：一、大数据带来公共卫生、商业、思维的变革，开启重大的时代转型，而预测是大数据的核心作者举了谷歌预测流感的快速有效性、机票价格趋势预测网站这两个例子。介绍了随之而来的hadoop大数据处理技术，同时通过各行业的例子说明了当今时代，数据增速超过以往任何一个时代，海量数据将会最终产生质变，改变这
毕设分享基于hadoop大数据教育可视化系统(源码+论文) 毕设算法家大数据 hadoop python 毕业设计数据分析
0简介今天学长向大家介绍一个机器视觉的毕设项目毕设分享基于hadoop大数据教育可视化系统(源码+论文)项目获取：https://gitee.com/sinonfin/algorithm-sharing基于hadoop和echarts的教育大数据可视化系统一、摘要在线教育平台现在是教育体系的重要组成部分，在当前大数据时代的背景下，促进教育机构建立统一平台、统一资源管理的数字化教学系统。如何评估系统
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI linux PHP android
╔-----------------------------------╗┆
zookeeper admin 笔记 braveCS zookeeper
Required Software 1) JDK>=1.6 2)推荐使用ensemble的ZooKeeper(至少3台)，并run on separate machines 3)在Yahoo!，zk配置在特定的RHEL boxes里，2个cpu，2G内存，80G硬盘数据和日志目录 1)数据目录里的文件是zk节点的持久化备份，包括快照和事务日
Spring配置多个连接池 easterfly spring
项目中需要同时连接多个数据库的时候，如何才能在需要用到哪个数据库就连接哪个数据库呢？ Spring中有关于dataSource的配置： <bean id="dataSource" class="com.mchange.v2.c3p0.ComboPooledDataSource" &nb
Mysql 171815164 mysql
例如，你想myuser使用mypassword从任何主机连接到mysql服务器的话。 GRANT ALL PRIVILEGES ON *.* TO 'myuser'@'%'IDENTIFIED BY 'mypassword' WI TH GRANT OPTION; 如果你想允许用户myuser从ip为192.168.1.6的主机连接到mysql服务器，并使用mypassword作
CommonDAO（公共/基础DAO） g21121 DAO
好久没有更新博客了，最近一段时间工作比较忙，所以请见谅，无论你是爱看呢还是爱看呢还是爱看呢，总之或许对你有些帮助。 DAO(Data Access Object)是一个数据访问（顾名思义就是与数据库打交道）接口，DAO一般在业
直言有讳永夜-极光感悟随笔
1.转载地址:http://blog.csdn.net/jasonblog/article/details/10813313 精华: “直言有讳”是阿里巴巴提倡的一种观念，而我在此之前并没有很深刻的认识。为什么呢？就好比是读书时候做阅读理解，我喜欢我自己的解读，并不喜欢老师给的意思。在这里也是。我自己坚持的原则是互相尊重，我觉得阿里巴巴很多价值观其实是基本的做人
安装CentOS 7 和Win 7后，Win7 引导丢失随便小屋 centos
一般安装双系统的顺序是先装Win7，然后在安装CentOS，这样CentOS可以引导WIN 7启动。但安装CentOS7后，却找不到Win7 的引导，稍微修改一点东西即可。一、首先具有root 的权限。即进入Terminal后输入命令su，然后输入密码即可二、利用vim编辑器打开/boot/grub2/grub.cfg文件进行修改 v
Oracle备份与恢复案例 aijuans oracle
Oracle备份与恢复案例一. 理解什么是数据库恢复当我们使用一个数据库时，总希望数据库的内容是可靠的、正确的，但由于计算机系统的故障（硬件故障、软件故障、网络故障、进程故障和系统故障）影响数据库系统的操作，影响数据库中数据的正确性，甚至破坏数据库，使数据库中全部或部分数据丢失。因此当发生上述故障后，希望能重构这个完整的数据库，该处理称为数据库恢复。恢复过程大致可以分为复原(Restore)与
JavaEE开源快速开发平台G4Studio v5.0发布無為子
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V5.0版本已经正式发布。访问G4Studio网站 http://www.g4it.org 2013-04-06 发布G4Studio_V5.0版本功能新增 (1). 新增了调用Oracle存储过程返回游标，并将游标映射为Java List集合对象的标
Oracle显示根据高考分数模拟录取百合不是茶 PL/SQL编程 oracle例子模拟高考录取学习交流
题目要求: 1,创建student表和result表 2,pl/sql对学生的成绩数据进行处理 3,处理的逻辑是根据每门专业课的最低分线和总分的最低分数线自动的将录取和落选 1,创建student表,和result表学生信息表; create table student( student_id number primary key,--学生id
优秀的领导与差劲的领导 bijian1013 领导管理团队
责任优秀的领导：优秀的领导总是对他所负责的项目担负起责任。如果项目不幸失败了，那么他知道该受责备的人是他自己，并且敢于承认错误。差劲的领导：差劲的领导觉得这不是他的问题，因此他会想方设法证明是他的团队不行，或是将责任归咎于团队中他不喜欢的那几个成员身上。努力工作优秀的领导：团队领导应该是团队成员的榜样。至少，他应该与团队中的其他成员一样努力工作。这仅仅因为他
js函数在浏览器下的兼容 Bill_chen jquery 浏览器 IE DWR ext
做前端开发的工程师，少不了要用FF进行测试，纯js函数在不同浏览器下，名称也可能不同。对于IE6和FF，取得下一结点的函数就不尽相同： IE6：node.nextSibling,对于FF是不能识别的； FF：node.nextElementSibling,对于IE是不能识别的；兼容解决方式：var Div = node.nextSibl
【JVM四】老年代垃圾回收：吞吐量垃圾收集器(Throughput GC) bit1129 垃圾回收
吞吐量与用户线程暂停时间衡量垃圾回收算法优劣的指标有两个：吞吐量越高，则算法越好暂停时间越短，则算法越好首先说明吞吐量和暂停时间的含义。垃圾回收时，JVM会启动几个特定的GC线程来完成垃圾回收的任务，这些GC线程与应用的用户线程产生竞争关系，共同竞争处理器资源以及CPU的执行时间。GC线程不会对用户带来的任何价值，因此，好的GC应该占
J2EE监听器和过滤器基础白糖_ J2EE
Servlet程序由Servlet，Filter和Listener组成，其中监听器用来监听Servlet容器上下文。监听器通常分三类：基于Servlet上下文的ServletContex监听，基于会话的HttpSession监听和基于请求的ServletRequest监听。 ServletContex监听器 ServletContex又叫application
博弈AngularJS讲义(16) - 提供者 boyitech js AngularJS api Angular Provider
Angular框架提供了强大的依赖注入机制，这一切都是有注入器(injector)完成. 注入器会自动实例化服务组件和符合Angular API规则的特殊对象，例如控制器，指令，过滤器动画等。那注入器怎么知道如何去创建这些特殊的对象呢？ Angular提供了5种方式让注入器创建对象，其中最基础的方式就是提供者(provider), 其余四种方式(Value, Fac
java-写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 bylijinnan java
public class CommonSubSequence { /** * 题目：写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 * 写一个版本算法复杂度O(N^2)和一个O(N) 。 * * O(N^2)：对于a中的每个字符，遍历b中的每个字符，如果相同，则拷贝到新字符串中。 * O(
sqlserver 2000 无法验证产品密钥 Chen.H sql windows SQL Server Microsoft
在 Service Pack 4 (SP 4), 是运行 Microsoft Windows Server 2003、 Microsoft Windows Storage Server 2003 或 Microsoft Windows 2000 服务器上您尝试安装 Microsoft SQL Server 2000 通过卷许可协议 (VLA) 媒体。这样做, 收到以下错误信息CD KEY的 SQ
[新概念武器]气象战争 comsci
气象战争的发动者必须是拥有发射深空航天器能力的国家或者组织.... 原因如下: 地球上的气候变化和大气层中的云层涡旋场有密切的关系,而维持一个在大气层某个层次
oracle 中 rollup、cube、grouping 使用详解 daizj oracle grouping rollup cube
oracle 中 rollup、cube、grouping 使用详解 -- 使用oracle 样例表演示转自namesliu -- 使用oracle 的样列库，演示 rollup, cube, grouping 的用法与使用场景 --- ROLLUP ，为了理解分组的成员数量，我增加了分组的计数 COUNT(SAL)
技术资料汇总分享 Dead_knight 技术资料汇总分享
本人汇总的技术资料，分享出来，希望对大家有用。 http://pan.baidu.com/s/1jGr56uE 资料主要包含： Workflow->工作流相关理论、框架(OSWorkflow、JBPM、Activiti、fireflow...) Security->java安全相关资料(SSL、SSO、SpringSecurity、Shiro、JAAS...) Ser
初一下学期难记忆单词背诵第一课 dcj3sjt126com english word
could 能够 minute 分钟 Tuesday 星期二 February 二月 eighteenth 第十八 listen 听 careful 小心的，仔细的 short 短的 heavy 重的 empty 空的 certainly 当然 carry 携带；搬运 tape 磁带 basket 蓝子 bottle 瓶 juice 汁，果汁 head 头；头部
截取视图的图片, 然后分享出去 dcj3sjt126com OS Objective-C
OS 7 has a new method that allows you to draw a view hierarchy into the current graphics context. This can be used to get an UIImage very fast. I implemented a category method on UIView to get the vi
MySql重置密码 fanxiaolong MySql重置密码
方法一: 在my.ini的[mysqld]字段加入： skip-grant-tables 重启mysql服务，这时的mysql不需要密码即可登录数据库然后进入mysql mysql>use mysql; mysql>更新 user set password=password('新密码') WHERE User='root'; mysq
Ehcache（03）——Ehcache中储存缓存的方式 234390216 ehcache MemoryStore DiskStore 存储驱除策略
Ehcache中储存缓存的方式目录 1 堆内存（MemoryStore） 1.1 指定可用内存 1.2 驱除策略 1.3 元素过期 2 &nbs
spring mvc中的@propertysource jackyrong spring mvc
在spring mvc中，在配置文件中的东西，可以在java代码中通过注解进行读取了： @PropertySource 在spring 3.1中开始引入比如有配置文件 config.properties mongodb.url=1.2.3.4 mongodb.db=hello 则代码中 @PropertySource(&
重学单例模式 lanqiu17 单例 Singleton 模式
最近在重新学习设计模式，感觉对模式理解更加深刻。觉得有必要记下来。第一个学的就是单例模式，单例模式估计是最好理解的模式了。它的作用就是防止外部创建实例，保证只有一个实例。单例模式的常用实现方式有两种，就人们熟知的饱汉式与饥汉式，具体就不多说了。这里说下其他的实现方式静态内部类方式: package test.pattern.singleton.statics; publ
.NET开源核心运行时，且行且珍惜 netcome java .net 开源
背景 2014年11月12日，ASP.NET之父、微软云计算与企业级产品工程部执行副总裁Scott Guthrie，在Connect全球开发者在线会议上宣布，微软将开源全部.NET核心运行时，并将.NET 扩展为可在 Linux 和 Mac OS 平台上运行。.NET核心运行时将基于MIT开源许可协议发布，其中将包括执行.NET代码所需的一切项目——CLR、JIT编译器、垃圾收集器（GC）和核心
使用oscahe缓存技术减少与数据库的频繁交互 Everyday都不同 Web 高并发 oscahe缓存
此前一直不知道缓存的具体实现，只知道是把数据存储在内存中，以便下次直接从内存中读取。对于缓存的使用也没有概念，觉得缓存技术是一个比较”神秘陌生“的领域。但最近要用到缓存技术，发现还是很有必要一探究竟的。缓存技术使用背景：一般来说，对于web项目，如果我们要什么数据直接jdbc查库好了，但是在遇到高并发的情形下，不可能每一次都是去查数据库，因为这样在高并发的情形下显得不太合理——
Spring+Mybatis 手动控制事务 toknowme mybatis
@Override public boolean testDelete(String jobCode) throws Exception { boolean flag = false; &nbs
菜鸟级的android程序员面试时候需要掌握的知识点 xp9802 android
熟悉Android开发架构和API调用掌握APP适应不同型号手机屏幕开发技巧熟悉Android下的数据存储熟练Android Debug Bridge Tool 熟练Eclipse/ADT及相关工具熟悉Android框架原理及Activity生命周期熟练进行Android UI布局熟练使用SQLite数据库；熟悉Android下网络通信机制，S