Augenstern K

zookeeper —— 分布式服务协调框架

一、Zookeeper概述
- 1、Zookeeper的基本概念
- 2、Zookeeper的特点
- 3、Zookeeper的数据结构
二、Zookeeper的安装部署
- 1、Zookeeper的下载
- 2、Zookeeper的安装
- - 本地模式（单机模式standalone）安装部署
  - 分布式（集群模式cluster）安装部署
三、zookeeper的内部实现原理
- 1、选举机制
- - 1、Zookeeper第一次启动的选举机制
  - 2、zookeeper非第一次启动的选举机制
- 2、Zookeeper写数据流程
- - 1、直接写Leader节点的流程
  - 2、直接写Follower的流程
  - 3、写数据流程的详细概述
四、Zookeeper的客户端命令行操作
- 1、命令行语法
- 2、命令行基本操作
五、高可用HA-Hadoop集群的搭建
- 1、高可用HA概述
- 2、HDFS-HA工作机制：通过双namenode消除单点故障
- 3、HDFS-HA集群配置
六、YARN-HA配置
- 配置YARN-HA集群
七、在高可用环境下如何用MR程序做单词计数

一、Zookeeper概述

1、Zookeeper的基本概念

Zookeeper是一个开源的分布式的，为分布式应用提供协调服务的Apache项目。
Zookeeper从设计模式角度来理解：是一个基于观察者模式设计的分布式服务管理框架，它负责存储和管理大家都关心的数据，然后接受观察者的注册，一旦这些数据的状态发生变化，Zookeeper就将负责通知已经在Zookeeper上注册的那些观察者做出相应的反应，从而实现集群中类似Master/Slave管理模式
Zookeeper = 文件系统 + 通知机制

2、Zookeeper的特点

Zookeeper：一个领导者（leader），多个跟随者（follower）组成的集群。
Leader负责进行投票的发起和决议，更新系统状态
Follower用于接收客户请求并向客户端返回结果，在选举Leader过程中参与投票
群中只要有半数以上节点存活，Zookeeper集群就能正常服务。
全局数据一致：每个server保存一份相同的数据副本，client无论连接到哪个server，数据都是一致的。
更新请求顺序进行，来自同一个client的更新请求按其发送顺序依次执行。
数据更新原子性，一次数据更新要么成功，要么失败。
实时性，在一定时间范围内，client能读到最新数据。

3、Zookeeper的数据结构

ZooKeeper数据模型的结构与Unix文件系统很类似，整体上可以看作是一棵树，每个节点称做一个ZNode。
Zookeeper集群自身维护了一套数据结构。这个存储结构是一个树形结构，其上的每一个节点，我们称之为"znode"，不同于树的节点，Znode的引用方式是路径引用，类似于文件路径：/znode1/leaf1
这样的层级结构，让每一个Znode节点拥有唯一的路径，就像命名空间一样对不同信息作出清晰的隔离。
ZooKeeper的节点是通过像树一样的结构来进行维护的，并且每一个节点通过路径来标示以及访问。
除此之外，每一个节点还拥有自身的一些信息，包括：数据、数据长度、创建时间、修改时间等等。
从这样一类既含有数据，又作为路径表标示的节点的特点中，可以看出，ZooKeeper的节点既可以被看做是一个文件，又可以被看做是一个目录，它同时具有二者的特点。为了便于表达，今后我们将使用Znode来表示所讨论的ZooKeeper节点。
每一个znode默认能够存储1MB的数据
znode是由客户端创建的，它和创建它的客户端的内在联系，决定了它的存在性，一般存在四种类型节点：
- PERSISTENT-持久化节点：创建本节点的客户端在与zookeeper服务的连接断开后，这个节点也不会被删除（除非使用API强制删除）
- PERSISTENT_SEQUENTIAL-持久化顺序编号节点：当客户端请求创建这个节点A后，zookeeper会根据parent-znode的zxid状态，为这个A节点编写一个全目录唯一的编号（这个编号只会一直增长）。当客户端与zookeeper服务的连接断开后，这个节点也不会被删除。
- EPHEMERAL-临时目录节点：创建本节点的客户端在与zookeeper服务的连接断开后，这个节点（还有涉及到的子节点）就会被删除。
- EPHEMERAL_SEQUENTIAL-临时顺序编号目录节点：当客户端请求创建这个节点A后，zookeeper会根据parent-znode的zxid状态，为这个A节点编写一个全目录唯一的编号（这个编号只会一直增长）。当创建这个节点的客户端与zookeeper服务的连接断开后，这个节点被删除。
- 【注意】：无论是EPHEMERAL还是EPHEMERAL_SEQUENTIAL节点类型，在zookeeper的client异常终止后，节点也会被删除。

二、Zookeeper的安装部署

1、Zookeeper的下载

在Zookeeper官网，选择你需要的版本进行下载，以下是我下载的版本。

2、Zookeeper的安装

本地模式（单机模式standalone）安装部署

Step1：将下载好的压缩包上传到虚拟机的指定目录下，我上传到了/opt/software/

Step2：将压缩包进行解压到指定目录下，我解压到了/opt/app/下

tar -zxvf apache-zookeeper-3.8.2-bin.tar.gz -C /opt/app/

Step3：将zookeeper的文件夹进行重命名

mv apache-zookeeper-3.8.2-bin/ zookeeper-3.8.2

Step4：配置环境变量，并进行source使配置文件生效

vim /etc/profile source /etc/profile

Step5：进入/opt/app/zookeeper-3.8.2/conf目录下，将此配置文件进行重命名mv zoo_sample.cfg zoo.cfg，然后进行编辑。并且在/opt/app/zookeeper-3.8.2/新建目录touch zkData

Step6：使用命令zkServer.sh start启动zookeeper，使用命令zkServer.sh status查看zookeeper状态，使用命令netstat -untlp查看端口号

Step7：使用命令zkCli.sh -server localhost:2181，进入客户端

Step8：使用命令zkServer.sh stop退出

分布式（集群模式cluster）安装部署

集群规划

在node1、node2、node3三个节点上部署Zookeeper。

先选择node1节点进行解压安装步骤和本地模式安装部署一样
修改配置文件zoo.cfg

[root@node1 software]# vim /opt/app/zookeeper/conf/zoo.cfg
#修改dataDir数据目录
dataDir=/opt/module/zookeeper-3.8.2/zkData
#在文件最后增加如下配置
server.1=node1:2888:3888
server.2=node2:2888:3888
server.3=node3:2888:3888

server.A=B:C:D。
A是一个数字，表示这个是第几号服务器；
B是这个服务器的ip地址；
C是这个服务器与集群中的Leader服务器交换信息的端口；
D是万一集群中的Leader服务器挂了，需要一个端口来重新进行选举，选出一个新的Leader，而这个端口就是用来执行选举时服务器相互通信的端口。
集群模式下配置一个文件myid，这个文件在dataDir目录下，这个文件里面有一个数据就是A的值，Zookeeper启动时读取此文件，拿到里面的数据与zoo.cfg里面的配置信息比较从而判断到底是哪个server。

在/opt/app/zookeeper-3.8.2下创建一个文件夹mkdir zkData，再进入此目录创建文件touch myid定义当前主机的编号。

#在配置zoo.cfg的时候配置了server.1/2/3这个配置项中  数字123代表的就是第几号服务器
#其中这个数字必须在zookeeper的zkData的myid文件中定义  并且定义的时候必须和配置项对应的IP相互匹配
[root@node1 zookeeper]# touch /opt/app/zookeeper/zkData/myid
[root@node1 zookeeper]# vim /opt/app/zookeeper/zkData/myid
#文件中写入当前主机对应的数字 然后保存退出即可 例 node1节点的myid写入1   node2节点的myid写入：2   node3节点的myid写入：3

拷贝配置好的zookeeper到其他机器上

scp -r /opt/app/zookeeper-3.8.2/ root@node2:/opt/app/
scp -r /opt/app/zookeeper-3.8.2/ root@node3:/opt/app/
并分别修改myid文件中内容为2、3

将node2、node3节点上的zookeeper所需的环境变量进行配置。

分别启动zookeeper并查看状态

三、zookeeper的内部实现原理

1、选举机制

半数机制（Paxos协议）：集群中半数以上机器存活，集群可用。所以zookeeper适合装在奇数台机器上。
Zookeeper虽然在配置文件中并没有指定master和slave。但是，zookeeper工作时，是有一个节点为leader，其他则为follower，Leader是通过内部的选举机制临时产生的

1、Zookeeper第一次启动的选举机制

Zookeeper的内部选举机制
- 假设有五台服务器组成的zookeeper集群，它们的id从1-5，同时它们都是最新启动的，也就是没有历史数据，在存放数据量这一点上，都是一样的。假设这些服务器依序启动，他们内部的实现过程如图所示
  - 服务器1启动，此时只有它一台服务器启动了，它发出去的报没有任何响应，所以它的选举状态一直是LOOKING状态。
  - 服务器2启动，它与最开始启动的服务器1进行通信，互相交换自己的选举结果，由于两者都没有历史数据，所以id值较大的服务器2胜出，但是由于没有达到超过半数以上的服务器都同意选举它(这个例子中的半数以上是3)，所以服务器1、2还是继续保持LOOKING状态。
  - 服务器3启动，根据前面的理论分析，服务器3成为服务器1、2、3中的老大，而与上面不同的是，此时有三台服务器选举了它，所以它成为了这次选举的leader。
  - 服务器4启动，根据前面的分析，理论上服务器4应该是服务器1、2、3、4中最大的，但是由于前面已经有半数以上的服务器选举了服务器3，所以它只能接收当小弟的命了。
  - 服务器5启动，同4一样当小弟。

2、zookeeper非第一次启动的选举机制

SID：服务器ID。用来唯一标识一台ZooKeeper集群中的机器，每台机器不能重复，和myid一致。
ZXID：事务ID。ZXID是一个事务ID，用来标识一次服务器状态的变更。在某一时刻，集群中的每台机器的ZXID值不一定完全一致，这ZooKeeper服务器对于客户端“更新请求”的处理逻辑有关。
Epoch：每个Leader任期的代号。没有Leader时同一轮投票过程中的逻辑时钟值是相同的。每投完一次票这个数据就会增加

2、Zookeeper写数据流程

1、直接写Leader节点的流程

2、直接写Follower的流程

3、写数据流程的详细概述

比如 Client 向 ZooKeeper 的 Server1 上写数据，发送一个写请求。
如果Server1不是Leader，那么Server1 会把接受到的请求进一步转发给Leader，因为每个ZooKeeper的Server里面有一个是Leader这个Leader 会将写请求广播给各个Server，比如Server1和Server2，各个Server写成功后就会通知Leader。
当Leader收到大多数 Server 数据写成功了，那么就说明数据写成功了。如果这里三个节点的话，只要有两个节点数据写成功了，那么认为数据写成功了。写成功之后，Leader会告诉Server1数据写成功了。
Server1会进一步通知 Client 数据写成功了，这时就认为整个写操作成功。ZooKeeper 整个写数据流程就是这样的。

四、Zookeeper的客户端命令行操作

使用命令，连接zookeeper集群zkCli.sh -server node:2181,node2:2181,node3:2181

1、命令行语法

命令基本语法	功能描述
help	显示所有操作命令
ls path [watch]	使用 ls 命令来查看当前znode中所包含的内容
ls -s path [watch]	查看当前节点信息
create [-e] [-s]	创建节点 -s 含有序列 -e 临时（重启或者超时消失）
get path [watch]	获得节点的值
set	设置节点的具体值
stat	查看节点状态
delete	删除节点
rmr/deleteall	递归删除节点

2、命令行基本操作

启动命令行客户端

zkCli.sh -server node1:2181,node2:2181,node3:2181

显示所有操作命令
```
help
```
查看znode节点信息
```
ls / 
```

查看znode某节点的详细信息

[zk: node1:2181(CONNECTED) 5] ls -s / 
[zookeeper]cZxid = 0x0 
ctime = Thu Jan 01 08:00:00 CST 1970 
mZxid = 0x0 
mtime = Thu Jan 01 08:00:00 CST 1970 
pZxid = 0x0 
cversion = -1 
dataVersion = 0 
aclVersion = 0 
ephemeralOwner = 0x0 
dataLength = 0 
numChildren = 1 

 （1）czxid：创建节点的事务 zxid 每次修改 ZooKeeper 状态都会产生一个 ZooKeeper 事务 ID。事务 ID 是 ZooKeeper 中所 有修改总的次序。每次修改都有唯一的 zxid，如果 zxid1 小于 zxid2，那么 zxid1 在 zxid2 之前发生。 
 （2）ctime：znode 被创建的毫秒数（从 1970 年开始） 
 （3）mzxid：znode 最后更新的事务 zxid 
 （4）mtime：znode 最后修改的毫秒数（从 1970 年开始） 
 （5）pZxid：znode 最后更新的子节点 zxid
 （6）cversion：znode 子节点变化号，znode 子节点修改次数 
 （7）dataversion：znode 数据变化号 
 （8）aclVersion：znode 访问控制列表的变化号 
 （9）ephemeralOwner：如果是临时节点，这个是 znode 拥有者的 session id。如果不是 临时节点则是 0。 
 （10）dataLength：znode 的数据长度 
 （11）numChildren：znode 子节点数量

创建普通节点（永久节点 + 不带序号）
```
create /sanguo "weishuwu"
```
获得节点的值
```
get -s /test 
```

创建带序号的节点（永久节点 + 带序号）

create  -s  /a

create  -s  /a 

create  /a 

如果原来没有序号节点，序号从 0 开始依次递增。如果原节点下已有 2 个节点，则再排序时从 2 开始，以此类推。

创建短暂节点（短暂节点 + 不带序号 or 带序号）

 （1）创建短暂的不带序号的节点 
create -e /b

 （2）创建短暂的带序号的节点 
create -e -s /b

 （3）在当前客户端是能查看到的 
ls /

 （4）退出当前客户端然后再重启客户端 
 [zk: node1:2181(CONNECTED) 12] quit 
 [root@node1 zookeeper-3.5.7]$ bin/zkCli.sh 
 （5）再次查看根目录下短暂节点已经删除 
ls /

修改节点数据值

[zk: node1:2181(CONNECTED) 6] set /sanguo/weiguo "simayi"

删除节点
```
delete /test
```
递归删除节点
```
deleteall /test
```
查看节点状态
```
stat /sanguo 
```
13.监听节点的数据变化
```
get -w /sanguo
```
14.监听节点的子节点变化
```
ls -w /sanguo
```

五、高可用HA-Hadoop集群的搭建

1、高可用HA概述

所谓HA（high available），即高可用（7*24小时不中断服务）。
实现高可用最关键的策略是消除单点故障。HA严格来说应该分成各个组件的HA机制：HDFS的HA和YARN的HA。
Hadoop2.0之前，在HDFS集群中NameNode存在单点故障（SPOF）。
NameNode主要在以下两个方面影响HDFS集群：
- NameNode机器发生意外，如宕机，集群将无法使用，直到管理员重启。
- NameNode机器需要升级，包括软件、硬件升级，此时集群也将无法使用。
HDFS HA功能通过配置Active/Standby两个nameNodes实现在集群中对NameNode的热备来解决上述问题。如果出现故障，如机器崩溃或机器需要升级维护，这时可通过此种方式将NameNode很快的切换到另外一台机器。

2、HDFS-HA工作机制：通过双namenode消除单点故障

HDFS-HA工作要点

元数据管理方式需要改变(不需要SecondaryNameNode)

内存中各自保存一份元数据；
Edits日志只有Active状态的namenode节点可以做写操作；
两个namenode都可以读取edits；
共享的edits放在一个共享存储中管理（qjournal和NFS两个主流实现）；

需要一个状态管理功能模块

实现了一个zkfailover，常驻在每一个namenode所在的节点，每一个zkfailover负责监控自己所在namenode节点，利用zk进行状态标识，当需要进行状态切换时，由zkfailover来负责切换，切换时需要防止brain split现象的发生。

必须保证两个NameNode之间能够ssh无密码登录。
隔离（Fence），即同一时刻仅仅有一个NameNode对外提供服务。

3、HDFS-HA集群配置

环境准备：
- 修改IP
- 修改主机名及主机名和IP地址的映射
- 关闭防火墙
- ssh免密登录
- 安装JDK，配置环境变量等
规划集群

node1	node2	node3
NameNode	NameNode	-
JournalNode	JournalNode	JournalNode
DataNode	DataNode	DataNode
ZK	ZK	ZK
ResourceManager
NodeManager	NodeManager	NodeManager

配置Zookeeper集群：在上面的笔记中已经记录过！

配置HDFS-HA集群：

配置hadoop-env.sh
```
export JAVA_HOME=/opt/app/jdk
```

配置core-site.xml

<configuration>

      <property>
          <name>fs.defaultFSname>
          <value>hdfs://HCvalue>
      property>
      
      <property>
          <name>hadoop.tmp.dirname>
          <value>/opt/app/hadoop-3.1.4/metaDatavalue>
      property>
      
      <property>
          <name>ha.zookeeper.quorumname>
          <value>node1:2181,node2:2181,node3:2181value>
      property>
configuration>

配置hdfs-site.xml

<configuration>
      
  <property>
      <name>dfs.nameservicesname>
      <value>HCvalue>
  property>
  
  <property>
      <name>dfs.ha.namenodes.HCname>
      <value>nn1,nn2value>
  property>
  
  <property>
      <name>dfs.namenode.rpc-address.HC.nn1name>
      <value>node1:9000value>
  property>
  
  <property>
      <name>dfs.namenode.rpc-address.HC.nn2name>
      <value>node2:9000value>
  property>
  
  <property>
      <name>dfs.namenode.http-address.HC.nn1name>
      <value>node1:9870value>
  property>
  
  <property>
      <name>dfs.namenode.http-address.HC.nn2name>
      <value>node2:9870value>
  property>
  
  <property>
      <name>dfs.namenode.shared.edits.dirname>
      <value>qjournal://node1:8485;node2:8485;node3:8485/HadoopClustervalue>
  property>
  
  <property>
      <name>dfs.ha.fencing.methodsname>
      <value>sshfencevalue>
  property>
  
  <property>
      <name>dfs.ha.fencing.ssh.private-key-filesname>
      <value>/root/.ssh/id_rsavalue>
  property>
  
  <property>
      <name>dfs.journalnode.edits.dirname>
      <value>/opt/app/hadoop-3.1.4/journalnodeDatavalue>
  property>
  
  <property>
      <name>dfs.permissions.enablename>
      <value>falsevalue>
  property>
  
  <property>
        <name>dfs.client.failover.proxy.provider.HCname>
      <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvidervalue>
  property>
      <property>
          <name>dfs.replicationname>
          <value>3value>
      property>
      <property>
          <name>dfs.namenode.datanode.registration.ip-hostname-checkname>
          <value>truevalue>
      property>
    <property>
      <name>dfs.ha.automatic-failover.enabledname>
      <value>truevalue>
    property>
 configuration>

拷贝配置好的hadoop环境到其他节点

scp /opt/app/hadoop-3.1.4/etc/hadoop/core-site.xml root@node2:/opt/app/hadoop-3.1.4/etc/hadoop/
scp /opt/app/hadoop-3.1.4/etc/hadoop/core-site.xml root@node3:/opt/app/hadoop-3.1.4/etc/hadoop/
scp /opt/app/hadoop-3.1.4/etc/hadoop/hdfs-site.xml root@node3:/opt/app/hadoop-3.1.4/etc/hadoop/
scp /opt/app/hadoop-3.1.4/etc/hadoop/hdfs-site.xml root@node2:/opt/app/hadoop-3.1.4/etc/hadoop/

启动HDFS-HA集群
- 安装psmisc软件
zkfc的自动故障转移需要借助psmisc软件完成，因此需要在三个节点上安装这个软件
```
yum install -y psmisc
```
- 在各个JournalNode节点上，输入以下命令启动journalnode服务：
  sbin/hadoop-daemon.sh start journalnode
- 在[nn1]上，对其进行格式化，并启动：
```
  rm -rf metaData/ journalnodeData/  删除三台节点
 /opt/app/hadoop-3.1.4   hdfs namenode -format  只需要在第一台节点格式化
                         hadoop-daemon.sh start namenode    只需要执行一次即可，之后就不需要再执行
```
- 遇到报错，如图
  - vim /opt/app/hadoop-3.1.4/etc/hadoop/hadoop-env.sh
  - scp /opt/app/hadoop-3.1.4/etc/hadoop/hadoop-env.sh root@node2:/opt/app/hadoop-3.1.4/etc/hadoop/
  - scp /opt/app/hadoop-3.1.4/etc/hadoop/hadoop-env.sh root@node3:/opt/app/hadoop-3.1.4/etc/hadoop/
  - 启动start-dfs.sh
- 在[nn2]上，同步nn1的元数据信息：
  bin/hdfs namenode -bootstrapStandby只需要执行一次即可，之后就不需要再执行；
  
  hadoop-daemon.sh start namenode并在第二台节点上启动namenode
- 在三台节点上启动datanodehadoop-daemon.sh start datanode
- 重新启动HDFS
  - 关闭所有HDFS服务：sbin/stop-dfs.sh
  - 启动Zookeeper集群：bin/zkServer.sh start
  - 初始化HA在Zookeeper中状态：bin/hdfs zkfc -formatZK
  - 启动HDFS服务：sbin/start-dfs.sh
  - 在各个NameNode节点上启动DFSZK Failover Controller，先在哪台机器启动，哪个机器的NameNode就是Active NameNode:sbin/hadoop-daemin.sh start zkfc
- 验证
  - 将Active NameNode进程kill:kill -9 namenode的进程id
  - 将Active NameNode机器断开网络:service network stop

六、YARN-HA配置

配置YARN-HA集群

环境准备
- 修改IP
- 修改主机名及主机名和IP地址的映射
- 关闭防火墙
- ssh免密登录
- 安装JDK，配置环境变量等
- 配置Zookeeper集群
规划集群

node1	node2	node3
NameNode	NameNode
JournalNode	JournalNode	JournalNode
DataNode	DataNode	DataNode
ZK	ZK	ZK
ResourceManager	ResourceManager
NodeManager	NodeManager	NodeManager

具体配置 —— 在每个节点上进行配置

yarn-site.xml

<configuration>
  <property>
      <name>yarn.nodemanager.aux-servicesname>
      <value>mapreduce_shufflevalue>
  property>
  
  <property>
      <name>yarn.resourcemanager.ha.enabledname>
      <value>truevalue>
  property>
  
  <property>
      <name>yarn.resourcemanager.cluster-idname>
      <value>cluster-yarn1value>
  property>
  <property>
      <name>yarn.resourcemanager.ha.rm-idsname>
      <value>rm1,rm2value>
  property>
  <property>
      <name>yarn.resourcemanager.hostname.rm1name>
      <value>node1value>
  property>
  <property>
      <name>yarn.resourcemanager.hostname.rm2name>
      <value>node2value>
  property>
   
  <property>
      <name>yarn.resourcemanager.zk-addressname>
      <value>node1:2181,node2:2181,node3:2181value>
  property>
   
  <property>
      <name>yarn.resourcemanager.recovery.enabledname>
      <value>truevalue>
  property>
   
  <property>
      <name>yarn.resourcemanager.store.classname>     
      <value>org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStorevalue>
  property>
configuration>

同步更新其他节点的配置信息

scp /opt/app/hadoop-3.1.4/etc/hadoop/yarn-site.xml root@node2:/opt/app/hadoop-3.1.4/etc/hadoop/
scp /opt/app/hadoop-3.1.4/etc/hadoop/yarn-site.xml root@node3:/opt/app/hadoop-3.1.4/etc/hadoop/

启动hdfs （本步骤可以不做，如果搭建过HA-Hadoop集群）
- 在各个JournalNode节点上，输入以下命令启动journalnode服务：sbin/hadoop-daemon.sh start journalnode
- 在[nn1]上，对其进行格式化，并启动：
```
bin/hdfs namenode -format
sbin/hadoop-daemon.sh start namenode
```
- 在[nn2]上，同步nn1的元数据信息：bin/hdfs namenode -bootstrapStandby
- 启动[nn2]：sbin/hadoop-daemon.sh start namenode
- 启动所有datanode：sbin/hadoop-daemons.sh start datanode
- 将[nn1]切换为Active：bin/hdfs haadmin -transitionToActive nn1
启动yarn
- 在node1中执行：sbin/start-yarn.sh
- 在node2中执行：sbin/yarn-daemon.sh start resourcemanager
- 查看服务状态：bin/yarn rmadmin -getServiceState rm1

七、在高可用环境下如何用MR程序做单词计数

编辑一下wc.txt，上传到hdfs上

打开idea，创建一个maven项目，引入编程依赖于pom.xml中

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
  xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
  <modelVersion>4.0.0modelVersion>

  <groupId>com.kanggroupId>
  <artifactId>ha-testartifactId>
  <version>1.0version>
  <packaging>jarpackaging>

  <name>ha-testname>
  <url>http://maven.apache.orgurl>

  <properties>
    <project.build.sourceEncoding>UTF-8project.build.sourceEncoding>
  properties>

  <dependencies>
    <dependency>
      <groupId>org.apache.hadoopgroupId>
      <artifactId>hadoop-clientartifactId>
      <version>3.1.4version>
    dependency>
    <dependency>
      <groupId>org.apache.hadoopgroupId>
      <artifactId>hadoop-hdfsartifactId>
      <version>3.1.4version>
    dependency>
    <dependency>
      <groupId>org.slf4jgroupId>
      <artifactId>slf4j-log4j12artifactId>
      <version>1.6.1version>
    dependency>
  dependencies>
project>

编写MapReduce代码

package com.kang;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

public class WCMapper extends Mapper<LongWritable, Text,Text,LongWritable> {
    @Override
    protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, LongWritable>.Context context) throws IOException, InterruptedException {
        String line = value.toString();
        String[] words = line.split(" ");
        for (String word : words) {
            context.write(new Text(word),new LongWritable(1L));
        }
    }
}


package com.kang;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

public class WCReduce extends Reducer<Text, LongWritable,Text,LongWritable> {
    @Override
    protected void reduce(Text key, Iterable<LongWritable> values, Reducer<Text, LongWritable, Text, LongWritable>.Context context) throws IOException, InterruptedException {
        long sum = 0L;
        for (LongWritable value : values) {
            sum += value.get();
        }
        context.write(key,new LongWritable(sum));
    }
}



package com.kang;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import javax.xml.soap.Text;
import java.io.IOException;

public class WCDriver {
    public static void main(String[] args) throws IOException, InterruptedException, ClassNotFoundException {
        Configuration conf = new Configuration();
        conf.set("fs.defaultFS","hdfs://HC");

        Job job = Job.getInstance(conf);
        job.setJarByClass(WCDriver.class);
        FileInputFormat.setInputPaths(job,new Path("/wc.txt"));

        job.setMapperClass(WCMapper.class);
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(LongWritable.class);

        job.setReducerClass(WCReduce.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(LongWritable.class);
        job.setNumReduceTasks(0);

        FileOutputFormat.setOutputPath(job,new Path("/output"));

        boolean flag = job.waitForCompletion(true);
        System.exit(flag?0:1);
    }
}

将hdfs-site.xml和core-site.xml从虚拟机上导出到Java项目目录下

然后运行WCDriver，会收到报错信息，会显示权限不足，然后我们为了实现这一任务，我们将权限进行修改

再次运行程序，返回代码0，即运行成功

最后，我们将Hadoop分布式文件系统（HDFS）中文件和目录的默认权限恢复到默认权限类型

你可能感兴趣的:(Hadoop,zookeeper,debian,分布式)

数据权限访问控制（Apache Sentry） deepdata_cn 权限管理 apache sentry
ApacheSentry最初由Cloudera公司内部开发，针对Hadoop系统中的数据（主要是HDFS、Hive的数据）进行细粒度控制，对HDFS、Hive以及Impala有着良好的支持性。2013年Sentry成为Apache的孵化项目，为Hadoop集群元数据和数据存储提供集中、细粒度的访问控制。其架构包括DataEngine、Plugin、Policymetadata等部分，Plugin负
【监控系列】open-falcon yunqi1215 Monitor 自动化
Open-Falcon是一款由小米开源的分布式监控系统，具备高性能、高可用性和易扩展的特点。以下从多个维度对其进行详细解析：1.核心特点分布式架构：模块化设计，各组件独立部署，支持水平扩展。高性能：单实例可处理百万级监控指标，采用RPC通信和数据分片优化。灵活的数据模型：支持Tag（标签）标记数据，便于多维查询。实时告警：支持多条件策略、表达式告警及依赖管理。可视化：提供Dashboard和图表，
Elasticsearch 搜索引擎原理与实践 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介Elasticsearch是开源分布式搜索引擎，提供搜素、分析、数据可视化等功能。它是一个基于Lucene的全文搜索服务器，能够把结构化或非结构化的数据经过索引生成一个索引库，使其可以被搜索到。在现代Web应用中，搜索功能已经成为不可或缺的一项功能。但是传统上，传统搜索方式需要依赖于数据库查询或者其他复杂的查询接口。而Elasticsearch提供了一种高效、稳
spring +kotlin 配置redis 和redis的常用方法 LCY133 spring后端 spring java 后端
在SpringBoot+Kotlin项目中，可以同时使用RedissonClient（提供分布式对象和高级功能）和RedisTemplate（SpringDataRedis的标准操作）。以下是完整配置和用法示例：1.添加依赖在build.gradle.kts中引入依赖：dependencies{//SpringDataRedisimplementation("org.springframework
Operating System Concepts读书笔记——操作系统本质、类型与发展【1】墨汁儿操作系统
文章目录一、操作系统基础概念1.操作系统功能2.计算机系统组成部分3.用户角度对操作系统的需求4.系统角度二、各类型操作系统1.大型机系统1.1批处理系统1.2多道程序系统1.3分时系统2.桌面系统3.多处理器系统4.分布式系统4.1客户机-服务器系统4.2对等系统5.集群系统6.实时系统7.手持系统三、其它1.功能迁移2.计算环境2.1传统计算2.2基于Web的计算2.3嵌入式计算一、操作系统基
Ubuntu & Debian 系统下挂载 Samba 共享目录的完整指南 YiYueHuan ubuntu debian linux Samba NAS
文章目录Ubuntu&Debian系统下挂载Samba共享目录的完整指南前提条件挂载Samba共享临时挂载避免明文密码永久挂载常见选项卸载故障排查Ubuntu&Debian系统下挂载Samba共享目录的完整指南想把NAS中的内容通过Samba挂载到OrangePi5B，但是OrangePi5B提供的内核默认是没有开启CONFIG_CIFS的，所以就整理了一下。在Ubuntu/Debian系统上挂载
hbase表无法删除，命令行卡住问题处理 spring208208 大数据组件线上问题分析 hbase 数据库大数据
问题现象hbase表无法删除，命令行卡住1.activemaster日志出现超时WARNorg.apache.hadoop.hbase.master.procedure.TruncateTableProcedure:Retriableerrortryingtotruncatetable=xxxstate=TRUNCATE_TABLE_PRE_OPERATIONorg.apache.hadoop.h
cifs挂载 mount ubuntu_在Linux上使用CIFS，如何挂载Windows共享王小约 cifs挂载 mount ubuntu
在Linux和UNIX操作系统上，可以使用mount命令的cifs选项将Windows共享安装在本地目录。常见的Internet文件系统(CIFS)是网络文件共享协议，CIFS是SMB的一种形式。在本教程中，解释如何在Windows共享上手动和自动挂载Linux系统。安装CIFS程序包要在Windows系统上挂载Linux共享，首先需要安装CIFS程序包。在Ubuntu和Debian上安装CIFS
Linux中挂载Windows Samba共享的指南执剑走天涯xp linux windows 运维
主要步骤：安装cifs-utils确保你的Linux系统已安装cifs-utils包。如果未安装，使用以下命令：sudoapt-getinstallcifs-utils#Debian/Ubuntu系统sudoyuminstallcifs-utils#CentOS/RHEL系统创建挂载点创建一个本地目录来挂载Windows共享：sudomkdir/mnt/share编辑/etc/fstab文件使用文
探索NebulaGraph：一个开源分布式图数据库的技术解析一休哥助手数据库分布式系统开源分布式数据库
1.介绍NebulaGraph的定位和用途NebulaGraph是一款开源的分布式图数据库，专注于存储和处理大规模图数据。它的主要定位是为了解决图数据存储和分析的问题，能够处理节点和边数量巨大、结构复杂的图结构数据。NebulaGraph被设计用来应对各种领域的图数据挑战，包括社交网络分析、推荐系统、网络安全监测等。无论是从数据量还是计算复杂度上，NebulaGraph都能够应对各种挑战，为用户提
我与DeepSeek读《大型网站技术架构》- 总结诺亚凹凸曼架构
文章目录读后感一、总结二、反思三、创新四、展望当代大型网站架构一、架构分层模型二、关键组件与技术选型三、架构演进策略四、架构突破口读后感一、总结架构演化优先于设计大型网站架构不是预先设计的产物，而是通过反复迭代和试错演化形成的。技术选型的核心动机是对业务需求的深刻理解，而非盲目模仿。典型案例包括淘宝架构因业务爆发力被迫转型为分布式系统。开放与协作的价值互联网的开放生态通过API经济（如淘宝Open
如何设计一个高可用的 Seata 集群？码农技术栈 java spring boot spring cloud 微服务架构 spring
——从零搭建永不宕机的分布式事务协调系统一、为什么需要高可用Seata集群？在分布式系统中，事务协调器TC是全局事务的“大脑”。一旦TC单点故障：灾难性后果：所有进行中的全局事务将卡死，业务完全不可用数据不一致风险：已提交的事务可能无法完成最终提交或回滚因此，构建高可用Seata集群是生产环境的必选项！二、Seata高可用架构设计核心要点1.TC集群化部署多节点部署：至少部署3个TC实例（奇数节点
SpringCloud框架下的注册中心比较：Eureka与Consul的实战解析耶耶Norsea 网络杂烩 spring cloud
摘要在探讨SpringCloud框架中的两种注册中心之前，有必要回顾单体架构与分布式架构的特点。单体架构将所有业务功能集成在一个项目中，优点是架构简单、部署成本低，但耦合度高。分布式架构则根据业务功能对系统进行拆分，每个模块作为独立服务开发，降低了服务间的耦合，便于升级和扩展，然而其复杂性增加，运维、监控和部署难度也随之提高。关键词SpringCloud,注册中心,单体架构,分布式架构,服务拆分一
Spring Cloud Config 快速介绍与实例 oscar999 Spring Boot实战开发大全 Spring Boot Cloud Config
SpringCloudConfig是什么？SpringCloudConfig是一个用于分布式系统的配置管理工具，提供集中化的外部配置支持。它适用于微服务架构，能够将各个服务的配置集中存储在服务端（如Git仓库），客户端按需动态获取配置，解决了配置分散、环境切换复杂等问题。SpringCloudConfig核心概念ConfigServer：配置中心服务端，统一管理配置，支持Git、本地文件等存储方式
Seata分布式事务框架及四种模式原理解析 Cloud_. 分布式 seata java Seata-AX Seata-AT
一、Seata核心概念Seata（SimpleExtensibleAutonomousTransactionArchitecture）是阿里开源的分布式事务解决方案，核心思想是通过事务协调器（TC）统一管理全局事务分支的状态，协调资源管理器（RM）和事务管理器（TM）完成事务的提交与回滚。核心组件：TC(TransactionCoordinator)：全局事务协调者，维护全局事务状态，驱动分支事务
Spring Boot 整合 RabbitMQ：注解声明队列与交换机详解 Cloud_. java-rabbitmq spring boot rabbitmq MQ 消息队列
RabbitMQ作为一款高性能的消息中间件，在分布式系统中广泛应用。SpringBoot通过spring-boot-starter-amqp提供了对RabbitMQ的无缝集成，开发者可以借助注解快速声明队列、交换机及绑定规则，极大简化了配置流程。本文将通过代码示例和原理分析，详细介绍如何用注解实现RabbitMQ的集成，并深入解析交换机的作用与类型。一、环境准备1.添加依赖在pom.xml中引入S
云原生工程师必修课：如何揪出“假忙真闲”的应用元凶 YAMLMaster 面试题 kubernetes 运维开发 devops
Tagamanent,Spain引言这是一个再经典不过的面试题了，希望大家能学到精髓。开始介绍在分布式系统和高并发场景中，高负载（HighLoad）与低使用率（LowUtilization）的共存矛盾是运维和开发者的常见挑战。这种问题往往隐蔽性强，传统监控指标难以直接定位根因。本文从系统层、应用层、架构层多维度拆解，提供一套完整的排查与优化方法论。核心概念厘清•负载（Load）：系统当前待处理任务
基于Redis分布锁+事务补偿解决数据不一致性问题 yiridancan 并发编程 Redis 分布式 redis 数据库缓存
基于Redis的分布式设备库存服务设计与实现概述本文介绍一个基于Redis实现的分布式设备库存服务方案，通过分布式锁、重试机制和事务补偿等关键技术，保证在并发场景下库存操作的原子性和一致性。该方案适用于物联网设备管理、分布式资源调度等场景。代码实现importjava.util.HashMap;importjava.util.Map;importorg.slf4j.Logger;importorg
http协议与https协议网络文化渗透 http https 网络协议网络
HTTP（HyperTextTransferProtocol：超文本传输协议）是一种用于分布式、协作式和超媒体信息系统的应用层协议。简单来说就是一种发布和接收HTML页面的方法，被用于在Web浏览器和网站服务器之间传递信息。HTTP默认工作在TCP协议80端口，用户访问网站http://打头的都是标准HTTP服务HTTP协议以明文方式发送内容，不提供任何方式的数据加密，如果攻击者截取了Web浏览器
使用Couchbase实现高效的AI应用缓存与数据存储 scaFHIO 人工智能缓存 python
在当今AI应用的开发中，除了模型本身的性能，数据存储和缓存的效率也至关重要。Couchbase作为一款分布式NoSQL云数据库，其性能、可扩展性以及对AI、边缘计算应用的支持能力，使其成为优秀的选择。在本文中，我们将探讨如何通过Couchbase来实现高效的数据存储与缓存，尤其是在AI应用中。技术背景介绍随着AI应用规模的扩大和复杂度的增加，我们需要可靠的数据存储解决方案来满足实时性要求，同时减少
使用GitHub API进行智能文档加载 fgayif github python
GitHub是一个强大的开发者平台，提供了代码存储、管理和分享的功能。它采用Git软件，增强了分布式版本控制，同时提供了访问控制、错误跟踪、软件功能请求、任务管理、持续集成和项目的wiki等功能。随着AI技术的发展，我们可以利用GitHub的API实现智能文档加载，以便更好地进行代码管理和分析。下面我将介绍如何使用GitHubAPI进行文档加载，并通过实用的代码示例来帮助大家理解。技术背景介绍Gi
debian(ubuntu) 系统 vsftpd 配置虚拟帐号 eli960 LINUX vsftpd ftp
首先说明帐号的认证通过pam认证方式,采用pam的mysql插件.安装libpam-mysql和vsftpdapt-getinstalllibpam-mysqlapt-getinstallvsftpdmysql的库,表,字段,假设如下:库名DBV表名TB字段USER和PASSWORD数据库的帐号密码DBUSERDBPASSWROD/etc/pam.d/vsftpd的内容如下authrequired
Java架构师成长之路 hweiyu00 分享 spring 微服务 spring cloud java
概述本教程主要从6个方面，全面讲解Java技术栈的知识。1.性能调优深入理解MySQL底层原理、索引逻辑，数据结构与算法。使用Explain进行优化分析MVCC原理剖析日志机制解析2.框架源码掌握Spring底层原理带你手写一个Spring解析IOC、AOP源码、以及事务原理3.并发编程剖析Java底层锁机制CAS、JUC工具使用、AQS源码分析以及并发的集合类的讲解4.分布式开发剖析分布式中使用
【读点论文】Chain Replication for Supporting High Throughput and Availability 寻雾&启示分布式系统论文阅读
在分布式系统中，强一致性往往和高可用、高吞吐是矛盾的。比如传统的关系型数据库，其保证了强一致性，但往往牺牲了可用性和吞吐量。而像NoSQL数据库，虽然其吞吐量、和扩展性很高，但往往只支持最终一致性，无法保证强一致性。由此ChainReplicationforSupportingHighThroughputandAvailability提出了链式复制协议，旨在保证高吞吐、高可用的同时，支持数据的强一
【自建分布式数据库详细指南】（五）使用：常见API及使用问题大板牙花生分布式
延续前几篇文章，下面着重从一些基本的API讲讲从入门到习惯的常用方法，后续更新。USAGE1节点管理设置主节点，又成为协调节点SELECTcitus_set_coordinator_host('coord.example.com',5432);step1.创建节点select*frommaster_add_node('new-node',12345);step2.删除节点step3.新增节点后重新
Rust + 时序数据库 TDengine：打造高性能时序数据处理利器涛思数据（TDengine）时序数据库 rust tdengine
引言：为什么选择TDengine与Rust？TDengine是一款专为物联网、车联网、工业互联网等时序数据场景优化设计的开源时序数据库，支持高并发写入、高效查询及流式计算，通过“一个数据采集点一张表”与“超级表”的概念显著提升性能。Rust作为一门系统级编程语言，近年来在数据库、嵌入式系统、分布式服务等领域迅速崛起，以其内存安全、高性能著称，与TDengine的高效特性天然契合，适合构建高可靠、高
如何设计一个 RPC 框架？需要考虑哪些点？蒂法就是我 rpc 网络协议网络
设计一个完整的RPC框架需要覆盖以下核心模块及关键技术点：一、核心架构模块模块功能与实现要点服务注册与发现使用Zookeeper/Nacos等实现服务地址动态注册与订阅，支持心跳检测和节点变更通知网络通信层基于Netty或gRPC的HTTP/2实现异步非阻塞传输，优化连接池复用与零拷贝技术序列化协议支持Protobuf（高性能）、JSON（可读性）、Hessian（跨语言）等，需平衡性能与扩展性动
systemd-networkd 的 /etc/systemd/network/*.network 的配置属性名称是不是严格区分大小写?是 kfepiza #Linux CentOS Ubuntu 等网络通讯传输协议物联网络运维 tcp/ip linux
systemd-networkd的/etc/systemd/network/*.network的配置属性名称是不是严格区分大小写?是查看官方文档可以用mansystemd.network命令,或访问:https://www.freedesktop.org/software/systemd/man/latest/systemd.network.html亲测在Debian10.12-standard中
【Linux 下的 bash 无法正常解析, Windows 的 CRLF 换行符问题导致的】待磨的钝刨 linux bash windows
文章目录报错原因：解决办法：方法一：用`dos2unix`修复方法二：手动转换换行符方法三：VSCode或其他编辑器手动改总结这个错误很常见，原因是你的wait_for_gpu.sh脚本文件格式不对，具体来说是Windows的CRLF换行符问题导致的，Linux下的bash无法正常解析。hadoop@hadoop:~/anaconda3$bashwait_for_gpu.sh:invalidopt
LLM之向量数据库Chroma milvus FAISS maxmaxma 数据库 milvus faiss
以下是Chroma、Milvus和FAISS的核心区别，从功能定位、架构设计、性能及应用场景等维度进行对比：一、功能定位Chroma轻量级向量数据库：专注于快速构建中小型语义搜索原型，提供简单易用的API，适合快速集成到现有应用中。特点：支持近似最近邻搜索（ANN）、实时性能优化，但对大规模数据处理能力有限。Milvus分布式向量数据库：专为超大规模向量数据设计，支持云原生架构和高可用性，适合企业
java Illegal overloaded getter method with ambiguous type for propert的解决 zwllxs java jdk
好久不来iteye,今天又来看看，哈哈,今天碰到在编码时，反射中会抛出 Illegal overloaded getter method with ambiguous type for propert这么个东东，从字面意思看，是反射在获取getter时迷惑了，然后回想起java在boolean值在生成getter时，分别有is和getter，也许我们的反射对象中就有is开头的方法迷惑了jdk，
IT人应当知道的10个行业小内幕 beijingjava 工作互联网
10. 虽然IT业的薪酬比其他很多行业要好，但有公司因此视你为其“佣人”。　　尽管IT人士的薪水没有互联网泡沫之前要好，但和其他行业人士比较，IT人的薪资还算好点。在接下的几十年中，科技在商业和社会发展中所占分量会一直增加，所以我们完全有理由相信，IT专业人才的需求量也不会减少。　　然而，正因为IT人士的薪水普遍较高，所以有些公司认为给了你这么多钱，就把你看成是公司的“佣人”，拥有你的支配
java 实现自定义链表 CrazyMizzz java 数据结构
1.链表结构链表是链式的结构 2.链表的组成链表是由头节点，中间节点和尾节点组成节点是由两个部分组成： 1.数据域 2.引用域 3.链表的实现 &nbs
web项目发布到服务器后图片过一会儿消失麦田的设计者 struts2 上传图片永久保存
作为一名学习了android和j2ee的程序员，我们必须要意识到，客服端和服务器端的交互是很有必要的，比如你用eclipse写了一个web工程，并且发布到了服务器（tomcat）上，这时你在webapps目录下看到了你发布的web工程，你可以打开电脑的浏览器输入http://localhost:8080/工程/路径访问里面的资源。但是，有时你会突然的发现之前用struts2上传的图片
CodeIgniter框架Cart类 name 不能设置中文的解决方法 IT独行者 CodeIgniter Cart 框架　
今天试用了一下CodeIgniter的Cart类时遇到了个小问题，发现当name的值为中文时，就写入不了session。在这里特别提醒一下。在CI手册里也有说明，如下： $data = array( 'id' => 'sku_123ABC', 'qty' => 1, '
linux回收站 _wy_ linux 回收站
今天一不小心在ubuntu下把一个文件移动到了回收站，我并不想删，手误了。我急忙到Nautilus下的回收站中准备恢复它，但是里面居然什么都没有。后来我发现这是由于我删文件的地方不在HOME所在的分区，而是在另一个独立的Linux分区下，这是我专门用于开发的分区。而我删除的东东在分区根目录下的.Trash-1000/file目录下，相关的删除信息（删除时间和文件所在
jquery回到页面顶端知了ing html jquery css
html代码： <h1 id="anchor">页面标题</h1> <div id="container">页面内容</div> <p><a href="#anchor" class="topLink">回到顶端</a><
B树、B-树、B+树、B*树矮蛋蛋 B树
原文地址： http://www.cnblogs.com/oldhorse/archive/2009/11/16/1604009.html B树即二叉搜索树： 1.所有非叶子结点至多拥有两个儿子（Left和Right）； &nb
数据库连接池 alafqq 数据库连接池
http://www.cnblogs.com/xdp-gacl/p/4002804.html @Anthor:孤傲苍狼数据库连接池用MySQLv5版本的数据库驱动没有问题，使用MySQLv6和Oracle的数据库驱动时候报如下错误： java.lang.ClassCastException: $Proxy0 cannot be cast to java.sql.Connec
java泛型百合不是茶 java泛型
泛型在Java SE 1.5之前，没有泛型的情况的下，通过对类型Object的引用来实现参数的“任意化”，任意化的缺点就是要实行强制转换，这种强制转换可能会带来不安全的隐患泛型的特点：消除强制转换确保类型安全向后兼容简单泛型的定义：泛型：就是在类中将其模糊化，在创建对象的时候再具体定义 class fan
javascript闭包[两个小测试例子] bijian1013 JavaScript JavaScript
一.程序一 <script> var name = "The Window"; var Object_a = { 　　name : "My Object", 　　getNameFunc : function(){ var that = this; 　　　　return function(){ 　　　　
探索JUnit4扩展：假设机制（Assumption） bijian1013 java Assumption JUnit 单元测试
一.假设机制（Assumption）概述理想情况下，写测试用例的开发人员可以明确的知道所有导致他们所写的测试用例不通过的地方，但是有的时候，这些导致测试用例不通过的地方并不是很容易的被发现，可能隐藏得很深，从而导致开发人员在写测试用例时很难预测到这些因素，而且往往这些因素并不是开发人员当初设计测试用例时真正目的，
【Gson四】范型POJO的反序列化 bit1129 POJO
在下面这个例子中，POJO(Data类)是一个范型类，在Tests中，指定范型类为PieceData，POJO初始化完成后，通过 String str = new Gson().toJson(data); 得到范型化的POJO序列化得到的JSON串，然后将这个JSON串反序列化为POJO import com.google.gson.Gson; import java.
【Spark八十五】Spark Streaming分析结果落地到MySQL bit1129 Stream
几点总结： 1. DStream.foreachRDD是一个Output Operation，类似于RDD的action，会触发Job的提交。DStream.foreachRDD是数据落地很常用的方法 2. 获取MySQL Connection的操作应该放在foreachRDD的参数（是一个RDD[T]=>Unit的函数类型)，这样，当foreachRDD方法在每个Worker上执行时，
NGINX + LUA实现复杂的控制 ronin47 nginx lua
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-递归判断数组是否升序 bylijinnan java
public class IsAccendListRecursive { /*递归判断数组是否升序 * if a Integer array is ascending,return true * use recursion */ public static void main(String[] args){ IsAccendListRecursiv
Netty源码学习-DefaultChannelPipeline2 bylijinnan java netty
Netty3的API http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/ChannelPipeline.html 里面提到ChannelPipeline的一个“pitfall”：如果ChannelPipeline只有一个handler（假设为handlerA）且希望用另一handler（假设为handlerB）来
Java工具之JPS chinrui java
JPS使用熟悉Linux的朋友们都知道，Linux下有一个常用的命令叫做ps（Process Status)，是用来查看Linux环境下进程信息的。同样的，在Java Virtual Machine里面也提供了类似的工具供广大Java开发人员使用，它就是jps（Java Process Status)，它可以用来
window.print分页打印 ctrain window
function init() { var tt = document.getElementById("tt"); var childNodes = tt.childNodes[0].childNodes; var level = 0; for (var i = 0; i < childNodes.length; i++) {
安装hadoop时执行jps命令Error occurred during initialization of VM daizj jdk hadoop jps
在安装hadoop时，执行JPS出现下面错误 [slave16][email protected]:/tmp/hsperfdata_hdfs# jps Error occurred during initialization of VM java.lang.Error: Properties init: Could not determine current working
PHP开发大型项目的一点经验 dcj3sjt126com PHP 重构
一、变量最好是把所有的变量存储在一个数组中，这样在程序的开发中可以带来很多的方便，特别是当程序很大的时候。变量的命名就当适合自己的习惯，不管是用拼音还是英语，至少应当有一定的意义，以便适合记忆。变量的命名尽量规范化，不要与PHP中的关键字相冲突。二、函数 PHP自带了很多函数，这给我们程序的编写带来了很多的方便。当然，在大型程序中我们往往自己要定义许多个函数，几十
android笔记之--向网络发送GET/POST请求参数 dcj3sjt126com android
使用GET方法发送请求 private static boolean sendGETRequest (String path, Map<String, String> params) throws Exception{ //发送地http://192.168.100.91:8080/videoServi
linux复习笔记之bash shell (3) 通配符 eksliang linux 通配符 linux通配符
转载请出自出处： http://eksliang.iteye.com/blog/2104387 在bash的操作环境中有一个非常有用的功能，那就是通配符。下面列出一些常用的通配符，如下表所示符号意义 * 万用字符，代表0个到无穷个任意字符 ? 万用字符，代表一定有一个任意字符 [] 代表一定有一个在中括号内的字符。例如：[abcd]代表一定有一个字符，可能是a、b、c
Android关于短信加密 gqdy365 android
关于Android短信加密功能，我初步了解的如下（只在Android应用层试验）： 1、因为Android有短信收发接口，可以调用接口完成短信收发；发送过程：APP（基于短信应用修改）接受用户输入号码、内容——>APP对短信内容加密——>调用短信发送方法Sm
asp.net在网站根目录下创建文件夹 hvt .net C#hovertree asp.net Web Forms
假设要在asp.net网站的根目录下建立文件夹hovertree,C#代码如下： string m_keleyiFolderName = Server.MapPath("/hovertree"); if (Directory.Exists(m_keleyiFolderName)) { //文件夹已经存在 return; } else { try { D
一个合格的程序员应该读过哪些书 justjavac 程序员书籍
编者按：2008年8月4日，StackOverflow 网友 Bert F 发帖提问：哪本最具影响力的书，是每个程序员都应该读的？ “如果能时光倒流，回到过去，作为一个开发人员，你可以告诉自己在职业生涯初期应该读一本，你会选择哪本书呢？我希望这个书单列表内容丰富，可以涵盖很多东西。” 很多程序员响应，他们在推荐时也写下自己的评语。以前就有国内网友介绍这个程序员书单，不过都是推荐数
单实例实践跑龙套_az 单例
1、内部类 public class Singleton { private static class SingletonHolder { public static Singleton singleton = new Singleton(); } public Singleton getRes
PO VO BEAN 理解 q137681467 VO DTO po
PO：全称是 persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。 BO：全称是 business object:业务对象主要作用是把业务逻辑封装为一个对象。这个对
战胜惰性，暗自努力金笛子努力
偶然看到一句很贴近生活的话：“别人都在你看不到的地方暗自努力，在你看得到的地方，他们也和你一样显得吊儿郎当，和你一样会抱怨，而只有你自己相信这些都是真的，最后也只有你一人继续不思进取。”很多句子总在不经意中就会戳中一部分人的软肋，我想我们每个人的周围总是有那么些表现得“吊儿郎当”的存在，是否你就真的相信他们如此不思进取，而开始放松了对自己的要求随波逐流呢？我有个朋友是搞技术的，平时嘻嘻哈哈，以
NDK/JNI二维数组多维数组传递 wenzongliang 二维数组 jni NDK
多维数组和对象数组一样处理，例如二维数组里的每个元素还是一个数组用jArray表示，直到数组变为一维的，且里面元素为基本类型，去获得一维数组指针。给大家提供个例子。已经测试通过。 Java_cn_wzl_FiveChessView_checkWin( JNIEnv* env,jobject thiz,jobjectArray qizidata) { jint i,j; int s