lhyzws

CENTO OS上的网络安全工具（二十一）Hadoop HA swarm容器化集群部署

如果使用swarm来构建Hadoop、Spark之类的集群，一个绕不过去的问题每个容器都需要支持SSH免密互联——因为Hadoop需要。这就需要事先准备可以一键进行集群化部署的SSH镜像。

一、SSH集群及镜像的构建

1. 准备更换镜像源的Centos7

由于Centos7已经停止维护，官方的镜像源已经不能使用，所以每次pull下来以后都需要更换镜像源，为避免麻烦，我们可以自己构造一个更换清华镜像源的镜像。

（1）编辑Dockerfile文件

新建一个空目录，在其中编辑Dockerfile文件如下。由于build的时候docker会将目录里面的东西统统打包，所以尽量空的目录是有必要的。

FROM centos:centos7
RUN sed -e 's|^mirrorlist=|#mirrorlist=|g' \
        -e 's|^#baseurl=http://mirror.centos.org/centos|baseurl=https://mirrors.tuna.tsinghua.edu.cn/centos|g' \
        -i.bak \
        /etc/yum.repos.d/CentOS-*.repo \
    && yum makecache
CMD ["/bin/bash"]

（2）构建国内镜像源的centos7

在Dockerfile同路径下

[root@pig1 docker]# docker build -t pig/centos7 .
[+] Building 223.0s (6/6) FINISHED                                                                                                                                              
 => [internal] load build definition from Dockerfile                                                                                                                       0.1s
 => => transferring dockerfile: 314B                                                                                                                                       0.0s
 => [internal] load .dockerignore                                                                                                                                          0.1s
 => => transferring context: 2B                                                                                                                                            0.0s
 => [internal] load metadata for docker.io/library/centos:centos7                                                                                                          0.0s
 => [1/2] FROM docker.io/library/centos:centos7                                                                                                                            0.0s
 => [2/2] RUN sed -e 's|^mirrorlist=|#mirrorlist=|g'         -e 's|^#baseurl=http://mirror.centos.org/centos|baseurl=https://mirrors.tuna.tsinghua.edu.cn/centos|g'      219.6s
 => exporting to image                                                                                                                                                     3.2s
 => => exporting layers                                                                                                                                                    3.2s
 => => writing image sha256:dd9333ee62cd83a0b0db29ac247f9282ab00bd59354074aec28e0d934ffb1677                                                                               0.0s 
 => => naming to docker.io/pig/centos7                                                                                                                                     0.0s
[root@pig1 docker]# docker images
REPOSITORY    TAG       IMAGE ID       CREATED          SIZE
pig/centos7   latest    dd9333ee62cd   12 seconds ago   632MB
[root@pig1 docker]#

2.构建SSH镜像

（1）镜像构建准备

在构建镜像之前，我们先梳理一下SSH免密需要安装和配置的文件：

需要安装的文件：

openssh
openssh-server
openssh-clients

需要修改的文件：

在 /etc/hosts 尾部添加所有参与ssh免密的主机名和主机ip映射
在~/.ssh下设置客户端公私钥文件 ~/.ssh/id_rsa,~/.ssh/id_rsa.pub
在~/.ssh下设置已认证客户端密钥文件 ~/.ssh/authorizedkey

需要运行的指令：

运行/sbin/sshd-keygen，在/etc/ssh下生成服务端公私钥
运行/sbin/sshd -D & 启动ssh服务

构建镜像需要准备的文件：

hostlist文件，记录所有参与ssh免密的主机名和主机ip映射。由于/etc/host不能在docker奖项构建时更改（此时文件系统只读），所以只能在容器启动后通过脚本方式更改；另外，由于系统启动后，会在/etc/hosts后面增加本机的hostname和ip，所以会和hostlist中的一行重复，但/etc/host中的这一行会被系统锁定，不能删除，只能考虑将hostlist中的重复行删除再向/etc/host追加的方式实现。
init-ssh.sh文件。除上述更改/etc/host的操作外，启动ssh服务的操作也只能在容器启动后进行，所以需要一个启动脚本程序来完成。

（2）构建hostlist文件

在Dockfile同目录下新建一个hostlist文件，用来预设集群的主机名和IP地址：

[root@pig1 docker]# python3
Python 3.6.8 (default, Oct 26 2022, 09:13:21) 
[GCC 8.5.0 20210514 (Red Hat 8.5.0-17)] on linux
Type "help", "copyright", "credits" or "license" for more information.
>>> 
>>> infile = open("hostlist","w")
>>> for i in range(1,16):
...     infile.write("172.17.0.{:d}    pignode{:d}\n".format(i+1,i))
... 

>>> infile.close()

一个一个敲太麻烦，借用一下python生成一个hostlist，注意172.17.0.2是网关，不能用。

[root@pig1 docker]# cat hostlist
172.17.0.2    pignode1
172.17.0.3    pignode2
172.17.0.4    pignode3
172.17.0.5    pignode4
172.17.0.6    pignode5
172.17.0.7    pignode6
172.17.0.8    pignode7
172.17.0.9    pignode8
172.17.0.10    pignode9
172.17.0.11    pignode10
172.17.0.12    pignode11
172.17.0.13    pignode12
172.17.0.14    pignode13
172.17.0.15    pignode14
172.17.0.16    pignode15

（3）编写init-ssh.sh文件

如前所述，在docker build阶段，诸如更改hosts、启动ssh服务等操作是没有办法执行的，所以需要我们在容器启动时，通过dockfile中CMD、ENTRYPOINT等指示默认加载的启动脚本来进行。

#!/bin/bash

#1.向/etc/host文件尾部添加IP到主机名映射

#1.1 从/etc/host文件尾部提取已有主机名和IP映射
ipaddrs=`cat /etc/hosts |grep -E '[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\s\w+$'|sed 's/\s[[:alnum:]]\+$//g'`

#1.2 从hostlist文件中提取需要向/etc/hosts文件追加的IP到主机名映射表
hostlists=`cat /root/hostlist`

#1.3 从hostlist表中排除/etc/hosts中已经存在的IP到主机名映射关系
for line in $ipaddrs
do
        hostlists=`echo "${hostlists}"|sed '/'"${line}"'/d'`
done

#1.4 将剩余不重复的主机名追加到hosts文件尾部
if [ -n "$hostlists" ]
then
        echo 将"${hostlists}"添加到/etc/hosts中
        echo $hostlists >> /etc/hosts
fi

#2. 启动SSH服务，&表示在后台启动
/sbin/sshd -D &

#3. 因为sshd在后台运行，此处前台程序执行完毕，docker会自行exit
#   所以在此处需要重新调用/bin/bash，让程序保持在前台
/bin/bash

（4）编写ssh镜像的Dockerfile

试装ssh

把上面构造的pig/centos7容器启动起来一个，执行如下操作：

主要的目的，实在计划构造ssh镜像的同样的环境下先验证一遍将要执行的操作，并获取为客户端生成的公私钥文件，以方便改造

[root@pig1 docker]# docker run -it --name pig1 --hostname pignode1 --ip 172.17.0.2 pig/centos7 bash
[root@pignode1 /]# hostname
pignode1
[root@pignode1 /]# cat /etc/hosts
127.0.0.1	localhost
::1	localhost ip6-localhost ip6-loopback
fe00::0	ip6-localnet
ff00::0	ip6-mcastprefix
ff02::1	ip6-allnodes
ff02::2	ip6-allrouters
172.17.0.2	pignode1
[root@pignode1 /]# yum install openssh openssh-server openssh-clients -y
Loaded plugins: fastestmirror, ovl
Loading mirror speeds from cached hostfile
Resolving Dependencies
--> Running transaction check
…………………………
Installed:
  openssh.x86_64 0:7.4p1-22.el7_9     openssh-clients.x86_64 0:7.4p1-22.el7_9     openssh-server.x86_64 0:7.4p1-22.el7_9    
Dependency Installed:
  fipscheck.x86_64 0:1.4.1-6.el7           fipscheck-lib.x86_64 0:1.4.1-6.el7    libedit.x86_64 0:3.0-12.20121213cvs.el7   
  tcp_wrappers-libs.x86_64 0:7.6-77.el7   
Complete!
[root@pignode1 /]# cd /sbin
[root@pignode1 sbin]# sshd-keygen
[root@pignode1 ssh]# /sbin/sshd -D &
[1] 78
[root@pignode1 ssh]# ps -au
USER         PID %CPU %MEM    VSZ   RSS TTY      STAT START   TIME COMMAND
root           1  0.1  0.0  11844  3080 pts/0    Ss   12:18   0:00 bash
root          78  0.0  0.1 112952  7928 pts/0    S    12:22   0:00 /sbin/sshd -D
root          79  0.0  0.0  51748  3460 pts/0    R+   12:22   0:00 ps -au
[root@pignode1 ssh]# ssh-keygen                          
Generating public/private rsa key pair.
Enter file in which to save the key (/root/.ssh/id_rsa): 
Created directory '/root/.ssh'.
Enter passphrase (empty for no passphrase): 
Enter same passphrase again: 
Your identification has been saved in /root/.ssh/id_rsa.
Your public key has been saved in /root/.ssh/id_rsa.pub.
…………………………………………
+----[SHA256]-----+
[root@pignode1 ssh]# passwd
New password: 
Retype new password: 
passwd: all authentication tokens updated successfully.
[root@pignode1 ssh]# ssh-copy-id pignode1
/usr/bin/ssh-copy-id: INFO: Source of key(s) to be installed: "/root/.ssh/id_rsa.pub"
/usr/bin/ssh-copy-id: INFO: attempting to log in with the new key(s), to filter out any that are already installed
/usr/bin/ssh-copy-id: INFO: 1 key(s) remain to be installed -- if you are prompted now it is to install the new keys
root@pignode1's password: 
Number of key(s) added: 1
Now try logging into the machine, with:   "ssh 'pignode1'"
and check to make sure that only the key(s) you wanted were added.

[root@pignode1 ssh]# cd ~/.ssh
[root@pignode1 .ssh]# ls
authorized_keys  id_rsa  id_rsa.pub  known_hosts

伪造公钥文件

如同我们在 CENTO OS上的网络安全工具（二十）ClickHouse swarm容器化集群部署中提到过的扩充公钥的方法，对15各pignode节点都赋予访问密钥，并将.ssh文件夹中除了known_hosts文件的文件都拷贝出来备用。

在准备创建镜像的文件夹下，准备好如下所示文件：

[root@pig1 docker]# ls -a
.  ..  Dockerfile  hostlist  init-ssh.sh  .ssh

编写Dockerfile

做好以上准备工作后，可以开始构建SSH的镜像了。编写SSH的Dockerfile如下。主要需要做一下几步工作：

假设（也就是要求）启动容器的时候会指定hostname为我们拷贝的hostlist中的一个，ip为对应的ip；

将hostlist、init-ssh.sh拷贝到/root目录下——当然随便拷贝到哪都行
更改init-ssh.sh的权限，添加执行权限
将.ssh目录整个拷贝到/root目录下
更改/root/.ssh/id_rsa私钥文件权限为0400，即只有root用户可读（如果使用其他用户对应修改），否则ssh会拒绝执行
设置root用户的密钥，否则初次ssh连接的时候过不去
安装openssh及服务端、客户端；
生成sshd密钥
在ssh客户端配置文件/etc/ssh/ssh_config中添加关闭指纹校验的选项，以防免密连接的时候跳出确认是否生成指纹的问题，毕竟我们不能指望hadoop有这个功夫在终端中敲个“yes”

然后在ENTRYPOINT中，设置启动init-ssh.sh。其中，将hostlist中和当前容器hostname、ip不同的行追加到/etc/hosts的后面，构建整个集群的映射关系；启动sshd服务；返回/bin/bash。之所以不用CMD，是需要避免被容器启动时指定的运行选项屏蔽掉。

FROM pig/centos7
COPY init-ssh.sh /root/init-ssh.sh
COPY hostlist /root/hostlist
COPY .ssh /root/.ssh
RUN    chmod +x /root/init-ssh.sh \
   &&  chmod 0400 /root/.ssh/id_rsa \
   &&  echo 'default123' | passwd --stdin root \
   &&  yum install openssh openssh-server openssh-clients -y \
   &&  /sbin/sshd-keygen \
   &&  echo -e '\nHost *\nStrictHostKeyChecking no\nUserKnownHostsFile=/dev/null' >> etc/ssh/ssh_config
ENTRYPOINT ["/root/init-ssh.sh"]

编译。如果是虚拟机上测试的话，编译前一定记得看看docker0的ip地址是否正常，否则重启一下docker服务——又一次掉坑里了，检查快半小时。

[root@pig1 docker]# docker build -t pig/ssh .
[+] Building 20.5s (10/10) FINISHED                                                                                
 => [internal] load build definition from Dockerfile                                                          0.0s
 => => transferring dockerfile: 378B                                                                          0.0s
 => [internal] load .dockerignore                                                                             0.0s
 => => transferring context: 2B                                                                               0.0s
 => [internal] load metadata for docker.io/pig/centos7:latest                                                 0.0s
 => [internal] load build context                                                                             0.0s
 => => transferring context: 382B                                                                             0.0s
 => [1/5] FROM docker.io/pig/centos7                                                                          0.0s
 => CACHED [2/5] COPY init-ssh.sh /root/init-ssh.sh                                                           0.0s
 => CACHED [3/5] COPY hostlist /root/hostlist                                                                 0.0s
 => CACHED [4/5] COPY .ssh /root/.ssh                                                                         0.0s
 => [5/5] RUN    chmod +x /root/init-ssh.sh    &&  chmod 0400 /root/.ssh    &&  echo 'default123' | passwd   18.3s
 => exporting to image                                                                                        2.0s
 => => exporting layers                                                                                       2.0s
 => => writing image sha256:3e4be2ca4730b61cc8aa7f4349ebf5b0afa582aeb1f3e3a3577ce15ffcd4eee5                  0.0s 
 => => naming to docker.io/pig/ssh                                                                            0.0s 
[root@pig1 docker]#

3.测试SSH连接

启动两个容器测试一下：

pignode1

[root@pig1 centos]# docker run -it --name pig1 --hostname pignode1 --ip 172.17.0.2 pig/ssh bash
将172.17.0.3    pignode2
172.17.0.4    pignode3
172.17.0.5    pignode4
172.17.0.6    pignode5
172.17.0.7    pignode6
172.17.0.8    pignode7
172.17.0.9    pignode8
172.17.0.10    pignode9
172.17.0.11    pignode10
172.17.0.12    pignode11
172.17.0.13    pignode12
172.17.0.14    pignode13
172.17.0.15    pignode14
172.17.0.16    pignode15添加到/etc/hosts中
[root@pignode1 /]# ssh pignode2
Warning: Permanently added 'pignode2,172.17.0.3' (ECDSA) to the list of known hosts.
[root@pignode2 ~]# exit
logout

pignode2

[root@pig1 docker]# docker run -it --name pig2 --hostname pignode2 --ip 172.17.0.3 pig/ssh bash
将172.17.0.2    pignode1
172.17.0.4    pignode3
172.17.0.5    pignode4
172.17.0.6    pignode5
172.17.0.7    pignode6
172.17.0.8    pignode7
172.17.0.9    pignode8
172.17.0.10    pignode9
172.17.0.11    pignode10
172.17.0.12    pignode11
172.17.0.13    pignode12
172.17.0.14    pignode13
172.17.0.15    pignode14
172.17.0.16    pignode15添加到/etc/hosts中
[root@pignode2 /]# ssh pignode1
Warning: Permanently added 'pignode1,172.17.0.2' (ECDSA) to the list of known hosts.
Last login: Fri Apr 14 04:59:39 2023 from pignode1
[root@pignode1 ~]# exit
logout

可以看到已经可以做到启动容器即免密登录了。美中不足在于：因为要实现准备好hostlist，所以容器启动的时候必须按照hostlist指定ip和主机名，不过这个问题不大，因为如果要使用swarm集群，一并编写好swarm脚本就是了。

4.构建swarm下的ssh免密通信集群

有了可以装载即免密的ssh镜像，下一步，我们就可以借助swarm用它来部署ssh免密集群了。不过需要注意的是，在swarm集群中部署ssh，和在单机节点上部署ssh的docker镜像有些许不同：

（1）Swarm不支持bash作为docker前台

首先，swarm是不支持将/bin/bash作为docker前台程序的。也就是说，如果我们像前面一样，将docker镜像的ENTRYPOINT设为/bin/bash，则swarm在启动镜像后的几秒之内，就会认为容器已经没有活跃的前台程序，从而退出。然后，按照默认的swarm重启机制重启。于是我们就会看到一群不断重启的服务：

比如，我们直接使用centos的官方镜像centos/centos7启动swarm，配置文件如下：

version: "3"
services:
   pigssh1:
     image: centos:centos7
     networks:
       - pig
     hostname: pignode1
   pigssh2:
     image: centos:centos7
     networks:
     networks:
       - pig
     hostname: pignode2
   pigssh3:
     image: centos:centos7
     networks:
     networks:
       - pig
     hostname: pignode3
networks:
  pig:

则不断重启的过程如下：

[root@pig1 docker]# docker node ls
ID                            HOSTNAME   STATUS    AVAILABILITY   MANAGER STATUS   ENGINE VERSION
3rrx62qy2gtwcixg46xpsffas *   pig1       Ready     Active         Leader           23.0.1
v3p0j04u0wbxfkhtkzlj0zq0d     pig2       Ready     Active                          23.0.1
u8phg5zq1rlay99acmyca1vlo     pig3       Ready     Active                          23.0.1
[root@pig1 docker]# 
[root@pig1 docker]# docker stack deploy -c docker-compose.yml ttt
Updating service ttt_pigssh3 (id: msks8cep346rmpzujo99j91xk)
Updating service ttt_pigssh1 (id: ousc72qs2ygyzcbno2i300zh2)
Updating service ttt_pigssh2 (id: mi6nd9l1bn5st0d97zfmxj62b)
[root@pig1 docker]# docker stack ps ttt
ID             NAME                IMAGE             NODE      DESIRED STATE   CURRENT STATE                     ERROR                         PORTS
6srjdbhgglae   ttt_pigssh1.1       centos:centos7    pig1      Ready           Ready 4 seconds ago                                             
b95dfzw79nwa    \_ ttt_pigssh1.1   centos:centos7    pig1      Shutdown        Complete 4 seconds ago                                          
rv5e1vko0asc    \_ ttt_pigssh1.1   centos:centos7    pig1      Shutdown        Complete 10 seconds ago                                         
jd7650kov15k   ttt_pigssh2.1       centos:centos7    pig1      Ready           Ready less than a second ago                                    
yn1t2lli0j28    \_ ttt_pigssh2.1   centos:centos7    pig1      Shutdown        Complete less than a second ago                                 
u4bwnzi4pvgi   ttt_pigssh3.1       centos:centos7    pig2      Ready           Ready 2 seconds ago                                             
5vwa1d98o2bo    \_ ttt_pigssh3.1   centos:centos7    pig2      Shutdown        Complete 3 seconds ago                                          
1vxrkembyuh4    \_ ttt_pigssh3.1   centos:centos7    pig2      Shutdown        Complete 10 seconds ago                                         
z815wmav05m1    \_ ttt_pigssh3.1   centos:centos7    pig2      Shutdown        Complete 17 seconds ago

所以我们需要改造一下官方的镜像，Dockerfile如下：

FROM centos：centos7
ENTRYPOINT ["tail","-f","/dev/null"]

也就是更改官方镜像最后从/bin/bash入口的方式，使用CMD或ENTRYPOINT，以tail -f /dev/null命令作为前台，该命令会一直将前台进程阻塞，从而避免被swarm错误退出。

修改yml文件中的镜像：

version: "3"
services:
   pigssh1:
     image: pig/test 
     networks:
       - pig
     hostname: pignode1
   pigssh2:
     image: pig/test 
     networks:
     networks:
     networks:
       - pig
     hostname: pignode2
   pigssh3:
     image: pig/test 
     networks:
     networks:
     networks:
       - pig
     hostname: pignode3
networks:
  pig:

重新用swarm部署：

[root@pig1 docker]# docker stack deploy -c docker-compose.yml ttt
Creating network ttt_pig
Creating service ttt_pigssh2
Creating service ttt_pigssh3
Creating service ttt_pigssh1
[root@pig1 docker]# docker stack ps ttt
ID             NAME            IMAGE             NODE      DESIRED STATE   CURRENT STATE            ERROR     PORTS
7vqun3os7por   ttt_pigssh1.1   pig/test:latest   pig1      Running         Running 2 seconds ago              
hjnb05mcabhm   ttt_pigssh2.1   pig/test:latest   pig3      Running         Running 15 seconds ago             
y0wyocsblwrf   ttt_pigssh3.1   pig/test:latest   pig1      Running         Running 8 seconds ago              
[root@pig1 docker]# docker ps -a
CONTAINER ID   IMAGE             COMMAND               CREATED          STATUS          PORTS     NAMES
6d90c934bb09   pig/test:latest   "tail -f /dev/null"   16 seconds ago   Up 15 seconds             ttt_pigssh1.1.7vqun3os7poryxdbzbr844gxe
3d47036fd047   pig/test:latest   "tail -f /dev/null"   22 seconds ago   Up 21 seconds             ttt_pigssh3.1.y0wyocsblwrfw49v57l6huv82
[root@pig1 docker]# docker exec -it 6d90c934bb09 bash
[root@pignode1 /]#

可以看到，这次很顺利的部署完成，并且使用容器ID可以登录某个节点上部署的容器。

PS：在前面swarm集群部署clickhouse的过程中，一直没有将clickhouse-client部署成功，与这个可能有很大关系。留待有空再试。

（2）Swarm不支持固定分配IP地址

书接上一小节。在记录本节内容之前，先利用上节部署的环境做一个小实验。

[root@pignode1 /]# ping pignode2
PING pignode2 (10.0.1.3) 56(84) bytes of data.
64 bytes from ttt_pigssh2.1.hjnb05mcabhm4vk2loeg89o3v.ttt_pig (10.0.1.3): icmp_seq=1 ttl=64 time=1.86 ms
64 bytes from ttt_pigssh2.1.hjnb05mcabhm4vk2loeg89o3v.ttt_pig (10.0.1.3): icmp_seq=2 ttl=64 time=1.04 ms
64 bytes from ttt_pigssh2.1.hjnb05mcabhm4vk2loeg89o3v.ttt_pig (10.0.1.3): icmp_seq=3 ttl=64 time=1.40 ms
^C
--- pignode2 ping statistics ---
3 packets transmitted, 3 received, 0% packet loss, time 2003ms
rtt min/avg/max/mdev = 1.047/1.438/1.865/0.334 ms
[root@pignode1 /]# cat /etc/hosts
127.0.0.1	localhost
::1	localhost ip6-localhost ip6-loopback
fe00::0	ip6-localnet
ff00::0	ip6-mcastprefix
ff02::1	ip6-allnodes
ff02::2	ip6-allrouters
10.0.1.9	pignode1

在我们已经启动的这些pignodes中，我们登入其中一个——比如pignode1，从pignode1里面直接ping pignode2，是能ping通的，也就是说，pignode1能够正确解析pignode2的名字；然后cat一下hosts文件，发现两件事——一是pignode2的IP映射关系并不是通过该文件记录的；二是pignode1的IP和一般容器部署时的IP不一样，是10.0.1.*。

这是swarm的特点。swarm实际上直接又建立了一套网络体系，它自己就可以负责解析加入到swarm网络的服务的IP，服务名就对应hostname，所以无需我们去建立hostname和IP的对应关系。另一方面，swarm为了负载均衡和容器重启的需要，自己建立了一套虚拟IP的网络，没有使用docker0下的网段，所以也不支持固定的IP分配。

这就是一个尴尬的事，物理机，虚拟机，docker，swarm，我现在的机器上网段套网段，套了4层。虽然确实也有办法在swarm中设置静态地址，比如先建立一个overlay网络，然后网上attach服务的方式，但既然swarm不愿意支持，最好也别强人所难，不然容易掉进不可预知的大坑……

既然解决不了问题，我们就解决提出问题的人——ssh。因为进行ssh免密部署时，需要指定ssh节点的IP和hostname映射关系——这是我们必须设置固定IP的原因。但是如果这个映射关系不需要我们提供呢？比如swarm已经提供了名字解析，我们完全可以不必再去做费力不讨好的hosts列表啊。

所以，如下更改init.sh,只负责启动sshd服务，并且使用tail -f /dev/null挂住前台就好：

#!/bin/bash

#1. 启动SSH服务，&表示在后台启动
/sbin/sshd -D &

#2. 因为sshd在后台运行，此处前台程序执行完毕，docker会自行exit
#   另swarm集群下，似乎会将bash认为是后台程序，从而自动退出
#   故而此处使用tail -f /dev/null阻塞程序，让程序保持在前台
tail -f /dev/null

再创建镜像时，也不需要再拷贝hostlist：

FROM pig/centos7
COPY init-ssh.sh /root/init-ssh.sh
COPY .ssh /root/.ssh
RUN    chmod +x /root/init-ssh.sh \
   &&  chmod 0400 /root/.ssh/id_rsa \
   &&  echo 'default123' | passwd --stdin root \
   &&  yum install openssh openssh-server openssh-clients -y \
   &&  /sbin/sshd-keygen \
   &&  echo -e '\nHost *\nStrictHostKeyChecking no\nUserKnownHostsFile=/dev/null' >> etc/ssh/ssh_config
ENTRYPOINT ["/root/init-ssh.sh"]

将镜像build为pig/sshs镜像，使用下面的部署文件部署：

version: "3"
services:
   pigssh1:
     image: pig/sshs
     networks:
       - pig
     hostname: pignode1
   pigssh2:
     image: pig/sshs
     networks:
       - pig
     hostname: pignode2
   pigssh3:
     image: pig/sshs
     networks:
       - pig
     hostname: pignode3
networks:
  pig:

启动部署（记得把镜像导出到各个节点上先）：

[root@pig1 docker]# docker stack deploy -c docker-compose.yml ttt
Creating network ttt_pig
Creating service ttt_pigssh1
Creating service ttt_pigssh2
Creating service ttt_pigssh3
[root@pig1 docker]# docker stack ps ttt
ID             NAME            IMAGE             NODE      DESIRED STATE   CURRENT STATE                    ERROR     PORTS
wqtkk5uwb1oa   ttt_pigssh1.1   pig/sshs:latest   pig3      Running         Running 7 seconds ago                      
qbczq4fx8ulb   ttt_pigssh2.1   pig/sshs:latest   pig2      Running         Running 3 seconds ago                      
vfeakouuzsbu   ttt_pigssh3.1   pig/sshs:latest   pig1      Running         Running less than a second ago             
[root@pig1 docker]# docker ps -a
CONTAINER ID   IMAGE             COMMAND               CREATED          STATUS                      PORTS     NAMES
002fe4668083   pig/sshs:latest   "/root/init-ssh.sh"   8 seconds ago    Up 7 seconds                          ttt_pigssh3.1.vfeakouuzsbuidqubs3yoruz1
[root@pig1 docker]# docker exec -it 002fe4668083 bash
[root@pignode3 /]# ssh pignode1
Warning: Permanently added 'pignode1,10.0.2.3' (ECDSA) to the list of known hosts.
[root@pignode1 ~]#

试验成功！

二、构建Swarm下Hadoop集群

1. 构建Hadoop节点镜像

根据前面构建SSH镜像的方法，我们只需要在SSH镜像的基础上，继续安装JAVA环境，下载hadoop压缩包并释放到我们准备的目录下（比如/root/hadoop），然后设置好HADOOP_HOME、JAVA_HOME等环境变量。就可以按照CENTOS上的网络安全工具（十二）走向Hadoop（4）

中的配置方法进行配置了。

先把Dockerfile扔出来再解释：

# 1. 还是从官方的centos7镜像为起点
FROM centos:centos7

# 2. 口令参数需要从外部传入，即 docker build --build-arg password='default123' -t pig/hadoop .
ARG password

# 3. 构造更改了清华镜像源的centos7镜像，其实如果采取离线安装方式也不需要
RUN sed -e 's|^mirrorlist=|#mirrorlist=|g' \
        -e 's|^#baseurl=http://mirror.centos.org/centos|baseurl=https://mirrors.tuna.tsinghua.edu.cn/centos|g' \
        -i.bak \
        /etc/yum.repos.d/CentOS-*.repo\
 && yum clean all\
 && yum makecache

# 4. 拷贝启动容器时的初始化脚本，用于执行启动sshd服务、初始化hadoop的系列操作
COPY init-hadoop.sh /root/init-hadoop.sh

# 5. 拷贝SSH免密登录的相关密钥文件，目前只放置了15个
COPY .ssh /root/.ssh

# 6. 拷贝所有待安装软件(主要是用于离线安装openssh和javasdk的rpm包)
COPY ./rpm /root/rpm/.

# 7. 解压Hadoop到/root目录下，一般会解压形成一个名为欸hadoop-3.3.5的文件夹
ADD hadoop-3.3.5.tar.gz /root

# 8. 构建ssh一键部署相关配置（私钥文件、公钥认证文件权限设置，root用户口令设置)
RUN    chmod 0400 /root/.ssh/id_rsa \
 &&    chmod 0600 /root/.ssh/authorized_keys \
 &&    echo ${password} | passwd --stdin root

# 9. 安装openssh
# 在线安装方式: RUN yum install openssh openssh-server openssh-clients -y
# 离线安装方式：
RUN    rpm -ivh /root/rpm/tcp_wrappers-libs-7.6-77.el7.x86_64.rpm\
 &&    rpm -ivh /root/rpm/libedit-3.0-12.20121213cvs.el7.x86_64.rpm\
 &&    rpm -ivh /root/rpm/fipscheck-1.4.1-6.el7.x86_64.rpm /root/rpm/fipscheck-lib-1.4.1-6.el7.x86_64.rpm\
 &&    rpm -ivh /root/rpm/openssh-7.4p1-22.el7_9.x86_64.rpm\
 &&    rpm -ivh /root/rpm/openssh-clients-7.4p1-22.el7_9.x86_64.rpm\
 &&    rpm -ivh /root/rpm/openssh-server-7.4p1-22.el7_9.x86_64.rpm

# 10.1 生成服务器端密钥
RUN    /sbin/sshd-keygen \
# 10.2 配置SSHD免密登录（更改强制指纹验证为no，避免弹出指纹确认问题）
 &&    echo -e '\nHost *\nStrictHostKeyChecking no\nUserKnownHostsFile=/dev/null' >> etc/ssh/ssh_config

# 11. 安装JAVA环境
# 在线安装方式：RUN yum install java-11* -y
# 离线安装方式：
RUN    rpm -ivh /root/rpm/jdk-11.0.19_linux-x64_bin.rpm

# 由于一些文章说不安装这个包会导致namenode相互不能连接，反正也不大，不管有没有用，先装一个以防万一
RUN    rpm -ivh /root/rpm/psmisc-22.20-17.el7.x86_64.rpm

# 12. 设置初始化脚本可执行属性，并删除已经安装完成的rpm包，避免镜像过大
RUN    chmod +x /root/init-hadoop.sh \
 &&    rm /root/rpm -rf\


#------------------------------------安装Hadoop环境-------------------------------------#
# 1. 设置与HADOOP相关的全局环境变量，设置hadoop安装及工作目录，并赋值给HADOOP_HOME，然后将HADOOP_HOME加入到PATH，这样执行hdfs start-dfs.sh等命令时，不用必须进入到hadoop工作目录。
# 1.1 将hadoop工作目录改个名，用起来方便
RUN    mv /root/hadoop-3.3.5 /root/hadoop\
# 1.2 实际只有/.bashrc中的配置会在容器启动时被加载并发挥作用，不过无所谓，都改了也没啥
 &&    echo -e "export HADOOP_HOME=/root/hadoop\nexport PATH=\$PATH:\$HADOOP_HOME/bin\nexport PATH=\$PATH:\$HADOOP_HOME/sbin" >> /etc/profile\
 &&    echo -e "export HADOOP_HOME=/root/hadoop\nexport PATH=\$PATH:\$HADOOP_HOME/bin\nexport PATH=\$PATH:\$HADOOP_HOME/sbin" >> /root/.bashrc\
 &&    source /root/.bashrc

# 2. 设置$HADOOP_HOME/etc/hadoop/hadoop-env.sh中的JAVA_HOME环境变量
RUN    sed -i 's|#[[:blank:]]export[[:blank:]]JAVA_HOME=$|export JAVA_HOME=/usr|g' /root/hadoop/etc/hadoop/hadoop-env.sh

# 3. 设置 HDFS的用户角色
RUN    echo -e "export HDFS_NAMENODE_USER=root\nexport HDFS_DATANODE_USER=root\nexport HDFS_SECONDARYNAMENODE_USER=root\n">>/root/hadoop/etc/hadoop/hadoop-env.sh\
# 4. 设置 YARN的用户角色
 &&    echo -e "export YARN_RESOURCEMANAGER_USER=root\nexport YARN_NODEMANAGER_USER=root\nexport YARN_PROXYSERVER_USER=root">>/root/hadoop/etc/hadoop/yarn-env.sh

# 5. 默认启动脚本
CMD ["/root/init-hadoop.sh"]

从#1到#10的步骤，和第一部分中配置SSH的过程完全一样，其实也可以直接使用第一部分中的镜像作为起点构建。不同之处，一个是root用户的口令我们改作编译时指定，另一个是改用离线方式安装openssh：

（1）代入编译参数

因为不想将口令这种特别个性化的东西放在Dockerfile文件里面，所以使用ARG标识设置了一个名为password的参数，然后再设置口令的指令中，使用shell格式的变量调用形式${password}将这个参数传入指令中。

创建镜像的时候，使用--build-arg选项代入参数：

[root@pighost1 Dockerfile-hadoop]# docker build --build-arg password='your password' -t pig/hadoop:cluster .
[+] Building 85.1s (12/12) FINISHED                                                                                                  
 => [internal] load build definition from Dockerfile                                                                            0.0s
 => => transferring dockerfile: 3.21kB                                                                                          0.0s
 => [internal] load .dockerignore                                                                                               0.0s
 => => transferring context: 2B                                                                                                 0.0s
 => [internal] load metadata for docker.io/library/centos:centos7                                                               0.0s
 => [1/7] FROM docker.io/library/centos:centos7                                                                                 0.0s
 => [internal] load build context                                                                                               0.0s
 => => transferring context: 6.12kB                                                                                             0.0s
 => CACHED [2/7] RUN sed -e 's|^mirrorlist=|#mirrorlist=|g'         -e 's|^#baseurl=http://mirror.centos.org/centos|baseurl=ht  0.0s
 => [3/7] COPY init-hadoop.sh /root/init-hadoop.sh                                                                              0.0s
 => [4/7] COPY .ssh /root/.ssh                                                                                                  0.0s
 => [5/7] COPY ./rpm /root/rpm/.                                                                                                1.1s
 => [6/7] ADD hadoop-3.3.5.tar.gz /root                                                                                        14.0s
 => [7/7] RUN    chmod +x /root/init-hadoop.sh  &&    chmod 0400 /root/.ssh/id_rsa  &&    chmod 0600 /root/.ssh/authorized_ke  56.4s
 => exporting to image                                                                                                         13.3s
 => => exporting layers                                                                                                        13.3s
 => => writing image sha256:6bb64f678a7292b9edb7d6b8d58a9b61e8cc8718ef545f9623a84e19652cb77a                                    0.0s 
 => => naming to docker.io/pig/hadoop:cluster                                                                                   0.0s

这里password使用单引号，以避免使用双引号将特殊字符转义。

（2）离线方式

说起离线方式，貌似已经很久没有这么干了，主要是最近单位网络还比较给力，各种环境试验没出过什么岔子。这次这篇记录，本来是打算五一前发出来，结果接到一个出差任务耽误了一周。想着五一期间趁着休息花一天时间整理出来，于是在家重新搭了个环境。没想到，就这么一搭，搭出来一个接一个的连环坑，把整个五一都搭了进去。

网络环境造就了大坑之一：其实虽然现在已经从坑里爬了出来，但仍然是没有完全弄明白发生了什么事情，因为一个悲剧的发生，往往不是只有一个环节出问题，而是一连串的环节出了问题导致的。这里不完全记录一下：

Docker升级了……

因为是重新搭的环境，所以在家里的虚拟机上，Dockers是五一期间新下载安装的，然后神奇的发生了拉取镜像失败的问题。这个问题极为飘忽不定。具体症结就是，docker会报对于注册如武器registry-1.docker.io，找不到对应的主机。

[root@pighost1 ~]# ping registry-1.docker.io
PING registry-1.docker.io (52.1.184.176) 56(84) bytes of data.
^C
--- registry-1.docker.io ping statistics ---
6 packets transmitted, 0 received, 100% packet loss, time 5105ms

[root@pighost1 ~]# docker pull hello-world
Using default tag: latest
Error response from daemon: Get "https://registry-1.docker.io/v2/": dial tcp: lookup registry-1.docker.io on 192.168.21.2:53: no such host

但是同样是在虚拟机所在的windows主机上，还有一个早期安装的Docker Desktop，工作则完全正常，丝滑无比。所以一开始我以为是虚拟机网络的问题，查了好久。

直到我解决了问题（见后），打算拿出笔记本移植环境的时候，发现笔记本上的Desktop出问题了，于是进行了重装，结果发现重装后的Desktop也出现了同样的问题。这才确定这一故障应该是和Docker升级相关。

DNS的不稳定性

抓狂的是，这种故障并不稳定。比如，如果我一直pull hello-world的话，可能在数十次尝试后突然就可以了，然后又在几分钟后就又不行了……。一开始我以为是Docker升级了用户权限控制，因为中间有一段，在我登录了以后，就可以在desktop上流畅无比的pull。但是隔了两天，我没有登录的情况下，也能够在desktop（就是后面新安装的那个）流畅无比的pull……。

抓狂到最后，不可不拿出wireshar抓包分析。因为排查过程极度混乱，也没有留什么记录，还好讨论时捏了一张照片

其中框出的两部分，就是一次成功pull（上面），一次失败的pull（下面）。可以看出，失败的主要原因，就是对registry-1.dockers.io的dns查询失败了。虽然如上上面那张图所示，即使ping registry-1.docker.io确实能够看到IP的情况下，pull指令本身仍会执行失败。感觉好像就是pull命令会发出一次dns查询，失败了它就不干活一样。

这个DNS的问题，在单位的网络上就不会出现，在家里的网络上就会时不时出点问题。所以，我只好认为是电信宽带线路上某个地方的问题。也许撞墙了，也许就是指派给我这一片的DNS服务器有问题。只是我不知道这个为什么虚拟机上不行，宿主机上就没问题。

宿主机：

C:\Users\pig> nslookup registry-1.docker.io
服务器:  UnKnown
Address:  2408:8000:1010:1::8

非权威应答:
名称:    registry-1.docker.io
Addresses:  18.215.138.58
          34.194.164.123
          52.1.184.176

虚拟机：

[root@pighost1 ~]# docker pull hello-world
Using default tag: latest
Error response from daemon: Get "https://registry-1.docker.io/v2/": dial tcp: lookup registry-1.docker.io on 192.168.21.2:53: no such host
[root@pighost1 ~]# nslookup registry-1.docker.io
Server:		192.168.21.2
Address:	192.168.21.2#53

Non-authoritative answer:
Name:	registry-1.docker.io
Address: 52.1.184.176
Name:	registry-1.docker.io
Address: 34.194.164.123
Name:	registry-1.docker.io
Address: 18.215.138.58


[root@pighost1 ~]# nslookup registry-1.docker.io
Server:		192.168.21.2
Address:	192.168.21.2#53

Non-authoritative answer:
Name:	registry-1.docker.io
Address: 52.1.184.176

而且在虚拟机上，使用nslookup，结果在短短几分钟之内就是不一样……

进一步，如下图，左边为虚拟机，右边为宿主机。主要的区别，就是右边在确定registry-1.docker.io的SOA服务器亚马逊route53解析服务后，宿主机查出了IP，然后进行下去了，虚拟机没有。很大的可能是虚拟机是IPv4，宿主机是IPv6……

网上对这一故障也有很多讨论，解决办法就是手工更改DNS服务，把google的DNS加到列表中去，包括8.8.8.8，8.8.4.4，另外还有著名的114.114.114.114。更改虚拟机里面的DNS后，pull大概率就可以成功了。

用魔法打败魔法…

当然因为后面我还得弄集群，并且我现在看着IPv6地址也头疼，就不尝试ipv6能不能解决这个问题了。但是改了DNS以后，docker pull是没有问题，但是在电信宽带的网上，容器内清华的镜像repo库又开始剧烈的不稳定了，甚至一些情况下压根就不通了。无奈之下，尝试使用代理穿透，在改DNS和魔法的双重加持下，pull和repo就都正常了。总之，故障似乎不在我能控制的范围内，一脸懵逼的情况下，还是尝试离线安装吧，又稳定又快。

毕竟，JAVA和Hadoop安装包的在线安装每试一次就会下载一次，速度也确实感人。

离线安装所需的rpm包可以参考我们之前的方法，使用yumdownloader下载，然后使用rpm -ivh命令去安装，就如#9步骤一样。

至于jdk11，需要登陆oracle去下载；hadoop，可以去hadoop的官方站下载。

2. 配置Hadoop

（1）Hadoop全局环境变量的设置

Dockerfile里最后的部分，就是设置与Hadoop相关的全局环境变量了。主要包括3部分：

设置HADOOP_HOME

在PATH中加入$HADOOP_HOME/bin 和 $HADOOP_HOME/sbin，以下在#1中完成

HADOOP_HOME就是hadoop的安装地址，一开始我们把它解压到了/root/hadoop-3.3.5下面，然后把它改成了/root/hadoop；这个环境变量在后面大量的脚本中都会用到，所以设上为好

PATH变量中加入bin和sbin，是为了后面执行hdfs、yarn、mapred指令和start-dfs.sh、start-yarn.sh脚本的时候，不用费劲巴拉的敲完整地址。当然不设貌似也没啥问题。

最后，就是在容器里，这些变量需要在~/.bashrc中添加，也就是/root/.bashrc，容器启动时会自动载入；而不是在linux系统里设置全局变量一般，在/etc/profile中去设置，容器里似乎对这个文件不会source，设上也不会搭理。

设置JAVA_HOME

以下在#2中完成：

如同之前的记录中搭建hadoop集群所要做的一样，需要在$HADOOP_HOME/etc/hadoop下的hadoop-env.sh文件中，取消注释export JAVA_HOME哪一行，并且将其填为/usr，因为java在/usr/bin/java处。

增加HDFS和YARN的root用户

以下在#3、#4中完成：

hadoop默认使用hdfs作为用户，root并不是hadoop的用户。然而容器进去的时候基本就在root用户下，所以我们需要将root增加为hdfs和yarn的用户。否则，启动各类服务的时候，会被告知root不是对应的用户而拒绝启动。

（2） HADOOP配置文件

其实大致的配置和CENTOS上的网络安全工具（十二）走向Hadoop（4） Hadoop 集群搭建差不多，只是要根据swarm的特点做一点小小的改变——虽然这个小小的改变也是一个超级大坑。

不多说，先贴配置。

core-site.xml








        
                fs.defaultFS
                hdfs://pignode1:9000
        
        
                hadoop.http.staticuser.user
                root
        
        
                hadoop.tmp.dir
                /hadoopdata

hdfs-site.xml








        
                dfs.replication
                3
        
        
                dfs.namenode.http-address
                0.0.0.0:9870
        
        
                dfs.namenode.secondary.http-address
                pignode2:9890

yarn-site.xml






        
                yarn.resourcemanager.hostname
                pignode2
        
          
        yarn.resourcemanager.webapp.address
                0.0.0.0:8088
        
        
                yarn.web-proxy.address
                pignode2:8090
        
        
                yarn.nodemanager.aux-services
                mapreduce_shuffle
        
            
                yarn.nodemanager.env-whitelist
                JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME

mapred-site.xml








        
                mapreduce.framework.name
                yarn
        
        
                mapreduce.jobhistory.address
                pignode3:10020
        
        
                mapreduce.jobhistory.webapp.address
                0.0.0.0:19888
        
        
                mapreduce.application.classpath
                $HADOOP_MAPRED_HOME/share/hadoop/mapreduce/*:$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/lib/*

对比之前的集群部署，这个唯一的区别就是，在所有需要规定WEB管理界面登录地址的地方，我们没有像之前那样填写hostname，而是填写了0.0.0.0：

这个原因就是大坑之二所在：

在我按照原来的配置启动容器后，无论如何也无法访问这几个曾经存在的管理界面，在各个节点上使用jps、netstat查看，明明进程和端口好好的存在，就是登不进去。一开始我怀疑是容器网络的问题——因为容器和宿主机并不位于一个网络上，swarm的容器内部，是要通过网桥docker_gwbridge回到宿主机的，这个完全又和docker_0不一样。而且，swarm内部网络更为复杂，内部网络地址一般在10.0.0.0/16上，并且启动一次stack变一次网段，比如上次是10.0.1.0/24，下次就是10.0.2.0/24，其网关又都在docker_gwbridge上，这货的地址是172.18.0.1……，然后宿主机又是我自己设的192.168.21.1/24，再外面才是真正的windows宿主机。

而且，由于之前的大坑之一，让我对当前的网络产生深深的不信任感，所以总以为是网络的问题——何况从宿主机也ping不同swarm容器。为了排除，我极不情愿的在宿主机上增加了去往10.0.0.0/24网段的路由：

[root@pighost1 Dockerfile-hadoop]# route add -net 10.0.0.0/16 gw 172.18.0.1 dev docker_gwbridge
[root@pighost1 Dockerfile-hadoop]#

这样，swarm容器内和宿主机就可以双向ping通了。此时，在宿主机上使用pignode1的内部ip地址，比如：

就可以看到久违的管理界面。总之，这样能证明hadoop应该是没有问题。但是使用pighost1:9870就是访问不到……

在之前配置clickhouse的时候，我也啥都没干，就照样顺畅的连上了clickhouse的服务器啊，唯一的区别，只不过是那次我用的是官方的镜像而已。总不至于是我的Dockerfile或者docker-compse.yml又问题吧。在纠结了两天应该如何EXPOSE以及如何在宿主机的iptables下添加记录（明明防火墙都关了）以后，我突然想起来，在clickhouse的配置中，还有一样东西是在hadoop配置里没有做到的：CENTO OS上的网络安全工具（二十）ClickHouse swarm容器化集群部署

就是这个为了远程接入服务器设置的0.0.0.0地址。在hadoop中，是否需要对应设置呢？

不得不说有这样需求的人真是不多，在穷尽搜索之能事后，终于找了一两篇文章的只言片语让我突然反应过来，xml配置文件中的有些hostname其实是应该设置为0.0.0.0的……

于是就有了上面配置文件中的那些改动。改完后，pighost1:9870就可以用了：

3. 初始化启动脚本

初始化脚本如下，看注释就好。总之就是启动sshd，然后看是不是所有节点都启动成功了，启动成功了，就判断是否格式化，没有就先格了，然后依次start dfs,yarn和history server。

#! /bin/bash
# the NODE_COUNT param set by swarm config yml file, using endpoint_environment flag.
NODECOUNT=$NODE_COUNT
TRYLOOP=50

############################################################################################################
##   1. source一下环境变量，虽然docker也会在载入的时候source它，保险起见，自己也来一遍
############################################################################################################
source /etc/profile
source /root/.bashrc

############################################################################################################
##   2. 启动openssh服务
############################################################################################################
/sbin/sshd -D &

############################################################################################################
##   3. 定义后面初始化过程中要调用的函数
############################################################################################################

#FUNCTION:测试是否所有节点都已经启动的函数，避免在节点尚未全部启动时就执行format的尴尬----------------------------
#param1: 节点hostname的前缀（就是不包含尾巴后面数字的部分）
#param2: 节点数量
#param3: 在放弃前执行多少轮转圈ping节点的操作
isAllNodesConnected(){
	PIGNODE_PRENAME=$1
	PIGNODE_COUNT=$2
	TRYLOOP_COUNT=$3
	tryloop=0
	ind=1
	#init pignode hostname array,and pignode status array
	while(( $ind <= $PIGNODE_COUNT ))
	do
		pignodes[$ind]="$PIGNODE_PRENAME$ind"
		pignodes_stat[$ind]=0
		let "ind++"
	done
	
	#check wether all the pignodes can be connected
	noactivecount=$PIGNODE_COUNT
	while(( $noactivecount > 0 ))
	do
		noactivecount=$PIGNODE_COUNT
		ind=1
		while(( $ind <= $PIGNODE_COUNT ))
		do
			if (( ${pignodes_stat[$ind]}==0 ))
			then
				ping -c 1 ${pignodes[$ind]} > /dev/null
				if (($?==0))
				then
					pignodes_stat[$ind]=1
					let "noactivecount-=1"
					echo "Try to connect ${pignodes[$ind]}:successed." >>init.log
				else
					echo "Try to connect ${pignodes[$ind]}: failed." >>init.log
				fi
			else
				let "noactivecount-=1"
			fi
			let "ind++"
		done
		if (( ${noactivecount}>0 ))
		then
			let "tryloop++"
			if (($tryloop>$TRYLOOP_COUNT))
			then
				echo "ERROR Tried ${TRYLOOP_COUNT} loops. ${noactivecount} nodes failed, exit." >>init.log
				break;
			fi
			echo "${noactivecount} left for ${PIGNODE_COUNT} nodes not connected, waiting for next try">>init.log
			sleep 5
		else
			echo "All nodes are connected.">>init.log
		fi
	done
	return $noactivecount
}
#----------------------------------------------------------------------------------------------------------

#FUNCTION:从core-site文件中获取所设置的hadoop dfs所在文件夹---------------------------------------------------
getDataDirectory(){
        configfiledir=`echo "${HADOOP_HOME}/etc/hadoop/core-site.xml"`
        datadir=`cat ${configfiledir} | grep -A 2 'hadoop.tmp.dir' | grep '' | sed 's/^[[:blank:]]*//g' | sed 's/<\/value>$//g'`
        echo $datadir
}

############################################################################################################
##   4. 测试是否是主节点（hostname1），是则执行初始化操作                                                ##
############################################################################################################
nodehostname=`hostname`
nodehostnameprefix=`echo $nodehostname|sed -e 's|[[:digit:]]\+$||g'`
nodeindex=`hostname | sed "s/${nodehostnameprefix}//g"`
#切换到Hadoop安装目录
cd $HADOOP_HOME
#判断节点ID，主节点则执行初始化，否则等待即可
if (($nodeindex!=1));then
	echo $nodehostname waiting for init...>>init.log
else
    # 求yarn节点id（默认装在第2节点）和mapreduce节点id（默认装在第3节点）
	if (($NODECOUNT>=2));then
		yarnnodeid=2
	else
		yarnnodeid=1
	fi

	if (($NODECOUNT>=3));then
		maprednodeid=3
	else
		maprednodeid=1
	fi

    # 测试是否所有节点都可以ping通
	echo $nodehostname is one of the init manager nodes...>>init.log
	#waiting for all the nodes connected
	isAllNodesConnected $nodehostnameprefix $NODECOUNT $TRYLOOP
	if (($?==0));then
		#all the nodes is connected,from then to init hadoop
                datadirectory=`echo $(getDataDirectory)`
                #如果hadoop数据目录不为空，证明已经格式化，直接启动dfs，否则需执行格式化
                if [ $datadirectory ];then
                	#check wether hadoop was formatted.
                        datadircontent=`ls -A ${datadirectory}`
                        if [ -z $datadircontent ];then
                        	echo "format dfs">>init.log
                                bin/hdfs namenode -format >>init.log
			else
				echo "dfs is already formatted.">>init.log
                        fi
                else
                        echo "ERROR:Can not get hadoop tmp data directory.init can not be done. ">>init.log
                fi
        #start-all.sh已经弃用，所以分别使用start-dfs.sh和start-yarn.sh启动
		echo "Init dfs --------------------------------------------------------------------" >> init.log
		sbin/start-dfs.sh
		echo "Init yarn -------------------------------------------------------------------" >> init.log
                ssh root@${nodehostnameprefix}${yarnnodeid} "bash ${HADOOP_HOME}/sbin/start-yarn.sh" >> init.log
        # history server需要单独启动
		echo "Init JobHistory server-------------------------------------------------------" >> init.log
		ssh root@${nodehostnameprefix}${maprednodeid} "bash ${HADOOP_HOME}/bin/mapred --daemon start historyserver">>init.log
	else
		echo "ERROR:Not all the nodes is connected. init can not be done. exit...">>init.log
	fi
fi

#挂住前台，防止swarn重启
tail -f /dev/null

哦，为了方便后面映射hadoop的dfs目录，以及每次测试完清空目录以免重复格式化，还需要一个小脚本来在宿主机上清空和创建目录，一并贴了：

#! /bin/bash

index=1
rm /hadoopdata/* -rf
while(($index<=12));do
	file="/hadoopdata/${index}"
	mkdir $file
	let "index++"
done

4. swarm stack的配置文件

接下来是最大的一个坑了，先上docker-compse.yml：

version: "3.7"
services:
   # 使用pignode1作为Hadoop的Nameode，开放9000端口
   # 使用pignode1作为Hadoop的Namenode Http服务器，开放9870端口
   pignode1:
     image: pig/hadoop:cluster
     deploy:
       endpoint_mode: dnsrr
       restart_policy:
         condition: on-failure
       placement:
         constraints:
           - node.hostname==pighost1
     hostname: pignode1
     environment:
       - NODE_COUNT=12
     networks:
       - pig
     ports:
       - target: 22
         published: 9011
         protocol: tcp
         mode: host
       - target: 9000
         published: 9000
         protocol: tcp
         mode: host
       - target: 9870
         published: 9870
         protocol: tcp
         mode: host
     volumes:
       # 映射xml配置文件
       - ./config/core-site.xml:/root/hadoop/etc/hadoop/core-site.xml:r
       - ./config/hdfs-site.xml:/root/hadoop/etc/hadoop/hdfs-site.xml:r
       - ./config/yarn-site.xml:/root/hadoop/etc/hadoop/yarn-site.xml:r
       - ./config/mapred-site.xml:/root/hadoop/etc/hadoop/mapred-site.xml:r
       # 映射workers文件
       - ./config/workers:/root/hadoop/etc/hadoop/workers:r
       # 映射数据目录
       - /hadoopdata/1:/hadoopdata:wr

   pignode2:
     image: pig/hadoop:cluster
     deploy:
       endpoint_mode: dnsrr
       restart_policy:
         condition: on-failure
       placement:
         # 将Second Namenode限制部署在第二个节点上
         constraints:
           - node.hostname==pighost2
     networks:
       - pig
     hostname: pignode2
     environment:
       - NODE_COUNT=12
     ports:
       # 第二名字服务器接口
       - target: 22
         published: 9012
         protocol: tcp
         mode: host
       - target: 9890
         published: 9890
         protocol: tcp
         mode: host
       - target: 8088
         published: 8088
         protocol: tcp
         mode: host
     volumes:
      # 映射xml配置文件
       - ./config/core-site.xml:/root/hadoop/etc/hadoop/core-site.xml:r
       - ./config/hdfs-site.xml:/root/hadoop/etc/hadoop/hdfs-site.xml:r
       - ./config/yarn-site.xml:/root/hadoop/etc/hadoop/yarn-site.xml:r
       - ./config/mapred-site.xml:/root/hadoop/etc/hadoop/mapred-site.xml:r
       # 映射workers文件
       - ./config/workers:/root/hadoop/etc/hadoop/workers:r
       # 映射数据目录
       - /hadoopdata/2:/hadoopdata:wr

   pignode3:
     image: pig/hadoop:cluster
     deploy:
       endpoint_mode: dnsrr
       restart_policy:
         condition: on-failure
       placement:
         # 将Mapreduce限制部署在第三个节点上
         constraints:
           - node.hostname==pighost3
     networks:
       - pig
     hostname: pignode3
     environment:
       - NODE_COUNT=12
     ports:
       - target: 22
         published: 9013
         protocol: tcp
         mode: host
       - target: 10020
         published: 10020
         protocol: tcp
         mode: host
       - target: 19888
         published: 19888
         protocol: tcp
         mode: host
     volumes:
       # 映射xml配置文件
       - ./config/core-site.xml:/root/hadoop/etc/hadoop/core-site.xml:r
       - ./config/hdfs-site.xml:/root/hadoop/etc/hadoop/hdfs-site.xml:r
       - ./config/yarn-site.xml:/root/hadoop/etc/hadoop/yarn-site.xml:r
       - ./config/mapred-site.xml:/root/hadoop/etc/hadoop/mapred-site.xml:r
       # 映射workers文件
       - ./config/workers:/root/hadoop/etc/hadoop/workers:r
       # 映射数据目录
       - /hadoopdata/3:/hadoopdata:wr

#------------------------------------------------------------------------------------------------
#以下均为工作节点，可在除leader以外的主机上部署

   pignode4:
     image: pig/hadoop:cluster
     deploy:
       endpoint_mode: dnsrr
       restart_policy:
         condition: on-failure
       placement:
         # 将Mapreduce限制部署在第三个节点上
         constraints:
           # node.role==manager
           # node.role==worker
           - node.hostname==pighost3
     networks:
       - pig
     environment:
       - NODE_COUNT=12
     ports:
       - target: 22
         published: 9014
         protocol: tcp
         mode: host
     hostname: pignode4
     volumes:
      # 映射xml配置文件
       - ./config/core-site.xml:/root/hadoop/etc/hadoop/core-site.xml:r
       - ./config/hdfs-site.xml:/root/hadoop/etc/hadoop/hdfs-site.xml:r
       - ./config/yarn-site.xml:/root/hadoop/etc/hadoop/yarn-site.xml:r
       - ./config/mapred-site.xml:/root/hadoop/etc/hadoop/mapred-site.xml:r
       # 映射workers文件
       - ./config/workers:/root/hadoop/etc/hadoop/workers:r
       # 映射数据目录
       - /hadoopdata/4:/hadoopdata:wr

   pignode5:
     image: pig/hadoop:cluster
     deploy:
       endpoint_mode: dnsrr
       restart_policy:
         condition: on-failure
       placement:
         # 将Mapreduce限制部署在第三个节点上
         constraints:
           # node.role==manager
           - node.hostname==pighost3
     networks:
       - pig
     ports:
       - target: 22
         published: 9015
         protocol: tcp
         mode: host
     hostname: pignode5
     environment:
       - NODE_COUNT=12
     volumes:
      # 映射xml配置文件
       - ./config/core-site.xml:/root/hadoop/etc/hadoop/core-site.xml:r
       - ./config/hdfs-site.xml:/root/hadoop/etc/hadoop/hdfs-site.xml:r
       - ./config/yarn-site.xml:/root/hadoop/etc/hadoop/yarn-site.xml:r
       - ./config/mapred-site.xml:/root/hadoop/etc/hadoop/mapred-site.xml:r
       # 映射workers文件
       - ./config/workers:/root/hadoop/etc/hadoop/workers:r
       # 映射数据目录
       - /hadoopdata/5:/hadoopdata:wr

   pignode6:
     image: pig/hadoop:cluster
     deploy:
       endpoint_mode: dnsrr
       restart_policy:
         condition: on-failure
       placement:
         # 将Mapreduce限制部署在第三个节点上
         constraints:
           # node.role==manager
           - node.hostname==pighost3
     networks:
       - pig
     ports:
       - target: 22
         published: 9016
         protocol: tcp
         mode: host
     hostname: pignode6
     environment:
       - NODE_COUNT=12
     volumes:
      # 映射xml配置文件
       - ./config/core-site.xml:/root/hadoop/etc/hadoop/core-site.xml:r
       - ./config/hdfs-site.xml:/root/hadoop/etc/hadoop/hdfs-site.xml:r
       - ./config/yarn-site.xml:/root/hadoop/etc/hadoop/yarn-site.xml:r
       - ./config/mapred-site.xml:/root/hadoop/etc/hadoop/mapred-site.xml:r
       # 映射workers文件
       - ./config/workers:/root/hadoop/etc/hadoop/workers:r
       # 映射数据目录
       - /hadoopdata/6:/hadoopdata:wr
       
   pignode7:
     image: pig/hadoop:cluster
     deploy:
       endpoint_mode: dnsrr
       restart_policy:
         condition: on-failure
       placement:
         # 将Mapreduce限制部署在第三个节点上
         constraints:
           # node.role==manager
           - node.hostname==pighost4
     networks:
       - pig
     ports:
       - target: 22
         published: 9017
         protocol: tcp
         mode: host
     hostname: pignode7
     environment:
       - NODE_COUNT=12
     volumes:
      # 映射xml配置文件
       - ./config/core-site.xml:/root/hadoop/etc/hadoop/core-site.xml:r
       - ./config/hdfs-site.xml:/root/hadoop/etc/hadoop/hdfs-site.xml:r
       - ./config/yarn-site.xml:/root/hadoop/etc/hadoop/yarn-site.xml:r
       - ./config/mapred-site.xml:/root/hadoop/etc/hadoop/mapred-site.xml:r
       # 映射workers文件
       - ./config/workers:/root/hadoop/etc/hadoop/workers:r
       # 映射数据目录
       - /hadoopdata/7:/hadoopdata:wr

   pignode8:
     image: pig/hadoop:cluster
     deploy:
       endpoint_mode: dnsrr
       restart_policy:
         condition: on-failure
       placement:
         # 将Mapreduce限制部署在第三个节点上
         constraints:
           # node.role==manager
           - node.hostname==pighost4
     networks:
       - pig
     ports:
       - target: 22
         published: 9018
         protocol: tcp
         mode: host
     hostname: pignode8
     environment:
       - NODE_COUNT=12
     volumes:
      # 映射xml配置文件
       - ./config/core-site.xml:/root/hadoop/etc/hadoop/core-site.xml:r
       - ./config/hdfs-site.xml:/root/hadoop/etc/hadoop/hdfs-site.xml:r
       - ./config/yarn-site.xml:/root/hadoop/etc/hadoop/yarn-site.xml:r
       - ./config/mapred-site.xml:/root/hadoop/etc/hadoop/mapred-site.xml:r
       # 映射workers文件
       - ./config/workers:/root/hadoop/etc/hadoop/workers:r
       # 映射数据目录
       - /hadoopdata/8:/hadoopdata:wr

   pignode9:
     image: pig/hadoop:cluster
     deploy:
       endpoint_mode: dnsrr
       restart_policy:
         condition: on-failure
       placement:
         # 将Mapreduce限制部署在第三个节点上
         constraints:
           # node.role==manager
           - node.hostname==pighost4
     networks:
       - pig
     ports:
       - target: 22
         published: 9019
         protocol: tcp
         mode: host
     hostname: pignode9
     environment:
       - NODE_COUNT=12
     volumes:
      # 映射xml配置文件
       - ./config/core-site.xml:/root/hadoop/etc/hadoop/core-site.xml:r
       - ./config/hdfs-site.xml:/root/hadoop/etc/hadoop/hdfs-site.xml:r
       - ./config/yarn-site.xml:/root/hadoop/etc/hadoop/yarn-site.xml:r
       - ./config/mapred-site.xml:/root/hadoop/etc/hadoop/mapred-site.xml:r
       # 映射workers文件
       - ./config/workers:/root/hadoop/etc/hadoop/workers:r
       # 映射数据目录
       - /hadoopdata/9:/hadoopdata:wr
     
   pignode10:
     image: pig/hadoop:cluster
     deploy:
       endpoint_mode: dnsrr
       restart_policy:
         condition: on-failure
       placement:
         # 将Mapreduce限制部署在第三个节点上
         constraints:
           # node.role==manager
           - node.hostname==pighost5
     networks:
       - pig
     ports:
       - target: 22
         published: 9020
         protocol: tcp
         mode: host
     hostname: pignode10
     environment:
       - NODE_COUNT=12
     volumes:
      # 映射xml配置文件
       - ./config/core-site.xml:/root/hadoop/etc/hadoop/core-site.xml:r
       - ./config/hdfs-site.xml:/root/hadoop/etc/hadoop/hdfs-site.xml:r
       - ./config/yarn-site.xml:/root/hadoop/etc/hadoop/yarn-site.xml:r
       - ./config/mapred-site.xml:/root/hadoop/etc/hadoop/mapred-site.xml:r
       # 映射workers文件
       - ./config/workers:/root/hadoop/etc/hadoop/workers:r
       # 映射数据目录
       - /hadoopdata/10:/hadoopdata:wr

   pignode11:
     image: pig/hadoop:cluster
     deploy:
       endpoint_mode: dnsrr
       restart_policy:
         condition: on-failure
       placement:
         # 将Mapreduce限制部署在第三个节点上
         constraints:
           # node.role==manager
           - node.hostname==pighost5
     networks:
       - pig
     ports:
       - target: 22
         published: 9021
         protocol: tcp
         mode: host
     hostname: pignode11
     environment:
       - NODE_COUNT=12
     volumes:
      # 映射xml配置文件
       - ./config/core-site.xml:/root/hadoop/etc/hadoop/core-site.xml:r
       - ./config/hdfs-site.xml:/root/hadoop/etc/hadoop/hdfs-site.xml:r
       - ./config/yarn-site.xml:/root/hadoop/etc/hadoop/yarn-site.xml:r
       - ./config/mapred-site.xml:/root/hadoop/etc/hadoop/mapred-site.xml:r
       # 映射workers文件
       - ./config/workers:/root/hadoop/etc/hadoop/workers:r
       # 映射数据目录
       - /hadoopdata/11:/hadoopdata:wr
 
   pignode12:
     image: pig/hadoop:cluster
     deploy:
       endpoint_mode: dnsrr
       restart_policy:
         condition: on-failure
       placement:
         # 将Mapreduce限制部署在第三个节点上
         constraints:
           # node.role==manager
           - node.hostname==pighost5
     networks:
       - pig
     ports:
       - target: 22
         published: 9022
         protocol: tcp
         mode: host
     hostname: pignode12
     environment:
       - NODE_COUNT=12
     volumes:
      # 映射xml配置文件
       - ./config/core-site.xml:/root/hadoop/etc/hadoop/core-site.xml:r
       - ./config/hdfs-site.xml:/root/hadoop/etc/hadoop/hdfs-site.xml:r
       - ./config/yarn-site.xml:/root/hadoop/etc/hadoop/yarn-site.xml:r
       - ./config/mapred-site.xml:/root/hadoop/etc/hadoop/mapred-site.xml:r
       # 映射workers文件
       - ./config/workers:/root/hadoop/etc/hadoop/workers:r
       # 映射数据目录
       - /hadoopdata/12:/hadoopdata:wr
networks:
  pig:

如果不说，没啥特别的地方。但是出问题的时候，在网上查，发现和我一样掉坑的兄弟也有，爬出来的不多……

按照原来的方式，直接使用9000：9000之类的端口映射，swarm默认采用vip形式来构建名字服务。所谓vip形式，就是swarm会帮助我们对每个节点/服务的hostname映射一个ip，然后启用自己的负载均衡来管理名字和ip的映射关系。

其实这段话在之前学习stack的配置方式时也看过，但是没觉着有什么需要特别注意的地方。直到这次遭遇到datanode节点随机只启动一半的问题……

排查了一个下午，才发现原因，是在某些datanode启动的时候，swarm名字服务给出了错误的namenode ip地址……犯罪现场是已经没有了，当时也百思不得其解，不过搞明白后还原现场的照片还在：

在不断的ping下，两个ip反复交替出现，所以马上让人联想到负载均衡问题。

所以最终问题才回到正轨上来——如果vip会被负载均衡的话，原来那个不太理解的dnsrr模式，应该就是需要“自行负载均衡”的简单ip轮询方式了。果不其然，在更改endpoint_mode为dnsrr模式后（当然对应导致端口映射的写法也要改），ip解析终于稳定了。datanode也能够赏心悦目地一次全部启动了。

三、 Hadoop HA集群部署

高可用有两种方式，一种是使用Quorun Journal node管理器（QJM）进行活跃名字服务器和待机名字服务器间编辑信息的同步，另一种是使用传统的NFS共享存储来帮助编辑信息同步。鉴于把NFS的高可用性建立在另一个NFS上的这种奇怪逻辑，这里毫不犹豫选择了QJM模式，希望是对的。

1. DFS部分配置

高可用模式网上配置教程很多，有些写得极为复杂，有的宣称简单到一把搞定，我都试了，感觉复杂未必，简单也不见得。所谓复杂未必，是说虽然配置项很多，但是配哪些如何配，官网说得比较清楚，一项项照配就行；所谓简单不见得，主要在于启动过程，不同的前提条件启动过程不太一样，虽然官网说得比较明白，但也有些步骤容易忽视，勤看log是个不错的爬坑习惯。

按照官网的说法，要配置QJM高可用集群，需要准备2类节点。一是Namenode服务器，2台以上，我们用了3台，所有这些名字服务器需要有相同的硬件配置；二是Journalnode服务器，其实一种轻载的进程，所以官网推荐和Namenode、JobTracker或者ResourceManager装在一起，且要求为大于3的奇数台，用以容忍（N-1）/2个节点失效。所以，我们干脆运行了3个管理节点，每节点用来承载一个namenode，一个Journalnode，一个resourcemanager及其它。

（1）core-site.xml

默认文件系统，由原先的pignode1：9000改成群组名，群族名在后面hdfs-site.xml中定义。


  fs.defaultFS
  hdfs://mycluster

（2）hdfs-site.xml

由于使用了名字服务器群组，所以在hdfs中需要更改的配置主要是定义名字服务器群组及其中的名字服务器。相关配置包括：

dfs.nameservices

名字服务群组的逻辑名称（自己取个名字就行）


  dfs.nameservices
  mycluster

dfs.ha.namenodes.[nameservice ID]

定义名字服务器群组中每个名字服务器的名称，比如mycluster群组中，包含nn1、nn2、nn3这3个名字服务器。注意这个nn1,nn2,nn3就是为名字服务器取的名字，不一定是名字服务器主机所在的名字。为免混淆，最好不一样。


  dfs.ha.namenodes.mycluster
  nn1,nn2, nn3

dfs.namenode.rpc-address.[nameservice ID].[name node ID]

定义每个名字服务器需要监听RPC调用的地址和端口。因为定义了3个，所以要有3个property


  dfs.namenode.rpc-address.mycluster.nn1
  machine1.example.com:8020


  dfs.namenode.rpc-address.mycluster.nn2
  machine2.example.com:8020


  dfs.namenode.rpc-address.mycluster.nn3
  machine3.example.com:8020

dfs.namenode.http-address.[nameservice ID].[name node ID]

定义名字服务器监听的WEB服务的地址和端口号。就是最后我们经常用的WEB管理页面的地址。也可以设置为https的，为免麻烦，直接http了。


  dfs.namenode.http-address.mycluster.nn1
  machine1.example.com:9870


  dfs.namenode.http-address.mycluster.nn2
  machine2.example.com:9870


  dfs.namenode.http-address.mycluster.nn3
  machine3.example.com:9870

到此，和名字服务器相关的配置基本就搞定了。上文说了，还要准备Journalnode服务器，相关配置也要配好：

dfs.namenode.shared.edits.dir

该属性定义了所有的Journalnode服务器和监听端口，名字服务器用这个地址来同步编辑信息


  dfs.namenode.shared.edits.dir
  qjournal://node1.example.com:8485;node2.example.com:8485;node3.example.com:8485/mycluster

然后就是配置故障迁移相关的脚本：

dfs.client.failover.proxy.provider.[nameservice ID]

定义HDFS客户端用来确定活跃名字服务器的Java class，也就是客户端用这个来确定应该和哪个名字服务器通信。这里只有nameserviceID需要改一下，改成我们自己取的那个名字。


  dfs.client.failover.proxy.provider.mycluster
  org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider

dfs.ha.fencing.methods

一组java class或脚本的列表，用于在故障迁移期间用于锁定活跃的名字服务器。比如sshfence，使用ssh链接到活跃的名字服务器并kill进程。所以被杀节点上应该有发起节点的公钥和authkey文件，发起节点的私钥存储位置如下定义。

    
      dfs.ha.fencing.methods
      sshfence
    

    
      dfs.ha.fencing.ssh.private-key-files
      /home/exampleuser/.ssh/id_rsa

dfs.journalnode.edits.dir

配置Journalnode用于存储编辑信息的本地目录，应该是一个绝对路径。在容器中最好映射到宿主机。


  dfs.journalnode.edits.dir
  /path/to/journal/node/local/data

2. Zookeeper部分配置

hadoop建议部署3个以上，同样最好是奇数个的zookeeper节点，并且在启动hadoop前验证zookeeper节点是否正常工作。

这个可以通过在每个zookeeper节点上运行zkServer.sh status来查看，进一步可使用zkCli.sh -ls /来查看目录，判断是否工作正常。

zookeeper相关的配置一共2个，一个涉及名字服务器的同步和故障迁移，在core-site.xml中；一个涉及reoursemanager的同步和迁移，在yarn-site.xml中，后面会涉及，此处不赘述。

3. 配置自动故障迁移

涉及自动故障迁移的主要有两个配置项，分别在两个不同的配置文件中：

（1）core-site.xml

配置用于自动切换的zookeeper节点及端口

 
   ha.zookeeper.quorum
   zk1.example.com:2181,zk2.example.com:2181,zk3.example.com:2181

（2）hdfs-site.xml

指示集群自动故障切换

 
   dfs.ha.automatic-failover.enabled
   true

4. 启动dfs

前面说过，说复杂不复杂，说简单不简单。关键在于两点，一点就是上面的配置不要敲错了——这个确实很难检查，很坑；二呢，就是下面的启动步骤，不要颠倒了。之所以如此怪异和复杂，主要还是和服务器间初始化时的同步相关，一旦格式化、初始化都搞定了，后续还是可以通过start-dfs.sh脚本一键启动的。

（1）启动所有Journalnode

在所有的3个名字服务器上，执行：hdfs --daemon start journalnode

[root@pignode1 ~]# hdfs --daemon start journalnode
WARNING: /root/hadoop/logs does not exist. Creating.
[root@pignode1 ~]# jps
75 JournalNode
123 Jps
[root@pignode1 ~]# 



[root@pignode2 ~]# hdfs --daemon start journalnode
WARNING: /root/hadoop/logs does not exist. Creating.
[root@pignode2 ~]# jps
75 JournalNode
123 Jps



[root@pignode3 ~]# hdfs --daemon start journalnode
WARNING: /root/hadoop/logs does not exist. Creating.
[root@pignode3 ~]# jps
75 JournalNode
123 Jps

（2）namenode格式化

这里只介绍安装完全新鲜的HA集群的做法，升级HA或者迁移数据什么的，请参考官网描述Apache Hadoop 3.3.5 – HDFS High Availability Using the Quorum Journal Manager

在其中一个名字服务器节点上，进行格式化，比如pignode1： hdfs namenode -format

[root@pignode1 ~]# hdfs namenode -format
2023-05-11 09:39:06,842 INFO namenode.NameNode: STARTUP_MSG: 
/************************************************************
STARTUP_MSG: Starting NameNode
……………
……………
2023-05-11 09:39:09,145 INFO namenode.FSImage: Allocated new BlockPoolId: BP-1327835470-10.0.30.18-1683797949145
2023-05-11 09:39:09,159 INFO common.Storage: Storage directory /hadoopdata/hdfs_name has been successfully formatted.
2023-05-11 09:39:09,320 INFO namenode.FSImageFormatProtobuf: Saving image file /hadoopdata/hdfs_name/current/fsimage.ckpt_0000000000000000000 using no compression
2023-05-11 09:39:09,403 INFO namenode.FSImageFormatProtobuf: Image file /hadoopdata/hdfs_name/current/fsimage.ckpt_0000000000000000000 of size 396 bytes saved in 0 seconds .
2023-05-11 09:39:09,409 INFO namenode.NNStorageRetentionManager: Going to retain 1 images with txid >= 0
2023-05-11 09:39:09,456 INFO namenode.FSNamesystem: Stopping services started for active state
2023-05-11 09:39:09,457 INFO namenode.FSNamesystem: Stopping services started for standby state
2023-05-11 09:39:09,466 INFO namenode.FSImage: FSImageSaver clean checkpoint: txid=0 when meet shutdown.
2023-05-11 09:39:09,467 INFO namenode.NameNode: SHUTDOWN_MSG: 
/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at pignode1/10.0.30.18
************************************************************/
[root@pignode1 ~]#

启动该名字服务器，否则后面在其它服务器上同步元数据会因为连不上服务器而失败

[root@pignode1 ~]# hdfs --daemon start namenode
[root@pignode1 ~]# jps
259 NameNode
341 Jps
75 JournalNode

在其它名字服务器节点上，执行：hdfs namenode -bootstrapStandby，以确保将已格式化节点的元数据通过Journalnode同步到没有格式化的名字服务器上。这也就是为什么必须首先启动journalnode的原因。

[root@pignode2 ~]# hdfs namenode -bootstrapStandby
2023-05-11 09:43:54,097 INFO namenode.NameNode: STARTUP_MSG: 
/************************************************************
STARTUP_MSG: Starting NameNode
STARTUP_MSG:   host = pignode2/10.0.30.21
STARTUP_MSG:   args = [-bootstrapStandby]
STARTUP_MSG:   version = 3.3.5
…………
…………
2023-05-11 09:58:32,730 INFO common.Util: Assuming 'file' scheme for path /hadoopdata/hdfs_name in configuration.
2023-05-11 09:58:32,730 INFO common.Util: Assuming 'file' scheme for path /hadoopdata/hdfs_name in configuration.
=====================================================
About to bootstrap Standby ID pignamenode2 from:
           Nameservice ID: pignamenodecluster
        Other Namenode ID: pignamenode1
  Other NN's HTTP address: http://pignode1:9870
  Other NN's IPC  address: pignode1/10.0.31.21:8020
             Namespace ID: 1898329509
            Block pool ID: BP-1342056252-10.0.31.21-1683799022316
               Cluster ID: CID-ddaf258a-47c4-4dde-b681-2c9c70872ef1
           Layout version: -66
       isUpgradeFinalized: true
=====================================================
2023-05-11 09:58:33,140 INFO common.Storage: Storage directory /hadoopdata/hdfs_name has been successfully formatted.
2023-05-11 09:58:33,171 INFO common.Util: Assuming 'file' scheme for path /hadoopdata/hdfs_name in configuration.
2023-05-11 09:58:33,172 INFO common.Util: Assuming 'file' scheme for path /hadoopdata/hdfs_name in configuration.
2023-05-11 09:58:33,200 INFO namenode.FSEditLog: Edit logging is async:true
2023-05-11 09:58:33,300 INFO namenode.TransferFsImage: Opening connection to http://pignode1:9870/imagetransfer?getimage=1&txid=0&storageInfo=-66:1898329509:1683799022316:CID-ddaf258a-47c4-4dde-b681-2c9c70872ef1&bootstrapstandby=true
2023-05-11 09:58:33,436 INFO common.Util: Combined time for file download and fsync to all disks took 0.00s. The file download took 0.00s at 0.00 KB/s. Synchronous (fsync) write to disk of /hadoopdata/hdfs_name/current/fsimage.ckpt_0000000000000000000 took 0.00s.
2023-05-11 09:58:33,437 INFO namenode.TransferFsImage: Downloaded file fsimage.ckpt_0000000000000000000 size 399 bytes.
2023-05-11 09:58:33,443 INFO ha.BootstrapStandby: Skipping InMemoryAliasMap bootstrap as it was not configured
2023-05-11 09:58:33,456 INFO namenode.NameNode: SHUTDOWN_MSG: 
/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at pignode2/10.0.31.12
************************************************************/

同步完了也启动：

[root@pignode2 ~]# hdfs --daemon start namenode
[root@pignode2 ~]# jps
75 JournalNode
251 NameNode
332 Jps

第3个节点照抄：

[root@pignode3 ~]# hdfs namenode -bootstrapStandby
2023-05-11 09:46:55,393 INFO namenode.NameNode: STARTUP_MSG: 
/************************************************************
STARTUP_MSG: Starting NameNode
STARTUP_MSG:   host = pignode3/10.0.30.6
STARTUP_MSG:   args = [-bootstrapStandby]
STARTUP_MSG:   version = 3.3.5
…………
…………
2023-05-11 10:02:24,114 INFO common.Util: Assuming 'file' scheme for path /hadoopdata/hdfs_name in configuration.
=====================================================
About to bootstrap Standby ID pignamenode3 from:
           Nameservice ID: pignamenodecluster
        Other Namenode ID: pignamenode1
  Other NN's HTTP address: http://pignode1:9870
  Other NN's IPC  address: pignode1/10.0.31.21:8020
             Namespace ID: 1898329509
            Block pool ID: BP-1342056252-10.0.31.21-1683799022316
               Cluster ID: CID-ddaf258a-47c4-4dde-b681-2c9c70872ef1
           Layout version: -66
       isUpgradeFinalized: true
=====================================================
2023-05-11 10:02:24,409 INFO common.Storage: Storage directory /hadoopdata/hdfs_name has been successfully formatted.
2023-05-11 10:02:24,420 INFO common.Util: Assuming 'file' scheme for path /hadoopdata/hdfs_name in configuration.
2023-05-11 10:02:24,421 INFO common.Util: Assuming 'file' scheme for path /hadoopdata/hdfs_name in configuration.
2023-05-11 10:02:24,450 INFO namenode.FSEditLog: Edit logging is async:true
2023-05-11 10:02:24,542 INFO namenode.TransferFsImage: Opening connection to http://pignode1:9870/imagetransfer?getimage=1&txid=0&storageInfo=-66:1898329509:1683799022316:CID-ddaf258a-47c4-4dde-b681-2c9c70872ef1&bootstrapstandby=true
2023-05-11 10:02:24,567 INFO common.Util: Combined time for file download and fsync to all disks took 0.00s. The file download took 0.00s at 0.00 KB/s. Synchronous (fsync) write to disk of /hadoopdata/hdfs_name/current/fsimage.ckpt_0000000000000000000 took 0.00s.
2023-05-11 10:02:24,568 INFO namenode.TransferFsImage: Downloaded file fsimage.ckpt_0000000000000000000 size 399 bytes.
2023-05-11 10:02:24,574 INFO ha.BootstrapStandby: Skipping InMemoryAliasMap bootstrap as it was not configured
2023-05-11 10:02:24,590 INFO namenode.NameNode: SHUTDOWN_MSG: 
/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at pignode3/10.0.31.18
************************************************************/

启动：

[root@pignode3 ~]# hdfs --daemon start namenode
[root@pignode3 ~]# jps
249 NameNode
330 Jps
75 JournalNode

（3）检查名字服务器状态

在这里，就可以检查名字服务器的状态了，随便找个名字服务器查看一下，状态都是standby，这很正常，因为启动尚未完成，同志们还需努力。

[root@pignode3 ~]# hdfs haadmin -getAllServiceState
pignode1:8020                                      standby   
pignode2:8020                                      standby   
pignode3:8020                                      standby

（4）初始化Zookeeper目录

从一个名字服务器节点执行：hdfs zkfc -formatZK

[root@pignode1 ~]# hdfs zkfc -formatZK
2023-05-11 10:06:06,802 INFO tools.DFSZKFailoverController: STARTUP_MSG: 
/************************************************************
STARTUP_MSG: Starting DFSZKFailoverController
STARTUP_MSG:   host = pignode1/10.0.31.21
STARTUP_MSG:   args = [-formatZK]
STARTUP_MSG:   version = 3.3.5
…………
…………
2023-05-11 10:06:07,564 INFO ha.ActiveStandbyElector: Session connected.
2023-05-11 10:06:07,618 INFO ha.ActiveStandbyElector: Successfully created /hadoop-ha/pignamenodecluster in ZK.
2023-05-11 10:06:07,731 INFO zookeeper.ZooKeeper: Session: 0x300052118910000 closed
2023-05-11 10:06:07,731 WARN ha.ActiveStandbyElector: Ignoring stale result from old client with sessionId 0x300052118910000
2023-05-11 10:06:07,732 INFO zookeeper.ClientCnxn: EventThread shut down for session: 0x300052118910000
2023-05-11 10:06:07,736 INFO tools.DFSZKFailoverController: SHUTDOWN_MSG: 
/************************************************************
SHUTDOWN_MSG: Shutting down DFSZKFailoverController at pignode1/10.0.31.21
************************************************************/

（5）启动ZKFC（Zookeeper failover Controller）

按照官网的说法，从这里可以开始start-dfs.sh了；当然也可以手工 hdfs --daemon start zkfc

但是3个zkfc手工搞问题还不大，9个datanode就比较难受了，所以还是偷个懒：

[root@pignode1 hadoop]# sbin/start-dfs.sh
Starting namenodes on [pignode1 pignode2 pignode3]
Last login: Thu May 11 10:05:49 UTC 2023 from 192.168.21.11 on pts/0
pignode1: Warning: Permanently added 'pignode1,10.0.31.21' (ECDSA) to the list of known hosts.
pignode2: Warning: Permanently added 'pignode2,10.0.31.12' (ECDSA) to the list of known hosts.
pignode3: Warning: Permanently added 'pignode3,10.0.31.18' (ECDSA) to the list of known hosts.
pignode1: namenode is running as process 259.  Stop it first and ensure /tmp/hadoop-root-namenode.pid file is empty before retry.
pignode2: namenode is running as process 251.  Stop it first and ensure /tmp/hadoop-root-namenode.pid file is empty before retry.
pignode3: namenode is running as process 249.  Stop it first and ensure /tmp/hadoop-root-namenode.pid file is empty before retry.
Starting datanodes
Last login: Thu May 11 10:07:40 UTC 2023 on pts/0
pignode5: Warning: Permanently added 'pignode5,10.0.31.2' (ECDSA) to the list of known hosts.
pignode4: Warning: Permanently added 'pignode4,10.0.31.14' (ECDSA) to the list of known hosts.
pignode6: Warning: Permanently added 'pignode6,10.0.31.16' (ECDSA) to the list of known hosts.
pignode9: Warning: Permanently added 'pignode9,10.0.31.8' (ECDSA) to the list of known hosts.
pignode11: Warning: Permanently added 'pignode11,10.0.31.15' (ECDSA) to the list of known hosts.
pignode7: Warning: Permanently added 'pignode7,10.0.31.20' (ECDSA) to the list of known hosts.
pignode10: Warning: Permanently added 'pignode10,10.0.31.19' (ECDSA) to the list of known hosts.
pignode8: Warning: Permanently added 'pignode8,10.0.31.6' (ECDSA) to the list of known hosts.
pignode12: Warning: Permanently added 'pignode12,10.0.31.4' (ECDSA) to the list of known hosts.
pignode4: WARNING: /root/hadoop/logs does not exist. Creating.
pignode5: WARNING: /root/hadoop/logs does not exist. Creating.
pignode6: WARNING: /root/hadoop/logs does not exist. Creating.
pignode7: WARNING: /root/hadoop/logs does not exist. Creating.
pignode9: WARNING: /root/hadoop/logs does not exist. Creating.
pignode8: WARNING: /root/hadoop/logs does not exist. Creating.
pignode10: WARNING: /root/hadoop/logs does not exist. Creating.
pignode11: WARNING: /root/hadoop/logs does not exist. Creating.
pignode12: WARNING: /root/hadoop/logs does not exist. Creating.
Starting journal nodes [pignode3 pignode2 pignode1]
Last login: Thu May 11 10:07:40 UTC 2023 on pts/0
pignode1: Warning: Permanently added 'pignode1,10.0.31.21' (ECDSA) to the list of known hosts.
pignode2: Warning: Permanently added 'pignode2,10.0.31.12' (ECDSA) to the list of known hosts.
pignode3: Warning: Permanently added 'pignode3,10.0.31.18' (ECDSA) to the list of known hosts.
pignode2: journalnode is running as process 75.  Stop it first and ensure /tmp/hadoop-root-journalnode.pid file is empty before retry.
pignode1: journalnode is running as process 74.  Stop it first and ensure /tmp/hadoop-root-journalnode.pid file is empty before retry.
pignode3: journalnode is running as process 75.  Stop it first and ensure /tmp/hadoop-root-journalnode.pid file is empty before retry.
Starting ZK Failover Controllers on NN hosts [pignode1 pignode2 pignode3]
Last login: Thu May 11 10:07:47 UTC 2023 on pts/0
pignode1: Warning: Permanently added 'pignode1,10.0.31.21' (ECDSA) to the list of known hosts.
pignode2: Warning: Permanently added 'pignode2,10.0.31.12' (ECDSA) to the list of known hosts.
pignode3: Warning: Permanently added 'pignode3,10.0.31.18' (ECDSA) to the list of known hosts.
[root@pignode1 hadoop]#

启动完了再看，一个服务器已经上线了：

[root@pignode1 hadoop]# hdfs haadmin -getAllServiceState
pignode1:8020                                      active    
pignode2:8020                                      standby   
pignode3:8020                                      standby

然后使用WEB管理器看看成果：

脚本的好处，是Datanode也都起来了：

5. 配置Yarn

参考Apache Hadoop 3.3.5 – ResourceManager High Availability进行Yarn的高可靠配置，涉及的主要参数包括：

（1）打开HA选项

yarn.resourcemanager.ha.enabled

打开resourcemanager的高可靠开关

        
                yarn.resourcemanager.ha.enabled
                true

（2）定义HA resource manager集群

yarn.resourcemanager.cluster-id

定义resourcemanager的集群id，也就是自己取一个，而且目前看再别的什么地儿也没用上

yarn.resourcemanager.ha.rm-ids

定义resoucemanager集群的内部成员名称

yarn.resourcemanager.hostname.rm-id

定义每个resourcemanager部署的节点

yarn.resourcemanager.webapp.address.rm-id

定义每个resourcemanager的WEB管理页面的端口

        
                yarn.resourcemanager.cluster-id
                pignode-ha
        
        
                yarn.resourcemanager.ha.rm-ids
                pigresourcemanager1,pigresourcemanager2,pigresourcemanager3
        
        
                yarn.resourcemanager.hostname.pigresourcemanager1
                pignode1
        
……
        
                yarn.resourcemanager.webapp.address.pigresourcemanager1
                0.0.0.0:8088
        
……

（3）指定zookeeper

hadoop.zk.address

官方给出的是hadoop.zk.address，但很多网上文章给出的是yarn.resourcemanaget.zk-address，估计是版本问题。whatever，能用就行。

        
                yarn.resourcemanager.zk-address
                zookeeper1:2181,zookeeper2:2181,zookeeper3:2181

6. 启动Yarn

yarn可以直接使用start-yarn.sh脚本启动。使用yarn rmadmin -getAllServiceState可以查看resourcemanager的状态。

[root@pignode1 hadoop]# sbin/start-yarn.sh
Starting resourcemanagers on [ pignode1 pignode2]
Last login: Thu May 11 10:07:50 UTC 2023 on pts/0
pignode2: Warning: Permanently added 'pignode2,10.0.31.22' (ECDSA) to the list of known hosts.
pignode1: Warning: Permanently added 'pignode1,10.0.31.21' (ECDSA) to the list of known hosts.
pignode2: WARNING: /root/hadoop/logs does not exist. Creating.
Starting nodemanagers
Last login: Thu May 11 13:32:28 UTC 2023 on pts/0
pignode6: Warning: Permanently added 'pignode6,10.0.31.27' (ECDSA) to the list of known hosts.
pignode11: Warning: Permanently added 'pignode11,10.0.31.31' (ECDSA) to the list of known hosts.
pignode4: Warning: Permanently added 'pignode4,10.0.31.25' (ECDSA) to the list of known hosts.
pignode8: Warning: Permanently added 'pignode8,10.0.31.6' (ECDSA) to the list of known hosts.
pignode7: Warning: Permanently added 'pignode7,10.0.31.20' (ECDSA) to the list of known hosts.
pignode9: Warning: Permanently added 'pignode9,10.0.31.8' (ECDSA) to the list of known hosts.
pignode12: Warning: Permanently added 'pignode12,10.0.31.30' (ECDSA) to the list of known hosts.
pignode5: Warning: Permanently added 'pignode5,10.0.31.28' (ECDSA) to the list of known hosts.
pignode10: Warning: Permanently added 'pignode10,10.0.31.29' (ECDSA) to the list of known hosts.
pignode6: WARNING: /root/hadoop/logs does not exist. Creating.
pignode11: WARNING: /root/hadoop/logs does not exist. Creating.
pignode4: WARNING: /root/hadoop/logs does not exist. Creating.
pignode12: WARNING: /root/hadoop/logs does not exist. Creating.
pignode5: WARNING: /root/hadoop/logs does not exist. Creating.
pignode10: WARNING: /root/hadoop/logs does not exist. Creating.
Last login: Thu May 11 13:32:30 UTC 2023 on pts/0
pignode3: Warning: Permanently added 'pignode3,10.0.31.24' (ECDSA) to the list of known hosts.
pignode3: WARNING: /root/hadoop/logs does not exist. Creating.
[root@pignode1 hadoop]#

启动后可以通过 yarn rmadmin命令查看resourcemanager的情况：

[root@pignode1 hadoop]# yarn rmadmin -getAllServiceState
pignode1:8033                                      standby   
pignode2:8033                                      active    
pignode3:8033                                      standby

和namenode不太一样的是，如果是不活跃的resourcemanager，似乎就无法访问管理页面：

但是活跃的rm，是可以访问的

7. 启动MapReduce

MapReduce和非HA模式下配置、启动方式均一样，不赘述。

四、Swarm上的Hadoop HA部署

不多说了，前文已经很罗嗦，这里直接贴。

1. 配置文件

（1）core-site.xml








        
                
                fs.defaultFS
                hdfs://pignamenodecluster
        
        
                
                ha.zookeeper.quorum
                zookeeper1:2181,zookeeper2:2181,zookeeper3:2181
        
        
                
                hadoop.http.staticuser.user
                root
        
        
                
                hadoop.tmp.dir
                /hadoopdata/data
        

~

（2）hdfs-site.xml








	
		
		dfs.nameservices
		pignamenodecluster
	
	
		dfs.ha.namenodes.pignamenodecluster
		pignamenode1,pignamenode2,pignamenode3
	

        
                dfs.replication
                3
	

        
        
                dfs.namenode.name.dir
                /hadoopdata/hdfs_name
        
        
                dfs.datanode.data.dir
                /hadoopdata/hdfs_data
	

        
        
                dfs.webhdfs.enabled
                true
        

	
		dfs.namenode.rpc-address.pignamenodecluster.pignamenode1
		pignode1:8020
	
	
		dfs.namenode.rpc-address.pignamenodecluster.pignamenode2
		pignode2:8020
	
	
		dfs.namenode.rpc-address.pignamenodecluster.pignamenode3
		pignode3:8020
	
	
		dfs.namenode.http-address.pignamenodecluster.pignamenode1
		0.0.0.0:9870
	
	
		dfs.namenode.http-address.pignamenodecluster.pignamenode2
		0.0.0.0:9870
	
	
		dfs.namenode.http-address.pignamenodecluster.pignamenode3
		0.0.0.0:9870
	

	
		
		dfs.namenode.shared.edits.dir
		qjournal://pignode1:8485;pignode2:8485;pignode3:8485/pignamenodecluster
	
	
		dfs.journalnode.edits.dir
		/hadoopdata/journal
	
	
		dfs.ha.fencing.methods
		sshfence
	
	
		dfs.ha.fencing.ssh.private-key-files
		/root/.ssh/id_rsa
	
	
		dfs.ha.automatic-failover.enabled
		true
	

	
	
          	dfs.client.failover.proxy.provider.pignamenodecluster
          	org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider

（3）yarn-site.xml






	
		yarn.resourcemanager.ha.enabled
		true
	
	
		yarn.resourcemanager.recovery.enabled
		true
	
        
                yarn.resourcemanager.cluster-id
                pignode-ha
	
	
		yarn.resourcemanager.ha.rm-ids
		pigresourcemanager1,pigresourcemanager2,pigresourcemanager3
	
	
		yarn.resourcemanager.hostname.pigresourcemanager1
		pignode1
	
	
		yarn.resourcemanager.hostname.pigresourcemanager2
		pignode2
	
	
		yarn.resourcemanager.hostname.pigresourcemanager3
		pignode3
	
	
        	yarn.resourcemanager.webapp.address.pigresourcemanager1
                0.0.0.0:8088
        
	
        	yarn.resourcemanager.webapp.address.pigresourcemanager2
                0.0.0.0:8088
        
	
        	yarn.resourcemanager.webapp.address.pigresourcemanager3
                0.0.0.0:8088
	

	
                yarn.nodemanager.aux-services
                mapreduce_shuffle
        
            
                yarn.nodemanager.env-whitelist
                JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME
	
	
		yarn.resourcemanager.stored.class
		org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore
	
	
		yarn.resourcemanager.zk-address
		zookeeper1:2181,zookeeper2:2181,zookeeper3:2181

（4）mapred-site.xml








        
                mapreduce.framework.name
                yarn
        
        
                mapreduce.jobhistory.address
                pignode3:10020
        
        
                mapreduce.jobhistory.webapp.address
                0.0.0.0:19888
        
        
                mapreduce.application.classpath
                $HADOOP_MAPRED_HOME/share/hadoop/mapreduce/*:$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/lib/*

2. 启动初始化脚本

（1）宿主机映射文件系统清理及构建脚本

主要功能，就是清理宿主机上映射的hadoop、zookeeper目录，防止因为反复格式化等操作，在试验过程中出现莫名其妙的错误。

#! /bin/bash

index=1
rm /hadoopdata/* -rf
while(($index<=12));do
	file="/hadoopdata/${index}"
	mkdir $file
	mkdir ${file}/data
	mkdir ${file}/hdfs_name
	mkdir ${file}/hdfs_data
	mkdir ${file}/journal
	let "index++"
done

index=1
while(($index<=3));do
	file="/hadoopdata/zoo/${index}"
	mkdir ${file}/data -p
	mkdir ${file}/datalog -p
	mkdir ${file}/logs -p
	let "index++"
done

（2）容器内Hadoop初始化脚本

初始化脚本贴在这里完全是给我自己看的，因为一些参数我没有做得很灵活。而且，仅仅只考虑了没有格式化和已经格式化2种情况下，所有节点启动的情况……也就是swarm启动的情况，没有考虑单个节点失效重启情况下如何启动，仅仅是在等待5分钟后执行start-dfs.sh和start-yarn.sh脚本，由脚本帮助判断是否需要启动进程。总之应付当前需求是够了。

#! /bin/bash
# the NODE_COUNT param set by swarm config yml file, using endpoint_environment flag.
NODECOUNT=$NODE_COUNT
TRYLOOP=50
ZOOKEEPERNODECOUNT=$ZOOKEEPER_COUNT

############################################################################################################
##   1. get enviorenment param
############################################################################################################
source /etc/profile
source /root/.bashrc

############################################################################################################
##   2. for every node, init sshd service
############################################################################################################
/sbin/sshd -D &

############################################################################################################
##   3. define functions
############################################################################################################

#FUNCTION:to test all the nodes can be connected------------------------------------------------------------
#param1: node's hostname prefix
#param2: node count
#param3: how many times the manager node try connect
isAllNodesConnected(){
	PIGNODE_PRENAME=$1
	PIGNODE_COUNT=$2
	TRYLOOP_COUNT=$3
	tryloop=0
	ind=1
	#init pignode hostname array,and pignode status array
	while(( $ind <= $PIGNODE_COUNT ))
	do
		pignodes[$ind]="$PIGNODE_PRENAME$ind"
		pignodes_stat[$ind]=0
		let "ind++"
	done
	
	#check wether all the pignodes can be connected
	noactivecount=$PIGNODE_COUNT
	while(( $noactivecount > 0 ))
	do
		noactivecount=$PIGNODE_COUNT
		ind=1
		while(( $ind <= $PIGNODE_COUNT ))
		do
			if (( ${pignodes_stat[$ind]}==0 ))
			then
				ping -c 1 ${pignodes[$ind]} > /dev/null
				if (($?==0))
				then
					pignodes_stat[$ind]=1
					let "noactivecount-=1"
					echo "Try to connect ${pignodes[$ind]}:successed." >>init.log
				else
					echo "Try to connect ${pignodes[$ind]}: failed." >>init.log
				fi
			else
				let "noactivecount-=1"
			fi
			let "ind++"
		done
		if (( ${noactivecount}>0 ))
		then
			let "tryloop++"
			if (($tryloop>$TRYLOOP_COUNT))
			then
				echo "ERROR Tried ${TRYLOOP_COUNT} loops. ${noactivecount} nodes failed, exit." >>init.log
				break;
			fi
			echo "${noactivecount} left for ${PIGNODE_COUNT} nodes not connected, waiting for next try">>init.log
			sleep 5
		else
			echo "All nodes are connected.">>init.log
		fi
	done
	return $noactivecount
}
#----------------------------------------------------------------------------------------------------------

#FUNCTION:get the hadoop data directory--------------------------------------------------------------------
getDataDirectory(){
#when use tmp data directory
#        configfiledir=`echo "${HADOOP_HOME}/etc/hadoop/core-site.xml"`
#        datadir=`cat ${configfiledir} | grep -A 2 'hadoop.tmp.dir' | grep '' | sed 's/^[[:blank:]]*//g' | sed 's/<\/value>$//g'`
#        echo $datadir

#when use namenode.name.dir direcotry
	datadir=`cat ${HADOOP_HOME}/etc/hadoop/hdfs-site.xml|grep -A 2 "dfs.namenode.name.dir"|grep ""|sed -e "s///g"|sed -e "s/<\/value>//g"`
	echo $datadir
}
#---------------------------------------------------------------------------------------------------------

#FUNCTION:init hadoop while dfs not formatted.------------------------------------------------------------
initHadoop_format(){
	#init journalnode
	echo 'start all Journalnode' >> init.log
	journallist=`cat $HADOOP_HOME/etc/hadoop/hdfs-site.xml |grep -A 2 'dfs.namenode.shared.edits.dir'|grep ''|sed -e "s/qjournal:\/\/\(.*\)\/.*<\/value>/\1/g"|sed "s/;/ /g"|sed -e "s/:[[:digit:]]\{2,5\}/ /g"`
	for journalnode in $journallist;do
		ssh root@${journalnode} "hdfs --daemon start journalnode"
	done

	#format and start the main namenode
	echo 'format and start namenode 1'>>init.log
	hdfs namenode -format
	if (( $?!=0 )); then
		exit $?
	fi
	hdfs --daemon start namenode
	if (( $?!=0 )); then
		exit $?
	fi

	#sync and start other namenodes
	echo 'sync and start others.'>>init.log
	dosyncid=2
	while (($dosyncid<=3));do
		ssh root@$nodehostnameprefix$dosyncid "hdfs namenode -bootstrapStandby"
		if (( $?!=0 )); then
			exit $?
		fi
		ssh root@$nodehostnameprefix$dosyncid "hdfs --daemon start namenode"
		if (( $?!=0 )); then
			exit $?
		fi
		let "dosyncid++"
	done

	#format zookeeper directory
	hdfs zkfc -formatZK
}
#---------------------------------------------------------------------------------------------------------

#FUNCTION:init hadoop while dfs formatted-----------------------------------------------------------------
initHadoop_noformat(){
	echo 'name node formatted. go on to start dfs related nodes and service'>>init.log
	sbin/start-dfs.sh
	if (( $?!=0 )); then
		exit $?
	fi

	echo 'start yarn resourcemanager and node manager'>>init.log
	sbin/start-yarn.sh
	if (( $?!=0 )); then
		exit $?
	fi

	echo 'start mapreduce history server'>>init.log
	historyservernode=`cat $HADOOP_HOME/etc/hadoop/mapred-site.xml |grep -A 2 'mapreduce.jobhistory.address'|grep '' |sed -e "s/^.*//g"|sed -e "s/<\/value>//g"|sed -e "s/:[[:digit:]]*//g"`
	ssh root@$historyservernode "mapred --daemon start historyserver"
	if (( $?!=0 )); then
		exit $?
	fi
}

############################################################################################################
##   4. test wether this is the main node                                                                 ##
############################################################################################################
#get the host node's name, name prefix, and name No.
nodehostname=`hostname`
nodehostnameprefix=`echo $nodehostname|sed -e 's|[[:digit:]]\+$||g'`
nodeindex=`hostname | sed "s/${nodehostnameprefix}//g"`

#get the zookeeper's name prefix from yarn-site.xml
zookeepernameprefix=`cat ${HADOOP_HOME}/etc/hadoop/yarn-site.xml |grep -A 2 'yarn.resourcemanager.zk-address'|grep ''|sed -e "s/[[:blank:]]\+\([[:alpha:]]\+\)[[:digit:]]\+:.*/\1/g"`


#1.ensure in working directory, only the first node can go on initiation.
cd $HADOOP_HOME
#check the NODECOUNT param,if it is less than 3, do notion and return err for 3 node can not support ha mode.
if (($NODECOUNT<=3));then
	echo "Nodes count must more than 3.">>init.log
	exit 1
fi

#check node id,if node id not equal 1, do nothing.
if (($nodeindex!=1));then
	echo $nodehostname waiting for init...>>init.log
    sleep 5m
    cd $HADOOP_HOME
    sbin/start-dfs.sh
    sbin/start-yarn.sh
    if (($nodeindex==3));then
        mapred --daemon start historyserver
    fi
	tail -f /dev/null
	exit 0
fi

#2.Try to connect to all host nodes and zookeeper nodes.
echo $nodehostname is the init manager nodes...>>init.log
#waiting for all the nodes connected
isAllNodesConnected $nodehostnameprefix $NODECOUNT $TRYLOOP
isHadoopOK=$?
isAllNodesConnected $zookeepernameprefix $ZOOKEEPERNODECOUNT $TRYLOOP
isZookeeperOK=$?
if ([ $isHadoopOK != 0 ] || [ $isZookeeperOK != 0 ]);then
	echo "Not all the host nodes or not all the zookeeper nodes actived. exit 1">>init.log
	exit 0
fi

#3. whether dfs is formatted.
datadirectory=`echo $(getDataDirectory)`
if [ $datadirectory ];then
        datadircontent=`ls -A ${datadirectory}`
        if [ -z $datadircontent ];then
        	echo "dfs is not formatted.">>init.log
		isDfsFormat=0
	else
		echo "dfs is already formatted.">>init.log
		isDfsFormat=1
        fi
else
        echo "ERROR:Can not get hadoop tmp data directory.init can not be done. ">>init.log
	exit 1
fi

#4. if not fomatted, then do format and sync
if (( $isDfsFormat == 0 ));then 
	initHadoop_format
fi
if (( $? != 0 ));then
	echo "ERROR:Init Hadoop interruptted...">>init.log
	exit $?
fi

#5. start all dfs node, yarn node and mapreduce history server
initHadoop_noformat
if (( $? != 0 ));then
	echo "ERROR:Init Hadoop interruptted...">>init.log
	exit $?
fi

echo "hadoop init work has been done. hang up for swarm."

tail -f /dev/null

3. stack配置文件

version: "3.7"
services:
   pignode1:
     image: pig/hadoop:ha
     deploy:
       endpoint_mode: dnsrr
       restart_policy:
         condition: on-failure
       placement:
         constraints:
           - node.hostname==pighost1
     hostname: pignode1
     environment:
       - NODE_COUNT=12
       - ZOOKEEPER_COUNT=3
     networks:
       - pig
     ports:
       - target: 22
         published: 9011
         protocol: tcp
         mode: host
       - target: 9000
         published: 9000
         protocol: tcp
         mode: host
       - target: 9870
         published: 9870
         protocol: tcp
         mode: host
       - target: 8088
         published: 8088
         protocol: tcp
         mode: host
     volumes:
       # 映射xml配置文件
       - ./config/core-site.xml:/root/hadoop/etc/hadoop/core-site.xml:r
       - ./config/hdfs-site.xml:/root/hadoop/etc/hadoop/hdfs-site.xml:r
       - ./config/yarn-site.xml:/root/hadoop/etc/hadoop/yarn-site.xml:r
       - ./config/mapred-site.xml:/root/hadoop/etc/hadoop/mapred-site.xml:r
       # 映射workers文件
       - ./config/workers:/root/hadoop/etc/hadoop/workers:r
       # 映射数据目录
       - /hadoopdata/1:/hadoopdata:wr

   pignode2:
     image: pig/hadoop:ha
     deploy:
       endpoint_mode: dnsrr
       restart_policy:
         condition: on-failure
       placement:
         # 将Second Namenode限制部署在第二个节点上
         constraints:
           - node.hostname==pighost2
     networks:
       - pig
     hostname: pignode2
     ports:
       # 第二名字服务器接口
       - target: 22
         published: 9012
         protocol: tcp
         mode: host
       - target: 9890
         published: 9890
         protocol: tcp
         mode: host
       - target: 9870
         published: 9871
         protocol: tcp
         mode: host
       - target: 8088
         published: 8089
         protocol: tcp
         mode: host
     volumes:
      # 映射xml配置文件
       - ./config/core-site.xml:/root/hadoop/etc/hadoop/core-site.xml:r
       - ./config/hdfs-site.xml:/root/hadoop/etc/hadoop/hdfs-site.xml:r
       - ./config/yarn-site.xml:/root/hadoop/etc/hadoop/yarn-site.xml:r
       - ./config/mapred-site.xml:/root/hadoop/etc/hadoop/mapred-site.xml:r
       # 映射workers文件
       - ./config/workers:/root/hadoop/etc/hadoop/workers:r
       # 映射数据目录
       - /hadoopdata/2:/hadoopdata:wr

   pignode3:
     image: pig/hadoop:ha
     deploy:
       endpoint_mode: dnsrr
       restart_policy:
         condition: on-failure
       placement:
         # 将Mapreduce限制部署在第三个节点上
         constraints:
           - node.hostname==pighost3
     networks:
       - pig
     hostname: pignode3
     ports:
       - target: 22
         published: 9013
         protocol: tcp
         mode: host
       - target: 9870
         published: 9872
         protocol: tcp
         mode: host
       - target: 8088
         published: 8087
         protocol: tcp
         mode: host
       - target: 8090
         published: 8090
         protocol: tcp
         mode: host
       - target: 10020
         published: 10020
         protocol: tcp
         mode: host
       - target: 19888
         published: 19888
         protocol: tcp
         mode: host
     volumes:
       # 映射xml配置文件
       - ./config/core-site.xml:/root/hadoop/etc/hadoop/core-site.xml:r
       - ./config/hdfs-site.xml:/root/hadoop/etc/hadoop/hdfs-site.xml:r
       - ./config/yarn-site.xml:/root/hadoop/etc/hadoop/yarn-site.xml:r
       - ./config/mapred-site.xml:/root/hadoop/etc/hadoop/mapred-site.xml:r
       # 映射workers文件
       - ./config/workers:/root/hadoop/etc/hadoop/workers:r
       # 映射数据目录
       - /hadoopdata/3:/hadoopdata:wr

#------------------------------------------------------------------------------------------------
#以下均为工作节点，可在除leader以外的主机上部署

   pignode4:
     image: pig/hadoop:ha
     deploy:
       endpoint_mode: dnsrr
       restart_policy:
         condition: on-failure
       placement:
         # 将Mapreduce限制部署在第三个节点上
         constraints:
           # node.role==manager
           # node.role==worker
           - node.hostname==pighost3
     networks:
       - pig
     ports:
       - target: 22
         published: 9014
         protocol: tcp
         mode: host
     hostname: pignode4
     volumes:
      # 映射xml配置文件
       - ./config/core-site.xml:/root/hadoop/etc/hadoop/core-site.xml:r
       - ./config/hdfs-site.xml:/root/hadoop/etc/hadoop/hdfs-site.xml:r
       - ./config/yarn-site.xml:/root/hadoop/etc/hadoop/yarn-site.xml:r
       - ./config/mapred-site.xml:/root/hadoop/etc/hadoop/mapred-site.xml:r
       # 映射workers文件
       - ./config/workers:/root/hadoop/etc/hadoop/workers:r
       # 映射数据目录
       - /hadoopdata/4:/hadoopdata:wr

   pignode5:
     image: pig/hadoop:ha
     deploy:
       endpoint_mode: dnsrr
       restart_policy:
         condition: on-failure
       placement:
         # 将Mapreduce限制部署在第三个节点上
         constraints:
           # node.role==manager
           - node.hostname==pighost3
     networks:
       - pig
     ports:
       - target: 22
         published: 9015
         protocol: tcp
         mode: host
     hostname: pignode5
     volumes:
      # 映射xml配置文件
       - ./config/core-site.xml:/root/hadoop/etc/hadoop/core-site.xml:r
       - ./config/hdfs-site.xml:/root/hadoop/etc/hadoop/hdfs-site.xml:r
       - ./config/yarn-site.xml:/root/hadoop/etc/hadoop/yarn-site.xml:r
       - ./config/mapred-site.xml:/root/hadoop/etc/hadoop/mapred-site.xml:r
       # 映射workers文件
       - ./config/workers:/root/hadoop/etc/hadoop/workers:r
       # 映射数据目录
       - /hadoopdata/5:/hadoopdata:wr

   pignode6:
     image: pig/hadoop:ha
     deploy:
       endpoint_mode: dnsrr
       restart_policy:
         condition: on-failure
       placement:
         # 将Mapreduce限制部署在第三个节点上
         constraints:
           # node.role==manager
           - node.hostname==pighost3
     networks:
       - pig
     ports:
       - target: 22
         published: 9016
         protocol: tcp
         mode: host
     hostname: pignode6
     volumes:
      # 映射xml配置文件
       - ./config/core-site.xml:/root/hadoop/etc/hadoop/core-site.xml:r
       - ./config/hdfs-site.xml:/root/hadoop/etc/hadoop/hdfs-site.xml:r
       - ./config/yarn-site.xml:/root/hadoop/etc/hadoop/yarn-site.xml:r
       - ./config/mapred-site.xml:/root/hadoop/etc/hadoop/mapred-site.xml:r
       # 映射workers文件
       - ./config/workers:/root/hadoop/etc/hadoop/workers:r
       # 映射数据目录
       - /hadoopdata/6:/hadoopdata:wr
       
   pignode7:
     image: pig/hadoop:ha
     deploy:
       endpoint_mode: dnsrr
       restart_policy:
         condition: on-failure
       placement:
         # 将Mapreduce限制部署在第三个节点上
         constraints:
           # node.role==manager
           - node.hostname==pighost4
     networks:
       - pig
     ports:
       - target: 22
         published: 9017
         protocol: tcp
         mode: host
     hostname: pignode7
     volumes:
      # 映射xml配置文件
       - ./config/core-site.xml:/root/hadoop/etc/hadoop/core-site.xml:r
       - ./config/hdfs-site.xml:/root/hadoop/etc/hadoop/hdfs-site.xml:r
       - ./config/yarn-site.xml:/root/hadoop/etc/hadoop/yarn-site.xml:r
       - ./config/mapred-site.xml:/root/hadoop/etc/hadoop/mapred-site.xml:r
       # 映射workers文件
       - ./config/workers:/root/hadoop/etc/hadoop/workers:r
       # 映射数据目录
       - /hadoopdata/7:/hadoopdata:wr

   pignode8:
     image: pig/hadoop:ha
     deploy:
       endpoint_mode: dnsrr
       restart_policy:
         condition: on-failure
       placement:
         # 将Mapreduce限制部署在第三个节点上
         constraints:
           # node.role==manager
           - node.hostname==pighost4
     networks:
       - pig
     ports:
       - target: 22
         published: 9018
         protocol: tcp
         mode: host
     hostname: pignode8
     volumes:
      # 映射xml配置文件
       - ./config/core-site.xml:/root/hadoop/etc/hadoop/core-site.xml:r
       - ./config/hdfs-site.xml:/root/hadoop/etc/hadoop/hdfs-site.xml:r
       - ./config/yarn-site.xml:/root/hadoop/etc/hadoop/yarn-site.xml:r
       - ./config/mapred-site.xml:/root/hadoop/etc/hadoop/mapred-site.xml:r
       # 映射workers文件
       - ./config/workers:/root/hadoop/etc/hadoop/workers:r
       # 映射数据目录
       - /hadoopdata/8:/hadoopdata:wr

   pignode9:
     image: pig/hadoop:ha
     deploy:
       endpoint_mode: dnsrr
       restart_policy:
         condition: on-failure
       placement:
         # 将Mapreduce限制部署在第三个节点上
         constraints:
           # node.role==manager
           - node.hostname==pighost4
     networks:
       - pig
     ports:
       - target: 22
         published: 9019
         protocol: tcp
         mode: host
     hostname: pignode9
     volumes:
      # 映射xml配置文件
       - ./config/core-site.xml:/root/hadoop/etc/hadoop/core-site.xml:r
       - ./config/hdfs-site.xml:/root/hadoop/etc/hadoop/hdfs-site.xml:r
       - ./config/yarn-site.xml:/root/hadoop/etc/hadoop/yarn-site.xml:r
       - ./config/mapred-site.xml:/root/hadoop/etc/hadoop/mapred-site.xml:r
       # 映射workers文件
       - ./config/workers:/root/hadoop/etc/hadoop/workers:r
       # 映射数据目录
       - /hadoopdata/9:/hadoopdata:wr
     
   pignode10:
     image: pig/hadoop:ha
     deploy:
       endpoint_mode: dnsrr
       restart_policy:
         condition: on-failure
       placement:
         # 将Mapreduce限制部署在第三个节点上
         constraints:
           # node.role==manager
           - node.hostname==pighost5
     networks:
       - pig
     ports:
       - target: 22
         published: 9020
         protocol: tcp
         mode: host
     hostname: pignode10
     volumes:
      # 映射xml配置文件
       - ./config/core-site.xml:/root/hadoop/etc/hadoop/core-site.xml:r
       - ./config/hdfs-site.xml:/root/hadoop/etc/hadoop/hdfs-site.xml:r
       - ./config/yarn-site.xml:/root/hadoop/etc/hadoop/yarn-site.xml:r
       - ./config/mapred-site.xml:/root/hadoop/etc/hadoop/mapred-site.xml:r
       # 映射workers文件
       - ./config/workers:/root/hadoop/etc/hadoop/workers:r
       # 映射数据目录
       - /hadoopdata/10:/hadoopdata:wr

   pignode11:
     image: pig/hadoop:ha
     deploy:
       endpoint_mode: dnsrr
       restart_policy:
         condition: on-failure
       placement:
         # 将Mapreduce限制部署在第三个节点上
         constraints:
           # node.role==manager
           - node.hostname==pighost5
     networks:
       - pig
     ports:
       - target: 22
         published: 9021
         protocol: tcp
         mode: host
     hostname: pignode11
     volumes:
      # 映射xml配置文件
       - ./config/core-site.xml:/root/hadoop/etc/hadoop/core-site.xml:r
       - ./config/hdfs-site.xml:/root/hadoop/etc/hadoop/hdfs-site.xml:r
       - ./config/yarn-site.xml:/root/hadoop/etc/hadoop/yarn-site.xml:r
       - ./config/mapred-site.xml:/root/hadoop/etc/hadoop/mapred-site.xml:r
       # 映射workers文件
       - ./config/workers:/root/hadoop/etc/hadoop/workers:r
       # 映射数据目录
       - /hadoopdata/11:/hadoopdata:wr
 
   pignode12:
     image: pig/hadoop:ha
     deploy:
       endpoint_mode: dnsrr
       restart_policy:
         condition: on-failure
       placement:
         # 将Mapreduce限制部署在第三个节点上
         constraints:
           # node.role==manager
           - node.hostname==pighost5
     networks:
       - pig
     ports:
       - target: 22
         published: 9022
         protocol: tcp
         mode: host
     hostname: pignode12
     volumes:
      # 映射xml配置文件
       - ./config/core-site.xml:/root/hadoop/etc/hadoop/core-site.xml:r
       - ./config/hdfs-site.xml:/root/hadoop/etc/hadoop/hdfs-site.xml:r
       - ./config/yarn-site.xml:/root/hadoop/etc/hadoop/yarn-site.xml:r
       - ./config/mapred-site.xml:/root/hadoop/etc/hadoop/mapred-site.xml:r
       # 映射workers文件
       - ./config/workers:/root/hadoop/etc/hadoop/workers:r
       # 映射数据目录
       - /hadoopdata/12:/hadoopdata:wr

   zookeeper1:
     image: zookeeper:latest
     deploy:
       endpoint_mode: dnsrr
       restart_policy:
         condition: on-failure
       placement:
         constraints:
           - node.hostname==pighost1
     networks:
       - pig
     ports:
       - target: 2181
         published: 2181
         protocol: tcp
         mode: host
     hostname: zookeeper1
     environment:
         - ZOO_MY_ID=1
         - ZOO_SERVERS=server.1=zookeeper1:2888:3888;2181 server.2=zookeeper2:2888:3888;2181 server.3=zookeeper3:2888:3888;2181
     volumes:
         - /hadoopdata/zoo/1/data:/data
         - /hadoopdata/zoo/1/datalog:/datalog
         - /hadoopdata/zoo/1/logs:/logs

   zookeeper2:
     image: zookeeper:latest
     deploy:
       endpoint_mode: dnsrr
       restart_policy:
         condition: on-failure
       placement:
         constraints:
           - node.hostname==pighost2
     networks:
       - pig
     ports:
       - target: 2181
         published: 2182
         protocol: tcp
         mode: host
     hostname: zookeeper2
     environment:
         - ZOO_MY_ID=2
         - ZOO_SERVERS=server.1=zookeeper1:2888:3888;2181 server.2=zookeeper2:2888:3888;2181 server.3=zookeeper3:2888:3888;2181
     volumes:
         - /hadoopdata/zoo/2/data:/data
         - /hadoopdata/zoo/2/datalog:/datalog
         - /hadoopdata/zoo/2/logs:/logs

   zookeeper3:
     image: zookeeper:latest
     deploy:
       endpoint_mode: dnsrr
       restart_policy:
         condition: on-failure
       placement:
         constraints:
           - node.hostname==pighost3
     networks:
       - pig
     ports:
       - target: 2181
         published: 2183
         protocol: tcp
         mode: host
     hostname: zookeeper3
     environment:
         - ZOO_MY_ID=3
         - ZOO_SERVERS=server.1=zookeeper1:2888:3888;2181 server.2=zookeeper2:2888:3888;2181 server.3=zookeeper3:2888:3888;2181
     volumes:
         - /hadoopdata/zoo/3/data:/data
         - /hadoopdata/zoo/3/datalog:/datalog
         - /hadoopdata/zoo/3/logs:/logs
networks:
  pig:

到这吧，不能再写了，内容太多，网页都卡……重启一篇。

你可能感兴趣的:(hadoop,运维,linux)

go关闭linux进程,Golang信号处理和优雅退出守护进程凯然 go关闭linux进程
Golang中的信号处理信号类型个平台的信号定义或许有些不同。下面列出了POSIX中定义的信号。Linux使用34-64信号用作实时系统中。命令mansignal提供了官方的信号介绍。在POSIX.1-1990标准中定义的信号列表信号值动作说明SIGHUP1Term终端控制进程结束(终端连接断开)SIGINT2Term用户发送INTR字符(Ctrl+C)触发SIGQUIT3Core用户发送QUIT
Linux工作常用命令记录 A little storm linux ubuntu jvm c++
Linux常用命令#列出当前系统中所有的网络连接和监听端口，可通过grep配合查找需要的信息netstat-nat#列出所有进程信息，可通过grep配合查找需要的信息psaux#查看防火墙规则iptables-L#查找文件，如查找RDB_SVRfind/-name"RDB_SVR"#查看所有磁盘空间使用情况df-h#查看文件或目录的磁盘空间使用情况,示例为查看当前目录中所有文件和目录的空间使用情况
linux日志文件详解 MagnumOvO 云计算 linux 5G linux 运维 centos
目录一、日志文件的分类二、日志文件位置三、常见日志文件1.分析日志文件2.内核及系统日志四、日志消息等级五、日志文件分析1.用户日志2.程序日志六、日志分析注意事项一、日志文件的分类日志文件是用于记录Linux系统中各种运行消息的文件,相当于Linux主机的“日记”。不同的日志文件记载了不同类型的信息,如Linux内核消息、用户登录事件、程序错误等·日志文件对于诊断和解决系统中的问题很有帮助,因为
Linux系统日志管理多肉葡萄～ linux 运维服务器
日志文件作用日志文件用于记录linux系统的各种运行信息的文件，相当于linux主机的日记，不同的日志文件记载了不同类型的信息,如Linux内核消息、用户登录事件、程序错误等。日志文件对于诊断和解决问题很有帮助，因为linux运行的程序通常把系统的消息和错误写入对应的日志文件，这样系统可以有据可查，此外,当主机遭受攻击时,日志文件还可以帮助寻找攻击者留下的痕迹。几种日志管理工具的介绍在Linux系
【lua】Linux上安装lua和luarocks包管理工具果壳~ lua linux 开发语言
目录安装lua安装luarocksluarocks其他命令安装lua首先打开lua官网https://lua.org点击download就可以看到安装脚本新建一个目录将压缩包下载到这个目录里curl-L-R-Ohttps://www.lua.org/ftp/lua-5.4.8.tar.gztarzxflua-5.4.8.tar.gzcdlua-5.4.8makealltest#最后还得加上make
Linux journal 日志大小限制与管理详解 XMYX-0 linux 运维服务器
文章目录Linuxjournal日志大小限制与管理详解journal日志的默认存储位置journal日志大小限制配置查看当前日志占用情况手动清理日志文件按大小清理日志按时间清理日志按文件数清理日志journald日志机制原理简析（适当加点原理）日志筛选与导出技巧（实用提升）按服务名筛选按时间范围查看日志导出日志为纯文本文件实时查看日志（类似`tail-f`）常见问题与踩坑提醒（经验+防踩坑）问题1
【安装Stable Diffusion以及遇到问题和总结】岁月玲珑 AI stable diffusion AI编程 AI作画
在本地安装部署StableDiffusion，需要准备好硬件环境，安装相关依赖，然后配置模型。下面为你详细介绍安装部署的步骤：一、硬件要求显卡：需要NVIDIAGPU，显存至少6GB，推荐8GB及以上。系统：Windows10/11、Linux（Ubuntu等）或macOS（需要Rosetta2）。内存：至少16GBRAM。存储空间：准备10GB以上的可用空间。二、软件准备首先要安装Python和
RK系列（RK3568） GPIO按键驱动和Android key新值添加 hmbbPdx_ RK驱动开发 Rk开发(RK3568)android 驱动开发 linux
平台：Android12SOC：RK3568kernel:Linux-4.19首先按键驱动那块不用我们自己写，内核本身有支持可以查看kernel-4.19-driver/input/keyboard/gpio_keys.c我们先描述好设备树添加GPIO4-A0的按键gpio-keys{compatible="gpio-keys";#address-cells=;#size-cells=;autor
Linux设备驱动开发详解 - 基于Linux 4.0内核
Linux设备驱动开发详解-基于Linux4.0内核去发现同类优质开源项目:https://gitcode.com/欢迎使用《Linux设备驱动开发详解》资源库本资源库致力于为Linux设备驱动开发者提供一份基于Linux4.0内核的详细指南和实践材料。随着Linux内核不断迭代，理解并掌握其最新特性和驱动开发的方法论变得尤为重要。本项目特别针对那些想要深入了解Linux内核机制、尤其是驱动程序开
深入探索Linux设备驱动开发：基于Linux 4.0内核的全面指南邴洁沫Edna
深入探索Linux设备驱动开发：基于Linux4.0内核的全面指南【下载地址】Linux设备驱动开发详解基于最新的Linux4.0内核配套光盘分享本仓库提供了一个资源文件的下载，该资源文件是《Linux设备驱动开发详解：基于最新的Linux4.0内核配套光盘》的配套光盘内容。该光盘包含了与Linux4.0内核相关的设备驱动开发所需的详细资料和示例代码，旨在帮助开发者更好地理解和掌握Linux设备驱
Linux 设备树详解：从概念到实战 Jay_515 Linux 学习嵌入式 linux 设备树
关键词：设备树（DeviceTree）、DTS、DTC、DTB、嵌入式Linux驱动开发为什么需要设备树？在旧版Linux内核中，硬件信息（如内存映射、外设地址、中断号等）直接硬编码在内核源码中。这导致：内核臃肿，需为不同硬件编译不同版本硬件变动需重新编译内核代码冗余严重（一个board-*.c文件对应一块开发板）设备树（DeviceTree）的引入彻底解决了这一问题！它通过描述硬件拓扑结构的文本
Linux 驱动开发详解：从入门到实践 Jay_515 Linux 学习 linux 驱动嵌入式
本文带你深入理解Linux内核驱动的核心机制，掌握从零编写字符设备驱动的完整流程一、Linux驱动概述：内核与硬件的桥梁Linux驱动是操作系统内核的一部分，负责管理硬件设备并向上层应用程序提供统一接口。其核心价值在于：抽象硬件细节：让应用程序无需关心硬件具体实现统一设备接口：通过标准接口（如字符设备、块设备）访问硬件内核级资源管理：直接操作硬件寄存器，管理中断、DMA等Linux驱动的类型：驱动
Shell脚本编程：Linux自动化的瑞士军刀半夜偷你家裤衩子 Linux linux 自动化 chrome
导读：厌倦了重复执行相同的命令序列？想要让你的Linux系统自动完成繁琐任务？Shell脚本就是你的不二选择！本文将带你从零开始掌握Shell脚本编程，从基本语法到高级技巧，让你的工作效率提升10倍。无论你是Linux新手还是经验丰富的管理员，这篇文章都能帮你解锁Shell脚本的强大潜力！本文是《从入门到精通渐进式学习Linux》系列的第12章。通过这篇文章，你将学会如何用Shell脚本实现系统管
mongodb和redis的区别： huangbfeng mongodb redis 数据库
1、内存管理机制Redis数据全部存在内存，定期写入磁盘，当内存不够时，可以选择指定的LRU算法删除数据。MongoDB数据存在内存，由linux系统mmap实现，当内存不够时，只将热点数据放入内存，其他数据存在磁盘。2、支持的数据结构Redis支持的数据结构丰富，包括hash、set、list等。MongoDB数据结构比较单一，但是支持丰富的数据表达，索引，最类似关系型数据库，支持的查询语言非常
fish安装node.js环境翻滚吧键盘 openSUSE node.js chrome 前端
为什么强调fishshell，因为fishshell的缘故，不能直接执行node.js官网的命令好的，您遇到了一个非常典型且重要的问题。请仔细阅读我的分析，这能帮您彻底解决问题。问题诊断您看到的所有错误，归根结底有两个核心原因：您正在使用FishShell：从命令行末尾的fish:提示可以看出，您使用的不是Linux默认的bash，而是fish。FishShell的脚本语法与bash不兼容。错误的
深入理解 Linux `poll` 模型：`select` 的增强版蜗牛沐雨异步编程并发编程 C++linux 网络编程并发编程
在LinuxI/O多路复用模型中，poll紧随select之后，作为其功能更强大、限制更少的继任者。虽然select在处理并发连接方面迈出了重要一步，但其自身的一些缺陷促使了poll的诞生。poll模型同样允许单个进程同时监控多个文件描述符，等待I/O事件，但在文件描述符数量限制和接口使用上进行了优化。poll为什么比select更优？select的一个主要痛点是其对文件描述符数量的硬性限制（通常
linux网络编程之SCTP套接字常用接口码莎拉蒂 . Linux 网络编程 linux网络编程 SCTP套接字常用接口
转载地址：oracle开发帮助文档：http://docs.oracle.com/cd/E19253-01/819-7052/index.htmlSCTP套接字接口当socket()调用为IPPROTO_SCTP创建套接字时，它会调用特定于SCTP的套接字创建例程。针对SCTP套接字执行的套接字调用会自动调用相应的SCTP套接字例程。在一对一套接字中，每个套接字都对应一个SCTP关联。可以通过调用
Linux 命令：ls
Linuxls命令详细教程一、ls命令概述ls是Linux系统中最常用的命令之一，全称“list”，用于列出目录下的文件和子目录。它不仅能显示文件基本信息，还能通过丰富的选项控制显示格式、排序方式、隐藏文件等，是文件管理的基础工具。资料已经分类整理好：https://pan.quark.cn/s/26d73f7dd8a7二、ls命令基本语法ls[选项][文件或目录]核心选项分类说明（常用选项需熟练
linux c的结构体赋值方法盼雨落，等风起 c语言
主要使用的是第一种，类似数组赋值#includetypedefstructal_data{inta;intb;intc;charch;}al_data;structal_dataad={1,3,9,'A',};structal_dataad2={.a=2,.b=6,.c=18,.ch='B',};structal_dataad3={a:3,b:9,c:27,ch:'C'};intmain(){pr
Docker 安装与配置详解——AI教你学Docker LuckyLay AI教你学Docker docker 容器运维
1.2Docker安装与配置详解本节围绕Docker的安装方法及常见配置，帮助你在不同平台上顺利部署Docker，并理解其关键配置项。一、Docker安装1.支持的操作系统Linux（主流发行版：Ubuntu、CentOS、Debian、Fedora、openSUSE等）Windows（Windows10/11Pro/Enterprise、WindowsServer2016及以上）macOS（In
Docker基本概念——AI教你学Docker LuckyLay docker 容器运维
1.1Docker概念详解1.Docker是什么？Docker是一个开源的应用容器引擎，它让开发者可以将应用及其依赖打包到一个可移植的容器（Container）中，并在任何支持Docker的Linux、Windows或macOS系统上运行。这样做极大地提升了应用的可移植性、一致性和部署效率。2.核心概念2.1镜像（Image）镜像是一个只读的模板，包含了运行容器所需的程序、库、环境变量和配置文件等
Dpdk环境的搭建 Flying Fish（HHH） dpdk 分布式计算机网络
1、下载源码：gitclonehttps://github.com/DPDK/dpdk2、编译命令CC=gccmeson-Dlibdir=lib--default-library=static-Dexamples=allx86_64-native-linuxapp-gcc-Dbuildtype=debugoptimizedninja-Cx86_64-native-linuxapp-gcc-j110
linux的常用命令 Flying Fish（HHH） linux 服务器运维
一、进程相关：查看进程：ps-aux|grep进程id查看僵尸进程：ps-ef|grepdefunct（进程名称）如何查看线程使用哪个so库？lsof-ppid|grepbasecat/proc/376421/maps|grep'\.so'查看对应的.so文件是否已经成功转成汇编yuminstallbinutils-2.37-14.oe2203sp1.x86_64objdump-Sllibbase
Maven 多模块项目调试与问题排查总结
博主简介：CSDN博客专家，历代文学网（PC端可以访问：https://literature.sinhy.com/#/?__c=1000，移动端可微信小程序搜索“历代文学”）总架构师，15年工作经验，精通Java编程，高并发设计，Springboot和微服务，熟悉Linux，ESXI虚拟化以及云原生Docker和K8s，热衷于探索科技的边界，并将理论知识转化为实际应用。保持对新技术的好奇心，乐于分
如何使用 ligpng 库进行图片解码应用开发openwrt linux sdd20x平台 ruihuan_2000 SSD20X openwrt linux 嵌入式 c++
文章目录前言一、libpng是什么？二、使用步骤1.引入库及头文件2.解码过程总结前言如何使用libpng库进行图片解码应用开发。一、libpng是什么？libpng是一个开源的、跨平台的图像处理库，用于处理和支持PNG（PortableNetworkGraphics）图像格式。PNG是一种无损压缩的图像格式，广泛用于互联网上的图像传输和存储。libpng提供了一系列的API和函数，使开发者可以在
对话红帽副总裁曹衡康：CentOS Stream是CentOS的未来「已注销」技术干货 centos linux 服务器
作为CentOS未来新的版本，CentOS Stream代表了进一步推动Linux创新的最好方式，它让更广泛的生态系统社区与红帽企业Linux的开发有更紧密的联系。“世界在不断变化，开发流程也在不断地创新、优化，红帽认为，把CentOS Stream放在RHEL之前，是更优化的做法。CentOS Stream的场景会比过去的CentOS更好、更适合整个社区的发展。”曹衡康说道。2020年，红帽公司
聊聊 SQL 注入那些事儿白露与泡影 sql 数据库
相信大家对于学校们糟糕的网络环境和运维手段都早有体会，在此就不多做吐槽了。今天我们来聊一聊SQL注入相关的内容。何谓SQL注入？SQL注入是一种非常常见的数据库攻击手段，SQL注入漏洞也是网络世界中最普遍的漏洞之一。大家也许都听过某某学长通过攻击学校数据库修改自己成绩的事情，这些学长们一般用的就是SQL注入方法。SQL注入其实就是恶意用户通过在表单中填写包含SQL关键字的数据来使数据库执行非常规代
JavaIO四大模型：NIO(IO多路复用) Colourful． Java网络编程 java 网络
文章目录概述NIO涉及到的名词JavaNIO服务端和客户端流程概述Java中的Selector和Linux中的epoll都是基友IO多路复用的，有时也被称为异步阻塞IO。我们之前介绍过，同步阻塞I/O和同步非阻塞IO。对于同步阻塞I/O来说，每次进行I/O时，我们的用户线程都会阻塞，显然这在高并发下效率很低。对于同步非阻塞I/O来说，每次进行I/O，虽然在内核缓冲区还没有数据的情况下，会给用户线程
【Linux命令大全】Linux虚拟化技术终极指南：从KVM到容器的深度解析全息架构师 Linux 前沿技术与应用 linux 运维服务器
【Linux命令大全】Linux虚拟化技术终极指南：从KVM到容器的深度解析行业洞察：全球90%的云服务基于Linux虚拟化技术！掌握这些技能可提升500%的资源利用率！本文包含180+配置案例，40张架构图，企业级虚拟化方案全公开！前言：为什么虚拟化是云计算的基础？在现代数据中心中，我们面临的核心虚拟化挑战：硬件资源的高效分割近原生性能的追求安全隔离的保障混合负载的调度跨平台的兼容性惊人数据：A
php 私有变量混淆 gettokenall,解密 - 如何满足PHP源代码加密和混淆的需求 weixin_39629467 php 私有变量混淆 gettokenall
最近被要求把产品代码加密，测试了几款容易获得的加密工具，当然对应的解密工具也一样容易找到！易维的那个加密工具貌似需要购买，否则存在使用时间限制，不知道有没有了解实情的兄弟！还有个开源的screw，加密方法是用C写的PHP扩展，但是不清楚的是：PHPscrew加密后的代码是否只能运行在装有screw的Linux环境下？还有就是有没有好的PHP代码混淆工具？微盾的混淆工具很杯具，我的项目代码混淆后无法
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio

CENTO OS上的网络安全工具（二十一）Hadoop HA swarm容器化集群部署

一、SSH集群及镜像的构建

1. 准备更换镜像源的Centos7

（1）编辑Dockerfile文件

（2） 构建国内镜像源的centos7

2.构建SSH镜像

（1）镜像构建准备

（2）构建hostlist文件

（3）编写init-ssh.sh文件

（4）编写ssh镜像的Dockerfile

3.测试SSH连接

4.构建swarm下的ssh免密通信集群

（1）Swarm不支持bash作为docker前台

（2）Swarm不支持固定分配IP地址

二、构建Swarm下Hadoop集群

1. 构建Hadoop节点镜像

（1）代入编译参数

（2） 离线方式

2. 配置Hadoop

（1）Hadoop全局环境变量的设置

（2） HADOOP配置文件

3. 初始化启动脚本

4. swarm stack的配置文件

三、 Hadoop HA集群部署

1. DFS部分配置

（1）core-site.xml

（2）hdfs-site.xml

2. Zookeeper部分配置

3. 配置自动故障迁移

（1）core-site.xml

（2）hdfs-site.xml

4. 启动dfs

（1）启动所有Journalnode

（2）namenode格式化

（3）检查名字服务器状态

（4）初始化Zookeeper目录

（5）启动ZKFC（Zookeeper failover Controller）

5. 配置Yarn

（1）打开HA选项

（2）定义HA resource manager集群

（3）指定zookeeper

6. 启动Yarn

7. 启动MapReduce

四、Swarm上的Hadoop HA部署

1. 配置文件

（1）core-site.xml

（2）hdfs-site.xml

（3）yarn-site.xml

（4）mapred-site.xml

2. 启动初始化脚本

（1）宿主机映射文件系统清理及构建脚本

（2）容器内Hadoop初始化脚本

3. stack配置文件

你可能感兴趣的:(hadoop,运维,linux)

（2）构建国内镜像源的centos7

（2）离线方式