白月光101

heartbeat 集群

heartbeat的概念

Linux-HA的全称是High-Availability

Linux，它是一个开源项目，这个开源项目的目标是：通过社区开发者的共同努力，提供一个增强linux可靠性（reliability）、可用性（availability）和可服务性（serviceability）（RAS）的群集解决方案。其中Heartbeat就是Linux-HA项目中的一个组件，也是目前开源HA项目中最成功的一个例子，它提供了所有

HA 软件所需要的基本功能，比如心跳检测和资源接管、监测群集中的系统服务、在群集中的节点间转移共享 IP

地址的所有者等，自1999年开始到现在，Heartbeat在行业内得到了广泛的应用，也发行了很多的版本，可以从Linux-HA的官方网站www.linux-ha.org下载到Heartbeat的最新版本。

HA集群中的相关术语

1．节点（node）

运行heartbeat进程的一个独立主机，称为节点，节点是HA的核心组成部分，每个节点上运行着操作系统和heartbeat软件服务，在heartbeat集群中，节点有主次之分，分别称为主节点和备用/备份节点，每个节点拥有唯一的主机名，并且拥有属于自己的一组资源，例如，磁盘、文件系统、网络地址和应用服务等。主节点上一般运行着一个或多个应用服务。而备用节点一般处于监控状态。

2．资源（resource）

资源是一个节点可以控制的实体，并且当节点发生故障时，这些资源能够被其它节点接管，heartbeat中，可以当做资源的实体有：

磁盘分区、文件系统

IP地址

应用程序服务

NFS文件系统

3．事件（event）

也就是集群中可能发生的事情，例如节点系统故障、网络连通故障、网卡故障、应用程序故障等。这些事件都会导致节点的资源发生转移，HA的测试也是基于这些事件来进行的。

4．动作（action）

事件发生时HA的响应方式，动作是由shell脚步控制的，例如，当某个节点发生故障后，备份节点将通过事先设定好的执行脚本进行服务的关闭或启动。进而接管故障节点的资源。

Heartbeat的组成与原理

1．Heartbeat的组成

Heartbeat提供了高可用集群最基本的功能，例如，节点间的内部通信方式、集群合作管理机制、监控工具和失效切换功能等等，目前的最新版本是Heartbeat2.x，这里的讲述也是以Heartbeat2.x为主，下面介绍Heartbeat2.0的内部组成，主要分为以下几大部分：

heartbeat：节点间通信检测模块

ha-logd：集群事件日志服务

CCM（Consensus Cluster Membership）：集群成员一致性管理模块

LRM （Local Resource Manager）：本地资源管理模块

Stonith Daemon：使出现问题的节点从集群环境中脱离

CRM（Cluster resource management）：集群资源管理模块

Cluster policy engine：集群策略引擎

Cluster transition engine：集群转移引擎

图1显示了Heartbeat2.0内部结构组成：

Heartbeat仅仅是个HA软件，它仅能完成心跳监控和资源接管，不会监视它控制的资源或应用程序，要监控资源和应用程序是否运行正常，必须使用第三方的插件，例如ipfail、Mon、Ldirector等。Heartbeat自身包含了几个插件，分别是ipfail、Stonith和Ldirectord，介绍如下：

ipfail的功能直接包含在Heartbeat里面，主要用于检测网络故障，并作出合理的反应，为了实现这个功能，ipfail使用ping节点或者ping节点组来检测网络连接是否出现故障，从而及时的做出转移措施。

Stonith插件可以在一个没有响应的节点恢复后，合理接管集群服务资源，防止数据冲突，当一个节点失效后，会从集群中删除，如果不使用Stonith插件，那么失效的节点可能会导致集群服务在多于一个节点运行，从而造成数据冲突甚至是系统崩溃。因此，使用Stonith插件可以保证共享存储环境中的数据完整性。

Ldirector是一个监控集群服务节点运行状态的插件。Ldirector如果监控到集群节点中某个服务出现故障，就屏蔽此节点的对外连接功能，同时将后续请求转移到正常的节点提供服务，这个插件经常用在LVS负载均衡集群中，关于Ldirector插件的使用，将在后续章节详细讲述。

同样，对于操作系统自身出现的问题，Heartbeat也无法监控，如果主节点操作系统挂起，一方面可能导致服务中断，另一方面由于主节点资源无法释放，而备份节点却接管了主节点的资源，此时就发生了两个节点同时争用一个资源的状况。针对这个问题，就需要在linux内核中启用一个叫watchdog的模块，watchdog是一个Linux内核模块，它通过定时向/dev/watchdog设备文件执行写操作，从而确定系统是否正常运行，如果watchdog认为内核挂起，就会重新启动系统，进而释放节点资源。在linux中完成watchdog功能的软件叫softdog，softdog维护一个内部计时器，此计时器在一个进程写入/dev/watchdog设备文件时更新，如果softdog没有看到进程写入/dev/watchdog文件，就认为内核可能出了故障。watchdog超时周期默认是一分钟，可以通过将watchdog集成到Heartbeat中，从而通过Heartbeat来监控系统是否正常运行。

2．Heartbeat的工作原理

从图18.1可以看出，heartbeat内部结构有三大部分组成。

集群成员一致性管理模块（CCM）用于管理集群节点成员，同时管理成员之间的关系和节点间资源的分配，heartbeat模块负责检测主次节点的运行状态，以决定节点是否失效。ha-logd模块用于记录集群中所有模块和服务的运行信息。

本地资源管理器（LRM）负责本地资源的启动，停止和监控，一般由LRM守护进程lrmd和节点监控进程（Stonith

Daemon）组成，lrmd守护进程负责节点间的通信，Stonith

Daemon通常是一个Fence设备，主要用于监控节点状态，当一个节点出现问题时处于正常状态的节点会通过Fence设备将其重启或关机以释放IP、磁盘等资源，始终保持资源被一个节点拥有，防止资源争用的发生。

集群资源管理模块（CRM）用于处理节点和资源之间的依赖关系，同时，管理节点对资源的使用，一般由CRM守护进程crmd、集群策略引擎和集群转移引擎三个部分组成，集群策略引擎（Cluster

policy engine）具体实施这些管理和依赖，集群转移引擎（Cluster transition

engine）监控CRM模块的状态，当一个节点出现故障时，负责协调另一个节点上的进程进行合理的资源接管。

在Heartbeat集群中，最核心的是heartbeat模块的心跳监测部分和集群资源管理模块的资源接管部分，心跳监测一般由串行接口通过串口线来实现，两个节点之间通过串口线相互发送报文来告诉对方自己当前的状态，如果在指定的时间内未受到对方发送的报文，那么就认为对方失效，这时资源接管模块将启动，用来接管运行在对方主机上的资源或者服务。

安装heartbeat前的准备

1．Heartbeat集群必须的硬件

从图18.2可以看出，构建一个Heartbeat集群系统必须的硬件设备有：

节点服务器

网络和网卡

共享磁盘

（1）节点服务器

安装Heartbeat至少需要两台主机，并且对主机的要求不高，普通的PC

服务器即可满足要求，当然，也可以在虚拟机上安装Heartbeat，现在Heartbeat可以很好的运行在Linux系统下，很多linux发行版本都自带了Heartbeat套件，同时，还可以运行在FreeBSD

和 Solaris操作系统上。

（2）网卡和网络

Heartbeat集群中的每个主机必须有一块网卡和一个空闲串口，网卡用于连接公用网络，串口可以通过串口线，例如modem电线来实现连接，用于心跳监控节点间的状态，如果没有空闲串口的话，每个主机也可以通过两块网卡来实现HA，其中一块网卡用于连接公用网络，另一块网卡通过以太网交叉线与两个节点相连接。

需要说明的是：以太网交叉线和串口电线都能用于心跳监控，串口电线传输Heartbeat信号相对较好，如有条件，尽量使用串口线代替以太网交叉线作为节点间的心跳检测设备。

Heartbeat支持三种类型的网络，公用网络（public network）、私用网络（private network）和串行网络（serial

network）。

公用网络连接多个节点，并且允许客户端访问集群中的服务节点，私用网络提供两个节点之间点到点的访问，但是不允许客户端访问，可以通过以太网交叉线构建一个私用网络，以供节点间相互通信，串行网络也是一个点到点的连接，一般使用串行网络来传输控制信息和心跳监控。串行网络可以是一条RS232串口线。

（3）共享磁盘

共享磁盘是一个数据存储设备，HA集群中的所有节点都需要连接到这个存储设备上，在这个共享的存储设备上一般放置的是公用的、关键的数据和程序，一方面可以共享数据给所有节点使用，另一方面也保证了数据的安全性。

Heartbeat支持两种对共享磁盘的访问方式：独占访问和共享访问，在独占访问方式下，保持活动的节点独立使用磁盘设备，只有当活动节点释放了磁盘设备，其它节点才能接管磁盘进行使用，在共享访问方式下，集群所有节点都可以同时使用磁盘设备，当某个节点出现故障时，其它节点无需接管磁盘。共享访问方式需要集群文件系统的支持，这一点将在下个章节讲述。

2．操作系统规划

这里统一采用Red Hat Enterprise Linux Server release

5.1操作系统，每个节点服务器都有两块网卡，一块用作连接公用网络，另一块通过以太网交叉线连接两个节点，作为心跳监控。共享磁盘由一个磁盘阵列设备提供，两个节点共享一个磁盘分区。磁盘分区对应的硬件标识为/dev/sdb5，挂载点为/webdata，文件系统类型为ext3。

网络以及IP地址规划如表18.1所示：

表18.1

节点类型 IP地址规划主机名类型

主用节点 eth0：192.168.60.132 node1 Public IP

eth1：10.1.1.1 priv1 private IP

eth0:0：192.168.60.200 无 Virtual IP

备用节点 eth0：192.168.60.133 node2 Public IP

eth1：10.1.1.2 priv1 private IP

从上表可知，eth0网络设备用于连接公用网络，eth1网络设备用于连接私用网络，而eth0:0网络设备是HA集群虚拟出来的服务IP地址，用于对外提供应用程序服务。基本的拓扑结构如图3所示：

接着配置每个节点的/etc/hosts文件，保证两个节点内容一致，/etc/hosts文件内容如下：

[root@node1 ~]#more /etc/hosts

192.168.60.132 node1

192.168.60.133 node2

10.1.1.1 priv1

10.1.1.2 priv1

一切准备就绪，接下来开始安装heartbeat。

安装heartbeat

1．获取heartbeat

Heartbeat到目前为止发行了两个主版本，Heartbeat1.x和Heartbeat2.x，Heartbeat1.x仅仅允许创建2个节点的集群，提供基本的高可用性failover服务。Heartbeat2.x提供了增强的特性，允许创建多个节点的集群，又支持模块结构的配置方法－集群资源管理器（Cluster

Rescource Manager-CRM)，CRM可以支持最多16个节点，这里我们选择heartbeat2.0.8版本进行介绍。

Heartbeat的下载地址为：http://linux-ha.org/download/index.html，找到heartbeat2.0.8版本，下载类似heartbeat-2.0.8.tar.gz的源代码包即可。此外在安装heartbeat时需要同时安装libnet工具包，Libnet是一个高层次的API工具，可以从http://www.packetfactory.net/libnet/下载到，现在的稳定版本是1.1.2.1，下载后的包名为libnet.tar.gz。

2．安装heartbeat

接下来需要在两个节点安装heartbeat，安装过程很简单，只需解压编译、安装即可，这里不再详述，在两个节点执行相同的操作，下面是在node1上的安装过程：

[root@node1 ~]#tar -zxvf libnet.tar.gz

[root@node1 ~]#cd libnet

[root@node1 ~/libnet]#./configure

[root@node1 ~/libnet]#make

[root@node1 ~/libnet]#make install

[root@node1 ~]#tar zxf heartbeat-2.0.8.tar.gz

[root@node1 ~]#cd heartbeat-2.0.8

[root@node1 ~/heartbeat-2.0.8]#./ConfigureMe configure \

> --disable-swig --disable-snmp-subagent

[root@node1 ~/heartbeat-2.0.8]#make

[root@node1 ~/heartbeat-2.0.8]#make install

[root@node1 ~/heartbeat-2.0.8]#cp doc/ha.cf doc/haresources doc/authkeys

/etc/ha.d/

[root@node1 ~/heartbeat-2.0.8]#cp ldirectord/ldirectord.cf /etc/ha.d/

[root@node1 ~/heartbeat-2.0.8]#groupadd -g 694 haclient

[root@node1 ~/heartbeat-2.0.8]#useradd -u 694 -g haclient hacluster

配置heartbeat

配置主节点的heartbeat

Heartbeat的主要配置文件有ha.cf、haresources、authkeys，在Heartbeat安装后，默认并没有这三个文件，可以从官方网站下载得到，也可以直接从解压的源码目录中找到，在上面的安装过程中，我们已经将这三个文件放到了/etc/ha.d目录下，下面分别详细介绍。

1.主配置文件(/etc/ha.d/ha.cf)

下面对ha.cf文件的每个选项进行详细介绍，其中“#”号后面的内容是对选项的注释说明。

#debugfile /var/log/ha-debug

logfile /var/log/ha-log #指名heartbeat的日志存放位置

#crm yes #是否开启Cluster Resource Manager（集群资源管理）功能

bcast eth1 #指明心跳方式使用以太广播方式，并且是在eth1接口上进行广播

keepalive 2 #指定心跳间隔时间为2秒（即每两秒钟在eth1上发送一次广播）

deadtime 30 #指定备用节点在30秒内没有收到主节点的心跳信号后，则立即接管主节点的服务资源

warntime 10

#指定心跳延迟的时间为十秒。当10秒钟内备份节点不能接收到主节点的心跳信号时，就会往日志中写入一个警告日志，但此时不会切换服务。

initdead 120

#在某些系统上，系统启动或重启之后需要经过一段时间网络才能正常工作，该选项用于解决这种情况产生的时间间隔。取值至少为deadtime的两倍。

udpport 694 #设置广播通信使用的端口，694为默认使用的端口号

baud 19200 #设置串行通信的波特率。

#serial /dev/ttyS0 #选择串行通信设备，用于双机使用串口线连接的情况。如果双机使用以太网连接，则应该关闭该选项。

auto_failback on

#用来定义当主节点恢复后，是否将服务自动切回，heartbeat的两台主机分别为主节点和备份节点。主节点在正常情况下占用资源并运行所有的服务，遇到故障时把资源交给备份节点并由备份节点运行服务。在该选项设为on的情况下，一旦主节点恢复运行，则自动获取资源并取代备份节点，如果该选项设置为off，那么当主节点恢复后，将变为备份节点，而原来的备份节点成为主节点。

#stonith baytech /etc/ha.d/conf/stonith.baytech #

stonith的主要作用是使出现问题的节点从集群环境中脱离，进而释放集群资源，避免两个节点争用一个资源的情形发生。保证共享数据的安全性和完整性。

#watchdog /dev/watchdog

#该选项是可选配置，是通过Heartbeat来监控系统的运行状态。使用该特性，需要在内核中载入"softdog"内核模块，用来生成实际的设备文件，如果系统中没有这个内核模块，就需要指定此模块，重新编译内核。编译完成输入"insmod

softdog"加载该模块。然后输入"grep misc /proc/devices"(应为10)，输入"cat /proc/misc |grep

watchdog"(应为130)。最后，生成设备文件："mknod /dev/watchdog c 10 130" 。即可使用此功能。

node node1 #主节点主机名，可以通过命令“uanme �Cn”查看。

node node2 #备用节点主机名。

ping 192.168.60.1 #选择ping的节点，ping

节点选择的越好，HA集群就越强壮，可以选择固定的路由器作为ping节点，但是最好不要选择集群中的成员作为ping节点，ping节点仅仅用来测试网络连接。

respawn hacluster /usr/lib/heartbeat/ipfail

#该选项是可选配置，列出与heartbeat一起启动和关闭的进程，该进程一般是和heartbeat集成的插件，这些进程遇到故障可以自动重新启动。最常用的进程是ipfail，此进程用于检测和处理网络故障，需要配合ping语句指定的ping

node来检测网络的连通性。其中hacluster表示启动ipfail进程的身份。

2．资源文件(/etc/ha.d/haresources)

Haresources文件用于指定双机系统的主节点、集群IP、子网掩码、广播地址以及启动的服务等集群资源，文件每一行可以包含一个或多个资源脚本名，资源之间使用空格隔开，参数之间使用两个冒号隔开，在两个HA节点上该文件必须完全一致，此文件的一般格式为：

node-name network <resource-group>

node-name表示主节点的主机名，必须和ha.cf文件中指定的节点名一致，network用于设定集群的IP地址、子网掩码、网络设备标识等，需要注意的是，这里指定的IP地址就是集群对外服务的IP地址，resource-group用来指定需要heartbeat托管的服务，也就是这些服务可以由heartbeat来启动和关闭，如果要托管这些服务，必须将服务写成可以通过start/stop来启动和关闭的脚步，然后放到/etc/init.d/或者/etc/ha.d/resource.d/目录下，heartbeat会根据脚本的名称自动去/etc/init.d或者/etc/ha.d/resource.d/目录下找到相应脚步进行启动或关闭操作。

下面对配置方法进行具体说明：

node1 IPaddr::192.168.60.200/24/eth0/

Filesystem::/dev/sdb5::/webdata::ext3 httpd tomcat

其中，node1是HA集群的主节点，IPaddr为heartbeat自带的一个执行脚步，heartbeat首先将执行/etc/ha.d/resource.d/IPaddr

192.168.60.200/24

start的操作，也就是虚拟出一个子网掩码为255.255.255.0，IP为192.168.60.200的地址，此IP为heartbeat对外提供服务的网络地址，同时指定此IP使用的网络接口为eth0，接着，heartbeat将执行共享磁盘分区的挂载操作，“Filesystem::/dev/sdb5::/webdata::ext3”相当于在命令行下执行mount操作，即“mount

�Ct ext3 /dev/sdb5 /webdata”，最后依次启动httpd和tomcat服务。

注意：主节点和备份节点中资源文件haresources要完全一样。

3．认证文件(/etc/ha.d/authkeys)

authkeys文件用于设定heartbeat的认证方式，共有三种可用的认证方式：crc、md5和sha1，三种认证方式的安全性依次提高，但是占用的系统资源也依次增加。如果heartbeat集群运行在安全的网络上，可以使用crc方式，如果HA每个节点的硬件配置很高，建议使用sha1，这种认证方式安全级别最高，如果是处于网络安全和系统资源之间，可以使用md5认证方式。这里我们使用crc认证方式，设置如下：

auth 1

1 crc

#2 sha1 sha1_any_password

#3 md5 md5_any_password

需要说明的一点是：无论auth后面指定的是什么数字，在下一行必须作为关键字再次出现，例如指定了“auth 6”，下面一定要有一行“6 认证类型”。

最后确保这个文件的权限是600（即-rw-------）。

配置备份节点的heartbeat

在备份节点上也需要安装heartbeat，安装方式与在主节点安装过程一模一样，这里不再重述，依次安装libnet和heartbeat源码包，安装完毕，在备份节点上使用scp命令把主节点配置文件传输到备份节点。

[root@node2 ~]#scp �Cr node1:/etc/ha.d/* /etc/ha.d/

其中，node1是主节点的主机名。

设置主节点和备份节点时间同步

在双机高可用集群中，主节点和备份节点的系统时间也非常重要，因为节点之间的监控都是通过设定时间来实现的，主备节点之间的系统时间相差在十秒以内是正常的，如果节点之间时间相差太大，就有可能造成HA环境的故障。解决时间同步的办法有两个，一个是找一个时间服务器，两个节点通过ntpdate命令定时与时间服务器进行时间校准，另一个办法是让集群中的主节点作为ntp时间服务器，让备份节点定时去主节点进行时间校验。

启动Heartbeat

1．启动主节点的Heartbeat

Heartbeat安装完成后，自动在/etc/init.d目录下生成了启动脚步文件heartbeat，直接输入/etc/init.d/heartbeat可以看到heartbeat脚本的用法，如下所示：

[root@node1 ~]# /etc/init.d/heartbeat

Usage: /etc/init.d/heartbeat

{start|stop|status|restart|reload|force-reload}

因而启动heartbeat可以通过如下命令进行：

[root@node1 ~]#service heartbeat start

或者通过

[root@node1 ~]#/etc/init.d/heartbeat start

这样就启动了主节点的heartbeat服务，为了让heartbeat能在开机自动运行以及关机自动关闭，可以手动创建以下软连接：

[root@node1 ~]#ln -s /etc/init.d/heartbeat

/etc/rc.d/rc0.d/K05heartbeat

[root@node1 ~]#ln -s /etc/init.d/heartbeat

/etc/rc.d/rc3.d/S75heartbeat

[root@node1 ~]#ln -s /etc/init.d/heartbeat

/etc/rc.d/rc5.d/S75heartbeat

[root@node1 ~]#ln -s /etc/init.d/heartbeat

/etc/rc.d/rc6.d/K05heartbeat

Heartbeat启动时，通过“tail �Cf /var/log/ messages”查看主节点系统日志信息，输出如下：

[root@node1 ~]# tail -f /var/log/messages

Nov 26 07:52:21 node1 heartbeat: [3688]: info: Configuration

validated. Starting heartbeat 2.0.8

Nov 26 07:52:21 node1 heartbeat: [3689]: info: heartbeat: version

2.0.8

Nov 26 07:52:21 node1 heartbeat: [3689]: info: Heartbeat generation:

Nov 26 07:52:21 node1 heartbeat: [3689]: info:

G_main_add_TriggerHandler: Added signal manual handler

Nov 26 07:52:21 node1 heartbeat: [3689]: info:

G_main_add_TriggerHandler: Added signal manual handler

Nov 26 07:52:21 node1 heartbeat: [3689]: info: glib: UDP Broadcast

heartbeat started on port 694 (694) interface eth1

Nov 26 07:52:21 node1 heartbeat: [3689]: info: glib: UDP Broadcast

heartbeat closed on port 694 interface eth1 - Status: 1

Nov 26 07:52:21 node1 heartbeat: [3689]: info: glib: ping heartbeat

started.

Nov 26 07:52:21 node1 heartbeat: [3689]: info:

G_main_add_SignalHandler: Added signal handler for signal 17

Nov 26 07:52:21 node1 heartbeat: [3689]: info: Local status now set

to: 'up'

Nov 26 07:52:22 node1 heartbeat: [3689]: info: Link node1:eth1 up.

Nov 26 07:52:23 node1 heartbeat: [3689]: info: Link

192.168.60.1:192.168.60.1 up.

Nov 26 07:52:23 node1 heartbeat: [3689]: info: Status update for

node 192.168.60.1: status ping

此段日志是Heartbeat在进行初始化配置，例如，heartbeat的心跳时间间隔、UDP广播端口、ping节点的运行状态等，日志信息到这里会暂停，等待120秒之后，heartbeat会继续输出日志，而这个120秒刚好是ha.cf中“initdead”选项的设定时间。此时heartbeat的输出信息如下：

Nov 26 07:54:22 node1 heartbeat: [3689]: WARN: node node2: is dead

Nov 26 07:54:22 node1 heartbeat: [3689]: info: Comm_now_up():

updating status to active

Nov 26 07:54:22 node1 heartbeat: [3689]: info: Local status now set

to: 'active'

Nov 26 07:54:22 node1 heartbeat: [3689]: info: Starting child client

"/usr/lib/heartbeat/ipfail" (694,694)

Nov 26 07:54:22 node1 heartbeat: [3689]: WARN: No STONITH device

configured.

Nov 26 07:54:22 node1 heartbeat: [3689]: WARN: Shared disks are not

protected.

Nov 26 07:54:22 node1 heartbeat: [3689]: info: Resources being

acquired from node2.

Nov 26 07:54:22 node1 heartbeat: [3712]: info: Starting

"/usr/lib/heartbeat/ipfail" as uid 694 gid 694 (pid 3712)

在上面这段日志中，由于node2还没有启动，所以会给出“node2: is

dead”的警告信息，接下来启动了heartbeat插件ipfail，由于我们在ha.cf文件中没有配置STONITH，所以日志里也给出了“No

STONITH device configured”的警告提示。

继续看下面的日志：

Nov 26 07:54:23 node1 harc[3713]: info: Running

/etc/ha.d/rc.d/status status

Nov 26 07:54:23 node1 mach_down[3735]: info:

/usr/lib/heartbeat/mach_down: nice_failback: foreign resources

acquired

Nov 26 07:54:23 node1 mach_down[3735]: info: mach_down takeover

complete for node node2.

Nov 26 07:54:23 node1 heartbeat: [3689]: info: mach_down takeover

complete.

Nov 26 07:54:23 node1 heartbeat: [3689]: info: Initial resource

acquisition complete (mach_down)

Nov 26 07:54:24 node1 IPaddr[3768]: INFO: Resource is stopped

Nov 26 07:54:24 node1 heartbeat: [3714]: info: Local Resource

acquisition completed.

Nov 26 07:54:24 node1 harc[3815]: info: Running

/etc/ha.d/rc.d/ip-request-resp ip-request-resp

Nov 26 07:54:24 node1 ip-request-resp[3815]: received

ip-request-resp 192.168.60.200/24/eth0 OK yes

Nov 26 07:54:24 node1 ResourceManager[3830]: info: Acquiring

resource group: node1 192.168.60.200/24/eth0

Filesystem::/dev/sdb5::/webdata::ext3

Nov 26 07:54:24 node1 IPaddr[3854]: INFO: Resource is stopped

Nov 26 07:54:25 node1 ResourceManager[3830]: info: Running

/etc/ha.d/resource.d/IPaddr 192.168.60.200/24/eth0 start

Nov 26 07:54:25 node1 IPaddr[3932]: INFO: Using calculated netmask

for 192.168.60.200: 255.255.255.0

Nov 26 07:54:25 node1 IPaddr[3932]: DEBUG: Using calculated

broadcast for 192.168.60.200: 192.168.60.255

Nov 26 07:54:25 node1 IPaddr[3932]: INFO: eval /sbin/ifconfig eth0:0

192.168.60.200 netmask 255.255.255.0 broadcast 192.168.60.255

Nov 26 07:54:25 node1 avahi-daemon[1854]: Registering new address

record for 192.168.60.200 on eth0.

Nov 26 07:54:25 node1 IPaddr[3932]: DEBUG: Sending Gratuitous Arp

for 192.168.60.200 on eth0:0 [eth0]

Nov 26 07:54:26 node1 IPaddr[3911]: INFO: Success

Nov 26 07:54:26 node1 Filesystem[4021]: INFO: Resource is stopped

Nov 26 07:54:26 node1 ResourceManager[3830]: info: Running

/etc/ha.d/resource.d/Filesystem /dev/sdb5 /webdata ext3 start

Nov 26 07:54:26 node1 Filesystem[4062]: INFO: Running start for

/dev/sdb5 on /webdata

Nov 26 07:54:26 node1 kernel: kjournald starting. Commit interval 5

seconds

Nov 26 07:54:26 node1 kernel: EXT3 FS on sdb5, internal journal

Nov 26 07:54:26 node1 kernel: EXT3-fs: mounted filesystem with

ordered data mode.

Nov 26 07:54:26 node1 Filesystem[4059]: INFO: Success

Nov 26 07:54:33 node1 heartbeat: [3689]: info: Local Resource

acquisition completed. (none)

Nov 26 07:54:33 node1 heartbeat: [3689]: info: local resource

transition completed

上面这段日志是进行资源的监控和接管，主要完成haresources文件中的设置，在这里是启用集群虚拟IP和挂载磁盘分区。

此时，通过ifconfig命令查看主节点的网络配置，可以看到，主节点将自动绑定集群IP地址，在HA集群之外的主机上通过ping命令检测集群IP地址192.168.60.200，已经处于可通状态，也就是该地址变得可用。

同时查看磁盘分区的挂载情况，共享磁盘分区/dev/sdb5已经被自动挂载。

2．启动备份节点的Heartbeat

启动备份节点的Heartbeat，与主节点方法一样，使用如下命令：

[root@node2 ~]#/etc/init.d/heartbeat start

或者执行

[root@node2 ~]#service heartbeat start

这样就启动了备用节点的heartbeat服务，为了让heartbeat能在开机自动运行以及关机自动关闭，创建以下软连接：

[root@node2 ~]#ln -s /etc/init.d/heartbeat

/etc/rc.d/rc0.d/K05heartbeat

[root@node2 ~]#ln -s /etc/init.d/heartbeat

/etc/rc.d/rc3.d/S75heartbeat

[root@node2 ~]#ln -s /etc/init.d/heartbeat

/etc/rc.d/rc5.d/S75heartbeat

[root@node2 ~]#ln -s /etc/init.d/heartbeat

/etc/rc.d/rc6.d/K05heartbeat

备用节点的heartbeat日志输出信息与主节点相对应，通过“tail -f /var/log/messages”可以看到如下输出：

Nov 26 07:57:15 node2 heartbeat: [2110]: info: Link node1:eth1 up.

Nov 26 07:57:15 node2 heartbeat: [2110]: info: Status update for

node node1: status active

Nov 26 07:57:15 node2 heartbeat: [2110]: info: Link node1:eth0 up.

Nov 26 07:57:15 node2 harc[2123]: info: Running

/etc/ha.d/rc.d/status status

Nov 26 07:57:15 node2 heartbeat: [2110]: info: Comm_now_up():

updating status to active

Nov 26 07:57:15 node2 heartbeat: [2110]: info: Local status now set

to: 'active'

Nov 26 07:57:15 node2 heartbeat: [2110]: info: Starting child client

"/usr/lib/heartbeat/ipfail" (694,694)

Nov 26 07:57:15 node2 heartbeat: [2110]: WARN: G_CH_dispatch_int:

Dispatch function for read child took too long to execute: 70 ms (>

50 ms) (GSource: 0x8f62080)

Nov 26 07:57:15 node2 heartbeat: [2134]: info: Starting

"/usr/lib/heartbeat/ipfail" as uid 694 gid 694 (pid 2134)

备份节点检测到node1处于活动状态，没有可以接管的资源，因此，仅仅启动了网络监听插件ipfail，监控主节点的心跳。

测试heartbeat

如何才能得知HA集群是否正常工作，测试是个不错的方法，在把Heartbeat高可用性集群放到生产环境中之前，需要做如下五个步骤的测试，从而确定HA是否正常工作。

1．正常关闭和重启主节点的heartbeat

首先在主节点node1上执行“service heartbeat

stop”正常关闭主节点的Heartbeat进程，此时通过ifconfig命令查看主节点网卡信息，可以看到主节点已经释放了集群的服务IP地址，同时也释放了挂载的共享磁盘分区，然后查看备份节点，现在备份节点已经接管了集群的服务IP，同时也自动挂载上了共享的磁盘分区。

在这个过程中，使用ping命令对集群服务IP进行测试，可以看到，集群IP一致处于可通状态，并没有任何延时和阻塞，也就是说在正常关闭主节点的情况下，主备节点的切换是无缝的，HA对外提供的服务也可以不间断运行。

接着，将主节点heartbeat正常启动，heartbeat启动后，备份节点将自动释放集群服务IP，同时卸载共享磁盘分区，而主节点将再次接管集群服务IP和挂载共享磁盘分区，其实备份节点释放资源与主节点绑定资源是同步进行的。因而，这个过程也是一个无缝切换。

2．在主节点上拔去网线

拔去主节点连接公共网络的网线后，heartbeat插件ipfail通过ping测试可以立刻检测到网络连接失败，接着自动释放资源，而就在此时，备用节点的ipfail插件也会检测到主节点出现网络故障，在等待主节点释放资源完毕后，备用节点马上接管了集群资源，从而保证了网络服务不间断持续运行。

同理，当主节点网络恢复正常时，由于设置了“auto_failback on”选项，集群资源将自动从备用节点切会主节点。

在主节点拔去网线后日志信息如下，注意日志中的斜体部分：

Nov 26 09:04:09 node1 heartbeat: [3689]: info: Link node2:eth0 dead.

Nov 26 09:04:09 node1 heartbeat: [3689]: info: Link

192.168.60.1:192.168.60.1 dead.

Nov 26 09:04:09 node1 ipfail: [3712]: info: Status update: Node

192.168.60.1 now has status dead

Nov 26 09:04:09 node1 harc[4279]: info: Running

/etc/ha.d/rc.d/status status

Nov 26 09:04:10 node1 ipfail: [3712]: info: NS: We are dead. :<

Nov 26 09:04:10 node1 ipfail: [3712]: info: Link Status update: Link

node2/eth0 now has status dead

…… 中间部分省略 ……

Nov 26 09:04:20 node1 heartbeat: [3689]: info: node1 wants to go

standby [all]

Nov 26 09:04:20 node1 heartbeat: [3689]: info: standby: node2 can

take our all resources

Nov 26 09:04:20 node1 heartbeat: [4295]: info: give up all HA

resources (standby).

Nov 26 09:04:21 node1 ResourceManager[4305]: info: Releasing

resource group: node1 192.168.60.200/24/eth0

Filesystem::/dev/sdb5::/webdata::ext3

Nov 26 09:04:21 node1 ResourceManager[4305]: info: Running

/etc/ha.d/resource.d/Filesystem /dev/sdb5 /webdata ext3 stop

Nov 26 09:04:21 node1 Filesystem[4343]: INFO: Running stop for

/dev/sdb5 on /webdata

Nov 26 09:04:21 node1 Filesystem[4343]: INFO: Trying to unmount

/webdata

Nov 26 09:04:21 node1 Filesystem[4343]: INFO: unmounted /webdata

successfully

Nov 26 09:04:21 node1 Filesystem[4340]: INFO: Success

Nov 26 09:04:22 node1 ResourceManager[4305]: info: Running

/etc/ha.d/resource.d/IPaddr 192.168.60.200/24/eth0 stop

Nov 26 09:04:22 node1 IPaddr[4428]: INFO: /sbin/ifconfig eth0:0

192.168.60.200 down

Nov 26 09:04:22 node1 avahi-daemon[1854]: Withdrawing address record

for 192.168.60.200 on eth0.

Nov 26 09:04:22 node1 IPaddr[4407]: INFO: Success

备用节点在接管主节点资源时的日志信息如下：

Nov 26 09:02:58 node2 heartbeat: [2110]: info: Link node1:eth0 dead.

Nov 26 09:02:58 node2 ipfail: [2134]: info: Link Status update: Link

node1/eth0 now has status dead

Nov 26 09:02:59 node2 ipfail: [2134]: info: Asking other side for

ping node count.

Nov 26 09:02:59 node2 ipfail: [2134]: info: Checking remote count of

ping nodes.

Nov 26 09:03:02 node2 ipfail: [2134]: info: Telling other node that

we have more visible ping nodes.

Nov 26 09:03:09 node2 heartbeat: [2110]: info: node1 wants to go

standby [all]

Nov 26 09:03:10 node2 heartbeat: [2110]: info: standby: acquire

[all] resources from node1

Nov 26 09:03:10 node2 heartbeat: [2281]: info: acquire all HA

resources (standby).

Nov 26 09:03:10 node2 ResourceManager[2291]: info: Acquiring

resource group: node1 192.168.60.200/24/eth0

Filesystem::/dev/sdb5::/webdata::ext3

Nov 26 09:03:10 node2 IPaddr[2315]: INFO: Resource is stopped

Nov 26 09:03:11 node2 ResourceManager[2291]: info: Running

/etc/ha.d/resource.d/IPaddr 192.168.60.200/24/eth0 start

Nov 26 09:03:11 node2 IPaddr[2393]: INFO: Using calculated netmask

for 192.168.60.200: 255.255.255.0

Nov 26 09:03:11 node2 IPaddr[2393]: DEBUG: Using calculated

broadcast for 192.168.60.200: 192.168.60.255

Nov 26 09:03:11 node2 IPaddr[2393]: INFO: eval /sbin/ifconfig eth0:0

192.168.60.200 netmask 255.255.255.0 broadcast 192.168.60.255

Nov 26 09:03:12 node2 avahi-daemon[1844]: Registering new address

record for 192.168.60.200 on eth0.

Nov 26 09:03:12 node2 IPaddr[2393]: DEBUG: Sending Gratuitous Arp

for 192.168.60.200 on eth0:0 [eth0]

Nov 26 09:03:12 node2 IPaddr[2372]: INFO: Success

Nov 26 09:03:12 node2 Filesystem[2482]: INFO: Resource is stopped

Nov 26 09:03:12 node2 ResourceManager[2291]: info: Running

/etc/ha.d/resource.d/Filesystem /dev/sdb5 /webdata ext3 start

Nov 26 09:03:13 node2 Filesystem[2523]: INFO: Running start for

/dev/sdb5 on /webdata

Nov 26 09:03:13 node2 kernel: kjournald starting. Commit interval 5

seconds

Nov 26 09:03:13 node2 kernel: EXT3 FS on sdb5, internal journal

Nov 26 09:03:13 node2 kernel: EXT3-fs: mounted filesystem with

ordered data mode.

Nov 26 09:03:13 node2 Filesystem[2520]: INFO: Success

3．在主节点上拔去电源线

在主节点拔去电源后，备用节点的heartbeat进程会立刻收到主节点已经shutdown的消息，如果在集群上配置了Stonith设备，那么备用节点将会把电源关闭或者复位到主节点，当Stonith设备完成所有操作时，备份节点才拿到接管主节点资源的所有权，从而接管主节点的资源。

在主节点拔去电源后，备份节点有类似如下的日志输出：

Nov 26 09:24:54 node2 heartbeat: [2110]: info: Received shutdown

notice from 'node1'.

Nov 26 09:24:54 node2 heartbeat: [2110]: info: Resources being

acquired from node1.

Nov 26 09:24:54 node2 heartbeat: [2712]: info: acquire local HA

resources (standby).

Nov 26 09:24:55 node2 ResourceManager[2762]: info: Running

/etc/ha.d/resource.d/IPaddr 192.168.60.200/24/eth0 start

Nov 26 09:24:57 node2 ResourceManager[2762]: info: Running

/etc/ha.d/resource.d/Filesystem /dev/sdb5 /webdata ext3 start

4．切断主节点的所有网络连接

在主节点上断开心跳线后，主备节点都会在日志中输出“eth1

dead”的信息，但是不会引起节点间的资源切换，如果再次拔掉主节点连接公共网络的网线，那么就会发生主备节点资源切换，资源从主节点转移到备用节点，此时，连上主节点的心跳线，观察系统日志，可以看到，备用节点的heartbeat进程将会重新启动，进而再次控制集群资源，最后，连上主节点的对外网线，集群资源再次从备用节点转移到主节点，这就是整个的切换过程。

5．在主节点上非正常关闭heartbeat守护进程

在主节点上通过“killall -9

heartbeat”命令关闭heartbeat进程，由于是非法关闭heartbeat进程，因此heartbeat所控制的资源并没有释放，备份节点在很短一段时间没有收到主节点的响应后，就会认为主节点出现故障，进而接管主节点资源，在这种情况下，就出现了资源争用情况，两个节点都占用一个资源，造成数据冲突。针对这个情况，可以通过linux提供的内核监控模块watchdog来解决这个问题，将watchdog集成到heartbeat中，如果heartbeat异常终止，或者系统出现故障，watchdog都会自动重启系统，从而释放集群资源，避免了数据冲突的发生。

本章节我们没有配置watchdog到集群中，如果配置了watchdog，在执行“killall -9

heartbeat”时，会在/var/log/messages中看到如下信息：

Softdog: WDT device closed unexpectedly. WDT will not stop!

这个错误告诉我们，系统出现问题，将重新启动。

你可能感兴趣的:(heartbeat, ,高可用集群)

Mysql----高可用集群晗光HG mysql dba
搭建的数据存储架构的优缺点：主从结构存储数据优点：实现了的数据的自动备份缺点：主服务器和从服务器都有单点故障的问题数据读写分离优点:减轻单台服务器的访问压力同时实现数据的备份缺点：读写分离服务器主数据库从数据库都存在单点故障问题分库分表解决是的大量并发存储数据的存储压力问题和存储空间问题缺点：分片存储服务器有单点故障问题没有数据备份的功能(mysql高可用集群)解决服务的单点故障问题和数据的自动备
keepalived+haproxy实现高可用集群 mark.meng 中间件运维
实验环境172.16.32.21172.16.32.22Vip:172.16.32.301.部署httpd测试服务yuminstallhttpdecho"172.16.32.22">>/var/www/html/id.htmlsystemctlstarthttpdcurl172.16.32.22/id.html172.16.32.222.部署haproxy实现负载均衡yuminstallhapro
keepalived 、HAProxy www.农民工智能路由器网络
KeepAlived高可用集群配置高可用的web集群监控本机80端口，实现主备切换实现原理实施配置高可用、负载均衡的web集群配置高可用、负载均衡HAProxy配置haproxy负载均衡调度器比较LVS（LinuxVirtualServer）NginxHAProxyday02KeepAlived高可用集群配置高可用的web集群监控本机80端口，实现主备切换实现原理实施配置高可用、负载均衡的web集
二进制方式部署K8s高可用集群麻辣头马头 kubernetes 容器云原生运维服务器 docker 网络
1二进制方式部署K8s高可用集群1.1kubeadm和二进制安装k8s适用场景分析kubeadm是官方提供的开源工具，是一个开源项目，用于快速搭建kubernetes集群，目前是比较方便和推荐使用的。kubeadminit以及kubeadmjoin这两个命令可以快速创建kubernetes集群。Kubeadm初始化k8s，所有的组件都是以pod形式运行的，具备故障自恢复能力。kubeadm是工具，
Etcd 配置详解 SkTj
配置标记成员标记—name—data-dir—wal-dir—snapshot-count—heartbeat-interval—election-timeout—listen-peer-urls—listen-client-urls—max-snapshots—max-wals—cors集群标记—initial-advertise-peer-urls—initial-cluster—initia
【深入学习Redis丨第三篇】深入详解Redis高可用集群模式陈橘又青深入学习Redis 学习 redis 数据库高可用集群
前言本文我们将介绍Redis的四种模式及各自优缺点分析。Redis一共4种模式：1、主从复制模式2、(Sentinel)哨兵模式3、(Cluster)集群模式4、代理模式文章目录前言1.**主从模式****1.1简介****1.2工作机制**2.**哨兵模式****2.1简介****2.2工作机制****2.3注意点**3.**Cluster模式****3.1简介****3.2工作机制****3.
Docker搭建MongoDB Replica Set高可用集群+数据丢失&被黑解决+自动备份与恢复脚本+持久化慢查询记录秋风お亦冷运维企业实战笔录运维 docker mongodb 数据库
文章目录引节点规划配置文件创建持久化目录创建并推送证书启动临时容器修改配置文件单节点参考mongod.confdocker-compose.ymlReplicaSet参考mongod.confdocker-compose.yml部署与配置部署集群配置集群验证集群增删节点增加节点删除节点查看节点常用命令重置集群备份数据关闭服务删除持久化数据启动集群配置集群验证集群创建用户验证集群用户管理权限说明创建
81.MySQL-PXC高可用集群戒掉贪嗔痴(薛双奇) 数据库运维-MySQL mysql 数据库
1.第一个节点启动。Linux7:my.cnf文件需要拷贝到：/etc/my.cnf(非常重要)[root@mysql51~]#mysqlpxcbootstrap-pxcBootstrappingPXC(PerconaXtraDBCluster)InitializingMySQ[OK]se:StartingMySQL(PerconaXtraDBCluster)..[OK]当前集群只有一个节点。my
MySQL 高可用--PXC 行走的猫儿 MySQL
1.PXC(PerconaXtradbCluster)Percona：基于MySQL数据库已二次开发的数据库产品xtradb：存储引擎Cluster：集群1.1概念：PXC是属于一套比较完美的MySQL高可用集群解决方案，相比较传统的基于主从复制的架构，基本上可以达到实时同步。且节点与节点之间是相互低等的，不存在主从关系。2.PXC实现的功能1）多主复制：真正的多点读写集群，在任何时候都写数据都是
keepalived mysql双主架构图_通过KeepAlived搭建MySQL双主模式的高可用集群系统尤亚洲 keepalived mysql双主架构图
通过KeepAlived搭建MySQL双主模式的高可用集群系统一、整体架构企业级mysql集群具备高可用、可扩展、易管理、低成本的特点。下面将介绍企业环境中经常应用的一个解决方案，即MySQL的双主互备架构，主要设计思路是通过MySQLReplication技术将两台MySQLServer互相将对方作为自己的Master，自己又同时作为对方的Slave来进行复制。这样就实现了高可用构架中的数据同步
【Mysql】通过Keepalived搭建mysql双主高可用集群维运数据库 mysql 数据库
一、环境信息主机名ip操作系统mysql版本VIP（虚拟ip）hadoop01192.168.10.200centos7_x865.7192.168.10.253hadoop03192.168.10.202centos7_x865.7二、mysql集群搭建两台节点，如果未部署mysql服务，部署文档请看【Mysql】mysql三种安装方式（二进制、yum、docker）-CSDN博客三、配置文件修
基于Zookeeper搭建Kafka高可用集群数字游牧人0v0 大数据BigData kafka java-zookeeper zookeeper 大数据
基于Zookeeper搭建Kafka高可用集群一、Zookeeper集群搭建为保证集群高可用，Zookeeper集群的节点数最好是奇数，最少有三个节点，所以这里搭建一个三个节点的集群。1.1下载&解压下载对应版本Zookeeper，这里我下载的版本3.4.14。官方下载地址：https://archive.apache.org/dist/zookeeper/#下载wgethttps://archi
从零开始搭建Aliyun ESC高可用集群 (HaVip+KeepAlived) cloud_ether 云原生运维 lvs 高性能集群 keepalived lvs 高可用集群高性能集群云原生
从零开始搭建AliyunESC高可用集群(HaVip+KeepAlived)架构架构本设计方案采用两台阿里云ECS服务器搭建Keepalived结合LVS的高可用集群。使用LVS的TUN模式进行负载均衡，同时利用阿里云的弹性IP（EIP）与高可用虚拟HaVIP实现跨服务器的高可用性。架构中，一台ECS服务器作为主LVSDirector节点，另一台作为备份LVSDirector节点，两者通过Keep
520表白html5爱心代码 youyouxiong html5 css 前端
在HTML5中创建一个带有爱心动画的表白页面，可以通过结合CSS3动画和JavaScript来实现。以下是一个简单的示例代码，展示了如何制作一个带有动态爱心效果的表白页面：520表白@keyframesheartBeat{0%{transform:scale(1);}25%{transform:scale(1.1);}50%{transform:scale(1);}75%{transform:sc
Zabbix HA高可用集群搭建 KK小草莓 zabbix
ZabbixHA高可用集群搭建ZabbixHA高可用集群搭建一、Zabbix高可用集群（ZabbixHA）二、部署Zabbix高可用集群1、两个服务端配置1.1主节点ZabbixServer配置1.2备节点ZabbixServer配置1.3主备节点添加监控主机1.4查看高可用集群状态2、两个客户端配置2.1修改agent01和agent02的配置文件2.2查看web页面3、故障模拟和效果测试3.1
HA集群--一起学习吧之架构 wd90119 学习架构
今天想和大家一起学习HA集群。首先，上定义~一、HA定义HA（HighAvailability）集群，即高可用集群，是一种以减少服务中断时间为目的的服务器集群技术。它通过保护用户业务程序对外不间断地提供服务，把因软件、硬件、人为造成的故障对业务的影响降低到最小程度，从而保证公司业务7*24小时不宕机。HA集群一般包含两个或两个以上的节点，且分为活动节点及备用节点。通常把正在执行业务的节点称为活动节
Spring Cloud微服务网关Zuul动态路由配置优化和手动触发路由刷新 NullzzZ 微服务 Spring Cloud系列文章 spring cloud 微服务 wpf java 后端 spring boot spring
一、前文必看SpringCloud微服务网关Zuul动态路由配置。在前文中留了两个小坑。在本文将怕它给填了，所以前一篇文章建议看一下。二、DynamicZuulRouteLocator小优化在前文中提到，HeartbeatEvent事件会频繁触发，每次都需要去查询数据库。而且ZuulRefreshListener监听的其余四个刷新事件也不会经常触发。所以这里就可以做一下小优化，因为系统上线稳定后，
mavlink协议详解_MAVLink通讯协议在STM32上移植，并自定义协议马卡斯·扬 mavlink协议详解
mavlink全称是(MicroAirVehicleMessageMarshallingLibrary)，从名字可以看出，mavlink是主要面向飞控的一种开源通信协议。因此它默认定义了很多适用于飞控的信息格式，比如heartbeat(心跳信号，每隔一两秒主从通信一次，以验证通信是否正常)。首先要说明的是，mavlink作为一个非常可靠(至少两字节校验)、支持类型丰富(messageID、comp
kubeasz部署k8s高可用集群时空无限 kubernetes
前言：如无特殊说明，所有操作都用root账号在所有节点执行。说明：kubeasz是一款国产开源的k8s部署软件，采用ansiblerole的部署方式，部署k8s二进制集群。熟悉ansiblerole的用该软件部署k8s方便快捷。一、机器deploy#部署机器master01master02node01二、环境2.1部署机器环境[root@localhostopt]#cat/etc/redhat-r
Centos7.9基于Kubeasz部署k8s 1.27.1高可用集群 Arnold.Shen Kubernetes docker 运维 kubernetes
一：kubeasz的介绍kubeasz致力于提供快速部署高可用k8s集群的工具,同时也努力成为k8s实践、使用的参考书；基于二进制方式部署和利用ansible-playbook实现自动化；既提供一键安装脚本,也可以根据安装指南分步执行安装各个组件。kubeasz从每一个单独部件组装到完整的集群，提供最灵活的配置能力，几乎可以设置任何组件的任何参数；同时又为集群创建预置一套运行良好的默认配置，甚至自
中间件-Nginx学习笔记笑一笑、 Java nginx 服务器 linux
目录nginx简介Linux安装Nginxnginx常用命令nginx.conf配置文件nginx反向代理nginx负载均衡nginx动静分离nginx搭建高可用集群高可用配置（主从配置）高可用主从配置文件详解nginx原理nginx简介什么是nginxNginx(enginex)是一个高性能的HTTP和反向代理]web服务器，同时也提供了IMAP/POP3/SMTP服务。Nginx可以作为静态页
运维工程师的转型与升级：解析35岁半衰期现象及其应对策略 Srlua 运维话题分享运维
目录什么是运维工程师1.系统维护：2.故障排除：3.安全管理：4.性能优化：5.自动化流程：6.云计算服务：运维工程师需要学什么Linux系统知识：网络基础知识：企业级负载集群：高可用集群：运维监控：脚本编程：安全知识：版本控制：云计算服务：容器技术：DevOps文化：软件工具：故障排查：项目管理：35岁被称为运维半衰期，究竟为何？1.时间分配：2.工作弹性需求：3.职业稳定性：4.精力分配：该如
LVS/DR&LVS高可用集群 Hannah_zh Linux LVS集群 keepalived ipvsadm VS/DR
一、基本知识HeartbeatHeartbeat项目是Linux-HA工程的一个组成部分，其与lvs在本质上无关。Heartbeat提供了2个核心的功能正是lvs所需要的，心跳监测部分和资源接管，心跳监测可以通过网络链路和串口进行，而且支持冗余链路，安装了Heartbeat的两台机器会通过心跳检测互相检测对方的状态，当检测到对方失效的时候会调用资源接管来做接管服务器，保证高可靠性。在一个高可靠的l
Redis缓存高可用集群在电商网站中的应用 MarkHD 缓存 redis spring
实战案例：Redis缓存高可用集群在电商网站中的应用背景某大型电商网站在日常运营中面临巨大的访问量和数据压力。为了提高系统的响应速度和稳定性，该电商网站决定采用Redis作为缓存层，并构建高可用集群以应对高并发和故障转移的需求。架构设计节点规划：根据业务需求，该电商网站规划了16个Redis节点，其中8个为主节点（Master），8个为从节点（Slave）。每个主节点都配置了一个对应的从节点，用于
Redis缓存高可用集群浅谈 MarkHD 缓存 redis 数据库
Redis缓存高可用集群的创新主要体现在以下几个方面：无中心节点设计：Redis集群是一个由多个主从节点群组成的分布式服务器群，它没有中心节点，这使得集群可以水平扩展，并且可以线性扩展到上万个节点（官方推荐不超过1000个节点）。这种设计大大提高了系统的可用性和并发处理能力。自动故障转移：在Redis集群中，如果某个节点发生故障，集群会自动进行故障转移，将故障的节点从集群中移除，并将其他节点升级为
实战 | Nginx+keepalived 实现高可用集群开源Linux
前言今天通过两个实战案例，带大家理解Nginx+keepalived如何实现高可用集群，在学习新知识之前您可以选择性复习之前的知识点：给小白的Nginx10分钟入门指南Nginx编译安装及常用命令Nginx配置文件详解一文带你读懂Nginx反向代理一文彻底读懂nginx中的location指令Nginx负载均衡原理及配置实例Nginx为什么快到根本停不下来？Keepalived入门学习Keepal
Hadoop-HA高可用集群部署魔笛Love hadoop hdfs big data
HadoopHAHA概述(1)所谓HA(HighAvailablity),即高可用(7*24小时不中断服务)。(2)实现高可用最关键的策略是消除单点故障。HA严格来说应该分成各个组件的HA机制:HDFS的HA和YARN的HA。(3)NameNode主要在以下两个方面影响HDFS集群➢NameNode机器发生意外,如宕机,集群将无法使用,直到管理员重启➢NameNode机器需要升级,包括软件、硬件升
使用 kind 部署单机版 kubernetes 集群 leileitang_blog
1.kind的介绍和优势kind（KubernetesinDocker）是一个基于Docker构建的Kubernetes集群的工具。它经过CNCF认证，并且支持多节点集群，包括高可用集群。并且支持Linux、macOS以及Windows操作系统，操作简单，学习成本低，非常适合用来在本地搭建基于Kubernetes的开发/测试环境2.使用kind部署本地k8s集群2.1本地安装kindmac环境安装
nginx+keepalived实现高可用四季三餐，有趣有盼高可用 nginx 云计算运维
目录什么是keepalived？keepalived工作原理部署nginx+keepalived什么是keepalived？keepalived是集群管理中保证集群高可用的一个服务，类似于heartbeat，用来防止单节点故障。keepalived工作原理keepalived是以VRRP协议为基础实现的。VirtualRouteRedundancyProtocol，即虚拟路由冗余协议，它主要是实现
深入浅出理解kafka原理系列之：kafka消费者参数设置最笨的羊羊日常分享专栏 Kafka 深入理解kafka原理 kafka消费者参数设置
深入浅出理解kafka原理系列之：kafka消费者参数设置1.max.poll.records2.max.poll.interval.ms3.enable.auto.commit4.heartbeat.interval.ms5.session.timeout.ms6.auto.offset.reset6.指定分区消费7.消息回溯消费8.指定offset消费9.指定时间点开始消费1.max.poll
mongodb3.03开启认证 21jhf mongodb
下载了最新mongodb3.03版本，当使用--auth 参数命令行开启mongodb用户认证时遇到很多问题，现总结如下：（百度上搜到的基本都是老版本的，看到db.addUser的就是，请忽略） Windows下我做了一个bat文件，用来启动mongodb，命令行如下： mongod --dbpath db\data --port 27017 --directoryperdb --logp
【Spark103】Task not serializable bit1129 Serializable
Task not serializable是Spark开发过程最令人头疼的问题之一，这里记录下出现这个问题的两个实例，一个是自己遇到的，另一个是stackoverflow上看到。等有时间了再仔细探究出现Task not serialiazable的各种原因以及出现问题后如何快速定位问题的所在，至少目前阶段碰到此类问题，没有什么章法 1. package spark.exampl
你所熟知的 LRU(最近最少使用) dalan_123 java
关于LRU这个名词在很多地方或听说，或使用，接下来看下lru缓存回收的实现 1、大体的想法 a、查询出最近最晚使用的项 b、给最近的使用的项做标记通过使用链表就可以完成这两个操作，关于最近最少使用的项只需要返回链表的尾部；标记最近使用的项，只需要将该项移除并放置到头部，那么难点就出现你如何能够快速在链表定位对应的该项？这时候多
Javascript 跨域周凡杨 JavaScript jsonp 跨域 cross-domain
linux下安装apache服务器 g21121 apache
安装apache 下载windows版本apache，下载地址：http://httpd.apache.org/download.cgi 1.windows下安装apache Windows下安装apache比较简单，注意选择路径和端口即可，这里就不再赘述了。 2.linux下安装apache：下载之后上传到linux的相关目录，这里指定为/home/apach
FineReport的JS编辑框和URL地址栏语法简介老A不折腾 finereport web报表报表软件语法总结
JS编辑框： 1.FineReport的js。作为一款BS产品，browser端的JavaScript是必不可少的。 FineReport中的js是已经调用了finereport.js的。大家知道，预览报表时，报表servlet会将cpt模板转为html，在这个html的head头部中会引入FineReport的js，这个finereport.js中包含了许多内置的fun
根据STATUS信息对MySQL进行优化墙头上一根草 status
mysql 查看当前正在执行的操作，即正在执行的sql语句的方法为: show processlist 命令 mysql> show global status;可以列出MySQL服务器运行各种状态值，我个人较喜欢的用法是show status like '查询值%';一、慢查询mysql> show variab
我的spring学习笔记7-Spring的Bean配置文件给Bean定义别名 aijuans Spring 3
本文介绍如何给Spring的Bean配置文件的Bean定义别名？原始的 <bean id="business" class="onlyfun.caterpillar.device.Business"> <property name="writer"> <ref b
高性能mysql 之性能剖析 annan211 性能 mysql mysql 性能剖析剖析
1 定义性能优化 mysql服务器性能，此处定义为响应时间。在解释性能优化之前，先来消除一个误解，很多人认为，性能优化就是降低cpu的利用率或者减少对资源的使用。这是一个陷阱。资源时用来消耗并用来工作的，所以有时候消耗更多的资源能够加快查询速度，保持cpu忙绿，这是必要的。很多时候发现编译进了新版本的InnoDB之后，cpu利用率上升的很厉害，这并不
主外键和索引唯一性约束百合不是茶索引唯一性约束主外键约束联机删除
目标;第一步;创建两张表用户表和文章表第二步;发表文章 1,建表; ---用户表 BlogUsers --userID唯一的 --userName --pwd --sex create
线程的调度 bijian1013 java 多线程 thread 线程的调度 java多线程
1. Java提供一个线程调度程序来监控程序中启动后进入可运行状态的所有线程。线程调度程序按照线程的优先级决定应调度哪些线程来执行。 2. 多数线程的调度是抢占式的（即我想中断程序运行就中断，不需要和将被中断的程序协商） a)
查看日志常用命令 bijian1013 linux 命令 unix
一.日志查找方法，可以用通配符查某台主机上的所有服务器grep "关键字" /wls/applogs/custom-*/error.log 二.查看日志常用命令1.grep '关键字' error.log：在error.log中搜索'关键字'2.grep -C10 '关键字' error.log：显示关键字前后10行记录3.grep '关键字' error.l
【持久化框架MyBatis3一】MyBatis版HelloWorld bit1129 helloworld
MyBatis这个系列的文章，主要参考《Java Persistence with MyBatis 3》。样例数据本文以MySQL数据库为例，建立一个STUDENTS表，插入两条数据，然后进行单表的增删改查 CREATE TABLE STUDENTS ( stud_id int(11) NOT NULL AUTO_INCREMENT,
【Hadoop十五】Hadoop Counter bit1129 hadoop
1. 只有Map任务的Map Reduce Job File System Counters FILE: Number of bytes read=3629530 FILE: Number of bytes written=98312 FILE: Number of read operations=0 FILE: Number of lar
解决Tomcat数据连接池无法释放 ronin47 tomcat 连接池　优化
近段时间，公司的检测中心报表系统(SMC)的开发人员时不时找到我，说用户老是出现无法登录的情况。前些日子因为手头上有Jboss集群的测试工作，发现用户不能登录时，都是在Tomcat中将这个项目Reload一下就好了，不过只是治标而已，因为大概几个小时之后又会再次出现无法登录的情况。今天上午，开发人员小毛又找到我，要我协助将这个问题根治一下，拖太久用户难保不投诉。简单分析了一
java-75-二叉树两结点的最低共同父结点 bylijinnan java
import java.util.LinkedList; import java.util.List; import ljn.help.*; public class BTreeLowestParentOfTwoNodes { public static void main(String[] args) { /* * node data is stored in
行业垂直搜索引擎网页抓取项目 carlwu Lucene Nutch Heritrix Solr
公司有一个搜索引擎项目，希望各路高人有空来帮忙指导，谢谢！这是详细需求：（1）通过提供的网站地址(大概100-200个网站)，网页抓取程序能不断抓取网页和其它类型的文件（如Excel、PDF、Word、ppt及zip类型），并且程序能够根据事先提供的规则，过滤掉不相干的下载内容。（2）程序能够搜索这些抓取的内容，并能对这些抓取文件按照油田名进行分类，然后放到服务器不同的目录中。
[通讯与服务]在总带宽资源没有大幅增加之前,不适宜大幅度降低资费 comsci 资源
降低通讯服务资费，就意味着有更多的用户进入，就意味着通讯服务提供商要接待和服务更多的用户，在总体运维成本没有由于技术升级而大幅下降的情况下，这种降低资费的行为将导致每个用户的平均带宽不断下降，而享受到的服务质量也在下降，这对用户和服务商都是不利的。。。。。。。。 &nbs
Java时区转换及时间格式 Cwind java
本文介绍Java API 中 Date, Calendar, TimeZone和DateFormat的使用，以及不同时区时间相互转化的方法和原理。问题描述：向处于不同时区的服务器发请求时需要考虑时区转换的问题。譬如，服务器位于东八区（北京时间，GMT+8:00），而身处东四区的用户想要查询当天的销售记录。则需把东四区的“今天”这个时间范围转换为服务器所在时区的时间范围。
readonly,只读，不可用 dashuaifu js jsp disable readOnly readOnly
readOnly 和 readonly 不同，在做js开发时一定要注意函数大小写和jsp黄线的警告！！！我就经历过这么一件事：使用readOnly在某些浏览器或同一浏览器不同版本有的可以实现“只读”功能，有的就不行，而且函数readOnly有黄线警告！！！就这样被折磨了不短时间！！！（期间使用过disable函数，但是发现disable函数之后后台接收不到前台的的数据！！！）
LABjs、RequireJS、SeaJS 介绍 dcj3sjt126com js Web
LABjs 的核心是 LAB（Loading and Blocking）：Loading 指异步并行加载，Blocking 是指同步等待执行。LABjs 通过优雅的语法（script 和 wait）实现了这两大特性，核心价值是性能优化。LABjs 是一个文件加载器。RequireJS 和 SeaJS 则是模块加载器，倡导的是一种模块化开发理念，核心价值是让 JavaScript 的模块化开发变得更
[应用结构]入口脚本 dcj3sjt126com PHP yii2
入口脚本入口脚本是应用启动流程中的第一环，一个应用（不管是网页应用还是控制台应用）只有一个入口脚本。终端用户的请求通过入口脚本实例化应用并将将请求转发到应用。 Web 应用的入口脚本必须放在终端用户能够访问的目录下，通常命名为 index.php，也可以使用 Web 服务器能定位到的其他名称。控制台应用的入口脚本一般在应用根目录下命名为 yii（后缀为.php），该文
haoop shell命令 eksliang hadoop hadoop shell
cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir movefromLocal mv put rm rmr setrep stat tail test text
MultiStateView不同的状态下显示不同的界面 gundumw100 android
只要将指定的view放在该控件里面，可以该view在不同的状态下显示不同的界面，这对ListView很有用，比如加载界面，空白界面，错误界面。而且这些见面由你指定布局，非常灵活。 PS：ListView虽然可以设置一个EmptyView，但使用起来不方便，不灵活，有点累赘。 <com.kennyc.view.MultiStateView xmlns:android=&qu
jQuery实现页面内锚点平滑跳转 ini JavaScript html jquery html5 css
平时我们做导航滚动到内容都是通过锚点来做，刷的一下就直接跳到内容了，没有一丝的滚动效果，而且 url 链接最后会有“小尾巴”，就像#keleyi，今天我就介绍一款 jquery 做的滚动的特效，既可以设置滚动速度，又可以在 url 链接上没有“小尾巴”。效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/37.htmHTML文件代码： &
kafka offset迁移 kane_xie kafka
在早前的kafka版本中（0.8.0），offset是被存储在zookeeper中的。到当前版本（0.8.2）为止，kafka同时支持offset存储在zookeeper和offset manager（broker）中。从官方的说明来看，未来offset的zookeeper存储将会被弃用。因此现有的基于kafka的项目如果今后计划保持更新的话，可以考虑在合适
android > 搭建 cordova 环境 mft8899 android
1 , 安装 node.js http://nodejs.org node -v 查看版本 2, 安装 npm 可以先从 https://github.com/isaacs/npm/tags 下载源码解压到
java封装的比较器，比较是否全相同，获取不同字段名字 qifeifei
非常实用的java比较器，贴上代码： import java.util.HashSet; import java.util.List; import java.util.Set; import net.sf.json.JSONArray; import net.sf.json.JSONObject; import net.sf.json.JsonConfig; i
记录一些函数用法 .Aky. 位运算 PHP 数据库函数 IP
高手们照旧忽略。想弄个全天朝IP段数据库，找了个今天最新更新的国内所有运营商IP段，copy到文件，用文件函数，字符串函数把玩下。分割出startIp和endIp这样格式写入.txt文件，直接用phpmyadmin导入.csv文件的形式导入。（生命在于折腾，也许你们觉得我傻X，直接下载人家弄好的导入不就可以，做自己的菜鸟，让别人去说吧）当然用到了ip2long()函数把字符串转为整型数
sublime text 3 rust wudixiaotie Sublime Text
1.sublime text 3 => install package => Rust 2.cd ~/.config/sublime-text-3/Packages 3.mkdir rust 4.git clone https://github.com/sp0/rust-style 5.cd rust-style 6.cargo build --release 7.ctrl