沉舟侧畔千帆过_

金仓数据库KingbaseES高可用最佳应用实践（Clusterware）

4.1. KingbaseES Clusterware简介 ¶

4.2. 配置 ¶

4.2.1. 硬件配置 ¶

4.2.2. 操作系统配置 ¶

4.2.3. Clusterware配置 ¶

4.3. 故障处理行为 ¶

4.3.1. 网络类故障 ¶

4.3.2. 状态变化类故障 ¶

4.3.3. 资源耗尽类故障 ¶

4.4. 监控指标 ¶

4.5. 从计划外停机中恢复 ¶

4.5.1. 实例故障、主机/网络故障但存储可用 ¶

4.5.2. 存储故障/数据损坏的恢复 ¶

4.5.3. 集群故障或站点故障的恢复 ¶

4.5.4. FENCE设备故障的恢复 ¶

4.5.5. clusterware备份和恢复方式 ¶

4.6. 计划内停机操作 ¶

4.6.1. 资源补丁、升级 ¶

4.6.2. clusterware补丁、升级 ¶

4.6.3. 系统或硬件补丁、升级 ¶

4.7. 配置变更 ¶

4.7.1. 资源配置 ¶

4.7.2. 成员配置 ¶

4.7.3. 增加删除节点 ¶

4.1. KingbaseES Clusterware简介 ¶

KingbaseES Clusterware用于协调多种资源组成统一的服务，配合KingbaseES可以实现以下几种方案：

使用共享存储的高可用方案

图 4.1.35 基于共享存储的高可用方案 ¶

使用共享存储的高可用多活方案，适用于：

单个应用做了库级的解耦，可以通过分库将压力分散到不同数据库实例。以下是逻辑图示，正常运行情况和单个节点故障的情况：

图 4.1.36 单个应用做库级的解耦 ¶

多个应用的集约化部署，每个应用使用单个数据库实例。以下是逻辑图示，正常运行情况和单个节点故障的情况：

图 4.1.37 多个应用的集约化部署 ¶

这些高可用方案和读写分离集群方案的选择和比较请参考 KingbaseES高可用概述中“功能相近特性的选择”一节。

4.2. 配置 ¶

数据库集群件Clusterware是一个复杂的系统，涉及多个数据库，多个主机，多种资源，多种配置，在用户现场部署运行数据库集群件是一个较为复杂、困难的事情。特编写该文档，对实施在现场部署集群件起到一个规范和指导的作用。本章节分为四部分，第一部分介绍集群部署相关配置，第二部分介绍故障处理行为，第三部分介绍监控指标，第四部分介绍从计划外停机中恢复，第五部分介绍计划内停机操作，第六部分介绍配置变更。

4.2.1. 硬件配置 ¶

4.2.1.1. 限制 ¶

表 4.2.12 限制 ¶
服务器	非专用机，支持IPMI管理，IPMI独立供电
存储设备	SAN/DAS存储阵列，支持ISCSI3以上协议
组网	集群节点在一个子网内
	接入同一交换机，route不超过1跳

4.2.1.2. 推荐配置 ¶

两节点分库方案中共享存储设备需要分成三个LUN，第一个LUN大小100M，作为投票盘，其他两个LUN作为分库的数据存储区域。

4.2.2. 操作系统配置 ¶

和KingbaseES的操作系统配置要求相同。特别的：建议配置NTP时钟同步。

4.2.2.1. 配置NTP实现时间同步 ¶

环境中有时间服务器的情况下各节点同步时间服务器

如果时间服务器端有客户端IP限制，加入各节点IP

各节点在ntp.conf中加入时间服务器配置（以192.168.4.134为例）
server 192.168.4.134 prefer
fudge 192.168.4.134 stratum 10
环境中没有时间服务器的情况下设置集群中一个节点为NTP服务器，其他节点向此服务器同步时间。 使用此种方式时要注意在NTP服务器节点故障修复后重新加入网络时需要手动检查系统时间，可以设置为比运行节点中时间最快的更快几秒。

NTP服务器节点在ntp.conf中加入向本地时间同步设置（以192.168.4.1为子网IP，以255.255.255.0为子网掩码为例）
server 127.127.1.0 prefer
fudge 127.127.1.0 stratum 10
restrict 192.168.4.1 mask 255.255.255.0
NTP客户端各节点在ntp.conf中加入时间服务器配置（以192.168.4.134为例）
server 192.168.4.134 prefer
fudge 192.168.4.134 stratum 10

4.2.2.2. 终端term配置 ¶

在终端显示时，会用到term，如果term不在默认路径，那么需要进行额外操作。通过如下命令查看term是否在默认路径

crm_mon

如果出现如下错误,则说明term不在默认路径下

Error opening terminal: xterm.

通过如下find命令查找term.以上报错显示默认term为xterm，也可通过 $TERM 查看默认term

find / -name ${TERM}

通过软连接或者更改默认TERMINFO路径的方式，实现修改(默认路径一般为/usr/share/terminfo/x)

ln -s 实际存在路径 默认路径

或者

export TERMINFO=实际存在路径

4.2.3. Clusterware配置 ¶

4.2.3.1. 投票盘（qdevice-disk）配置 ¶

按以下命令初始化投票盘

mkqdisk -c /dev/设备 -l 自定义名称

查看初始化信息

mkqdisk -f 自定义名称 -d -m

4.2.3.2. 成员管理（corosync）配置 ¶

4.2.3.2.1. 说明 ¶

以下配置无特别说明：

不包括不使用的段

不包括默认的配置值

4.2.3.2.2. TOTEM段 ¶

表 4.2.13 totem段 ¶
配置项	推荐配置和说明
version	固定值2
cluster_name	集群内统一命名即可
Token	单位毫秒，节点的网络心跳超时时间，超时未收到节点的心跳会认为节点故障。
join	单位毫秒，集群成员协议中做一致性同步时的超时时间，超时将会延迟成员稳定的时间。
crypto_hash	加密相关配置，默认关闭但不配置会去系统的配置中获取导致报错。
crypto_cipher	加密相关配置，默认关闭但不配置会去系统的配置中获取导致报错。

4.2.3.2.3. TOTEM.INTERFACE段 ¶

表 4.2.14 totem.interface段 ¶
配置项	推荐配置和说明
knet_ping_interval	单位毫秒，knet的心跳间隔。
knet_ping_timeout	单位毫秒，在timeout时间内没有收到ping会认为knet连接断开，和token相似。
mcastaddr	默认设置即可，如果网络有控制，请找网管分配一个组播地址。
mcastport	默认，占用5405和5404端口。

4.2.3.2.4. NODELIST段 ¶

表 4.2.15 nodelist段 ¶
配置项	推荐配置和说明
ring0_addr	按推荐不使用redundant ring协议，只有ring0_addr。
name	节点名，使用hostname。
nodeid	各节点从1开始顺序增加。

4.2.3.2.5. QUORUM & QUORUM.DEVICE段 ¶

表 4.2.16 quorum & quorum.device段 ¶
配置项	推荐配置和说明
provider	固定值corosync_votequorum
device.timeout	单位毫秒，timeout是corosync等待qdevicevote 的超时，超过超时会导致集群失去quorum停止。
device.sync_timeout	Sync阶段使用，其他和timeout相同。
device.master_wins	固定值1，目前qdisk投票方式为master投票。
device.votes	qdisk的票数，固定值节点数-1（每个节点1vote，qdisk节点数-1 votes用于实现只有1节点+qdisk就可以达到quorum要求）。
device.model	固定值disk

4.2.3.2.6. QUORUM.DEVICE.DISK段 ¶

表 4.2.17 quorum.device.disk段 ¶
配置项	推荐配置和说明
device.disk.debug	为了方便现场debug时直接修改配置所以特别保留
interval	单位毫秒，磁盘心跳间隔。
tko	磁盘心跳超时次数，磁盘心跳丢失超过此次数节点会被认为故障。
tko_up	新启动的集群磁盘心跳被识别超过此次数后会被认为启动成功。
upgrade_wait	集群启动后开始发起选举至少等待的心跳数。
master_wait	获得满足master 投票，成为master前至少等待心跳的次数。
device	配置qdisk使用的存储设备路径。
Label	使用初始化的lable去查，该字段为了防止linux内核重启，导致device指定的名字发生改变，设置lable ，就不用device字段指定投票盘，该值有mkqdisk –L指定。
io_timeout	固定值1，qdisk 进程的I/O操作超过tko*interval后会自动会重启。
fence_timeout	单位毫秒，对丢失心跳的节点做fence时的超时时间。

4.2.3.2.7. LOGGING段 ¶

表 4.2.18 logging段 ¶
配置项	推荐配置和说明
to_logfile	除syslog外是否输出log到文件
logfile	文件路径，支持logrotate配置。
debug	off 默认值为off，为了方便现场debug时直接修改配置所以特别保留。

4.2.3.2.8. SYSTEM段 ¶

表 4.2.19 system段 ¶
配置项	推荐配置和说明
state_dir	默认/var/lib/corosync，有文件位置需要可以变更。

4.2.3.2.9. 配置间关系 ¶

两节点集群中不考虑qdisk的多次故障造成的投票时间增加，单次投票在master io故障情况下到新master选举投票的时间最大为：
interval * (tko + master_wait + upgrade_wait) + fence_timeout
fence_timeout应小于tko * interval避免因fence导致心跳更新不及时。

考虑bid过程中有新节点的恢复，master_wait要比tko_up大。

qdevice的timeout应该大于qdisk单次投票的最大时长避免正常投票过程超时。

qdevice的sync_timeout应该大于timeout。

corosync的totem应该大于qdisk单次投票的最大时长避免投票过程中的节点变更。

4.2.3.2.10. 两节点推荐配置 ¶

配置见corosync_2nodes.conf

4.2.3.2.11. 配置调整 ¶

在推荐配置基础上修改集群节点数、集群名。

在满足配置间关系的情况下，根据现场RTO需求和网络状况调整各个超时参数，实现更小的RTO或是减少异常干扰。

在专用机环境根据策略调整存储位置。

4.2.3.3. 资源管理（pacemaker）配置 ¶

4.2.3.3.1. 说明 ¶

以下配置无特别说明：

不包括默认的配置值。

描述格式使用crm configure形式。

4.2.3.3.2. CLUSTER OPTIONS ¶

表 4.2.20 集群级别的配置参数 ¶
参数名称	默认值	建议
maintenance-node	false	集群是否处于维护状态，一般正常状态，建议为false，当处于维护状态时，设置为true，为 true时，资源处理不可控状态。
stonith-enabled	true	失败的节点与资源停止不掉的节点是否进行fence，一般有fence 设备的，需要开启该参数，没有fence设备的，需要关闭该参数，否则，资源将不会启动。
stonith-action	reboot	可选值有off 与reboot，执行fence的动作，reboot表示重启，off表示关机，一般来说，建议选默认值。
stonith-timeout	60s	针对fence的超时设置，一般建议默认值，不过根据fence device情况，可以适当增加。
cluster-delay	60s	DC 指示远程节点执行执命令，等待操作返回的超时设置，一般超过该超时，DC没有得到回应，认为执行失败，该值需要考虑网络负载情况，网络速度不足，需要加大该值。
dc-deadtime	20s	节点启动时，连接DC的超时设置，一般在网络速度不足，需要加大该值。
cluster_recheck_interval	15min	Pacemaker一般是事件触发，当集群发生某件事情的时候，会触发一次schuedule调用，看要采取什么行动，设置该值，代表没有事件发生时，每隔多长事件触发一次，0表示禁用。

4.2.3.3.3. 资源OPERATION配置 ¶

Pacemaker的资源代理脚本基本上需要支持stop，start，monitor三种操作，每个操作有如下属性可以配置。

表 4.2.21 资源operation配置 ¶
属性名称	默认值	意义
id		唯一性的名称
name		操作的名称，如： monitor，start，stop。
interval	0	操作的频率，0表示在需要的时候调用，start和stop 操作一般设置为0， monitor需要调整该参数。
timeout		超时设置，超过该时间，操作没有反应，默认为失败。
on-fail	restart(如果设置了 fence，那么stop默认的是 fence，如果没有fence，那么stop默认的是block)	可以配置的值有： ignore 假装没有失败 block 资源不会进一步操作 stop停止资源，也不在其他地方启动 restart 停止资源，然后启动资源 fence fence失败节点 standby 将资源移到其他节点。
enabled	true	用false表示忽略该操作。
record-pending	true	是否记录操作，以至于GUI和CLI工具可以标记该操作正在进行。
role		节点以何种角色运行该操作，一般有 stopped和started， Slave和Master，目前仅对多个monitor操作有效。

4.2.3.3.4. 资源META配置 ¶

资源meta属性,设置资源的全局属性,无关资源以何种属性运行

表 4.2.22 资源meta配置 ¶
属性名称	默认值	意义
priority	0	优先级，当不能确保所有资源都能运行的情况下，优先确保高优先级的资源活着。
target-role	Started	集群确保该资源应该处于什么状态 Stopped: 强迫资源停止 Started：运行 Slave：备模式 Master：主模式
is-managed	true	资源是否允许 clusterware 停止与启动
maintenance	false	资源是否在管理状态，针对单个资源 true false
resource-stickiness	1 clone资源 0 其他资源	资源保留在当前运行节点的分数
requires	对fence 资源，默认值为quorum 如果unfencing 处于激活状态，默认值为unfencing 如果stonith-enabled 是true，则是fencing 其他则是quorum	资源能运行的必要条件 nothing 始终能运行 quorum 需要获得quorum 才能运行资源 fencing：大部分节点活着，其他失败或unknow节点被fenced unfencing：大部分节点活着，其他节点都被fence 掉。
migration-threshold	INFINITY	资源在一个节点失败多少次后迁移到另一个节点，0表示禁止迁移。
failure-timeout	0	节点失败次数失效， 0表示禁用该功能。
multiple-active	stop_start	当集群发现资源在多个节点活着，采取的动作 block: 标记该资源托管 stop_only：停掉所有资源 stop_start：停掉所有资源，然后在一个节点启动。
allow-migrate	ocf： pacemaker:remote资源是true，其他是false	允许资源或者迁移
container -attribute-target		跟bundle resource相关
remote-node		Pacemaker remote guest node的名字
remote-port	3121	Pacemaker remote guest node port
remote-addr	value of remote-node	配置remote node IP地址
remote -connect-timeout	60s	remote node 连接超时

为了自动清理资源失败的failcount，可以设置资源的Failure-timeout为一个特定的时间：5min,具体见资源配置章节。

4.2.3.3.5. 资源配置 ¶

目前仅以分库方案来看，需要用的资源有fence，FileSystem，Stoarge lock，VIP，KingbaesES，PING，故本章专门介绍这些资源的配置，其实pacemaker还支持很多其他资源。

1）. fence

VMWare ESXi环境

primitive esxi_fence stonith:fence_vmware_soap \
params ipaddr=192.168.4.5 login=root passwd="Kingbase@99"
pcmk_host_check=none ssl=1 ssl_insecure=1 \
op monitor interval=60s \
meta failure-timeout=5min

表 4.2.23 VMWare ESXi环境资源配置 ¶
参数名称	默认值	说明
stonith: fence_vmware_soap	""	配置fence agent类型
ipaddr	""	VMWare ESXi IP地址
login、passwd	""、""	登录用户名、密码
pcmk_host_check	如果配置了pcmk_host_list或者pcmk_host_map，那么此参数的默认值是 static_list。如果以上两项都没配置，1） fence设备支持list操作，那么默认值为dynamic_list； 2）fence设置支持status操作，不支持 list操作，那么默认值为status。以上条件均不满足，默认值为none。	若配置none，表示 fenceagent可以 fence全部节点。
ssl、ssl_insecure	""、""	此agent 需要的参数，使用ssl 连接但不验证证书。
其他	""	默认fence action 是reboot，60s超时，过程中会重试2次。

IPMI环境

primitive fence_node1_ipmi stonith:fence_ipmilan \
params ipaddr=192.168.2.100 login=Administrator passwd="Admin@9000"
pcmk_host_list=node1 lanplus=true
ipmitool_path=/opt/KingbaseHA/ipmi_tool/bin/ipmitool \
op monitor interval=60s \
meta failure-timeout=5min

表 4.2.24 IPMI环境资源配置 ¶
参数名称	默认值	说明
stonith:fence_ipmilan	""	表示fence agent类型
ipaddr	""	此IPMI设备IP地址
login、passwd	""、""	登录用户名、密码
pcmk_host_list	""	此IPMI设备控制的节点uname列表由于IPMI 设备一般为各节点独占，因此这里一般仅为一个uname。多节点集群，一般需要配置多个 fence_ipmilan资源，分别支持各节点的fence。
lanplus	0	此agent 需要的参数，使用IPMI LAN(RMCP+)协议，如服务器支持IPMI LAN(RMCP)协议，也可不配置此参数。
ipmitool_path	"/usr/bin/ipmitool"	IPMI客户端二进制ipmitool 路径，如不配置，则会在环境变量中查找。
其他		默认fence action 是reboot，60s超时，过程中会重试2次。

2）. File System & Storage lock

FileSystem

File SYSTEM资源是一种pacemaker支持的OCF资源，其资源agent脚本位于$OCF_ROOT/resource.d/heartbeat/Filesystem,，主要用于管控文件系统资源，自动将文件系统挂载指定的目录，该脚本提供如下参数：

表 4.2.25 FileSystem脚本参数 ¶
参数名称	默认值	说明
device	""	块设备路径，mount的-U -L指定的设备，或者是 nfsmount的源路劲。
directory	""	挂载点，文件系统挂载点路径。
fstype	""	文件系统类型
options	""	指定mount的-o属性
statusfile_prefix	.Filesystem_status/	监控状态文件存放位置，一般按默认处理。
run_fsck	auto	是否执行fsck，auto 表示由fstype决定，force 表示强行执行，no 表示从不执行，该命令用来修复损坏的文件系统，一般按默认设置。
fast_stop	yes	期望在没有用户操作时，文件系统快速停掉，如果不能控制文件系统的用户，设置成no，一般按默认设置。
Force_clones	false	一般来说，使用 clone手段建立本地文件系统是被禁止的，开启该参数，将会以clone手段mount一个文件系统，一般按默认设置。
force_unmount	true	值为true 表示在umount的时候，kill掉正在访问mount 的路径的进程；safe，以一种安全的手段kill掉正在访问mount路径的进程，该安全手段避免在发现进程时导致block状态，貌似针对nfs 有效；false 表示不kill掉正在访问的进程，一般建议用默认值。

另外该脚本还支持在监控时，进行深度操作，即OCF_CHECK_LEVEL值的设置，目前支持两个值：

20：往磁盘中可读可写，只有可读可写，文件系统才算正常

10：往磁盘中可读，只要可读，文件系统就算正常。

配置实例：将/dev/sdc的ext4文件系统挂载到/sharedata/data1目录下，需要确保/sharedata/data1目录优先存在。

由于在linux中/dev/sdx是由内核加载硬盘顺序决定的，存在着不确定性，故建议使用UUID挂载磁盘。

使用如下命令查看/dev/sdc 的uuid

blkid /dev/sdc
/dev/sdc: UUID="c2db7022-444f-4cbe-b452-0301c2387ffc" TYPE="ext4"

crm 配置资源

crm configure primitive FILESYSTEM1 ocf:heartbeat:Filesystem \
params device="-U c2db7022-444f-4cbe-b452-0301c2387ffc"
directory="/sharedata/data1" fstype="ext4" \
op start interval="0" timeout="60" \
op stop interval="0" timeout="60" \
op monitor interval="30s" timeout="60" OCF_CHECK_LEVEL="20" \
meta failure-timeout=5min

Storage lock

Storage lock是一种ocf资源，其agent脚本为sg_persist，位于$OCF_ROOT/resource.d/heartbeat/sg_persist目录下，该资源是为保护共享磁盘只被一个node访问。

该脚本提供的参数如下：

表 4.2.26 Storage lock参数 ¶
参数名称	默认值	意义
binary	sg_persist	管理资源的二进制程序，按默认值。
devs	""	管理的磁盘设备
required_devs_nof	1	管理磁盘的最小数目，按默认值。
reservation_type	1	配置reservation type ，保护模式使用独占模式:3。
master_score_base	0	配置master基础分数，设置越高，该节点越容易成为master，一般按默认值。
master_score_dev_factor	100	对 master_score计算的device 因子，一般按默认值。
master_score_delay	30	主备减少或增加其master_score 之前的延时时间，以s为单位，一般按默认处理。

配置实例如下，实现在mount文件系统前先独占存储的LUN防止双挂。

primitive sg sg_persist \
params devs="/dev/sdc" reservation_type=3 \
op monitor interval=30 timeout=60 \
meta failure-timeout=5min
ms disk_reserve sg \
meta master-max=1 notify=true target-role=Master
order storage-order Mandatory: disk_reserve:promote FILESYSTEM1:start
colocation storage-colocation inf: DB1_GROUP disk_reserve:Master

3）. VIP

VIP是一种ocf类型的资源，其代理脚本在$OCF_ROOT/resource.d/heartbeat/IPaddr2，该资源能提供虚拟IP地址服务。Agent提供的参数如下：

表 4.2.27 VIP参数 ¶
参数名称	默认值	意义
ip	""	IPv4 或 IPv6的地址
nic	""	IP地址绑定的接口名称
cidr_netmask	""	CIDR netmask，如24
broadcast	""	广播地址，一般按默认。
iflabel	""	Interfacelabel，该label会加到接口名称的后面，一般按默认。
lvs_support	false	针对IPv4有效，是否支持 LVSDirect Routing配置，当该IP地址down掉是，将其移送到loopback 接口上,一般按默认。
lvs_ipv6_addrlabel	false	开启IPv6的LVS Direct Routing配置
lvs_ipv6_addrlabel_value	99	启动IPv6 address label
clusterip_hash	" sourceip-sourceport"	配置cluster IP的哈希算法
mac	""	IP的MaC地址，若为空，将会自动选择。
unique_clone_address	False	是否clone一个address
arp_interval	200	ARP packet interval in ms
arp_count	5	ARP 包的个数
arp_count_refresh	0	配置monitoring 节点发送ARP包的个数
arp_bg	true	是否以后台进程发送ARP包
arp_sender	send_arp	发送ARP包方式：send_arp，使用 heartbeat自带的send_arp 程序；ipoibarping infiniband 接口的默认方式；iptuils_arping 使用iputils 包的方式；libnet_arping 使用libnet方式。
send_arp_opts	""	配置arp_sender 程序的options
flush_routes	"false"	Stop时候是否刷路由表
run_arping	false	是否在IPv4 collision detection check中使用arping
noprefixroute	"false"	使用noprefixroute 标识
preferred_lft	"forever"	针对 IPv6，设置其lifetime
network_namespace	""	指定network namespace

配置实例如下：

crm configure primitive FIP1 ocf:heartbeat:IPaddr2 \
params ip="192.168.4.135" cidr_netmask="32" nic="bond0" \
arp_sender="iputils_arping" \
op monitor interval="30s" timeout="60s" \
op start interval="0" timeout="60s" \
op stop interval="0" timeout="60s" \
meta failure-timeout=5min

4）. KingbaseES

该资源是针对KingbaseES，agent脚本为$OCF_ROO/resource.d/kingbase/kingbase，该脚本提供参数如下：

表 4.2.28 kingbase参数 ¶
参数名称	默认值	意义
sys_ctl	/opt/Kingbase/ES/V8/Server/bin/sys_ctl	指定sys_ctl命令位置，用于控制数据库启停。
ksql	/opt/Kingbase/ES/V8/Server/bin/ksql	Ksql的位置，用来判断 KingbaseES服务是否安装。
sys_isready	/opt/Kingbase/ES/V8/Server/bin/sys_isready	指定sys_isrady位置， e用于monitor。
kb_data	/opt/Kingbase/ES/V8/data	指定KingbaseES的data 目录位置
kb_dba	kingbase	指定KingbaesES的OS属主
kb_user	system	指定监控连接的数据库用户名
kb_host	"localhost"	指定KingbaseES监听的IP地址,0.0.0.0表示监听本机上所有IP地址。
kb_port	54321	指定 KingbaseES监听的端口
kb_libs	/opt/Kingbase/ES/V8/Server/lib	指定KingbaseES的lib目录
start_opt	""	使用sys_ctl 启动时的参数，一般指-o 。
ctl_opt	""	配置sys_ctl的参数，一般指-w或-W类。
config	kb_data/kingbase.conf	指定kingbase.conf位置
kb_db	template1	监控连接的database 名称
logfile	/dev/null	指定日志的位置
socketdir	""	指定unix_socket的位置，在kingbase.conf中设置了unix_socket_directories ，则需要指定该值。
stop_escalate	90	在使用-m immediate停止之前，需要等待使用-m fast停止的超时时间，单位为：秒。
check_wal_receiver	"false"	是否监控wal_receive 进程
monitor_times	10	在monitor阶段，执行sys_isready 命令的最大次数。
monitor_interval	1	在monitor阶段，上一次sys_isready执行失败后，间隔多久进行下一次执行，单位为：秒。

实例配置：

crm configure primitive DB2 ocf:kingbase:kingbase \
params sys_ctl="/home/kingbase/V8/Server/bin/sys_ctl" \
ksql="/home/kingbase/V8/Server/bin/ksql" \
sys_isready="/home/kingbase/V8/Server/bin/sys_isready" \
kb_data="/sharedata/data2/data" \
kb_dba="kingbase" kb_host="0.0.0.0" \
kb_user="system" \
kb_port="36322" \
kb_libs="/home/kingbase/V8/Server/lib" \
kb_db="template1" \
logfile="/home/kingbase/V8/Server/log/kingbase2.log" \
op start interval="0" timeout="120" \
op stop interval="0" timeout="120" \
op monitor interval="9s" timeout="30" \
meta failure-timeout=5min

5）. PING

该资源提供PING服务，一般针对服务器的连通性，属于OCF资源类，其agent位于$OCF_ROOT/resource.d/pacemaker/ping,其提供的参数如下：

表 4.2.29 PING参数 ¶
参数名称	默认值	意义
pidfile	"{HA_VARRUN%%/}/ping-{HA_VARRUN%%/}/ping-{OCF_RESOURCE_INSTANCE}"	PID file
dampen	5s	等待dampening 发生改变的时间
name	pingd	配置attributes name，可以被constraint使用。
multiplier	1	连接的ping节点加权因素
host_list	""	配置ping的目标地址，可以有多个，以空格隔开。
attempts	3	配置ping重试次数
timeout	2	超时设置，单位s。
options	""	配置ping的options
failure_score	0	失败的分数，当得分小于该分数是，认为资源失败。
failure_action	""	设置该值，在ping失败时调用。
failure_retries	1	失败尝试次数
failure_retry_interval	1	重新尝试的间隔时间，单位:s 。
use_fping	1	当fping可用时，使用fping代替ping.
debug	false	是否开启每个call的详细日志

配置实例如下：

crm configure primitive PINGD ocf:pacemaker:ping \
params host_list="192.168.4.1" multiplier="100" name="ping-in" \
failure_score="100" failure_action=”reboot”failure_retries=3 \
op monitor interval="2" timeout="60" \
op start interval="0" timeout="60" \
op stop interval="0" timeout="60" \
meta failure-timeout=5min

6）. 时间同步

clusterware本身不受系统时间同步与否的影响，节点间的时间同步会影响应用的时间戳记录和发生问题时对log的排查效率。配置方式参见操作系统配置一节。为了防止时间倒退对数据库和业务造成的影响，保持集群中的单一NTP服务器。

4.2.3.3.6. 资源约束配置 ¶

Pacemaker一般可以配置资源的约束，目前来说，比较流行的有location约束，order约束，colocation约束等。

Location 约束配置资源偏好在哪个节点启动；

Order 约束配置各个资源启动的先后顺序；

Colocation 约束配置资源的结合性。

每个资源约束有个分数，pacemaker会根据分数来进行操作，pacemaker会计算每个资源和节点的分数，一般来说，资源在某个节点的分数为负数，则该节点不允许运行该资源，而pacemaker会选择在资源得分最高的节点上运行该资源。

Location约束有如下属性：

表 4.2.30 Location约束属性 ¶
属性名称	默认值	意义
id		全局唯一名称
rsc		约束的资源名称，和rsc-pattern必须提供一个。
rsc-pattern		POSIX类的正则表达式，模糊匹配约束资源的名称，和rsc必须提供一个。
node		约束指定的节点名称
score		该约束的分数
resource-discovery	always	是否检测该资源已经运行，有如下值： always 总是检测资源在各个节点是否运行 never 从不检测 exclusive 总是检测资源在本节点是否运行，不管其他节点。

配置实例如下：

如下实例配置FIP1 在 node1上运行的分数为1000

crm configure location FIP1-on-node1 FIP1 1000: node1

Order约束能够配置资源启动的顺序，资源不一定在一个节点上启动，其主要有如下属性

表 4.2.31 Order约束属性 ¶
属性名称	默认值	意义
id		一个约束的唯一名称
firist		Then资源依赖资源的名称
then		依赖资源名称
first-action	start	配置firsit资源优先的操作，合理值有：start start ，stop，promote， demote。
then-action	first-action	配置first资源的 first-action完成后， then资源的操作，合理值有：start，stop， promote，demote。
kind	mandatory	约束具体实现的方式： - mandatory 只有first-action 成功执行后，then-action 才会执行，硬依赖 - optional：在同一个操作事务中维持该约束 - serialize 确保涉及的操作，从不并行运行， first-actin和then-actin 可以以不同的顺序运行，但一定要一个完成后，另一个才能完成。
symmetrical	TRUE for mandatory and optional kinds. FALSE for serialize kind	如果为true，那么相反操作适用相反的顺序，如B start 在A start之后，那么B stop 在A stop 之前。

配置实例如下：

CLONE-PINED资源必须在DB1_GROUP资源启动之前启动，而CLONE-PINGD资源关闭需在DB2_GROUP停止后。

crm configure order cluster-order1 CLONE-PINGD DB1_GROUP

Colocation 约束能够配置资源的结合性，其属性如下：

表 4.2.32 Colocation约束属性 ¶
属性名称	默认值	意义
id		该约束的唯一名称
rsc		需要与with-rsc放在一块的资源名称
with-rsc		配置colocatoin约束的目标资源名称，一般来说，clusterware会优先决定那个节点运行该资源，然后决定rsc资源放在哪运行。
node-attribute	#uname	运行rsc和with-rsc资源的该值必须一致
score		该约束的分数，+INFINITY表示两个资源永远在一块运行，-INFINITY表示两个资源永远不再一块运行。

配置实例：

crm configure colocation cluster-colo1 inf: DB1_GROUP CLONE-PINGD

4.2.3.3.7. 资源迁移分数配置 ¶

Pacemaker可以设置资源迁移的分数，通过合理设置资源保留当前节点运行的分数，能够达到高可用与负载均衡的平衡点。

如果考虑高可用性，即重启节点，不对资源产生迁移，需确保location约束的分数+该分数都大于最大的location得到的分数，如果考虑性能，即资源负载问题，那么需要将该值设置的越小越好

配置实例，将资源迁移分数配置为500。

crm configure rsc_defaults resource-stickiness=500

4.2.3.3.8. GROUP资源与CLONE资源 ¶

1）. Group资源

通常来说，集群可能存在一系列资源，这些资源需要运行在一起，启动顺序有严格要求，停止有相反的顺序，当然可以通过location，order，colocation约束能达到该要求，但配置起来较麻烦，为了简化配置，pacemaker提供group资源的概念。

表 4.2.33 Group资源的属性 ¶
属性名称	默认值	意义
id		唯一的组名称

配置实例：

将FIP1，FILESYSTEM1 DB1三个资源作为一个组资源:

crm configure group DB1_GROUP FIP1 FILESYSTEM1 DB1

上述组中的资源有如下行为特性：

coLocation 约束，FIP1 FILESYSTEM1 DB1 需要在一块运行;
Order 约束：启动顺序：FIP1->FILESYSTEM1->DB1, 停止顺序：DB1->FILESYSTTEM1->FIP1;
FIP1的启动情况，影响FILESYTEM1和DB1，同理FILESYTEM1的启动情况，影响DB1，意思是排在前面的服务没有运行，后面的服务永远不会运行，而排在后面的服务不会对排在前面的服务造成影响;
对资源迁移参数resource-stickiness的影响，如果该值为100，那么如果组资源有5个活动资源，那么该组资源留在本节点的分数就是500。

2）. Clone资源

Clone资源是在同一时刻存在多个副本运行，可以让你在每个节点都运行该资源，可以clone一个primitive（普通的资源）和一个group资源。

Clone资源分为anonymous 和globally unique，anonymous比较简单，每个节点运行同样的一份，而globally unique每个节点运行有其特殊性。

表 4.2.34 clone资源的属性 ¶
属性名称	默认值	意义
id		唯一的名称

配置实例如下：

将PINGD资源打造成clone资源

crm configure clone CLONE-PINGD PINGD

4.2.3.3.9. 两节点双库推荐配置 ¶

1）. 手动配置

使用Clusterware自带的crm工具，手工配置两节点双库。

添加fence资源

1.1 支持VMWARE ESXi环境的配置，参数ipaddr、login、passwd取值根据需要调整,需要特别注意的是各个机器的主机名要与VMWARE ESXi上的名称一致。

crm configure primitive esxi_fence stonith:fence_vmware_soap \
params ipaddr=192.168.4.5 login=root passwd="Kingbase@99"
pcmk_host_check=none ssl=1 ssl_insecure=1 \
op monitor interval=60s \
meta failure-timeout=5min

1.2 支持IPMI环境的配置，参数ipaddr、login、passwd取值根据需要调整。需要注意的是，由于IPMI设备一般为各节点独占，因此需要配置两个fence资源，分别支持node1和node2的fence。

crm configure primitive fence_node1_ipmi stonith:fence_ipmilan \
params ipaddr=192.168.2.100 login=Administrator passwd="Admin@9000"
pcmk_host_list=node1 lanplus=true
ipmitool_path=/opt/KingbaseHA/ipmi_tool/bin/ipmitool \
op monitor interval=60s \
meta failure-timeout=5min

crm configure primitive fence_node2_ipmi stonith:fence_ipmilan \
params ipaddr=192.168.2.101 login=Administrator passwd="Admin@9000"
pcmk_host_list=node2 lanplus=true
ipmitool_path=/opt/KingbaseHA/ipmi_tool/bin/ipmitool \
op monitor interval=60s \
meta failure-timeout=5min

执行如下命令，对fence_node1_ipmi和fence_node2_ipm添加location约束。为了保证fence_node1_ipmi资源尽量不在节点node1，fence_node2_ipmi资源尽量不在节点node2，从而减少fence自己的概率，又由于资源在各个节点的默认分数为0，因此需要保证fence_node1_ipmi资源在node2的分数、fence_node2_ipmi在node1的分数均大于rsc_defaults resource-stickiness的分数。

crm configure location fence_node1_ipmi-on-node2 fence_node1_ipmi 1000: node2
crm configure location fence_node2_ipmi-on-node1 fence_node2_ipmi 1000: node1

执行如下命令，添加FIP1资源,cidr_netmask与原有接口的ip地址的netmask保持一致，集群中各节点都具有此同名网卡接口，可以用ip addr命令查看。

crm configure primitive FIP1 ocf:heartbeat:IPaddr2 \
params ip="192.168.4.135" cidr_netmask="24" nic="bond0" \
arp_sender="iputils_arping" \
op monitor interval="30s" timeout="60s" \
op start interval="0" timeout="60s" \
op stop interval="0" timeout="60s" \
meta failure-timeout=5min

执行如下命令，添加FIP2资源，cidr_netmask与接口原有的ip地址的netmask保持一致，集群中各节点都具有此同名网卡接口，可以用ip addr命令查看。

crm configure primitive FIP2 ocf:heartbeat:IPaddr2 \
params ip="192.168.4.136" cidr_netmask="24" nic="bond0" \
arp_sender="iputils_arping" \
op monitor interval="30s" timeout="60s" \
op start interval="0" timeout="60s" \
op stop interval="0" timeout="60s" \
meta failure-timeout=5min

执行如下命令，添加FILESYSTEM1资源，需确保每个节点/sharedata/data1目录存在，sharedata属主是root，在mount后将data1属主改成数据库用户，c2db7022-444f-4cbe-b452-0301c2387ffc为磁盘的uuid，可以用blkid去查。

crm configure primitive FILESYSTEM1 ocf:heartbeat:Filesystem \
params device=" U c2db7022-444f-4cbe-b452-0301c2387ffc"
directory="/sharedata/data1" fstype="ext4" \
op start interval="0" timeout="60" \
op stop interval="0" timeout="60" \
op monitor interval="30s" timeout="60" OCF_CHECK_LEVEL="20" \
meta failure-timeout=5min

执行如下命令，添加防止FILESYSTEM1双挂服务。

crm configure
primitive SG1 ocf:heartbeat:sg_persist \
params devs="/dev/sdc" reservation_type=3 \
op monitor interval=30 timeout=60 \
meta failure-timeout=5min
ms disk_reserve1 SG1 \
meta master-max=1 notify=true target-role=Master
order storage-order Mandatory: disk_reserve1:promote FILESYSTEM1:start
colocation storage-colocation inf: DB1_GROUP disk_reserve1:Master

执行如下命令，添加FILESYSTEM2，需确保每个节点/sharedata/data2目录存在，sharedata属主是root，在mount后将data1属主改成数据库用户，xxxuid 为另一磁盘的uuid，可以用blkid命令去查。

crm configure primitive FILESYSTEM2 ocf:heartbeat:Filesystem \
params device="-U xxxxuid" directory="/sharedata/data2" fstype="ext4" \
op start interval="0" timeout="60" \
op stop interval="0" timeout="60" \
op monitor interval="30s" timeout="60" OCF_CHECK_LEVEL="20" \
meta failure-timeout=5min

执行如下命令，添加防止FILESYSTEM2双挂服务。

crm configure
primitive SG2 ocf:heartbeat:sg_persist \
params devs="/dev/sdd" reservation_type=3 \
op monitor interval=30 timeout=60 \
meta failure-timeout=5min
ms disk_reserve2 SG2 \
meta master-max=1 notify=true target-role=Master
order storage-order Mandatory: disk_reserve2:promote FILESYSTEM1:start
colocation storage-colocation inf: DB2_GROUP disk_reserve2:Master

执行如下命令，添加PINGD资源，ping网关，测试对应用的连通性，目前来说,由于发生网络分区的时候，当分区节点数一致时，我们总是选择最小节点号id所在分区当选，然而有时候，选出来的集群对外服务不可用，显然不合理，目前为了规避这种情况，将ping资源添加failure_action和failure_retries参数，让不能对外提供服务的节点重启，待后面正式根据heuristics测试结果来选主的时候，再去掉。
```
crm configure primitive PINGD ocf:pacemaker:ping \
params host_list="192.168.4.1" multiplier="100" name="ping-in" \
failure_score="100" failure_action=”reboot”failure_retries=3 \
op monitor interval="2" timeout="90" \
op start interval="0" timeout="90" \
op stop interval="0" timeout="90" \
meta failure-timeout=5min
```
执行如下命令，将PIND资源，变成clone资源。
```
crm configure clone CLONE-PINGD PINGD
```

执行如下命令，添加一个分库资源，注意/sharedata/data1/data目录下的kingbase.conf需要手动配置port=36321，需要手动创建/home/kingbase/V8/Server/log目录。

crm configure primitive DB1 ocf:kingbase:kingbase \
params sys_ctl="/home/kingbase/V8/Server/bin/sys_ctl" \
ksql="/home/kingbase/V8/Server/bin/ksql" \
sys_isready="/home/kingbase/V8/Server/bin/sys_isready" \
kb_data="/sharedata/data1/data" \
kb_dba="kingbase" kb_host="0.0.0.0" \
kb_port="36321" \
kb_user="system" \
kb_libs="/home/kingbase/V8/Server/lib" \
kb_db="template1" \
logfile="/home/kingbase/V8/Server/log/kingbase1.log" \
op start interval="0" timeout="120" \
op stop interval="0" timeout="120" \
op monitor interval="9s" timeout="30" \
meta failure-timeout=5min

执行如下命令，添加另一个分库资源，需要修改相应的/sharedata/data2/data/kingbase.conf中的port为36322。

crm configure primitive DB2 ocf:kingbase:kingbase \
params sys_ctl="/home/kingbase/V8/Server/bin/sys_ctl" \
ksql="/home/kingbase/V8/Server/bin/ksql" \
sys_isready="/home/kingbase/V8/Server/bin/sys_isready" \
kb_data="/sharedata/data2/data" \
kb_dba="kingbase" kb_host="0.0.0.0" \
kb_user="system" \
kb_port="36322" \
kb_libs="/home/kingbase/V8/Server/lib" \
kb_db="template1" \
logfile="/home/kingbase/V8/Server/log/kingbase2.log" \
op start interval="0" timeout="120" \
op stop interval="0" timeout="120" \
op monitor interval="9s" timeout="30" \
meta failure-timeout=5min

执行如下命令，创建DB1组资源。

crm configure group DB1_GROUP FIP1 FILESYSTEM1 DB1

执行如下命令，创建DB2组资源。

crm configure group DB2_GROUP FIP2 FILESYSTEM2 DB2

添加DB1 location约束,多个节点，最好分数不一样。

crm configure location DB1-on-node1 DB1_GROUP 1000: node1
crm configure location DB1-on-node2 DB1_GROUP 800: node2

添加DB2 location约束,为了达到负载均衡，DB2资源的在各个节点的分数要和VIP2正好相反。

crm configure location DB2-on-node1 DB2_GROUP 800: node1
crm configure location DB2-on-node2 DB2_GROUP 1000: node2

执行如下命令，创建资源约束。

crm configure colocation cluster-colo1 inf: DB1_GROUP CLONE-PINGD
crm configure colocation cluster-colo2 inf: DB2_GROUP CLONE-PINGD

设置资源保留在原节点的分数，如果考虑高可用性，即重启节点，不对资源产生迁移，需确保location约束的分数 + 该分数都大于最大的location得到的分数，如果考虑性能，即资源负载问题，那么需要将该值设置的越小越好。
```
crm configure rsc_defaults resource-stickiness=500
```

2）. 配置文件

配置见crm_2nodes.txt

4.2.3.3.10. 配置调整 ¶

根据现场环境，调整上述环境参数的值，主要涉及具体环境。
根据现场环境，调整各个资源的timeout参数。

当一台物理宿主机上搭建过多的虚拟机时，会导致虚拟机各方面的性能下降明显。

建议调高FileSystem的监控超时时间，也就是monitor操作的tiemout时间设置大一些，也可调整磁盘调度。

建议调高数据库的监测次数，也就是monitor_times设置大一些。

建议增加环境变量HA_stonith_rhcs_get_metadata_timeout。这个环境变量是控制获取fence资源metadata的超时时间。开机后，执行time fence_vmware_soap -o metadata，如果执行时间超过5s，那么建议将环境变量HA_stonith_rhcs_get_metadata_timeout设置为上述执行时间的两倍。
根据高可用性，调整资源迁移分数，来达到高可用与负载均衡的平衡。

4.3. 故障处理行为 ¶

在使用以上配置时的故障处理行为如下，故障的恢复请参考从计划外停机中恢复一节的内容。

4.3.1. 网络类故障 ¶

表 4.3.3 网络类故障 ¶
故障类型	故障处理行为			业务影响
网络类故障	数据库端口占用		故障节点节点会尝试重启数据库资源，达到 timeout（120s）后转移资源至另外节点。	1.数据库端口被占用后业务中断 2.资源转移成功后业务恢复正常
	网络中断		1. 对于节点整个网络中断（不包含ipmi），节点会在检测网络中断30s后重启服务器，重启后该节点资源会转移至可用节点； 2. 对于心跳线网络中断，此时主节点会 fence备机节点并转移资源至可用节点。	1.网络中断后业务中断 2.资源转移成功后业务恢复正常
	网络丢包	10%	服务正常，未触发资源故障。	业务正常，有一定延迟。
	网络丢包	>10%	服务正常，未触发资源故障。	业务延迟较大，出现超时报错。
	网络延迟	0.5s-5s	服务正常，未触发资源故障。	业务延迟较大，出现超时报错。
	网络单次分区	1:1	1.选取qdevice的master所在集群为可用节点 (2节点集群，id小的节点会升级为master)。 2.Fence其他节点 3.转移资源至可用节点	1.节点被fence后数据库业务中断 2.数据库资源转移成功后恢复正常
		1:2	1.节点数量为2的集群获得quorum 节点数量为1的节点失去quorum 2.Fence失去quorum节点 3.转移资源至可用节点	1.被fence节点数据库业务中断 2.数据库资源转移成功后恢复正常
		1:1:1	1.网络分区后，节点id小的节点获得quorum 2.获得quorum的节点fence其它节点 3.转移资源到获得quorum的节点	1.被fence节点数据库业务中断 2.数据库资源转移成功后恢复正常
	网关失联		节点会在检测网络中断30s后重启服务器，重启后该节点资源会转移至可用节点。	1.资源开始转移后数据库业务中断 2.数据库资源转移成功后恢复正常

4.3.2. 状态变化类故障 ¶

注意

目前资源的stop操作on-fail设置是fence，如果进程的hang导致资源的stop无法完成会导致节点被fence，即使已经没有其他可用节点。

表 4.3.4 状态变化类故障 ¶
故障类型	故障处理行为			业务影响
状态变化类故障	关机		1.Fence故障节点（关机后的节点会因fence 操作重启） 2.转移故障节点资源到可用节点	1.数据库节点关机后业务中断 2.数据库资源转移成功后恢复正常
	掉电（IPMI电源保持）		1.Fence故障节点 2.转移故障节点资源到可用节点 3.若节点长期掉电或因硬件损坏导致无法启动，会因fence失败导致资源无法正确转移。	1.数据库节点关机后业务中断 2.数据库资源转移成功后恢复正常
	重启		1.Fence故障节点（reboot的节点可能会在 reboot过程中再次被fence触发reboot） 2.转移故障节点资源到可用节点	1.数据库节点关机后业务中断 2.数据库资源转移成功后恢复正常
	数据库意外关闭		pacemaker在检测到数据库down掉后自动重启数据库	1.数据库停止后业务中断 2.数据库重启成功后恢复正常
	进程异常终止	pacemaker （DC）	1.可用节点会当选为DC节点 2.Fence故障节点 3.转移故障节点资源到可用节点	1.数据库节点被fence后业务中断 2.数据库资源转移成功后恢复正常
		pacemaker （非DC）	1.Fence故障节点 2.转移故障节点资源到可用节点	1.数据库节点被fence后业务中断 2.数据库资源转移成功后恢复正常
		pacemaker-co ntrold	Pacemaker主进程会在检测到pacemaker-co ntrold意外退出后重新生成 pacemaker-controld进程	无影响
		pacemaker-b ased	1.Pacemaker主进程会在检测到pacemaker-b ased意外退出后重新生成 pacemaker-based进程 2.DC节点的pacemaker-based进程故障可能导致该节点被fence	无影响
		pacemaker-f enced	Pacemaker主进程会在检测到pacemaker-f enced意外退出后重新生成 pacemaker-fenced进程	无影响
		pacemaker-e xecd	Pacemaker主进程会在检测到pacemaker-e xecd意外退出后重新生成 pacemaker-execd进程	无影响
		pacemaker-a ttrd	Pacemaker主进程会在检测到pacemaker-a ttrd意外退出后重新生成 pacemaker-attrd进程	无影响
		pacemaker-s chedulerd	Pacemaker主进程会在检测到pacemaker-s chedulerd意外退出后重新生成 pacemaker-schedulerd进程	无影响
		corosync	1.Fence故障节点 2.转移故障节点资源到可用节点	1.故障节点数据库被fence后业务中断 2.数据库资源转移成功后恢复正常 3.恢复时长： fence成功时间+资源转移成功时间，总时间大于20s。
		corosync -qdevice (master)	1.slave节点的corosync-qdevice检测到主节点corosync-qdevice故障后升级自己为主节点 2.Fence故障节点 3.转移故障节点资源到可用节点	1.故障节点数据库被fence后业务中断 2.数据库资源转移成功后恢复正常 3.恢复时长：fence成功时间+资源转移成功时间，总时间大于3min。
状态变化类故障		corosync-qde vice(slave)	1.Fence故障节点 2.转移故障节点资源到可用节点	1.故障节点数据库被fence后业务中断 2.数据库资源转移成功后恢复正常 3.恢复时长：fence成功时间+资源转移成功时间，总时间大于3min。
		kingbase	pacemaker在检测到数据库进程故障后自动重启数据库	数据库进程故障后业务中断数据库重启成功后恢复正常恢复时长：10s内。
	进程 hang	pacemaker (DC)	1.hang住节点的crm_mon无法查看集群状态 2.资源保持当前状态不变 3.此时集群发生故障无法进行故障转移—集群失去高可用 4.恢复hang住的pacemaker后该节点资源会重启	1.Pacemaker进程hang住后业务可正常运行 2.hang住的pacemaker恢复后资源会重启
		pacemaker (非DC)	1.hang住节点的crm_mon无法查看集群状态 2.资源保持当前状态不变 3.此时集群发生故障无法进行故障转移—集群失去高可用	1.不影响，期间该节点会失去高可用。
		corosync	1.Fence故障节点 2.转移故障节点资源到可用节点	1.故障节点数据库被fence后业务中断 2.数据库资源转移成功后恢复正常
		corosync -qdevice (master)	1.slave节点的corosync-qdevice检测到主节点corosync-qdevice故障后升级自己为主节点 2.Fence故障节点 3.转移故障节点资源到可用节点	1.故障节点数据库被fence后业务中断 2.数据库资源转移成功后恢复正常
		corosync -qdevice (slave)	1.Fence故障节点 2.转移故障节点资源到可用节点	1.故障节点数据库被fence后业务中断 2.数据库资源转移成功后恢复正常
		kingbase	1.pacemaker在检测到数据库故障后尝试在故障节点停止数据库 2.停止超时后，将故障节点的fail-count-DBX 置为INFINITY。 3.Fence故障节点 4.转移故障节点资源到可用节点	1.数据库进程hang住后业务中断 2.数据库资源转移成功后恢复正常
	系统崩溃		1.Fence故障节点 2.转移故障节点资源到可用节点	1.数据库节点系统崩溃后业务中断 2.数据库资源转移成功后恢复正常
	系统时间跳变		1.集群状态正常，业务正常运行。 2.一段时间后ntpd自动正确同步时间。	无影响

4.3.3. 资源耗尽类故障 ¶

表 4.3.5 资源耗尽类故障 ¶
故障类型		故障处理行为	业务影响
资源耗尽类故障	磁盘满（数据盘）	资源状态未发生变化，各资源未发生故障。	1.数据库业务执行失败，日志报错could not write to log file: No space left on device 。 2.磁盘空间充足后，可自动恢复正常。
	磁盘IO高(数据盘)	1.资源状态未发生变化，各资源未发生故障。 2.可能导致文件系统资源故障重启	1.无影响 2.若文件系统资源故障重启，则在资源故障后到资源恢复前业务执行失败。
	投票盘IO高	1.资源状态未发生变化，各资源未发生故障。 2.可能导致文件系统资源故障重启	1.无影响 2.若文件系统资源故障重启，则在资源故障后到资源恢复前业务执行失败。
	内存使用率高	1.资源状态未发生变化，各资源未发生故障。 2.可能导致资源故障重启	1.无影响 2.若资源故障重启，则在资源故障后到资源恢复前业务执行失败。
	cpu利用率高	1.资源状态未发生变化，各资源未发生故障。 2.可能导致资源故障重启	1.无影响 2.若资源故障重启，则在资源故障后到资源恢复前业务执行失败。

4.4. 监控指标 ¶

表 4.4.2 监控指标 ¶
参数指标	取值范围	异常范围/级别	获取方式
Pacemaker进程状态	stopped /runing	stopped/错误	/etc/init.d/pacemaker status
Corosync进程状态	stopped/runing	stopped/错误	/etc/init.d/corosync status
Corosync-qdevice 进程状态	Stopped/running	stopped/错误	/etc/init.d/corosync-qdevice status
节点状态	offline, online,standby	offline, standby/错误	crm_mon -1 \| grep -E "offline \| standby \| Online"
资源状态	Failed,started ,starting	failed/错误	crm resouce show \| grep failed
查看集群是否有quorum	Yes/no	no/错误	corosync-quorumtool -s\| grep Quorate:
disk模式master_id	0 ——nnodes	0/错误	./corosync-qdevice-tool -sv -p /opt/KingbaseHA /corosync-qdevice/var/run /corosync-qdevice /corosync-qdevice.sock \| grep "master id" \| awk -F':' '{print $2}'
存储STATE	MOUNTED /UNMOUNTED	>0/错误	crm storage \| grep UNMOUNT \| wc -l
存储容量	0/1	>0/告警	crm storage \| grep -v -e "VOTEDISK\\|PATH" \| awk '{print ((4/(4/(4 + $5)) > 0.8)}' \| grep 1 \| wc -l

4.5. 从计划外停机中恢复 ¶

4.5.1. 实例故障、主机/网络故障但存储可用 ¶

在发生实例、主机、网络故障时，clusterware会自动将资源运行到正常的节点并重启故障或是在网络分区时被认为应离开集群的节点。

在修复故障后可以通过重启clusterware将节点加入集群，在推荐配置中没有设置资源的节点偏好，启动clusterware后需要手动移动资源到加入的节点。如果有设置资源的节点偏好，重新加入节点会造成资源的迁移导致服务短暂中断。

启动clusterware

/etc/init.d/corosync start
/etc/init.d/corosync-qdevice start
/etc/init.d/pacemaker start

移动资源到重加入的节点
1. 通过crm_mon确认资源当前运行的节点（假设节点名为节点2）
2. 移动资源（假设名称为资源1）从节点2到重加入的节点1
3. 通过crm_mon确认资源正确转移
4. 清理节点2上的资源移动规则

4.5.2. 存储故障/数据损坏的恢复 ¶

clusterware本身不提供存储支持或数据冗余，故障后clusterware需要从备份恢复配置。

4.5.3. 集群故障或站点故障的恢复 ¶

clusterware本身不提供跨站点或集群的冗余，故障后clusterware需要从备份恢复配置。

4.5.4. FENCE设备故障的恢复 ¶

FENCE设备是保障集群共享资源被正确操作的基础，集群中节点的FENCE设备损坏时该节点再发生其他故障将导致集群试图FENCE该节点而停止其他服务。

恢复方式：

手动处理故障
1. 手动通过电源开关关闭FENCE设备损坏的节点
2. 在正常节点上执行stonith_admin -C 故障节点
修复故障的IPMI设备
按照主机故障的恢复方式恢复节点

4.5.5. clusterware备份和恢复方式 ¶

备份
1. 成员管理：复制corosync.conf配置文件
2. 资源管理：crm configure save 备份文件
恢复
1. 恢复软件环境：重新配置系统参数，安装clusterware
2. 恢复配置：
  1. 成员管理：复制corosync.conf到配置文件位置
  2. 资源管理：crm configure load replace 备份文件

4.6. 计划内停机操作 ¶

补丁、升级

4.6.1. 资源补丁、升级 ¶

clusterware提供的资源支持使用在线替换的方式升级，支持范围见下表：

表 4.6.1 资源补丁、升级 ¶
资源	支持在线替换
Ping	是
Kingbase	是
Filesystem	是
Ipaddr2	是
Sg_persist	是
fence_vmware_soap	是

4.6.2. clusterware补丁、升级 ¶

clusterware组件的升级可使用以下几种方式：

表 4.6.2 clusterware补丁、升级 ¶
	脱管资源	滚动
版本限制	无	不支持跨版本升级或有通讯协议升级的情况，需要确认。
升级中服务可用性	服务可用，只有在升级过程中发生故障（包括计划内重启主机）时会造成服务中断。	升级中每个节点会停服务一次，两节点分库方案中会有服务的3次中断。
可用于故障演练	否	是

补丁和升级建议的方式：

在充分测试情况下（参见高可用概述的搭建测试验证环境一节），尽可能申请停机时间使用脱管资源方式升级。

4.6.2.1. 脱管资源方式 ¶

脱管全部资源

crm_attribute --name maintenance-mode --update true

在集群中每个节点执行
1. 停止clusterware
2. 完成变更
在集群中每个节点执行：
1. 启动clusterware
2. 验证配置确认没有错误和警告
通过crm_mon确认全部资源状态被正确识别
重新管控资源

4.6.2.2. 滚动方式 ¶

在集群中一个节点（假设节点名为节点1）执行：

设置节点为standby状态

crm_standby --node 节点1 -v on

通过crm_mon确认资源都正确转移到其他节点
停止clusterware

/etc/init.d/pacemaker stop
/etc/init.d/corosync-qdevice stop
/etc/init.d/corosync stop

完成变更
启动clusterware

/etc/init.d/corosync start
/etc/init.d/corosync-qdevice start
/etc/init.d/pacemaker start

验证配置确认没有错误和警告

crm_verify --live-check

清除节点standby状态

crm_standby --node 节点1 -v off

如果需要，移动资源到变更后的节点

通过crm_mon确认资源当前运行的节点（假设节点名为节点2）
移动资源（假设名称为资源1）从节点2到变更后的节点1

crm_resource -M 节点1 -r 资源1

通过crm_mon确认资源正确转移
清理节点2上的资源移动规则

crm_resource -U --node 节点2 -r 资源1

在剩余节点上重复执行1、2中的步骤

4.6.3. 系统或硬件补丁、升级 ¶

如果变更需要重启主机或是停止网络等影响资源运行的操作，选择滚动方式，否则选择脱管资源方式。操作方法见clusterware补丁、升级一节。

4.7. 配置变更 ¶

4.7.1. 资源配置 ¶

对资源参数的修改不会造成服务中断。
修改会影响资源运行位置的参数会造成资源迁移，导致服务短时间中断，需要申请停机时间。

4.7.2. 成员配置 ¶

不包括变更成员数量的配置变更。
修改需要重启clusterware，建议使用脱管资源方式变更配置。

4.7.3. 增加删除节点 ¶

增加删除节点需要同时修改成员配置和资源配置，对配置的更改请咨询产品服务人员。

你可能感兴趣的:(KingbaseES产品手册,数据库,服务器,网络,kingbase,金仓数据库)

Oracle数据库性能调优完整指南.zip 高杉峻
本文还有配套的精品资源，点击获取简介：Oracle数据库性能优化是企业和数据库专业人员必须掌握的关键技能。Oracle作为广泛使用的数据库管理系统，其性能直接影响业务效率。本文档深入探讨了性能优化的各个方面，包括SQL优化、索引管理、表和分区设计、内存调优、系统资源管理、并发控制、日志和归档策略、性能监控和诊断，以及数据库架构优化和版本升级。通过综合考虑业务场景和硬件环境，结合Oracle提供的工
34、Oracle数据库调优全攻略 tequila 精通Oracle Oracle数据库调优 STATSPACK
Oracle数据库调优全攻略1.调优目标与策略调优的目标是让数据库满足业务需求，即解决依赖系统的用户所发现的问题。管理者和终端用户更关心报表能否按时生成以及数据能否快速返回屏幕，而非数据库内部的精妙程度。因此，需要明确他们认为重要的方面，然后进行调优以实现目标。例如，对于OLTP系统性能不佳的情况，应专注于让数据快速返回屏幕，而非修复偶尔出现的批处理作业。调优时要关注能带来最大收益的领域，并知道何
小心点！生态环境检测市场GRG4.0复旦学院内部群张军不要入局，无法出金提现还要继续入金的圈套！大盛律道
近年来，股市波动不断，投资者们无不渴望找到稳健的投资途径。而一些境外不法分子趁机利用商小信复旦学院内部荐股群的手段，设下重重陷阱，致使投资者损失惨重。骗子冒充张军，打着“检测市场GRG4.0”“生态环境”“低成本高收益”“国家扶持项目”等幌子，很多人在不懂投资、不追问平台是否合法、一心只想赚钱的心态下，被不法分子张军（骗子假冒的）所利用，最终落入检测市场GRG4.0交易市场的陷阱。如果你能及时看到
基于卷积神经网络与小波变换的医学图像超分辨率算法复现神经网络15044 python 算法 cnn 算法人工智能图像处理开发语言神经网络深度学习
基于卷积神经网络与小波变换的医学图像超分辨率算法复现前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家，觉得好请收藏。点击跳转到网站。1.引言医学图像超分辨率技术在临床诊断和治疗规划中具有重要意义。高分辨率的医学图像能够提供更丰富的细节信息，帮助医生做出更准确的诊断。近年来，深度学习技术在图像超分辨率领域取得了显著进展。本文将复现一种结合卷积神经网络(CNN)、小波变
焦点团队网络初级第30期张瑞宾持续分享第139天2022.1.06（周四）张瑞宾
约练挑战（总第6次）次约练，咨询师第3次，来访者1次，观察员2次学习焦点以来，感觉自己越来越稳，和患者沟通方式上已经有了很大的区别，现在很多的是在关注正向和解决，而没有把自己一生的角度放得很高，让他自己当自己的主人，双专家模式。虽说现在自己还不是一个合格的咨询师，但是感觉已经有了很多成长，也有了一些变化。今天做了一次来访者给自己的感觉是现在比以前能打开很多了，放松，安全的氛围，关注人是第1位，即便
39、Oracle 数据库内存管理：SGA 与 PGA 配置指南 apple5 解读Oracle Oracle数据库 SGA配置 PGA配置
Oracle数据库内存管理：SGA与PGA配置指南1.手动配置SGA参数如果你想对系统全局区（SGA）的内存分配进行更多控制，可以从完全自动内存管理（AMM）切换到自动共享内存管理（ASMM）。启用ASMM很简单，只需将SGA_TARGET设置为所需的值。即使启用了ASMM，你仍然可以控制由SGA_TARGET控制的SGA组件的最小大小。此外，你还需要手动调整一些初始化参数。1.1理解自动共享内存
2023-08-03 yM_aad9
神经是一种社会资源！只要能和别的神经互动就行了！社会性的驯化离不开神经网络人与人之间的合作只能依赖感性理性心理生理事理物理跟蠢人谈情说爱免不了虚情假意它们最爱空头支票如果兑现不了那一定是别人欺骗了它！而不是自欺欺人的本能自欺欺人最容易受人欺骗最要命的是还持有了资料官有什么可怕？可怕的是贼呀！官可能互相约束贼只能互相伤害如果没有互相？那只有相护了！傻子坏人坏事见得少不知道什么叫坏处孬子好人好事见得少
sqlplus连接Oracle 11g 数据库 zone-- sqlplus oracle
sqlplus连接Oracle11g数据库安装如下Oracle11g安装教程//Anhighlightedblocksqlplus有几种登陆方式比如：sqlplus"/assysdba"--以操作系统权限认证的oraclesys管理员登陆sqlplus/nolog--不在cmd或者terminal当中暴露密码的登陆方式conn/assysdbaconnsys/passwordassysdbasql
Oracle 19C 后台主要进程的功能解析 zone-- 数据库 oracle dba
在Oracle数据库的运行机制中，后台进程是支撑数据库各项功能的“隐形引擎”。这些进程在实例启动时自动创建，负责完成数据读写、故障恢复、资源管理等核心任务。本文基于Oracle19c官方文档，对数据库常见后台进程进行系统梳理，帮助数据库管理员理解进程工作原理，为性能调优和故障诊断提供基础。后台进程的基础特性Oracle后台进程是指在V$PROCESS视图中存在且PNAME列非空的进程，它们独立于用
Oracle 数据泵导出表部分列的实现方案：从 12c 新特性到低版本兼容 zone-- oracle 数据库
在Oracle数据库日常运维中，经常会遇到“只导出表中部分列”的需求——例如某张表包含数十个字段，但业务仅需迁移其中3-5个核心字段的数据。传统的导出工具（如exp或expdp）虽能通过QUERY参数过滤行记录，却无法实现列的筛选。本文基于实践经验，详解不同Oracle版本下导出表部分列的解决方案，包括12c及以上版本的便捷方法和11g及以下版本的兼容方案。12c及以上版本：利用VIEWS_AS_
PostgreSQL 语法详解沐知全栈开发开发语言
PostgreSQL语法详解引言PostgreSQL是一款功能强大的开源对象关系型数据库管理系统（ORDBMS），广泛应用于各种规模的组织中。其丰富的功能和灵活性使得它成为了众多数据库开发者和运维人员的首选。本文将详细介绍PostgreSQL的语法，帮助读者快速掌握其基本操作。1.数据库连接在操作PostgreSQL之前，首先需要连接到数据库。以下是一个使用PostgreSQL客户端连接到本地数据
RxJava 全解析：从原理到 Android 实战 Monkey-旭 java rxjava 响应式编程 android
在Android开发中，异步任务处理是绕不开的核心场景——网络请求、数据库操作、文件读写等都需要在后台执行，而结果需回调到主线程更新UI。传统的“Handler+Thread”或AsyncTask不仅代码冗余，还容易陷入“回调地狱”（嵌套回调导致代码可读性差）。RxJava作为一款基于响应式编程思想的异步框架，通过“链式调用”和“操作符”完美解决了这些问题，成为Android开发者的必备工具。本文
2021-08-16 谭玲_069d
谭玲焦点解决网络初级20期中21，坚持原创分享第575天，2021年8月16日约练感受按照目标、资源，一小步的咨询思路进行，咨询结构完整。关于目标，来访者想要的目标是她刚来时提出来的那个目标吗？不一定！咨询师带着来访者不断去探寻，通过半个钟的探讨，探讨出来具体的可行的小目标。但后来似乎又绕走了，到最后快结束咨询时，来访者自己才清晰的提出了自己想要的是什么。关于一小步，可以试探来访者改变的意愿有多强
jxORM--编程指南 jxandrew jxWebUI 数据库 python jxWebUI jxORM ORM
jxORM是jxWebUI配套的数据库操作库，可以简化python程序员操作数据库。声明数据类定义数据类之前，先导入ORM修饰符：fromjxORMimportORM,DBDataType,ColType然后就可以用ORM修饰符来修饰一个类，从而定义一个数据类：@ORMclassUser:ID:DBDataType.Long=ColType.PrimaryKeyCreateTime:DBDataT
Oracle 数据库共享池与大池调优指南 zone-- 数据库 oracle
在Oracle数据库的内存管理中，共享池（SharedPool）和大池（LargePool）是SGA（系统全局区）中负责缓存与资源分配的核心组件。合理配置和调优这两个池，能显著提升数据库性能——尤其是在减少解析开销、降低锁竞争、优化内存利用率等方面。本文基于Oracle19c官方文档，系统梳理共享池与大池的调优思路、关键配置及实践方法。共享池：核心缓存与解析优化的关键共享池是SGA中用于缓存SQL
2021-10-26 弗莱斯曼
凡事预则立，不预则废。记忆力以及理解能力，需要不断的用事情去打磨，越磨越灵光，越刺激越好用。不是在总结，就是在总结的路上。闲言碎语跟进给湖北区域客户做实施同事的行程，客户原定25号开始给服务器上架，具体负责这块的区域实施负责人安排同事于27号上门服务。跟内部同事沟通NeonSAN软件是否具备升级条件的必要性，跟实施负责人约时间共同探讨这个事情，会议上由于研发侧负责人具体不了解前因后果，给的论断不具
camera驱动电源配置_Camera driver&V4L2驱动架构介绍
大约一年前写的东西，介绍性部分是当时在网络上找的内容，后面的分析部分是基于当时的项目，基于MavellPxa920,希望对初学者有点点的帮助吧。转载请注明出。1.Camera相关介绍1.1.手机Camera介绍手机的数码相机功能指的是手机通过内置数码相机进行拍摄静态图片或短片拍摄，作为手机的一项新的附加功能，手机的数码相机功能得到了迅速的发展。手机摄像头分为内置与外置，内置摄像头是指摄像头在手机内
注意：智联学社李天勤农业项目受害者集合！智联操盘群老李慈善捐款就是骗局！你识破了吗？墨守成法
注意：智联学社李天勤农业项目受害者集合！智联操盘群老李慈善捐款就是骗局！你识破了吗？：这些“智慧农业”“数字农业”投资陷阱主要表现在，一是捏造“新概念”诱骗股民上当，比如，打出“共享农业”的旗号；二体育彩票新幌子，有的以新建“农产品冷链物流”项目和“股权投资”等名义，承诺高额回报行骗；三是利用“互联网+农业”概念，通过电商、手机App等欺骗股民。若不幸你也遭遇到智联学社李天勤农业项目骗局，并且不能
远程连接之ssh的使用（日志监控）小朱撕码迹 ssh远程连接 linux ubuntu windows
ssh的简介ssh服务【SecureShell】：SSH为建立在应用层基础上的安全协议。SSH是较可靠，专为远程登录提供服务。解决的问题：对服务器的远程控制，远程操作。ssh服务是安全的、加密、基于S/C（服务端/客户端）的远程连接服务【运行的sshd进程会监听22号端口，提供远程登录的服务，服务的内容：远程操作服务器】OpenSSH是使用SSH协议远程登录的首选连接工具。它对所有流量进行加密，以
怒不可遏：智联学社李天勤农业项目投资骗局真相让人震惊不已!无法出金可处理! 反诈宣传中
怒不可遏：智联学社李天勤农业项目投资骗局真相让人震惊不已!无法出金可处理!！！随着互联网的普及，电视上和网络上有很多分析师，他们也是这个市场的一个群体。可能你也有疑惑，既然都能分析了，还做什么分析师啊，就在股市里赚大钱就是了，干嘛还抛头露面。数字经济蓬勃发展，各种线上平台如雨后春笋般涌现。然而，在这些看似繁荣的平台中，不乏一些黑平台，它们以欺诈手段骗取用户的财产，给人们的财产安全带来严重威胁！近期
尚玩助手开通升级团长怎么做？升级团长收益更高吗？有何规则门槛星火执行官
尚玩助手团长招募如何参与？揭秘其背后的优势与开通条件！今年的广告赚钱项目中，尚玩助手无疑是一颗璀璨的明星。其稳定的运营和丰厚的静态收益，赢得了众多用户的喜爱。若你拥有一定的人脉资源，成为尚玩助手的团长将是明智之选。团长的身份不仅能让你的收益水涨船高，更是对你能力的肯定。快来了解团长招募的具体条件和好处，开启你的日进斗金之旅吧！一、尚玩助手APP下载:我们先扫码下载尚玩助手，这边开通团长后续会有政策
Linux通过 SSH 使用 rsync 进行文件传输赛男丨木子丿小喵运维 linux ssh 运维
目录目的整体思路ssh建立连接A服务器上的操作输入ssh-keygen生成密钥对查看公钥B服务器上的操作设置公钥认证A服务器上的操作使用SSH登录进行测试同步数据知识拓展SSH（SecureShell）rsync（RemoteSync）目的使用SSH（SecureShell）建立两台Linux服务器之间的连接，并使用rsync（RemoteSync）来同步文件,假设A服务器想同步数据到B服务器整体
《妈妈朋友的儿子》2024韩剧全集完整未删减版夸克网盘百度云如何获取？妈妈朋友的儿子16集最新汇总及在线观看播放步骤全网优惠分享君
《妈妈朋友的儿子》是一部集喜剧与爱情元素于一身的韩剧，自2024年8月17日播出以来，便以其独特的剧情设定和演员们的精湛演技赢得了观众的广泛关注和喜爱。该剧由知名导演柳济元执导，编剧申夏恩操刀，主演阵容包括丁海寅、庭沼玟（又译郑素敏）、金智恩、尹志温等实力派演员，共同为观众呈现了一段既爆笑又温馨的爱情故事。妈妈朋友的儿子全集资源链接：(尽快保存，随时失效)https://pan.quark.cn/
每日复盘Day53 米果果教育张滢
10月7号复盘图片发自App米果果教育张滢【每日目标】每天三目标1.早起、早餐✅2.英语学习作业打卡✅3.赢效率手册和总结笔记✅【每日早起】6:30(今天6点醒来，起床后晨跑，好久没晨跑感觉好棒)【每日学习】萌姐英语课《第40课》；樊登读书会《运动改造大脑》【每日关爱】晨跑、一组减脂训练、胶原肽果饮、水光疗套装图片发自App图片发自App【每日成就】早上比计划早起，老妈在也不担心早饭，花30分钟晨
Linux系统启动流程以及基础命令下一些根目录的含义
Linux系统启动流程：1.开机自检，BIOS,在主板上的ROM芯片上存储2.加载MBR\UEFI3.GRUB2引导菜单4.加载内核5.启动init（初始化）0~6·0关机·1无网络的单用户模式（root）·2无网络的多用户模式·3有网络的多用户模式·4（无）保留模式·5GUI有网络多用户模式·6重启模式6.启动内核模块7.启动不同级别的脚本8.启动成功（sshd）Linux系统启动过程详解一、启
综合十大顶级复刻手表最靠谱的商家爱表之家
在复刻手表行业中，涌现出了众多知名的靠谱商家，他们以精湛的工艺和高度还原的设计赢得了钟表爱好者的青睐微信:52226813(下单赠送精美礼品)以下便是目前市场上公认的10大顶级复刻手表最靠谱的商家。1.N厂N厂在复刻表行业中享有盛誉，尤其以制作高品质的复刻手表而闻名。其产品线广泛覆盖劳力士、欧米茄、万国等多个品牌，尤其是劳力士绿水鬼、黑水鬼等款式，备受消费者喜爱。N厂的产品不仅外观与原版相似度极高
Redis入门教程（一）：基本数据类型
一、Redis是什么？为什么你需要它？Redis（RemoteDictionaryServer）是一个开源的内存数据结构存储系统，它可以用作数据库、缓存和消息中间件。与传统的关系型数据库不同，Redis将数据存储在内存中，使其读写速度达到惊人的11万次读/秒和8.1万次写/秒。同时支持数据持久化，重启后数据不丢失，完美平衡了速度与可靠性。Redis的五大核心优势：丰富的数据结构：支持字符串（Str
Milvus向量数据库集合操作初尝试麦克阿建 milvus
目录1.集合（Collection)2.字段（Field）3.索引（Index）4.分区（Partition）5.实体（Entity）6.代码示例6.1集合创建6.2向量插入6.3向量查询6.4向量删除1.集合（Collection)集合是Milvus中存储数据的最基本单元。它类似于数据库中的一个表（table）。集合定义了数据的整体结构，包括数据类型、字段、索引等。作用：集合是你数据的容器，用来
高阶知识库搭建实战五、（向量数据库Milvus安装）伯牙碎琴大模型数据库 milvus 大模型 AI
以下是关于在Windows环境下直接搭建Milvus向量数据库的教程：本教程分两部分，第一部分是基于docker安装，在Windows环境下直接安装Milvus向量数据库，目前官方推荐的方式是通过Docker进行部署，因为Milvus的运行环境依赖于Linux系统。如果你希望在Windows上直接运行Milvus，可以考虑使用MilvusLite版本，这是一个轻量级的Python库，适用于快速原型
Embedding与向量数据库玖月初玖大模型应用开发基础人工智能 embedding 数据库
1.Embedding是什么EmbeddingModel是一种机器学习模型，它的核心任务是将离散的、高维的符号（如单词、句子、图片、用户、商品等）转换成连续的、低维的向量（称为“嵌入”或“向量表示”），并且这个向量能有效地捕捉原始符号的语义、关系或特征。1.1通俗理解EmbeddingModel是让计算机“理解”世界的核心工具，把“文字、图片、音频”等信息变成一串有意义的数字我们称之为“向量”。类
戴尔笔记本win8系统改装win7系统 sophia天雪 win7 戴尔改装系统 win8
戴尔win8 系统改装win7 系统详述第一步：使用U盘制作虚拟光驱： 1）下载安装UltraISO：注册码可以在网上搜索。 2）启动UltraISO，点击“文件”—》“打开”按钮，打开已经准备好的ISO镜像文
BeanUtils.copyProperties使用笔记 bylijinnan java
BeanUtils.copyProperties VS PropertyUtils.copyProperties 两者最大的区别是： BeanUtils.copyProperties会进行类型转换，而PropertyUtils.copyProperties不会。既然进行了类型转换，那BeanUtils.copyProperties的速度比不上PropertyUtils.copyProp
MyEclipse中文乱码问题 0624chenhong MyEclipse
一、设置新建常见文件的默认编码格式，也就是文件保存的格式。在不对MyEclipse进行设置的时候，默认保存文件的编码，一般跟简体中文操作系统（如windows2000，windowsXP）的编码一致，即GBK。在简体中文系统下，ANSI 编码代表 GBK编码;在日文操作系统下，ANSI 编码代表 JIS 编码。 Window-->Preferences-->General -
发送邮件不懂事的小屁孩 send email
import org.apache.commons.mail.EmailAttachment; import org.apache.commons.mail.EmailException; import org.apache.commons.mail.HtmlEmail; import org.apache.commons.mail.MultiPartEmail;
动画合集换个号韩国红果果 html css
动画指一种样式变为另一种样式 keyframes应当始终定义0 100 过程 1 transition 制作鼠标滑过图片时的放大效果 css .wrap{ width: 340px;height: 340px; position: absolute; top: 30%; left: 20%; overflow: hidden; bor
网络最常见的攻击方式竟然是SQL注入蓝儿唯美 sql注入
NTT研究表明，尽管SQL注入（SQLi）型攻击记录详尽且为人熟知，但目前网络应用程序仍然是SQLi攻击的重灾区。信息安全和风险管理公司NTTCom Security发布的《2015全球智能威胁风险报告》表明，目前黑客攻击网络应用程序方式中最流行的，要数SQLi攻击。报告对去年发生的60亿攻击行为进行分析，指出SQLi攻击是最常见的网络应用程序攻击方式。全球网络应用程序攻击中，SQLi攻击占
java笔记2 a-john java
类的封装： 1，java中，对象就是一个封装体。封装是把对象的属性和服务结合成一个独立的的单位。并尽可能隐藏对象的内部细节（尤其是私有数据） 2，目的：使对象以外的部分不能随意存取对象的内部数据（如属性），从而使软件错误能够局部化，减少差错和排错的难度。 3，简单来说，“隐藏属性、方法或实现细节的过程”称为——封装。 4，封装的特性： 4.1设置
[Andengine]Error：can't creat bitmap form path “gfx/xxx.xxx” aijuans 学习Android遇到的错误
最开始遇到这个错误是很早以前了，以前也没注意，只当是一个不理解的bug，因为所有的texture，textureregion都没有问题，但是就是提示错误。昨天和美工要图片，本来是要背景透明的png格式，可是她却给了我一个jpg的。说明了之后她说没法改，因为没有png这个保存选项。我就看了一下，和她要了psd的文件，还好我有一点
自己写的一个繁体到简体的转换程序 asialee java 转换繁体 filter 简体
今天调研一个任务，基于java的filter实现繁体到简体的转换，于是写了一个demo，给各位博友奉上，欢迎批评指正。实现的思路是重载request的调取参数的几个方法，然后做下转换。
android意图和意图监听器技术百合不是茶 android 显示意图隐式意图意图监听器
Intent是在activity之间传递数据;Intent的传递分为显示传递和隐式传递显式意图：调用Intent.setComponent() 或 Intent.setClassName() 或 Intent.setClass()方法明确指定了组件名的Intent为显式意图，显式意图明确指定了Intent应该传递给哪个组件。隐式意图;不指明调用的名称,根据设
spring3中新增的@value注解 bijian1013 java spring @Value
在spring 3.0中，可以通过使用@value，对一些如xxx.properties文件中的文件，进行键值对的注入，例子如下： 1.首先在applicationContext.xml中加入： <beans xmlns="http://www.springframework.
Jboss启用CXF日志 sunjing log jboss CXF
1. 在standalone.xml配置文件中添加system-properties： <system-properties> <property name="org.apache.cxf.logging.enabled" value=&
【Hadoop三】Centos7_x86_64部署Hadoop集群之编译Hadoop源代码 bit1129 centos
编译必需的软件 Firebugs3.0.0 Maven3.2.3 Ant JDK1.7.0_67 protobuf-2.5.0 Hadoop 2.5.2源码包 Firebugs3.0.0 http://sourceforge.jp/projects/sfnet_findbug
struts2验证框架的使用和扩展白糖_ 框架 xml bean struts 正则表达式
struts2能够对前台提交的表单数据进行输入有效性校验，通常有两种方式： 1、在Action类中通过validatexx方法验证，这种方式很简单，在此不再赘述； 2、通过编写xx-validation.xml文件执行表单验证，当用户提交表单请求后，struts会优先执行xml文件，如果校验不通过是不会让请求访问指定action的。本文介绍一下struts2通过xml文件进行校验的方法并说
记录-感悟 braveCS 感悟
再翻翻以前写的感悟，有时会发现自己很幼稚，也会让自己找回初心。 2015-1-11 1. 能在工作之余学习感兴趣的东西已经很幸福了； 2. 要改变自己，不能这样一直在原来区域，要突破安全区舒适区，才能提高自己，往好的方面发展； 3. 多反省多思考；要会用工具，而不是变成工具的奴隶； 4. 一天内集中一个定长时间段看最新资讯和偏流式博
编程之美-数组中最长递增子序列 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class LongestAccendingSubSequence { /** * 编程之美数组中最长递增子序列 * 书上的解法容易理解 * 另一方法书上没有提到的是，可以将数组排序（由小到大）得到新的数组， * 然后求排序后的数组与原数
读书笔记5 chengxuyuancsdn 重复提交 struts2的token验证
1、重复提交 2、struts2的token验证 3、用response返回xml时的注意 1、重复提交 (1)应用场景 (1-1)点击提交按钮两次。 (1-2)使用浏览器后退按钮重复之前的操作，导致重复提交表单。 (1-3)刷新页面 (1-4)使用浏览器历史记录重复提交表单。 (1-5)浏览器重复的 HTTP 请求。 (2)解决方法 (2-1)禁掉提交按钮 (2-2)
[时空与探索]全球联合进行第二次费城实验的可能性 comsci
二次世界大战前后,由爱因斯坦参加的一次在海军舰艇上进行的物理学实验 -费城实验至今给我们大家留下很多迷团..... 关于费城实验的详细过程,大家可以在网络上搜索一下,我这里就不详细描述了在这里,我的意思是,现在
easy connect 之 ORA-12154: TNS: 无法解析指定的连接标识符 daizj oracle ORA-12154
用easy connect连接出现“tns无法解析指定的连接标示符”的错误，如下： C:\Users\Administrator>sqlplus username/[email protected]:1521/orcl SQL*Plus: Release 10.2.0.1.0 – Production on 星期一 5月 21 18:16:20 2012 Copyright (c) 198
简单排序:归并排序 dieslrae 归并排序
public void mergeSort(int[] array){ int temp = array.length/2; if(temp == 0){ return; } int[] a = new int[temp]; int
C语言中字符串的\0和空格 dcj3sjt126com c
\0 为字符串结束符，比如说： abcd (空格)cdefg；存入数组时，空格作为一个字符占有一个字节的空间，我们
解决Composer国内速度慢的办法 dcj3sjt126com Composer
用法：有两种方式启用本镜像服务： 1 将以下配置信息添加到 Composer 的配置文件 config.json 中（系统全局配置）。见“例1” 2 将以下配置信息添加到你的项目的 composer.json 文件中（针对单个项目配置）。见“例2” 为了避免安装包的时候都要执行两次查询，切记要添加禁用 packagist 的设置，如下 1 2 3 4 5
高效可伸缩的结果缓存 shuizhaosi888 高效可伸缩的结果缓存
/** * 要执行的算法，返回结果v */ public interface Computable<A, V> { public V comput(final A arg); } /** * 用于缓存数据 */ public class Memoizer<A, V> implements Computable<A,
三点定位的算法 haoningabc c 算法
三点定位，已知a,b,c三个顶点的x,y坐标和三个点都z坐标的距离，la，lb,lc 求z点的坐标原理就是围绕a,b,c 三个点画圆，三个圆焦点的部分就是所求但是，由于三个点的距离可能不准，不一定会有结果，所以是三个圆环的焦点，环的宽度开始为0，没有取到则加1 运行 gcc -lm test.c test.c代码如下 #include "stdi
epoll使用详解 jimmee c linux 服务端编程 epoll
epoll - I/O event notification facility在linux的网络编程中，很长的时间都在使用select来做事件触发。在linux新的内核中，有了一种替换它的机制，就是epoll。相比于select，epoll最大的好处在于它不会随着监听fd数目的增长而降低效率。因为在内核中的select实现中，它是采用轮询来处理的，轮询的fd数目越多，自然耗时越多。并且，在linu
Hibernate对Enum的映射的基本使用方法 linzx0212 enum Hibernate
枚举 /** * 性别枚举 */ public enum Gender { MALE(0), FEMALE(1), OTHER(2); private Gender(int i) { this.i = i; } private int i; public int getI
第10章高级事件（下） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
孙子兵法 roadrunners 孙子兵法
始计第一孙子曰：兵者，国之大事，死生之地，存亡之道，不可不察也。故经之以五事，校之以计，而索其情：一曰道，二曰天，三曰地，四曰将，五曰法。道者，令民于上同意，可与之死，可与之生，而不危也；天者，阴阳、寒暑、时制也；地者，远近、险易、广狭、死生也；将者，智、信、仁、勇、严也；法者，曲制、官道、主用也。凡此五者，将莫不闻，知之者胜，不知之者不胜。故校之以计，而索其情，曰
MySQL双向复制 tomcat_oracle mysql
本文包括: 主机配置从机配置建立主-从复制建立双向复制背景按照以下简单的步骤: 参考一下：在机器A配置主机(192.168.1.30) 在机器B配置从机(192.168.1.29) 我们可以使用下面的步骤来实现这一点步骤1：机器A设置主机在主机中打开配置文件 ,
zoj 3822 Domination(dp) 阿尔萨斯 Mina
题目链接：zoj 3822 Domination 题目大意：给定一个N∗M的棋盘，每次任选一个位置放置一枚棋子，直到每行每列上都至少有一枚棋子，问放置棋子个数的期望。解题思路：大白书上概率那一张有一道类似的题目，但是因为时间比较久了，还是稍微想了一下。dp[i][j][k]表示i行j列上均有至少一枚棋子，并且消耗k步的概率（k≤i∗j）,因为放置在i+1~n上等价与放在i+1行上，同理