现状
存在大量的单点问题:每个门店一个物理服务器,中心机房多个服务器。门店服务器故障,营业受影响;中心机房服务器故障,门店的非现金业务(银行卡刷卡、微信支付、支付宝等)受影响
总体思路
撤销每个门店的服务器,保证门店网络的可靠性(多线路接入、4G终端设备等),服务器集中到中心机房,构建更高可用性的数据平台。
基本目标
高可用性:最小的停机时间,部分硬件损坏不对正常业务产生影响。
可扩展性:随业务增加,可不停止业务进行容量扩充,也不改变现有的系统架构。
可视化运维:随时掌握系统的运行情况,并以集中、直观的方式进行展示。
低成本:充分利用现有资源、合理规划,使整个平台成本可控且满足实际需求。
架构组成
本方案架构由负载均衡、超融合私有云、监控平台以及备份系统组合而成。
Ø 负载均衡
负责将门店终端的请求按一定的算法,转发到多个相同的后端应用。负载均衡实际包含三个功能:负载均衡、健康检查及失败切换。
负载均衡:多个后端分担负载,以支持更大规模的访问及业务请求;
健康检查:后端服务某一个或者几个出现故障,负载均衡器会自动把故障系统从转发队列里面自动清除;后端服务恢复正常后,其又会自动加入到转发队列;
失败切换:负载均衡器是成对出现的,一般设置为一主一备,一旦主负载均衡出现故障,辅助负载均衡自动接替其工作。
Ø 超融合私有云
三台或者三台以上配置较高的物理服务器,组成去中心化的集群、去中心化的存储,只要组成集群的最小单位存在,整个集群就不会奔溃;运行在物理节点的虚拟机如果设定了HA(高可用),一旦物理机发生故障,这些虚拟机将自动漂移到运行正常的其它物理节点上。
超融合由如下几个特点:
去中心化:没有专门的控制节点,无需考虑控制节点的单点问题。
去集中存储:传统的私有云集群架构,保障可用性是以共享存储方式实现的。但共享存储本身就是单点,虽然可以以多磁盘冗余已经双控制器的方式提高可用性,但仍然存在IO集中、性能无法提升的困境。
更低的建设成本:去掉昂贵的中心化存储,磁盘分布到本地物理服务器,投资成本大幅度降低。
在线扩容:不停止服务,对物理机配件(内存、cpu等)进行扩容,甚至新增物理节点。
Ø 系统监控
对主机资源(包括物理节点、虚拟机节点)运行状况进行实时监控、对应用或者服务进行实时监控,一旦出现故障,能及时有效的告警。
Ø 数据备份
备份包括两部分,一是对重要的虚拟机进行备份,另一个是对应用数据进行备份。虚拟机备份的目的是为了故障的快速恢复,应用数据备份是为了数据的完整性。
有了上述多重保障措施以后,整个平台的可用性提高了好几个量级。考虑到一下几个场景的故障,我们来进一步进行描述其可用性及可靠性:
虚拟机故障。负载均衡发挥作用,客户端访问不受影响,业务不会中断。
物理机故障。超融合机制发挥作用,运行其上的应用(包括虚拟机系统)自动漂移,客户端访问不受影响,业务不会中断。
集群整体崩溃。备份系统发挥作用,重构一个新的集群,以网络方式挂接上备份数据,web界面选中备份文件,点击恢复,坐等虚拟机进行快速恢复。传统的恢复方式大概是这样的:重新安装系统à部署应用环境à复制备份数据到目标系统à导入数据à验证数据有效性、完整性à恢复服务。
监控系统是不眠之眼,一旦故障,立即告警,可通知技术人员进行及时修复。
基础设施
负载均衡器
独立的服务器一对,不需要高配置。推荐配置:单cpu,32g内存,300G 15000转sas盘(主要数据为访问日志)。
超融合私有云
至少四台物理服务器,数据网络与集群网络分离,建议万兆网络,无条件情况下,也必须保障全千兆。单台物理服务器具体的配置建议如下:
Cpu:2颗。单颗核心数10,多线程。
内存:至少128G,ddr3也可以,主要根据主板来定。
硬盘:系统盘250G固态硬盘,数据盘4块或者更多2.4T容量的10000转sas高性能磁盘(sata盘读写性能比较差,不建议使用)。
网卡:如果使用万兆网络,则需单独采购网卡及光纤模块。
数据备份
内存、cpu低配,磁盘用多块低速大容量sata盘,备份容量大于其它数据之总和。为了减少备份时间,有效利用存储空间,并不是把所有的数据都进行备份,只要能保证系统发生灾难性故障时,能快速对整个系统进行恢复就足够了。
监控系统
单物理机,一般配置即可。为保证可靠性,可对整个系统进行自动备份。
主要软件
负载均衡
Keepalived + haproxy
超融合私有云
系统:debian
管理平台:proxmox VE 5.3
存储:ceph
监控系统
系统:centos 7
管理平台:centroen 18
备份系统
系统:centos 7或者freebsd
共享:NFS
实施步骤
1. 部署超融合私有云
初始化集群、创建ceph存储(监视器、OSD、POOL);
挂接共享存储,上传操作系统ISO;
创建虚拟机;
安装虚拟机操作系统;
虚拟机设置高可用(HA)。
虚拟机能做成模板、能克隆、能手动迁移、遇物理机能自动漂移为合格。
2. 部署应用
在虚拟机上安装所需的应用,检查无误后做成模版;
用模板克隆虚拟机,启动后更改其网络地址等,保证虚拟机的唯一性;
导入数据;
测试服务的正确性。
应用部署由甲方自行完成,乙方配合。
3. 负载均衡
安装系统;
安装软件;
功能配置;
功能测试;
4. 监控系统
安装系统;
监控项配置;
模拟故障及故障恢复。
5. 数据备份
准备共享空间,并分配好合适的权限;
设定自动备份时间;
临时设定一个比较近的时间点,选取少许虚拟机进行备份;
检查自动备份是否如愿。
手动删掉已经备份过的虚拟机,用刚才的数据恢复进行测试,检验其可靠性及正确性。
项目交付
单项功能全部正常:负载均衡、监控系统、备份、故障转移等;
整体功能正常:终端系统能正常开展各种业务,如收银、订单处理、商品录入等;
技术培训:模块功能讲解、风险告知(哪些功能最好不要轻易去尝试)、虚拟机管控、数据备份、监控项增加或者减少;
免费维护期:自交付之日起三个月。
需采购硬件
序号 |
名称 |
配置 |
采购 |
数量 |
价格 |
总价 |
质保期 |
1 |
负载均衡一对 |
现有设备,内存32G,600G硬盘 |
无需 |
0 |
|||
2 |
备份服务器 |
现有设备,内存32G,8-12块SATA盘 |
无需 |
0 |
|||
3 |
服务器更换CPU |
更换至10H20C CPU 2470V2 |
需 |
10 |
|||
4 |
服务器增加内存 |
每台服务器内存增加至160G |
需 |
20 |
|||
5 |
服务器系统盘 |
服务器使用单独系统盘,每台服务器一个,共计5台服务器 |
需 |
5 |
|||
6 |
万兆网卡 |
10Gb/s万兆网卡+万兆光纤跳线 |
需 |
5 |
|||
7 |
万兆模块 |
10Gb/s万兆光纤模块 |
需 |
10 |
|||
8 |
SAS万转硬盘 |
服务器更换成SAS 万转硬盘,提高性能,每台服务器4个,共计5台服务器 |
需 |
20 |
|||
9 |
24口万兆交换机 |
24口全万兆;支持4K个VLAN;支持Guest VLAN、Voice VLAN;支持GVRP协议;支持MUX VLAN功能;支持基于MAC/协议/IP子网/策略/端口的VLAN;支持1:1和N:1 VLAN Mapping功能;MAC特性:支持MAC地址自动学习和老化;支持静态、动态、黑洞MAC表项;支持源MAC地址过滤; |
根据实际 |
1 |
|||
10 |
16口万兆交换机 |
16口全万兆;支持4K个VLAN;支持Guest VLAN、Voice VLAN;支持GVRP协议;支持MUX VLAN功能;支持基于MAC/协议/IP子网/策略/端口的VLAN;支持1:1和N:1 VLAN Mapping功能;MAC特性:支持MAC地址自动学习和老化;支持静态、动态、黑洞MAC表项;支持源MAC地址过滤; |
1 |
||||
含增值税总价 |
|
项目实施服务
项目实施需要到现场进行,涉及的费用包括路费、住宿费、餐费。因超融合平台、负载均衡平台、监控平台等皆采用开源软甲,不会产生授权费用;而运行在平台之上的各种erp等商业应用,授权及费用问题,由项目方自行解决及负责。
名称 |
金额 |
差旅 |
项目方支付,我方不垫付 |
实施费用 |
元,不含税。 |
授权 |
无,需付费的话,项目方自行处理 |
预计项目实施周期为两周。
验收标准如下:
超融合系统
能创建虚拟机并安装操作系统;
能迁移虚拟机;
能创建模板;
能从模板创建虚拟机;
能对创建好的虚拟机进行克隆;
能销毁虚拟机;
能对虚拟机进行备份;
能从备份中恢复虚拟机;
关闭物理服务器,运行其上并设定到HA中的虚拟机能自动漂移。
负载均衡
健康检查:关闭某一个虚拟机或者应用,服务不受影响;
失败切换(一):关闭主负载均衡,vip自动漂移,转发服务不受影响;
失败切换(二):恢复主负载均衡,vip回到主控负载均衡,转发服务继续进行。
监控系统
能正常添加监控项;
能进行语法检查;
模拟主机故障,监控能实时告警;
模拟服务故障,监控能实时告警。