计算平台常用技术和运维

计算平台常用技术介绍

高可用技术

集群
集群是由一些互相连接在一起的计算机构成的一个并行或者分布式系统。
计算平台常用技术和运维_第1张图片
用户只需要关注自己的虚拟机,而不需要关注具体数据交给哪个节点来处理。

集群的优势:高可伸缩性、高可用性(HA例如节点1挂了,可以把业务跑到节点2中,冗余)、高可管理性(以平台的方式对集群中的所有资源进行管理)

计算平台常用技术和运维_第2张图片
(图中VIP意思为virtual IP,不是我们常说的VIP客户)

高性能性集群(HPC Cluster):不惜成本,追求高性能。主要用于科研。

高可用性集群(HA Cluster):使群集的整体服务尽可能可用。减少服务宕机时间为目的。一个节点失效,其他节点接替。单节点故障时,整体性能一般会下降。

高可扩展性集群:基于负载均衡策略。一般是对特定类型负载做均衡处理。各负载节点一般是同构的,可以分担部分负载。可以避免单点故障,一般较廉价。

负载均衡
算法调度:round-robin(rr,轮询,按顺序分配)(还有其他算法考虑权重、连接数等等因素)
硬件:F5
软件:LVS、Nginx、HA-PROXY

常见的WEB集群组件
Apache(web服务器)、LVS(实现负载均衡)、Nginx(web服务器)、Memcached(可以理解为缓存)

LAMP—Linux+Apache+MySql+PHP
LNMP—Linux+Nginx+MySql+PHP

什么是无状态计算
我们在描述一台服务器的时候,可以通过序列号、MAC地址、WWPN这些来对服务器进行描述
那么将这些描述信息,抽象成文件。我们可以对其进行迁移、配置
(举例:当一台服务器损坏了,将服务器配置信息迁移到另外一个服务器上,那么新的服务器就能集成原服务器的属性功能等。能够达到业务迁移的自动化。)

异构计算

是否使用相同类型的指令集或者说计算方式。
同构计算:使用相同类型指令集和体系架构的计算单元组成系统的计算方式。
异构计算:使用不同类型指令集和体系架构的计算单元组成系统的计算方式。

用到的计算单元:CPU,GPU,FPGA(可编程,支持DIY嘛,适用于变化比较快的场景。),ASIC(根据场景设计专用电路,能耗比低,性能强。)

计算平台常用技术和运维_第3张图片

智能加速

华为SSD控制芯片
数据的读写需要控制芯片
(海思1812)

华为智能融合网络芯片
主要应用于云网络OVS加速和云存储大规模组网低时延两大场景。
(海思1822)

计算产品智能运维

运维体系的演变

人工&脚本->工具化->自动化->智能化
计算平台常用技术和运维_第4张图片

需要分为三层,底层单机管理系统,第二层基础设施的管理系统,第三层综合化网管系统。

板载管理

BMC
一个独立的系统,由处理器、小系统、管理软件组成,可以独立工作。
一般服务器才需要BMC,个人PC不带BMC。

集中管理

eSight Server
华为服务器集群管理软件,一个管理平台
除了可以管理服务器,还可以管理存储、交换机/路由器、第三方的设备(只要第三方支持SNMP标准协议,就可以通过SNMP协议进行对接,然后纳管到eSight Server平台进行管理。)
计算平台常用技术和运维_第5张图片

FusionDirector
华为的一款智能管理软件
主要针对华为服务器进行智能运维(版本管理、部署管理-如统一的操作系统安装、能效管理等等)。
支持对华为机架、刀片、ARM服务器等等进行统一的管理。
计算平台常用技术和运维_第6张图片

运维工具

计算平台常用技术和运维_第7张图片
什么情况下使用Ansible?
假设1台服务器每天凌晨3点需要删除垃圾数据,那么可以怎么做?运维人员可以每天3点起来去删垃圾数据。也可以写Shell脚本,使用定时触发工具crontab去触发脚本。
那假设10台,或许你也可以这么做。通过人肉运维的方式去解决。
如果1000台服务器,当然也可以写脚本,但是我们已经有现成的自动化管理工具,就不用重复发明轮子了。
自动化运维工具:Ansible、puppet、chef等等。

我们主要了解Ansible,它的好处:功能强大,轻量级(安装简单,不需要在节点上安装代理软件),运行环境基于Openssh(openssh是基础的通用的环境,Ansible通过SSH执行所有功能。)

Host inventory—主机目录,将需要被纳管的主机写入进来

在Ansible当中,通常是一台主控节点,多台被控节点(master-slave),通过Connection Plugins(连接插件)例如SSH,可以对被管理服务器下发相应命令,对它们进行操作管理。

对于复杂的命令步骤,我们可以写一个playbook(剧本),在剧本当中将每一步操作内容写入,然后执行。对于服务器端它们就会按照playbook当中的操作内容一步一步完成操作

它还会提供其他一些模块、插件,来帮助我们对slave进行批量运维部署。

你可能感兴趣的:(智能计算)