转载自微信公众号:云架构师大白,题目《国内公有云大厂核心技术解剖》
2017-2018是云计算爆发式增长,IT企业和传统企业纷纷涌入,互相厮杀,好不热闹。据我了解的,目前不少金融机构都在建设和优化自己的云平台,紫光也与2018年3月31日闪亮登场加入公有云的竞争队伍,名号为紫光云,同时国内的阿里、与腾讯、金山、百度、华为、Ucloud也是大张旗鼓的发展自己的公有云,特别是华为,投入不可谓不大。同时传统企业比如电信、中移动等也在稳步推进自己的行业云或公有云战略。
下面我从技术概念层面的说一下各个公有云用到的核心技术,包括服务器、存储、网络、资源调度、IAAS\PAAS\SAAS服务、安全等层面,并对各家技术的差异做一些简单说明和对比分析,后面有时间会有文章对各部分进行详细解读。
一、数据中心规划
业界标准的region(方便用户选择较近的区域)、AZ(独立的风火水电和网络出口),一般region是一个地区,region间延时大于10ms,一个region内部署至少2个AZ,同一个region内的AZ一般距离在100km以内,延时在1ms以内,region间建立骨干网,AZ间采用DWDM裸光纤。
二、硬件层面分析
基本各家都会采用标准的服务器配置和芯片型号,但是不会限定服务器厂商,例如标准服务器采用2U、2路8核、256G、900G*6 SSD硬盘、4网卡要求为intel82599配置作为标准的计算服务器。但是一般计算(GPU、大数据也会单独拿出来,例如大数据服务器会采用DBDK、SR-IOV等技术)、分布式块存储、分布式对象存储会采用不同的配置。
三、机房规划
一般采用分区部署方式,即在一个机房模块内部署的用户计算、网络和存储的服务器分到不同的机架上。但是也有采用混合部署的(如腾讯),即在同一个机架上会部署用于计算、网络、存储服务器。
四、网络
1、采用软件定义网络,采用SDN架构,所有租户对网络的操作通过openflow下发到对应的虚拟网络设备或主机上,一般通过标准的X86服务实现网络功能,如负载均衡、防火墙、vrouter、NAT等。
2、一般会区分IPMI、业务网、管理网,网口两两做绑定。但是也有采用一张网跑所有流量的,如腾讯会将IMPI、业务、存储、管理流量都走两个绑定的网卡。
3、采用VPC方式实现overlay网络的逻辑隔离,其中VPC具体实现一般采用VXLAN,比如一个VXLAN VNI代表一个租户。但是也有部分采用GRE方式实现的。
4、采用BGP IP接入数据中心,全公网发布BGP IP路由。
5、underlay层面使用BGP或者e等协议,IRF堆叠技术。
6、支持VPC,VPC在region有效,子网不能夸AZ。
7、一般采用非常扁平的2层网络,如spine leaf架构,某些直接用接入交换机接入核心交换机,整个AZ都在一个二层域。
8、会在全球建立很多CDN节点。
9、支持对等连接(打通VPC)、跨云互联、私有云公有云互联等。
五、计算
1、一般会对OS内核、docker、openstack等进行优化,例如热补丁技术。
2、部分厂商采用openstack做资源的统一调度管理,但是也会做大量改造,例如华为云使用cascading级联架构;华三云使用cell v2;金山云对openstack使用的mysql、MQ进行优化,并重写neutron消除大规模了性能瓶颈。
3、一般支持X86服务器,特别的某些云服务商也支持IBM POWER小机。
4、一般都会存在CPU超卖,但是内存一般不超卖。
5、为加快镜像的分发速度,镜像可以使用P2P加速,HOST主机也会缓存镜像。
六、存储
1、一般支持分布式块存储(AZ级)和分布式对象存储(region级),特别的某些云服务商也支持分布式文件存储、集中式文件存储和SAN网络。
2、相对来说百度的对象存储功能最为全面,支持很多高级特性。
七、PaaS
1、一般大数据相关应用还是建议跑在物理机上。
2、支持devops整体解决方案,包括项目管理、需求分析、开发、测试、投产、微服务、容器等一系列在线工具。
3、支持各类数据库,如关系型数据库mysql,分布式关系型数据库,非关系型数据库redis,Hadoop,spark,strom、时序数据库等。
4、支持深度学习、机器学习算法。
八、SaaS
1、支持的SaaS服务包括图片识别等等。
2、实现SaaS有几种模式,对性能和隔离性要求不高的租户,一般采用共有的应用服务,通过应用层面和数据库层面的技术实现租户隔离,例如数据库表里有一个字段标明是哪个租户的数据。 对于性能和隔离线要求高的用户,一般采用独享的资源,即每个用户使用独立的虚机部署应用。
九、公有云运维
1、支持舆情监控、端到端监控,例如监控网络发布的不利消息、识别客户端和运营商链路上出现的问题。
2、支持各类告警聚合,告警大数据分析,告警趋势分析,告警智能处理,告警阈值动态调整等。
十、公有云运营
1、支持公有云门户、租户控制台、第三方云市场、资源购买、计量计费、账单处理、在线客户、工单处理、open API及SDK支持二次开发、定制消息、合同管理、SLA赔付,优惠等内容。
十一、安全
1、安全组、防火墙通过iptables、namespace实现。
2、DDOS一般通过购买运营商DDOS进行清洗,也会自建DDOS高防机房,如果攻击流量很大,也可直接封禁目标IP。、
3、其他无非是通过截取应用日志看看涉黄涉毒或者是SQL注入攻击等。另外也可以扫描租户的机器和http服务来鉴别用户是否被攻击或者涉及发布违规内容等。
4、需要根据需要向监管、公安部门上报租户各类信息。