跨AZ高可用之Elasticsearch浅谈

原文:

http://www.yunxiaobai.net/archives/489

请点击查看原文



AZ,AWS提出的,可用区( Availability  Zone),在每个区域(Region)都有多个可用区。AZ之间物理隔离,独立供电,一个AZ故障,不会影响另外一个AZ,但AZ之间是连通,且网络耗时低。简单可以将AZ理解为独立机房或逻辑机房,这样可以利用AZ的隔离性,对业务进行跨AZ部署,实现高可用。
本文先是简单介绍了跨AZ服务部署的一些方案,之后介绍了调研的Elasticsearch跨AZ部署方案,最后介绍了在当前业务场景下,所采取的一个部署方案实战。

Elasticsearch介绍
Elasticsearch是一开源搜索引擎,可以为站点提供实时分析搜索服务;也可以与Logstash、Kibana一起进行日志分析展现(ELK)。官方网址: https://www.elastic.co。
在我们业务使用中,主要是提供实时商品搜索服务,当前处于业务发展初期,有多个Elasticsearch集群,总体流量较小。

跨AZ部署方案概览
在我理解,按照服务是否有数据,可以分为无状态服务、有状态服务。
无状态服务,像接入层,业务逻辑模块等。
有状态服务,像存储,缓存,消息队列,id分配等。
针对无状态服务,每个AZ按照 集群方式 部署即可,这是实现该类服务高可用的一个基本措施。对于接入层,一般有2种方式:
1)购买ELB时,可以选择跨AZ。这样ELB可以将流量分配到不同的AZ;
2)通过DNS解析控制,比如针对某些地区用户可以解析到第一个AZ对应的公网IP,其他地区可以解析到第二个AZ对应的公网IP。
针对有状态服务,由于存在数据一致性、灾备等问题,一般会是 主备方式 进行部署,如果对性能要求较高,可能还会提供一个读的实例。
但针对id分配服务来说,是一个特例,虽然自己本身是有数据,但由于是预分配,因此可以采用类集群方式部署。


Elasticsearch跨AZ部署
AWS做法
AWS实现了Elasticsearch跨AZ部署,虽然跨AZ,但 Elasticsearch仍然是一个集群。具体做法是:在2个AZ之间,显示分配Elasticsearch集群副本及分片,集群数量要求为偶数,AWS把这个叫做区域感知( zone awareness )。另外,AWS还采用了专用主节点(Dedicated Master Nodes ),来提高集群稳定性。
AWS启用区域感知4节点集群
从AWS提供的资料来看,Elasticsearch并没有完全解决“脑裂”问题,需要保证AZ间网络可靠性。
通过多AZ部署,实现了数据均衡,数据损失保护。
官方参考文档: http://docs.aws.amazon.com/zh_cn/elasticsearch-service/latest/developerguide/es-managedomains.html

阿里云做法
从阿里云提高资料来分析,可能并没有真正实现Elasticsearch跨AZ部署,只是实现了跨地域备份,同一AZ使用了多副本,同一节点采用了多分区来方式。另外,阿里云也可以使用专用主节点(与AWS类似)。
阿里云Elasticsearch高可用做法
阿里云做法简单,没有实现Elasticsearch多AZ多活,但有保底方式——数据灾备。出现AZ故障后,能够恢复数据。

官方参考文档: https://data.aliyun.com/product/elasticsearch?spm=5176.8142029.388261.349.3836dbccunNNX1

某数据实时分析系统
使用tribe节点来做Elasticsearch代理层。在2个AZ分别单独搭建Elasticsearch集群,在tribe节点会分别查询2个集群,之后对结果进行合并。

tribe节点目前看是Elasticsearch多集群部署的一个较好方案,但也有许多限制。 官方关于使用tribe节点说明很少,但从已使用的团队了解到,进行2个集群数据合并会有一些问题,核心业务要慎重考虑,充分验证。从论坛看到,tribe节点需要客户端代码做一定修改,需要支持多个集群,并且在Elasticsearch 5.3版本之后,会逐步去掉了tribe节点。
官方参考文档: https://www.elastic.co/guide/en/elasticsearch/reference/2.4/modules-tribe.html

当前业务自己做法
Elasticsearch部署没有使用多AZ部署,单AZ部署。
这种方式严重依赖第一个AZ的稳定性。

小结:
1,单AZ部署,其他AZ容灾备份;
2,多AZ分别部署Elasticsearch集群,集群之间没有关联,业务层实现多AZ写,数据一致性业务层需保证;
3,与2有些类似,多AZ分别部署Elasticsearch集群,使用tribe节点进行读写;
4,跨集群搜索方式(cross cluster search)。这是在5.3版本之后,Elasticsearch自身支持。
官方网址: https://www.elastic.co/guide/en/elasticsearch/reference/6.1/modules-cross-cluster-search.html

Elasticsearch跨AZ部署实战

你可能感兴趣的:(LINUX,系统运维)