文档(document)

用来标注文档的相关信息:

索引(Index)

索引是文档的容器，是一类文档的结合
类似关系型数据库中的表

image.png

区别:

高可用性
- 服务可用性 - 允许有节点停止服务
- 数据可用性 - 部分节点丢失，不会丢失数据
可扩展性
- 请求量提升/数据的不断增长(将数据分布到所有节点上)
ES的分布式架构的好处
- 存储的水平扩容
- 提高系统的可用性，部分节点停止服务，整个集群的服务不受影响
ES的分布式架构
- 不同的集群通过不同的名字来区分，默认名字"elasticsearch"
- 通过配置文件修改，或者命令行中 -E cluster.name = xxxx 进行设定
- 一个集群可以有一个或者多个节点

每个节点都保存了集群的状态，只有Master节点才能修改集群的状态信息

集群状态维护了一个集群中必要的信息:  
1. 所有的节点信息
2. 所有的索引和其相关的Mapping和Setting信息  
3. 分片的路由信息  
任意节点都能修改信息会导致数据的不一致性。

Data Node

可以保存数据的节点。 负责保存分片数据。在数据扩展上起到了至关重要的作用。

Coordinating Node

负责接受client的请求，将请求分发到合适的节点，最终把结果汇集到一起。
每个节点默认都起到了Coordinating Node的职责

Hot & Warm Node

不同硬件配置的Data Node,用来实现Hot & Warm架构，降低集群部署的成本

Machine Learning Node

负责跑机器学习的job，用来做异常检测

主分片，用以解决数据水平扩展的问题。通过主分片，可以将数据分布到集群内的所有节点上

一个分片是一个运行的Lucene的实例  
主分片数在索引创建时指定，后续不允许修改，除非Reindex

副本，用以解决数据的高可用的问题。分片是主分片的拷贝

副本分片数，可以动态题调整  
增加副本数，还可以在一定成都上提高服务的可用性(读取的吞吐)

image.png

number_of_shards：3 代表主分片数为3
number_of_replicas: 1 代表副本数为 1