1. 概述
ElasticSearch是基于lucence的全文搜索引擎,用java语言作为开发,可以直接集成到项目中,使用json/xml的方式通过http来索引数据!
特点:
①:基于lucene
②:使用简单
③:支持分布式
④:使用Restful API
⑤:支持多种客户端
⑥:可以处理PB级的数据
⑦:实时文件存储、速度快、性能高
⑧:支持集群
⑨:处理json格式数据
2. ES安装
2.1:安装服务
ES服务只依赖于JDK,推荐使用JDK1.7+
① 下载ES安装包
官方下载地址:https://www.elastic.co/downloads/elasticsearch
② 运行ES
bin/elasticsearch.bat
③ 验证
访问:http://localhost:9200/
2.2:ES交互方式
ES和所有客户端的交互都是使用JSON格式的数据!
其他所有程序语言都可以使用RESTful API,通过9200端口的与ES进行通信,java通过9300端口交互!
2.3: 辅助管理工具Kibana5
① Kibana5.2.2下载地址:https://www.elastic.co/downloads/kibana
② 解压并编辑config/kibana.yml,设置elasticsearch.url的值为已启动的ES
③ 启动Kibana5 : bin\kibana.bat
④ 默认访问地址:http://localhost:5601
Discover:可视化查询分析器
Visualize:统计分析图表
Dashboard:自定义主面板(添加图表)
Timelion:Timelion是一个kibana时间序列展示组件(暂时不用)
Dev Tools :Console(同CURL/POSTER,操作ES代码工具,代码提示,很方便)
Management:管理索引库(index)、已保存的搜索和可视化结果(save objects)、设置 kibana 服务器属性。
3. Restful风格
Restful是一种面向资源的架构风格,用名词描述资源,用动词描述操作!
例如:
获取id为1的用户:
GET /user/1
获取全部用户:
GET /users
删除id为1的用户:
DELETE /user/1
添加用户:
PUT /user
修改用户:
POST /user
使用Restful的优点:
①:透明性,暴露资源存在。
②:充分利用 HTTP 协议本身语义。
③:无状态,这点非常重要。在调用一个接口(访问、操作资源)的时候,可以不用考虑上下文,不用考虑当前状态,极大的降低了复杂度。
3. ES相关概念
(1)Near Realtime(NRT)近实时:ES从录入数据到可以被搜索可以达到秒级别,延迟很小!
(2)Index:索引库,包含一堆有相似结构的文档数据,就好比Mysql中的某一个数据库!
(3)**Type:类型 **每个索引库里都可以有一个或多个type,一个type下的document,都有相同的field,就好比Mysql中的某一张表!
(4)Document&field:文档,es 中的最小数据单元,一个document就是一条数据,好比Mysql中的某一张表中的某一行,一个Document可以有多个filed,好比Mysql中某一张表中的某一列!
(5)Cluster:集群,一个集群包含多个节点,可以通过配置指定哪些节点属于哪一个集群!
(6)Node:节点,集群中的一个节点,节点也有一个名称(默认是随机分配的),节点名称很重要(在执行运维管理操作的时候),默认节点会去加入一个名称为“elasticsearch”的集群,如果直接启动一堆节点,那么它们会自动组成一个elasticsearch集群,当然一个节点也可以组成一个elasticsearch集群
(7)shard(分片):单台机器无法存储大量数据,es可以将一个索引中的数据切分为多个shard,分布在多台服务器上存储。有了shard就可以横向扩展,存储更多数据,让搜索和分析等操作分布到多台服务器上去执行,提升吞吐量和性能。每个shard都是一个lucene index。
(8)replica(复制品):任何一个服务器随时可能故障或宕机,此时shard可能就会丢失,因此可以为每个shard创建多个replica副本。replica可以在shard故障时提供备用服务,保证数据不丢失,多个replica还可以提升搜索操作的吞吐量和性能。primary shard(建立索引时一次设置,不能修改,默认5个),replica shard(随时修改数量,默认1个),默认每个索引10个shard,5个primary shard,5个replica shard,最小的高可用配置,是2台服务器。
4. ES集群
为什么需要集群:
解决高并发
解决海量数据存储
解决单点故障
ES节点类型
默认情况下,elasticsearch集群中每个节点都可以是主节点,即可存储数据也可提供查询服务,身兼数职,如果不配置它的角色,在高数据和高并发的场景下,如果该节点宕机,则数据就会分散不完整!
配置 | 值 | 解释 |
---|---|---|
node.master | true | 是否是主节点 |
node.data | true | 是否存储数据 |
- 主节点
node.master=true,代表该节点有成为主资格,主节点的主要职责是和集群操作相关的内容,如创建或删除索引,跟踪哪些节点是群集的一部分,并决定哪些分片分配给相关的节点。一般会把主节点和数据节点分开,node.master=true , node.data=false
- 数据节点
node.data=true,数据节点主要是存储索引数据的节点,主要对文档进行增删改查操作,聚合操作等,数据节点对CPU,IO,内存要求较高,优化节点的时候需要做状态监控,资源不够时要做节点扩充。配置:node.master=false,node.data=true
- 负载均衡节点
当主节点和数据节点配置都设置为false的时候,该节点只能处理路由请求,处理搜索,分发索引操作等,从本质上来说该客户节点表现为智能负载平衡器。配置:mode.master=false,mode.data=false
最佳实践
master节点:三台及以上,负责维护集群的状态
data节点:负责存储数据
client节点(node.master: false node.data: false):负责处理用户请求,转发请求,负载均衡!
5. ES集群理解
shard&replica机制
- 一个index索引库包含多个shard(分片),一个shard是最小的存储单元
- replica shard是primary shard的副本,负责容错,读写分离!
- primary shard的数量在创建索引的时候就固定了,replica shard的数量可以随时修改
- primary shard的默认数量是5,replica默认是1,默认有10个shard,5个primary shard,5个replica shard
- primary shard不能和自己的replica shard放在同一个节点上,如果该节点宕机,primary shard和replica shard数据都会丢失,起不到容错的作用
- 增减节点,shard会自动分配
- 一个Document只可能存在一个primary shard及其对应的replica shard上,不可能存在多个primary shard上
图解Shard分配
a.单node环境下创建index
单node环境下,创建一个index,有3个primary shard,3个replica shard
[图片上传失败...(image-df49c1-1582342886239)]
- 这个时候,只会将3个primary shard分配到仅有的一个node上去,另外3个replica shard是无法分配的
- 集群status是yellow
- 集群可以正常工作,但是一旦出现节点宕机,数据全部丢失,而且集群不可用,无法承接任何请求
b.两个node环境下创建index
2个node环境下,创建一个index, 3个primary shard,3个replica shard
[图片上传失败...(image-d6cb6f-1582342886240)]
c.扩容极限,提升容错
如何让性能达到更优?
- 每个Node更少的Shard,每个Shard资源跟充沛,性能更高
- 扩容极限:6个shard(3 primary,3 replica),最多扩容到6台机器,每个shard可以占用单台服务器的所有资源,性能最好
- 超出扩容极限,动态修改replica数量,9个shard(3primary,6 replica),扩容到9台机器,比3台机器时,拥有3倍的读吞吐量
容错机制-Master选举
-
master node宕机,自动进行master选举, - Red
当某个PrimaryShard (主分片)宕机,这个PrimaryShard的某个ReplicShard(备分片)会通过选举成为PrimaryShard。
-
Replica容错:将replica提升为新的primary shard,- yellow
新的主分片选举成功后,那么保证了主分片的完整性,但是少了一个备分片,所以状态变成了黄色
重启宕机节点:会生成新的ReplicShard,如果宕机前有数据,会像恢复之前的数据,然后从PrimaryShard中拷贝新的数据,这样做的好处是:1.恢复性能好 , 2.可以避免数据同步延迟造成的数据丢失问题(在宕机的一瞬间,有些数据还没同步到ReplicShard,可能会导致数据丢失)
6. 集群搭建
环境准备
真实环境
NodeName | Web端口,客户端端口 |
---|---|
node-1 | 172.168.1.1:9200 172.168.1.1:9300 |
node-2 | 172.168.1.2:9200 172.168.1.2:9300 |
node-3 | 172.168.1.3:9200 172.168.1.3:9300 |
模拟环境
NodeName | Web端口,客户端端口 |
---|---|
node-1 | 127.0.0.1:9201 127.0.0.1:9301 |
node-2 | 127.0.0.1:9202 127.0.0.1:9302 |
node-3 | 127.0.0.1:9203 127.0.0.1:9303 |
注意:需要准备三个ES(拷贝),然后删除data目录 , 如果电脑内存不够,可以把jvm.properties中的内存设置改小
配置说明
- cluster.name
集群名,自定义集群名,默认为elasticsearch,建议修改,因为低版本多播模式下同一网段下相同集群名会自动加入同一集群,如生产环境这样易造成数据运维紊乱。
- node.name
节点名,同一集群下要求每个节点的节点名不一致,起到区分节点和辨认节点作用
- node.master
是否为主节点,选项为true或false,当为true时在集群启动时该节点为主节点,在宕机或任务挂掉之后会选举新的主节点,恢复后该节点依然为主节点
- node.data
是否处理数据,选项为true或false。负责数据的相关操作
- path.data
默认数据路径,可用逗号分隔多个路径
- path.logs
默认日志路径
- bootstrap.mlockall
内存锁,选项为true或false,用来确保用户在es-jvm中设置的ES_HEAP_SIZE参数内存可以使用一半以上而又不溢出
- network.host
对外暴露的host,0.0.0.0时暴露给外网
- http.port
对外访问的端口号,默认为9200,所以外界访问该节点一般为http://ip:9200/
- transport.tcp.port
集群间通信的端口号,默认为9300
- discovery.zen.ping.unicast.hosts
集群的ip集合,可指定端口,默认为9300,如 ["192.168.1.101","192.168.1.102"]
- discovery.zen.minimum_master_nodes
最少的主节点个数,为了防止脑裂,最好设置为(总结点数/2 + 1)个
- discovery.zen.ping_timeout
主节点选举超时时间设置
- gateway.recover_after_nodes
值为n,网关控制在n个节点启动之后才恢复整个集群
- node.max_local_storage_nodes
值为n,一个系统中最多启用节点个数为n
- action.destructive_requires_name
选项为true或false,删除indices是否需要现实名字
修改ES配置
- Node1-配置
# 统一的集群名
cluster.name: my-ealsticsearch
# 当前节点名
node.name: node-1
# 对外暴露端口使外网访问
network.host: 127.0.0.1
# 对外暴露端口
http.port: 9201
#集群间通讯端口号
transport.tcp.port: 9301
#集群的ip集合,可指定端口,默认为9300
discovery.zen.ping.unicast.hosts: ["127.0.0.1:9301","127.0.0.1:9302","127.0.0.1:9303"]
- Node2-配置
# 统一的集群名
cluster.name: my-ealsticsearch
# 当前节点名
node.name: node-2
# 对外暴露端口使外网访问
network.host: 127.0.0.1
# 对外暴露端口
http.port: 9202
#集群间通讯端口号
transport.tcp.port: 9302
#集群的ip集合,可指定端口,默认为9300
discovery.zen.ping.unicast.hosts: ["127.0.0.1:9301","127.0.0.1:9302","127.0.0.1:9303"]
- Node3-配置
# 统一的集群名
cluster.name: my-ealsticsearch
# 当前节点名
node.name: node-3
# 对外暴露端口使外网访问
network.host: 127.0.0.1
# 对外暴露端口
http.port: 9203
#集群间通讯端口号
transport.tcp.port: 9303
#集群的ip集合,可指定端口,默认为9300
discovery.zen.ping.unicast.hosts: ["127.0.0.1:9301","127.0.0.1:9302","127.0.0.1:9303"]
分别启动三个ES节点 , 访问:http://127.0.0.1:9201/
连接集群
修改kibana配置
elasticsearch.url: "http://localhost:9201"
连接其中一个节点自然能连接上整个集群 , 然后启动Kibana
集群查看命令
创建索引
PUT shopping
{
"settings":{
"number_of_shards":5,
"number_of_replicas":1
}
}
GET _cat/nodes?v :查看Node
GET _cat/indices?v : 查看索引库
七.JavaApi操作ES
集成ES
导入依赖
org.elasticsearch.client
transport
5.2.2
org.apache.logging.log4j
log4j-api
2.7
org.apache.logging.log4j
log4j-core
2.7
连接ES
编写工具
public class ESClientUtil {
public static TransportClient getClient(){
Settings settings = Settings.builder()
.put("cluster.name","my-ealsticsearch")
.put("client.transport.sniff", true).build();
TransportClient client = null;
try {
client = new PreBuiltTransportClient(settings)
.addTransportAddress(
new InetSocketTransportAddress(InetAddress.getByName("127.0.0.1"), 9303));
} catch (UnknownHostException e) {
e.printStackTrace();
}
return client;
}
}
文档CRUD
添加文档
@Test
public void testAdd() {
//获取客户端对象
TransportClient client = ESClientUtil.getClient();
//创建索引
IndexRequestBuilder indexRequestBuilder = client.prepareIndex("shopping", "user", "1");
Map data = new HashMap<>();
data.put("id",1);
data.put("username","zs");
data.put("age",11);
//获取结果
IndexResponse indexResponse = indexRequestBuilder.setSource(data).get();
System.out.println(indexResponse);
client.close();
}
9.2.2.获取文档
GetResponse response = client.prepareGet("crm", "vip", "1").get();
9.2.3.更新文档
@Test
public void testUpdate(){
//获取客户端对象
TransportClient client = ESClientUtil.getClient();
//修改索引
UpdateRequestBuilder updateRequestBuilder = client.prepareUpdate("shopping", "user", "1");
Map data = new HashMap<>();
data.put("id",1);
data.put("username","zs");
data.put("age",11);
//获取结果设置修改内容
UpdateResponse updateResponse = updateRequestBuilder.setDoc(data).get();
System.out.println(updateResponse);
client.close();
}
9.2.4.删除文档
@Test
public void testDelete(){
//获取客户端对象
TransportClient client = ESClientUtil.getClient();
DeleteRequestBuilder deleteRequestBuilder = client.prepareDelete("shopping", "user", "1");
DeleteResponse deleteResponse = deleteRequestBuilder.get();
System.out.println(deleteResponse);
client.close();
}
9.2.5.批量操作
@Test
public void testBuilkAdd(){
//获取客户端对象
TransportClient client = ESClientUtil.getClient();
BulkRequestBuilder bulkRequestBuilder = client.prepareBulk();
Map data1 = new HashMap<>();
data1.put("id",11);
data1.put("username","zs");
data1.put("age",11);
bulkRequestBuilder.add(client.prepareIndex("shopping", "user", "11").setSource(data1));
Map data2 = new HashMap<>();
data2.put("id",22);
data2.put("username","zs");
data2.put("age",11);
bulkRequestBuilder.add(client.prepareIndex("shopping", "user", "11").setSource(data2));
BulkResponse bulkItemResponses = bulkRequestBuilder.get();
Iterator iterator = bulkItemResponses.iterator();
while(iterator.hasNext()){
BulkItemResponse next = iterator.next();
System.out.println(next.getResponse());
}
client.close();
}
9.3.查询
@Test
public void testSearch(){
//获取客户端对象
TransportClient client = ESClientUtil.getClient();
SearchRequestBuilder searchRequestBuilder = client.prepareSearch("shopping");
searchRequestBuilder.setTypes("user");
searchRequestBuilder.setFrom(0);
searchRequestBuilder.setSize(10);
searchRequestBuilder.addSort("age", SortOrder.ASC);
//查询条件
BoolQueryBuilder boolQueryBuilder = QueryBuilders.boolQuery();
List must = boolQueryBuilder.must();
must.add(QueryBuilders.matchQuery("username" , "zs"));
List filter = boolQueryBuilder.filter();
filter.add(QueryBuilders.rangeQuery("age").lte(20).gte(10));
filter.add(QueryBuilders.termQuery("id",11));
searchRequestBuilder.setQuery(boolQueryBuilder);
SearchResponse searchResponse = searchRequestBuilder.get();
SearchHits hits = searchResponse.getHits();
System.out.println("条数:"+hits.getTotalHits());
for (SearchHit hit : hits.getHits()) {
System.out.println(hit.getSource());
}
client.close();
}