Elasticsearch 基础

Elasticsearch是一个分布式的搜索引擎和数据分析引擎,支持全文检索,结构化检索,能够对海量数据进行近实时的处理。下面是ES中的一些基本概念:

  • Node: Elastic本质上是一个分布式数据库,允许多台服务器协同工作。每台服务器上可以运行一个或多个Elastic实例(一般运行一个),其中一个Elastic实例就是一个Node,多台机器上的多个Elastic实例就构成了一个Cluster。
  • Document: 文档,es中的最小数据单元,一个document代表了一条es中存储的数据。例如一条商品分类数据,一条订单数据,通常使用JSON数据格式表示一条Document。一条Document相当于关系型数据库中的一条记录。
  • Field: 一个Document里有多个field,每个field就是一个字段。例如一条商品数据就可能包含以下field: product_id,product_name,product_desc,category_id,category_name。一个Field相当于关系型数据库中一张表的字段。
  • Index: 索引,包含一堆有相似结构的文档数据,比如一个客户索引,商品分类索引,订单索引等等。一个index包含很多document,一个index就代表了一类类似的或者相同的document。比如说建立一个product index,商品索引,里面可能就存放了所有的商品数据,即所有的商品document。一个index相当于关系型数据库中的一个database。
  • Type:类型,每个索引里都可以有一个或多个type,type是index中的一个逻辑数据分类。一个type下的document,都有相同的field。比如一个博客数据index,其中可能有用户数据type,博客数据type和评论数据type等。一个type相当于关系型数据库中的一张表。
  • Shard: 单台机器无法存储大量数据,es可以将一个索引中的数据切分为多个shard,分布在多台机器上存储。有了shard就可以横向扩展,存储更多数据,让搜索和分析等操作分布到多台服务器上去执行,提升吞吐量和性能。
  • Replica: 任何一个服务器随时可能故障或宕机,此时shard可能就会丢失,因此可以为每个shard创建多个replica副本。replica可以在shard故障时提供备用服务,保证数据不丢失,多个replica还可以提升搜索操作的吞吐量和性能。

数据操作

新增文档

下面的例子表示向accounts index的person type中添加一个document:

$ curl -X POST 'localhost:9200/accounts/person' -d '
{
"user": "李四",
"title": "工程师",
"desc": "系统管理"
}'

服务器返回的response如下:

{
"_index":"accounts",
"_type":"person",
"_id":"AV3qGfrC6jMbsbXb6k1p",
"_version":1,
"result":"created",
"_shards":{"total":2,"successful":1,"failed":0},
"created":true
}

response中包含了index名称,type名称,自动生成的id和shards信息等。

更新文档

$ curl -X PUT 'localhost:9200/accounts/person/1' -d '
{
"user" : "张三",
"title" : "工程师",
"desc" : "数据库管理,软件开发"
}'

{
"_index":"accounts",
"_type":"person",
"_id":"1",
"_version":2,
"result":"updated",
"_shards":{"total":2,"successful":1,"failed":0},
"created":false
}

上面的例子修改了id为1的person记录,我们将desc从“数据库管理”修改为了“数据库管理,软件开发”。返回的response中,"result"从新建的"created"变为了更新的"updated","_version"从1变成了2,"created"字段值为false。

删除文档

删除文档就是发送DELETE请求:

$ curl -X DELETE 'localhost:9200/accounts/person/1'

Query string search

这种方法通过HTTP请求的Query String携带查询参数进行查询,适用于临时性的查询需求,例如:

# 检索name中包含Java的文档, 并按价格降序排序: 
curl -XGET '[http://localhost:9301/book_shop/it_book/_search?q=name:Java&sort=price:desc](http://localhost:9301/book_shop/it_book/_search?q=name:Java&sort=price:desc)' 

Query DSL

DSL: Domain Specified Language, 特定领域的语言, 一般需要Kibana等工具配合操作。

这种方式把查询参数构建成JSON格式的数据, 并封装到HTTP请求的Request Body(请求体)中, 可以构建各类复杂的查询语法, 功能要比Query String Search强大很多。

1. 查询全部商品

GET book_shop/it_book/_search
{
"query": { "match_all": {} }
}

2. 查询name中包含Java的商品,并按照price降序排序

GET book_shop/it_book/_search
{
"query": {
"match": {
"name": "Java"
}
},
"sort": [
{ "price": "desc" }
]
}

3. 分页查询商品,每页显示1条, 显示第3页

GET book_shop/it_book/_search
{
"query": { "match_all": {} },
"from": 2,
"size": 1
}

4. 只查询商品的名称和价格

GET book_shop/it_book/_search
{
"query": {"match_all": {}},
"_source": ["name", "price"]
}

5. 过滤查询,查询name中包含Java,且price不大于80元的商品

GET book_shop/it_book/_search
{
"query": {
"bool": {
"must": {
"match": {"name": "Java"} // name中含有Java
},
"filter": {
"range": { 
"price": {"lte": 80.0} // 价格不大于80.0
}
}
}
}
}

6. 全文检索,查询描述信息desc中包含"Java图书"的文档, 并只显示name和desc的值

GET book_shop/it_book/_search
{
"query": {
"match": {"desc": "Java图书"}
},
"_source": ["name", "desc"]
}

返回结果如下:

{
"took" : 2,
"timed_out" : false,
"_shards" : {
"total" : 5,
"successful" : 5,
"skipped" : 0,
"failed" : 0
},
"hits" : {
"total" : 2,
"max_score" : 0.8630463,
"hits" : [
{
"_index" : "book_shop",
"_type" : "it_book",
"_id" : "2",
"_score" : 0.8630463,
"_source" : {
"name" : "深入理解Java虚拟机:JVM高级特性与最佳实践",
"desc" : "Java图书领域公认的经典著作" // desc中有"Java"和"图书"
}
},
{
"_index" : "book_shop",
"_type" : "it_book",
"_id" : "1",
"_score" : 0.2876821,
"_source" : {
"name" : "Java编程思想(第4版)",
"desc" : "Java学习必读经典,殿堂级著作!" // desc中有"Java"
}
}
]
}
}

参考文章

  • https://www.cnblogs.com/shoufeng/p/9952002.html
  • https://www.ruanyifeng.com/blog/2017/08/elasticsearch.html

你可能感兴趣的:(Elasticsearch 基础)