Elasticsearch知识点

Elasticsearch知识点

小王第一次尝试写博客,今天给大家带来的是ElasticSearch详细的知识点,内容有点长,希望对elasticSearch感兴趣的朋友可以耐心学习学习

文章目录

  • Elasticsearch知识点
    • 1.文档管理
      • 1.1创建索引(index)
      • 2.1什么是全文搜索
      • 3.1索引index
      • 3.2映射(Mapper)
      • 3.3字段Field
      • 3.4字段类型Type
      • 3.5文档document
      • 3.6集群cluster
      • 3.7节点node
      • 3.8分片和副本shards&replicas
        • 3.8.1分片
      • 4.1 新增记录
      • 4.2 查看记录
      • 4.3 删除记录
      • 4.4 更新记录
      • 5.1 返回所有记录
      • 5.2 全文搜索
      • 5.3 逻辑运算

1.文档管理

CRUD表“创建”或者“索引”。

1.1创建索引(index)

要索引一个JSON对象,创建一个put请求一个URL,例:http://localhost:9200///[]。由索引,类型与id组成,索引和类型是必需的,id是可选的。不加id只能为post请求。

索引名称:任意的,如果服务器上没有此名称的索引,将使用默认配置来创建一个索引。

类型名称:任意的,

​ 用途:1每种类型都有自己的ID空间。

​ 2.不同类型具有不同的映射(“模式”,定义属性/字段应如何编制索引)。

​ 3.搜索多种类型是可以的,并且也很常见,但很容易搜索一种或多种指定类型。

Lucene全文搜索框架

2.1什么是全文搜索

全文检索是指:

通过一个程序扫描文本中的每一个单词,针对单词建立索引,并保存该单词在文本中的位置,以及出现的次数;

用户查询时,通过之前建立好的索引来查询,将索引中单词对应的文本位置,出现的次数返回给用户,因为有了具体文本的位置,所以就可以将具体内容读取出来了

3.1索引index

Index:Elasticsearch的Index相当于数据库的Table

yo一个索引就是拥有几分相似特征的文档的集合。比如说:可以有一个客户数据的索引,另一个产品目录的索引,还有一个订单数据的索引,一个索引由一个名称来标识(必须全部时小写字母的),并且当我们要对对应于这个索引中的文档进行索引,搜索,更新和删除的时候,都要使用到这个名字

下面的命令可以查看当前节点的所有 Index。

$ curl -X GET 'http://localhost:9200/_cat/indices?v'

新建 Index,可以直接向 Elastic 服务器发出 PUT 请求。下面的例子是新建一个名叫weather的 Index。

$ curl -X PUT 'localhost:9200/weather'

服务器返回一个 JSON 对象,里面的acknowledged字段表示操作成功。

{
  "acknowledged":true,
  "shards_acknowledged":true
}

然后,我们发出 DELETE 请求,删除这个 Index。

$ curl -X DELETE 'localhost:9200/weather'

3.2映射(Mapper)

Mapper来定义一个文档

mapping是处理数据的方式和规则方面做一些限制,如某个字段的数据类型,默认值,分词器,是否被索引等等,这些都是映射里面可以设置的

3.3字段Field

相当于是数据表的字段1列

3.4字段类型Type

每一个字段都应该有一个对应的类型,例如:Text,Keyword,Byte等;相当于一类表;

3.5文档document

一个文档是一个可被索引的基础信息单元,类似一条记录,文档以Json格式来表示;

3.6集群cluster

一个集群就是由一个或多个节点组织在一起,他们共同持有整个的数据,并一起提供索引和搜索功能;

3.7节点node

一个节点是集群中的一个服务器,作为集群的一部分,它存储数据,参与集群索引有和搜索功能

一个节点可以通过配置集群名称的方式来加入一个指定的集群。默认情况下,每个节点都会被安排加入到一个叫“elasticsearch”的集群中

这意味着,如果网络中启动了若干个节点,并假定他们能够相互发现彼此,他们将会自动的形成并加入到一个叫做“elasticsearch”的集群中

在一个集群里,可以拥有任意多个节点。而且,如果当前网络中没有运行任何Elasticsearch节点,这是启动一个节点,会默认创建并加入一个叫做“elasticsearch”的集群中

3.8分片和副本shards&replicas

3.8.1分片

一个索引可以存储超出单个结点硬件限制的大量数据。

分片:将索引分为多份,

在众多的节点中,其中会有一个Master Node,它主要负责维护索引元数据、负责切换主分片和副本分片身份等工作(后面会讲到分片的概念),如果主节点挂了,会选举出一个新的主节点。

为什么要分片?原因也很简单:

  • 如果一个Index的数据量太大,只有一个分片,那只会在一个节点上存储,随着数据量的增长,一个节点未必能把一个Index存储下来。

  • 多个分片,在写入或查询的时候就可以并行操作(从各个节点中读写数据,提高吞吐量)

  • Type:这个在新的Elasticsearch版本已经废除(在以前的Elasticsearch版本,一个Index下支持多个Type–有点类似于消息队列一个topic下多个group的概念)

  • Document:Document相当于数据库的一行记录

  • Field:相当于数据库的Column的概念

  • Mapping:相当于数据库的Schema的概念

  • DSL:相当于数据库的SQL(给我们读取Elasticsearch数据的API)

  • 将数据写到内存缓存区

  • 然后将数据写到translog缓存区

  • 每隔1s数据从buffer中refresh到FileSystemCache中,生成segment文件,一旦生成segment文件,就能通过索引查询到了

  • refresh完,memory buffer就清空了。

  • 每隔5s中,translog 从buffer flush到磁盘中

  • 定期/定量从FileSystemCache中,结合translog内容flush index到磁盘中。

    4.1 新增记录

    向指定的 /Index/Type 发送 PUT 请求,就可以在 Index 里面新增一条记录。比如,向/accounts/person发送请求,就可以新增一条人员记录。

    $ curl -X PUT 'localhost:9200/accounts/person/1' -d '
    {
      "user": "张三",
      "title": "工程师",
      "desc": "数据库管理"
    }' 
    

    服务器返回的 JSON 对象,会给出 Index、Type、Id、Version 等信息。

    {
      "_index":"accounts",
      "_type":"person",
      "_id":"1",
      "_version":1,
      "result":"created",
      "_shards":{"total":2,"successful":1,"failed":0},
      "created":true
    }
    

    如果你仔细看,会发现请求路径是/accounts/person/1,最后的1是该条记录的 Id。它不一定是数字,任意字符串(比如abc)都可以。

    新增记录的时候,也可以不指定 Id,这时要改成 POST 请求。

    $ curl -X POST 'localhost:9200/accounts/person' -d '
    {
      "user": "李四",
      "title": "工程师",
      "desc": "系统管理"
    }'
    

    上面代码中,向/accounts/person发出一个 POST 请求,添加一个记录。这时,服务器返回的 JSON 对象里面,_id字段就是一个随机字符串。

    {
      "_index":"accounts",
      "_type":"person",
      "_id":"AV3qGfrC6jMbsbXb6k1p",
      "_version":1,
      "result":"created",
      "_shards":{"total":2,"successful":1,"failed":0},
      "created":true
    }
    

    注意,如果没有先创建 Index(这个例子是accounts),直接执行上面的命令,Elastic 也不会报错,而是直接生成指定的 Index。所以,打字的时候要小心,不要写错 Index 的名称。

    4.2 查看记录

    /Index/Type/Id发出 GET 请求,就可以查看这条记录。

    $ curl 'localhost:9200/accounts/person/1?pretty=true'
    

    上面代码请求查看/accounts/person/1这条记录,URL 的参数pretty=true表示以易读的格式返回。

    返回的数据中,found字段表示查询成功,_source字段返回原始记录。

    {
      "_index" : "accounts",
      "_type" : "person",
      "_id" : "1",
      "_version" : 1,
      "found" : true,
      "_source" : {
        "user" : "张三",
        "title" : "工程师",
        "desc" : "数据库管理"
      }
    }4
    

    如果 Id 不正确,就查不到数据,found字段就是false

    $ curl 'localhost:9200/weather/beijing/abc?pretty=true'
    
    {
      "_index" : "accounts",
      "_type" : "person",
      "_id" : "abc",
      "found" : false
    }
    

    4.3 删除记录

    删除记录就是发出 DELETE 请求。

    $ curl -X DELETE 'localhost:9200/accounts/person/1'
    

    这里先不要删除这条记录,后面还要用到。

    4.4 更新记录

    更新记录就是使用 PUT 请求,重新发送一次数据。

    $ curl -X PUT 'localhost:9200/accounts/person/1' -d '
    {
        "user" : "张三",
        "title" : "工程师",
        "desc" : "数据库管理,软件开发"
    }' 
    
    {
      "_index":"accounts",
      "_type":"person",
      "_id":"1",
      "_version":2,
      "result":"updated",
      "_shards":{"total":2,"successful":1,"failed":0},
      "created":false
    }
    

    上面代码中,我们将原始数据从"数据库管理"改成"数据库管理,软件开发"。 返回结果里面,有几个字段发生了变化。

    "_version" : 2,
    "result" : "updated",
    "created" : false
    

    可以看到,记录的 Id 没变,但是版本(version)从1变成2,操作类型(result)从created变成updatedcreated字段变成false,因为这次不是新建记录。

5.1 返回所有记录

使用 GET 方法,直接请求/Index/Type/_search,就会返回所有记录。

$ curl 'localhost:9200/accounts/person/_search'

{
  "took":2,
  "timed_out":false,
  "_shards":{"total":5,"successful":5,"failed":0},
  "hits":{
    "total":2,
    "max_score":1.0,
    "hits":[
      {
        "_index":"accounts",
        "_type":"person",
        "_id":"AV3qGfrC6jMbsbXb6k1p",
        "_score":1.0,
        "_source": {
          "user": "李四",
          "title": "工程师",
          "desc": "系统管理"
        }
      },
      {
        "_index":"accounts",
        "_type":"person",
        "_id":"1",
        "_score":1.0,
        "_source": {
          "user" : "张三",
          "title" : "工程师",
          "desc" : "数据库管理,软件开发"
        }
      }
    ]
  }
}

上面代码中,返回结果的 took字段表示该操作的耗时(单位为毫秒),timed_out字段表示是否超时,hits字段表示命中的记录,里面子字段的含义如下。

  • total:返回记录数,本例是2条。
  • max_score:最高的匹配程度,本例是1.0
  • hits:返回的记录组成的数组。

返回的记录中,每条记录都有一个_score字段,表示匹配的程序,默认是按照这个字段降序排列。

5.2 全文搜索

Elastic 的查询非常特别,使用自己的查询语法,要求 GET 请求带有数据体。

$ curl 'localhost:9200/accounts/person/_search'  -d '
{
  "query" : { "match" : { "desc" : "软件" }}
}'

上面代码使用 Match 查询,指定的匹配条件是desc字段里面包含"软件"这个词。返回结果如下。

{
  "took":3,
  "timed_out":false,
  "_shards":{"total":5,"successful":5,"failed":0},
  "hits":{
    "total":1,
    "max_score":0.28582606,
    "hits":[
      {
        "_index":"accounts",
        "_type":"person",
        "_id":"1",
        "_score":0.28582606,
        "_source": {
          "user" : "张三",
          "title" : "工程师",
          "desc" : "数据库管理,软件开发"
        }
      }
    ]
  }
}

Elastic 默认一次返回10条结果,可以通过size字段改变这个设置。

$ curl 'localhost:9200/accounts/person/_search'  -d '
{
  "query" : { "match" : { "desc" : "管理" }},
  "size": 1
}'

上面代码指定,每次只返回一条结果。

还可以通过from字段,指定位移。

$ curl 'localhost:9200/accounts/person/_search'  -d '
{
  "query" : { "match" : { "desc" : "管理" }},
  "from": 1,
  "size": 1
}'

上面代码指定,从位置1开始(默认是从位置0开始),只返回一条结果。

5.3 逻辑运算

如果有多个搜索关键字, Elastic 认为它们是or关系。

$ curl 'localhost:9200/accounts/person/_search'  -d '
{
  "query" : { "match" : { "desc" : "软件 系统" }}
}'

上面代码搜索的是软件 or 系统

如果要执行多个关键词的and搜索,必须使用布尔查询。

$ curl 'localhost:9200/accounts/person/_search'  -d '
{
  "query": {
    "bool": {
      "must": [
        { "match": { "desc": "软件" } },
        { "match": { "desc": "系统" } }
      ]
    }
  }
}'

下一章给大家推荐一下如何在你自己的服务器上部署elasticSearch,elasticsearch-head-master,kibana安装这里小编给大家推荐一个视频视频前几张讲的很好大家可以按人家的步骤一步一步来部署。
Elasticsearch知识点_第1张图片

***注:小编第一次尝试写文章,各位路过的大佬们看完以后感觉哪有些缺陷是否可以帮小编指出来,我及时改正,如果您觉得还行是否可以留下您免费的一颗小爱心,谢谢大家了

你可能感兴趣的:(elasticsearch,搜索引擎,大数据)