ElasticSearch基础入门

ElasticSearch基础入门

小注解:全原创,一个字一个字敲的,全测试过了,可以跑通,猿猴们,欢迎大家点点关注,收藏点赞走起,持续更新原创文档,通俗易懂

1.核心概念

1.1 索引(Index)

  • 白话:相当于mysql的数据库
  • 一个索引就是一个拥有几分相似特征的文档的集合。比如说,你可以有一个客户数据的索引,另一个产品目录的索引,还有一个订单数据的索引。一个索引由一个名字来标识(必须全部是小写字母),并且当我们要对这个索引中的文档进行索引、搜索、更新和删除的时候,都要使用到这个名字。在一个集群中,可以定义任意多的索引。能搜索的数据必须索引,这样的好处是可以提高查询速度,比如:新华字典前面的目录就是索引的意思,目录可以提高查询速度。
  • ElasticSearch索引的精髓:一切设计都是为了提高搜索的性能

1.2 类型(Type)

  • 白话:相当于mysql的表,不过es是直接索引对应文档的,这个type没意义,7.0以上后就被弃用了
  • 在一个索引中,你可以定义一种或多种类型。一个类型是你的索引的一个逻辑上的分类/分区,其语义完全由你来定。通常,会为具有一组共同字段的文档定义一个类型。不同的版本,类型发生了不同的变化==(类型其实毫无意义)==
  • ElasticSearch基础入门_第1张图片

1.3 文档(Document)

  • 白话:文档就相当于mysql中表中的一行行数据,一条文档=一条数据(由JSON组成的数据)
  • 一个文档是一个可被索引的基础信息单元,也就是一条数据,比如:你可以拥有某一个客户的文档,某一个产品的一个文档,当然,也可以拥有某个订单的一个文档。文档以 JSON(Javascript Object Notation)格式来表示,而 JSON 是一个到处存在的互联网数据交互格式。在一个 index/type 里面,你可以存储任意多的文档。

1.4 字段(Field)

  • 白话:字段相当于mysql中表的字段(列),比如age年龄字段,name名称字段
  • 相当于是数据表的字段,对文档数据根据不同属性进行的分类标识。

1.5 映射(Mapping)

  • 白话:定义规格,比如某个字段是否可以被索引等等
  • mapping 是处理数据的方式和规则方面做一些限制,如:某个字段的数据类型、默认值、分析器、是否被索引等等。这些都是映射里面可以设置的,其它就是处理 ES 里面数据的一些使用规则设置也叫做映射,按着最优规则处理数据对性能提高很大,因此才需要建立映射,并且需要思考如何建立映射才能对性能更好。

1.6 分片(Shards)

  • 白话:类似mysql中的水平分表,一个表存多了搜索起来卡,就分成多个表进行存储,作用:缓解压力,提高吞吐量

  • 一个索引可以存储超出单个节点硬件限制的大量数据。比如,一个具有 10 亿文档数据的索引占据 1TB 的磁盘空间,而任一节点都可能没有这样大的磁盘空间。或者单个节点处理搜索请求,响应太慢。为了解决这个问题,Elasticsearch 提供了将索引划分成多份的能力,每一份就称之为分片。当你创建一个索引的时候,你可以指定你想要的分片的数量。每个分片本身也是一个功能完善并且独立的“索引”,这个“索引”可以被放置到集群中的任何节点上。

  • 分片很重要,主要有两方面的原因:

    1. 允许你水平分割 / 扩展你的内容容量。
    2. 允许你在分片之上进行分布式的、并行的操作,进而提高性能/吞吐量。
  • 至于一个分片怎样分布,它的文档怎样聚合和搜索请求,是完全由 Elasticsearch 管理的,对于作为用户的你来说,这些都是透明的,无需过分关心。

  • 被混淆的概念是,一个Lucene索引 我们在Elasticsearch称作 分片 。 一个Elasticsearch索引 是分片的集合。 当Elasticsearch在索引中搜索的时候, 他发送查询到每一个属于索引的分片(Lucene索引),然后合并每个分片的结果到一个全局的结果集。

1.7 副本(Replicas)

  • 白话:副本相当于备份,如果分片挂了,副本顶上,还能进行负载均衡,分片和副本两个切换着来使用,集群环境下,副本是存储在其他集群节点上的,为了保证高可用。
  • 在一个网络 / 云的环境里,失败随时都可能发生,在某个分片/节点不知怎么的就处于离线状态,或者由于任何原因消失了,这种情况下,有一个故障转移机制是非常有用并且是强烈推荐的。为此目的,Elasticsearch 允许你创建分片的一份或多份拷贝,这些拷贝叫做复制分片(副本)。
  • 复制分片之所以重要,有两个主要原因:
    • 在分片/节点失败的情况下,提供了高可用性。因为这个原因,注意到复制分片从不与原/主要(original/primary)分片置于同一节点上是非常重要的。
    • 扩展你的搜索量/吞吐量,因为搜索可以在所有的副本上并行运行。
    • 总之,每个索引可以被分成多个分片。一个索引也可以被复制 0 次(意思是没有复制)或多次。一旦复制了,每个索引就有了主分片(作为复制源的原来的分片)和复制分片(主分片的拷贝)之别。分片和复制的数量可以在索引创建的时候指定。在索引创建之后,你可以在任何时候动态地改变复制的数量,但是你事后不能改变分片的数量。默认情况下,Elasticsearch 中的每个索引被分片 1 个主分片和 1 个复制,这意味着,如果你的集群中至少有两个节点,你的索引将会有 1 个主分片和另外 1 个复制分片(1 个完全拷贝),这样的话每个索引总共就有 2 个分片,我们需要根据索引需要确定分片个数。

1.8 分配(Allocation)

  • 白话:也就是分配规格,集群下如果有3个节点,其中一个是主节点,由主节点来分配分片副本的规格,参考下面系统架构的图

    P:分片

    R:副本

  • 将分片分配给某个节点的过程,包括分配主分片或者副本。如果是副本,还包含从主分片复制数据的过程。这个过程是由 master 节点完成的。

##2.ElasticSearch索引概念

2.1 正排索引

  • ElasticSearch基础入门_第2张图片

  • 根据索引id查询value(根据key查询value)

2.2 倒排索引

  • ElasticSearch基础入门_第3张图片

  • 根据值查询id(根据value查询key)

    • es会先对value进行拆分(分词),value会对应相对应的id,查询的时候会根据这个value查询所对应的一些id

3.索引操作

3.1 创建索引

  • 对比关系型数据库,创建索引就相当于创建数据库

  • 向ES服务器发送PUT请求:http://127.0.0.1:9200/索引名(数据库名)

  • 文档类型

    • text 可被分词
    • keyword 不可被分词
  • index 是否索引

    • true 可以被索引(默认)
    • false 不可被索引(搜索不到)
  • PUT 索引名
    {
      "mappings": {
        "properties": {
          "name":{
            "type": "text" //text可被分词
            , "index": true
          },
          "sex":{
            "type": "keyword" //keyword 不可被分词
            ,"index": true
          },
          "tel":{
            "type": "keyword"
            ,"index": false //index = false 不可被索引
          }
        }
      }
    

3.2 获取索引信息

  • 向ES服务器发送GET请求:http://127.0.0.1:9200/索引名(数据库名)

3.3 获取所有索引

  • 向ES服务器发送GET请求:http://127.0.0.1:9200/_cat/indices?v

3.4 删除索引

  • 向ES服务器发送DELETE请求:http://127.0.0.1:9200/索引名(数据库名)

4.文档操作

4.1 创建文档

  • 文档=数据
  • 可以PUT也可以POST
  • PUT:http://127.0.0.1:9200/索引名/_doc/id
  • POST:http://127.0.0.1:9200/索引名/_doc/id(id可选操作,有id则以id为标准,没有id则随机生成)

4.2 查询文档-简单查询(根据ID查询)

  • 向ES服务器发送GET请求:http://127.0.0.1:9200/索引名/_doc/id

4.3 修改文档

  • 全局修改

    • 向ES服务器发送PUT请求:http://127.0.0.1:9200/索引名/_doc/id
    • 请求体发送JSON
  • 局部修改

    • 向ES服务器发送POST请求:http://127.0.0.1:9200/索引名/_doc/id/_update

    • 请求体发送JSON,修改内容包含在doc里面

      •  {
             "doc":{
                 "price": 15999.00
             }
         }
        

4.4 删除文档

  • 向ES服务器发送POST请求:http://127.0.0.1:9200/索引名/_doc/id

4.5 条件查询

  1. 向ES服务器发送==GET==请求:http://127.0.0.1:9200/索引名/_search/q=key:value

4.6 复杂查询

  1. 向ES服务器发送GET请求:http://127.0.0.1:9200/索引名/_search

  2. 参数说明

    1. query 条件

      • {
            "query": {}
        }
        
    2. match: 匹配

      • {
            "query": {
                "match": {
                    "category": "小米" // key:字段名 value:查询值
                }
            }
        }
        
    3. match_phrase 完全匹配 比如小米 那么一段话中小和米两个字必须挨在一起

      • {
            "query": {
                "match_phrase": {
                    "category": "小米"
                }
            }
        }
        
    4. match_all 查询所有(一般分页查询)

      • {
            "query": {
                "match_all": {}
            }
        }
        
      • 分页查询

      • from:从第几条开始查询

      • size:查询几条

      • {
            "query": {
                "match_all": {}java
            },
            "from": 0, //从第几条开始查询(偏移量)
            "size": 2 //每页显示多少条
        }
        
    5. _source 数据源控制(查出你所需要的字段列)

      • {
            "query": {
                "match_all": {}
            },
            "_source": [ //需要显示的字段名
                "title",
                "price"
            ]
        }
        
    6. sort 排序

      • {
            "query": {
                "match_all": {}
            },
            "sort": {
                "price": { //需要排序的字段
                    "order": "desc" //key:固定的order value可选asc升序 desc降序
                }
            }
        }
        

4.7 must 多条件查询

  1. must 相当于mysql中的and

  2. should 相当于mysql中的or

  3. must_not 与must相反 must是必须全部匹配 must_not是必须全部不匹配

  4. filter 过滤

    1. range 范围查询
      • gt 大于
      • lt 小于
      • gte 大于等于
      • lte 小于等于
  5. {
        "query": {
            "bool": {
                "must": [
                    {
                        "match": {
                            "category": "小米"
                        }
                    },
                    {
                        "match": {
                            "price": 3999
                        }
                    }
                ],
                "filter": { //过滤
                    "range": { //范围查询
                        "price": { //字段
                            "gt": 3000 //gt表示大于
                        }
                    }
                }
            }
        }
    }
    

4.8 highlight 高亮查询显示

  1. 使用highlight属性来实现结果高亮显示,需要的字段名称添加到fields内即可,elasticsearch会自动帮我们实现高亮。

    • {
          "query": {
              "match_phrase": {
                  "category": "小米"
              }
          },
          "highlight": {
              "fields": {
                  "category": {}//高亮字段
              }
          }
      }
      
  2. 自定义高亮显示

    1. pre_tags 以什么标签开头

    2. post_tags 以什么标签结尾

    3. {
          "query": {
              "match_phrase": {
                  "category": "小米"
              }
          },
          "highlight": {
              "pre_tags": "",
              "post_tags": "",
              "fields": {
                  "category": {}
              }
          }
      }
      

4.9 聚合查询

  1. terms 分组

    • 默认会显示原始数据 不需要原始数据加上size:0

    • {
          "aggs": { //聚合操作
              "price_group": { //给聚合操作取名字 比如这里是对价格分组
                  "terms": { //分组
                      "field": "price" //分组字段
                  }
              }
          },
          "size": 0 //可选 不加则显示原始数据 加了则不显示
      }
      
  2. avg 平均值

    • 默认会显示原始数据 不需要原始数据加上size:0

    • {
          "aggs": { //聚合操作
              "price_group": { //给聚合操作取名字 比如这里是对价格分组
                  "avg": { //分组
                      "field": "price" //分组字段
                  }
              }
          },
          "size": 0 //可选 不加则显示原始数据 加了则不显示
      }
      

5.部署

5.1 概述

​ 单台ElasticSearch服务器提供服务,往往都有最大的负载能力,超过这个阀值,服务器的性能就会大大的降低,甚至不可用,所以生产环境中,一般都是运行在指定服务器集群中

除了负载能力,单点服务器也存在其他问题

  • 单台服务器存储容量有限
  • 单服务器容易出现单点故障无法实现高可用
  • 单服务的并发处理能力有限

配置服务器集群时,集群中节点数量没有限制大于等于2个节点就可以看作是一个集群,一般出于高性能及高可用方面来考虑,集群中节点数量都是大于3个

5.2 Linux部署单机elasticSearch

  1. 下载elasticSearch 地址:https://www.elastic.co/cn/downloads/past-releases#elasticsearch

    • ElasticSearch基础入门_第4张图片
  2. 解压elasticSearch压缩包

    • tar zxvf 文件名
      
  3. 新建es用户

    • useradd es #新增 es 用户
      passwd es #为 es 用户设置密码
      userdel -r es #如果错了,可以删除再加
      chown -R es:es es目录 #赋予文件夹所有者
      
  4. 修改elasticSearch目录中config/elasticSearch.yml配置文件

    • cluster.name: elasticsearch #集群名称
      node.name: node-1 #节点名称
      network.host: 0.0.0.0
      http.port: 9200 #端口号
      cluster.initial_master_nodes: ["node-1"] #表示把当前机器当作主节点
      
  5. 修改系统文件vim /etc/security/limits.conf

    • # 在文件末尾中增加下面内容
      # 每个进程可以打开的文件数的限制
      es soft nofile 65536
      es hard nofile 65536
      
  6. 修改系统文件vim /etc/security/limits.d/20-nproc.conf

    • # 在文件末尾中增加下面内容
      # 每个进程可以打开的文件数的限制
      es soft nofile 65536
      es hard nofile 65536
      
  7. 修改系统文件vim /etc/sysctl.conf

    • # 在文件中增加下面内容
      # 一个进程可以拥有的 VMA(虚拟内存区域)的数量,默认值为 65536
      vm.max_map_count=655360
      
  8. 重新加载

    • sysctl -p
      
  9. 启动软件

    1. 使用 ES 用户启动

      • cd es目录
        #启动
        bin/elasticsearch
        #后台启动
        bin/elasticsearch -d
        
      • 启动时,会动态生成文件,如果文件所属用户不匹配,会发生错误,需要重新进行修改用户和用户组(参考5.2-3)

      • ElasticSearch基础入门_第5张图片

      • 关闭防火墙

        • #暂时关闭防火墙
          
          systemctl stop firewalld
          
          #永久关闭防火墙
          
          systemctl enable firewalld.service #打开放货抢永久性生效,重启后不会复原
          
          systemctl disable firewalld.service #关闭防火墙,永久性生效,重启后不会复原
          

5.4 linux部署集群elasticSearch

  1. 下载elasticSearch 地址:点击此处打开elasticSearch下载地址

    • ElasticSearch基础入门_第6张图片
  2. 解压elasticSearch压缩包

    • tar zxvf 文件名
      
  3. 新建es用户

    • useradd es #新增 es 用户
      passwd es #为 es 用户设置密码
      userdel -r es #如果错了,可以删除再加
      chown -R es:es es目录 #赋予文件夹所有者
      
  4. 修改elasticSearch目录中config/elasticSearch.yml配置文件

    • cluster.name: elasticsearch #集群名称
      node.name: node-1 #节点名称
      network.host: 0.0.0.0
      http.port: 9200 #端口号
      cluster.initial_master_nodes: ["node-1"] #表示把当前机器当作主节点
      
  5. 修改系统文件vim /etc/security/limits.conf

    • # 在文件末尾中增加下面内容
      # 每个进程可以打开的文件数的限制
      es soft nofile 65536
      es hard nofile 65536
      
  6. 修改系统文件vim /etc/security/limits.d/20-nproc.conf

    • # 在文件末尾中增加下面内容
      # 每个进程可以打开的文件数的限制
      es soft nofile 65536
      es hard nofile 65536
      
  7. 修改系统文件vim /etc/sysctl.conf

    • # 在文件中增加下面内容
      # 一个进程可以拥有的 VMA(虚拟内存区域)的数量,默认值为 65536
      vm.max_map_count=655360
      
  8. 重新加载

    • sysctl -p
      
  9. 每台服务器都重复1-8的操作

  10. 修改config/elasticsearch.yml配置文件

    • 每台节点的配置文件都一样,只需要修改两个地方

      1. 第三行 node.name 保持唯一(随便起名,保持唯一就行)
      2. 第六行 network.host 保持唯一(当前节点内网ip)
    • 第20行cluster.initial_master_nodes: [“node-1”] 中的"node-1"填写主节点的node.name即可

    • 解:文件中的linux1 linux2 linux3是配置的/etc/hosts文件,可以用内网ip来代替,比如:

      1. 192.168.1.11 linux1
      2. 192.168.1.12 linux2
      3. 192.168.1.13 linux3
    • #集群名称
      cluster.name: cluster-es
      #节点名称,每个节点的名称不能重复
      node.name: node-1
      #ip 地址,每个节点的地址不能重复
      network.host: linux1
      #当前节点是否参与选举主节点资格
      node.master: true
      #当前节点是否存储数据
      node.data: true
      #端口号
      http.port: 9200
      #内网TCP传输监听端口
      transport.tcp.port: 9300
      #跨域配置 head插件需要这打开这两个配置 
      http.cors.allow-origin: "*"
      http.cors.enabled: true
      http.max_content_length: 200mb
      #es7.x 之后新增的配置,初始化一个新的集群时需要此配置来选举 master
      cluster.initial_master_nodes: ["node-1"]
      #es7.x 之后新增的配置,节点发现
      discovery.seed_hosts: ["linux1:9300","linux2:9300","linux3:9300"]
      gateway.recover_after_nodes: 2
      network.tcp.keep_alive: true
      network.tcp.no_delay: true
      transport.tcp.compress: true
      #集群内同时启动的数据任务个数,默认是 2 个
      cluster.routing.allocation.cluster_concurrent_rebalance: 16
      #添加或删除节点及负载均衡时并发恢复的线程个数,默认 4 个
      cluster.routing.allocation.node_concurrent_recoveries: 16
      #初始化数据恢复时,并发恢复线程的个数,默认 4 个
      cluster.routing.allocation.node_initial_primaries_recoveries: 16
      

你可能感兴趣的:(技术专栏,elasticsearch,big,data,大数据)