ElasticSearch初探

本文仅对elasticSearch(ES)进行初步介绍,有不足与错误之处欢迎指正。
本文仅介绍了ES某些特性,希望能为您技术栈选型提供有价值的参考。

之前对ES的认识仅停留在“全文搜索引擎”、“日志搜集分析系统”上。最近手头一个项目需要进行数据统计分析,大量复杂的sql语句、动态分组、排序和组合查询条件使springJPA+mysql的组合不堪重负,正巧在阅读文档时再次遇到ELK一词,遂决定深入了解一下ES。

这里跳过ES介绍,有兴趣可以查阅官网的中文版文档,当前中文版文档对应ES 2.X版本,而最新英文版对应版本是ES 6.X,所以中文版文档内容过时了,更适合用来了解基本概念和内部实现原理。

根据项目需求,需要ES满足一下要求:
  1. 提供类似NOSQL数据库的数据查询服务,将MySQL从复杂查询中解放出来
  2. 不要求数据严格实时,但必须保证数据更新后一段可以接受时间内完成ES内数据的同步
  3. 提供丰富的查询和统计接口,将程序员从查询功能的重复编码中解放出来
作为NOSQL数据库

ElasticSearch搜索功能基于Lucene实现,将数据对象以JSON格式存储为文档,同时对文档内容进行索引,支持对文档进行检索、排序和过滤,同时支持全文搜索。完全满足作为NOSQL数据库提供查询服务的要求。

数据实时性

官方已经指出ES是NRT(near realtime)的,从文档数据入库到数据可以查询之间有1秒的延迟。

同时,使用Logstash将MySQL数据同步到ES中时,为了降低MySQL查询压力,同步操作设置为每n分钟执行一次。

所以ES中的数据同步会有几分钟的延迟。

查询和统计接口

ES提供了丰富的查询和统计接口,通过向ES服务器发送查询请求URL,查询条件通过RequestBody发送。

以我们应用中的数据统计的几个场景举例:

  1. 以地市、县区、学校为维度统计学生人数,给出文理、男女、民族等情况的细分人数
get /exam/_search?pretty
{
  "size": 0,
  "aggs": {
    "byCounty": {
      "terms": {
        "field": "county_id",//#1 以县区对数据进行分组
        "size": 10
      },
      "aggs": {
        "bySchool": {
          "terms": {
            "field": "school_id"//#2 统计县区下各学校考生数
          }
        },
        "bySubject": {
          "terms": {
            "field": "subject_id"//#3 统计县区下各科目考生数
          }
        }
      }
    }
  }
}

以上语句实现了按照县区分组,统计每个县区下男女生人数、每个县区下不同科目考生人数。

更重要的是,替换#1处的字段(如city_id/school_id),可以切换统计维度;替换#2#3处的字段(如class_no),可以切换统计项目。

与传统动态组装SQL语句查询数据库的方式相比,使用ES的查询方式的优势有:

  1. 省去了编写SQL语句组装功能的工作,改为组装JSON格式的RequestBody

  2. 需求变更、数据库结构变化时,省去了修改和测试代码的工作,仍然是操作RequestBody

|

  1. 对某个科目成绩进行简单分析,得到最大值、最小值、平均值、标准差这些基本数据
get /exam/_search?pretty
{
  "size": 0,
  "aggs": {
    "bySubject": {
      "terms": {
        "field": "subject_id", // 以科目对成绩数据进行分组
        "size": 10
      },
      "aggs": {
        "score_stats": {
          "stats": {
            "field": "total" // 针对成绩字段,执行stats聚合运算
          }
        }
      }
    }
  }
}

以上语句实现了以科目对成绩进行分组,每个科目分组下,对成绩进行stats聚合运算,stats是ES提供的聚合运算,返回数据的count、min、max、avg、sum。

ES在以上三个方面都满足了我的需求,可以预见在集成ES后,统计部分功能编码将轻松很多。

针对生产环境部署ES的一点思考

ElasticSearch初探_第1张图片
image.png
  1. 由于Logstash需要查询Mysql同步数据,单独启动一个mysql-slave实例,该实例仅对Logstash可见,对appServer不可见,专门为ES数据同步服务
  2. ES不直接暴露到外网,AppServer作为网关进行请求分发,由appServer提供更灵活的权限管理和安全性保障

你可能感兴趣的:(ElasticSearch初探)