Elasticsearch (1):ES基本概念和原理简单介绍

Elasticsearch(简称 ES)是一款基于 Apache Lucene 的分布式搜索和分析引擎。随着业务的发展,系统中的数据量不断增长,传统的关系型数据库在处理大量模糊查询时效率低下。因此,ES 作为一种高效、灵活和可扩展的全文检索解决方案,逐渐成为了企业的首选。本篇博客将深入探讨 Elasticsearch 的核心概念、使用方法以及优化技巧。

为什么要使用Elasticsearch?

系统中的数据,随着业务的发展和时间的推移,将会变得非常多,而业务中往往都是采用模糊查询的方式对数据进行搜索,而模糊查询会导致查询引擎放弃索引,导致系统查询数据的时候都是全表扫描,那么在百万级数据库中,这样的查询效率是非常低下的,而我们使用ES做一个全文索引,将经常查询的系统功能某些字段,比如说电商系统中的商品名,描述和价格这些字段放入到ES索引库中,就可以提高查询效率

并且ES具备以下几个优势

1.高性能:ES具有高性能的搜索和分析能力,其中涵盖了多种查询语言和数据结构

2.可拓展性:ES是分布式的,可以通过增加节点数量去拓展搜索和分析能力

3.灵活性:ES支持多种数据类型,支持多种语言,支持动态映射,允许快速地调整模型以适应不同地需求

4.实时分析:ES支持实时分析,可以对数据进行实时查询,这对于快速检索数据非常有用

5.ES具有可靠性和高可用性,它里面会有冗余备份这样一个设置支持数据备份和恢复。

正排索引与倒排索引

正排索引:类似于关系型数据库的存储方式,它按照文档顺序存储信息,便于按照文档查找内容。

倒排索引:适合全文检索,它记录了每个词条在哪些文档中出现。倒排索引由词条、词典和倒排表构成:

  • 词条:最小存储和查询单元。
  • 词典:词条的集合,通常实现为 B+ 树或哈希表。
  • 倒排表:记录词条出现的文档 ID 列表。

倒排索引的设计使得 ES 能够快速定位和检索相关文档,提高查询效率。

早期的全文检索会为整个文档集合建立一个很大的倒排索引并且将其写入到磁盘,一旦新的索引就绪,旧的索引就会被替代,这样最近的变化就可以被检索到,倒排索引被写入到磁盘后是不可变的,它永远不会被修改,而是用更多的索引,通过增加补充索引的方式去反映新近的修改,而不是直接重写整个倒排索引,每一个倒排索引都会被轮流查询到,从最早的开始的查询,然后再进行合并

ES基本概念:

Near Realtime(NRT)

近实时:当我们说一个系统或数据库是近实时的,它意味着从数据被写入到这些数据可以被检索或查询之间有一个很短的延迟。在Elasticsearch中,这个延迟通常非常短,可能只有几毫秒到几秒(通常不超过1秒)。这意味着,当你向Elasticsearch中写入新的数据后,几乎可以立即查询这些数据,而不需要等待很长时间。

Index(

你可能感兴趣的:(springcloud学习笔记,elasticsearch,大数据,搜索引擎)