初识全文检索

什么是全文检索?

全文检索是利用倒排索引技术对需要搜索的数据进行处理,然后提供快速匹配的技术。

其实全文检索还有另外一种专业定义,先创建索引然后对索引进行搜索的过程,就是全文检索。


倒排索引

倒排索引是一种存储数据的方式,与传统查找有很大区别:

  • 传统查找:采用数据按行存储,查找时逐行扫描,或者根据索引查找,然后匹配搜索条件,效率较差。概括来讲是先找到文档,然后看是否匹配。
  • 倒排索引:首先对数据按列拆分存储,然后对文档中的数据分词,对词条进行索引,并记录词条在文档中出现的位置。这样查找时只要找到了词条,就找到了对应的文档。概括来讲是先找到词条,然后看看哪些文档包含这些词条。

创建倒排索引流程

当我们需要把这些数据创建倒排索引时,会分为两步:

1、创建文档列表

首先将数据按列进行拆分存储,类型于mysql的表存储,每一条数据,就是一个文档,形成文档列表:

docId title content score ......
1 入门java 入门java很容易 1  
2 精通java 精通java很困难 1  
3 入门mysql 入门mysql很容易 1  
4 ...      
5 ...      

2、创建倒排索引列表

对文档中的数据进行分词,得到词条。对词条进行编号,并以词条创建索引。然后记录下包含该词条的所有文档编号(及其它信息)。

词id 词典 倒排索引docId 字段名
1 入门 1,3 title
2 java 1,2 title
3 精通 2 title
4 mysql 3 title
5 入门 1,3 content
6 java 1,3 content
7 容易 1,3 content
8 精通 2 content
9 困难 2 content
10 mysql 3 content

搜索流程

  1. 当用户输入任意的搜索关键词时,首先对用户输入的内容进行词拆分,得到要搜索的所有词条,如用户搜索“java入门教程”,拆分后就是“java 、入门、教程”;
  2. 然后拿着这些拆分后的词去倒排索引列表中进行匹配。找到这些词对应的所有文档编号;
  3. 然后根据这些编号去文档列表中找到对应的文档。

你可能感兴趣的:(Elasticsearch)