倒排索引Inverted Index

倒排索引

一种数据结构,它适用于快速的全文搜索。它的核心原理是把文档中出现过的单词(字)做成索引,比如我们有两段文字:

1.the quick brown fox jumped over the lazy dog .

2.quick brown foxes leap over lazy dogs in summer

在倒排索引中存储格式如下:

单词     包含单子的文档ID和其在文档中的位置

The       1: [0,6]

quick      1:[1],2:[0]

brown    1:[2],2[1]

...            ...

scala实现简单demo

https://github.com/itonc/dataSience/tree/master/address

倒排索引Inverted Index_第1张图片


倒排索引Inverted Index_第2张图片

你可能感兴趣的:(倒排索引Inverted Index)