全文检索 Lucene

全文检索 Lucene

网上学习黑马课程后,在原有笔记的基础上进行总结

课程计划

  • lucene入门
    • 什么是lucene
    • Lucene的作用
    • 使用场景
    • 优点和缺点
  • lucene应用
    • 索引流程
    • 搜索流程
    • field域的使用
    • 索引库维护
    • 分词器
    • 高级搜索实战案例
  • Lucene高级
    • Lucene底层存储结构
    • 词典排序算法
    • Lucene优化
    • Lucene使用的一些注意事项

1 搜索技术理论基础

1.1 为什么要学习Lucene

​ 原来的方式实现搜索功能,我们的搜索流程如下图:

全文检索 Lucene_第1张图片

​ 上图就是原始搜索引擎技术,如果用户比较少而且数据库的数据量比较小,那么这种方式实现搜索功能在企业中是比较常见的。

​ 但是数据量过多时,数据库的压力就会变得很大,查询速度会变得非常慢。我们需要使用更好的解决方案来分担数据库的压力。
​ 现在的方案(使用Lucene),如下图:

全文检索 Lucene_第2张图片

​ 为了解决数据库压力和速度的问题,我们的数据库就变成了索引库,我们使用Lucene的API的来操作服务器上的索引库。这样完全和数据库进行了隔离。

1.2 数据查询方法

1.2.1 顺序扫描法

算法描述:
所谓顺序扫描,例如要找内容包含一个字符串的文件,就是一个文档一个文档的看,对于每一个文档,从头看到尾,如果此文档包含此字符串,则此文档为我们要找的文件,接着看下一个文件,直到扫描完所有的文件。
优点:
查询准确率高
缺点:
查询速度会随着查询数据量的增大, 越来越慢
使用场景:

  • 数据库中的like关键字模糊查询
  • 文本编辑器的Ctrl + F 查询功能
1.2.2. 倒排索引

先举一个例子:

​ 例如我们使用新华字典查询汉字,新华字典有偏旁部首的目录(索引),我们查字首先查这个目录,找到这个目录中对应的偏旁部首,就可以通过这个目录中的偏旁部首找到这个字所在的位置(文档)。

​ Lucene会对文档建立倒排索引

​ 1、 提取资源中关键信息,建立索引 (目录)

​ 2、 搜索时,根据关键字(目录),找到资源的位置
算法描述:
​ 查询前会先将查询的内容提取出来组成文档(正文),对文档进行切分词组成索引(目录),索引和文档有关联关系,查询的时候先查询索引,通过索引找文档的这个过程叫做全文检索。

**切分词:**就是将一句话切分成一个一个的词,去掉停用词(的、地、得、a、an、the等)。去掉空格,去掉标点符号,大写字母转成小写字母,去掉重复的词。

为什么倒排索引比顺序扫描快?

**理解 : **因为索引可以去掉重复的词,汉语常用的字和词大概等于,字典加词典,常用的英文在牛津词典也有收录。如果用计算机的速度查询,字典+词典+牛津词典这些内容是非常快的。但是用这些字典,词典组成的文章却是千千万万不计其数。索引的大小最多也就是字典+词典。所以通过查询索引,再通过索引和文档的关联关系找到文档速度比较快。顺序扫描法则是直接去逐个查询那些不计其数的文章就算是计算的速度也会很慢。

优点:

​ 查询准确率高

​ 查询速度快, 并且不会因为查询内容量的增加, 而使查询速度逐渐变慢

缺点:

​ 索引文件会占用额外的磁盘空间, 也就是占用磁盘量会增大。

使用场景:

​ 海量数据查询

1.3 全文检索技术应用场景

应用场景 :

  1. 站内搜索 (baidu贴吧、论坛、 京东、 taobao)
  2. 垂直领域的搜索 (818工作网)
  3. 专业搜索引擎公司 (google、baidu)

2. Lucene介绍

2.1. 什么是全文检索

​ 计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。

2.2. 什么是Lucene

全文检索 Lucene_第3张图片

他是Lucene、Nutch 、Hadoop等项目的发起人Doug Cutting

​ Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,但它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。

​ Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。

​ 目前已经有很多应用程序的搜索功能是基于 Lucene 的,比如 Eclipse 的帮助系统的搜索功能。Lucene能够为文本类型的数据建立索引,所以你只要能把你要索引的数据格式转化的文本的,Lucene 就能对你的文档进行索引和搜索。比如你要对一些 HTML 文档,PDF 文档进行索引的话你就首先需要把
HTML 文档和 PDF 文档转化成文本格式的,然后将转化后的内容交给 Lucene 进行索引,然后把创建好的索引文件保存到磁盘或者内存中,最后根据用户输入的查询条件在索引文件上进行查询。不指定要索引的文档的格式也使 Lucene 能够几乎适用于所有的搜索应用程序。

  • Lucene是一套用于全文检索和搜寻的开源程式库,由Apache软件基金会支持和提供
  • Lucene提供了一个简单却强大的应用程式接口,能够做全文索引和搜寻, 在Java开发环境里Lucene是一个成熟的免费开放源代码工具
  • Lucene并不是现成的搜索引擎产品,但可以用来制作搜索引擎产品。

2.3. Lucene官网

官网: http://lucene.apache.org/

全文检索 Lucene_第4张图片

3 Lucene全文检索的流程

3.1. 索引和搜索流程图

全文检索 Lucene_第5张图片

  1. 绿色表示索引过程,对要搜索的原始内容进行索引构建一个索引库,索引过程包括:

    • 确定原始内容即要搜索的内容
    • 获得文档
    • 创建文档
    • 分析文档
    • 索引文档
  2. 红色表示搜索过程,从索引库中搜索内容,搜索过程包括:

    • 用户通过搜索界面
    • 创建查询
    • 执行搜索,从索引库搜索
    • 渲染搜索结果

3.2 索引流程

​ 对文档索引的过程,将用户要搜索的文档内容进行索引,索引存储在索引库(index)中。

3.2.1 原始内容

原始内容是指要索引和搜索的内容。
原始内容包括互联网上的网页、数据库中的数据、磁盘上的文件等。

3.2.2 获得文档(采集数据)

​ 从互联网上、数据库、文件系统中等获取需要搜索的原始信息,这个过程就是信息采集,采集数据的目的是为了对原始内容进行索引。

采集数据分类:

  1. 对于互联网上网页,可以使用工具将网页抓取到本地生成html文件。
  2. 数据库中的数据,可以直接连接数据库读取表中的数据。
  3. 文件系统中的某个文件,可以通过I/O操作读取文件的内容。

​ 在Internet上采集信息的软件通常称为爬虫或蜘蛛,也称为网络机器人,爬虫访问互联网上的每一个网页,将获取到的网页内容存储起来。

3.2.3 创建文档

​ 获取原始内容的目的是为了索引,在索引前需要将原始内容创建成文档(Document),文档中包括一个一个的域(Field),域中存储内容。

​ 这里我们可以将磁盘上的一个文件当成一个document,Document中包括一些Field,如下图:

全文检索 Lucene_第6张图片

注意:每个Document可以有多个Field,不同的Document可以有不同的Field,同一个Document可以有相同的Field(域名和域值都相同)。

3.2.4 分析文档

​ 将原始内容创建为包含域(Field)的文档(document),需要再对域中的内容进行分析,分析成为一个一个的单词。

比如下边的文档经过分析如下:

原文档内容:
vivo X23 8GB+128GB 幻夜蓝 全网通4G手机

​ 华为 HUAWEI 麦芒7 6G+64G 亮黑色 全网通4G手机

分析后得到的词:
vivo, x23, 8GB, 128GB, 幻夜, 幻夜蓝, 全网, 全网通, 网通, 4G, 手机, 华为, HUAWEI, 麦芒7。。。。

3.2.5 索引文档

​ 对所有文档分析得出的语汇单元进行索引,索引的目的是为了搜索,最终要实现只搜索被索引的语汇单元从而找到Document(文档)。

​ 创建索引是对语汇单元索引,通过词语找文档,这种索引的结构叫倒排索引结构。

​ 倒排索引结构是根据内容(词汇)找文档,如下图:

全文检索 Lucene_第7张图片

倒排索引结构也叫反向索引结构,包括索引和文档两部分,索引即词汇表,它的规模较小,而文档集合较大。

3.2.6 Lucene底层存储结构

全文检索 Lucene_第8张图片

3.3 搜索流程

​ 搜索就是用户输入关键字,从索引中进行搜索的过程。根据关键字搜索索引,根据索引找到对应的文档,从而找到要搜索的内容。

3.3.1 用户

​ 就是使用搜索的角色,用户可以是自然人,也可以是远程调用的程序。

3.3.2 用户搜索界面

​ 全文检索系统提供用户搜索的界面供用户提交搜索的关键字,搜索完成展示搜索结果。如下图:

全文检索 Lucene_第9张图片

Lucene不提供制作用户搜索界面的功能,需要根据自己的需求开发搜索界面。

3.3.3 创建查询

​ 用户输入查询关键字执行搜索之前需要先构建一个查询对象,查询对象中可以指定查询要查询关键字、要搜索的Field文档域等,查询对象会生成具体的查询语法,比如:

name:手机 : 表示要搜索name这个Field域中,内容为“手机”的文档。

name:华为 AND 手机 : 表示要搜索即包括关键字“华为” 并且也包括“手机”的文档。

3.3.4 执行搜索

搜索索引过程:

  1. 根据查询语法在倒排索引词典表中分别找出对应搜索词的索引,从而找到索引所链接的文档链表。

    例如:搜索语法为 “name:华为 AND 手机 ” 表示搜索出的文档中既要包括"华为"也要包括"手机"。

    全文检索 Lucene_第10张图片

  2. 由于是AND,所以要对包含 华为 和 手机 词语的链表进行交集,得到文档链表应该包括每一个搜索词语

  3. 获取文档中的Field域数据。

3.3.5 渲染结果

​ 以一个友好的界面将查询结果展示给用户,用户根据搜索结果找自己想要的信息,为了帮助用户很快找到自己的结果,提供了很多展示的效果,比如搜索结果中将关键字高亮显示,百度提供的快照等。

全文检索 Lucene_第11张图片

4. Lucene入门

4.1. Lucene准备

Lucene可以在官网上下载。课程已经准备好了Lucene的文件,我们使用的是7.7.2版本,文件位置如下图:

全文检索 Lucene_第12张图片

解压后的效果:

全文检索 Lucene_第13张图片

使用这三个文件的jar包,就可以实现lucene功能

4.2. 开发环境

JDK: 1.8 (Lucene7以上,必须使用JDK1.8及以上版本)

数据库: MySQL

数据库脚本位置如下图:

全文检索 Lucene_第14张图片

导入到MySQL效果如下图:

全文检索 Lucene_第15张图片

4.3 创建Java工程

​ 创建maven工程不依赖骨架, 测试即可,效果如下:

全文检索 Lucene_第16张图片

pom文件内容:


<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    
    <modelVersion>4.0.0modelVersion>

    <artifactId>_01_LuceneDemoartifactId>

    <properties>
        <maven.compiler.source>1.8maven.compiler.source>
        <maven.compiler.target>1.8maven.compiler.target>
        <project.build.sourceEncoding>UTF-8project.build.sourceEncoding>
        <project.reporting.outputEncoding>UTF-8project.reporting.outputEncoding>
        <skipTests>trueskipTests>
    properties>

    <parent>
        <groupId>org.springframework.bootgroupId>
        <artifactId>spring-boot-starter-parentartifactId>
        <version>2.1.4.RELEASEversion>
    parent>

    <dependencies>
        <dependency>
            <groupId>commons-iogroupId>
            <artifactId>commons-ioartifactId>
            <version>2.6version>
        dependency>
        <dependency>
            <groupId>org.apache.lucenegroupId>
            <artifactId>lucene-coreartifactId>
            <version>7.7.2version>
        dependency>
        <dependency>
            <groupId>org.apache.lucenegroupId>
            <artifactId>lucene-analyzers-commonartifactId>
            <version>7.7.2version>
        dependency>
        <dependency>
            <groupId>org.apache.lucenegroupId>
            <artifactId>lucene-queryparserartifactId>
            <version>7.7.2version>
        dependency>

        
        <dependency>
            <groupId>junitgroupId>
            <artifactId>junitartifactId>
            <version>4.12version>
            <scope>testscope>
        dependency>
        
        <dependency>
            <groupId>mysqlgroupId>
            <artifactId>mysql-connector-javaartifactId>
            <version>5.1.48version>
        dependency>

        
        <dependency>
            <groupId>org.wltea.ik-analyzergroupId>
            <artifactId>ik-analyzerartifactId>
            <version>8.1.0version>
        dependency>

        
        <dependency>
            <groupId>org.springframework.bootgroupId>
            <artifactId>spring-boot-starter-webartifactId>
        dependency>
        
        <dependency>
            <groupId>org.springframework.bootgroupId>
            <artifactId>spring-boot-starter-thymeleafartifactId>
        dependency>
        
        <dependency>
            <groupId>com.alibabagroupId>
            <artifactId>fastjsonartifactId>
            <version>1.2.51version>
        dependency>
    dependencies>

project>

4.4. 索引流程

4.4.1. 数据采集

​ 在电商网站中,全文检索的数据源在数据库中,需要通过jdbc访问数据库中 sku 表的内容。

4.4.1.1 创建pojo
package com.feixun.lucene.pojo;

public class Sku {
   

    //商品主键id
    private String id;
    // 名称
    private String name;
    //价格
    private Integer price;
    //库存数量
    private Integer num;
    //图片
    private String image;
    //分类名称
    private String categoryName;
    //品牌名称
    private String brandName;
    //规格
    private String spec;
    //销量
    private Integer saleNum;

    public String getId() {
   
        return id;
    }

    public void setId(String id) {
   
        this.id = id;
    }

    public String getName() {
   
        return name;
    }

    public void setName(String name) {
   
        this.name = name;
    }

    public Integer getPrice() {
   
        return price;
    }

    public void setPrice(Integer price) {
   
        this.price = price;
    }

    public Integer getNum() {
   
        return num;
    }

    public void setNum(Integer num) {
   
        this.num = num;
    }

    public String getImage() {
   
        return image;
    }

    public void setImage(String image) {
   
        this.image = image;
    }

    public String getCategoryName() {
   
        return categoryName;
    }

    public void setCategoryName(String categoryName) {
   
        this.categoryName = categoryName;
    }

    public String getBrandName() {
   
        return brandName;
    }

    public void setBrandName(String brandName) {
   
        this.brandName = brandName;
    }

    public String getSpec() {
   
        return spec;
    }

    public void setSpec(String spec) {
   
        this.spec = spec;
    }

    public Integer getSaleNum() {
   
        return saleNum;
    }

    public void setSaleNum(Integer saleNum) {
   
        this.saleNum = saleNum;
    }

    @Override
    public String toString() {
   
        return "Sku{" +
                "id='" + id + '\'' +
                ", name='" + name + '\'' +
                ", price=" + price +
                ", num=" + num +
                ", image='" + image + '\'' +
                ", categoryName='" + categoryName + '\'' +
                ", brandName='" + brandName + '\'' +
                ", spec='" + spec + '\'' +
                ", saleNum=" + saleNum +
                '}';
    }
}

4.4.1.2. 创建DAO接口

public interface SkuDao {
   
/**
* 查询所有的Sku数据
* @return
**/
public List<Sku> querySkuList();
}

4.4.1.3. 创建DAO接口实现类

​ 使用jdbc实现

public class SkuDaoImpl implements SkuDao {
   
    public List<Sku> querySkuList() {
   
    // 数据库链接
    Connection connection = null;
    // 预编译statement
    PreparedStatement preparedStatement = null;
    // 结果集
    ResultSet resultSet = null;
    // 商品列表
    List<Sku> list = new ArrayList<Sku>();
    try {
   
        // 加载数据库驱动
        Class.forName("com.mysql.jdbc.Driver");
        // 连接数据库
        connection = DriverManager.getConnection("jdbc:mysql://localhost:3306/lucene", "root", "admin");
        String sql = "SELECT * FROM tb_sku";
        // 创建preparedStatement
        preparedStatement = connection.prepareStatement(sql);
        // 获取结果集
        resultSet = preparedStatement.executeQuery();
        // 结果集解析
        while (resultSet.next()) {
   
            Sku sku = new Sku();
            sku.setId(resultSet.getString("id"));
            sku.setName(resultSet.getString("name"));
            sku.setSpec(resultSet.getString("spec"));
            sku.setBrandName(resultSet.getString("brand_name"));
                     sku.setCategoryName(resultSet.getString("category_name"));
            sku.setImage(resultSet.getString("image"));
            sku.setNum(resultSet.getInt("num"));
            sku.setPrice(resultSet.getInt("price"));
            sku.setSaleNum(resultSet.getInt("sale_num"));
            list.add(sku);
        }
    } catch (Exception e) {
   
   		 e.printStackTrace();
    } 
    
        return list;
    }
}
4.4.2 实现索引流程
  1. 采集数据
  2. 创建Document文档对象
  3. 创建分析器(分词器)
  4. 创建IndexWriterConfig配置信息类
  5. 创建Directory对象,声明索引库存储位置
  6. 创建IndexWriter写入对象
  7. 把Document写入到索引库中
  8. 释放资源

代码:

package com.feixun.lucene.test;

import com.feixun.lucene.dao.SkuDao

你可能感兴趣的:(JavaEE,lucene,搜索引擎)