风一般的男子丶小靓仔

Lucene简介

Lucene入门

全文检索课程

倒排索引讲解
Lucene入门案例
分词器讲解
IK分词器集成
域(表的字段、JavaBean的属性)的讲解
索引维护操作(类似数据库，存储的是数据【索引数据】)

第1章 Lucene介绍

1.1 为什么要学Lucene

实现商城里面的商品搜索功能，可以根据商品标题模糊查询商品。

原来的方式实现搜索功能，我们的搜索流程如下图：

上图就是原始搜索引擎技术，如果用户比较少而且数据库的数据量比较小，那么这种方式实现搜索功能在企业中是比较常见的。

但是数据量过多时，数据库的压力就会变得很大，查询速度会变得非常慢。我们需要使用更好的解决方案来分担数据库的压力。

现在的方案（使用Lucene），如下图

为了解决数据库压力和速度的问题，我们的数据库换成了索引库，使用Lucene的API的来操作服务器上的索引库。

使用索引库专门实现查询功能，而且完全和数据库进行了隔离。

1.2 数据查询方法

1.2.1 顺序扫描法

所谓顺序扫描，例如要找内容包含一个字符串的文件，就是一个文档一个文档的看，对于每一个文档，从头看到尾，如果此文档包含此字符串，则此文档为我们要找的文件，接着看下一个文件，直到扫描完所有的文件。这种方法是顺序扫描方法，数据量大就搜索慢。

如利用windows的搜索也可以搜索文件内容，只是速度会相当的慢。

1.2.2 倒排索引

先举一个栗子：

例如我们使用新华字典查询汉字，新华字典有偏旁部首的目录（索引），我们查字首先查这个目录，找到这个目录中对应的偏旁部首，就可以通过这个目录中的偏旁部首找到这个字所在的位置（文档）。

倒排索引：

将数据加入到索引库（你可以理解成另外一个数据库）时，会先提取数据中的词汇（分词），将词汇加入到文档域，文档域中记录了词汇以及词汇在哪条数据记录中出现过的数据下标。用户在搜索数据时，先将用户搜索的数据进行词汇提取，然后把对应词汇拿到索引域中进行匹配查找，查找后会找到对应的下标ID，再根据对应下标ID到文档域中找真实数据。

1.2.3 搜索技术应用场景

应用场景：

1、单机软件的搜索（word中的搜索）

2、站内搜索（baidu贴吧、论坛、京东、 taobao）

3、垂直领域的搜索（818工作网）

4、专业搜索引擎公司（google、baidu）

1.3 Lucene介绍

1.3.1 什么是全文检索

计算机索引程序通过扫描文章中的每一个词，对每一个词建立一个索引，指明该词在文章中出现的次数和位置，当用户查询时，检索程序就根据事先建立的索引进行查找，并将查找的结果反馈给用户的检索方式。

1.3.2 什么是Lucene

Lucene是apache软件基金会 Jakarta项目组的一个子项目，是一个开放源代码的全文检索引擎工具包，但它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，部分文本分析引擎。

Lucene是一套用于全文检索和搜寻的开源程式库，由Apache软件基金会支持和提供。 Lucene提供了一个简单却强大的应用程式接口，能够做全文索引和搜寻，在Java开发环境里Lucene是一个成熟的免费开放源代码工具。
Lucene并不是现成的搜索引擎产品，但可以用来制作搜索引擎产品。

1.3.3 Lucene与搜索引擎的区别

全文检索系统是按照全文检索理论建立起来的用于提供全文检索服务的软件系统，包括建立索引、处理查询返回结果集、增加索引、优化索引结构等功能。例如：百度搜索、eclipse帮助搜索、淘宝网商品搜索等。

搜索引擎是全文检索技术最主要的一个应用，例如百度。搜索引擎起源于传统的信息全文检索理论，即计算机程序通过扫描每一篇文章中的每一个词，建立以词为单位的倒排文件，检索程序根据检索词在每一篇文章中出现的频率和每一个检索词在一篇文章中出现的概率，对包含这些检索词的文章进行排序，最后输出排序的结果。全文检索技术是搜索引擎的核心支撑技术。

Lucene和搜索引擎不同，Lucene是一套用java或其它语言写的全文检索的工具包，为应用程序提供了很多个api接口去调用，可以简单理解为是一套实现全文检索的类库，搜索引擎是一个全文检索系统，它是一个单独运行的软件系统。

1.3.4 Lucene官网介绍

官网： http://lucene.apache.org/

第2章 Lucene入门

实现这么一个案例，通过Java代码调用Lucene API实现对索引库的增删改查，索引库数据来源于数据库，所以增加操作需要先从数据库将数据查询出来，再调用Lucene API将数据加入到索引库中。

2.2 Lucene实现全文检索思路

全文检索的流程分为两大部分：索引流程、搜索流程。

索引流程:即采集数据à构建文档对象à分析文档（分词）à创建索引。
搜索流程:即用户通过搜索界面输入à创建查询à执行搜索，搜索器从索引库搜à渲染搜索结果。

2.2.1 如何采集数据

2.2.1.1网页采集（了解）

目前搜索引擎主要搜索数据的来源是互联网，搜索引擎使用一种爬虫程序抓取网页（通过http抓取html网页信息），Lucene并不提供信息采集的类库，需要自己编写一个爬虫程序实现信息采集，也可以通过一些开源软件实现信息采集，如下以下是一些爬虫项目：

Nutch（http://lucene.apache.org/nutch）, Nutch是apache的一个子项目，包括大规模爬虫工具，能够抓取和分辨web网站数据。

jsoup（http://jsoup.org/），jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。

heritrix（http://sourceforge.net/projects/archive-crawler/files/），Heritrix 是一个由 java 开发的、开源的网络爬虫，用户可以使用它来从网上抓取想要的资源。其最出色之处在于它良好的可扩展性，方便用户实现自己的抓取逻辑。

2.2.1.2数据库采集（掌握）

针对电商站内搜索功能，全文检索的数据源在数据库中，例如：可以通过jdbc访问数据库中图书表的内容。

//1.注册驱动

//2.获取连接

//3.sql语句

//4.创建statement

//5.设置参数

//6.执行

//7.获取结果集

//8.关闭资源。

2.2.1.3文件系统的采集数据：通过java IO操作（了解）

2.2 Lucene准备

Lucene可以在官网上下载。课程已经准备好了Lucene的文件，我们使用的是lucene-5.3.1版本，文件位置如下图：

解压后如下图：

本教程使用的数据是MySQL数据库的数据，所以还需要MySQL的连接包，学员编写的时候，也可以直接复制准备好的jar包。当然我们案例中将不使用拷贝jar包的方式，我们使用maven导入依赖。

2.3 案例创建

JDK：1.8 （Lucene5.3.1以上，必须使用JDK1.8及以上版本）
IDE：IDEA
数据库： MySQL5
数据库脚本位置如下图：

数据库数据如下：

2.3.1 pom.xml

创建案例工程lucene-01，导入所需jar包的依赖

xml version="1.0" encoding="UTF-8"?>

<project xmlns="http://maven.apache.org/POM/4.0.0"

         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">

    <modelVersion>4.0.0modelVersion>



    <groupId>com.itheimagroupId>

    <artifactId>lucene_01artifactId>

    <version>1.0-SNAPSHOTversion>

    

    <packaging>jarpackaging>



    

    <dependencies>

        

        <dependency>

            <groupId>org.apache.lucenegroupId>

            <artifactId>lucene-coreartifactId>

            <version>5.3.1version>

        dependency>

        

        <dependency>

            <groupId>org.apache.lucenegroupId>

            <artifactId>lucene-analyzers-commonartifactId>

            <version>5.3.1version>

        dependency>

        

        <dependency>

            <groupId>org.apache.lucenegroupId>

            <artifactId>lucene-analyzers-smartcnartifactId>

            <version>5.3.1version>

        dependency>

        

        <dependency>

            <groupId>org.apache.lucenegroupId>

            <artifactId>lucene-queryparserartifactId>

            <version>5.3.1version>

        dependency>

        

        <dependency>

            <groupId>org.apache.lucenegroupId>

            <artifactId>lucene-highlighterartifactId>

            <version>5.3.1version>

        dependency>

        

        <dependency>

            <groupId>mysqlgroupId>

            <artifactId>mysql-connector-javaartifactId>

            <version>5.1.32version>

        dependency>



        

        <dependency>

            <groupId>junitgroupId>

            <artifactId>junitartifactId>

            <version>4.12version>

            <scope>testscope>

        dependency>

    dependencies>



    <build>

        <plugins>

            

            <plugin>

                <groupId>org.apache.maven.pluginsgroupId>

                <artifactId>maven-compiler-pluginartifactId>

                <version>3.2version>

                <configuration>

                    <source>1.8source>

                    <target>1.8target>

                    <encoding>UTF-8encoding>

                configuration>

            plugin>

        plugins>

    build>

project>

2.3.2 创建索引

2.3.2.1 创建Pojo

采集数据是指获取需要的数据，然后将这些数据加入到索引库中，我们采集的数据是从MySQL数据库中采集。

创建Book对象

package com.itheima.pojo;

public class Book {
    // 图书ID
    private Integer id;
    // 图书名称
    private String name;
    // 图书价格
    private Float price;
    // 图书图片
    private String pic;
    // 图书描述
    private String desc;
    //get...set...
}

2.3.2.2 创建Dao接口和实现类

BookDao接口

package com.itheima.dao;

public interface BookDao {

    /**

     * 查询所有的book数据

     * @return

     */

    List queryBookList();

}

BookDaoImpl实现类

public class BookDaoImpl implements BookDao {

    /***

     * 查询数据库数据

     * @return

     * @throws Exception

     */

    @Override

    public List queryBookList(){

        // 数据库链接

        Connection connection = null;

        // 预编译statement

        PreparedStatement preparedStatement = null;

        // 结果集

        ResultSet resultSet = null;

        // 图书列表

        List list = new ArrayList();

        try {

            // 加载数据库驱动

            Class.forName("com.mysql.jdbc.Driver");

            // 连接数据库

            connection = DriverManager.getConnection("jdbc:mysql://localhost:3306/lucene", "root", "root");



            // SQL语句

            String sql = "SELECT * FROM book";

            // 创建preparedStatement

            preparedStatement = connection.prepareStatement(sql);

            // 获取结果集

            resultSet = preparedStatement.executeQuery();

            // 结果集解析

            while (resultSet.next()) {

                Book book = new Book();

                book.setId(resultSet.getInt("id"));

                book.setName(resultSet.getString("name"));

                book.setPrice(resultSet.getFloat("price"));

                book.setPic(resultSet.getString("pic"));

                book.setDesc(resultSet.getString("desc"));

                list.add(book);

            }

        } catch (Exception e) {

            e.printStackTrace();

        }

        return list;

    }

}

2.3.2.3 创建索引

思路

采集数据：(jdbc采集数据通过BookDao调用方法得到结果集)
遍历book结果集，组装Document数据列表
构建Field域，说白了就是将要存储的数据字段需要用到new TextField对象三个参数的构造方法，book中有多个字段，所以创建多个Field对象。
将Field域所有对象，添加到文档对象中。调用Document.add
创建一个标准分词器(Analyzer与StandardAnalyzer)，对文档中的Field域进行分词
指定索引储存目录，使用FSDirectory.open(new File("").toPath())方法。
创建IndexWriterConfig对象，直接new，用于接下来创建IndexWriter对象
创建IndexWriter对象，直接new
添加文档对象到索引库输出对象中，使用IndexWriter.addDocuments方法
释放资源IndexWriter.close();

按照上面的流程实现创建索引，代码如下：

public class TestIndex {

    @Test

    public void testCreateIndex() throws Exception{

        //1.采集数据：(jdbc采集数据通过BookDao调用方法得到结果集)

        BookDao bookDao = new BookDaoImpl();

        List books = bookDao.queryBookList();

        //2.遍历book结果集，组装Document数据列表

        List docs = new ArrayList<>();

        Document doc = null;

        for (Book book : books) {

            //3.构建Field域，说白了就是将要存储的数据字段需要用到new TextField对象三个参数的构造方法，

            // book中有多个字段，所以创建多个Field对象。

            Field id = new TextField("id", book.getId().toString(), Field.Store.YES);

            Field name = new TextField("name", book.getName(), Field.Store.YES);

            Field price = new TextField("price", book.getPrice().toString(), Field.Store.YES);

            Field pic = new TextField("pic", book.getPic(), Field.Store.YES);

            Field desc = new TextField("desc", book.getDesc(), Field.Store.YES);

            //4.将Field域所有对象，添加到文档对象中。调用Document.add

            doc = new Document();

            doc.add(id);

            doc.add(name);

            doc.add(price);

            doc.add(pic);

            doc.add(desc);

            //记录文档对象列表

            docs.add(doc);

        }

        //5.创建一个标准分词器(Analyzer与StandardAnalyzer)，对文档中的Field域进行分词

        Analyzer analyzer = new StandardAnalyzer();

        //6.指定索引储存目录，使用FSDirectory.open()方法。

        Directory directory = FSDirectory.open(new File("D:/itheima/index").toPath());

        //7.创建IndexWriterConfig对象，直接new，用于接下来创建IndexWriter对象

        IndexWriterConfig indexWriterConfig = new IndexWriterConfig(analyzer);

        //8.创建IndexWriter对象，直接new

        IndexWriter indexWriter = new IndexWriter(directory,indexWriterConfig);

        //9.添加文档对象到索引库输出对象中，使用IndexWriter.addDocuments方法

        indexWriter.addDocuments(docs);

        //10.释放资源IndexWriter.close();

        indexWriter.close();

    }

}

执行运行，查看D:/itheima/index目录

2.3.3 使用Luke查看索引

Luke作为Lucene工具包中的一个工具（http://www.getopt.org/luke/），可以通过界面来进行索引文件的查询、修改.luke所在位置如下图：

打开luke-5.3.0-luke-release，双击luke.bat即可运行luke

打开后界面如下：

点击OK后就可以查看到索引信息了

选中Documents，可以查看每个文档信息

使用luke搜索，如下图：

2.3.4 搜索实现

Lucene可以通过query对象输入查询语句。同数据库的sql一样，lucene也有固定的查询语法：最基本的有比如：AND, OR, NOT 等（必须大写）

举个栗子:用户想找一个desc中包括java关键字和lucene关键字的文档。它对应的查询语句：desc:java AND lucene

思路

创建一个Directory对象，FSDirectory.open指定索引库存放的位置
创建一个IndexReader对象，DirectoryReader.open需要指定Directory对象
创建一个Indexsearcher对象，直接new，需要指定IndexReader对象
创建一个标准分词器(Analyzer与StandardAnalyzer)，对文档中的Field域进行分词
创建一个QueryParser对象， new QueryParser (域名称，分词器)
调用QueryParser.parser(搜索的内容)，得到Query
执行查询，IndexSearcher.search(Query对象,查询排名靠多少名前的记录数)，得到结果TopDocs
遍历查询结果并输出，TopDocs.totalHits总记录数，topDocs.scoreDocs数据列表，通过scoreDoc.doc得到唯一id,再通过IndexSearcher.doc(id)，得到文档对象Document再Document.get(域名称)得到结果
关闭IndexReader对象

2.3.4.1 索引搜索实现

实现代码：

@Test

public void testQuery() throws Exception{

    //1.创建一个Directory对象，FSDirectory.open指定索引库存放的位置

    Directory directory = FSDirectory.open(new File("D:/itheima/index").toPath());

    //2.创建一个IndexReader对象，DirectoryReader.open需要指定Directory对象

    IndexReader indexReader = DirectoryReader.open(directory);

    //3.创建一个Indexsearcher对象，直接new，需要指定IndexReader对象

    IndexSearcher indexSearcher = new IndexSearcher(indexReader);

    //4.创建一个标准分词器(Analyzer与StandardAnalyzer)，对文档中的Field域进行分词

    Analyzer analyzer = new StandardAnalyzer();

    //5.创建一个QueryParser对象， new QueryParser (域名称，分词器)

    QueryParser queryParser = new QueryParser("desc",analyzer);

    //6.调用QueryParser.parser(搜索的内容)，得到Query

    Query query = queryParser.parse("java");

    //7.执行查询，IndexSearcher.search(Query对象,查询排名靠多少名前的记录数)，得到结果TopDocs

    TopDocs topDocs = indexSearcher.search(query, 10);

    //8.遍历查询结果并输出，TopDocs.totalHits总记录数，topDocs.scoreDocs数据列表，

    // 通过scoreDoc.doc得到唯一id,再通过IndexSearcher.doc(id)，

    // 得到文档对象Document再Document.get(域名称)得到结果

    System.out.println("总记录数为：" + topDocs.totalHits);

    for (ScoreDoc scoreDoc : topDocs.scoreDocs) {

        int docId = scoreDoc.doc;

        Document doc = indexSearcher.doc(docId);

        System.out.println(doc.get("id") + "->" + doc.get("name") + "," + doc.get("price"));

    }

    //9.关闭IndexReader对象

    indexReader.close();

}

2.3.4.2 搜索方法

IndexSearcher搜索方法如下：

第3章分词器

3.1 分词理解

在对Docuemnt中的内容进行索引之前，需要使用分词器进行分词，分词的目的是为了搜索。分词的主要过程就是先分词后过滤。

分词：采集到的数据会存储到document对象的Field域中，分词就是将Document中Field的value值切分成一个一个的词。
过滤：包括去除标点符号过滤、去除停用词过滤（的、是、a、an、the等）、大写转小写、词的形还原（复数形式转成单数形参、过去式转成现在式。。。）等。

什么是停用词？停用词是为节省存储空间和提高搜索效率，搜索引擎在索引页面或处理搜索请求时会自动忽略某些字或词，这些字或词即被称为Stop Words(停用词)。比如语气助词、副词、介词、连接词等，通常自身并无明确的意义，只有将其放入一个完整的句子中才有一定作用，如常见的“的”、“在”、“是”、“啊”等。

对于分词来说，不同的语言，分词规则不同。Lucene作为一个工具包提供不同国家的分词器，本例子使用StandardAnalyzer，它可以对用英文进行分词。

如下是org.apache.lucene.analysis.standard.standardAnalyzer的部分源码：

@Override
protected TokenStreamComponents createComponents(final String fieldName) {
final Tokenizer src;
if (getVersion().onOrAfter(Version.LUCENE_4_7_0)) {
    //创建分词[带有Tokenizer一般都表示创建分词器]
    StandardTokenizer t = new StandardTokenizer();
    t.setMaxTokenLength(maxTokenLength);
    src = t;
} else {
    //创建分词[带有Tokenizer一般都表示创建分词器]
    StandardTokenizer40 t = new StandardTokenizer40();
    t.setMaxTokenLength(maxTokenLength);
    src = t;
}
//创建过滤,带有Filter一般表示过滤s
TokenStream tok = new StandardFilter(src);
//大小写过滤
tok = new LowerCaseFilter(tok);
//停用词汇过滤
tok = new StopFilter(tok, stopwords);
return new TokenStreamComponents(src, tok) {
    @Override
    protected void setReader(final Reader reader) throws IOException {
      int m = StandardAnalyzer.this.maxTokenLength;
      if (src instanceof StandardTokenizer) {
        ((StandardTokenizer)src).setMaxTokenLength(m);
      } else {
        ((StandardTokenizer40)src).setMaxTokenLength(m);
      }
      super.setReader(reader);
    }
};
}

如下图是语汇单元的生成过程：

例如源文档内容为：Lucene is a Java full-text search engine.

分词之后：

lucene

java

full

text

engine

3.2 分词器的使用时机

3.2.1 索引时使用Analyzer

输入关键字进行搜索，当需要让该关键字与文档域内容所包含的词进行匹配时需要对文档域内容进行分析，需要经过Analyzer分析器处理生成语汇单元（Token）。分析器分析的对象是文档中的Field域。当Field的属性tokenized（是否分词）为true时会对Field值进行分析，如下图：

对于一些Field可以不用分析：

不作为查询条件的内容，比如文件路径
不是匹配内容中的词而匹配Field的整体内容，比如订单号、身份证号等。

3.2.2 搜索时使用Analyzer

对搜索关键字进行分析和索引分析一样，使用Analyzer对搜索关键字进行分析、分词处理，使用分析后每个词语进行搜索。比如：搜索关键字：spring web ，经过分析器进行分词，得出：spring web拿词去索引词典表查找，找到索引链接到Document，解析Document内容。

对于匹配整体Field域的查询可以0在搜索时不分析，比如根据订单号、身份证号查询等。

注意：搜索使用的分析器要和索引使用的分析器一致

3.3 中文分词器

3.3.1 什么是中文分词器

学过英文的都知道，英文是以单词为单位的，单词与单词之间以空格或者逗号句号隔开。所以对于英文，我们可以简单以空格判断某个字符串是否为一个单词，比如I love China，love 和 China很容易被程序区分开来。

而中文则以字为单位，字又组成词，字和词再组成句子。中文“我爱中国”就不一样了，电脑不知道“中国”是一个词语还是“爱中”是一个词语。

把中文的句子切分成有意义的词，就是中文分词，也称切词。我爱中国，分词的结果是：我、爱、中国。

3.3.2 Lucene自带中文分词器

StandardAnalyzer:

单字分词：就是按照中文一个字一个字地进行分词。如：“我爱中国”，效果：“我”、“爱”、“中”、“国”。

CJKAnalyzer

二分法分词：按两个字进行切分。如：“我是中国人”，效果：“我是”、“是中”、“中国”“国人”。

SmartChineseAnalyzer

对中文支持较好，但扩展性差，扩展词库，禁用词库和同义词库等不好处理。

3.3.3 第三方中文分词器

paoding

庖丁解牛最新版在 https://code.google.com/p/paoding/ 中最多支持Lucene 3.0，且最新提交的代码在 2008-06-03，在svn中最新也是2010年提交，已经过时，不予考虑。

mmseg4j

最新版已从 https://code.google.com/p/mmseg4j/ 移至 https://github.com/chenlb/mmseg4j-solr，支持Lucene 4.10，且在github中最新提交代码是2014年6月，从09年～14年一共有：18个版本，也就是一年几乎有3个大小版本，有较大的活跃度，用了mmseg算法。

IK-analyzer

最新版在https://code.google.com/p/ik-analyzer/上，支持Lucene 4.10从2006年12月推出1.0版开始， IKAnalyzer已经推出了4个大版本。最初，它是以开源项目Luence为应用主体的，结合词典分词和文法分析算法的中文分词组件。从3.0版本开始，IK发展为面向Java的公用分词组件，独立于Lucene项目，同时提供了对Lucene的默认优化实现。在2012版本中，IK实现了简单的分词歧义排除算法，标志着IK分词器从单纯的词典分词向模拟语义分词衍化。但是也就是2012年12月后没有在更新。

3.4 使用中文分词器IKAnalyzer

IKAnalyzer继承Lucene的Analyzer抽象类，使用IKAnalyzer和Lucene自带的分析器方法一样，将Analyzer测试代码改为IKAnalyzer测试中文分词效果。

如果使用中文分词器ik-analyzer，就需要在索引和搜索程序中使用一致的分词器：IK-analyzer。

3.4.1 安装使用IK分词器

将2个jar包添加到工程中，然后将其他3个配置文件放置到工程的classpath目录即可，但我们这里将使用maven工程，所以可以将包安装到本地。

先将上面2个jar包拷贝到D盘根目录，然后按照如下方式安装:

mvn install:install-file -Dfile=D:\IKAnalyzer5.3.1.jar -DgroupId=org.wltea.ik-analyzer -DartifactId=ik-analyzer -Dversion=5.3.1.RELEASE -Dpackaging=jar

mvn install:install-file -Dfile=D:\IK-Analyzer-extra-5.3.1.jar -DgroupId=org.wltea.ik-analyzer -DartifactId=ik-analyzer-extra -Dversion=5.3.1.RELEASE -Dpackaging=jar

在pom.xml中引入依赖:

    org.wltea.ik-analyzer
    ik-analyzer
    5.3.1.RELEASE

    org.wltea.ik-analyzer
    ik-analyzer-extra
    5.3.1.RELEASE

导入配置文件，分别将ext.dic,IKAnalyzer.cfg.xml，stopword.dic文件拷贝到工程的resources目录。

IK分词器安装好了，前面的案例想使用IK分词器只需要将StandardAnalyzer改成IKAnalyzer即可。

改造前：

Analyzer analyzer = new StandardAnalyzer();

改造后：

Analyzer analyzer = new IKAnalyzer();

注意：从新生成索引库，之前要先删除原来的index库，如果正在使用luke，还需要先关闭luke，然后重新生成索引，再通过luke打开索引库查看效果。

3.4.2 扩展中文词库

如果想配置扩展词和停用词，就创建扩展词的文件和停用词的文件。

注意：不要用window自带的记事本保存扩展词文件和停用词文件，那样的话，格式中是含有bom的。

编辑上面拷贝的文件ext.dic文件，可以在里面添加一些相关的词汇，例如：传智播客

使用luke工具可以明显看到传智播客已经成为了一个关键词

3.4.3 停用词库

stopword.dic是存放停用词的地方,比如可以讲MyBatis作为停用词，只需要在stopword.dic后面追加一个mybatis即可。mybatis增加停用词库后发现再也搜不到mybatis了。

第4章 Field域

4.1 Field属性

Field是文档中的域，包括Field名和Field值两部分，一个文档可以包括多个Field，Document只是Field的一个承载体，Field值即为要索引的内容，也是要搜索的内容。

Field中三个非常重要的属性：

是否分词(tokenized)

是，将field的内容分成一个一个单词。分词的目的：分词目的为了索引

例如：商品的名称。

否，不分词，将内容作为一个整体存储。

例如：商品ID 身份证号，图片路径

是否索引(indexed)

是，将field的值建立索引，索引的目的：索引的目的为了搜索。

例如：商品的名称

否，不建立索引

例如：图片路径、文件路径等

是否存储(stored)，存不存取决于查询结果展示不展示

是，存储field的值。存储的目的：（为了展示在页面）

例如：商品名称，图片路径

否，不存储field的值。

例如：商品介绍。如果需要展示，根据ID从数据库查询展示在详情页面。

4.2 Field常用类型

下边列出了开发中常用的Filed类型，注意Field的属性，根据需求选择：

Field类	数据类型	Analyzed 是否分词	Indexed 是否索引	Stored 是否存储	说明
StringField(FieldName, FieldValue,Store.YES))	字符串	N	Y	Y或N	这个Field用来构建一个字符串Field，但是不会进行分词，会将整个串存储在索引中，比如(订单号,身份证号等) 是否存储在文档中用Store.YES或Store.NO决定
LongField(FieldName, FieldValue,Store.YES) FloatField(FieldName, FieldValue,Store.YES)	Long类型Float类型等等数字类型	Y	Y	Y或N	这个Field用来构建一个Long数字型Field，进行分词和索引，比如(价格) 是否存储在文档中用Store.YES或Store.NO决定
StoredField(FieldName, FieldValue)	重载方法，支持多种类型	N	N	Y	这个Field用来构建不同类型Field（图片路径）不分词，不索引，但要Field存储在文档中
TextField(FieldName, FieldValue, Store.NO) 或 TextField(FieldName, reader)	字符串或流	Y	Y	Y或N	如果是一个Reader, lucene猜测内容比较多,会采用Unstored的策略.

4.3 Field修改

4.3.1 修改分析

图书id：

是否分词：不用分词，因为不会根据商品id来搜索商品

是否索引：不索引，因为不需要根据图书ID进行搜索

是否存储：要存储，因为查询结果页面需要使用id这个值。

图书名称：

是否分词：要分词，因为要根据图书名称的关键词搜索。

是否索引：要索引。

是否存储：要存储。

图书价格：

是否分词：要分词，lucene对数字型的值只要有搜索需求的都要分词和索引，因为lucene对数字型的内容要特殊分词处理，需要分词和索引。

是否索引：要索引

是否存储：要存储

图书图片地址：

是否分词：不分词

是否索引：不索引

是否存储：要存储

图书描述：

是否分词：要分词

是否索引：要索引

是否存储：因为图书描述内容量大，不在查询结果页面直接显示，不存储。

不存储是不在lucene的索引域中记录，节省lucene的索引文件空间。

如果要在详情页面显示描述，解决方案：

从lucene中取出图书的id，根据图书的id查询关系数据库（MySQL）中book表得到描述信息。

4.3.2 代码修改

// id 不分词 要索引 要存储

Field id = new StringField("id", book.getId().toString(), Field.Store.YES);

// name 要分词 要索引 要存储

Field name = new TextField("name", book.getName(), Field.Store.YES);

// price 要分词 要索引 要存储，数字比较特殊

Field price = new FloatField("price", book.getPrice(), Field.Store.YES);

// pic 不分词 不索引 要存储

Field pic = new StoredField("pic", book.getPic());

// description 要分词 要索引 不存储，原因详情数据量太大

Field desc = new TextField("desc", book.getDesc(), Field.Store.NO);

注意：执行前先删除原来的index库,如果正在使用luke 还需要先关闭luke 。

第5章索引维护

5.1 删除索引

5.1.1 删除指定索引

根据Term项删除索引，满足条件的将全部删除。

@Test

public void testDelele() throws Exception{

    //5.创建一个标准分词器(Analyzer与StandardAnalyzer)，对文档中的Field域进行分词

    Analyzer analyzer = new IKAnalyzer();

    //6.指定索引储存目录，使用FSDirectory.open()方法。

    Directory directory = FSDirectory.open(new File("D:/itheima/index").toPath());

    //7.创建IndexWriterConfig对象，直接new，用于接下来创建IndexWriter对象

    IndexWriterConfig indexWriterConfig = new IndexWriterConfig(analyzer);

    //8.创建IndexWriter对象，直接new

    IndexWriter indexWriter = new IndexWriter(directory,indexWriterConfig);



    //删除索引

    indexWriter.deleteDocuments(new Term("name", "java"));

    //释放资源

    indexWriter.close();

}

效果如下图：索引域没有变化,文档域数据被删除掉。

5.1.2 删除全部索引（慎用）

将索引目录的索引信息全部删除，直接彻底删除，无法恢复。

建议参照关系数据库基于主键删除方式，所以在创建索引时需要创建一个主键Field，删除时根据此主键Field删除。

索引删除后将放在Lucene的回收站中，Lucene3.X版本可以恢复删除的文档，3.X之后无法恢复。

代码：

@Test

public void testDelele() throws Exception{

    //5.创建一个标准分词器(Analyzer与StandardAnalyzer)，对文档中的Field域进行分词

    Analyzer analyzer = new IKAnalyzer();

    //6.指定索引储存目录，使用FSDirectory.open()方法。

    Directory directory = FSDirectory.open(new File("D:/itheima/index").toPath());

    //7.创建IndexWriterConfig对象，直接new，用于接下来创建IndexWriter对象

    IndexWriterConfig indexWriterConfig = new IndexWriterConfig(analyzer);

    //8.创建IndexWriter对象，直接new

    IndexWriter indexWriter = new IndexWriter(directory,indexWriterConfig);



    //删除索引

    //indexWriter.deleteDocuments(new Term("name", "java"));

    indexWriter.deleteAll();



    indexWriter.close();

}

索引域数据清空，文档域数据也清空。

5.2 更新索引

更新索引是先删除再添加，建议对更新需求采用此方法并且要保证对已存在的索引执行更新，可以先查询出来，确定更新记录存在执行更新操作。

如果更新索引的目标文档对象不存在，则执行添加。

代码

@Test

public void testUpdate() throws Exception{

    //5.创建一个标准分词器(Analyzer与StandardAnalyzer)，对文档中的Field域进行分词

    Analyzer analyzer = new IKAnalyzer();

    //6.指定索引储存目录，使用FSDirectory.open()方法。

    Directory directory = FSDirectory.open(new File("D:/itheima/index").toPath());

    //7.创建IndexWriterConfig对象，直接new，用于接下来创建IndexWriter对象

    IndexWriterConfig indexWriterConfig = new IndexWriterConfig(analyzer);

    //8.创建IndexWriter对象，直接new

    IndexWriter indexWriter = new IndexWriter(directory,indexWriterConfig);



    Document doc = new Document();

    // id 不分词 要索引 要存储

    Field id = new StringField("id","1", Field.Store.YES);

    // name 要分词 要索引 要存储

    Field name = new TextField("name","这是修改过的值", Field.Store.YES);

    doc.add(id);

    doc.add(name);

    //执行更新，会把所有符合条件的Document删除，再新增。

    indexWriter.updateDocument(new Term("name","java"),doc);

    indexWriter.close();

}

Lucene入门

全文检索课程

课程大纲

倒排索引讲解
Lucene入门案例
分词器讲解
IK分词器集成
域(表的字段、JavaBean的属性)的讲解
索引维护操作(类似数据库，存储的是数据【索引数据】)

第1章 Lucene介绍

1.1 为什么要学Lucene

实现商城里面的商品搜索功能，可以根据商品标题模糊查询商品。

原来的方式实现搜索功能，我们的搜索流程如下图：

上图就是原始搜索引擎技术，如果用户比较少而且数据库的数据量比较小，那么这种方式实现搜索功能在企业中是比较常见的。

但是数据量过多时，数据库的压力就会变得很大，查询速度会变得非常慢。我们需要使用更好的解决方案来分担数据库的压力。

现在的方案（使用Lucene），如下图

为了解决数据库压力和速度的问题，我们的数据库换成了索引库，使用Lucene的API的来操作服务器上的索引库。

使用索引库专门实现查询功能，而且完全和数据库进行了隔离。

1.2 数据查询方法

1.2.1 顺序扫描法

如利用windows的搜索也可以搜索文件内容，只是速度会相当的慢。

1.2.2 倒排索引

先举一个栗子：

倒排索引：

1.2.3 搜索技术应用场景

应用场景：

1、单机软件的搜索（word中的搜索）

2、站内搜索（baidu贴吧、论坛、京东、 taobao）

3、垂直领域的搜索（818工作网）

4、专业搜索引擎公司（google、baidu）

1.3 Lucene介绍

1.3.1 什么是全文检索

1.3.2 什么是Lucene

Lucene是一套用于全文检索和搜寻的开源程式库，由Apache软件基金会支持和提供。 Lucene提供了一个简单却强大的应用程式接口，能够做全文索引和搜寻，在Java开发环境里Lucene是一个成熟的免费开放源代码工具。
Lucene并不是现成的搜索引擎产品，但可以用来制作搜索引擎产品。

1.3.3 Lucene与搜索引擎的区别

1.3.4 Lucene官网介绍

官网： http://lucene.apache.org/

第2章 Lucene入门

2.2 Lucene实现全文检索思路

全文检索的流程分为两大部分：索引流程、搜索流程。

索引流程:即采集数据à构建文档对象à分析文档（分词）à创建索引。
搜索流程:即用户通过搜索界面输入à创建查询à执行搜索，搜索器从索引库搜à渲染搜索结果。

2.2.1 如何采集数据

2.2.1.1网页采集（了解）

Nutch（http://lucene.apache.org/nutch）, Nutch是apache的一个子项目，包括大规模爬虫工具，能够抓取和分辨web网站数据。

2.2.1.2数据库采集（掌握）

针对电商站内搜索功能，全文检索的数据源在数据库中，例如：可以通过jdbc访问数据库中图书表的内容。

//1.注册驱动

//2.获取连接

//3.sql语句

//4.创建statement

//5.设置参数

//6.执行

//7.获取结果集

//8.关闭资源。

2.2.1.3文件系统的采集数据：通过java IO操作（了解）

2.2 Lucene准备

Lucene可以在官网上下载。课程已经准备好了Lucene的文件，我们使用的是lucene-5.3.1版本，文件位置如下图：

解压后如下图：

2.3 案例创建

JDK：1.8 （Lucene5.3.1以上，必须使用JDK1.8及以上版本）
IDE：IDEA
数据库： MySQL5
数据库脚本位置如下图：

数据库数据如下：

2.3.1 pom.xml

创建案例工程lucene-01，导入所需jar包的依赖

xml version="1.0" encoding="UTF-8"?>

<project xmlns="http://maven.apache.org/POM/4.0.0"

         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">

    <modelVersion>4.0.0modelVersion>



    <groupId>com.itheimagroupId>

    <artifactId>lucene_01artifactId>

    <version>1.0-SNAPSHOTversion>

    

    <packaging>jarpackaging>



    

    <dependencies>

        

        <dependency>

            <groupId>org.apache.lucenegroupId>

            <artifactId>lucene-coreartifactId>

            <version>5.3.1version>

        dependency>

        

        <dependency>

            <groupId>org.apache.lucenegroupId>

            <artifactId>lucene-analyzers-commonartifactId>

            <version>5.3.1version>

        dependency>

        

        <dependency>

            <groupId>org.apache.lucenegroupId>

            <artifactId>lucene-analyzers-smartcnartifactId>

            <version>5.3.1version>

        dependency>

        

        <dependency>

            <groupId>org.apache.lucenegroupId>

            <artifactId>lucene-queryparserartifactId>

            <version>5.3.1version>

        dependency>

        

        <dependency>

            <groupId>org.apache.lucenegroupId>

            <artifactId>lucene-highlighterartifactId>

            <version>5.3.1version>

        dependency>

        

        <dependency>

            <groupId>mysqlgroupId>

            <artifactId>mysql-connector-javaartifactId>

            <version>5.1.32version>

        dependency>



        

        <dependency>

            <groupId>junitgroupId>

            <artifactId>junitartifactId>

            <version>4.12version>

            <scope>testscope>

        dependency>

    dependencies>



    <build>

        <plugins>

            

            <plugin>

                <groupId>org.apache.maven.pluginsgroupId>

                <artifactId>maven-compiler-pluginartifactId>

                <version>3.2version>

                <configuration>

                    <source>1.8source>

                    <target>1.8target>

                    <encoding>UTF-8encoding>

                configuration>

            plugin>

        plugins>

    build>

project>

2.3.2 创建索引

2.3.2.1 创建Pojo

采集数据是指获取需要的数据，然后将这些数据加入到索引库中，我们采集的数据是从MySQL数据库中采集。

创建Book对象

2.3.2.2 创建Dao接口和实现类

BookDao接口

package com.itheima.dao;

public interface BookDao {

    /**

     * 查询所有的book数据

     * @return

     */

    List queryBookList();

}

BookDaoImpl实现类

public class BookDaoImpl implements BookDao {

    /***

     * 查询数据库数据

     * @return

     * @throws Exception

     */

    @Override

    public List queryBookList(){

        // 数据库链接

        Connection connection = null;

        // 预编译statement

        PreparedStatement preparedStatement = null;

        // 结果集

        ResultSet resultSet = null;

        // 图书列表

        List list = new ArrayList();

        try {

            // 加载数据库驱动

            Class.forName("com.mysql.jdbc.Driver");

            // 连接数据库

            connection = DriverManager.getConnection("jdbc:mysql://localhost:3306/lucene", "root", "root");



            // SQL语句

            String sql = "SELECT * FROM book";

            // 创建preparedStatement

            preparedStatement = connection.prepareStatement(sql);

            // 获取结果集

            resultSet = preparedStatement.executeQuery();

            // 结果集解析

            while (resultSet.next()) {

                Book book = new Book();

                book.setId(resultSet.getInt("id"));

                book.setName(resultSet.getString("name"));

                book.setPrice(resultSet.getFloat("price"));

                book.setPic(resultSet.getString("pic"));

                book.setDesc(resultSet.getString("desc"));

                list.add(book);

            }

        } catch (Exception e) {

            e.printStackTrace();

        }

        return list;

    }

}

2.3.2.3 创建索引

思路

采集数据：(jdbc采集数据通过BookDao调用方法得到结果集)
遍历book结果集，组装Document数据列表
构建Field域，说白了就是将要存储的数据字段需要用到new TextField对象三个参数的构造方法，book中有多个字段，所以创建多个Field对象。
将Field域所有对象，添加到文档对象中。调用Document.add
创建一个标准分词器(Analyzer与StandardAnalyzer)，对文档中的Field域进行分词
指定索引储存目录，使用FSDirectory.open(new File("").toPath())方法。
创建IndexWriterConfig对象，直接new，用于接下来创建IndexWriter对象
创建IndexWriter对象，直接new
添加文档对象到索引库输出对象中，使用IndexWriter.addDocuments方法
释放资源IndexWriter.close();

按照上面的流程实现创建索引，代码如下：

public class TestIndex {

    @Test

    public void testCreateIndex() throws Exception{

        //1.采集数据：(jdbc采集数据通过BookDao调用方法得到结果集)

        BookDao bookDao = new BookDaoImpl();

        List books = bookDao.queryBookList();

        //2.遍历book结果集，组装Document数据列表

        List docs = new ArrayList<>();

        Document doc = null;

        for (Book book : books) {

            //3.构建Field域，说白了就是将要存储的数据字段需要用到new TextField对象三个参数的构造方法，

            // book中有多个字段，所以创建多个Field对象。

            Field id = new TextField("id", book.getId().toString(), Field.Store.YES);

            Field name = new TextField("name", book.getName(), Field.Store.YES);

            Field price = new TextField("price", book.getPrice().toString(), Field.Store.YES);

            Field pic = new TextField("pic", book.getPic(), Field.Store.YES);

            Field desc = new TextField("desc", book.getDesc(), Field.Store.YES);

            //4.将Field域所有对象，添加到文档对象中。调用Document.add

            doc = new Document();

            doc.add(id);

            doc.add(name);

            doc.add(price);

            doc.add(pic);

            doc.add(desc);

            //记录文档对象列表

            docs.add(doc);

        }

        //5.创建一个标准分词器(Analyzer与StandardAnalyzer)，对文档中的Field域进行分词

        Analyzer analyzer = new StandardAnalyzer();

        //6.指定索引储存目录，使用FSDirectory.open()方法。

        Directory directory = FSDirectory.open(new File("D:/itheima/index").toPath());

        //7.创建IndexWriterConfig对象，直接new，用于接下来创建IndexWriter对象

        IndexWriterConfig indexWriterConfig = new IndexWriterConfig(analyzer);

        //8.创建IndexWriter对象，直接new

        IndexWriter indexWriter = new IndexWriter(directory,indexWriterConfig);

        //9.添加文档对象到索引库输出对象中，使用IndexWriter.addDocuments方法

        indexWriter.addDocuments(docs);

        //10.释放资源IndexWriter.close();

        indexWriter.close();

    }

}

执行运行，查看D:/itheima/index目录

2.3.3 使用Luke查看索引

Luke作为Lucene工具包中的一个工具（http://www.getopt.org/luke/），可以通过界面来进行索引文件的查询、修改.luke所在位置如下图：

打开luke-5.3.0-luke-release，双击luke.bat即可运行luke

打开后界面如下：

点击OK后就可以查看到索引信息了

选中Documents，可以查看每个文档信息

使用luke搜索，如下图：

2.3.4 搜索实现

Lucene可以通过query对象输入查询语句。同数据库的sql一样，lucene也有固定的查询语法：最基本的有比如：AND, OR, NOT 等（必须大写）

举个栗子:用户想找一个desc中包括java关键字和lucene关键字的文档。它对应的查询语句：desc:java AND lucene

思路

创建一个Directory对象，FSDirectory.open指定索引库存放的位置
创建一个IndexReader对象，DirectoryReader.open需要指定Directory对象
创建一个Indexsearcher对象，直接new，需要指定IndexReader对象
创建一个标准分词器(Analyzer与StandardAnalyzer)，对文档中的Field域进行分词
创建一个QueryParser对象， new QueryParser (域名称，分词器)
调用QueryParser.parser(搜索的内容)，得到Query
执行查询，IndexSearcher.search(Query对象,查询排名靠多少名前的记录数)，得到结果TopDocs
遍历查询结果并输出，TopDocs.totalHits总记录数，topDocs.scoreDocs数据列表，通过scoreDoc.doc得到唯一id,再通过IndexSearcher.doc(id)，得到文档对象Document再Document.get(域名称)得到结果
关闭IndexReader对象

2.3.4.1 索引搜索实现

实现代码：

@Test

public void testQuery() throws Exception{

    //1.创建一个Directory对象，FSDirectory.open指定索引库存放的位置

    Directory directory = FSDirectory.open(new File("D:/itheima/index").toPath());

    //2.创建一个IndexReader对象，DirectoryReader.open需要指定Directory对象

    IndexReader indexReader = DirectoryReader.open(directory);

    //3.创建一个Indexsearcher对象，直接new，需要指定IndexReader对象

    IndexSearcher indexSearcher = new IndexSearcher(indexReader);

    //4.创建一个标准分词器(Analyzer与StandardAnalyzer)，对文档中的Field域进行分词

    Analyzer analyzer = new StandardAnalyzer();

    //5.创建一个QueryParser对象， new QueryParser (域名称，分词器)

    QueryParser queryParser = new QueryParser("desc",analyzer);

    //6.调用QueryParser.parser(搜索的内容)，得到Query

    Query query = queryParser.parse("java");

    //7.执行查询，IndexSearcher.search(Query对象,查询排名靠多少名前的记录数)，得到结果TopDocs

    TopDocs topDocs = indexSearcher.search(query, 10);

    //8.遍历查询结果并输出，TopDocs.totalHits总记录数，topDocs.scoreDocs数据列表，

    // 通过scoreDoc.doc得到唯一id,再通过IndexSearcher.doc(id)，

    // 得到文档对象Document再Document.get(域名称)得到结果

    System.out.println("总记录数为：" + topDocs.totalHits);

    for (ScoreDoc scoreDoc : topDocs.scoreDocs) {

        int docId = scoreDoc.doc;

        Document doc = indexSearcher.doc(docId);

        System.out.println(doc.get("id") + "->" + doc.get("name") + "," + doc.get("price"));

    }

    //9.关闭IndexReader对象

    indexReader.close();

}

2.3.4.2 搜索方法

IndexSearcher搜索方法如下：

第3章分词器

3.1 分词理解

在对Docuemnt中的内容进行索引之前，需要使用分词器进行分词，分词的目的是为了搜索。分词的主要过程就是先分词后过滤。

分词：采集到的数据会存储到document对象的Field域中，分词就是将Document中Field的value值切分成一个一个的词。
过滤：包括去除标点符号过滤、去除停用词过滤（的、是、a、an、the等）、大写转小写、词的形还原（复数形式转成单数形参、过去式转成现在式。。。）等。

对于分词来说，不同的语言，分词规则不同。Lucene作为一个工具包提供不同国家的分词器，本例子使用StandardAnalyzer，它可以对用英文进行分词。

如下是org.apache.lucene.analysis.standard.standardAnalyzer的部分源码：

如下图是语汇单元的生成过程：

例如源文档内容为：Lucene is a Java full-text search engine.

分词之后：

lucene

java

full

text

engine

3.2 分词器的使用时机

3.2.1 索引时使用Analyzer

对于一些Field可以不用分析：

不作为查询条件的内容，比如文件路径
不是匹配内容中的词而匹配Field的整体内容，比如订单号、身份证号等。

3.2.2 搜索时使用Analyzer

对于匹配整体Field域的查询可以0在搜索时不分析，比如根据订单号、身份证号查询等。

注意：搜索使用的分析器要和索引使用的分析器一致

3.3 中文分词器

3.3.1 什么是中文分词器

而中文则以字为单位，字又组成词，字和词再组成句子。中文“我爱中国”就不一样了，电脑不知道“中国”是一个词语还是“爱中”是一个词语。

把中文的句子切分成有意义的词，就是中文分词，也称切词。我爱中国，分词的结果是：我、爱、中国。

3.3.2 Lucene自带中文分词器

StandardAnalyzer:

单字分词：就是按照中文一个字一个字地进行分词。如：“我爱中国”，效果：“我”、“爱”、“中”、“国”。

CJKAnalyzer

二分法分词：按两个字进行切分。如：“我是中国人”，效果：“我是”、“是中”、“中国”“国人”。

SmartChineseAnalyzer

对中文支持较好，但扩展性差，扩展词库，禁用词库和同义词库等不好处理。

3.3.3 第三方中文分词器

paoding

庖丁解牛最新版在 https://code.google.com/p/paoding/ 中最多支持Lucene 3.0，且最新提交的代码在 2008-06-03，在svn中最新也是2010年提交，已经过时，不予考虑。

mmseg4j

IK-analyzer

3.4 使用中文分词器IKAnalyzer

IKAnalyzer继承Lucene的Analyzer抽象类，使用IKAnalyzer和Lucene自带的分析器方法一样，将Analyzer测试代码改为IKAnalyzer测试中文分词效果。

如果使用中文分词器ik-analyzer，就需要在索引和搜索程序中使用一致的分词器：IK-analyzer。

3.4.1 安装使用IK分词器

将2个jar包添加到工程中，然后将其他3个配置文件放置到工程的classpath目录即可，但我们这里将使用maven工程，所以可以将包安装到本地。

先将上面2个jar包拷贝到D盘根目录，然后按照如下方式安装:

在pom.xml中引入依赖:

    org.wltea.ik-analyzer
    ik-analyzer
    5.3.1.RELEASE

    org.wltea.ik-analyzer
    ik-analyzer-extra
    5.3.1.RELEASE

导入配置文件，分别将ext.dic,IKAnalyzer.cfg.xml，stopword.dic文件拷贝到工程的resources目录。

IK分词器安装好了，前面的案例想使用IK分词器只需要将StandardAnalyzer改成IKAnalyzer即可。

改造前：

Analyzer analyzer = new StandardAnalyzer();

改造后：

Analyzer analyzer = new IKAnalyzer();

注意：从新生成索引库，之前要先删除原来的index库，如果正在使用luke，还需要先关闭luke，然后重新生成索引，再通过luke打开索引库查看效果。

3.4.2 扩展中文词库

如果想配置扩展词和停用词，就创建扩展词的文件和停用词的文件。

注意：不要用window自带的记事本保存扩展词文件和停用词文件，那样的话，格式中是含有bom的。

编辑上面拷贝的文件ext.dic文件，可以在里面添加一些相关的词汇，例如：传智播客

使用luke工具可以明显看到传智播客已经成为了一个关键词

3.4.3 停用词库

stopword.dic是存放停用词的地方,比如可以讲MyBatis作为停用词，只需要在stopword.dic后面追加一个mybatis即可。mybatis增加停用词库后发现再也搜不到mybatis了。

第4章 Field域

4.1 Field属性

Field中三个非常重要的属性：

是否分词(tokenized)

是，将field的内容分成一个一个单词。分词的目的：分词目的为了索引

例如：商品的名称。

否，不分词，将内容作为一个整体存储。

例如：商品ID 身份证号，图片路径

是否索引(indexed)

是，将field的值建立索引，索引的目的：索引的目的为了搜索。

例如：商品的名称

否，不建立索引

例如：图片路径、文件路径等

是否存储(stored)，存不存取决于查询结果展示不展示

是，存储field的值。存储的目的：（为了展示在页面）

例如：商品名称，图片路径

否，不存储field的值。

例如：商品介绍。如果需要展示，根据ID从数据库查询展示在详情页面。

4.2 Field常用类型

下边列出了开发中常用的Filed类型，注意Field的属性，根据需求选择：

Field类	数据类型	Analyzed 是否分词	Indexed 是否索引	Stored 是否存储	说明
StringField(FieldName, FieldValue,Store.YES))	字符串	N	Y	Y或N	这个Field用来构建一个字符串Field，但是不会进行分词，会将整个串存储在索引中，比如(订单号,身份证号等) 是否存储在文档中用Store.YES或Store.NO决定
LongField(FieldName, FieldValue,Store.YES) FloatField(FieldName, FieldValue,Store.YES)	Long类型Float类型等等数字类型	Y	Y	Y或N	这个Field用来构建一个Long数字型Field，进行分词和索引，比如(价格) 是否存储在文档中用Store.YES或Store.NO决定
StoredField(FieldName, FieldValue)	重载方法，支持多种类型	N	N	Y	这个Field用来构建不同类型Field（图片路径）不分词，不索引，但要Field存储在文档中
TextField(FieldName, FieldValue, Store.NO) 或 TextField(FieldName, reader)	字符串或流	Y	Y	Y或N	如果是一个Reader, lucene猜测内容比较多,会采用Unstored的策略.

4.3 Field修改

4.3.1 修改分析

图书id：

是否分词：不用分词，因为不会根据商品id来搜索商品

是否索引：不索引，因为不需要根据图书ID进行搜索

是否存储：要存储，因为查询结果页面需要使用id这个值。

图书名称：

是否分词：要分词，因为要根据图书名称的关键词搜索。

是否索引：要索引。

是否存储：要存储。

图书价格：

是否分词：要分词，lucene对数字型的值只要有搜索需求的都要分词和索引，因为lucene对数字型的内容要特殊分词处理，需要分词和索引。

是否索引：要索引

是否存储：要存储

图书图片地址：

是否分词：不分词

是否索引：不索引

是否存储：要存储

图书描述：

是否分词：要分词

是否索引：要索引

是否存储：因为图书描述内容量大，不在查询结果页面直接显示，不存储。

不存储是不在lucene的索引域中记录，节省lucene的索引文件空间。

如果要在详情页面显示描述，解决方案：

从lucene中取出图书的id，根据图书的id查询关系数据库（MySQL）中book表得到描述信息。

4.3.2 代码修改

// id 不分词 要索引 要存储

Field id = new StringField("id", book.getId().toString(), Field.Store.YES);

// name 要分词 要索引 要存储

Field name = new TextField("name", book.getName(), Field.Store.YES);

// price 要分词 要索引 要存储，数字比较特殊

Field price = new FloatField("price", book.getPrice(), Field.Store.YES);

// pic 不分词 不索引 要存储

Field pic = new StoredField("pic", book.getPic());

// description 要分词 要索引 不存储，原因详情数据量太大

Field desc = new TextField("desc", book.getDesc(), Field.Store.NO);

注意：执行前先删除原来的index库,如果正在使用luke 还需要先关闭luke 。

第5章索引维护

5.1 删除索引

5.1.1 删除指定索引

根据Term项删除索引，满足条件的将全部删除。

@Test

public void testDelele() throws Exception{

    //5.创建一个标准分词器(Analyzer与StandardAnalyzer)，对文档中的Field域进行分词

    Analyzer analyzer = new IKAnalyzer();

    //6.指定索引储存目录，使用FSDirectory.open()方法。

    Directory directory = FSDirectory.open(new File("D:/itheima/index").toPath());

    //7.创建IndexWriterConfig对象，直接new，用于接下来创建IndexWriter对象

    IndexWriterConfig indexWriterConfig = new IndexWriterConfig(analyzer);

    //8.创建IndexWriter对象，直接new

    IndexWriter indexWriter = new IndexWriter(directory,indexWriterConfig);



    //删除索引

    indexWriter.deleteDocuments(new Term("name", "java"));

    //释放资源

    indexWriter.close();

}

效果如下图：索引域没有变化,文档域数据被删除掉。

5.1.2 删除全部索引（慎用）

将索引目录的索引信息全部删除，直接彻底删除，无法恢复。

建议参照关系数据库基于主键删除方式，所以在创建索引时需要创建一个主键Field，删除时根据此主键Field删除。

索引删除后将放在Lucene的回收站中，Lucene3.X版本可以恢复删除的文档，3.X之后无法恢复。

代码：

@Test

public void testDelele() throws Exception{

    //5.创建一个标准分词器(Analyzer与StandardAnalyzer)，对文档中的Field域进行分词

    Analyzer analyzer = new IKAnalyzer();

    //6.指定索引储存目录，使用FSDirectory.open()方法。

    Directory directory = FSDirectory.open(new File("D:/itheima/index").toPath());

    //7.创建IndexWriterConfig对象，直接new，用于接下来创建IndexWriter对象

    IndexWriterConfig indexWriterConfig = new IndexWriterConfig(analyzer);

    //8.创建IndexWriter对象，直接new

    IndexWriter indexWriter = new IndexWriter(directory,indexWriterConfig);



    //删除索引

    //indexWriter.deleteDocuments(new Term("name", "java"));

    indexWriter.deleteAll();



    indexWriter.close();

}

索引域数据清空，文档域数据也清空。

5.2 更新索引

更新索引是先删除再添加，建议对更新需求采用此方法并且要保证对已存在的索引执行更新，可以先查询出来，确定更新记录存在执行更新操作。

如果更新索引的目标文档对象不存在，则执行添加。

代码

@Test

public void testUpdate() throws Exception{

    //5.创建一个标准分词器(Analyzer与StandardAnalyzer)，对文档中的Field域进行分词

    Analyzer analyzer = new IKAnalyzer();

    //6.指定索引储存目录，使用FSDirectory.open()方法。

    Directory directory = FSDirectory.open(new File("D:/itheima/index").toPath());

    //7.创建IndexWriterConfig对象，直接new，用于接下来创建IndexWriter对象

    IndexWriterConfig indexWriterConfig = new IndexWriterConfig(analyzer);

    //8.创建IndexWriter对象，直接new

    IndexWriter indexWriter = new IndexWriter(directory,indexWriterConfig);



    Document doc = new Document();

    // id 不分词 要索引 要存储

    Field id = new StringField("id","1", Field.Store.YES);

    // name 要分词 要索引 要存储

    Field name = new TextField("name","这是修改过的值", Field.Store.YES);

    doc.add(id);

    doc.add(name);

    //执行更新，会把所有符合条件的Document删除，再新增。

    indexWriter.updateDocument(new Term("name","java"),doc);

    indexWriter.close();

}

你可能感兴趣的:(java)

java面向对象基础 miehamiha java 开发语言
引入三大特征封装核心思想就是“隐藏细节”、“数据安全”，将对象不需要让外界访问的成员变量和方法私有化，只提供符合开发者意愿的公有方法来访问这些数据和逻辑，保证了数据的安全和程序的稳定。所有的内容对外部不可见。继承子类可以继承父类的属性和方法，并对其进行拓展。将其他的功能继承下来继续发展。多态同一种类型的对象执行同一个方法时可以表现出不同的行为特征。通过继承的上下转型、接口的回调以及方法的重写和重载
如何用PHP开发一个api数据接口幽蓝计划 php
对于一个iOS开发者来说，我一直觉得会写接口是一件很酷的事情，因为它可以实时修改前台数据，而不像App一样需要更新版本和接受审核。更重要的是，它意味着你的技术完成了一个闭环，可以独自完成一整个项目的开发。PHP是我接触的第一个脚本语言，使用之后更是感觉PHP功能强大，开发过程非常友好方便，虽然之后也学习过Python、JavaScript等语言，但现在还是习惯使用PHP，下面就来介绍一下如何用PH
Java 环境配置与 JAR 文件问题解决全攻略不羁。。杂记丨每天亿点小知识 java jar 开发语言
目录一、Java环境配置指南1.Windows系统配置步骤1.1下载安装JDK1.2配置环境变量2.Linux/macOS系统配置2.1终端命令配置二、JAR文件问题诊断与修复1.检查JAR文件完整性1.1命令行验证1.2哈希值校验2.依赖库管理方案2.1Maven依赖配置示例2.2命令行指定依赖三、常见问题解决方案1.环境变量不生效处理1.1清除系统缓存1.2路径优先级调整2.旧版本残留处理2.
COMP 315: Cloud Computing for E-Commerce 后端
Assignment1:JavascriptCOMP315:CloudComputingforE-CommerceFebruary20251IntroductionAcommontaskwhenbackendprogrammingisdatacleaning,whichistheprocessoftakinganinitialdatasetthatmaycontainerroneousorinco
MDC-Mapped Diagnostic Context（映射诊断上下文） NEUMaple 微服务 spring boot java MDC
MDC，全称为MappedDiagnosticContext（映射诊断上下文），是SLF4J（SimpleLoggingFacadeforJava）提供的一种机制，用于在多线程应用中存储和管理与特定线程相关的上下文信息。这种机制特别适用于需要跨多个方法调用或服务边界传递诊断信息的场景，例如跟踪分布式系统中的请求流。MDC的主要用途日志关联：在分布式系统或多线程应用中，MDC可以用来携带一些上下文信
Java：Apache HttpClient中HttpRoute用法的介绍 netyeaxi Java java apache 开发语言
当使用ApacheHttpClient组件时，经常会用到它的连接池组件。典型的代码如下：PoolingHttpClientConnectionManagerconnectionManager=newPoolingHttpClientConnectionManager();connectionManager.setMaxTotal(httpConfig.getMaxPoolTotal());conn
挑战20天学完JavaSE第四天——方法的定义、调用和方法重载呆呆why care 挑战20天学完javaSE java 笔记改行学it 程序人生
Java方法是语句的集合，它们在一起执行一个功能。方法是解决一类问题的步骤的有序组合。方法包含于类或对象中。方法在程序中被创建，在其他地方被引用。设计方法的原则:方法的本意是功能块，就是实现某个功能的语句块的集合。我们设计方法的时候，最好保持方法的原子性，就是一个方法只完成1个功能，这样利于我们后期的扩展。方法的命名规则：首字母小写驼峰命名方法的定义Java的方法类似于其它语言的函数，是一段用来完
java struts jxl 导入导出Excel（无模板） weixin_30437847 java 数据库 javascript ViewUI
jar包：importjavax.servlet.http.HttpServletResponse;importjava.io.OutputStream;importjava.io.File;importjxl.DateCell;importjxl.Sheet;importjxl.Workbook;importjxl.format.Alignment;importjxl.format.Border
ZooKeeper集群高可用性测试与实践：从规划到故障模拟磐基Stack专业服务团队 Zookeeper zookeeper 可用性测试
#作者：任少近文章目录ZooKeeper集群环境规划1.集群数据一致性测试2.集群节点故障测试ZooKeeper集群高可用性测试的主要目的是确保在分布式环境中，ZooKeeper服务能够持续提供一致性和高可用性的协调服务。ZooKeeper集群环境规划节点ipZooKeeper版本java版本对外端口集群通信端口集群选举端口192.168.x.xZooKeeper-3.6.11.8.0_33221
Java File 类与文件操作代码先锋者 java开发 java 开发语言
一、引言在Java编程中，文件操作是一项非常常见且重要的任务。无论是读取配置文件、保存用户数据，还是进行日志记录，都离不开对文件的操作。Java提供了File类来表示文件和目录的抽象路径名，通过该类可以对文件和目录进行创建、删除、重命名等操作。同时，Java还提供了一系列的输入输出流类，用于对文件内容进行读写操作。本文将详细介绍Java中File类的使用以及相关的文件操作案例。二、File类概述2
Java 基础数据类型代码先锋者 java开发 java 开发语言
一、引言在Java中每个变量都必须先声明其数据类型，才能使用（即Java是强类型语言）。Java的数据类型分为两大类：基本数据类型（PrimitiveDataTypes）和引用数据类型（ReferenceDataTypes）。二、基本数据类型分类Java有8种基本数据类型（如下图所示），可分为四大类（整数型，浮点型，字符型和布尔型）：8大基本数据类型具体位数、取值范围和默认值等如下表所示：数据类型
【大模型系列】SFT（Supervised Fine-Tuning，监督微调） Kwan的解忧杂货铺@新空间代码工作室 s2 AIGC 大模型
欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kwan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术,jvm,并发编程redis,kafka,Spring,微服务等常用开发工具系列:常用的开发工具,IDEA,Mac,Alfred,Git,
编程自学指南：java程序设计开发，Java 对象创建的6种方式，从new到反射：Java 对象创建全解析，new关键字，反射机制，克隆（Clone），反序列化，工厂模式，建造者模式 zl515035644 java自学指南 java 开发语言
编程自学指南：java程序设计开发，Java对象创建的几种方式一、课程信息学习目标掌握6种主流对象创建方式的实现方法理解每种方式的适用场景与优缺点能根据需求选择最合适的创建方式避免对象创建中的常见错误（如构造器权限问题）二、课程导入：生活中的"创建"场景类比买现成的→new关键字（最常用）复制已有物品→克隆（Clone）按图纸定制→工厂模式（复杂对象）反序列化→从文件/网络恢复对象三、主流创建方式
Java 泛型代码先锋者 java开发 java 开发语言
一、引言在Java编程中，泛型是一项强大的特性，它允许在类、接口和方法的定义中使用类型参数。泛型提供了类型安全的集合，避免了在运行时进行类型转换的风险，提高了代码的可读性和可维护性。二、泛型的基本概念2.1泛型的定义泛型，即“参数化类型”，就是将类型由原来的具体的类型参数化，类似于方法中的变量参数，此时类型也定义成参数形式（可以称之为类型形参），然后在使用/调用时传入具体的类型（类型实参）。2.2
使用maven打包项目报错Please refer to... 编程_大白日常 maven java
报错描述：PleaserefertoD:\code\java\project_test\usercenter\usercenter_backend\target\surefire-reportsfortheindividualtestresults.Pleaserefertodumpfiles(ifanyexist)[date].dump,[date]-jvmRun[N].dumpand[date
探究Three.js中模型移动与旋转的交互逻辑 Front_Yue 3D技术实践指南 javascript three.js 3d
前言Three.js作为一个功能强大的JavaScript3D库，极大地简化了在网页上创建和展示3D图形的过程。它在游戏开发、产品展示、虚拟现实等众多领域都被广泛应用。通过Three.js，开发者能够轻松创建出复杂的三维场景和交互性强的3D应用，为用户带来沉浸式的体验。一、模型移动的交互逻辑实现（一）键盘控制模型移动利用键盘事件来控制模型在三维空间中的位置移动，是一种常见且便捷的交互方式。以下为具
从零开始：使用原生JS打造简易飞机大战游戏西域情歌
本文还有配套的精品资源，点击获取简介：在本教程中，我们将探讨如何利用原生JavaScript的特性，包括事件处理、DOM操作、定时器和音频处理，来构建一个基础的“飞机大战”游戏。该游戏的核心元素包括玩家飞机、敌机、子弹和碰撞检测，它们通过HTML和CSS展现在页面上。通过编写JavaScript脚本，我们实现游戏对象的创建与状态管理，响应用户的键盘和点击事件，更新游戏内容，并通过定时器维护游戏循环
【Java学习日记6】：字面量的分类与使用小蛋6g Java学习日记 java 开发语言
一、字面量的定义与作用字面量是程序中直接书写的数据值，无需通过变量或计算获取。它用于表示固定的值，如数字、字符、布尔值等，例如：数字100、字符串"Hello"、字符'A'等。字面量告诉编译器数据的类型和值。字面量就是告诉程序员:数据在程序中的书写格式.---二、字面量的分类Java中的字面量按数据类型可分为以下六类：类型说明示例整数类型不带小数点的数字123,-456小数类型带小数点的数字3.1
Python, Java, C ++开发全球热能动态监测APP Geeker-2025 python java c++
开发一个“全球热能动态监测APP”是一个非常有意义的想法，尤其是在能源管理和环境保护领域。以下是开发该APP的详细思路和技术实现方案，分别针对Python、Java和C++。---###**功能需求分析**1.**全球热能数据展示**：-各国或地区的热能生产、消费和进出口数据。-实时监测热能动态（如发电厂的热能输出、温度变化等）。2.**地图可视化**：-在地图上标注热能发电厂的位置。-使用颜色或
React 18 如何定义变量，及赋值与渲染痴心阿文 React react.js javascript 前端
React18中，定义变量、赋值和渲染的方式因变量的用途和作用域不同而有所差异，下面为你详细介绍不同场景下的实现方法。1.函数组件内定义普通变量在函数组件里，你可以像在普通JavaScript函数中一样定义变量，并且这些变量会在每次组件重新渲染时重新创建。importReactfrom'react';constMyComponent=()=>{//定义普通变量并赋值constmessage='He
Java基础笔记（小白友好版）代码什么的真不会呀 java 笔记开发语言
Java基础笔记（小白友好版）1.Java简介Java是一种广泛使用的计算机编程语言，由詹姆斯·高斯林（JamesGosling）在1995年创建Java的口号是"一次编写，到处运行"（WriteOnce,RunAnywhere）Java程序需要先编译成字节码（.class文件），然后在Java虚拟机（JVM）上运行主要特点：面向对象：一切皆对象，代码更清晰易懂平台无关性：可以在Windows、M
使用Three.js渲染器创建炫酷3D场景 Front_Yue 3D技术实践指南 javascript three.js 3d
引言在当今数字化的时代，3D图形技术正以其独特的魅力在各个领域掀起波澜。从影视制作到游戏开发，从虚拟现实到网页交互，3D场景以其强烈的视觉冲击力和沉浸式的体验，成为了吸引用户、传达信息的重要手段。而Three.js，作为一款功能强大且广受欢迎的JavaScript3D库，为我们提供了便捷、高效的途径来创建令人炫目的3D场景。本文将深入探讨使用Three.js渲染器创建炫酷3D场景的方方面面，带领读
java中vector和list_java中vector和list的区别 Creamy络
java中vector和list的区别发布时间：2020-06-1917:07:11来源：亿速云阅读：106作者：元一vector的概念Vector类是在java中可以实现自动增长的对象数组，vector在C++标准模板库中的部分内容，它是一个多功能的，能够操作多种数据结构和算法的模板类和函数库。vector的使用连续存储结构：vector是可以实现动态增长的对象数组，支持对数组高效率的访问和在数
spring5-介绍Spring框架 m0_74824845 面试学习路线阿里巴巴 spring java 后端
Spring框架是一个Java平台，它为开发Java应用程序提供全面的基础架构支持。Spring负责基础架构，因此您可以专注于应用程序的开发。Spring可以让您从“plainoldJavaobjects”（POJO）中构建应用程序和通过非侵入性的POJO实现企业应用服务。此功能适用于JavaSE的编程模型，全部的或部分的适应JavaEE模型。2.1依赖注入和控制反转Java应用程序-这是一个宽松
UML类图综合实验三 minaMoonGirl uml
1.使用简单工厂模式模拟女娲(Nvwa)造人(Person)，如果传入参数“M”，则返回一个Man对象，如果传入参数“W”，则返回一个Woman对象，用Java语言实现该场景。现需要增加一个新的Robot类，如果传入参数“R”，则返回一个Robot对象，对代码进行修改并注意“女娲”的变化。2.现需要设计一个程序来读取多种不同类型的图片格式，针对每一种图片格式都设计一个图片读取器(ImageRead
JAVA网络通信 MeyrlNotFound java 开发语言
IP地址与InetAddress类在Java网络通信中，IP地址是设备在网络中的唯一标识，而InetAddress类则是Java对IP地址的高层表示，它封装了IP地址和域名的相关信息，并提供了一系列方法来获取和操作这些信息。以下是对IP地址与InetAddress类的详细解析：一、IP地址基础•定义：IP（InternetProtocol）地址是分配给上网设备的唯一标志，用于指明因特网上的一台计算
SpringBoot JVM性能调优 AI天才研究院 Python实战 Java实战自然语言处理人工智能语言模型编程实践开发语言架构设计 spring boot
作者：禅与计算机程序设计艺术1.简介SpringBoot是当前最流行的基于Java的Web框架，它为开发人员提供了很多便利，包括快速配置，强大的自动化特性等。但是，它的默认设置往往会给应用程序带来不小的性能开销。本文将讨论SpringBoot的默认设置，并着重探讨如何优化SpringBoot在JVM上的性能。2.JVM默认设置介绍在SpringBoot中，可以用application.proper
04.文本标签龙哥带你学编程 #html 前端
一、文本简介1、页面组成元素1）以淘宝购物官网为例，分析网页：在淘宝购物官网的首页上，我们可以看到它是由超链接，文字，图片等元素构成。2）页面组成元素①一个静态页面绝大部分由以下四种元素组成：文本图片超链接音频和视频②思考：符合以下特点的网页是静态还是动态页面？带有音频和视频带有flash动画带有css动画带有JavaScript特效不是。动态页面和静态页面区别在于：是否用到了后端技术，以及是否与
DeepSeek 模型未来怎么走？技术创新、行业落地全解析！网罗开发 AI 大模型人工智能人工智能职场和发展
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
深度优先搜索（DFS）完全解析：从原理到 Java 实战 my_realmy Java基础知识深度优先 java 算法
深度优先搜索（DFS）完全解析：从原理到Java实战@TOC作为一名程序员，你是否遇到过需要在复杂的图结构中寻找路径、检测环，或者进行树遍历的问题？深度优先搜索（Depth-FirstSearch,DFS）作为一种经典的图遍历算法，能够轻松应对这些场景。在CSDN社区中，技术文章的受欢迎程度往往取决于内容的实用性、代码的可读性以及图文结合的讲解方式。因此，本文将为你带来一篇深入浅出、图文并茂、代码
项目中枚举与注解的结合使用飞翔的马甲 java enum annotation
前言：版本兼容，一直是迭代开发头疼的事，最近新版本加上了支持新题型，如果新创建一份问卷包含了新题型，那旧版本客户端就不支持，如果新创建的问卷不包含新题型，那么新旧客户端都支持。这里面我们通过给问卷类型枚举增加自定义注解的方式完成。顺便巩固下枚举与注解。一、枚举 1.在创建枚举类的时候，该类已继承java.lang.Enum类，所以自定义枚举类无法继承别的类，但可以实现接口。
【Scala十七】Scala核心十一：下划线_的用法 bit1129 scala
下划线_在Scala中广泛应用，_的基本含义是作为占位符使用。_在使用时是出问题非常多的地方，本文将不断完善_的使用场景以及所表达的含义 1. 在高阶函数中使用 scala> val list = List(-3,8,7,9) list: List[Int] = List(-3, 8, 7, 9) scala> list.filter(_ > 7) r
web缓存基础：术语、http报头和缓存策略 dalan_123 Web
对于很多人来说，去访问某一个站点，若是该站点能够提供智能化的内容缓存来提高用户体验，那么最终该站点的访问者将络绎不绝。缓存或者对之前的请求临时存储，是http协议实现中最核心的内容分发策略之一。分发路径中的组件均可以缓存内容来加速后续的请求，这是受控于对该内容所声明的缓存策略。接下来将讨web内容缓存策略的基本概念，具体包括如如何选择缓存策略以保证互联网范围内的缓存能够正确处理的您的内容，并谈论下
crontab 问题周凡杨 linux crontab unix
一： 0481-079 Reached a symbol that is not expected. 背景： */5 * * * * /usr/IBMIHS/rsync.sh
让tomcat支持2级域名共享session g21121 session
tomcat默认情况下是不支持2级域名共享session的，所有有些情况下登陆后从主域名跳转到子域名会发生链接session不相同的情况，但是只需修改几处配置就可以了。打开tomcat下conf下context.xml文件找到Context标签,修改为如下内容如果你的域名是www.test.com <Context sessionCookiePath="/path&q
web报表工具FineReport常用函数的用法总结（数学和三角函数）老A不折腾 Web finereport 总结
ABS ABS(number):返回指定数字的绝对值。绝对值是指没有正负符号的数值。 Number:需要求出绝对值的任意实数。示例: ABS(-1.5)等于1.5。 ABS(0)等于0。 ABS(2.5)等于2.5。 ACOS ACOS(number):返回指定数值的反余弦值。反余弦值为一个角度，返回角度以弧度形式表示。 Number:需要返回角
linux 启动java进程 sh文件墙头上一根草 linux shell jar
#!/bin/bash #初始化服务器的进程PId变量 user_pid=0; robot_pid=0; loadlort_pid=0; gateway_pid=0; ######### #检查相关服务器是否启动成功 #说明： #使用JDK自带的JPS命令及grep命令组合，准确查找pid #jps 加 l 参数，表示显示java的完整包路径 #使用awk，分割出pid
我的spring学习笔记5-如何使用ApplicationContext替换BeanFactory aijuans Spring 3 系列
如何使用ApplicationContext替换BeanFactory？ package onlyfun.caterpillar.device; import org.springframework.beans.factory.BeanFactory; import org.springframework.beans.factory.xml.XmlBeanFactory; import
Linux 内存使用方法详细解析 annan211 linux 内存 Linux内存解析
来源 http://blog.jobbole.com/45748/ 我是一名程序员，那么我在这里以一个程序员的角度来讲解Linux内存的使用。一提到内存管理，我们头脑中闪出的两个概念，就是虚拟内存，与物理内存。这两个概念主要来自于linux内核的支持。 Linux在内存管理上份为两级，一级是线性区，类似于00c73000-00c88000，对应于虚拟内存，它实际上不占用
数据库的单表查询常用命令及使用方法(-) 百合不是茶 oracle 函数单表查询
创建数据库; --建表 create table bloguser(username varchar2(20),userage number(10),usersex char(2)); 创建bloguser表,里面有三个字段 &nbs
多线程基础知识 bijian1013 java 多线程 thread java多线程
一．进程和线程进程就是一个在内存中独立运行的程序，有自己的地址空间。如正在运行的写字板程序就是一个进程。 “多任务”：指操作系统能同时运行多个进程（程序）。如WINDOWS系统可以同时运行写字板程序、画图程序、WORD、Eclipse等。线程：是进程内部单一的一个顺序控制流。线程和进程 a. 每个进程都有独立的
fastjson简单使用实例 bijian1013 fastjson
一.简介阿里巴巴fastjson是一个Java语言编写的高性能功能完善的JSON库。它采用一种“假定有序快速匹配”的算法，把JSON Parse的性能提升到极致，是目前Java语言中最快的JSON库；包括“序列化”和“反序列化”两部分，它具备如下特征：
【RPC框架Burlap】Spring集成Burlap bit1129 spring
Burlap和Hessian同属于codehaus的RPC调用框架，但是Burlap已经几年不更新，所以Spring在4.0里已经将Burlap的支持置为Deprecated,所以在选择RPC框架时，不应该考虑Burlap了。这篇文章还是记录下Burlap的用法吧，主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成
【Mahout一】基于Mahout 命令参数含义 bit1129 Mahout
1. mahout seqdirectory $ mahout seqdirectory --input (-i) input Path to job input directory(原始文本文件). --output (-o) output The directory pathna
linux使用flock文件锁解决脚本重复执行问题 ronin47 linux lock　重复执行
linux的crontab命令，可以定时执行操作，最小周期是每分钟执行一次。关于crontab实现每秒执行可参考我之前的文章《linux crontab 实现每秒执行》现在有个问题，如果设定了任务每分钟执行一次，但有可能一分钟内任务并没有执行完成，这时系统会再执行任务。导致两个相同的任务在执行。例如： <? // test .php
java-74-数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 bylijinnan java
public class OcuppyMoreThanHalf { /** * Q74 数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 * two solutions: * 1.O(n) * see <beauty of coding>--每次删除两个不同的数字，不改变数组的特性 * 2.O(nlogn) * 排序。中间
linux 系统相关命令 candiio linux
系统参数 cat /proc/cpuinfo cpu相关参数 cat /proc/meminfo 内存相关参数 cat /proc/loadavg 负载情况性能参数 1）top M：按内存使用排序 P：按CPU占用排序 1：显示各CPU的使用情况 k：kill进程 o：更多排序规则回车：刷新数据 2）ulimit ulimit -a：显示本用户的系统限制参
[经营与资产]保持独立性和稳定性对于软件开发的重要意义 comsci 软件开发
一个软件的架构从诞生到成熟，中间要经过很多次的修正和改造如果在这个过程中，外界的其它行业的资本不断的介入这种软件架构的升级过程中那么软件开发者原有的设计思想和开发路线
在CentOS5.5上编译OpenJDK6 Cwind linux OpenJDK
几番周折终于在自己的CentOS5.5上编译成功了OpenJDK6，将编译过程和遇到的问题作一简要记录，备查。 0. OpenJDK介绍 OpenJDK是Sun（现Oracle）公司发布的基于GPL许可的Java平台的实现。其优点： 1、它的核心代码与同时期Sun（-> Oracle）的产品版基本上是一样的，血统纯正，不用担心性能问题，也基本上没什么兼容性问题；（代码上最主要的差异是
java乱码问题 dashuaifu java乱码问题 js中文乱码
swfupload上传文件参数值为中文传递到后台接收中文乱码在js中用setPostParams（{"tag" : encodeURI( document.getElementByIdx_x("filetag").value，"utf-8")}）; 然后在servlet中String t
cygwin很多命令显示command not found的解决办法 dcj3sjt126com cygwin
cygwin很多命令显示command not found的解决办法修改cygwin.BAT文件如下 @echo off D: set CYGWIN=tty notitle glob set PATH=%PATH%;d:\cygwin\bin;d:\cygwin\sbin;d:\cygwin\usr\bin;d:\cygwin\usr\sbin;d:\cygwin\us
[介绍]从 Yii 1.1 升级 dcj3sjt126com PHP yii2
2.0 版框架是完全重写的，在 1.1 和 2.0 两个版本之间存在相当多差异。因此从 1.1 版升级并不像小版本间的跨越那么简单，通过本指南你将会了解两个版本间主要的不同之处。如果你之前没有用过 Yii 1.1，可以跳过本章，直接从"入门篇"开始读起。请注意，Yii 2.0 引入了很多本章并没有涉及到的新功能。强烈建议你通读整部权威指南来了解所有新特性。这样有可能会发
Linux SSH免登录配置总结 eksliang ssh-keygen Linux SSH免登录认证 Linux SSH互信
转载请出自出处：http://eksliang.iteye.com/blog/2187265 一、原理我们使用ssh-keygen在ServerA上生成私钥跟公钥，将生成的公钥拷贝到远程机器ServerB上后,就可以使用ssh命令无需密码登录到另外一台机器ServerB上。生成公钥与私钥有两种加密方式，第一种是
手势滑动销毁Activity gundumw100 android
老是效仿ios，做android的真悲催！有需求：需要手势滑动销毁一个Activity 怎么办尼？自己写？不用~，网上先问一下百度。结果： http://blog.csdn.net/xiaanming/article/details/20934541 首先将你需要的Activity继承SwipeBackActivity，它会在你的布局根目录新增一层SwipeBackLay
JavaScript变换表格边框颜色 ini JavaScript html Web html5 css
效果查看：http://hovertree.com/texiao/js/2.htm代码如下，保存到HTML文件也可以查看效果： <html> <head> <meta charset="utf-8"> <title>表格边框变换颜色代码-何问起</title> </head> <body&
Kafka Rest : Confluent kane_xie kafka REST confluent
最近拿到一个kafka rest的需求，但kafka暂时还没有提供rest api（应该是有在开发中，毕竟rest这么火），上网搜了一下，找到一个Confluent Platform，本文简单介绍一下安装。这里插一句，给大家推荐一个九尾搜索，原名叫谷粉SOSO，不想fanqiang谷歌的可以用这个。以前在外企用谷歌用习惯了，出来之后用度娘搜技术问题，那匹配度简直感人。环境声明：Ubu
Calender不是单例 men4661273 单例 Calender
在我们使用Calender的时候，使用过Calendar.getInstance()来获取一个日期类的对象，这种方式跟单例的获取方式一样，那么它到底是不是单例呢，如果是单例的话，一个对象修改内容之后，另外一个线程中的数据不久乱套了吗？从试验以及源码中可以得出，Calendar不是单例。测试： Calendar c1 =
线程内存和主内存之间联系 qifeifei java thread
1， java多线程共享主内存中变量的时候，一共会经过几个阶段， lock:将主内存中的变量锁定，为一个线程所独占。 unclock:将lock加的锁定解除，此时其它的线程可以有机会访问此变量。 read:将主内存中的变量值读到工作内存当中。 load:将read读取的值保存到工作内存中的变量副本中。
schedule和scheduleAtFixedRate tangqi609567707 java timer schedule
原文地址：http://blog.csdn.net/weidan1121/article/details/527307 import java.util.Timer;import java.util.TimerTask;import java.util.Date; /** * @author vincent */public class TimerTest {
erlang 部署 wudixiaotie erlang
1.如果在启动节点的时候报这个错： {"init terminating in do_boot",{'cannot load',elf_format,get_files}} 则需要在reltool.config中加入 {app, hipe, [{incl_cond, exclude}]}, 2.当generate时，遇到： ERROR

Lucene简介

Lucene入门

第1章 Lucene介绍

第2章 Lucene入门

第3章 分词器

第4章 Field域

第5章 索引维护

Lucene入门

课程大纲

第1章 Lucene介绍

第2章 Lucene入门

第3章 分词器

第4章 Field域

第5章 索引维护

你可能感兴趣的:(java)

第3章分词器

第5章索引维护

第3章分词器

第5章索引维护