让爱远航

Lucene4.6实战应用

这两天学习了一下Lucene，然后对其进行了应用上的一些封装。主要仿照项目中经常使用的BaseDao的封装方式。对Lucene的一些简单操作进行了封装，在项目中使用起来比较方便。下面介绍一下封装代码。

1.基础类

该类中，主要提供

createIndex——创建索引
update——更新索引信息
delete——删除索引信息
searchAll——查询所有
pageSearch——支持分页查询

import net.sf.json.JSONArray;
import net.sf.json.JSONObject;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.document.FieldType;
import org.apache.lucene.document.StoredField;
import org.apache.lucene.index.*;
import org.apache.lucene.queryparser.classic.QueryParser;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.highlight.Highlighter;
import org.apache.lucene.search.highlight.InvalidTokenOffsetsException;
import org.apache.lucene.search.highlight.QueryScorer;
import org.apache.lucene.search.highlight.SimpleHTMLFormatter;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.util.Version;
import org.wltea.analyzer.lucene.IKAnalyzer;

import java.beans.PropertyDescriptor;
import java.io.File;
import java.io.IOException;
import java.io.StringReader;
import java.lang.reflect.Method;
import java.lang.reflect.ParameterizedType;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;

/**
 * 全文检索基础类
 *
 * @author: alex
 * @time: 14-4-1 下午2:24
 * @version: 1.0
 */
public abstract class BaseLucene<T extends Object> {

    protected static Analyzer analyzer = new IKAnalyzer();         //分词器
    protected static File indexDir = null;

    static {
        indexDir = new File(LuceneContants.INDEX_FILE_PATH);       //存放索引文件的目录
    }

    /**
     * 获取文件目录
     * @return 文件目录对象
     */
    private Directory getDirectory() {
        Directory directory = null;
        try {
            directory = FSDirectory.open(indexDir);
        } catch (IOException e) {
            e.printStackTrace();
        }
        return directory;
    }

    /**
     * 获取索引创建器
     * @param directory 文件目录
     * @return 索引创建器对象
     */
    private IndexWriter getIndexWriter(Directory directory) {
        IndexWriter indexWriter = null;
        try {
            //索引创建器配置
            IndexWriterConfig config = new IndexWriterConfig(Version.LUCENE_46, analyzer);
            //设置打开索引模式为创建或追加
            config.setOpenMode(IndexWriterConfig.OpenMode.CREATE_OR_APPEND);
            //索引创建器对象
            indexWriter = new IndexWriter(directory, config);
        } catch (IOException e) {
            e.printStackTrace();
        }
        return indexWriter;
    }

    /**
     * 关闭文件目录和索引创建器对象
     * @param directory  文件目录
     * @param indexWriter  索引创建器
     */
    private void closeDirectoryAndIndexWriter(Directory directory,IndexWriter indexWriter) {
        if (indexWriter != null) {
            try {
                indexWriter.close();
            } catch (IOException e) {
                e.printStackTrace();
            }
        }
        if (directory != null) {
            try {
                directory.close();
            } catch (IOException e) {
                e.printStackTrace();
            }
        }
    }

    /**
     * 创建索引
     * @param entity 泛型实体
     * @param keyWordFields 关键字索引字段名集合
     */
    public void createIndex(T entity,List<String> keyWordFields) {
        Directory directory = null;
        IndexWriter indexWriter = null;
        try {
            directory = getDirectory();
            indexWriter = getIndexWriter(directory);
            //装配成document
            Document doc = getDoc(entity,keyWordFields);
            indexWriter.addDocument(doc); //写入索引文件
        } catch (IOException e) {
            e.printStackTrace();
        } finally {
            closeDirectoryAndIndexWriter(directory,indexWriter);
        }
    }

    /**
     * 装配document对象方法
     * @param entity  泛型实体
     * @param keyWordFields  关键字索引字段名集合
     * @return  Document对象
     */
    private Document getDoc(T entity,List<String> keyWordFields){
        FieldType ftIndex = new FieldType(); // 索引类型
        ftIndex.setIndexed(true);       //设置索引为true
        ftIndex.setStored(true);        //设置保存为true
        ftIndex.setTokenized(true);     //设置分词为true
        Document doc = new Document();
        Map<String,Integer> fieldsMap = getAllFields(entity, keyWordFields);
        for (Map.Entry<String,Integer> fieldMap : fieldsMap.entrySet()) {
            if(fieldMap.getValue() == LuceneContants.IS_KEY_WORD) {   //索引字段
                Field field = new Field(fieldMap.getKey(), getterMethod(entity,fieldMap.getKey()).toString(),ftIndex);
                doc.add(field);
            } else {      //存储字段
                StoredField storedField = new StoredField(fieldMap.getKey(), getterMethod(entity,fieldMap.getKey()).toString());
                doc.add(storedField);
            }
        }
        return doc;
    }

    /**
     * 通过反射获取所有实体字段
     * @param entity  泛型实体
     * @param keyWordFields 关键字索引字段名集合
     * @return 实体的所有字段
     */
    private Map<String,Integer> getAllFields(T entity,List<String> keyWordFields){
        Map<String,Integer> fieldsMap = new HashMap<String,Integer>();
        java.lang.reflect.Field[] fields = entity.getClass().getDeclaredFields();
        for(int i = 0; i < fields.length; i++) {
            Integer keyWordFlag = LuceneContants.NO_KEY_WORD;
            String fieldName = fields[i].getName();
            for(String keyWordField : keyWordFields) {
                if(keyWordField.equals(fieldName)) {
                    keyWordFlag = LuceneContants.IS_KEY_WORD;
                }
            }
            fieldsMap.put(fieldName,keyWordFlag);
        }
        return fieldsMap;
    }

    /**
     * 通过反射获取字段值
     * @param obj 实体
     * @param filedName  字段名
     * @return 字段值
     */
    private Object getterMethod(Object obj, String filedName) {
        Object object = null;
        try {
            Class clazz = obj.getClass();
            PropertyDescriptor propertyDescriptor = new PropertyDescriptor(filedName, clazz);
            Method getMethod = propertyDescriptor.getReadMethod();//获得get方法
            if (propertyDescriptor != null) {
                object = getMethod.invoke(obj);     //执行get方法返回一个Object
            }
        } catch (Exception e) {
            e.printStackTrace();
        }
        return object;
    }

    /**
     * 查询所以索引匹配到的数据
     * @param queryWhere 查询条件
     * @param defaultQueryField 默认查询的关键字字段
     * @param keyWordFields 是关键字且需高亮显示的字段集合
     * @return  json格式的字符串
     */
    public String searchAll(String queryWhere,String defaultQueryField,List<String> keyWordFields) {
        if("".equals(queryWhere)){
            queryWhere = "(*:*)";
            keyWordFields = new ArrayList<String>();
        }
        String result = null;
        IndexReader reader = null;
        IndexSearcher indexSearcher = null;
        try {
            reader = DirectoryReader.open(getDirectory());
            indexSearcher = new IndexSearcher(reader);
            Query query = new QueryParser(Version.LUCENE_46, defaultQueryField, analyzer).parse(queryWhere);
            ScoreDoc[] hits = indexSearcher.search(query, LuceneContants.QUERY_MAX_COUNT).scoreDocs;
            result = resultToJson(indexSearcher,query,hits,keyWordFields,0,hits.length);
        } catch (Exception e) {
            e.printStackTrace();
        } finally {
            if (reader != null){
                try {
                    reader.close();
                } catch (IOException e) {
                    e.printStackTrace();
                }
            }
        }
        return result;
    }

    /**
     * 分页查询所以索引匹配到的数据
     * @param queryWhere 查询条件
     * @param defaultQueryField 默认查询的关键字字段
     * @param keyWordFields 是关键字且需高亮显示的字段集合
     * @param currPage  当前页
     * @param pageSize  每页显示的条数
     * @return  json格式的字符串
     */
    public String pageSearch(String queryWhere,String defaultQueryField,List<String> keyWordFields,int currPage,int pageSize) {
        if("".equals(queryWhere)){
            queryWhere = "(*:*)";
            keyWordFields = new ArrayList<String>();
        }
        String result = null;
        IndexReader reader = null;
        IndexSearcher indexSearcher = null;
        try {
            reader = DirectoryReader.open(getDirectory());
            indexSearcher = new IndexSearcher(reader);
            Query query = new QueryParser(Version.LUCENE_46, defaultQueryField, analyzer).parse(queryWhere);
            ScoreDoc[] hits = indexSearcher.search(query, LuceneContants.QUERY_MAX_COUNT).scoreDocs;
            //分页计算
            int start = (currPage - 1) * pageSize;
            int totalCount = hits.length;
            int end = Math.min(currPage * pageSize,totalCount);
            result = resultToJson(indexSearcher,query,hits,keyWordFields,start,end);
        } catch (Exception e) {
            e.printStackTrace();
        } finally {
            if (reader != null){
                try {
                    reader.close();
                } catch (IOException e) {
                    e.printStackTrace();
                }
            }
        }
        return result;
    }

    /**
     * 将查询到的数据转成json格式数据返回
     * @param indexSearcher  查询索引实体
     * @param query   查询实体
     * @param hits   匹配的结果对象
     * @param keyWordFields   是关键字且需高亮显示的字段集合
     * @param start  开始索引
     * @param end    结束索引
     * @return json格式的字符串
     */
    private String resultToJson(IndexSearcher indexSearcher, Query query, ScoreDoc[] hits,List<String> keyWordFields,int start,int end){
        JSONArray jsonArray = new JSONArray();
        try {
            Class<T> entityClass = (Class<T>)((ParameterizedType) this.getClass().getGenericSuperclass()).getActualTypeArguments()[0];
            T entity = entityClass.newInstance();
            Map<String,Integer> fieldsMap = getAllFields(entity,keyWordFields);
            for (int i = start; i < end; i++) {
                JSONObject jsonObject = new JSONObject();
                Document hitDoc = indexSearcher.doc(hits[i].doc);
                for(Map.Entry<String, Integer> field : fieldsMap.entrySet()){
                    if(field.getValue() == LuceneContants.IS_KEY_WORD) {        //是关键字，且需要高亮显示
                        String value = toHighlighter(query, hitDoc, field.getKey());
                        jsonObject.put(field.getKey(),value);
                    } else {
                        jsonObject.put(field.getKey(),hitDoc.get(field.getKey()));
                    }
                }
                jsonArray.add(jsonObject);
            }
        } catch (Exception e) {
            e.printStackTrace();
        }
        return jsonArray.toString();
    }

    /**
     * 高亮显示设置
     * @param query 查询实体
     * @param doc   文档对象
     * @param field 字段
     * @return 高亮设置
     */
    private String toHighlighter(Query query, Document doc, String field) {
        try {
            SimpleHTMLFormatter simpleHtmlFormatter = new SimpleHTMLFormatter("<font color=\"blue\">", "</font>");
            Highlighter highlighter = new Highlighter(simpleHtmlFormatter, new QueryScorer(query));
            TokenStream tokenStream1 = analyzer.tokenStream("text", new StringReader(doc.get(field)));
            String highlighterStr = highlighter.getBestFragment(tokenStream1, doc.get(field));
            return highlighterStr == null ? doc.get(field) : highlighterStr;
        } catch (IOException e) {
            e.printStackTrace();
        } catch (InvalidTokenOffsetsException e) {
            e.printStackTrace();
        }
        return null;
    }

    /**
     * 修改索引
     * @param entity 泛型实体
     * @param keyWordFields 索引字段集合
     * @return true成功，false失败
     */
    public boolean update(T entity,List<String> keyWordFields) {
        boolean flag = false;
        IndexWriter indexWriter = null;
        Directory directory = null;
        try{
            directory = getDirectory();
            indexWriter = getIndexWriter(directory);
            Document doc = getDoc(entity,keyWordFields);
            //根据Id进行更新索引
            Term term = new Term("id", String.valueOf(getterMethod(entity,"id")));
            indexWriter.updateDocument(term, doc);
            flag = true;
        } catch (Exception e){
            flag = false;
            e.printStackTrace();
        } finally {
            closeDirectoryAndIndexWriter(directory,indexWriter);
        }
        return flag;
    }

    /**
     * 删除索引
     * @param id 删除的索引Id
     * @return true成功，false失败
     */
    public boolean delete(Integer id) {
        if(id == null || id.intValue() < 0) {
            throw new RuntimeException("参数不正确！");
        }
        boolean flag = false;
        IndexWriter indexWriter = null;
        Directory directory = null;
        try{
            //索引所放目录
            directory = getDirectory();
            indexWriter = getIndexWriter(directory);
            Term term = new Term("id", String.valueOf(id));
            indexWriter.deleteDocuments(term);
            flag = true;
        }catch (Exception e) {
            flag = false;
            e.printStackTrace();
        } finally {
            closeDirectoryAndIndexWriter(directory,indexWriter);
        }
        return flag;
    }
}

常量类：

/**
 * 常量描述
 *
 * @author: alex
 * @time: 14-4-1 下午2:24
 * @version: 1.0
 */
public class LuceneContants {
    //索引文件存储目录
    public static final String INDEX_FILE_PATH = "D://indexFile";
    //查询文件的最大条数
    public static final int QUERY_MAX_COUNT = 100000;
    //是索引标识
    public static final int IS_KEY_WORD = 1;
    //不是索引标识
    public static final int NO_KEY_WORD = 0;
}

2.service层应用

import java.util.ArrayList;
import java.util.List;

/**
 * service层
 *
 * @author: alex
 * @time: 14-4-2 下午1:35
 * @version: 1.0
 */
public class PersonSearchService extends BaseLucene<Person> {

    private static List<String> keyWordFields = null;

    static {
        keyWordFields = new ArrayList<String>();
        //给名字和介绍做全文检索
        keyWordFields.add("id");
        keyWordFields.add("name");
        keyWordFields.add("introduce");
    }

    /**
     * 保存用户信息
     * @param person  用户
     */
    public void savePerson(Person person) {
        this.createIndex(person,keyWordFields);
    }

    /**
     * 更新用户信息
     * @param person 用户实体
     * @return true成功，false失败
     */
    public boolean updatePerson(Person person) {
        return this.update(person,keyWordFields);
    }

    /**
     * 删除用户信息
     * @param id  用户ID
     * @return  true成功，false失败
     */
    public boolean deletePerson(Integer id) {
        return this.delete(id);
    }

    /**
     * 根据条件查询所有
     * @param queryWhere 查询条件
     * @param defaultQueryField  默认检索字段
     * @return  json格式数据
     */
    public String queryAll(String queryWhere,String defaultQueryField) {
        return this.searchAll(queryWhere,defaultQueryField,keyWordFields);
    }

    /**
     * 根据条件分页查询
     * @param queryWhere 查询条件
     * @param defaultQueryField  默认检索字段
     * @param currPage 当前页
     * @param pageSize 每页条数
     * @return  json格式数据
     */
    public String pageQuery(String queryWhere,String defaultQueryField,int currPage,int pageSize) {
        return this.pageSearch(queryWhere,defaultQueryField,keyWordFields,currPage,pageSize);
    }
}

实体类：

/**
 * 实体
 *
 * @author: alex
 * @time: 14-4-2 下午1:32
 * @version: 1.0
 */
public class Person {
    private int id;
    private String name;
    private int age;
    private String introduce;

    public int getId() {
        return id;
    }

    public void setId(int id) {
        this.id = id;
    }

    public String getName() {
        return name;
    }

    public void setName(String name) {
        this.name = name;
    }

    public int getAge() {
        return age;
    }

    public void setAge(int age) {
        this.age = age;
    }

    public String getIntroduce() {
        return introduce;
    }

    public void setIntroduce(String introduce) {
        this.introduce = introduce;
    }
}

3.测试类

import junit.framework.Assert;
import org.junit.AfterClass;
import org.junit.BeforeClass;
import org.junit.Test;

/**
 * 测试类
 *
 * @author: alex
 * @time: 14-4-1 上午10:54
 * @version: 1.0
 */
public class PersonSearchServiceTest {
    static PersonSearchService personSearchService = null;

    @BeforeClass
    public static void setUpBeforeClass() throws Exception {
        personSearchService = new PersonSearchService();
    }

    @AfterClass
    public static void tearDownAfterClass() throws Exception {
    }

    @Test
    public void testSavePerson() {
        Person person = new Person();
        person.setId(1);
        person.setName("张三");
        person.setAge(21);
        person.setIntroduce("张三是中国好演员！");
        personSearchService.savePerson(person);

        person.setId(2);
        person.setName("张一三");
        person.setAge(22);
        person.setIntroduce("张三是中国好替身！");
        personSearchService.savePerson(person);

        person.setId(3);
        person.setName("张三疯");
        person.setAge(23);
        person.setIntroduce("张三是中国好程序员！");
        personSearchService.savePerson(person);

        person.setId(4);
        person.setName("啊张三");
        person.setAge(24);
        person.setIntroduce("张三是中国好声音！");
        personSearchService.savePerson(person);

        person.setId(5);
        person.setName("李三");
        person.setAge(25);
        person.setIntroduce("啊啊啊啊啊啊啊啊啊啊啊啊啊！");
        personSearchService.savePerson(person);
    }

    @Test
    public void testUpdatePerson() {
        Person person = new Person();
        person.setId(4);
        person.setName("张三啊");
        person.setAge(24);
        person.setIntroduce("把啊张三改成了张三啊！");
        boolean result = personSearchService.updatePerson(person);
        Assert.assertTrue(result);
    }

    @Test
    public void testDeletePerson() {
        //删除了第二条
        boolean result = personSearchService.deletePerson(2);
        Assert.assertTrue(result);
    }

    @Test
    public void testQuery() {
        String queryWhere = "name:张三 introduce:中国";
        String defaultQueryField = "name";
        String result = personSearchService.queryAll(queryWhere, defaultQueryField);
        System.out.println(result);
    }

    @Test
    public void testPageQuery() {
        String queryWhere = "name:张三 introduce:中国";
        String defaultQueryField = "name";
        String result = personSearchService.pageQuery(queryWhere, defaultQueryField,1,2);
        System.out.println(result);
    }
}

4.说明

本示例没有对查询出来的结果进行排序，同时还有一些其他的地方还需完善。代码发出来，给大家参考一下。

示例中应用的jar如下：

开发时，使用的maven，发一下maven的pom文件：

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>lucene</groupId>
    <artifactId>lucene</artifactId>
    <version>1.0</version>
    <dependencies>
        <dependency>
            <groupId>org.apache.lucene</groupId>
            <artifactId>lucene-core</artifactId>
            <version>4.6.0</version>
        </dependency>
        <dependency>
            <groupId>org.apache.lucene</groupId>
            <artifactId>lucene-highlighter</artifactId>
            <version>4.6.0</version>
        </dependency>
        <dependency>
            <groupId>org.apache.lucene</groupId>
            <artifactId>lucene-queries</artifactId>
            <version>4.6.0</version>
        </dependency>
        <dependency>
            <groupId>org.apache.lucene</groupId>
            <artifactId>lucene-queryparser</artifactId>
            <version>4.6.0</version>
        </dependency>
        <dependency>
            <groupId>org.apache.lucene</groupId>
            <artifactId>lucene-test-framework</artifactId>
            <version>4.6.0</version>
        </dependency>
        <dependency>
            <groupId>org.apache.lucene</groupId>
            <artifactId>lucene-smartcn</artifactId>
            <version>3.6.2</version>
        </dependency>
        <dependency>
            <groupId>IKAnalyzer</groupId>
            <artifactId>IKAnalyzer</artifactId>
            <version>2012FF_u1</version>
        </dependency>
        <dependency>
            <groupId>net.sf.json-lib</groupId>
            <artifactId>json-lib</artifactId>
            <version>2.4</version>
        </dependency>
        <dependency>
            <groupId>commons-lang</groupId>
            <artifactId>commons-lang</artifactId>
            <version>2.5</version>
        </dependency>
        <dependency>
            <groupId>net.sf.ezmorph</groupId>
            <artifactId>ezmorph</artifactId>
            <version>1.0.6</version>
        </dependency>
        <dependency>
            <groupId>commons-logging</groupId>
            <artifactId>commons-logging</artifactId>
            <version>1.1</version>
        </dependency>
        <dependency>
            <groupId>commons-beanutils</groupId>
            <artifactId>commons-beanutils</artifactId>
            <version>1.8.3</version>
        </dependency>
        <dependency>
            <groupId>commons-collections</groupId>
            <artifactId>commons-collections</artifactId>
            <version>3.2.1</version>
        </dependency>
    </dependencies>

</project>

至于运行结果没有贴出来，有兴趣的同学可以自己运行一下。

ES 和 lucene 的区别是什么？晚夜微雨问海棠呀 elasticsearch lucene 大数据
Elasticsearch(ES)和Lucene都是用于全文搜索和分析的工具，但它们在功能和使用场景上有一些重要的区别：基础与角色：Lucene是一个开源的信息检索软件库，提供了一个高性能、全功能的文本搜索引擎。它是许多搜索应用的核心，包括Elasticsearch。Elasticsearch是一个分布式搜索和分析引擎，构建在Lucene之上。它不仅提供了Lucene的所有功能，还增加了分布式计算
Lucence 和 Elasticsearch 的区别? 码出财富 elasticsearch 大数据搜索引擎
Lucene和Elasticsearch都是在信息检索和文本处理领域中广泛使用的工具，它们的主要区别如下：概念和定位Lucene：是一个基于Java的全文检索库，它提供了一套强大的底层索引和搜索功能的API。Lucene更像是一个工具包，开发人员可以基于它来构建自己的搜索应用程序，需要深入了解搜索的底层原理和算法，对开发者的技术要求较高。Elasticsearch：是一个基于Lucene的分布式搜
【云原生】Docker 部署 Elasticsearch 9 操作详解逆风飞翔的小叔运维 Docker 部署es9 Docker部署es Docker搭建es9 Elasticsearch9 Docker搭建es
目录一、前言二、Elasticsearch9新特性介绍2.1基于Lucene10重大升级2.2BetterBinaryQuantization（BBQ）2.3ElasticDistributionsofOpenTelemetry（EDOT）2.4LLM可观测性2.5攻击发现与自动导入2.6ES|QL增强2.7语义检索三、基于Docker部署Elasticsearch93.1Elasticsearc
深度解析Lucene IndexWriter 性能优化微笑听雨。 java 进阶教程 lucene indexWriter 全文检索性能调优内存缓冲
深度解析LuceneIndexWriter性能优化目标：在大规模写入、频繁更新的场景下，既保持吞吐量，又兼顾搜索实时性与系统稳定性。关键调优点内存缓冲：将RAMBufferSizeMB提升至128–1024MB，减少flush次数；必要时配合maxBufferedDocs。合并策略：使用TieredMergePolicy，典型参数为maxMergeAtOnce4–8、segmentsPerTier
Spring Boot 集成 Elasticsearch（含 ElasticsearchRestTemplate 示例）超级小忍 SpringBoot spring boot elasticsearch
Elasticsearch是一个基于Lucene的分布式搜索服务器，具有高效的全文检索能力。在现代应用中，尤其是需要强大搜索功能的系统中，Elasticsearch被广泛使用。SpringBoot提供了对Elasticsearch的集成支持，使得开发者可以轻松地将Elasticsearch集成到SpringBoot应用中，实现高效的搜索、分析等功能。本文将详细介绍如何在SpringBoot中集成E
从源码角度了解Elasticsaerch(分布式协调排序、深分页问题)
引文Elasticsearch基于Lucene所以很多系统实现都在其中,所以可以先看看Lucene的实现:https://blog.csdn.net/qq_35040959/article/details/147931034项目组件不像Kafka这种顶级项目核心性能组件全自己实现,ELK中有很多引用至第三方开放库;网络模型-Netty网络模型多重要不必多说,Elasticsearch基于Netty
ELK在Java的使用 hqxstudying ELK java 日志 elasticsearch
在Java应用里运用ELK（Elasticsearch、Logstash、Kibana）技术栈，能够实现日志的集中化管理、高效搜索以及直观可视化。下面将从基础概念入手，逐步深入讲解其使用方法。一、基础概念ELK技术栈由三款开源工具构成：Elasticsearch：作为分布式搜索引擎，它基于Lucene开发，具备强大的全文检索和数据分析能力。Logstash：属于数据收集引擎，可对多源数据进行收集、
基于lucene的案例开发：实时索引管理类IndexManager
转载请注明出处：http://blog.csdn.net/xiaojimanman/article/details/44015983http://www.llwjy.com/blogdetail/5757ce8c007754704b563dd6a47ca1ca.html个人的博客小站也搭建成功，网址：www.llwjy.com，欢迎大家来吐槽~在前一篇博客中，对实时索引的实现原理做了一些简单的介绍
Elasticsearch 海量数据写入与高效文本检索实践指南 weixin_52755040 运维 es
Elasticsearch海量数据写入与高效文本检索实践指南一、引言在大数据时代，企业和组织面临着海量数据的存储与检索需求。Elasticsearch（以下简称ES）作为一款基于Lucene的分布式搜索和分析引擎，凭借其高可扩展性、实时搜索和分析能力，成为处理海量数据写入与文本检索的热门选择。本文将深入探讨如何在ES中实现海量数据的高效写入，并利用其强大的功能进行精准的文本检索，帮助开发者和技术人
solr教程，值得刚接触搜索开发人员一看 LarryHai6 IT-文档存储架构全文检索 lucene 企业搜索
Solr调研总结开发类型全文检索相关开发Solr版本4.2文件内容本文介绍solr的功能使用及相关注意事项;主要包括以下内容:环境搭建及调试;两个核心配置文件介绍;维护索引;查询索引,和在查询中可以应用的高亮显示、拼写检查、搜索建议、分组统计、拼音检索等功能的使用方法。版本作者/修改人日期V1.0gzk2013-06-041.Solr是什么？Solr它是一种开放源码的、基于LuceneJava的搜
ES分片（Shard）和副本（Replica）的作用？如何合理分配？搞不懂语言的程序员 elasticsearch 中间件 elasticsearch 大数据搜索引擎
ES分片和副本一、分片（Shard）的作用数据水平扩展将索引拆分为多个分片（默认5个），实现海量数据分布式存储和并行计算读写负载均衡每个分片作为独立的Lucene索引，支持并发读写操作，提升吞吐量故障隔离能力单个分片故障不会导致整个索引不可用，其他分片仍可继续提供服务二、副本（Replica）的作用数据高可用每个分片的副本（默认1个）存储在不同节点，主分片故障时副本自动升级为主分片读取性能提升副本
规则包含使用分词和JDK自带流式stream处理效率对比--分词lucene-word过滤与JDK的contains方法对比苦思冥想行则将至 word分词数据过滤 java过滤数据过滤数据效率 20万关键字处理
目录前言：1、lucene分词工具的使用2、分词word与JDK的stream流式过滤实现测试结果2.1通过包含20万条数据与否，进行效率对比2.2打印执行时间差，来实现效率对比3、一次性触发20万条数据执行进行Mysql记录执行结果，参数，耗时，入参4、数据库截图展示统计结果，JDK的效率更高一些前言：在数据过滤以及处理的过程中，会用到分词工具对于大文本的信息内容进行处理，作为java开发，经常
Springboot基于ElasticSearch全文搜索引擎策略实现 LQzhang_11 JAVA 缓存 Spring 搜索引擎 spring boot elasticsearch
一、ElasticSearch概念简介ElasticSearch是一个基于Lucene的开源搜索引擎，具有分布式、多租户能力的全文搜索引擎。ElasticSearch的设计目标是实现分布式、可扩展和速度快的搜索架构，使得用户在数据量较大的情况下依然能够快速高效地对数据进行搜索和分析。ElasticSearch使用RESTfulAPI进行操作，支持结构化、非结构化数据的索引和搜索，适合用来解决大量数
基于Elasticsearch的搜索引擎简介 weixin_47233946 编程搜索引擎 elasticsearch 大数据
##一、Elasticsearch简介Elasticsearch（简称ES）是一个开源的、分布式、RESTful风格的搜索和数据分析引擎，基于ApacheLucene开发。它能够实现对海量结构化和非结构化数据的实时存储、搜索和分析，广泛应用于全文检索、日志分析、数据可视化等场景。##二、核心原理Elasticsearch以文档为核心，每条数据都以JSON格式存储。其底层采用倒排索引（Inverte
Elasticsearch 方法论 catkin_ws 数据库
人工智能、大数据快速发展的今天，对于TB甚至PB级大数据的快速检索已然成为刚需。Elasticsearch作为开源领域的后起之秀，从2010年至今得到飞跃式的发展。Elasticsearch以其开源、分布式、RESTFulAPI三大优势，已经成为当下风口中“会飞的猪”。阿里云2018年2月5日已开价50-200W年薪招聘技术人员参与Elasticsearch、Lucene内核优化、改进。如果说，你
69道Elasticsearch高频题整理(附答案背诵版) Zeyhra elasticsearch jenkins 大数据
简述什么是Elasticsearch？参考回答Elasticsearch是一个基于分布式架构的开源搜索引擎，使用全文检索引擎ApacheLucene作为底层技术实现。它能够提供强大的搜索、数据存储和分析功能，适用于海量数据的实时搜索和分析场景。Elasticsearch的核心特点全文检索：提供强大的全文检索能力，支持模糊搜索、前缀搜索、短语搜索等多种高级搜索功能。分布式架构：支持水平扩展，数据分布
面试专区|【69道Elasticsearch高频题整理(附答案背诵版)】尺小闹面试 elasticsearch 职场和发展
简述什么是Elasticsearch？Elasticsearch是一个基于Lucene的搜索服务器，它提供了一个分布式、多用户能力的全文搜索引擎，基于RESTfulweb接口。Elasticsearch是用Java语言开发的，并作为Apache许可条款下的开放源码发布，是一种流行的企业级搜索引擎。它用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。官方客户端在Java、.NET（C#
ElasticSearch的基本概念：索引类型文档和映射 AI天才研究院计算 AI大模型应用入门实战与进阶大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA 计算 AI大模型应用
1.背景介绍ElasticSearch是一个基于Lucene的分布式搜索引擎，它提供了一个简单易用的RESTfulAPI，可以快速地进行全文搜索、结构化搜索、分析和聚合等操作。在ElasticSearch中，最基本的概念包括索引、类型、文档和映射。本文将详细介绍这些概念的含义和联系，以及它们在ElasticSearch中的具体实现和应用。2.核心概念与联系2.1索引索引是ElasticSearch
ElasticSearch 2.x入门与快速实践爱美有喜技术漫谈 elasticsearch 分布式搜索引擎索引
IntroductionElasticSearch是一个基于ApacheLucene(TM)的开源搜索引擎。无论在开源还是专有领域，Lucene可以被认为是迄今为止最先进、性能最好的、功能最全的搜索引擎库。但是，Lucene只是一个库。想要使用它，你必须使用Java来作为开发语言并将其直接集成到你的应用中，更糟糕的是，Lucene非常复杂，你需要深入了解检索的相关知识来理解它是如何工作的。Elas
ElasticSearch es 插件开发 2501_90252573 elasticsearch 大数据搜索引擎
PythonLanguageSecurityPlugins安全插件扩展es的安全策略，比如控制api的访问权限等优秀插件代表：X-PackSnapshot/RestoreRepositoryPlugins快照/还原存储库插件扩展es的快照和恢复功能StorePlugins存储插件扩展es的存储方式，es默认使用的是Lucene存储数据的优秀插件代表：StoreSMBWindowsSMB2.插件开发
Elasticsearch 快速入门指南 Luck_ff0810 开发工具 Java elasticsearch elasticsearch 大数据搜索引擎
1.Elasticsearch简介Elasticsearch是一个基于Lucene的开源分布式搜索和分析引擎，由Elastic公司开发。它具有以下特点：分布式：可以轻松扩展到数百台服务器，处理PB级数据实时性：数据一旦被索引，立即可被搜索全文检索：强大的全文搜索能力RESTfulAPI：提供简单易用的JSON风格API多功能：不仅是搜索引擎，还是强大的分析引擎2.核心概念在深入Elasticsea
Elasticsearch 最全调优，最佳实践（二）蒋厚施 elasticsearch 大数据搜索引擎
接着上一篇Elasticsearch最全调优，最佳实践（一）15、在Elasticsearch中，是怎么根据一个词找到对应的倒排索引的？Lucene的索引过程，就是按照全文检索的基本过程，将倒排表写成此文件格式的过程。Lucene的搜索过程，就是按照此文件格式将索引进去的信息读出来，然后计算每篇文档打分(score)的过程。16、Elasticsearch在部署时，对Linux的设置有哪些优化方法
elasticsearch-7.3.1集群搭建 jiedaodezhuti elasticsearch elasticsearch
1、es介绍ElasticSearch是一个基于Lucene的搜索服务器。提供了分布式多用户的全文搜索引擎，用Java语言开发的，Apache许可条款下的开放源码发布，是一种流行的企业级搜索引擎。包含如下特性：分布式高可用搜索引擎：每个索引都可以配置分片的数量。每个分片都有一个或多个副本且分片都支持读写多租户：支持多个索引以及索引级配置，如碎片数、索引存储等。提供各种API：包括HTTPRestf
Elasticsearch相关面试题真实的菜 es elasticsearch
概念理解类1.请简要阐述Elasticsearch为何被定义为基于Lucene的Restful分布式实时全文搜索引擎？1.基于Lucene底层引擎：ES的核心搜索能力依赖于ApacheLucene库。Lucene是一个高性能、功能强大的全文检索工具包，提供了倒排索引、分词、评分机制等核心搜索功能。扩展封装：ES在Lucene基础上进行了分布式和高可用性封装，简化了Lucene的复杂API，使其更易
16款开源的全文搜索引擎 (1) 码农x马马开源搜索引擎 web安全安全 ddos 游戏网络
全文搜索引擎就是通过从互联网上提取的各个网站的信息（以网页文字为主）而建立的数据库中，检索与用户查询条件匹配的相关记录，然后按一定的排列顺序将结果返回给用户。1、ApacheLuceneJava全文搜索框架许可证：Apache-2.0开发语言：Java官网：https://lucene.apache.org/ApacheLucene是完全用Java编写的高性能、功能齐全的全文检索引擎架构，提供了完
Lucene多种数据类型使用说明学会了没 lucene mybatis java
Lucene作为一款高性能的全文检索引擎库，其核心功能围绕索引和搜索文本数据，但它也支持多种数据类型以满足复杂的应用场景。以下是Lucene支持的主要数据类型及其用途的详细说明：1.文本类型（Text）用途：全文搜索、分词处理。特点：分词（Tokenization）：文本字段会被分词器（如StandardAnalyzer）拆分为词项（Term），便于模糊匹配、短语查询等。存储形式：通常使用Text
基于Docker的Elasticsearch ARM64架构镜像构建实践小盒子_spring 字节与烟火 docker elasticsearch 架构
一、前言Elasticsearch(以下简称为ES)是一个分布式的免费开源搜索和分析引擎，适用于包括文本、数字、地理空间、结构化和非结构化数据等在内的所有类型的数据。Elasticsearch在ApacheLucene的基础上开发而成，由ElasticsearchN.V.（即现在的Elastic）于2010年首次发布。Elasticsearch以其简单的REST风格API、分布式特性、速度和可扩展
Elasticsearch、Solr、Lucene 深度对比：架构解析、性能实战与选型指南 danny-IT技术博客 lucene elasticsearch solr java 后端 spring boot
文章目录Elasticsearch、Solr、Lucene深度对比：架构解析、性能实战与选型指南一、内核级技术对比：从架构到原理1.1核心架构差异图解（1）Lucene单机索引流程（2）Solr集群架构（3）Elasticsearch分布式架构1.2索引机制深度解析（1）Lucene段合并策略（2）Elasticsearch实时写入流程二、性能压测：百万级数据实战2.1测试环境配置2.2索引性能对
开放域问答的密集段落检索(以密集检索的角度解决 QA 问题) 多吃轻食深度解析：RAG与大模型检索机器学习自然语言处理深度学习人工智能 QA
开放域问答的密集段落检索摘要开放域问答依赖于有效的段落检索去选择候选内容，传统的稀疏向量空间模型，比如TF-IDF恶和BM25，确实是一个方法。在这项工作中，我们证明了检索实际上可以单独使用密集表示来实现，其中嵌入是通过一个简单的双编码器框架从少量的问题和段落中学习到的。在广泛的开放域QA数据集上进行评估时，我们的密集检索器在前20个段落检索准确率方面的绝对性能大大超过强大的Lucene-BM25
【工具】Elasticsearch：强大的开源搜索与分析引擎 RumIV 工具 elasticsearch 开源大数据
什么是Elasticsearch？Elasticsearch是一个开源的分布式搜索和分析引擎，基于ApacheLucene构建。它能够近乎实时地存储、搜索和分析大量数据。最初由ShayBanon开发并于2010年发布，Elasticsearch如今已成为最受欢迎的企业搜索引擎之一。核心特性1.分布式架构Elasticsearch采用分布式设计，可以轻松扩展到数百甚至数千台服务器，处理PB级的数据。
html 周华华 html
js 1，数组的排列 var arr=[1,4,234,43,52,]; for(var x=0;x<arr.length;x++){ for(var y=x-1;y<arr.length;y++){ if(arr[x]<arr[y]){ &
【Struts2 四】Struts2拦截器 bit1129 struts2拦截器
Struts2框架是基于拦截器实现的，可以对某个Action进行拦截，然后某些逻辑处理，拦截器相当于AOP里面的环绕通知，即在Action方法的执行之前和之后根据需要添加相应的逻辑。事实上，即使struts.xml没有任何关于拦截器的配置，Struts2也会为我们添加一组默认的拦截器，最常见的是，请求参数自动绑定到Action对应的字段上。 Struts2中自定义拦截器的步骤是：
make:cc 命令未找到解决方法 daizj linux 命令未知 make cc
安装rz sz程序时，报下面错误： [root@slave2 src]# make posix cc -O -DPOSIX -DMD=2 rz.c -o rz make: cc：命令未找到 make: *** [posix] 错误 127 系统：centos 6.6 环境：虚拟机错误原因：系统未安装gcc，这个是由于在安
Oracle之Job应用周凡杨 oracle job
最近写服务，服务上线后，需要写一个定时执行的SQL脚本，清理并更新数据库表里的数据，应用到了Oracle 的 Job的相关知识。在此总结一下。一：查看相关job信息 1、相关视图 dba_jobs all_jobs user_jobs dba_jobs_running 包含正在运行
多线程机制朱辉辉33 多线程
转至http://blog.csdn.net/lj70024/archive/2010/04/06/5455790.aspx 程序、进程和线程：程序是一段静态的代码，它是应用程序执行的蓝本。进程是程序的一次动态执行过程，它对应了从代码加载、执行至执行完毕的一个完整过程，这个过程也是进程本身从产生、发展至消亡的过程。线程是比进程更小的单位，一个进程执行过程中可以产生多个线程，每个线程有自身的
web报表工具FineReport使用中遇到的常见报错及解决办法（一）老A不折腾 web报表 finereport java报表报表工具
FineReport使用中遇到的常见报错及解决办法（一）这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、address pool is full：含义：地址池满，连接数超过并发数上
mysql rpm安装后没有my.cnf 林鹤霄没有my.cnf
Linux下用rpm包安装的MySQL是不会安装/etc/my.cnf文件的，至于为什么没有这个文件而MySQL却也能正常启动和作用，在这儿有两个说法，第一种说法，my.cnf只是MySQL启动时的一个参数文件，可以没有它，这时MySQL会用内置的默认参数启动，第二种说法，MySQL在启动时自动使用/usr/share/mysql目录下的my-medium.cnf文件，这种说法仅限于r
Kindle Fire HDX root并安装谷歌服务框架之后仍无法登陆谷歌账号的问题 aigo root
原文：http://kindlefireforkid.com/how-to-setup-a-google-account-on-amazon-fire-tablet/ Step 4: Run ADB command from your PC On the PC, you need install Amazon Fire ADB driver and instal
javascript 中var提升的典型实例 alxw4616 JavaScript
// 刚刚在书上看到的一个小问题,很有意思.大家一起思考下吧 myname = 'global'; var fn = function () { console.log(myname); // undefined var myname = 'local'; console.log(myname); // local }; fn() // 上述代码实际上等同于以下代码 m
定时器和获取时间的使用百合不是茶时间的转换定时器
定时器:定时创建任务在游戏设计的时候用的比较多 Timer();定时器 TImerTask();Timer的子类由 Timer 安排为一次执行或重复执行的任务。定时器类Timer在java.util包中。使用时，先实例化，然后使用实例的schedule(TimerTask task, long delay)方法，设定
JDK1.5 Queue bijian1013 java thread java多线程 Queue
JDK1.5 Queue LinkedList： LinkedList不是同步的。如果多个线程同时访问列表，而其中至少一个线程从结构上修改了该列表，则它必须保持外部同步。（结构修改指添加或删除一个或多个元素的任何操作；仅设置元素的值不是结构修改。）这一般通过对自然封装该列表的对象进行同步操作来完成。如果不存在这样的对象，则应该使用 Collections.synchronizedList 方
http认证原理和https bijian1013 http https
一.基础介绍在URL前加https://前缀表明是用SSL加密的。你的电脑与服务器之间收发的信息传输将更加安全。 Web服务器启用SSL需要获得一个服务器证书并将该证书与要使用SSL的服务器绑定。 http和https使用的是完全不同的连接方式，用的端口也不一样,前者是80，后
【Java范型五】范型继承 bit1129 java
定义如下一个抽象的范型类，其中定义了两个范型参数，T1，T2 package com.tom.lang.generics; public abstract class SuperGenerics<T1, T2> { private T1 t1; private T2 t2; public abstract void doIt(T
【Nginx六】nginx.conf常用指令(Directive) bit1129 Directive
1. worker_processes 8; 表示Nginx将启动8个工作者进程，通过ps -ef|grep nginx,会发现有8个Nginx Worker Process在运行 nobody 53879 118449 0 Apr22 ? 00:26:15 nginx: worker process
lua 遍历Header头部 ronin47 lua header 遍历　
local headers = ngx.req.get_headers() ngx.say("headers begin", "<br/>") ngx.say("Host : ", he
java-32.通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小(两数组的差最小)。 bylijinnan java
import java.util.Arrays; public class MinSumASumB { /** * Q32.有两个序列a,b，大小都为n,序列元素的值任意整数，无序. * * 要求：通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小。 * 例如: * int[] a = {100,99,98,1,2,3
redis 开窍的石头 redis
在redis的redis.conf配置文件中找到# requirepass foobared 把它替换成requirepass 12356789 后边的12356789就是你的密码打开redis客户端输入config get requirepass 返回 redis 127.0.0.1:6379> config get requirepass 1) "require
[JAVA图像与图形]现有的GPU架构支持JAVA语言吗？ comsci java语言
无论是opengl还是cuda，都是建立在C语言体系架构基础上的，在未来，图像图形处理业务快速发展，相关领域市场不断扩大的情况下，我们JAVA语言系统怎么从这么庞大，且还在不断扩大的市场上分到一块蛋糕，是值得每个JAVAER认真思考和行动的事情
安装ubuntu14.04登录后花屏了怎么办 cuiyadll ubuntu
这个情况，一般属于显卡驱动问题。可以先尝试安装显卡的官方闭源驱动。按键盘三个键：CTRL + ALT + F1 进入终端，输入用户名和密码登录终端：安装amd的显卡驱动 sudo apt-get install fglrx 安装nvidia显卡驱动 sudo ap
SSL 与数字证书的基本概念和工作原理 darrenzhu 加密 ssl 证书密钥签名
SSL 与数字证书的基本概念和工作原理 http://www.linuxde.net/2012/03/8301.html SSL握手协议的目的是或最终结果是让客户端和服务器拥有一个共同的密钥，握手协议本身是基于非对称加密机制的，之后就使用共同的密钥基于对称加密机制进行信息交换。 http://www.ibm.com/developerworks/cn/webspher
Ubuntu设置ip的步骤 dcj3sjt126com ubuntu
在单位的一台机器完全装了Ubuntu Server，但回家只能在XP上VM一个，装的时候网卡是DHCP的，用ifconfig查了一下ip是192.168.92.128,可以ping通。转载不是错： Ubuntu命令行修改网络配置方法 /etc/network/interfaces打开后里面可设置DHCP或手动设置静态ip。前面auto eth0，让网卡开机自动挂载. 1. 以D
php包管理工具推荐 dcj3sjt126com PHP Composer
http://www.phpcomposer.com/ Composer是 PHP 用来管理依赖（dependency）关系的工具。你可以在自己的项目中声明所依赖的外部工具库（libraries），Composer 会帮你安装这些依赖的库文件。中文文档入门指南下载安装包列表 Composer 中国镜像
Gson使用四（TypeAdapter） eksliang json gson Gson自定义转换器 gsonTypeAdapter
转载请出自出处：http://eksliang.iteye.com/blog/2175595 一.概述 Gson的TypeAapter可以理解成自定义序列化和返序列化二、应用场景举例例如我们通常去注册时（那些外国网站），会让我们输入firstName，lastName,但是转到我们都
JQM控件之Navbar和Tabs gundumw100 html xml css
在JQM中使用导航栏Navbar是简单的。只需要将data-role="navbar"赋给div即可： <div data-role="navbar"> <ul> <li><a href="#" class="ui-btn-active&qu
利用归并排序算法对大文件进行排序 iwindyforest java 归并排序大文件分治法 Merge sort
归并排序算法介绍，请参照Wikipeida zh.wikipedia.org/wiki/%E5%BD%92%E5%B9%B6%E6%8E%92%E5%BA%8F 基本思想：大文件分割成行数相等的两个子文件，递归（归并排序）两个子文件，直到递归到分割成的子文件低于限制行数低于限制行数的子文件直接排序两个排序好的子文件归并到父文件直到最后所有排序好的父文件归并到输入
iOS UIWebView URL拦截啸笑天 UIWebView
本文译者：candeladiao，原文：URL filtering for UIWebView on the iPhone说明：译者在做app开发时，因为页面的javascript文件比较大导致加载速度很慢，所以想把javascript文件打包在app里，当UIWebView需要加载该脚本时就从app本地读取，但UIWebView并不支持加载本地资源。最后从下文中找到了解决方法，第一次翻译，难免有
索引的碎片整理SQL语句 macroli sql
SET NOCOUNT ON DECLARE @tablename VARCHAR (128) DECLARE @execstr VARCHAR (255) DECLARE @objectid INT DECLARE @indexid INT DECLARE @frag DECIMAL DECLARE @maxfrag DECIMAL --设置最大允许的碎片数量,超过则对索引进行碎片
Angularjs同步操作http请求with $promise qiaolevip 每天进步一点点学习永无止境 AngularJS 纵观千象
// Define a factory app.factory('profilePromise', ['$q', 'AccountService', function($q, AccountService) { var deferred = $q.defer(); AccountService.getProfile().then(function(res) {
hibernate联合查询问题 sxj19881213 sql Hibernate HQL 联合查询
最近在用hibernate做项目，遇到了联合查询的问题，以及联合查询中的N+1问题。针对无外键关联的联合查询，我做了HQL和SQL的实验，希望能帮助到大家。（我使用的版本是hibernate3.3.2） 1 几个常识：（1）hql中的几种join查询，只有在外键关联、并且作了相应配置时才能使用。（2）hql的默认查询策略，在进行联合查询时，会产
struts2.xml wuai struts
<?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache

Lucene4.6实战应用

1.基础类

2.service层应用

3.测试类

4.说明

你可能感兴趣的:(Lucene)