jiangfullll

lucene构建restful风格的简单搜索引擎服务

来自于本人博客： lucene构建restful风格的简单搜索引擎服务

本人的博客现在也要改成使用lucene进行全文检索的功能，因此在这里把代码贴出来与大家分享

一，目录结构：

二，配置文件：

总共有四个配置文件：bonecp-config.xml,IKAnalyzer.cfg.xml,log4j.properties,system-config.xml

1.bonecp-config.xml是配置jdbc连接池用的，不用这个配置也行，bonecp包有默认配置

2.IKAnalyzer.cfg.xml是IKAnalyzer分词要用的字典配置文件

这里也可以不用配置

 
 
  
IK Analyzer 扩展配置


/data/lucene/dict/1_dict.txt;/data/lucene/dict/2_dict.txt;/data/lucene/dict/3_dict.txt;/data/lucene/dict/4_dict.txt;/data/lucene/dict/5_dict.txt;/data/lucene/dict/6_dict.txt;/data/lucene/dict/7_dict.txt;/data/lucene/dict/8_dict.txt;

3.log4j.properties这个不用多说了

4.system-config.xml是一些系统的配置参数



        
            3306
            test
            test
            6
            3600
            com.mysql.jdbc.Driver
            1800
            300
            jdbc:mysql://localhost/blog?characterEncode=UTF-8
        
        
            
            /data/lucene/index
            /data/lucene/index/recommendNet
            10
            10000

三，监听器SystemStartupListener,实现了ServletContextListener

package com.blog.listener;

import java.io.File;
import java.net.URL;
import java.sql.SQLException;
import java.util.List;

import javax.servlet.ServletContextEvent;
import javax.servlet.ServletContextListener;

import org.apache.log4j.Logger;
import org.dom4j.Document;
import org.dom4j.DocumentException;
import org.dom4j.Element;
import org.dom4j.io.SAXReader;

import com.blog.db.DBFactory;
import com.blog.search.BlogSearch;
import com.blog.search.index.BlogIndex;

public class SystemStartupListener implements ServletContextListener {
    private static Logger log = Logger.getLogger(SystemStartupListener.class);
    public void contextDestroyed(ServletContextEvent arg0) {
        DBFactory.shutDown();
    }

    public void contextInitialized(ServletContextEvent arg0) {
        SAXReader reader = new SAXReader();
        try {
            URL url = this.getClass().getClassLoader().getResource("system-config.xml");
            String  path = url.getFile();
            Document doc = reader.read(new File(path));
            Element rootEle = doc.getRootElement();
            List list = rootEle.elements("mysql");
            if(list.size() > 0) {
                Element mysqlEle = (Element) list.get(0);
                if(null != mysqlEle) {
                    String host = mysqlEle.elementText("host");
                    String port = mysqlEle.elementText("port");
                    String user = mysqlEle.elementText("user");
                    String password = mysqlEle.elementText("password");
                    Integer partitionCount = Integer.parseInt(mysqlEle.elementText("partitionCount"));
                    Integer maxWait = Integer.parseInt(mysqlEle.elementText("maxWait"));
                    String driverClass = mysqlEle.elementText("driverClass");
                    Integer idleMaxAge = Integer.parseInt(mysqlEle.elementText("idleMaxAge"));
                    Integer idleConnectionTestPeriod = Integer.parseInt(mysqlEle.elementText("idleConnectionTestPeriod"));
                    DBFactory.init(driverClass, host, user, password, partitionCount, maxWait, idleMaxAge, idleConnectionTestPeriod);
                }
            } else {
                throw new RuntimeException("初始化失败....");
                    
            }
            list = rootEle.elements("search");
            if(list.size() > 0) {
                Element searchEle = (Element) list.get(0);
                String indexPath = searchEle.elementText("indexPath");   //索引文件的存放位置
                String searcNum = searchEle.elementText("searcNum");  //一次搜索结果数
                String resultNum = searchEle.elementText("resultNum");
                String recommendNetIndexPath = searchEle.elementText("recommendNetIndexPath");
                System.setProperty("searcNum", searcNum);
                System.setProperty("resultNum", resultNum);
                System.setProperty("indexFilePath", indexPath);
                System.setProperty("recommendNetIndexPath", recommendNetIndexPath);
                BlogIndex.buildIndex(recommendNetIndexPath);
            } else {
                throw new RuntimeException("初始化失败....");
            }
            
            log.info("初始化搜索.....");
            BlogSearch.init();
        } catch (DocumentException e) {
            log.error("解析配置文件出错.....",e);
        } catch(Exception e) {
            log.error("出现未知错误....",e);
        }
    }
}

四，util包中的Constant常量类

package com.blog.util;

public class Constant {
    public static final Integer searcNum = Integer.parseInt(System.getProperty("searcNum"));
    public static final Integer resultNum = Integer.parseInt(System.getProperty("resultNum"));
}

util包中的DataToJson类：

package com.blog.util;

import java.util.List;

import com.google.gson.JsonArray;
import com.google.gson.JsonObject;

public class DataToJson {
    
    public static String parseDataToJson(List ids, int totalCount) {
        JsonObject json = new JsonObject();
        json.addProperty("totalCount", totalCount);
        JsonArray array = new JsonArray();
        if(ids.size() > 0) {
            for(Long id : ids) {
                JsonObject obj = new JsonObject();
                obj.addProperty("id", id);
                array.add(obj);
            }
        }
        json.add("data", array);
        return json.toString();
    }
    
}

五，entity包中的实体类：

Dashboard:

package com.blog.search.entity;

public class Dashboard {
    private Long id;
    private String content;
    private String title;
    public Long getId() {
        return id;
    }
    public void setId(Long id) {
        this.id = id;
    }
    public String getContent() {
        return content;
    }
    public void setContent(String content) {
        this.content = content;
    }
    public String getTitle() {
        return title;
    }
    public void setTitle(String title) {
        this.title = title;
    }
}

六，lucene相关的索引和检索类：

index包中的BlogIndex:

package com.blog.search.index;

import java.io.File;
import java.io.IOException;

import org.apache.log4j.Logger;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.document.StringField;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.IndexWriterConfig;
import org.apache.lucene.index.IndexWriterConfig.OpenMode;
import org.apache.lucene.index.Term;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.util.Version;
import org.wltea.analyzer.lucene.IKAnalyzer;

import com.blog.search.entity.Dashboard;

public class BlogIndex {
    private static final String indexFilePath = System.getProperty("indexFilePath");
    private static Logger log = Logger.getLogger(BlogIndex.class);
    public BlogIndex() {

    }
    //这个方法在没有索引的时候需要在初始化时调用
    public static void buildIndex(String path) {
        File file = new File(path);
        if(file.isDirectory() && file.listFiles().length == 0){  
            Directory dir;
            try {
                dir = FSDirectory.open(new File(path));
            
                Analyzer analyzer = new IKAnalyzer(true);
                //配置类
                IndexWriterConfig iwc = new IndexWriterConfig(Version.LUCENE_43, analyzer);
                iwc.setOpenMode(OpenMode.CREATE);
                IndexWriter writer = new IndexWriter(dir, iwc);
                writer.deleteAll();
                writer.close();
            } catch (IOException e) {
                // TODO Auto-generated catch block
                e.printStackTrace();
            }
        }
        
    }
    
    @SuppressWarnings("deprecation")
    private Document getDocument(Dashboard dashboard) throws Exception {
        Document doc = new Document();
        doc.add(new Field("title", dashboard.getTitle(), Field.Store.YES, Field.Index.ANALYZED));
        doc.add(new Field("content", dashboard.getContent(),Field.Store.NO,Field.Index.ANALYZED));
        Field idField = new StringField("id",dashboard.getId().toString(), Field.Store.YES);
        doc.add(idField);
        return doc;
    }
    
    public void writeToIndex(Dashboard dashboard) throws Exception {
        Document doc = getDocument(dashboard);
        IndexWriter writer = null;
        try {
            
            Directory dir = FSDirectory.open(new File(indexFilePath));
            //分析器
            Analyzer analyzer = new IKAnalyzer(true);
            //配置类
            IndexWriterConfig iwc = new IndexWriterConfig(Version.LUCENE_43, analyzer);
            writer = new IndexWriter(dir, iwc);
        } catch(Exception e) {
            e.printStackTrace();
        }
        writer.addDocument(doc);
        writer.commit();
        writer.close();
    }
    
    public void deleteIndex(Long id) {
        IndexWriter writer = null;
        try {
            Directory dir = FSDirectory.open(new File(indexFilePath));
            Analyzer analyzer = new IKAnalyzer(true);
            IndexWriterConfig iwc = new IndexWriterConfig(Version.LUCENE_43, analyzer);
            writer = new IndexWriter(dir, iwc);
            writer.deleteDocuments(new Term("id",id.toString()));
            writer.commit();
            
        } catch(Exception e) {
            log.error("删除索引出错.....");
        } finally {
            if(writer != null) {
                try {
                    writer.close();
                } catch (IOException e) {
                    // TODO Auto-generated catch block
                    e.printStackTrace();
                }
            }
        }
    }
    
    public void updateIndex(Dashboard dashboard) throws Exception {
        Document doc = getDocument(dashboard);
        IndexWriter writer = null;
        try {
            
            Directory dir = FSDirectory.open(new File(indexFilePath));
            //分析器
            Analyzer analyzer = new IKAnalyzer(true);
            //配置类
            IndexWriterConfig iwc = new IndexWriterConfig(Version.LUCENE_43, analyzer);
            //iwc.setOpenMode(OpenMode.CREATE);
            writer = new IndexWriter(dir, iwc);
        } catch(Exception e) {
            e.printStackTrace();
        }
        writer.updateDocument(new Term("id", dashboard.getId().toString()), doc);
        writer.commit();
        writer.close();
    }
}

七，search包下面的BlogSearch类：

package com.blog.search;

import java.io.File;
import java.io.IOException;
import java.util.ArrayList;
import java.util.List;
import java.util.Map;
import java.util.concurrent.ConcurrentHashMap;

import org.apache.log4j.Logger;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.index.DirectoryReader;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.queryparser.classic.MultiFieldQueryParser;
import org.apache.lucene.queryparser.classic.QueryParser;
import org.apache.lucene.queryparser.classic.QueryParser.Operator;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.TopDocs;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.util.Version;
import org.wltea.analyzer.lucene.IKAnalyzer;

import com.blog.util.Constant;
import com.blog.util.DataToJson;

public class BlogSearch {
    private static Logger log = Logger.getLogger(BlogSearch.class);
    
    private static final String indexFilePath = System.getProperty("indexFilePath");
    private static String[] field = {"title","content"};
    private IndexSearcher searcher;
    //存储初始化的IndexReader，节省每次重新打开索引文件的性能开销
    private static Map readers = new ConcurrentHashMap();
    private static Object lock = new Object();
    public static void init() {
        try {
            IndexReader reader = DirectoryReader.open(FSDirectory.open(new File(indexFilePath)));
            readers.put("blogsearch", reader);
            log.info(readers.toString());
        } catch (IOException e) {
            log.error("初始化搜索器出错.......",e);
        }
        
    }
    
    public TopDocs search(String keyword) {
        try {
            Analyzer analyzer = new IKAnalyzer(true);
            
            QueryParser parser = new MultiFieldQueryParser(Version.LUCENE_43, field,analyzer);
            parser.setDefaultOperator(Operator.AND);
            // 将关键字包装成Query对象
            Query query = parser.parse(keyword);
            
            //加锁为了防止在一个线程读取IndexReader之后，但是还没有执行查询之前，索引改变了，
            //导致IndexReader对象被关闭后重新创建，可能导致关闭异常的问题
            synchronized(lock) {  
                IndexReader reader = readers.get("blogsearch");
                IndexReader newReader = DirectoryReader.openIfChanged((DirectoryReader)reader);
                if(newReader == null) {  //如果为空，表示索引没有变化
                    newReader = reader;
                } else {
                    readers.put("blogsearch", newReader);
                    reader.close();
                }
                searcher = new IndexSearcher(newReader);
            }
            //newReader = DirectoryReader.open(FSDirectory.open(new File(indexFilePath)));
            TopDocs results = searcher.search(query, Constant.resultNum);
            return results;
        } catch(Exception e) {
            log.error("搜索关键字出错......",e);
            return null;
        }
    }
    
    public String getResult(String keyword, int pageSize) {
        TopDocs td = search(keyword);
        int totalCount = td.totalHits;
        ScoreDoc[] h = td.scoreDocs;
        List ids = new ArrayList(h.length);
        if(h.length == 0) {
            log.debug("no result data");
        } else {
            int start = Constant.searcNum*(pageSize - 1);
            int end = Constant.searcNum*pageSize;
            if(start >= totalCount) {
                start = 0;
                end = totalCount;
            } 
            if(end > totalCount) {
                end = totalCount;
                
            }
            for(int i = start; i < end; i++) {
                try {
                    Document doc = searcher.doc(h[i].doc);
                    ids.add(Long.parseLong(doc.get("id")));
                    //log.debug("这是第" + (i + 1) + "个检索到的结果,id为：" + doc.get("id")+",  " + doc.get("title"));
                } catch(Exception e) {
                    e.printStackTrace();
                    log.error("start=" +start + ", end=" + end + ", " + h.length);
                }
            }
        }
        return DataToJson.parseDataToJson(ids, totalCount);
    }
}

八，service包下的BlogSearchService，这是jersey的入口，由这个类向外界提供api：

package com.blog.search.service;

import javax.ws.rs.FormParam;
import javax.ws.rs.GET;
import javax.ws.rs.POST;
import javax.ws.rs.Path;
import javax.ws.rs.Produces;
import javax.ws.rs.QueryParam;
import javax.ws.rs.core.MediaType;

import com.blog.search.BlogSearch;
import com.blog.search.entity.Dashboard;
import com.blog.search.index.BlogIndex;
import com.google.gson.JsonObject;

@Path("/blogSearch/")
public class BlogSearchService {

    @GET
    @Path("/queryByKeyword")
    @Produces(MediaType.APPLICATION_JSON)
    public String queryIdsByKeyword(@QueryParam("keyword") String keyword, @QueryParam("pageSize") Integer pageSize) {
        return new BlogSearch().getResult(keyword, pageSize);
    }
    
    @POST
    @Path("/buildByContent")
    @Produces(MediaType.APPLICATION_JSON)
    public String buildIndexByContent(@FormParam("content") String content,@FormParam("title")String title, @FormParam("id") Long id) {
        BlogIndex bi = new BlogIndex();
        Dashboard dashboard = new Dashboard();
        dashboard.setContent(content);
        dashboard.setTitle(title);
        dashboard.setId(id);
        JsonObject json = new JsonObject();
        try {
            bi.writeToIndex(dashboard);
            json.addProperty("result", "200");
        } catch (Exception e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
            json.addProperty("result", "500");
        } finally {
            //index();
            return json.toString();
        }
        
    }
    
    @POST
    @Path("/deleteById")
    @Produces(MediaType.APPLICATION_JSON)
    public String deleteIndexById(@FormParam("id") Long id) {
        BlogIndex bi = new BlogIndex();
        JsonObject json = new JsonObject();
        try {
            bi.deleteIndex(id);
            json.addProperty("result", 200);
        } catch(Exception e) {
            json.addProperty("result", 500);
        } finally {
            return json.toString();
        }
    }
    
    @POST
    @Path("/update")
    @Produces(MediaType.APPLICATION_JSON)
    public String updateIndex(@FormParam("id") Long id, @FormParam("content") String content, @FormParam("title") String title) {
        BlogIndex bi = new BlogIndex();
        JsonObject json = new JsonObject();
        try {
            Dashboard dashboard = new Dashboard();
            dashboard.setContent(content);
            dashboard.setTitle(title);
            dashboard.setId(id);
            bi.updateIndex(dashboard);
            json.addProperty("result", 200);
        } catch(Exception e) {
            json.addProperty("result", 500);
        } finally {
            return json.toString();
        }
    }
    
}

九，web.xml的配置：



      
  
    index.jsp
  
 
      
  JerseyServlet  
    
      com.sun.jersey.spi.container.servlet.ServletContainer  
     
    
    com.sun.jersey.config.property.packages  
        
    com.blog.search.service  
        
  1 
  
  
  
  JerseyServlet  
  /search/*  

   
    
      com.blog.listener.SystemStartupListener

十，程序依赖包：

self4j-nop-1.7.5.jar

好了，完成之后，tomcat的配置好之后，如果你是用myeclipse的自带tomcat发布的，则访问http://localhost:port/项目名称/search/blogSearch/buildByContent?后面就是参数传递，查询也跟这个url类似

就这样，我们创建了一个简单的restful风格的简单搜索引擎，里面的配置大家按照自己的需求改改就好

Elasticsearch MacJerry elasticsearch 大数据搜索引擎
学习目标[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BGW4RqWM-1635414988340)(es.assets/Snipaste_2020-07-06_13-03-45.png)]Elasticsearch简介与安装什么是Elasticsearch？ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基
Elasticsearch：基本概念、索引结构与优缺点分析 Leaton Lee elasticsearch 大数据搜索引擎
一、Elasticsearch基本概念Elasticsearch是一个基于Lucene构建的开源、分布式、RESTful搜索引擎，专为云计算环境设计，能够实现近乎实时的数据搜索和分析功能。核心概念解析文档(Document)Elasticsearch中的基本数据单元，使用JSON格式表示每个文档有唯一ID和类型示例：一条产品信息、一篇博客文章或一个客户记录索引(Index)文档的集合，类似于关系数
ES 和 lucene 的区别是什么？晚夜微雨问海棠呀 elasticsearch lucene 大数据
Elasticsearch(ES)和Lucene都是用于全文搜索和分析的工具，但它们在功能和使用场景上有一些重要的区别：基础与角色：Lucene是一个开源的信息检索软件库，提供了一个高性能、全功能的文本搜索引擎。它是许多搜索应用的核心，包括Elasticsearch。Elasticsearch是一个分布式搜索和分析引擎，构建在Lucene之上。它不仅提供了Lucene的所有功能，还增加了分布式计算
Lucence 和 Elasticsearch 的区别? 码出财富 elasticsearch 大数据搜索引擎
Lucene和Elasticsearch都是在信息检索和文本处理领域中广泛使用的工具，它们的主要区别如下：概念和定位Lucene：是一个基于Java的全文检索库，它提供了一套强大的底层索引和搜索功能的API。Lucene更像是一个工具包，开发人员可以基于它来构建自己的搜索应用程序，需要深入了解搜索的底层原理和算法，对开发者的技术要求较高。Elasticsearch：是一个基于Lucene的分布式搜
【云原生】Docker 部署 Elasticsearch 9 操作详解逆风飞翔的小叔运维 Docker 部署es9 Docker部署es Docker搭建es9 Elasticsearch9 Docker搭建es
目录一、前言二、Elasticsearch9新特性介绍2.1基于Lucene10重大升级2.2BetterBinaryQuantization（BBQ）2.3ElasticDistributionsofOpenTelemetry（EDOT）2.4LLM可观测性2.5攻击发现与自动导入2.6ES|QL增强2.7语义检索三、基于Docker部署Elasticsearch93.1Elasticsearc
深度解析Lucene IndexWriter 性能优化微笑听雨。 java 进阶教程 lucene indexWriter 全文检索性能调优内存缓冲
深度解析LuceneIndexWriter性能优化目标：在大规模写入、频繁更新的场景下，既保持吞吐量，又兼顾搜索实时性与系统稳定性。关键调优点内存缓冲：将RAMBufferSizeMB提升至128–1024MB，减少flush次数；必要时配合maxBufferedDocs。合并策略：使用TieredMergePolicy，典型参数为maxMergeAtOnce4–8、segmentsPerTier
Spring Boot 集成 Elasticsearch（含 ElasticsearchRestTemplate 示例）超级小忍 SpringBoot spring boot elasticsearch
Elasticsearch是一个基于Lucene的分布式搜索服务器，具有高效的全文检索能力。在现代应用中，尤其是需要强大搜索功能的系统中，Elasticsearch被广泛使用。SpringBoot提供了对Elasticsearch的集成支持，使得开发者可以轻松地将Elasticsearch集成到SpringBoot应用中，实现高效的搜索、分析等功能。本文将详细介绍如何在SpringBoot中集成E
从源码角度了解Elasticsaerch(分布式协调排序、深分页问题)
引文Elasticsearch基于Lucene所以很多系统实现都在其中,所以可以先看看Lucene的实现:https://blog.csdn.net/qq_35040959/article/details/147931034项目组件不像Kafka这种顶级项目核心性能组件全自己实现,ELK中有很多引用至第三方开放库;网络模型-Netty网络模型多重要不必多说,Elasticsearch基于Netty
ELK在Java的使用 hqxstudying ELK java 日志 elasticsearch
在Java应用里运用ELK（Elasticsearch、Logstash、Kibana）技术栈，能够实现日志的集中化管理、高效搜索以及直观可视化。下面将从基础概念入手，逐步深入讲解其使用方法。一、基础概念ELK技术栈由三款开源工具构成：Elasticsearch：作为分布式搜索引擎，它基于Lucene开发，具备强大的全文检索和数据分析能力。Logstash：属于数据收集引擎，可对多源数据进行收集、
基于lucene的案例开发：实时索引管理类IndexManager
转载请注明出处：http://blog.csdn.net/xiaojimanman/article/details/44015983http://www.llwjy.com/blogdetail/5757ce8c007754704b563dd6a47ca1ca.html个人的博客小站也搭建成功，网址：www.llwjy.com，欢迎大家来吐槽~在前一篇博客中，对实时索引的实现原理做了一些简单的介绍
Elasticsearch 海量数据写入与高效文本检索实践指南 weixin_52755040 运维 es
Elasticsearch海量数据写入与高效文本检索实践指南一、引言在大数据时代，企业和组织面临着海量数据的存储与检索需求。Elasticsearch（以下简称ES）作为一款基于Lucene的分布式搜索和分析引擎，凭借其高可扩展性、实时搜索和分析能力，成为处理海量数据写入与文本检索的热门选择。本文将深入探讨如何在ES中实现海量数据的高效写入，并利用其强大的功能进行精准的文本检索，帮助开发者和技术人
solr教程，值得刚接触搜索开发人员一看 LarryHai6 IT-文档存储架构全文检索 lucene 企业搜索
Solr调研总结开发类型全文检索相关开发Solr版本4.2文件内容本文介绍solr的功能使用及相关注意事项;主要包括以下内容:环境搭建及调试;两个核心配置文件介绍;维护索引;查询索引,和在查询中可以应用的高亮显示、拼写检查、搜索建议、分组统计、拼音检索等功能的使用方法。版本作者/修改人日期V1.0gzk2013-06-041.Solr是什么？Solr它是一种开放源码的、基于LuceneJava的搜
ES分片（Shard）和副本（Replica）的作用？如何合理分配？搞不懂语言的程序员 elasticsearch 中间件 elasticsearch 大数据搜索引擎
ES分片和副本一、分片（Shard）的作用数据水平扩展将索引拆分为多个分片（默认5个），实现海量数据分布式存储和并行计算读写负载均衡每个分片作为独立的Lucene索引，支持并发读写操作，提升吞吐量故障隔离能力单个分片故障不会导致整个索引不可用，其他分片仍可继续提供服务二、副本（Replica）的作用数据高可用每个分片的副本（默认1个）存储在不同节点，主分片故障时副本自动升级为主分片读取性能提升副本
规则包含使用分词和JDK自带流式stream处理效率对比--分词lucene-word过滤与JDK的contains方法对比苦思冥想行则将至 word分词数据过滤 java过滤数据过滤数据效率 20万关键字处理
目录前言：1、lucene分词工具的使用2、分词word与JDK的stream流式过滤实现测试结果2.1通过包含20万条数据与否，进行效率对比2.2打印执行时间差，来实现效率对比3、一次性触发20万条数据执行进行Mysql记录执行结果，参数，耗时，入参4、数据库截图展示统计结果，JDK的效率更高一些前言：在数据过滤以及处理的过程中，会用到分词工具对于大文本的信息内容进行处理，作为java开发，经常
Springboot基于ElasticSearch全文搜索引擎策略实现 LQzhang_11 JAVA 缓存 Spring 搜索引擎 spring boot elasticsearch
一、ElasticSearch概念简介ElasticSearch是一个基于Lucene的开源搜索引擎，具有分布式、多租户能力的全文搜索引擎。ElasticSearch的设计目标是实现分布式、可扩展和速度快的搜索架构，使得用户在数据量较大的情况下依然能够快速高效地对数据进行搜索和分析。ElasticSearch使用RESTfulAPI进行操作，支持结构化、非结构化数据的索引和搜索，适合用来解决大量数
基于Elasticsearch的搜索引擎简介 weixin_47233946 编程搜索引擎 elasticsearch 大数据
##一、Elasticsearch简介Elasticsearch（简称ES）是一个开源的、分布式、RESTful风格的搜索和数据分析引擎，基于ApacheLucene开发。它能够实现对海量结构化和非结构化数据的实时存储、搜索和分析，广泛应用于全文检索、日志分析、数据可视化等场景。##二、核心原理Elasticsearch以文档为核心，每条数据都以JSON格式存储。其底层采用倒排索引（Inverte
Elasticsearch 方法论 catkin_ws 数据库
人工智能、大数据快速发展的今天，对于TB甚至PB级大数据的快速检索已然成为刚需。Elasticsearch作为开源领域的后起之秀，从2010年至今得到飞跃式的发展。Elasticsearch以其开源、分布式、RESTFulAPI三大优势，已经成为当下风口中“会飞的猪”。阿里云2018年2月5日已开价50-200W年薪招聘技术人员参与Elasticsearch、Lucene内核优化、改进。如果说，你
69道Elasticsearch高频题整理(附答案背诵版) Zeyhra elasticsearch jenkins 大数据
简述什么是Elasticsearch？参考回答Elasticsearch是一个基于分布式架构的开源搜索引擎，使用全文检索引擎ApacheLucene作为底层技术实现。它能够提供强大的搜索、数据存储和分析功能，适用于海量数据的实时搜索和分析场景。Elasticsearch的核心特点全文检索：提供强大的全文检索能力，支持模糊搜索、前缀搜索、短语搜索等多种高级搜索功能。分布式架构：支持水平扩展，数据分布
面试专区|【69道Elasticsearch高频题整理(附答案背诵版)】尺小闹面试 elasticsearch 职场和发展
简述什么是Elasticsearch？Elasticsearch是一个基于Lucene的搜索服务器，它提供了一个分布式、多用户能力的全文搜索引擎，基于RESTfulweb接口。Elasticsearch是用Java语言开发的，并作为Apache许可条款下的开放源码发布，是一种流行的企业级搜索引擎。它用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。官方客户端在Java、.NET（C#
ElasticSearch的基本概念：索引类型文档和映射 AI天才研究院计算 AI大模型应用入门实战与进阶大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA 计算 AI大模型应用
1.背景介绍ElasticSearch是一个基于Lucene的分布式搜索引擎，它提供了一个简单易用的RESTfulAPI，可以快速地进行全文搜索、结构化搜索、分析和聚合等操作。在ElasticSearch中，最基本的概念包括索引、类型、文档和映射。本文将详细介绍这些概念的含义和联系，以及它们在ElasticSearch中的具体实现和应用。2.核心概念与联系2.1索引索引是ElasticSearch
ElasticSearch 2.x入门与快速实践爱美有喜技术漫谈 elasticsearch 分布式搜索引擎索引
IntroductionElasticSearch是一个基于ApacheLucene(TM)的开源搜索引擎。无论在开源还是专有领域，Lucene可以被认为是迄今为止最先进、性能最好的、功能最全的搜索引擎库。但是，Lucene只是一个库。想要使用它，你必须使用Java来作为开发语言并将其直接集成到你的应用中，更糟糕的是，Lucene非常复杂，你需要深入了解检索的相关知识来理解它是如何工作的。Elas
ElasticSearch es 插件开发 2501_90252573 elasticsearch 大数据搜索引擎
PythonLanguageSecurityPlugins安全插件扩展es的安全策略，比如控制api的访问权限等优秀插件代表：X-PackSnapshot/RestoreRepositoryPlugins快照/还原存储库插件扩展es的快照和恢复功能StorePlugins存储插件扩展es的存储方式，es默认使用的是Lucene存储数据的优秀插件代表：StoreSMBWindowsSMB2.插件开发
Elasticsearch 快速入门指南 Luck_ff0810 开发工具 Java elasticsearch elasticsearch 大数据搜索引擎
1.Elasticsearch简介Elasticsearch是一个基于Lucene的开源分布式搜索和分析引擎，由Elastic公司开发。它具有以下特点：分布式：可以轻松扩展到数百台服务器，处理PB级数据实时性：数据一旦被索引，立即可被搜索全文检索：强大的全文搜索能力RESTfulAPI：提供简单易用的JSON风格API多功能：不仅是搜索引擎，还是强大的分析引擎2.核心概念在深入Elasticsea
Elasticsearch 最全调优，最佳实践（二）蒋厚施 elasticsearch 大数据搜索引擎
接着上一篇Elasticsearch最全调优，最佳实践（一）15、在Elasticsearch中，是怎么根据一个词找到对应的倒排索引的？Lucene的索引过程，就是按照全文检索的基本过程，将倒排表写成此文件格式的过程。Lucene的搜索过程，就是按照此文件格式将索引进去的信息读出来，然后计算每篇文档打分(score)的过程。16、Elasticsearch在部署时，对Linux的设置有哪些优化方法
elasticsearch-7.3.1集群搭建 jiedaodezhuti elasticsearch elasticsearch
1、es介绍ElasticSearch是一个基于Lucene的搜索服务器。提供了分布式多用户的全文搜索引擎，用Java语言开发的，Apache许可条款下的开放源码发布，是一种流行的企业级搜索引擎。包含如下特性：分布式高可用搜索引擎：每个索引都可以配置分片的数量。每个分片都有一个或多个副本且分片都支持读写多租户：支持多个索引以及索引级配置，如碎片数、索引存储等。提供各种API：包括HTTPRestf
Elasticsearch相关面试题真实的菜 es elasticsearch
概念理解类1.请简要阐述Elasticsearch为何被定义为基于Lucene的Restful分布式实时全文搜索引擎？1.基于Lucene底层引擎：ES的核心搜索能力依赖于ApacheLucene库。Lucene是一个高性能、功能强大的全文检索工具包，提供了倒排索引、分词、评分机制等核心搜索功能。扩展封装：ES在Lucene基础上进行了分布式和高可用性封装，简化了Lucene的复杂API，使其更易
16款开源的全文搜索引擎 (1) 码农x马马开源搜索引擎 web安全安全 ddos 游戏网络
全文搜索引擎就是通过从互联网上提取的各个网站的信息（以网页文字为主）而建立的数据库中，检索与用户查询条件匹配的相关记录，然后按一定的排列顺序将结果返回给用户。1、ApacheLuceneJava全文搜索框架许可证：Apache-2.0开发语言：Java官网：https://lucene.apache.org/ApacheLucene是完全用Java编写的高性能、功能齐全的全文检索引擎架构，提供了完
Lucene多种数据类型使用说明学会了没 lucene mybatis java
Lucene作为一款高性能的全文检索引擎库，其核心功能围绕索引和搜索文本数据，但它也支持多种数据类型以满足复杂的应用场景。以下是Lucene支持的主要数据类型及其用途的详细说明：1.文本类型（Text）用途：全文搜索、分词处理。特点：分词（Tokenization）：文本字段会被分词器（如StandardAnalyzer）拆分为词项（Term），便于模糊匹配、短语查询等。存储形式：通常使用Text
基于Docker的Elasticsearch ARM64架构镜像构建实践小盒子_spring 字节与烟火 docker elasticsearch 架构
一、前言Elasticsearch(以下简称为ES)是一个分布式的免费开源搜索和分析引擎，适用于包括文本、数字、地理空间、结构化和非结构化数据等在内的所有类型的数据。Elasticsearch在ApacheLucene的基础上开发而成，由ElasticsearchN.V.（即现在的Elastic）于2010年首次发布。Elasticsearch以其简单的REST风格API、分布式特性、速度和可扩展
Elasticsearch、Solr、Lucene 深度对比：架构解析、性能实战与选型指南 danny-IT技术博客 lucene elasticsearch solr java 后端 spring boot
文章目录Elasticsearch、Solr、Lucene深度对比：架构解析、性能实战与选型指南一、内核级技术对比：从架构到原理1.1核心架构差异图解（1）Lucene单机索引流程（2）Solr集群架构（3）Elasticsearch分布式架构1.2索引机制深度解析（1）Lucene段合并策略（2）Elasticsearch实时写入流程二、性能压测：百万级数据实战2.1测试环境配置2.2索引性能对
二分查找排序算法周凡杨 java 二分查找排序算法折半
一：概念二分查找又称折半查找（折半搜索/ 二分搜索），优点是比较次数少，查找速度快，平均性能好；其缺点是要求待查表为有序表，且插入删除困难。因此，折半查找方法适用于不经常变动而查找频繁的有序列表。首先，假设表中元素是按升序排列，将表中间位置记录的关键字与查找关键字比较，如果两者相等，则查找成功；否则利用中间位置记录将表分成前、后两个子表，如果中间位置记录的关键字大于查找关键字，则进一步
java中的BigDecimal bijian1013 java BigDecimal
在项目开发过程中出现精度丢失问题，查资料用BigDecimal解决，并发现如下这篇BigDecimal的解决问题的思路和方法很值得学习，特转载。原文地址：http://blog.csdn.net/ugg/article/de
Shell echo命令详解 daizj echo shell
Shell echo命令 Shell 的 echo 指令与 PHP 的 echo 指令类似，都是用于字符串的输出。命令格式： echo string 您可以使用echo实现更复杂的输出格式控制。 1.显示普通字符串: echo "It is a test" 这里的双引号完全可以省略，以下命令与上面实例效果一致： echo Itis a test 2.显示转义
Oracle DBA 简单操作周凡杨 oracle dba sql
--执行次数多的SQL select sql_text,executions from ( select sql_text,executions from v$sqlarea order by executions desc ) where rownum<81; &nb
画图重绘朱辉辉33 游戏
我第一次接触重绘是编写五子棋小游戏的时候，因为游戏里的棋盘是用线绘制的，而这些东西并不在系统自带的重绘里，所以在移动窗体时，棋盘并不会重绘出来。所以我们要重写系统的重绘方法。在重写系统重绘方法时，我们要注意一定要调用父类的重绘方法，即加上super.paint(g)，因为如果不调用父类的重绘方式，重写后会把父类的重绘覆盖掉，而父类的重绘方法是绘制画布，这样就导致我们
线程之初体验西蜀石兰线程
一直觉得多线程是学Java的一个分水岭，懂多线程才算入门。之前看《编程思想》的多线程章节，看的云里雾里，知道线程类有哪几个方法，却依旧不知道线程到底是什么？书上都写线程是进程的模块，共享线程的资源，可是这跟多线程编程有毛线的关系，呜呜。。。线程其实也是用户自定义的任务，不要过多的强调线程的属性，而忽略了线程最基本的属性。你可以在线程类的run()方法中定义自己的任务，就跟正常的Ja
linux集群互相免登陆配置林鹤霄 linux
配置ssh免登陆 1、生成秘钥和公钥 ssh-keygen -t rsa 2、提示让你输入，什么都不输，三次回车之后会在~下面的.ssh文件夹中多出两个文件id_rsa 和 id_rsa.pub 其中id_rsa为秘钥，id_rsa.pub为公钥，使用公钥加密的数据只有私钥才能对这些数据解密 c
mysql : Lock wait timeout exceeded; try restarting transaction aigo mysql
原文：http://www.cnblogs.com/freeliver54/archive/2010/09/30/1839042.html 原因是你使用的InnoDB 表类型的时候, 默认参数:innodb_lock_wait_timeout设置锁等待的时间是50s, 因为有的锁等待超过了这个时间,所以抱错. 你可以把这个时间加长,或者优化存储
Socket编程基本的聊天实现。 alleni123 socket
public class Server { //用来存储所有连接上来的客户 private List<ServerThread> clients; public static void main(String[] args) { Server s = new Server(); s.startServer(9988); } publi
多线程监听器事件模式(一个简单的例子) 百合不是茶线程监听模式
多线程的事件监听器模式监听器时间模式经常与多线程使用,在多线程中如何知道我的线程正在执行那什么内容,可以通过时间监听器模式得到创建多线程的事件监听器模式思路: 1, 创建线程并启动,在创建线程的位置设置一个标记 2,创建队
spring InitializingBean接口 bijian1013 java spring
spring的事务的TransactionTemplate，其源码如下： public class TransactionTemplate extends DefaultTransactionDefinition implements TransactionOperations, InitializingBean{ ... } TransactionTemplate继承了DefaultT
Oracle中询表的权限被授予给了哪些用户 bijian1013 oracle 数据库权限
Oracle查询表将权限赋给了哪些用户的SQL，以备查用。 select t.table_name as "表名", t.grantee as "被授权的属组", t.owner as "对象所在的属组"
【Struts2五】Struts2 参数传值 bit1129 struts2
Struts2中参数传值的3种情况 1.请求参数绑定到Action的实例字段上 2.Action将值传递到转发的视图上 3.Action将值传递到重定向的视图上一、请求参数绑定到Action的实例字段上以及Action将值传递到转发的视图上 Struts可以自动将请求URL中的请求参数或者表单提交的参数绑定到Action定义的实例字段上，绑定的规则使用ognl表达式语言
【Kafka十四】关于auto.offset.reset[Q/A] bit1129 kafka
I got serveral questions about auto.offset.reset. This configuration parameter governs how consumer read the message from Kafka when there is no initial offset in ZooKeeper or
nginx gzip压缩配置 ronin47 nginx gzip 压缩范例
nginx gzip压缩配置更多 0 nginx gzip 配置随着nginx的发展，越来越多的网站使用nginx，因此nginx的优化变得越来越重要，今天我们来看看nginx的gzip压缩到底是怎么压缩的呢？ gzip(GNU-ZIP)是一种压缩技术。经过gzip压缩后页面大小可以变为原来的30%甚至更小，这样，用
java-13.输入一个单向链表，输出该链表中倒数第 k 个节点 bylijinnan java
two cursors. Make the first cursor go K steps first. /* * 第 13 题：题目：输入一个单向链表，输出该链表中倒数第 k 个节点 */ public void displayKthItemsBackWard(ListNode head,int k){ ListNode p1=head,p2=head;
Spring源码学习-JdbcTemplate queryForObject bylijinnan java spring
JdbcTemplate中有两个可能会混淆的queryForObject方法： 1. Object queryForObject(String sql, Object[] args, Class requiredType) 2. Object queryForObject(String sql, Object[] args, RowMapper rowMapper) 第1个方法是只查
[冰川时代]在冰川时代,我们需要什么样的技术? comsci 技术
看美国那边的气候情况....我有个感觉...是不是要进入小冰期了? 那么在小冰期里面...我们的户外活动肯定会出现很多问题...在室内呆着的情况会非常多...怎么在室内呆着而不发闷...怎么用最低的电力保证室内的温度.....这都需要技术手段... &nb
js 获取浏览器型号 cuityang js 浏览器
根据浏览器获取iphone和apk的下载地址 <!DOCTYPE html> <html> <head> <meta charset="utf-8" content="text/html"/> <meta name=
C# socks5详解转 dalan_123 socket C#
http://www.cnblogs.com/zhujiechang/archive/2008/10/21/1316308.html 这里主要讲的是用.NET实现基于Socket5下面的代理协议进行客户端的通讯，Socket4的实现是类似的，注意的事，这里不是讲用C#实现一个代理服务器，因为实现一个代理服务器需要实现很多协议，头大，而且现在市面上有很多现成的代理服务器用，性能又好，
运维 Centos问题汇总 dcj3sjt126com 云主机
一、sh 脚本不执行的原因 sh脚本不执行的原因只有2个 1.权限不够 2.sh脚本里路径没写完整。二、解决You have new mail in /var/spool/mail/root 修改/usr/share/logwatch/default.conf/logwatch.conf配置文件 MailTo = MailFrom 三、查询连接数
Yii防注入攻击笔记 dcj3sjt126com sql WEB安全 yii
网站表单有注入漏洞须对所有用户输入的内容进行个过滤和检查，可以使用正则表达式或者直接输入字符判断，大部分是只允许输入字母和数字的，其它字符度不允许；对于内容复杂表单的内容，应该对html和script的符号进行转义替换：尤其是<,>,',"",&这几个符号这里有个转义对照表： http://blog.csdn.net/xinzhu1990/articl
MongoDB简介[一] eksliang mongodb MongoDB简介
MongoDB简介转载请出自出处：http://eksliang.iteye.com/blog/2173288 1.1易于使用 MongoDB是一个面向文档的数据库，而不是关系型数据库。与关系型数据库相比，面向文档的数据库不再有行的概念，取而代之的是更为灵活的“文档”模型。另外，不
zookeeper windows 入门安装和测试 greemranqq zookeeper 安装分布式
一、序言以下是我对zookeeper 的一些理解： zookeeper 作为一个服务注册信息存储的管理工具，好吧，这样说得很抽象，我们举个“栗子”。栗子1号：假设我是一家KTV的老板，我同时拥有5家KTV，我肯定得时刻监视
Spring之使用事务缘由(2-注解实现) ihuning spring
Spring事务注解实现 1. 依赖包： 1.1 spring包： spring-beans-4.0.0.RELEASE.jar spring-context-4.0.0.
iOS App Launch Option 啸笑天 option
iOS 程序启动时总会调用application:didFinishLaunchingWithOptions:，其中第二个参数launchOptions为NSDictionary类型的对象，里面存储有此程序启动的原因。 launchOptions中的可能键值见UIApplication Class Reference的Launch Options Keys节。 1、若用户直接
jdk与jre的区别（_） macroli java jvm jdk
简单的说JDK是面向开发人员使用的SDK，它提供了Java的开发环境和运行环境。SDK是Software Development Kit 一般指软件开发包，可以包括函数库、编译程序等。 JDK就是Java Development Kit JRE是Java Runtime Enviroment是指Java的运行环境，是面向Java程序的使用者，而不是开发者。如果安装了JDK，会发同你
Updates were rejected because the tip of your current branch is behind qiaolevip 学习永无止境每天进步一点点众观千象 git
$ git push joe prod-2295-1 To [email protected]:joe.le/dr-frontend.git ! [rejected] prod-2295-1 -> prod-2295-1 (non-fast-forward) error: failed to push some refs to '[email protected]
[一起学Hive]之十四-Hive的元数据表结构详解 superlxw1234 hive hive元数据结构
关键字：Hive元数据、Hive元数据表结构之前在 “[一起学Hive]之一–Hive概述，Hive是什么”中介绍过，Hive自己维护了一套元数据，用户通过HQL查询时候，Hive首先需要结合元数据，将HQL翻译成MapReduce去执行。本文介绍一下Hive元数据中重要的一些表结构及用途，以Hive0.13为例。文章最后面，会以一个示例来全面了解一下，
Spring 3.2.14，4.1.7，4.2.RC2发布 wiselyman Spring 3
Spring 3.2.14、4.1.7及4.2.RC2于6月30日发布。其中Spring 3.2.1是一个维护版本(维护周期到2016-12-31截止)，后续会继续根据需求和bug发布维护版本。此时，Spring官方强烈建议升级Spring框架至4.1.7 或者将要发布的4.2 。其中Spring 4.1.7主要包含这些更新内容。

lucene构建restful风格的简单搜索引擎服务

你可能感兴趣的:(lucene)