cameory

lucene入门到项目开发

加入jar包 lucene-core-2.4.0.jar je-analysis-1.4.0.jar   lucene-highlighter-2.4.1.jar lucene-analyzers-2.4.1.jar

先准备下工具类

Java代码
package com.cs.lucene.utils;

import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.InputStreamReader;

import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.document.NumberTools;
import org.apache.lucene.document.Field.Index;
import org.apache.lucene.document.Field.Store;

public class File2DocumentUtiles {

    /**
     *文件到document的转换
     * @param filepath
     * @return
     */
    public static Document file2Document(String filepath) {

        File file = new File(filepath) ;

        Document doc = new Document();
        doc.add(new Field("name",file.getName(),Store.YES,Index.ANALYZED)) ; //索引并分词
        doc.add(new Field("content",readFileContent(file),Store.YES,Index.ANALYZED)) ; //索引并分词
        doc.add(new Field("size",NumberTools.longToString(file.length()),Store.YES,Index.NOT_ANALYZED)) ; //索引不分词
        doc.add(new Field("path",file.getPath(),Store.YES,Index.NO)) ; //不索引

        return doc;
    }
/**
* 根据文件读取文件内容
* @param file
* @return
*/
    private static String readFileContent(File file) {

        try {
            BufferedReader reader = new BufferedReader(new InputStreamReader(new FileInputStream(file)));
            StringBuffer content = new StringBuffer();

            for(String line=null; (line = reader.readLine())!=null ;){
                content.append(line).append("\n") ;
            }
            return content.toString() ;
        } catch (Exception e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
        return null;
    }

    public static void printDocInfo(Document doc){
        System.out.println("--------------------------");
        System.out.println("name          =" + doc.get("name"));
        System.out.println("content       =" + doc.get("content"));
        System.out.println("size          =" + NumberTools.stringToLong(doc.get("size")));
        System.out.println("path          =" + doc.get("path"));
    }


}

先了解下分词器
Java代码
package com.cs.lucene.analyzer;

import java.io.StringReader;

import jeasy.analysis.MMAnalyzer;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.Token;
import org.apache.lucene.analysis.TokenStream;
import org.junit.Test;

public class AnalyzerTest {
      String text = "资源来自互联网吴朝辉wwwa的a-b放到" ;
      Analyzer analyzer = new MMAnalyzer() ;

      @Test
      public void testAnalyze() throws Exception{
          analyze(analyzer,text);
      }

    private void analyze(Analyzer analyzer2, String text2) throws Exception {
        System.out.println("----------分词器-------------------");
        TokenStream tokenStream = analyzer.tokenStream("content", new StringReader(text)) ;
        for(Token token = new Token();(token = tokenStream.next(token))!=null;){
            System.out.println(token);
        }
    }


}

现在看看FSDirectory和RAMDirectory
Java代码
package com.cs.lucene.directory;

import jeasy.analysis.MMAnalyzer;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.IndexWriter.MaxFieldLength;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.store.RAMDirectory;
import org.junit.Test;

import com.cs.lucene.utils.File2DocumentUtiles;

public class DirectoryTest {
    //创建索引用的文件路径
    String filePath = "E:\\EclipseStudyWorkspace\\LucenceTest\\lucenceDataSource\\资源来自互联网，版权归原创作者或原单位公司所有.txt";
    //存放索引的目录
    String indexPath = "E:\\EclipseStudyWorkspace\\LucenceTest\\lucenceIndex" ;
     //分词器
    Analyzer analyzer = new MMAnalyzer(); //je分词器


    /**
     * 利用FSDirectory 创建索引
     * FSDirectory：在文件系统上存放
     * @throws Exception
     */
    @Test
    public void testFSDirectory() throws Exception{
          //测试文件系统目录
          Directory dir = FSDirectory.getDirectory(indexPath) ;
          Document doc = File2DocumentUtiles.file2Document(filePath);
           //参数true表示是否删除原来的索引后再重新创建，MaxFieldLength.LIMITED：表示只对前10000个字做索引
           IndexWriter indexWriter = new IndexWriter(dir,analyzer,MaxFieldLength.LIMITED) ; //没有参数true，添加索引
           indexWriter.addDocument(doc) ;

           indexWriter.close() ;
    }
    /**
     * 利用RAMDirectory 创建索引
     * RAMDirectory：在内存中存放
     * 优点：读取快
     * 缺点：重新开机，索引没了
     * @throws Exception
     */
    @Test
    public void testRAMDirectory() throws Exception{
          //测试文件系统目录
          Directory dir = new RAMDirectory() ;
          Document doc = File2DocumentUtiles.file2Document(filePath);
           //参数true表示是否删除原来的索引后再重新创建，MaxFieldLength.LIMITED：表示只对前10000个字做索引
           IndexWriter indexWriter = new IndexWriter(dir,analyzer,MaxFieldLength.LIMITED) ; //没有参数true，添加索引
           indexWriter.addDocument(doc) ;

           indexWriter.close() ;
    }
    /**
     * 实际应用中，FSDirectory和RAMDirectory联合起来用
     * 操控内存的索引要快，所以在运行时操作RAMDirectory，
     * 但退出时必须保存到到文件系统上，所以退出时操控FSDirectory
     * @throws Exception
     */
    @Test
    public void testRAMDirectoryAndFSDirectory() throws Exception{
        //整个过程：从文件系统上读取所以到内存，运行时添加索引，此时的全部索引都在内存中，
        //退出时再把全部保存到文件系统上

        Directory fsDir = FSDirectory.getDirectory(indexPath) ;
         //1.启动时读取
         Directory ramDir = new RAMDirectory(fsDir) ;
         //运行时操作ramDir
         IndexWriter ramIndexWriter = new IndexWriter(ramDir,analyzer,MaxFieldLength.LIMITED);
         //添加document
         Document doc = File2DocumentUtiles.file2Document(filePath) ;
         ramIndexWriter.addDocument(doc) ;
         ramIndexWriter.close() ;//一定要关闭再合并，因为有缓存

         //2.退出时保存
         //参数true表示把以前的索引删掉，全部重写（默认为false）
         IndexWriter fsIndexWriter = new IndexWriter(fsDir,analyzer,true,MaxFieldLength.LIMITED);
         //new Directory[]{ramDir}：要合并的目录
         //addIndexesNoOptimize：表示不做优化，做优化检索时相对要慢，但占用的存储空间小
         fsIndexWriter.addIndexesNoOptimize(new Directory[]{ramDir}) ;
         fsIndexWriter.flush() ; //优化之前一定要先刷新缓存
         fsIndexWriter.optimize() ; //优化一定要在关闭之前做，优化可以提高检索的速度
         fsIndexWriter.close() ;
    }
    @Test
    public void testOptimize() throws Exception{

        Directory fsDir = FSDirectory.getDirectory(indexPath) ;
        IndexWriter fsIndexWriter = new IndexWriter(fsDir,analyzer,MaxFieldLength.LIMITED);

        fsIndexWriter.optimize() ;
        fsIndexWriter.close() ;
    }
}

现在来测测索引如何建立以及搜索
Java代码
package com.cs.lucene.lucene;

import java.io.File;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;

import jeasy.analysis.MMAnalyzer;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.IndexWriter.MaxFieldLength;
import org.apache.lucene.queryParser.MultiFieldQueryParser;
import org.apache.lucene.queryParser.QueryParser;
import org.apache.lucene.search.Filter;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.Sort;
import org.apache.lucene.search.SortField;
import org.apache.lucene.search.TopDocs;
import org.apache.lucene.search.highlight.Formatter;
import org.apache.lucene.search.highlight.Fragmenter;
import org.apache.lucene.search.highlight.Highlighter;
import org.apache.lucene.search.highlight.QueryScorer;
import org.apache.lucene.search.highlight.Scorer;
import org.apache.lucene.search.highlight.SimpleFragmenter;
import org.apache.lucene.search.highlight.SimpleHTMLFormatter;

import com.cs.lucene.utils.File2DocumentUtiles;

public class IndexDao {
    // 存放索引的目录
    private String indexPath;
    private Analyzer analyzer = null; // 分词器

    public IndexDao() {
        this.indexPath = "E:\\EclipseStudyWorkspace\\LucenceTest\\lucenceIndex";
        this.analyzer = new MMAnalyzer(); // je分词器对中文支持很好

    }

    public IndexDao(Analyzer analyzer, String indexPath) {
        this.analyzer = analyzer;
        this.indexPath = indexPath;
    }

    /**
     * 接受一个QuerString字符串搜索索引并返回结果
     *
     */
    public QueryResult search(String queryString, int firstResult,
            int maxResults) throws Exception {
        // 1.把要搜索的fields解析为Query
        String[] fields = { "name", "content" };
        // boosts:需要的理由，标题和内容中出现关键字的得分不一样，在标题中出现时的得分理应高些
        Map<String, Float> boosts = new HashMap<String, Float>();
        boosts.put("name", 3.0f);
        boosts.put("content", 1.0f); // 默认值

        QueryParser queryParser = new MultiFieldQueryParser(fields, analyzer,
                boosts);// 多field搜索
        Query query = queryParser.parse(queryString);

        return search(query, firstResult, maxResults);
    }

    /*
     * 接受一个Query对象搜索索引并返回结果
     */
    public QueryResult search(Query query, int firstResult, int maxResults)
            throws Exception {
        IndexSearcher indexSearcher = null;
        // 2.进行查询
        indexSearcher = new IndexSearcher(indexPath);
        Filter filter = null; // 搜索时的过滤器
        /** ********过滤器************* */
        // 过滤器：把结果再过滤一遍，效率会很低
        // filter = new
        // RangeFilter("size",NumberTools.longToString(200),NumberTools.longToString(500),true,true);
        /** ************************* */
        Sort sort = new Sort();
        // 默认是按升序排序，参数true：排序结果改为按降序排列
        sort.setSort(new SortField[] { new SortField("size", true) });
        TopDocs topDocs = indexSearcher.search(query, filter, 10000, sort);

        int recordCount = topDocs.totalHits;

        /** ***********准备高亮器******************** */
        Formatter formatter = new SimpleHTMLFormatter("<font color='red'>",
                "</font>");
        Scorer scorer = new QueryScorer(query);
        Highlighter highlighter = new Highlighter(formatter, scorer);

        // 50表示只显示50个字符这里的50个字符是有关键字的左右部分（称之为最佳部分）这里只是测试用
        Fragmenter fragmenter = new SimpleFragmenter(500);
        highlighter.setTextFragmenter(fragmenter);
        /** ************************************ */

        // 3.取出当前的数据
        List<Document> recordList = new ArrayList<Document>();
        int end = Math.min(firstResult + maxResults, recordCount);
        for (int i = firstResult; i < end; i++) {
            ScoreDoc scoreDoc = topDocs.scoreDocs[i];

            int docSn = scoreDoc.doc;
            Document doc = indexSearcher.doc(docSn);

            // 使用高亮器
            String hc = highlighter.getBestFragment(analyzer, "content", doc
                    .get("content"));

            // 如果content中没有搜索的关键字，则截取content的前200个字符
            if (hc == null) {
                String content = doc.get("content");
                int endIndex = Math.min(200, content.length());
                hc = content.substring(0, endIndex);
            }
            doc.getField("content").setValue(hc);

            recordList.add(doc);
        }
        // 打开结果
        /*
         * for(ScoreDoc scoreDoc :topDocs.scoreDocs){ int docSn = scoreDoc.doc ;
         * //文档内部编号 Document doc = indexSearcher.doc(docSn); //根据编号查找相应的文档
         * File2DocumentUtiles.printDocInfo(doc) ; }
         */
        // 4.返回结果
        return new QueryResult(recordCount, recordList);
    }

    /*
     * 建立索引并保存
     */
    public void save(String filePath) throws Exception {
        Document doc = File2DocumentUtiles.file2Document(filePath);
        // 在添加doc的时候，可以设定文档的分数，不过不建议这样做
        // doc.setBoost(1.0f); //默认值

        // 参数true表示是否删除原来的索引后再重新创建，MaxFieldLength.LIMITED：表示只对前10000个字做索引
        IndexWriter indexWriter = new IndexWriter(indexPath, analyzer, false,
                MaxFieldLength.LIMITED);
        indexWriter.addDocument(doc);
        indexWriter.commit();
        indexWriter.optimize();
        indexWriter.close();

    }

    public void save(File file) throws Exception {
        save(file.getAbsolutePath()) ;
    }

    /*
     * 建立索引并保存可以直接传入的是目录
     */
    public void saveDirectory(File file) throws Exception {
        if (file.isFile()) { // 如果是文件就建索引并保存
            save(file.getAbsolutePath());
            return;
        }
        File[] childs = file.listFiles();
        for (int i = 0; i < childs.length; i++) {
            File f = childs[i];
            if (f.isDirectory()) {// 如果是目录就递归调用
                saveDirectory(f);
            } else {
                save(f.getAbsolutePath());
            }
        }
    }

    /**
     * 测试递归
     */
    public void save(File file, int pointer) throws Exception {
        StringBuffer str = new StringBuffer();
        for (int i = 0; i < pointer; i++) {
            str.append("--");
        }
        if (file.isFile()) { // 如果是文件就建索引并保存
            System.out.println(str + file.getName());
            return;
        }
        File[] childs = file.listFiles();
        for (int i = 0; i < childs.length; i++) {
            File f = childs[i];
            if (f.isDirectory()) {// 如果是目录就递归调用
                System.out.println(str + f.getName());
                save(f, pointer + 1);
            } else {
                System.out.println(str + f.getName());
            }

        }
    }
}

Java代码
package com.cs.lucene.lucene;

import java.util.ArrayList;
import java.util.List;

import org.apache.lucene.document.Document;

public class QueryResult {
    private int recordCount = 0;
    private List<Document> recordResults = new ArrayList<Document>();

    public QueryResult(int recordCount, List<Document> recordResults) {
        this.recordCount = recordCount;
        this.recordResults = recordResults;
    }

    public int getRecordCount() {
        return recordCount;
    }

    public void setRecordCount(int recordCount) {
        this.recordCount = recordCount;
    }

    public List<Document> getRecordResults() {
        return recordResults;
    }

    public void setRecordResults(List<Document> recordResults) {
        this.recordResults = recordResults;
    }

}

测试索引
Java代码
package com.cs.lucene.lucene;

import java.io.File;

import jeasy.analysis.MMAnalyzer;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.document.Document;
import org.junit.Test;

import com.cs.lucene.utils.File2DocumentUtiles;

public class IndexDaoTest {

    private IndexDao indexDao = new IndexDao() ;

    /*
     *搜索索引库，并返回结果
     */
    @Test
    public void testSearch() throws Exception{
        String queryString = "www*" ;
        QueryResult queryResults = indexDao.search(queryString ,0, 10) ;
         //测试结果
         System.out.println("总共有【"+queryResults.getRecordCount()+"】条匹配结果");

          for(int i =0 ; i<queryResults.getRecordResults().size();i++){
              Document doc = queryResults.getRecordResults().get(i) ;
              File2DocumentUtiles.printDocInfo(doc) ;
          }
    }
    /*
     * 测试索引源文件并保存到索引库
     */
    @Test
    public void testSave() throws Exception{
        String filePath2 = "E:\\EclipseStudyWorkspace\\LucenceTest\\lucenceDataSource\\readme2.txt";
        //源文件
        //String filePath = "E:\\EclipseStudyWorkspace\\LucenceTest\\lucenceDataSource\\资源来自互联网，版权归原创作者或原单位公司所有吴朝辉.txt";

          indexDao.save(filePath2);
    }
    /**
     * 用来给目录建索引并保存到索引库
     */
    @Test
    public void testSaveDir() throws Exception{
        String filepath = "E:\\EclipseStudyWorkspace\\LucenceTest\\lucenceDataSource\\www" ;
        File file = new File(filepath) ;
        indexDao.saveDirectory(file);
    }
}

最后我们来看看lucene的查询功能
Java代码
package com.cs.lucene.query;

import java.util.Date;

import org.apache.lucene.document.DateTools;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.NumberTools;
import org.apache.lucene.document.DateTools.Resolution;
import org.apache.lucene.index.Term;
import org.apache.lucene.search.BooleanQuery;
import org.apache.lucene.search.PhraseQuery;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.RangeQuery;
import org.apache.lucene.search.TermQuery;
import org.apache.lucene.search.WildcardQuery;
import org.apache.lucene.search.BooleanClause.Occur;
import org.junit.Test;

import com.cs.lucene.lucene.IndexDao;
import com.cs.lucene.lucene.QueryResult;
import com.cs.lucene.utils.File2DocumentUtiles;

public class QueryTest {

    IndexDao indexDao = new IndexDao() ;

    /*
     * 关键词查询
     */
    @Test
    public void testTermQuery() throws Exception{
        Term term = new Term("name","资源");
        Query query = new TermQuery(term);

        //查询打印结果
         QueryAndPrintResult(query) ;
    }
    /*
     * 范围索引
     * 数字在query中都是字符串，所以要借助NumberTools工具类做转换
     */
    @Test
    public void testRangeQuery() throws Exception{
        Term lowerTerm = new Term("size",NumberTools.longToString(200));
        Term upperTerm = new Term("size",NumberTools.longToString(500));
        //true表示是否包含边界
        Query query = new RangeQuery(lowerTerm,upperTerm,true) ;

        /*
        Term lowerTerm2 = new Term("size","200");
        Term upperTerm2 = new Term("size","500");
        Query query = new RangeQuery(lowerTerm2,upperTerm2,true) ; //true表示是否包含边界
    */
        //查询打印结果
         QueryAndPrintResult(query) ;
    }

    /*
     * 测试NumberTools和DateTools
     */
    @Test
    public void testNumberToolsAndDateTools() throws Exception{

    System.out.println("数字测试：");
         System.out.println(NumberTools.longToString(200));
         System.out.println(NumberTools.longToString(500));
         System.out.println(NumberTools.stringToLong("000000000000dw"));

    System.out.println("日期测试：");
         System.out.println(DateTools.dateToString(new Date(), Resolution.SECOND));
         System.out.println(DateTools.dateToString(new Date(), Resolution.DAY));
         System.out.println(DateTools.stringToDate("20101005080855"));
    }

    /*
     * 通配符查询
     * ？：代表一个字符，*：代表0个或多个字符
     */
    @Test
    public void testWildcardQuery() throws Exception{
        Term term = new Term("name","*me");
        Query query = new WildcardQuery(term) ;

        //查询打印结果
         QueryAndPrintResult(query) ;
    }
    /*
     * 短语查询：查询包含多个短语的query
     */
    @Test
    public void testPhraseQuery() throws Exception{
        PhraseQuery phraseQuery = new PhraseQuery() ;
        phraseQuery.add(new Term("name","资源")) ;
        phraseQuery.add(new Term("name","作者")) ;

        //setSlop：用来设置两个短语之间的最多可以隔多少个字符
        phraseQuery.setSlop(20);

        //查询打印结果
         QueryAndPrintResult(phraseQuery) ;
    }
    /**
     * 布尔查询：非常重要
     * 三种关系：
     * 1.MUST和MUST：取得两个查询子句的交集。
     * 2.MUST和MUST_NOT：包含MUST但并且查询结果中不包含MUST_NOT的检索结果。
     * 3.SHOULT和SHOULT：表示"或"关系，最终检索结果为所有检索子句的并集。
     * 注意：有些组合是没有意义的
     * @throws Exception
     */
    @Test
    public void testBooleanQuery() throws Exception{
        //条件1
        PhraseQuery phraseQuery = new PhraseQuery() ;
        phraseQuery.add(new Term("name","资源")) ;
        phraseQuery.add(new Term("name","作者")) ;
        phraseQuery.setSlop(20);

        //条件2
        Term lowerTerm2 = new Term("size","200");
        Term upperTerm2 = new Term("size","500");
        Query rangeQuery = new RangeQuery(lowerTerm2,upperTerm2,true) ; //true表示是否包含边界

        //合并两个查询
        BooleanQuery booleanQuery = new BooleanQuery() ;
        booleanQuery.add(phraseQuery, Occur.MUST) ;
        booleanQuery.add(rangeQuery,Occur.MUST) ;

        //查询打印结果
        QueryAndPrintResult(booleanQuery) ;
    }



    private void QueryAndPrintResult(Query query) throws Exception{

        System.out.println("相对应的查询字符串："+query);
          QueryResult qr = indexDao.search(query, 0, 100) ;
         System.out.println("总共有【"+qr.getRecordCount()+"】条匹配结果");

        //打印结果
          for(int i =0 ; i<qr.getRecordResults().size();i++){
              Document doc = qr.getRecordResults().get(i) ;
              File2DocumentUtiles.printDocInfo(doc) ;
          }
    }
}

ELK日志分析系统 AWAKE-HU 服务器 elk 日志分布式
什么是ELK:Elasticsearch:基于lucene的开源分布式搜索服务器(类似于solr)特点:分布式,零配置,分片索引,restful风格,多数据源logStash收集日志,过滤分析,并存储Kibana用于展示日志和分析结果ELK原理多个服务器的情况下,各个服务器都会产生不同服务器下不同路径的log文件如果每一台服务器都有一个filebeat把路径下的日志传输给统一的logstash日志
网络爬虫相关软件以及论文检索与推荐网站调研 Q7318 网络爬虫网络爬虫搜索引擎
最近接到一个项目，需要做一个基于网络爬虫技术的论文检索与推荐的网站，所以打算先对市面上已有的基于此技术的软件进行一次统计和分析，以备后面查询使用。一.网络爬虫相关软件1.搜索引擎NutchNutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch的创始人是DougCutting，他同时也是Lucene、Hadoop和Avro开源项
Elasticsearch的经典面试题及详细解答 codeBrute elasticsearch 大数据搜索引擎
以下是一些Elasticsearch的经典面试题及详细解答：一、基础概念与原理什么是Elasticsearch？回答：Elasticsearch是一个基于Lucene的分布式搜索引擎，提供了RESTfulAPI，支持多租户能力。它能够快速、近实时地存储、搜索和分析海量数据，每个字段都被索引并可被搜索。Elasticsearch广泛用于全文搜索、日志分析、实时监控等领域。解释Elasticsearc
ElasticSearch技术解析与实战读书笔记 zhangyankun_csdn 搜索引擎 elasticsearch
第一章Elasticsearch入门1.1Elasticsearch是什么1.2全文搜索Lucene倒排索引1.3基础知识1.3.1Elasticsearch术语及概念索引词term：能够被索引的精确值，索引词可以通过term查询进行准确搜索文本text：一段普通的非结构化文字，通常文本会被分析成一个个的索引词分析analysis：将文本转换为索引词的过程，依赖于分词器集群cluster：一个或多
数据采集与存储——Elasticsearch实战详解 AI天才研究院 Python实战深度学习实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介Elasticsearch是一个基于Lucene构建的开源分布式搜索引擎，主要用于大规模数据的存储、检索、分析等功能。Elasticsearch非常适合处理结构化和非结构化的数据，并且提供完整的RESTfulAPI接口，可以与多种语言的客户端进行交互。本文将从以下几个方面对Elasticsearch进行详细介绍：⒈Elasticsearch的历史及特性介绍；⒉E
ELK介绍小馋喵知识杂货铺性能 elk
ELK是由三个开源项目组成的日志管理解决方案，分别是Elasticsearch、Logstash和Kibana。这三个工具协同工作，提供强大的日志收集、处理、存储和可视化能力。通常，ELK被用于大规模的日志分析和数据监控，帮助开发人员和运维团队快速发现问题、进行故障排查和性能优化。1.Elasticsearch（E）Elasticsearch是一个基于Lucene的开源搜索引擎，提供实时的分布式搜
ELK Stack学习笔记在线打码学习笔记 redis linux centos es elk
一、ELKStack简介1、Elasticsearch一个实时的分布式搜索和分析引擎，它可以用于全文搜索，结构化搜索以及分析。它是一个建立在全文搜索引擎ApacheLucene(信息检索的工具jar包)基础上的搜索引擎，使用Java语言编写2、Logstash一个完全开源的工具，可以对日志进行收集、过滤，并将其存储供以后使用。是开源的服务器端数据处理管道，能够从多个来源收集数据、转换数据。并保存到
【Elasticsearch 实战应用】 wenshao.du elasticsearch
Elasticsearch实战应用在现代企业技术架构中，Elasticsearch因其出色的性能、可扩展性和易用性，成为了处理大规模数据和构建搜索引擎的首选工具。本文将通过一个实际案例，详细讲解如何在SpringBoot项目中集成Elasticsearch，进行数据索引、搜索、聚合分析等操作。1.Elasticsearch简介Elasticsearch是一个基于ApacheLucene构建的开源分
基于docker微服务日志ELK+Kafka搭建我是奶龙！我是奶龙！我是奶龙！ docker 微服务 elk spring cloud spring boot kafka
ELK是Elasticsearch、Logstash、Kibana的简称Elasticsearch是实时全文搜索和分析引擎，提供搜集、分析、存储数据三大功能；是一套开放REST和JAVAAPI等结构提供高效搜索功能，可扩展的分布式系统。它构建于ApacheLucene搜索引擎库之上。Logstash是一个用来搜集、分析、过滤日志的工具。它支持几乎任何类型的日志，包括系统日志、错误日志和自定义应用程
ElasticSearch10-性能优化李宥小哥常用中间件性能优化 jenkins 运维
零、文章目录ElasticSearch10-性能优化1、硬件优化（1）存储配置ElasticSearch是基于Lucene的，Lucene将数据存储在磁盘上，磁盘的IO就是ElasticSearch的瓶颈所在。Elasticsearch默认的数据存储路径是在Elasticsearch安装目录下的data子目录中。不过，这个路径是可以配置的，具体的默认路径可能因操作系统和安装方式的不同而有所差异。对
整合全文检索引擎 Lucene 添加站内搜索子模块七禾页话全文检索 lucene mybatis
整合全文检索引擎Lucene:添加站内搜索子模块1.什么是Lucene?有啥优势？Lucene是一个开源的全文检索引擎库，由Apache基金会维护，官网地址：https://lucene.apache.org/。它提供了丰富的文本处理和搜索功能，允许开发者在应用程序中集成强大的全文检索能力。以下是Lucene的一些主要特点和优势：全文检索：Lucene支持全文检索，可以在大量文本数据中快速而准确地
es查询大文本效率_Elasticsearch 技术分析（七）： Elasticsearch 的性能优化 weixin_39672296 es查询大文本效率
javajava8java开发Elasticsearch技术分析(七)：Elasticsearch的性能优化硬件选择Elasticsearch(后文简称ES)的基础是Lucene，所有的索引和文档数据是存储在本地的磁盘中，具体的路径可在ES的配置文件../config/elasticsearch.yml中配置，如下：#-----------------------------------Paths
Elasticsearch搭建框架以及测试小郭爱编程
elasticsearch学习介绍Elasticsearch简介Elasticsearch是一个建立在全文搜索引擎ApacheLucene™基础上的搜索引擎，可以说Lucene是当今最先进，最高效的全功能开源搜索引擎框架。用通俗的话理解就是：将不同服务器需要的数据，弄成一个文档，放到es中去，当我们去搜索的时候，就是去搜索文档。es是一个非关系型数据库，和redis一样，redis是一个键值对的数
ElasticSearch 谈谈你对段合并的策略思想的认识用心去追梦 elasticsearch 大数据搜索引擎
段合并是Elasticsearch中的一个重要概念，它在数据索引和查询过程中起着关键的作用。Elasticsearch使用Lucene作为其全文搜索库，Lucene中使用的数据结构就是段（Segment）合并。段合并的策略思想主要体现在以下几个方面：提高查询性能：在Elasticsearch中，段合并的过程可以看作是对索引进行优化，通过合并将多个小的段合并成一个大的段，这样可以减少内存的使用，提高
ES架构及原理李澎昆 ES ES
Elasticsearch是一个兼有搜索引擎和NoSQL数据库功能的开源系统，基于Java/Lucene构建，可以用于全文搜索，结构化搜索以及近实时分析。说明：Lucene：只是一个框架，要充分利用它的功能，需要使用JAVA，并且在程序中集成Lucene，学习成本高，Lucene确实非常复杂。Elasticsearch是面向文档型数据库，这意味着它存储的是整个对象或者文档，它不但会存储它们，还会为
Elasticsearch段合并喵喵喵更多 java 运维分布式后端
欢迎访问本人博客查看原文：http://wangnan.techelasticsearch中每个索引都会创建一个到多个分片和零个到多个副本，这些分片或副本实质上都是lucene索引lucene索引是基于多个索引段创建，索引文件中绝大部分数据都是只写一次，读多次，而只有用于保存文档删除信息的文件才会被多次更改在某些时刻，当某种条件满足时，多个索引段会被拷贝合并到一个更大的索引段，而那些旧的索引段会被
Lucece评分公式OKapi BM25原理解析(中) 双人余_先生
背景：延续上篇写了TF/IDF的公式解析，本篇为BM25解析简单介绍。BM25起源于概率相关性模型，而不是矢量空间模型，但是该算法与Lucene的实际评分功能有很多共同点。两者都使用Term词频率，逆文档频率和字段长度归一化，但是每个因素的定义都略有不同。与其详细解释BM25公式，不如将重点放在BM25提供的实际优势上。BM25是一个词袋检索功能，它基于每个文档中出现的查询词对一组文档进行排名，而
分布式搜索引擎Elasticsearch——基础敲代码的旺财架构进阶 elasticsearch java 搜索引擎 ES-head
文章目录一、Lucene与Solr与Elasticsearch二、ES核心术语三、ES核心概念四、倒排索引五、ES的安装（centos7）1、下载地址（这里安装linux版本）2、解压压缩包3、修改配置文件(1)修改核心配置文件(2)修改JVM配置文件4、启动ES(1)添加系统用户并授权(2)ES启动(3)修改配置文件(4)再次启动ES六、安装ES-head插件（可视化管理插件）1、使用谷歌市场安
docker部署Elasticsearch和Kibana youm. docker docker elasticsearch 容器
1.Elasticsearch和Kibana介绍1.1什么是Elasticsearch？Elasticsearch是一个开源的分布式搜索和分析引擎，用于处理大规模数据的实时搜索、分析和存储。它构建在ApacheLucene搜索引擎库的基础上，提供了一个RESTfulAPI和易于使用的工具，使得在大数据量情况下进行搜索和分析变得高效和简单。1.2为什么使用Elasticsearch？Elastics
Elasticsearch中文本字段与关键字字段的聚合和排序问题好奇的菜鸟 Elasticsearch elasticsearch 大数据搜索引擎
引言Elasticsearch是一个强大的搜索引擎，它基于Lucene构建，提供了全文搜索、分析、聚合等功能。然而，在使用Elasticsearch时，我们可能会遇到一些特定的问题，比如在文本字段上进行聚合和排序操作时出现的错误。本文将详细解释这个问题，并提供解决方案。问题概述在使用Elasticsearch进行数据分析时，我们可能会尝试对文本字段进行聚合或排序。但是，Elasticsearch默
单机安装 ELK 日志分析系统 TheFlsah Linux
一、ELK介绍ELKStack是软件集合Elasticsearch、Logstash、Kibana的简称，它们都是开源软件。新增了一个FileBeat，它是一个轻量级的日志收集处理工具(Agent)，Filebeat占用资源少，适合于在各个服务器上搜集日志后传输给Logstash，官方也推荐此工具。Elasticsearch是一个基于Lucene的、支持全文索引的分布式存储和索引引擎，主要负责将日
Elastic Search常用命令胖毁青春，瘦解百病 ES es
1测试环境信息ElasticSearch服务器：192.168.0.100用户：docker启停：dockerstart/stop/restartelasticsearchKibana控制台：http://192.168.0.100:5601/app/kibana#/dev_tools/console2基本概念Elasticsearch也是基于Lucene的全文检索库，本质也是存储数据，很多概念与
ELK离线安装和配置流程 GB9125 运维开发 elasticsearch elk linux 运维开发
ELK离线安装和配置流程一、介绍ELK是一个开源的数据分析和可视化工具，由三个开源项目组成：Elasticsearch、Logstash和Kibana。Elasticsearch是一个基于Lucene库的分布式搜索和分析引擎；Logstash是一个用于收集、处理和转换数据的数据管道，它可以从各种来源读取数据，包括日志文件、系统事件、网络流量等；Kibana则是一个数据可视化平台，可以对从Elast
Elasticsearch详解es 思静语 elasticsearch elasticsearch 大数据搜索引擎
文章目录概述es架构为什么要使用ElasticSearchElasticSearch的优势使用场景es为什么这么快倒排索引如何保证ES和数据库的数据一致性监听binlog同步双写elasticsearch是如何实现master选举的Elasticsearch与Solr的区别概述ES全称是ElasticSearch，它是一个建立在全文搜索引擎库Lucene基础上的开源搜索和分析引擎。ES它本身具有分
Java——ikanalyzer分词·只用自定义词库 weixin_30902251 java 数据库 c/c++
需要包：IKAnalyzer2012_FF_hf1.jarlucene-core-5.5.4.jar需要文件：IKAnalyzer.cfg.xmlext.dicstopword.dic整理好的下载地址：http://download.csdn.net/detail/talkwah/9770635importjava.io.IOException;importjava.io.StringReader
Lucene实现自定义中文同义词分词器 WangJonney Lucene Lucene
----------------------------------------------------------lucene的分词_中文分词介绍----------------------------------------------------------Paoding:庖丁解牛分词器。已经没有更新了mmseg:使用搜狗的词库1.导入包（有两个包：1.带dic的，2.不带dic的）如果使用
选型搜索引擎之参考Elasticsearch 剑飞的编程思维 elasticsearch
简介Elasticsearch（简称ES）是一个基于ApacheLucene的开源、分布式、RESTful接口的全文搜索引擎。其设计用于云计算环境，能够达到实时搜索、稳定、可靠、快速、安装使用方便的效果。Elasticsearch是用Java开发的，并作为Apache许可条款下的开放源码发布，是当前流行的企业级搜索引擎。Elasticsearch的特点包括：分布式存储和搜索：Elasticsear
从入门到精通：Elasticsearch开发实践教程青年老年程序员 Elasticsearch学习 elasticsearch jenkins 大数据
Elasticsearch是一款开源的搜索引擎，它使用Lucene搜索库作为其核心搜索引擎。Elasticsearch使用RESTfulAPI进行交互，并支持多种数据类型的搜索和聚合。本教程将介绍Elasticsearch的基本原理，如何开发，以及如何在SpringBoot中使用Elasticsearch。Elasticsearch的原理Elasticsearch是一个分布式的文档存储和搜索引擎。
深入理解Lucene：开源全文搜索引擎的核心技术解析一休哥助手分布式系统算法搜索引擎 lucene 开源
1.介绍Lucene是什么？Lucene是一个开源的全文搜索引擎库，提供了强大的文本搜索和检索功能。它由Apache软件基金会维护和开发，采用Java语言编写，因其高性能、可扩展性和灵活性而备受欢迎。Lucene的作用和应用场景Lucene主要用于创建全文索引和执行文本搜索。其主要作用包括但不限于：在大型文本数据集中快速进行文本搜索和检索。实现网站、应用程序或系统中的搜索功能。构建文档管理系统、知
Elasticsearch基础知识与架构概述禅与计算机程序设计艺术 elasticsearch 架构 jenkins 大数据搜索引擎
1.背景介绍Elasticsearch是一个基于分布式搜索和分析引擎，它可以处理大量数据并提供实时搜索功能。在本文中，我们将深入了解Elasticsearch的基础知识和架构概述，并探讨其核心概念、算法原理、最佳实践、实际应用场景和未来发展趋势。1.背景介绍Elasticsearch是一款开源的搜索引擎，由ElasticCorporation开发。它基于Lucene库，具有高性能、可扩展性和实时性
java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &

lucene入门到项目开发

你可能感兴趣的:(Lucene)