yajie

Lucene3.0之结果排序

Lucene3.0之结果排序（原理篇）

传统上，人们将信息检索系统返回结果的排序称为"相关排序" （ relevance ranking），隐含其中各条目的顺序反映结果和查询的相关程度。

1、基本排序原理

① 向量空间模型

Gerald Salton 等在 30 多年前提出的"向量空间模型" （ Vector Space Model， VSM） [Salton and Lesk,1968, Salton,1971]。该模型的基础是如下假设：文档 d和查询 q的相关性可以由它们包含的共有词汇情况来刻画。

经典的 TF*IDF词项权重的计算公式：

给定某种权重的定量设计，求文档和查询的相关性就变成了求 d 和 q 向量的

某种距离，最常用的是余弦（ cos）距离

② 链接分析 PageRank原理

链接分析技术主要基于两个假设： 1）一个网页被多次引用，则它可能是很重要的，如果被重要的网页引用，说明自身也是重要的，网页的重要性在网页之间可以传递。

2）随机冲浪模型：认为假定用户一开始随机地访问网页集合中的一个网页，然和跟随网页的链接向前浏览网页，不会退浏览，那么浏览下一个网页的概率是被浏览网页的量化的重要程度值。

按照以上的用户行为模型，每个网页可能被访问到的次数越多就越重要，这样的"可能被访问的次数"也就定义为网页的权值， PageRank值。如何计算这个权值呢？ PageRank采用以下公式进行计算：

其中wj代表第 j个网页的权值；lij只取 0、 1值，代表从网页 i到网页 j是否存在链接；ni代表网页 i有多少个连向其它网页的链接； d代表"随机冲浪"中沿着链接访问网页的平均次数。选择合适的初始数值，递归的使用上述公式，即可得到理想的网页权值。

2、 Lucene排序计算公式

Lucene的排序公式如下：

1)，协调因子，表示文档（ d）中 Term(t)出现的百分比，也就是计算查询条件（ q）中不同 Term(t)，以及在文档中出现的数量之和，两者的数量之比。通常在文档中出现查询 Term种类越多，分值越高。

2)，调节因子，不影响索引排序情况，只在检索时使用，主要是用来让排序结果在不同的查询条件之间可以比较。这个条件是在搜索时候计算。数值是根据每一个查询项权重的平方和计算得到。计算公式如下：

3) ，文档频率，表示查询词中，每个 Term在对应的结果文档中 (d)中出现的次数。查询词出现的次数越多，表示出现频率越高，文档的检索得分就越高。为了避免获得更大的相关性函数，实际中，使用次数的平方跟作为文档频率 tf的值，避免数值过度放大。

4) ，逆文档频率，检索匹配文档数量的反向函数。按照信息理论，文档出现的次数越少，每一篇文档的信息量就会越大。所以匹配的文档数越少，得分就越高。而索引库中文档总数越多，找到一篇目标文档难度越大，相应的信息量也会比较大。

5) ，长度因子，每个索引词汇在域中的总体长度决定的，这个参数在索引建立时确定。数值根据文档中实际具有的索引项个数确定。检索词长度在文档总长度中占的比例越大，长度因子的数值也越大。

Lucene3.0之结果排序（操作篇）

1、 Lucene相关排序流程

2、 Lucene相关类

① Query类：一个抽象类， Lucene检索结果最终评分的总控制中心。其它评分有关的类和对象都是由 Query类来管理和生产。

② Weight类接口：定义 Query权重计算的一个实现接口，可以被重用。 Weight类可以用来生成 Scorer类，也可以解析评分的详细信息，另外还定义了获取 Query权值的方法。

③ Scorer类： Lucene评分机制的核心类。类的定义是抽象类，提供的一些抽象基本的计分功能方法提供所有的评分类实现，同时还定义了评分的详细解析方法， Scorer类内部有一个 Similarity对象，用来指明计算公式。

④ Scorer类： Lucene相似度计算的核心抽象类。 Similarity类主要处理评分计算，系统缺省使用类 DefaultSimilarity类对象

3、排序控制

使用 Sort对象定制排序，通过改变文档 Boost值来改变排序结果以及使用自定义的 Similarity方法更改排序

4、文档 Boost加权排序

① Boost是指索引建立过程中，给整篇文档或者文档的某一特定域设定的权值因子，在检索时，优先返回分数高的。

Document和 Field两重 Boosting参数。通过 Document对象的 setBoost()方法和 Field对象的 setBoost()方法。不同在于前者对文档中每一个域都修改了参数，而后者只针对指定域进行修改。

文档加权 =Document-boosting*Field-boosting，默认情况下为 1，一般不做修改。

② Sort对象检索排序

Sort使用时通过实例化对象作为参数，通过 Searcher类的 search接口来实现。 Sort支持的排序功能以文档当中的域为单位，通过这种方法，可以实现一个或者多个不同域的多形式的值排序。

实际使用排序对象 Sort进行排序。主要有两种模式，一种是以字符串表示文档域的名称作为参数指定域排序，一种是直接以排序域的包装域的包装类作为参数进行排序。

Sort对象使用比较简单，只需要在对文档索引进行检索时，在检索器的 Search方法中带 Sort对象作为参数即可。

1) Sort对象相关性排序

按照相关性排序时最基本的结果排序方法，使用 Sort对象无参数构造函数完成的排序效果相当于 Lucene默认的按相关性降序排序。

2) Sort对象文档编号排序

某些应用场合需要对所有符合匹配度的结果，按照文档内部编号排序输出。使用 Sort对象的静态实例 Sort.INDEXORDER来实现

3) Sort对象独立域排序

在检索过程中，把检索结果按照某一个特定域排序，非常重要。在使用搜索引擎过程中，有时会选择使用时间排序，而在搜索引擎库中，检索词完全是另外一个域的内容，与时间没有任何关系。这种应用中，检索关键词的匹配仍然是首要因素，匹配太低或者不匹配的文档直接不必处理，而匹配的文档则需进一步排序输出。

指定的排序域并没有进行特别限制，可以是检索词的关联域，也可以是文档中的任意其它域。

4) Sort对象联合域排序

多个文档域联合排序时，需要注意文档域的添加次序。排序的结果先按照第一个域排序，然后第二个域作为次要关键字排序。开发时，需要根据自己的需要选择合适的次序。

5) Sort对象逆向排序

Sort(field,true)或者 Sort(field,false)实现升降序排序。

Lucene3.0之结果排序（示例篇）

这个例子是根据《开发自己的搜索引擎： Lucene2.0+Heritrix 》中的例子改的，由于原书中是使用 Lucene2.0 ，所以代码有部分改动。

package sortApp;

import java.io.File;

import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.Term;
import org.apache.lucene.index.IndexWriter.MaxFieldLength;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.Sort;
import org.apache.lucene.search.TermQuery;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.util.Version;

public class SortTest {
public static void makeItem(IndexWriter writer, String bookNumber,
    String bookName, String publishDate) throws Exception {
   writer.setUseCompoundFile(false);
   Document doc = new Document();
   Field f1 = new Field("bookNumber", bookNumber, Field.Store.YES,
     Field.Index.NOT_ANALYZED);
   Field f2 = new Field("bookName", bookName, Field.Store.YES,
     Field.Index.ANALYZED);
   Field f3 = new Field("publishDate", publishDate, Field.Store.YES,
     Field.Index.NOT_ANALYZED);
   doc.add(f1);
   doc.add(f2);
   doc.add(f3);
   writer.addDocument(doc);
}

public static void main(String[] args) {
String Index_Store_Path = "D:/index/1";
File file = new File(Index_Store_Path);

   try {
    Directory Index = FSDirectory.open(file);
    IndexWriter writer = new IndexWriter(Index, new StandardAnalyzer(Version.LUCENE_CURRENT), true,
      MaxFieldLength.LIMITED);
    writer.setUseCompoundFile(false);

    Document doc1 = new Document();
    Field f11 = new Field("bookNumber", "0000001", Field.Store.YES, Field.Index.NOT_ANALYZED);
    Field f12 = new Field("bookName", " 钢铁是怎样炼成的 ", Field.Store.YES, Field.Index.ANALYZED);
    Field f13 = new Field("publishDate", "1970-01-01", Field.Store.YES, Field.Index.NOT_ANALYZED);
    doc1.add(f11);
    doc1.add(f12);
    doc1.add(f13);

    Document doc2 = new Document();
    Field f21 = new Field("bookNumber", "0000002", Field.Store.YES, Field.Index.NOT_ANALYZED);
    Field f22 = new Field("bookName", " 钢铁战士 ", Field.Store.YES, Field.Index.ANALYZED);
    Field f23 = new Field("publishDate", "1970-01-01", Field.Store.YES, Field.Index.NOT_ANALYZED);
    doc2.add(f21);
    doc2.add(f22);
    doc2.add(f23);

    Document doc3 = new Document();
    Field f31 = new Field("bookNumber", "0000003", Field.Store.YES, Field.Index.NOT_ANALYZED);
    Field f32 = new Field("bookName", " 篱笆女人和狗 ", Field.Store.YES, Field.Index.ANALYZED);
    Field f33 = new Field("publishDate", "1970-01-01", Field.Store.YES, Field.Index.NOT_ANALYZED);
    doc3.add(f31);
    doc3.add(f32);
    doc3.add(f33);

    Document doc4 = new Document();
    Field f41 = new Field("bookNumber", "0000004", Field.Store.YES, Field.Index.NOT_ANALYZED);
    Field f42 = new Field("bookName", " 女人是水做的 ", Field.Store.YES, Field.Index.ANALYZED);
    Field f43 = new Field("publishDate", "1970-01-01", Field.Store.YES, Field.Index.NOT_ANALYZED);
    doc4.add(f41);
    doc4.add(f42);
    doc4.add(f43);

    Document doc5 = new Document();
    Field f51 = new Field("bookNumber", "0000005", Field.Store.YES, Field.Index.NOT_ANALYZED);
    Field f52 = new Field("bookName", " 英雄儿女 ", Field.Store.YES, Field.Index.ANALYZED);
    Field f53 = new Field("publishDate", "1970-01-01", Field.Store.YES, Field.Index.NOT_ANALYZED);
    doc5.add(f51);
    doc5.add(f52);
    doc5.add(f53);

    Document doc6 = new Document();
    Field f61 = new Field("bookNumber", "0000006", Field.Store.YES, Field.Index.NOT_ANALYZED);
    Field f62 = new Field("bookName", " 白毛女 ", Field.Store.YES, Field.Index.ANALYZED);
    Field f63 = new Field("publishDate", "1970-01-01", Field.Store.YES, Field.Index.NOT_ANALYZED);
    doc6.add(f61);
    doc6.add(f62);
    doc6.add(f63);

    Document doc7 = new Document();
    Field f71 = new Field("bookNumber", "0000007", Field.Store.YES, Field.Index.NOT_ANALYZED);
    Field f72 = new Field("bookName", " 我的兄弟和女儿 ", Field.Store.YES, Field.Index.ANALYZED);
    Field f73 = new Field("publishDate", "1970-01-01", Field.Store.YES, Field.Index.NOT_ANALYZED);
    doc7.add(f71);
    doc7.add(f72);
    doc7.add(f73);

    writer.addDocument(doc1);
    writer.addDocument(doc2);
    writer.addDocument(doc3);
    writer.addDocument(doc4);
    writer.addDocument(doc5);
    writer.addDocument(doc6);
    writer.addDocument(doc7);
    writer.optimize();
    writer.close();
    IndexSearcher searcher = new IndexSearcher(Index);
    TermQuery q = new TermQuery(new Term("bookName", " 女 "));
    ScoreDoc[] hits = searcher.search(q, null, 1000, Sort.RELEVANCE).scoreDocs;
    for (int i = 0; i < hits.length; i++) {
     Document hitDoc = searcher.doc(hits[i].doc);
     System.out.print(" 书名： ");
     System.out.println(hitDoc.get("bookName"));
     System.out.print(" 得分： ");
     System.out.println(hits[i].score);
     System.out.print(" 内部 ID ： ");
     System.out.println(hits[i].doc);
     System.out.print(" 书号： ");
     System.out.println(hitDoc.get("bookNumber"));
     System.out.print(" 发行日期： ");
     System.out.println(hitDoc.get("publishDate"));
    }
   } catch (Exception e) {
    e.printStackTrace();
   }
}
}
运行结果：

Sort 属性设为 RELEVANCE ：

Sort 属性设为 INDEXORDE ：

去除 Sort 参数后：

Elasticsearch集群架构：构建高效、可扩展的搜索平台 detayun Elasticsearch elasticsearch 架构大数据
在当今大数据和云计算的时代，高效、实时的数据检索能力成为了企业核心竞争力的重要组成部分。Elasticsearch，作为一款基于Lucene构建的开源搜索引擎，以其强大的全文搜索能力、灵活的扩展性和丰富的功能特性，成为了众多企业首选的数据搜索和分析平台。本文将深入探讨Elasticsearch集群的架构设计，帮助您更好地理解和构建高效、可扩展的搜索解决方案。一、Elasticsearch简介Ela
面试之Solr&Elasticsearch 字节全栈_vBr 面试 solr elasticsearch
优点：1.Elasticsearch是分布式的。不需要其他组件，分发是实时的，被叫做”Pushreplication”。2.Elasticsearch完全支持ApacheLucene的接近实时的搜索。3.处理多租户（multitenancy）不需要特殊配置，而Solr则需要更多的高级设置。4.Elasticsearch采用Gateway的概念，使得完备份更加简单。5.各节点组成对等的网络结构，某些
elasticsearch文档 Compound queries songtaiwu elasticsearch 大数据搜索引擎
Booleanquery|ElasticsearchGuide[8.15]|ElasticBooleanquery布尔查询是用于匹配出和组合中的其他查询匹配的文档。bool查询映射到LuceneBooleanQuery。它由一个或更多的布尔子句组成，每个子句是一个类型化的事件。事件如下：must子句（查询）必须出现在匹配的文档中，并将有助于得分。filter子句（查询）必须出现在匹配的文档中。但和
Hibenate错误汇总：java.lang.NoClassDefFoundError: 时间能证明一切 hibernate 异常
有部分出自：http://www.reader8.cn/jiaocheng/20130911/2209649.html和http://blog.csdn.net/zmzsoftware/article/details/6835604。一、java.lang.NoClassDefFoundError:org.apache.lucene.index.CorruptIndexException因为缺少l
lucene 查询是如何把倒排索引、BKD树、fdt 的数据合并起来的学会了没 lucene 全文检索搜索引擎
在ApacheLucene中，查询过程涉及多个步骤和数据结构，包括倒排索引、BKD树（用于数值范围查询和地理空间查询）以及.fdt文件（存储文档的字段值）。下面是一个详细的解释，描述了Lucene如何在查询过程中将这些数据结构的结果合并起来。1.倒排索引倒排索引是Lucene的核心数据结构，用于快速查找包含特定词项（term）的文档。它的结构类似于一个词典，每个词项映射到一个包含该词项的文档列表。
Lucene常用的字段类型&lucene检索打分原理学会了没全文检索 lucene 打分字段
在ApacheLucene中，Field类是文档中存储数据的基础。不同类型的Field用于存储不同类型的数据（如文本、数字、二进制数据等）。以下是一些常用的Field类型及其底层存储结构：TextField：用途：用于存储文本数据，并对其进行分词和索引。底层存储结构：文本数据会被分词器（Analyzer）处理，将文本分割成词项（terms）。每个词项会被存储在倒排索引（invertedindex）
IndexSearcher nickname_oo 搜索 lucene IndexSearcher
一、关于lucene的IndexSearcher单市里，对于索引的实时搜索Lucene版本:3.0一般情况下,lucene的IndexSearcher都要写成单实例,因为每次创建IndexSearcher对象的时候,它都需要把索引文件加载进来,如果访问量比较大,而索引也比较大,那就很容易造成内存溢出!但是如果仅仅按照一般的单实例来写的话,如果更新了索引,那么在不重启服务的情况下,Searcher对
检索工具—IndexSearcher 类千里兵峰 lucene2.4 lucene Apache 应用服务器浏览器工作
IndexSearcher类继承自Searcher基类，是Lucene中最重要的一个检索用类。IndexSearcher类时最重要的就是要告诉它索引存放的路径，只有这样，检索工具才可以定位索引，从而完成查找的任务。以下是IndexSearcher的所有构造函数：publicIndexSearcher(Stringpath)throwsIOException{this(IndexReader.ope
ELK日志分析系统 AWAKE-HU 服务器 elk 日志分布式
什么是ELK:Elasticsearch:基于lucene的开源分布式搜索服务器(类似于solr)特点:分布式,零配置,分片索引,restful风格,多数据源logStash收集日志,过滤分析,并存储Kibana用于展示日志和分析结果ELK原理多个服务器的情况下,各个服务器都会产生不同服务器下不同路径的log文件如果每一台服务器都有一个filebeat把路径下的日志传输给统一的logstash日志
网络爬虫相关软件以及论文检索与推荐网站调研 Q7318 网络爬虫网络爬虫搜索引擎
最近接到一个项目，需要做一个基于网络爬虫技术的论文检索与推荐的网站，所以打算先对市面上已有的基于此技术的软件进行一次统计和分析，以备后面查询使用。一.网络爬虫相关软件1.搜索引擎NutchNutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch的创始人是DougCutting，他同时也是Lucene、Hadoop和Avro开源项
Elasticsearch的经典面试题及详细解答 codeBrute elasticsearch 大数据搜索引擎
以下是一些Elasticsearch的经典面试题及详细解答：一、基础概念与原理什么是Elasticsearch？回答：Elasticsearch是一个基于Lucene的分布式搜索引擎，提供了RESTfulAPI，支持多租户能力。它能够快速、近实时地存储、搜索和分析海量数据，每个字段都被索引并可被搜索。Elasticsearch广泛用于全文搜索、日志分析、实时监控等领域。解释Elasticsearc
ElasticSearch技术解析与实战读书笔记 zhangyankun_csdn 搜索引擎 elasticsearch
第一章Elasticsearch入门1.1Elasticsearch是什么1.2全文搜索Lucene倒排索引1.3基础知识1.3.1Elasticsearch术语及概念索引词term：能够被索引的精确值，索引词可以通过term查询进行准确搜索文本text：一段普通的非结构化文字，通常文本会被分析成一个个的索引词分析analysis：将文本转换为索引词的过程，依赖于分词器集群cluster：一个或多
数据采集与存储——Elasticsearch实战详解 AI天才研究院 Python实战深度学习实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介Elasticsearch是一个基于Lucene构建的开源分布式搜索引擎，主要用于大规模数据的存储、检索、分析等功能。Elasticsearch非常适合处理结构化和非结构化的数据，并且提供完整的RESTfulAPI接口，可以与多种语言的客户端进行交互。本文将从以下几个方面对Elasticsearch进行详细介绍：⒈Elasticsearch的历史及特性介绍；⒉E
ELK介绍小馋喵知识杂货铺性能 elk
ELK是由三个开源项目组成的日志管理解决方案，分别是Elasticsearch、Logstash和Kibana。这三个工具协同工作，提供强大的日志收集、处理、存储和可视化能力。通常，ELK被用于大规模的日志分析和数据监控，帮助开发人员和运维团队快速发现问题、进行故障排查和性能优化。1.Elasticsearch（E）Elasticsearch是一个基于Lucene的开源搜索引擎，提供实时的分布式搜
ELK Stack学习笔记在线打码学习笔记 redis linux centos es elk
一、ELKStack简介1、Elasticsearch一个实时的分布式搜索和分析引擎，它可以用于全文搜索，结构化搜索以及分析。它是一个建立在全文搜索引擎ApacheLucene(信息检索的工具jar包)基础上的搜索引擎，使用Java语言编写2、Logstash一个完全开源的工具，可以对日志进行收集、过滤，并将其存储供以后使用。是开源的服务器端数据处理管道，能够从多个来源收集数据、转换数据。并保存到
【Elasticsearch 实战应用】 wenshao.du elasticsearch
Elasticsearch实战应用在现代企业技术架构中，Elasticsearch因其出色的性能、可扩展性和易用性，成为了处理大规模数据和构建搜索引擎的首选工具。本文将通过一个实际案例，详细讲解如何在SpringBoot项目中集成Elasticsearch，进行数据索引、搜索、聚合分析等操作。1.Elasticsearch简介Elasticsearch是一个基于ApacheLucene构建的开源分
基于docker微服务日志ELK+Kafka搭建我是奶龙！我是奶龙！我是奶龙！ docker 微服务 elk spring cloud spring boot kafka
ELK是Elasticsearch、Logstash、Kibana的简称Elasticsearch是实时全文搜索和分析引擎，提供搜集、分析、存储数据三大功能；是一套开放REST和JAVAAPI等结构提供高效搜索功能，可扩展的分布式系统。它构建于ApacheLucene搜索引擎库之上。Logstash是一个用来搜集、分析、过滤日志的工具。它支持几乎任何类型的日志，包括系统日志、错误日志和自定义应用程
ElasticSearch10-性能优化李宥小哥常用中间件性能优化 jenkins 运维
零、文章目录ElasticSearch10-性能优化1、硬件优化（1）存储配置ElasticSearch是基于Lucene的，Lucene将数据存储在磁盘上，磁盘的IO就是ElasticSearch的瓶颈所在。Elasticsearch默认的数据存储路径是在Elasticsearch安装目录下的data子目录中。不过，这个路径是可以配置的，具体的默认路径可能因操作系统和安装方式的不同而有所差异。对
整合全文检索引擎 Lucene 添加站内搜索子模块七禾页话全文检索 lucene mybatis
整合全文检索引擎Lucene:添加站内搜索子模块1.什么是Lucene?有啥优势？Lucene是一个开源的全文检索引擎库，由Apache基金会维护，官网地址：https://lucene.apache.org/。它提供了丰富的文本处理和搜索功能，允许开发者在应用程序中集成强大的全文检索能力。以下是Lucene的一些主要特点和优势：全文检索：Lucene支持全文检索，可以在大量文本数据中快速而准确地
es查询大文本效率_Elasticsearch 技术分析（七）： Elasticsearch 的性能优化 weixin_39672296 es查询大文本效率
javajava8java开发Elasticsearch技术分析(七)：Elasticsearch的性能优化硬件选择Elasticsearch(后文简称ES)的基础是Lucene，所有的索引和文档数据是存储在本地的磁盘中，具体的路径可在ES的配置文件../config/elasticsearch.yml中配置，如下：#-----------------------------------Paths
Elasticsearch搭建框架以及测试小郭爱编程
elasticsearch学习介绍Elasticsearch简介Elasticsearch是一个建立在全文搜索引擎ApacheLucene™基础上的搜索引擎，可以说Lucene是当今最先进，最高效的全功能开源搜索引擎框架。用通俗的话理解就是：将不同服务器需要的数据，弄成一个文档，放到es中去，当我们去搜索的时候，就是去搜索文档。es是一个非关系型数据库，和redis一样，redis是一个键值对的数
ElasticSearch 谈谈你对段合并的策略思想的认识用心去追梦 elasticsearch 大数据搜索引擎
段合并是Elasticsearch中的一个重要概念，它在数据索引和查询过程中起着关键的作用。Elasticsearch使用Lucene作为其全文搜索库，Lucene中使用的数据结构就是段（Segment）合并。段合并的策略思想主要体现在以下几个方面：提高查询性能：在Elasticsearch中，段合并的过程可以看作是对索引进行优化，通过合并将多个小的段合并成一个大的段，这样可以减少内存的使用，提高
ES架构及原理李澎昆 ES ES
Elasticsearch是一个兼有搜索引擎和NoSQL数据库功能的开源系统，基于Java/Lucene构建，可以用于全文搜索，结构化搜索以及近实时分析。说明：Lucene：只是一个框架，要充分利用它的功能，需要使用JAVA，并且在程序中集成Lucene，学习成本高，Lucene确实非常复杂。Elasticsearch是面向文档型数据库，这意味着它存储的是整个对象或者文档，它不但会存储它们，还会为
Elasticsearch段合并喵喵喵更多 java 运维分布式后端
欢迎访问本人博客查看原文：http://wangnan.techelasticsearch中每个索引都会创建一个到多个分片和零个到多个副本，这些分片或副本实质上都是lucene索引lucene索引是基于多个索引段创建，索引文件中绝大部分数据都是只写一次，读多次，而只有用于保存文档删除信息的文件才会被多次更改在某些时刻，当某种条件满足时，多个索引段会被拷贝合并到一个更大的索引段，而那些旧的索引段会被
Lucece评分公式OKapi BM25原理解析(中) 双人余_先生
背景：延续上篇写了TF/IDF的公式解析，本篇为BM25解析简单介绍。BM25起源于概率相关性模型，而不是矢量空间模型，但是该算法与Lucene的实际评分功能有很多共同点。两者都使用Term词频率，逆文档频率和字段长度归一化，但是每个因素的定义都略有不同。与其详细解释BM25公式，不如将重点放在BM25提供的实际优势上。BM25是一个词袋检索功能，它基于每个文档中出现的查询词对一组文档进行排名，而
分布式搜索引擎Elasticsearch——基础敲代码的旺财架构进阶 elasticsearch java 搜索引擎 ES-head
文章目录一、Lucene与Solr与Elasticsearch二、ES核心术语三、ES核心概念四、倒排索引五、ES的安装（centos7）1、下载地址（这里安装linux版本）2、解压压缩包3、修改配置文件(1)修改核心配置文件(2)修改JVM配置文件4、启动ES(1)添加系统用户并授权(2)ES启动(3)修改配置文件(4)再次启动ES六、安装ES-head插件（可视化管理插件）1、使用谷歌市场安
docker部署Elasticsearch和Kibana youm. docker docker elasticsearch 容器
1.Elasticsearch和Kibana介绍1.1什么是Elasticsearch？Elasticsearch是一个开源的分布式搜索和分析引擎，用于处理大规模数据的实时搜索、分析和存储。它构建在ApacheLucene搜索引擎库的基础上，提供了一个RESTfulAPI和易于使用的工具，使得在大数据量情况下进行搜索和分析变得高效和简单。1.2为什么使用Elasticsearch？Elastics
Elasticsearch中文本字段与关键字字段的聚合和排序问题好奇的菜鸟 Elasticsearch elasticsearch 大数据搜索引擎
引言Elasticsearch是一个强大的搜索引擎，它基于Lucene构建，提供了全文搜索、分析、聚合等功能。然而，在使用Elasticsearch时，我们可能会遇到一些特定的问题，比如在文本字段上进行聚合和排序操作时出现的错误。本文将详细解释这个问题，并提供解决方案。问题概述在使用Elasticsearch进行数据分析时，我们可能会尝试对文本字段进行聚合或排序。但是，Elasticsearch默
单机安装 ELK 日志分析系统 TheFlsah Linux
一、ELK介绍ELKStack是软件集合Elasticsearch、Logstash、Kibana的简称，它们都是开源软件。新增了一个FileBeat，它是一个轻量级的日志收集处理工具(Agent)，Filebeat占用资源少，适合于在各个服务器上搜集日志后传输给Logstash，官方也推荐此工具。Elasticsearch是一个基于Lucene的、支持全文索引的分布式存储和索引引擎，主要负责将日
Elastic Search常用命令胖毁青春，瘦解百病 ES es
1测试环境信息ElasticSearch服务器：192.168.0.100用户：docker启停：dockerstart/stop/restartelasticsearchKibana控制台：http://192.168.0.100:5601/app/kibana#/dev_tools/console2基本概念Elasticsearch也是基于Lucene的全文检索库，本质也是存储数据，很多概念与
html 周华华 html
js 1，数组的排列 var arr=[1,4,234,43,52,]; for(var x=0;x<arr.length;x++){ for(var y=x-1;y<arr.length;y++){ if(arr[x]<arr[y]){ &
【Struts2 四】Struts2拦截器 bit1129 struts2拦截器
Struts2框架是基于拦截器实现的，可以对某个Action进行拦截，然后某些逻辑处理，拦截器相当于AOP里面的环绕通知，即在Action方法的执行之前和之后根据需要添加相应的逻辑。事实上，即使struts.xml没有任何关于拦截器的配置，Struts2也会为我们添加一组默认的拦截器，最常见的是，请求参数自动绑定到Action对应的字段上。 Struts2中自定义拦截器的步骤是：
make:cc 命令未找到解决方法 daizj linux 命令未知 make cc
安装rz sz程序时，报下面错误： [root@slave2 src]# make posix cc -O -DPOSIX -DMD=2 rz.c -o rz make: cc：命令未找到 make: *** [posix] 错误 127 系统：centos 6.6 环境：虚拟机错误原因：系统未安装gcc，这个是由于在安
Oracle之Job应用周凡杨 oracle job
最近写服务，服务上线后，需要写一个定时执行的SQL脚本，清理并更新数据库表里的数据，应用到了Oracle 的 Job的相关知识。在此总结一下。一：查看相关job信息 1、相关视图 dba_jobs all_jobs user_jobs dba_jobs_running 包含正在运行
多线程机制朱辉辉33 多线程
转至http://blog.csdn.net/lj70024/archive/2010/04/06/5455790.aspx 程序、进程和线程：程序是一段静态的代码，它是应用程序执行的蓝本。进程是程序的一次动态执行过程，它对应了从代码加载、执行至执行完毕的一个完整过程，这个过程也是进程本身从产生、发展至消亡的过程。线程是比进程更小的单位，一个进程执行过程中可以产生多个线程，每个线程有自身的
web报表工具FineReport使用中遇到的常见报错及解决办法（一）老A不折腾 web报表 finereport java报表报表工具
FineReport使用中遇到的常见报错及解决办法（一）这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、address pool is full：含义：地址池满，连接数超过并发数上
mysql rpm安装后没有my.cnf 林鹤霄没有my.cnf
Linux下用rpm包安装的MySQL是不会安装/etc/my.cnf文件的，至于为什么没有这个文件而MySQL却也能正常启动和作用，在这儿有两个说法，第一种说法，my.cnf只是MySQL启动时的一个参数文件，可以没有它，这时MySQL会用内置的默认参数启动，第二种说法，MySQL在启动时自动使用/usr/share/mysql目录下的my-medium.cnf文件，这种说法仅限于r
Kindle Fire HDX root并安装谷歌服务框架之后仍无法登陆谷歌账号的问题 aigo root
原文：http://kindlefireforkid.com/how-to-setup-a-google-account-on-amazon-fire-tablet/ Step 4: Run ADB command from your PC On the PC, you need install Amazon Fire ADB driver and instal
javascript 中var提升的典型实例 alxw4616 JavaScript
// 刚刚在书上看到的一个小问题,很有意思.大家一起思考下吧 myname = 'global'; var fn = function () { console.log(myname); // undefined var myname = 'local'; console.log(myname); // local }; fn() // 上述代码实际上等同于以下代码 m
定时器和获取时间的使用百合不是茶时间的转换定时器
定时器:定时创建任务在游戏设计的时候用的比较多 Timer();定时器 TImerTask();Timer的子类由 Timer 安排为一次执行或重复执行的任务。定时器类Timer在java.util包中。使用时，先实例化，然后使用实例的schedule(TimerTask task, long delay)方法，设定
JDK1.5 Queue bijian1013 java thread java多线程 Queue
JDK1.5 Queue LinkedList： LinkedList不是同步的。如果多个线程同时访问列表，而其中至少一个线程从结构上修改了该列表，则它必须保持外部同步。（结构修改指添加或删除一个或多个元素的任何操作；仅设置元素的值不是结构修改。）这一般通过对自然封装该列表的对象进行同步操作来完成。如果不存在这样的对象，则应该使用 Collections.synchronizedList 方
http认证原理和https bijian1013 http https
一.基础介绍在URL前加https://前缀表明是用SSL加密的。你的电脑与服务器之间收发的信息传输将更加安全。 Web服务器启用SSL需要获得一个服务器证书并将该证书与要使用SSL的服务器绑定。 http和https使用的是完全不同的连接方式，用的端口也不一样,前者是80，后
【Java范型五】范型继承 bit1129 java
定义如下一个抽象的范型类，其中定义了两个范型参数，T1，T2 package com.tom.lang.generics; public abstract class SuperGenerics<T1, T2> { private T1 t1; private T2 t2; public abstract void doIt(T
【Nginx六】nginx.conf常用指令(Directive) bit1129 Directive
1. worker_processes 8; 表示Nginx将启动8个工作者进程，通过ps -ef|grep nginx,会发现有8个Nginx Worker Process在运行 nobody 53879 118449 0 Apr22 ? 00:26:15 nginx: worker process
lua 遍历Header头部 ronin47 lua header 遍历　
local headers = ngx.req.get_headers() ngx.say("headers begin", "<br/>") ngx.say("Host : ", he
java-32.通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小(两数组的差最小)。 bylijinnan java
import java.util.Arrays; public class MinSumASumB { /** * Q32.有两个序列a,b，大小都为n,序列元素的值任意整数，无序. * * 要求：通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小。 * 例如: * int[] a = {100,99,98,1,2,3
redis 开窍的石头 redis
在redis的redis.conf配置文件中找到# requirepass foobared 把它替换成requirepass 12356789 后边的12356789就是你的密码打开redis客户端输入config get requirepass 返回 redis 127.0.0.1:6379> config get requirepass 1) "require
[JAVA图像与图形]现有的GPU架构支持JAVA语言吗？ comsci java语言
无论是opengl还是cuda，都是建立在C语言体系架构基础上的，在未来，图像图形处理业务快速发展，相关领域市场不断扩大的情况下，我们JAVA语言系统怎么从这么庞大，且还在不断扩大的市场上分到一块蛋糕，是值得每个JAVAER认真思考和行动的事情
安装ubuntu14.04登录后花屏了怎么办 cuiyadll ubuntu
这个情况，一般属于显卡驱动问题。可以先尝试安装显卡的官方闭源驱动。按键盘三个键：CTRL + ALT + F1 进入终端，输入用户名和密码登录终端：安装amd的显卡驱动 sudo apt-get install fglrx 安装nvidia显卡驱动 sudo ap
SSL 与数字证书的基本概念和工作原理 darrenzhu 加密 ssl 证书密钥签名
SSL 与数字证书的基本概念和工作原理 http://www.linuxde.net/2012/03/8301.html SSL握手协议的目的是或最终结果是让客户端和服务器拥有一个共同的密钥，握手协议本身是基于非对称加密机制的，之后就使用共同的密钥基于对称加密机制进行信息交换。 http://www.ibm.com/developerworks/cn/webspher
Ubuntu设置ip的步骤 dcj3sjt126com ubuntu
在单位的一台机器完全装了Ubuntu Server，但回家只能在XP上VM一个，装的时候网卡是DHCP的，用ifconfig查了一下ip是192.168.92.128,可以ping通。转载不是错： Ubuntu命令行修改网络配置方法 /etc/network/interfaces打开后里面可设置DHCP或手动设置静态ip。前面auto eth0，让网卡开机自动挂载. 1. 以D
php包管理工具推荐 dcj3sjt126com PHP Composer
http://www.phpcomposer.com/ Composer是 PHP 用来管理依赖（dependency）关系的工具。你可以在自己的项目中声明所依赖的外部工具库（libraries），Composer 会帮你安装这些依赖的库文件。中文文档入门指南下载安装包列表 Composer 中国镜像
Gson使用四（TypeAdapter） eksliang json gson Gson自定义转换器 gsonTypeAdapter
转载请出自出处：http://eksliang.iteye.com/blog/2175595 一.概述 Gson的TypeAapter可以理解成自定义序列化和返序列化二、应用场景举例例如我们通常去注册时（那些外国网站），会让我们输入firstName，lastName,但是转到我们都
JQM控件之Navbar和Tabs gundumw100 html xml css
在JQM中使用导航栏Navbar是简单的。只需要将data-role="navbar"赋给div即可： <div data-role="navbar"> <ul> <li><a href="#" class="ui-btn-active&qu
利用归并排序算法对大文件进行排序 iwindyforest java 归并排序大文件分治法 Merge sort
归并排序算法介绍，请参照Wikipeida zh.wikipedia.org/wiki/%E5%BD%92%E5%B9%B6%E6%8E%92%E5%BA%8F 基本思想：大文件分割成行数相等的两个子文件，递归（归并排序）两个子文件，直到递归到分割成的子文件低于限制行数低于限制行数的子文件直接排序两个排序好的子文件归并到父文件直到最后所有排序好的父文件归并到输入
iOS UIWebView URL拦截啸笑天 UIWebView
本文译者：candeladiao，原文：URL filtering for UIWebView on the iPhone说明：译者在做app开发时，因为页面的javascript文件比较大导致加载速度很慢，所以想把javascript文件打包在app里，当UIWebView需要加载该脚本时就从app本地读取，但UIWebView并不支持加载本地资源。最后从下文中找到了解决方法，第一次翻译，难免有
索引的碎片整理SQL语句 macroli sql
SET NOCOUNT ON DECLARE @tablename VARCHAR (128) DECLARE @execstr VARCHAR (255) DECLARE @objectid INT DECLARE @indexid INT DECLARE @frag DECIMAL DECLARE @maxfrag DECIMAL --设置最大允许的碎片数量,超过则对索引进行碎片
Angularjs同步操作http请求with $promise qiaolevip 每天进步一点点学习永无止境 AngularJS 纵观千象
// Define a factory app.factory('profilePromise', ['$q', 'AccountService', function($q, AccountService) { var deferred = $q.defer(); AccountService.getProfile().then(function(res) {
hibernate联合查询问题 sxj19881213 sql Hibernate HQL 联合查询
最近在用hibernate做项目，遇到了联合查询的问题，以及联合查询中的N+1问题。针对无外键关联的联合查询，我做了HQL和SQL的实验，希望能帮助到大家。（我使用的版本是hibernate3.3.2） 1 几个常识：（1）hql中的几种join查询，只有在外键关联、并且作了相应配置时才能使用。（2）hql的默认查询策略，在进行联合查询时，会产
struts2.xml wuai struts
<?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache

Lucene3.0之结果排序

你可能感兴趣的:(Lucene)