lxwt909

Lucene5学习之Suggest关键字提示

首先需要搞清楚Suggest模块是用来解决什么问题的？Google我想大家都用过，当我们在搜索输入框里输入搜索关键字的时候，紧贴着输入框下方会弹出一个提示框，提示框里会列出Top N个包含当前用户输入的搜索关键字的搜索热词，如图：

这里说的不是前端的这种JS效果，而说的是输入一个关键字如何获取相关的搜索热词，至于js效果，自己Google JQuery自动补全插件，我以前玩过，这里关注的是提示数据如何获取，当然你也可以使用数据库SQL like "%xxxx%"来实现(xxxx是你输入的搜索关键字)，但Lucene来实现这个功能会更好，因为我们都知道Lucene的查询结果是可以根据相关度排序的，支持各种强大的Query查询，这是数据库SQL语法所不能实现的。在Lucene中，这种搜索关键字自动提示功能是由Suggest模块提供的。

要实现搜索关键字提示，首先你需要创建索引，此时创建索引就不是简简单单的借助IndexWrtier.addDocument了，而是需要通过Suggest模块下的AnalyzingInfixSuggester类去build,翻看AnalyzingInfixSuggester类的源码一探究竟，先看看其成员变量声明部分：

public class AnalyzingInfixSuggester extends Lookup implements Closeable {

  /** Field name used for the indexed text. */
  protected final static String TEXT_FIELD_NAME = "text";

  /** Field name used for the indexed text, as a
   *  StringField, for exact lookup. */
  protected final static String EXACT_TEXT_FIELD_NAME = "exacttext";

  /** Field name used for the indexed context, as a
   *  StringField and a SortedSetDVField, for filtering. */
  protected final static String CONTEXTS_FIELD_NAME = "contexts";

  /** Analyzer used at search time */
  protected final Analyzer queryAnalyzer;
  /** Analyzer used at index time */
  protected final Analyzer indexAnalyzer;
  final Version matchVersion;
  private final Directory dir;
  final int minPrefixChars;
  
  private final boolean allTermsRequired;
  private final boolean highlight;
  
  private final boolean commitOnBuild;

  /** Used for ongoing NRT additions/updates. */
  private IndexWriter writer;

  /** {@link IndexSearcher} used for lookups. */
  protected SearcherManager searcherMgr;

  /** Default minimum number of leading characters before
   *  PrefixQuery is used (4). */
  public static final int DEFAULT_MIN_PREFIX_CHARS = 4;
  
  /** Default boolean clause option for multiple terms matching (all terms required). */
  public static final boolean DEFAULT_ALL_TERMS_REQUIRED = true;
 
  /** Default higlighting option. */
  public static final boolean DEFAULT_HIGHLIGHT = true;

  /** How we sort the postings and search results. */
  private static final Sort SORT = new Sort(new SortField("weight", SortField.Type.LONG, true));

TEXT_FIELD_NAME：表示搜索关键字域，即我们用户输入的搜索关键字是在这个域上进行匹配的，这个域使用的是TextField且Store.YES，

EXACT_TEXT_FIELD_NAME：它跟TEXT_FIELD_NAME类似，唯一区别就是它使用的是StringFeild且Store.NO,不要问我为什么知道

CONTEXTS_FIELD_NAME：这个域名其实也是用来过滤的，只是它是比较次要的过滤条件域，举个例子吧，比如你有title和content两个域，title表示新闻标题，content表示新闻内容，那这里的CONTEXTS_FIELD_NAME表示的就是content域的域名，一般都是在title域里去过滤，content属于2次过滤或者说是次要级别的过滤，不知道这样说够明确不？

然后是两个分词器，分别对应查询时和创建索引时，两个分词器最好是保持一致，final Version matchVersion;这个就不用说了，Directory指的是索引目录，这个也不用多说大家都懂。minPrefixChars表示最小前缀字符长度，意思就是用户最少输入多少个字符我才开始搜索相关热词，设置这个值是为了避免用户输入字符过短导致返回的匹配结果太多影响性能，比如用户输入一个字符，然后程序就屁颠屁颠的去search,因为条件太宽泛，自然返回的结果集会很庞大，自然内存溢出或者响应时间很长，这样的应用你还会用吗？所以你懂的，所以内部做了一个最小输入字符长度的限制：

boolean allTermsRequired这个布尔值用于搜索阶段，意思是用户输入的关键字需要全部匹配吗？举例说明吧，我怕说的太抽象，你们看不懂。假如我们创建了索引包含了title和content两个域，那么当用户输入了搜索关键字，用户可能输入的是lucene suggest,那么程序内部首先会对用户输入的搜索关键字进行分词，得到多个Term,有了多个Term然后new多个TermQuery，那这多个TermQuery之间是or链接还是and链接呢，所以有了allTermsRequired这个参数，意思就是所有Term都需要匹配吗，说白了就是所有的TermQuery需要用and链接吗？默认很显然是false,有人可能要问了，为什么必须是要全部匹配和非全部匹配呢，如果需要实现A匹配B不匹配C又匹配D匹配E不匹配.....对不起这种条件拼接方式默认的API无法实现(当然你可以通过继承重写自己来实现)，因为用户的搜索关键字分词后得到的Term的个数不确定，多个Term之间谁该包含谁不该包含，这之间的排列组合情况太多，一个boolean值表示不了这么多种情况，所以只能是要么全部and全部or，说了那么多，你们再来看源码是不是轻松多了：

private IndexWriter writer;这个很明显是内部维护一个IndexWriter用来添加或更新索引数据的，protected SearcherManager searcherMgr，维护一个SearcherManager是用来获取IndexSearcher对象以及释放IndexSearcher资源的，你可以认为SearcherManager是一个IndexSearcher的工具类，

private static final Sort SORT = new Sort(new SortField("weight", SortField.Type.LONG, true));

这句是重点，创建了一个排序器，默认按照weight域进行降序排序(之所以是降序是因为最后一个reverse参数设置为true了)，降序意味着weigth值越大越排前面，至于这里的weight值表示什么，取决于你的InputInterator实现，接下来就来说说InputInterator。

InputInterator接口决定了用于suggest搜索的索引数据从哪里来，说的官方点就是用于suggest搜素的索引的每个默认域的域值的数据来源需要用户来自定义，这本来也是合情合理的。

/**
 * Interface for enumerating term,weight,payload triples for suggester consumption;
 * currently only {@link AnalyzingSuggester}, {@link
 * FuzzySuggester} and {@link AnalyzingInfixSuggester} support payloads.
 */
public interface InputIterator extends BytesRefIterator {

  /** A term's weight, higher numbers mean better suggestions. */
  public long weight();
  
  /** An arbitrary byte[] to record per suggestion.  See
   *  {@link LookupResult#payload} to retrieve the payload
   *  for each suggestion. */
  public BytesRef payload();

  /** Returns true if the iterator has payloads */
  public boolean hasPayloads();
  
  /** 
   * A term's contexts context can be used to filter suggestions.
   * May return null, if suggest entries do not have any context
   * */
  public Set<BytesRef> contexts();
  
  /** Returns true if the iterator has contexts */
  public boolean hasContexts();

要理解InputInterator，你首先需要理解几个概念，InputInterator里的key,content,payload，weight都表示什么含义，下面分别来说明：

key:表示用户搜索关键字域，即用户输入的搜索关键字分词后的Term在这个域上进行匹配

content：源码注释里的解释是A term's contexts context can be used to filter suggestions.太尼玛抽象了，我说的更直白更傻瓜点吧，意思就是contents是一个Term集合(只不过是用BytesRef字节形式表示的)，

这个Term集合的每个元素是用来在CONTEXTS_FIELD_NAME表示的域里进行TermQuery，说白了就是在关键字的基础上再加个限制条件让返回的热词列表更符合你的要求，比如你搜iphone,可能在title域里搜索到iphone手机，可能还会返回iphone手机壳，可能你只想返回有关手机的热词不想返回有关手机壳的热词，假定你索引里还有个category类别的域，那这时你category域就是这里的context概念，你可以设置contexts的set集合为[手机]，这样相当于在搜索关键字的TermQuery基础上再加一个或多个TermQuery(因为是set集合，内部会遍历set集合new多个TermQuery),记住，内部都是使用TermQuery实现查询过滤的，如果你想使用其他Query来实现过滤呢，对不起，你可以继承来重写，你懂的。

payload是用来存储一个额外信息，并以字节byte[]的形式写入索引中，当搜索返回后，你可以通过LookupResult结果对象的payload属性获取到该值，那最重要的就是要理解，为什么要设计这个payload呢，这要从LookupResult类源码中找答案：

我们在创建索引的时候通过InputInterator接口的payload方法指定了payload数据从哪来获取并将它编码为BytesRef字节的形式，然后写入索引了，然后在查询时返回的结果集是用LookupResult包装的，

如图，LookupResult包含了如下信息：

key:用户输入的搜索关键字，再返回给你

highlightKey：其实就是经过高亮的搜索关键字文本，假如你在搜索的时候设置了需要关键字高亮

value：即InputInterator接口中weight方法的返回值，即返回的当前热词的权重值，排序就是根据这个值排的

payload：就是InputInterator接口中payload方法中指定的payload信息，设计这个payload就是用来让你存一些任意你想存的信息，这就留给你们自己去发挥想象了。

contexts：同理即InputInterator接口中contexts方法的返回值再原样返回给你。

OK，还是直接上示例代码吧，或许结合示例代码再来看我说的这些，你们会更容易理解。

创建了一个产品类：

package com.yida.framework.lucene5.suggest;

import java.io.Serializable;

/**
 * 产品类
 * 
 * @author Lanxiaowei
 * 
 */
public class Product implements Serializable {
	/** 产品名称 */
	private String name;
	/** 产品图片 */
	private String image;
	/** 产品销售地区 */
	private String[] regions;
	/** 产品销售量 */
	private int numberSold;

	public Product(String name, String image, String[] regions, int numberSold) {
		this.name = name;
		this.image = image;
		this.regions = regions;
		this.numberSold = numberSold;
	}

	public String getName() {
		return name;
	}

	public void setName(String name) {
		this.name = name;
	}

	public String getImage() {
		return image;
	}

	public void setImage(String image) {
		this.image = image;
	}

	public String[] getRegions() {
		return regions;
	}

	public void setRegions(String[] regions) {
		this.regions = regions;
	}

	public int getNumberSold() {
		return numberSold;
	}

	public void setNumberSold(int numberSold) {
		this.numberSold = numberSold;
	}
}

这个类是核心，决定了你的索引是如何创建的，决定了最终返回的提示关键词列表数据及其排序。

package com.yida.framework.lucene5.suggest;

import java.io.ByteArrayOutputStream;
import java.io.IOException;
import java.io.ObjectOutputStream;
import java.io.UnsupportedEncodingException;
import java.util.Comparator;
import java.util.HashSet;
import java.util.Iterator;
import java.util.Set;

import org.apache.lucene.search.suggest.InputIterator;
import org.apache.lucene.util.BytesRef;

public class ProductIterator implements InputIterator {
	private Iterator<Product> productIterator;
    private Product currentProduct;

    ProductIterator(Iterator<Product> productIterator) {
        this.productIterator = productIterator;
    }

    public boolean hasContexts() {
        return true;
    }

    /**
     * 是否有设置payload信息
     */
    public boolean hasPayloads() {
        return true;
    }

    public Comparator<BytesRef> getComparator() {
        return null;
    }

    public BytesRef next() {
        if (productIterator.hasNext()) {
            currentProduct = productIterator.next();
            try {
            	//返回当前Project的name值，把product类的name属性值作为key
                return new BytesRef(currentProduct.getName().getBytes("UTF8"));
            } catch (UnsupportedEncodingException e) {
                throw new RuntimeException("Couldn't convert to UTF-8",e);
            }
        } else {
            return null;
        }
    }

    /**
     * 将Product对象序列化存入payload
     * [这里仅仅是个示例，其实这种做法不可取,一般不会把整个对象存入payload,这样索引体积会很大，浪费硬盘空间]
     */
    public BytesRef payload() {
        try {
            ByteArrayOutputStream bos = new ByteArrayOutputStream();
            ObjectOutputStream out = new ObjectOutputStream(bos);
            out.writeObject(currentProduct);
            out.close();
            return new BytesRef(bos.toByteArray());
        } catch (IOException e) {
            throw new RuntimeException("Well that's unfortunate.");
        }
    }

    /**
     * 把产品的销售区域存入context，context里可以是任意的自定义数据，一般用于数据过滤
     * Set集合里的每一个元素都会被创建一个TermQuery，你只是提供一个Set集合，至于new TermQuery
     * Lucene底层API去做了，但你必须要了解底层干了些什么
     */
    public Set<BytesRef> contexts() {
        try {
            Set<BytesRef> regions = new HashSet<BytesRef>();
            for (String region : currentProduct.getRegions()) {
                regions.add(new BytesRef(region.getBytes("UTF8")));
            }
            return regions;
        } catch (UnsupportedEncodingException e) {
            throw new RuntimeException("Couldn't convert to UTF-8");
        }
    }

    /**
     * 返回权重值，这个值会影响排序
     * 这里以产品的销售量作为权重值，weight值即最终返回的热词列表里每个热词的权重值
     * 怎么设计返回这个权重值，发挥你们的想象力吧
     */
    public long weight() {
        return currentProduct.getNumberSold();
    }
}

最后就是调用suggester.lookup查询返回LookupResult结果集，Over！

package com.yida.framework.lucene5.suggest;

import java.io.IOException;
import java.io.InputStream;
import java.util.ArrayList;
import java.util.HashSet;
import java.util.List;

import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.search.suggest.Lookup.LookupResult;
import org.apache.lucene.search.suggest.analyzing.AnalyzingInfixSuggester;
import org.apache.lucene.store.RAMDirectory;
import org.apache.lucene.util.BytesRef;

import com.yida.framework.lucene5.util.Tools;

/**
 * Lucene关键字提示测试
 * 
 * @author Lanxiaowei
 * 
 */
public class SuggesterTest {
	private static void lookup(AnalyzingInfixSuggester suggester, String name,
			String region) throws IOException {
		HashSet<BytesRef> contexts = new HashSet<BytesRef>();
		contexts.add(new BytesRef(region.getBytes("UTF8")));
		//先以contexts为过滤条件进行过滤，再以name为关键字进行筛选，根据weight值排序返回前2条
		//第3个布尔值即是否每个Term都要匹配，第4个参数表示是否需要关键字高亮
		List<LookupResult> results = suggester.lookup(name, contexts, 2, true, false);
		System.out.println("-- \"" + name + "\" (" + region + "):");
		for (LookupResult result : results) {
			System.out.println(result.key);
			//从payload中反序列化出Product对象
			BytesRef bytesRef = result.payload;
			InputStream is = Tools.bytes2InputStream(bytesRef.bytes);
			Product product = (Product)Tools.deSerialize(is);
			System.out.println("product-Name:" + product.getName());
			System.out.println("product-regions:" + product.getRegions());
			System.out.println("product-image:" + product.getImage());
			System.out.println("product-numberSold:" + product.getNumberSold());
		}
		System.out.println();
	}

	public static void main(String[] args) {
		try {
			RAMDirectory indexDir = new RAMDirectory();
			StandardAnalyzer analyzer = new StandardAnalyzer();
			AnalyzingInfixSuggester suggester = new AnalyzingInfixSuggester(indexDir, analyzer);

			//创建Product测试数据
			ArrayList<Product> products = new ArrayList<Product>();
			products.add(new Product("Electric Guitar",
					"http://images.example/electric-guitar.jpg", new String[] {
							"US", "CA" }, 100));
			products.add(new Product("Electric Train",
					"http://images.example/train.jpg", new String[] { "US",
							"CA" }, 100));
			products.add(new Product("Acoustic Guitar",
					"http://images.example/acoustic-guitar.jpg", new String[] {
							"US", "ZA" }, 80));
			products.add(new Product("Guarana Soda",
					"http://images.example/soda.jpg",
					new String[] { "ZA", "IE" }, 130));

			// 创建测试索引
			suggester.build(new ProductIterator(products.iterator()));

			// 开始搜索
			lookup(suggester, "Gu", "US");
			lookup(suggester, "Gu", "ZA");
			lookup(suggester, "Gui", "CA");
			lookup(suggester, "Electric guit", "US");
		} catch (IOException e) {
			System.err.println("Error!");
		}
	}
}

OK，该说的都说了，可能说的比较啰嗦，还望见谅，希望对你们有所帮助，Demo源码还是一如既往的在底下附件里。

如果你还有什么问题请加我Ｑ-Q：7-3-6-0-3-1-3-0-5，

或者加裙
一起交流学习！

前端一次性在接口中给后端传多个文件流的集合作为参数柠檬花开_ 前端 javascript 上传文件文件流
前端上传文件后，文件流暂存在数组中。保存时，接口传参多个文件流一、前端暂存文件流//上传附件，attachFiles前端暂存文件流为一个数组httpSuggestionRequest:function(param){console.log(param,'param')if(this.attachFiles.length===10){this.$message.error('上限10个文件！');r
ELK介绍小馋喵知识杂货铺性能 elk
ELK是由三个开源项目组成的日志管理解决方案，分别是Elasticsearch、Logstash和Kibana。这三个工具协同工作，提供强大的日志收集、处理、存储和可视化能力。通常，ELK被用于大规模的日志分析和数据监控，帮助开发人员和运维团队快速发现问题、进行故障排查和性能优化。1.Elasticsearch（E）Elasticsearch是一个基于Lucene的开源搜索引擎，提供实时的分布式搜
ELK Stack学习笔记在线打码学习笔记 redis linux centos es elk
一、ELKStack简介1、Elasticsearch一个实时的分布式搜索和分析引擎，它可以用于全文搜索，结构化搜索以及分析。它是一个建立在全文搜索引擎ApacheLucene(信息检索的工具jar包)基础上的搜索引擎，使用Java语言编写2、Logstash一个完全开源的工具，可以对日志进行收集、过滤，并将其存储供以后使用。是开源的服务器端数据处理管道，能够从多个来源收集数据、转换数据。并保存到
【Elasticsearch 实战应用】 wenshao.du elasticsearch
Elasticsearch实战应用在现代企业技术架构中，Elasticsearch因其出色的性能、可扩展性和易用性，成为了处理大规模数据和构建搜索引擎的首选工具。本文将通过一个实际案例，详细讲解如何在SpringBoot项目中集成Elasticsearch，进行数据索引、搜索、聚合分析等操作。1.Elasticsearch简介Elasticsearch是一个基于ApacheLucene构建的开源分
基于docker微服务日志ELK+Kafka搭建我是奶龙！我是奶龙！我是奶龙！ docker 微服务 elk spring cloud spring boot kafka
ELK是Elasticsearch、Logstash、Kibana的简称Elasticsearch是实时全文搜索和分析引擎，提供搜集、分析、存储数据三大功能；是一套开放REST和JAVAAPI等结构提供高效搜索功能，可扩展的分布式系统。它构建于ApacheLucene搜索引擎库之上。Logstash是一个用来搜集、分析、过滤日志的工具。它支持几乎任何类型的日志，包括系统日志、错误日志和自定义应用程
ElasticSearch10-性能优化李宥小哥常用中间件性能优化 jenkins 运维
零、文章目录ElasticSearch10-性能优化1、硬件优化（1）存储配置ElasticSearch是基于Lucene的，Lucene将数据存储在磁盘上，磁盘的IO就是ElasticSearch的瓶颈所在。Elasticsearch默认的数据存储路径是在Elasticsearch安装目录下的data子目录中。不过，这个路径是可以配置的，具体的默认路径可能因操作系统和安装方式的不同而有所差异。对
整合全文检索引擎 Lucene 添加站内搜索子模块七禾页话全文检索 lucene mybatis
整合全文检索引擎Lucene:添加站内搜索子模块1.什么是Lucene?有啥优势？Lucene是一个开源的全文检索引擎库，由Apache基金会维护，官网地址：https://lucene.apache.org/。它提供了丰富的文本处理和搜索功能，允许开发者在应用程序中集成强大的全文检索能力。以下是Lucene的一些主要特点和优势：全文检索：Lucene支持全文检索，可以在大量文本数据中快速而准确地
es查询大文本效率_Elasticsearch 技术分析（七）： Elasticsearch 的性能优化 weixin_39672296 es查询大文本效率
javajava8java开发Elasticsearch技术分析(七)：Elasticsearch的性能优化硬件选择Elasticsearch(后文简称ES)的基础是Lucene，所有的索引和文档数据是存储在本地的磁盘中，具体的路径可在ES的配置文件../config/elasticsearch.yml中配置，如下：#-----------------------------------Paths
Elasticsearch搭建框架以及测试小郭爱编程
elasticsearch学习介绍Elasticsearch简介Elasticsearch是一个建立在全文搜索引擎ApacheLucene™基础上的搜索引擎，可以说Lucene是当今最先进，最高效的全功能开源搜索引擎框架。用通俗的话理解就是：将不同服务器需要的数据，弄成一个文档，放到es中去，当我们去搜索的时候，就是去搜索文档。es是一个非关系型数据库，和redis一样，redis是一个键值对的数
学期复盘高wen鑫
1我的大学生活之大学英语学习1）在这个学期的大学英语学习中，我的GPS[Gains]在这个学期的英语学习中我的听力能力提高了；多于长句的理解翻译能力也增加了；对于英语的文化背景的了解也增加了[Problems]听力能力提升空间还很大；对于语法还有很多不懂；词汇量也比较少[Suggestions]多背单词；多联系听力并适应英英互译2）在这个学期的复盘日志中，我的收获是：对于短语、句式的积累变多；英语
第一学期复盘人文二班28徐新婷
1我的大学生活之大学英语学习1）在这个学期的大学英语学习中，我的GPS[Gains]：在课堂上学到了一些之前没有接触到的口语技巧，例如连读，爆破等。也学到了一些学习的技巧，对于查资料和提问的学问等。[Problems]：感觉自己在英语学习中的问题挺大的，单词量比较少，口语不好，听力更是一大难题。[Suggestions]：要给自己计划时间背单词，以扩充自己自己的单词量，在口语和听力方面要多听，多说
max 2013+ 孤立模式锦囊喵
原文链接工具链接maxScriptsjedie----Lagacy"IsolateSelection"formax2013----Pleasevote:--http://3dsmaxfeedback.autodesk.com/forums/76763-small-annoying-things/suggestions/2771695-max-2013-make-isolate-selection-
ElasticSearch 谈谈你对段合并的策略思想的认识用心去追梦 elasticsearch 大数据搜索引擎
段合并是Elasticsearch中的一个重要概念，它在数据索引和查询过程中起着关键的作用。Elasticsearch使用Lucene作为其全文搜索库，Lucene中使用的数据结构就是段（Segment）合并。段合并的策略思想主要体现在以下几个方面：提高查询性能：在Elasticsearch中，段合并的过程可以看作是对索引进行优化，通过合并将多个小的段合并成一个大的段，这样可以减少内存的使用，提高
ES架构及原理李澎昆 ES ES
Elasticsearch是一个兼有搜索引擎和NoSQL数据库功能的开源系统，基于Java/Lucene构建，可以用于全文搜索，结构化搜索以及近实时分析。说明：Lucene：只是一个框架，要充分利用它的功能，需要使用JAVA，并且在程序中集成Lucene，学习成本高，Lucene确实非常复杂。Elasticsearch是面向文档型数据库，这意味着它存储的是整个对象或者文档，它不但会存储它们，还会为
2022-07-26 Manage your energy, not your time 春生阁
Energyisthecurrencyofmotivation.Mostoftheproductivityandhabitbuildingadviceyouhearofferstipsandtricksforbettertimemanagement.Withpromisesofmakingyoumoreefficientinyourwork,theysuggestallsortsoftechniq
Elasticsearch段合并喵喵喵更多 java 运维分布式后端
欢迎访问本人博客查看原文：http://wangnan.techelasticsearch中每个索引都会创建一个到多个分片和零个到多个副本，这些分片或副本实质上都是lucene索引lucene索引是基于多个索引段创建，索引文件中绝大部分数据都是只写一次，读多次，而只有用于保存文档删除信息的文件才会被多次更改在某些时刻，当某种条件满足时，多个索引段会被拷贝合并到一个更大的索引段，而那些旧的索引段会被
Benjamin Bunny 2 Crisx
小兔本杰明2Thenhesuggestedthattheyshouldfillthepocket-handkerchiefwithonions,asalittlepresentforhisAunt.Peterdidnotseemtobeenjoyinghimself;hekepthearingnoises.每日一句Painpastispleasure.过去的痛苦即是快乐。翻译然后，他提议包一手帕洋
Touch Foam - Technical support 佩奇_3b9d
IfyouhaveanyquestionsorSuggestionsduringthegame,pleasecontactusthroughthefollowingcontactinformation.Contactphone：+8617151768845Contactemail：[email protected]
Lucece评分公式OKapi BM25原理解析(中) 双人余_先生
背景：延续上篇写了TF/IDF的公式解析，本篇为BM25解析简单介绍。BM25起源于概率相关性模型，而不是矢量空间模型，但是该算法与Lucene的实际评分功能有很多共同点。两者都使用Term词频率，逆文档频率和字段长度归一化，但是每个因素的定义都略有不同。与其详细解释BM25公式，不如将重点放在BM25提供的实际优势上。BM25是一个词袋检索功能，它基于每个文档中出现的查询词对一组文档进行排名，而
分布式搜索引擎Elasticsearch——基础敲代码的旺财架构进阶 elasticsearch java 搜索引擎 ES-head
文章目录一、Lucene与Solr与Elasticsearch二、ES核心术语三、ES核心概念四、倒排索引五、ES的安装（centos7）1、下载地址（这里安装linux版本）2、解压压缩包3、修改配置文件(1)修改核心配置文件(2)修改JVM配置文件4、启动ES(1)添加系统用户并授权(2)ES启动(3)修改配置文件(4)再次启动ES六、安装ES-head插件（可视化管理插件）1、使用谷歌市场安
docker部署Elasticsearch和Kibana youm. docker docker elasticsearch 容器
1.Elasticsearch和Kibana介绍1.1什么是Elasticsearch？Elasticsearch是一个开源的分布式搜索和分析引擎，用于处理大规模数据的实时搜索、分析和存储。它构建在ApacheLucene搜索引擎库的基础上，提供了一个RESTfulAPI和易于使用的工具，使得在大数据量情况下进行搜索和分析变得高效和简单。1.2为什么使用Elasticsearch？Elastics
Elasticsearch中文本字段与关键字字段的聚合和排序问题好奇的菜鸟 Elasticsearch elasticsearch 大数据搜索引擎
引言Elasticsearch是一个强大的搜索引擎，它基于Lucene构建，提供了全文搜索、分析、聚合等功能。然而，在使用Elasticsearch时，我们可能会遇到一些特定的问题，比如在文本字段上进行聚合和排序操作时出现的错误。本文将详细解释这个问题，并提供解决方案。问题概述在使用Elasticsearch进行数据分析时，我们可能会尝试对文本字段进行聚合或排序。但是，Elasticsearch默
单机安装 ELK 日志分析系统 TheFlsah Linux
一、ELK介绍ELKStack是软件集合Elasticsearch、Logstash、Kibana的简称，它们都是开源软件。新增了一个FileBeat，它是一个轻量级的日志收集处理工具(Agent)，Filebeat占用资源少，适合于在各个服务器上搜集日志后传输给Logstash，官方也推荐此工具。Elasticsearch是一个基于Lucene的、支持全文索引的分布式存储和索引引擎，主要负责将日
Elastic Search常用命令胖毁青春，瘦解百病 ES es
1测试环境信息ElasticSearch服务器：192.168.0.100用户：docker启停：dockerstart/stop/restartelasticsearchKibana控制台：http://192.168.0.100:5601/app/kibana#/dev_tools/console2基本概念Elasticsearch也是基于Lucene的全文检索库，本质也是存储数据，很多概念与
2021-12-22 席芙蓉
1.我的大学生活之大学英语学习（1）在这个学期大学英语学习中我的GPSgains：我学习到了英语听力的技巧，认识了很多新单词，掌握新知识problems：听力听不清，听力不抓重点，单词真难记suggestions：多听听力，丰富单词量（2）复盘带来的收获：进行总结，加深印象，条理更加清晰，知道自己的记笔记方面、上课听讲方面的不足（3）语伴小组交流带来的收获：了解他人学习方式，知道自己不足，加强同学
下拉提示（GoogleSuggest) xedcoing 技术 autocomplete function javascript string jquery class
样式：.autocomplete{width:200px;border:1pxsolid#999;background:white;position:absolute;overflow:hidden;list-style-type:none;padding-left:0;margin-left:0px;margin-top:0;}JS：（Jquery）var$autocomplete=$("").
Visual Studio Code 基本插件先new一个对象. vscode ide visual studio code
1、名称:Chinese(Simplified)(简体中文)；2、名称:AutoImport自动导包插件3、名称:Beautify格式化工具4、名称:BetterComments注释工具5、名称:ColorInfo在颜色上悬停光标，就可以预览色块中色彩模型的详细信息6、名称:CSScomb自动排序插件7、名称:ESLint能帮助我们自动整理代码格式8、名称:HTMLClassSuggestions
英语复盘苗_c419
1我的大学生活之大学英语学习1）在这个学期的大学英语学习中，我的GPS[Gains]我学习到了很多词语、句子、短语，认识到了许多多意的单词。[Problems]我还是没有掌握如何划分句子成分，没有大量的了解到单词词性，导致有些句子成分理不太清楚。[Suggestions]我可以多看看英语小说，大量了解句子成分。2）在这个学期的复盘日志中，我的收获是：我加深了对本单元的理解，单词的记忆3）在这个学期
2021-12-23 人文二班zxh
2021-2022第一学期复盘模版：1我的大学生活之大学英语学习1）在这个学期的大学英语学习中，我的GPS[Gains]Ilearnedalot.Ilearnedalotofinterestingstories[Problems]Donotunderstandsomewordsandsentences[Suggestions]TryhardertolearnEnglish2）在这个学期的复盘日志中
ELK离线安装和配置流程 GB9125 运维开发 elasticsearch elk linux 运维开发
ELK离线安装和配置流程一、介绍ELK是一个开源的数据分析和可视化工具，由三个开源项目组成：Elasticsearch、Logstash和Kibana。Elasticsearch是一个基于Lucene库的分布式搜索和分析引擎；Logstash是一个用于收集、处理和转换数据的数据管道，它可以从各种来源读取数据，包括日志文件、系统事件、网络流量等；Kibana则是一个数据可视化平台，可以对从Elast
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI PHP android linux
╔-----------------------------------╗┆
各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。 bozch .net .net mvc
在.net mvc5中，在执行某一操作的时候，出现了如下错误：各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。经查询当前的操作与错误内容无关，经过对错误信息的排查发现，事故出现在数据库迁移上。回想过去：在迁移之前已经对数据库进行了添加字段操作，再次进行迁移插入XXX字段的时候，就会提示如上错误。 &
Java 对象大小的计算 e200702084 java
Java对象的大小如何计算一个对象的大小呢？
Mybatis Spring 171815164 mybatis
ApplicationContext ac = new ClassPathXmlApplicationContext("applicationContext.xml"); CustomerService userService = (CustomerService) ac.getBean("customerService"); Customer cust
JVM 不稳定参数 g21121 jvm
-XX 参数被称为不稳定参数，之所以这么叫是因为此类参数的设置很容易引起JVM 性能上的差异，使JVM 存在极大的不稳定性。当然这是在非合理设置的前提下，如果此类参数设置合理讲大大提高JVM 的性能及稳定性。可以说“不稳定参数”
用户自动登录网站永夜-极光用户
1.目标:实现用户登录后,再次登录就自动登录,无需用户名和密码 2.思路:将用户的信息保存为cookie 每次用户访问网站,通过filter拦截所有请求,在filter中读取所有的cookie,如果找到了保存登录信息的cookie,那么在cookie中读取登录信息,然后直接
centos7 安装后失去win7的引导记录程序员是怎么炼成的操作系统
1.使用root身份(必须)打开 /boot/grub2/grub.cfg 2.找到 ### BEGIN /etc/grub.d/30_os-prober ### 在后面添加 menuentry "Windows 7 (loader) (on /dev/sda1)" {
Oracle 10g 官方中文安装帮助文档以及Oracle官方中文教程文档下载 aijuans oracle
Oracle 10g 官方中文安装帮助文档下载：http://download.csdn.net/tag/Oracle%E4%B8%AD%E6%96%87API%EF%BC%8COracle%E4%B8%AD%E6%96%87%E6%96%87%E6%A1%A3%EF%BC%8Coracle%E5%AD%A6%E4%B9%A0%E6%96%87%E6%A1%A3 Oracle 10g 官方中文教程
JavaEE开源快速开发平台G4Studio_V3.2发布了無為子 AOP oracle mysql javaee G4Studio
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V3.2版本已经正式发布。大家可以通过如下地址下载。访问G4Studio网站 http://www.g4it.org G4Studio_V3.2版本变更日志功能新增 (1).新增了系统右下角滑出提示窗口功能。 (2).新增了文件资源的Zip压缩和解压缩
Oracle常用的单行函数应用技巧总结百合不是茶日期函数转换函数(核心)数字函数通用函数(核心)字符函数
单行函数; 字符函数,数字函数,日期函数,转换函数(核心),通用函数(核心) 一:字符函数: .UPPER(字符串) 将字符串转为大写 .LOWER (字符串) 将字符串转为小写 .INITCAP(字符串) 将首字母大写 .LENGTH (字符串) 字符串的长度 .REPLACE(字符串,'A','_') 将字符串字符A转换成_
Mockito异常测试实例 bijian1013 java 单元测试 mockito
Mockito异常测试实例： package com.bijian.study; import static org.mockito.Mockito.mock; import static org.mockito.Mockito.when; import org.junit.Assert; import org.junit.Test; import org.mockito.
GA与量子恒道统计 Bill_chen JavaScript 浏览器百度 Google 防火墙
前一阵子，统计**网址时，Google Analytics（GA）和量子恒道统计（也称量子统计），数据有较大的偏差，仔细找相关资料研究了下，总结如下：为何GA和量子网站统计（量子统计前身为雅虎统计）结果不同？首先：没有一种网站统计工具能保证百分之百的准确出现该问题可能有以下几个原因：（1）不同的统计分析系统的算法机制不同；（2）统计代码放置的位置和前后
【Linux命令三】Top命令 bit1129 linux命令
Linux的Top命令类似于Windows的任务管理器，可以查看当前系统的运行情况，包括CPU、内存的使用情况等。如下是一个Top命令的执行结果： top - 21:22:04 up 1 day, 23:49, 1 user, load average: 1.10, 1.66, 1.99 Tasks: 202 total, 4 running, 198 sl
spring四种依赖注入方式白糖_ spring
平常的java开发中，程序员在某个类中需要依赖其它类的方法，则通常是new一个依赖类再调用类实例的方法，这种开发存在的问题是new的类实例不好统一管理，spring提出了依赖注入的思想，即依赖类不由程序员实例化，而是通过spring容器帮我们new指定实例并且将实例注入到需要该对象的类中。依赖注入的另一种说法是“控制反转”，通俗的理解是：平常我们new一个实例，这个实例的控制权是我
angular.injector boyitech AngularJS AngularJS API
angular.injector 描述: 创建一个injector对象, 调用injector对象的方法可以获得angular的service, 或者用来做依赖注入. 使用方法: angular.injector(modules, [strictDi]) 参数详解: Param Type Details mod
java-同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待 bylijinnan Integer
public class PC { /** * 题目：生产者-消费者。 * 同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待。 */ private static final Integer[] val=new Integer[10]; private static
使用Struts2.2.1配置 Chen.H apache spring Web xml struts
Struts2.2.1 需要如下 jar包: commons-fileupload-1.2.1.jar commons-io-1.3.2.jar commons-logging-1.0.4.jar freemarker-2.3.16.jar javassist-3.7.ga.jar ognl-3.0.jar spring.jar struts2-core-2.2.1.jar struts2-sp
[职业与教育]青春之歌 comsci 教育
每个人都有自己的青春之歌............但是我要说的却不是青春... 大家如果在自己的职业生涯没有给自己以后创业留一点点机会,仅仅凭学历和人脉关系,是难以在竞争激烈的市场中生存下去的.... &nbs
oracle连接(join)中使用using关键字 daizj JOIN oracle sql using
在oracle连接(join)中使用using关键字 34. View the Exhibit and examine the structure of the ORDERS and ORDER_ITEMS tables. Evaluate the following SQL statement: SELECT oi.order_id, product_id, order_date FRO
NIO示例 daysinsun nio
NIO服务端代码： public class NIOServer { private Selector selector; public void startServer(int port) throws IOException { ServerSocketChannel serverChannel = ServerSocketChannel.open(
C语言学习homework1 dcj3sjt126com c homework
0、课堂练习做完 1、使用sizeof计算出你所知道的所有的类型占用的空间。 int x; sizeof(x); sizeof(int); # include <stdio.h> int main(void) { int x1; char x2; double x3; float x4; printf(&quo
select in order by , mysql排序 dcj3sjt126com mysql
If i select like this: SELECT id FROM users WHERE id IN(3,4,8,1); This by default will select users in this order 1,3,4,8, I would like to select them in the same order that i put IN() values so:
页面校验-新建项目 fanxiaolong 页面校验
$(document).ready( function() { var flag = true; $('#changeform').submit(function() { var projectScValNull = true; var s =""; var parent_id = $("#parent_id").v
Ehcache（02）——ehcache.xml简介 234390216 ehcache ehcache.xml 简介
ehcache.xml简介 ehcache.xml文件是用来定义Ehcache的配置信息的，更准确的来说它是定义CacheManager的配置信息的。根据之前我们在《Ehcache简介》一文中对CacheManager的介绍我们知道一切Ehcache的应用都是从CacheManager开始的。在不指定配置信
junit 4.11中三个新功能 jackyrong java
junit 4.11中两个新增的功能，首先是注解中可以参数化，比如 import static org.junit.Assert.assertEquals; import java.util.Arrays; import org.junit.Test; import org.junit.runner.RunWith; import org.junit.runn
国外程序员爱用苹果Mac电脑的10大理由 php教程分享 windows PHP unix Microsoft perl
Mac 在国外很受欢迎，尤其是在设计/web开发/IT 人员圈子里。普通用户喜欢 Mac 可以理解，毕竟 Mac 设计美观，简单好用，没有病毒。那么为什么专业人士也对 Mac 情有独钟呢？从个人使用经验来看我想有下面几个原因： 1、Mac OS X 是基于 Unix 的这一点太重要了，尤其是对开发人员，至少对于我来说很重要，这意味着Unix 下一堆好用的工具都可以随手捡到。如果你是个 wi
位运算、异或的实际应用 wenjinglian 位运算
一．位操作基础，用一张表描述位操作符的应用规则并详细解释。二．常用位操作小技巧，有判断奇偶、交换两数、变换符号、求绝对值。三．位操作与空间压缩，针对筛素数进行空间压缩。 &n
weblogic部署项目出现的一些问题（持续补充中……） Everyday都不同 weblogic部署失败
好吧，weblogic的问题确实…… 问题一： org.springframework.beans.factory.BeanDefinitionStoreException: Failed to read candidate component class: URL [zip:E:/weblogic/user_projects/domains/base_domain/serve
tomcat7性能调优（01） toknowme tomcat7
Tomcat优化： 1、最大连接数最大线程等设置 <Connector port="8082" protocol="HTTP/1.1" useBodyEncodingForURI="t
PO VO DAO DTO BO TO概念与区别 xp9802 java DAO 设计模式 bean 领域模型
O/R Mapping 是 Object Relational Mapping（对象关系映射）的缩写。通俗点讲，就是将对象与关系数据库绑定，用对象来表示关系数据。在O/R Mapping的世界里，有两个基本的也是重要的东东需要了解，即VO，PO。它们的关系应该是相互独立的，一个VO可以只是PO的部分，也可以是多个PO构成，同样也可以等同于一个PO（指的是他们的属性）。这样，PO独立出来，数据持

Lucene5学习之Suggest关键字提示

你可能感兴趣的:(Lucene,suggest)