lucene5

elasticsearch relevance score algorithm (二) ：BM25

1.BM25BM25:bestmatching25使用场景：elasticsearch和lucene5之后默认的匹配得分算法。

virgil.wang·2024-01-15 00:08

Lucene5 学习笔记（3） —— 重用 IndexReader 和常用的搜索方法

优化IndexReader的使用下面的一个模式是我们经常使用的。相对于索引的创建而言，索引的搜索是使用频繁的。所以IndexReader是会经常使用的，所以我们很自然地想到应该将IndexReader设计成一个单例模式。但是索引增加、修改、删除以后，IndexReader须要重新读取索引信息，才能保证我们的索引信息是准确的，那有没有办法不用重新打开索引，就能保证我们的IndexReader是读取最

liweiwei1419·2020-07-11 12:37

Lucene5学习之TermRangeQuery使用

TermRangeQuery是用于字符串范围查询的，既然涉及到范围必然需要字符串比较大小，字符串比较大小其实比较的是ASC码值，即ASC码范围查询。一般对于英文来说，进行ASC码范围查询还有那么一点意义，中文汉字进行ASC码值比较没什么太大意义，所以这个TermRangeQuery了解就行，用途不太大，一般数字范围查询NumericRangeQuery用的比较多一点，比如价格，年龄，金额，数量等等

weixin_33719619·2020-06-28 03:56

Lucene5学习之TermQuery使用

首先来学习用下TermQuery,这是最简单的一个Query实现，即查询索引文档中是否包含了指定的Term,Lucene官方API注释里是这样说的：publicclassTermQueryextendsQueryAQuerythatmatchesdocumentscontainingaterm.ThismaybecombinedwithothertermswithaBooleanQuery.那什么

sc736031305·2020-06-26 07:28

Lucene5中编写自定义同义词分词器（基于IK中文分词器）

编写一个专门获取同义词的引擎：packagecom.daelly.sample.lucene.analyzer.custom;importjava.io.IOException;publicinterfaceSynonymEngine{String[]getSynonyms(Strings)throwsIOException;}packagecom.daelly.sample.lucene.ana

daelly·2017-01-08 10:24

Lucene5 Facet DrillDownQuery DrillSideways 学习

Facet是用来统计你的查询结果在某个事先索引的字段下的信息。比如你索引了一些本地文件，然后某个查询返回了1000个文件结果，其中包含100个txt，200个pdf，300个word，400个html。这时就可以有这些Facet信息.txt-100pdf-200word-300html-400这个内容可以显示在搜索的页面上。1.给Facet信息创建indexLucene实现的Facet需要在正常的

gaoshuaidage·2016-05-08 15:00

Lucene5 Facet DrillDownQuery DrillSideways 学习

gaoshuaidage·2016-05-08 15:00

Lucene5 Facet DrillDownQuery DrillSideways 学习

gaoshuaidage·2016-05-08 15:00

Lucene5学习之LuceneUtils工具类简单封装

花了整整一天时间，将Lucene5中有关索引的常见操作进行了简单封装，废话不多说，上代码：packagecom.yida.framework.lucene5.util; importjava.io.IOException

hj7jay·2016-05-03 10:00

lucene5.5根据现有分词器改造做同义词分词器

lucene5之后版本有了较大的改动，现将lucene5的同义词分词器改造代码和方式，记录一下功能加测试的类一共6个，一一介绍一下1同义词分词器类SameWordAnalyzer2同义词过滤器类SameWordFilter3

liuvlun·2016-04-01 09:21

打造自己的搜索引擎

Lucene做的是搜索，存储功能，用的是，Lucene5。IKAnalyz

linapex·2015-11-26 10:00

Lucene5学习之使用MMSeg4j分词器

MMSeg4j是一款中文分词器，详细介绍如下： 1、mmseg4j用Chih-HaoTsai的MMSeg算法(http://technology.chtsai.org/mmseg/)实现的中文分词器，并实现lucene的analyzer和solr的TokenizerFactory以方便在Lucene和Solr中使用。 2、MMSeg算法有两种分词方法：Simple和Complex，都

m635674608·2015-11-06 00:00

[置顶] Lucene5学习之LuceneUtils工具类简单封装

周六花了整整一下午，将Lucene5中有关索引的常见操作进行了简单封装，废话不多说，上代码：packagecom.yida.framework.lucene5.util; importjava.io.IOException

chao2263263364·2015-09-21 16:00

中文搜索引擎数据库TngouDB 0.2 beta 发布

TngouDB中文索引数据库0.2beta版本主要改进：1、数据存储引擎Lucene4更新到Lucene5。2、增加了并发增、删、改的功能。3、添加了返回状态码4、重构了回收链接已经关闭链接功能。

佚名·2015-07-01 13:23

跟益达学Solr5之拼音分词

其实在我的Lucene5系列博客里我已经介绍了拼音分词，遗憾的是，大家不能举一反三，好吧，还是我亲自上马吧！

lxwt909·2015-06-27 13:00

跟益达学Solr5之拼音分词

其实在我的Lucene5系列博客里我已经介绍了拼音分词，遗憾的是，大家不能举一反三，好吧，还是我亲自上马吧！

lxwt909·2015-06-27 13:00

Lucene4升级到lucene5的修改

今天把TngouDB的lucene的版本从4.12换到的5.2版本，没想到5版本与4版本不能完全兼容，不过调整的地方不大，但还是有修改的地方。修改一：IndexWriterConfig iwc = new IndexWriterConfig(analyzer);原来这里修改指定Lucene的版本，现在不需要了。原来由于不同的Lucene版本创建的索引文件不能共用。修改二：Directory

tngou·2015-06-16 11:00