E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
lucene5
elasticsearch relevance score algorithm (二) :BM25
1.BM25BM25:bestmatching25使用场景:elasticsearch和
lucene5
之后默认的匹配得分算法。
virgil.wang
·
2024-01-15 00:08
#
4.
数据结构与算法
elasticsearch
algorithm
bm25
Lucene5
学习笔记(3) —— 重用 IndexReader 和常用的搜索方法
优化IndexReader的使用下面的一个模式是我们经常使用的。相对于索引的创建而言,索引的搜索是使用频繁的。所以IndexReader是会经常使用的,所以我们很自然地想到应该将IndexReader设计成一个单例模式。但是索引增加、修改、删除以后,IndexReader须要重新读取索引信息,才能保证我们的索引信息是准确的,那有没有办法不用重新打开索引,就能保证我们的IndexReader是读取最
liweiwei1419
·
2020-07-11 12:37
lucene
Lucene5
学习之TermRangeQuery使用
TermRangeQuery是用于字符串范围查询的,既然涉及到范围必然需要字符串比较大小,字符串比较大小其实比较的是ASC码值,即ASC码范围查询。一般对于英文来说,进行ASC码范围查询还有那么一点意义,中文汉字进行ASC码值比较没什么太大意义,所以这个TermRangeQuery了解就行,用途不太大,一般数字范围查询NumericRangeQuery用的比较多一点,比如价格,年龄,金额,数量等等
weixin_33719619
·
2020-06-28 03:56
Lucene5
学习之TermQuery使用
首先来学习用下TermQuery,这是最简单的一个Query实现,即查询索引文档中是否包含了指定的Term,Lucene官方API注释里是这样说的:publicclassTermQueryextendsQueryAQuerythatmatchesdocumentscontainingaterm.ThismaybecombinedwithothertermswithaBooleanQuery.那什么
sc736031305
·
2020-06-26 07:28
Lucene
Lucene5
中编写自定义同义词分词器(基于IK中文分词器)
编写一个专门获取同义词的引擎:packagecom.daelly.sample.lucene.analyzer.custom;importjava.io.IOException;publicinterfaceSynonymEngine{String[]getSynonyms(Strings)throwsIOException;}packagecom.daelly.sample.lucene.ana
daelly
·
2017-01-08 10:24
Java进阶
Lucene5
Facet DrillDownQuery DrillSideways 学习
Facet是用来统计你的查询结果在某个事先索引的字段下的信息。比如你索引了一些本地文件,然后某个查询返回了1000个文件结果,其中包含100个txt,200个pdf,300个word,400个html。这时就可以有这些Facet信息.txt-100pdf-200word-300html-400这个内容可以显示在搜索的页面上。1.给Facet信息创建indexLucene实现的Facet需要在正常的
gaoshuaidage
·
2016-05-08 15:00
Lucene
Lucene5
Facet DrillDownQuery DrillSideways 学习
阅读更多Facet是用来统计你的查询结果在某个事先索引的字段下的信息。比如你索引了一些本地文件,然后某个查询返回了1000个文件结果,其中包含100个txt,200个pdf,300个word,400个html。这时就可以有这些Facet信息.txt-100pdf-200word-300html-400这个内容可以显示在搜索的页面上。1.给Facet信息创建indexLucene实现的Facet需要
gaoshuaidage
·
2016-05-08 15:00
lucene
Lucene5
Facet DrillDownQuery DrillSideways 学习
阅读更多Facet是用来统计你的查询结果在某个事先索引的字段下的信息。比如你索引了一些本地文件,然后某个查询返回了1000个文件结果,其中包含100个txt,200个pdf,300个word,400个html。这时就可以有这些Facet信息.txt-100pdf-200word-300html-400这个内容可以显示在搜索的页面上。1.给Facet信息创建indexLucene实现的Facet需要
gaoshuaidage
·
2016-05-08 15:00
lucene
Lucene5
学习之LuceneUtils工具类简单封装
花了整整一天时间,将
Lucene5
中有关索引的常见操作进行了简单封装,废话不多说,上代码:packagecom.yida.framework.lucene5.util; importjava.io.IOException
hj7jay
·
2016-05-03 10:00
java
javaweb
Lucene
工具类
util
lucene5.5根据现有分词器改造做同义词分词器
lucene5
之后版本有了较大的改动,现将
lucene5
的同义词分词器改造代码和方式,记录一下功能加测试的类一共6个,一一介绍一下1同义词分词器类SameWordAnalyzer2同义词过滤器类SameWordFilter3
liuvlun
·
2016-04-01 09:21
打造自己的搜索引擎
Lucene做的是搜索,存储功能,用的是,
Lucene5
。IKAnalyz
linapex
·
2015-11-26 10:00
java
Lucene
IKAnalyzer
引擎
搜素
Lucene5
学习之使用MMSeg4j分词器
MMSeg4j是一款中文分词器,详细介绍如下: 1、mmseg4j用Chih-HaoTsai的MMSeg算法(http://technology.chtsai.org/mmseg/)实现的中文分词器,并实现lucene的analyzer和solr的TokenizerFactory以方便在Lucene和Solr中使用。 2、MMSeg算法有两种分词方法:Simple和Complex,都
m635674608
·
2015-11-06 00:00
[置顶]
Lucene5
学习之LuceneUtils工具类简单封装
周六花了整整一下午,将
Lucene5
中有关索引的常见操作进行了简单封装,废话不多说,上代码:packagecom.yida.framework.lucene5.util; importjava.io.IOException
chao2263263364
·
2015-09-21 16:00
中文搜索引擎数据库TngouDB 0.2 beta 发布
TngouDB中文索引数据库0.2beta版本主要改进:1、数据存储引擎Lucene4更新到
Lucene5
。2、增加了并发增、删、改的功能。3、添加了返回状态码4、重构了回收链接已经关闭链接功能。
佚名
·
2015-07-01 13:23
跟益达学Solr5之拼音分词
其实在我的
Lucene5
系列博客里我已经介绍了拼音分词,遗憾的是,大家不能举一反三,好吧,还是我亲自上马吧!
lxwt909
·
2015-06-27 13:00
Solr
Pinyin
跟益达学Solr5之拼音分词
其实在我的
Lucene5
系列博客里我已经介绍了拼音分词,遗憾的是,大家不能举一反三,好吧,还是我亲自上马吧!
lxwt909
·
2015-06-27 13:00
Solr
Pinyin
Lucene4升级到
lucene5
的修改
今天把TngouDB的lucene的版本从4.12换到的5.2版本,没想到5版本与4版本不能完全兼容,不过调整的地方不大,但还是有修改的地方。修改一:IndexWriterConfig iwc = new IndexWriterConfig(analyzer);原来这里修改指定Lucene的版本,现在不需要了。原来由于不同的Lucene版本创建的索引文件不能共用。修改二:Directory
tngou
·
2015-06-16 11:00
Lucene5
搜索效果问题探究
今天在用Solr5.1测试检索时,发现一个奇怪的问题,便于大家对比,先介绍下散仙的环境:JDK1.7Lucene5.1Solr5.1分词器用的ik(改的ik源码)先看下测试的5条数据: id,name,count 1503486364953346048,北京奇虎测腾科技有限公司,1 1503486365060300800,北京奇虎网力科技有限公司,2 1503486365065543680
qindongliang1922
·
2015-06-09 21:00
Solr
Lucene
评分
Lucene5
搜索效果问题探究
今天在用Solr5.1测试检索时,发现一个奇怪的问题,便于大家对比,先介绍下散仙的环境:JDK1.7Lucene5.1Solr5.1分词器用的ik(改的ik源码)先看下测试的5条数据: id,name,count 1503486364953346048,北京奇虎测腾科技有限公司,1 1503486365060300800,北京奇虎网力科技有限公司,2 1503486365065543680
qindongliang1922
·
2015-06-09 21:00
Lucene
Solr
评分
Lucene5
搜索效果问题探究
今天在用Solr5.1测试检索时,发现一个奇怪的问题,便于大家对比,先介绍下散仙的环境:JDK1.7Lucene5.1Solr5.1分词器用的ik(改的ik源码)先看下测试的5条数据: id,name,count 1503486364953346048,北京奇虎测腾科技有限公司,1 1503486365060300800,北京奇虎网力科技有限公司,2 1503486365065543680
qindongliang1922
·
2015-06-09 21:00
Lucene
Solr
评分
Lucene5
搜索效果问题探究
今天在用Solr5.1测试检索时,发现一个奇怪的问题,便于大家对比,先介绍下散仙的环境:JDK1.7Lucene5.1Solr5.1分词器用的ik(改的ik源码)先看下测试的5条数据: id,name,count 1503486364953346048,北京奇虎测腾科技有限公司,1 1503486365060300800,北京奇虎网力科技有限公司,2 1503486365065543680
qindongliang1922
·
2015-06-09 21:00
Solr
Lucene
评分
Lucene5
搜索效果问题探究
今天在用Solr5.1测试检索时,发现一个奇怪的问题,便于大家对比,先介绍下散仙的环境:JDK1.7Lucene5.1Solr5.1分词器用的ik(改的ik源码)先看下测试的5条数据: id,name,count 1503486364953346048,北京奇虎测腾科技有限公司,1 1503486365060300800,北京奇虎网力科技有限公司,2 1503486365065543680
qindongliang1922
·
2015-06-09 21:00
Lucene
Solr
评分
Lucene5
搜索效果问题探究
今天在用Solr5.1测试检索时,发现一个奇怪的问题,便于大家对比,先介绍下散仙的环境:JDK1.7Lucene5.1Solr5.1分词器用的ik(改的ik源码)先看下测试的5条数据: id,name,count 1503486364953346048,北京奇虎测腾科技有限公司,1 1503486365060300800,北京奇虎网力科技有限公司,2 1503486365065543680
qindongliang1922
·
2015-06-09 21:00
Solr
Lucene
评分
Lucene5
学习之使用MMSeg4j分词器
MMSeg4j是一款中文分词器,详细介绍如下: 1、mmseg4j用Chih-HaoTsai的MMSeg算法(http://technology.chtsai.org/mmseg/)实现的中文分词器,并实现lucene的analyzer和solr的TokenizerFactory以方便在Lucene和Solr中使用。 2、MMSeg算法有两种分词方法:Simple和Compl
lxwt909
·
2015-04-30 15:00
Lucene
mmseg4j
Lucene5
学习之使用MMSeg4j分词器
MMSeg4j是一款中文分词器,详细介绍如下: 1、mmseg4j用Chih-HaoTsai的MMSeg算法(http://technology.chtsai.org/mmseg/)实现的中文分词器,并实现lucene的analyzer和solr的TokenizerFactory以方便在Lucene和Solr中使用。 2、MMSeg算法有两种分词方法:Simple和Compl
lxwt909
·
2015-04-30 15:00
Lucene
mmseg4j
Lucene5
学习之拼音搜索
今天来说说拼音检索,这个功能其实还是用来提升用户体验的,别的不说,最起码避免了用户切换输入法,如果能支持中文汉语拼音简拼,那用户搜索时输入的字符更简便了,用户输入次数少了就是为了给用户使用时带来便利。来看看一些拼音搜索的经典案例: 看了上面几张图的功能演示,我想大家也应该知道了拼音检索的作用以及为什么要使用拼音检索了。那接下来就来说说如何实现: 首先我们我们需要把分词器分出
lxwt909
·
2015-04-29 12:00
Lucene
Pinyin
Lucene5
学习之拼音搜索
今天来说说拼音检索,这个功能其实还是用来提升用户体验的,别的不说,最起码避免了用户切换输入法,如果能支持中文汉语拼音简拼,那用户搜索时输入的字符更简便了,用户输入次数少了就是为了给用户使用时带来便利。来看看一些拼音搜索的经典案例: 看了上面几张图的功能演示,我想大家也应该知道了拼音检索的作用以及为什么要使用拼音检索了。那接下来就来说说如何实现: 首先我们我们需要把分词器分出
lxwt909
·
2015-04-29 12:00
Lucene
Pinyin
Lucene5
学习之SpellCheck拼写纠错
趁着周末一个人没什么事,继续
Lucene5
系列的脚步,今天主题是Suggest模块下另一个功能:拼写纠错。什么叫拼写纠错?
lxwt909
·
2015-04-25 17:00
Lucene
spellcheck
Lucene5
学习之SpellCheck拼写纠错
趁着周末一个人没什么事,继续
Lucene5
系列的脚步,今天主题是Suggest模块下另一个功能:拼写纠错。什么叫拼写纠错?
lxwt909
·
2015-04-25 17:00
Lucene
spellcheck
Lucene5
学习之SpellCheck拼写纠错
趁着周末一个人没什么事,继续
Lucene5
系列的脚步,今天主题是Suggest模块下另一个功能:拼写纠错。什么叫拼写纠错?
·
2015-04-25 09:00
学习
lucene5
spellcheck
Lucene5
学习之Suggest关键字提示
首先需要搞清楚Suggest模块是用来解决什么问题的?Google我想大家都用过,当我们在搜索输入框里输入搜索关键字的时候,紧贴着输入框下方会弹出一个提示框,提示框里会列出TopN个包含当前用户输入的搜索关键字的搜索热词,如图: 这里说的不是前端的这种JS效果,而说的是输入一个关键字如何获取相关的搜索热词,至于js效果,自己GoogleJQuery自动补全插件,我以前玩过,这里关注的
lxwt909
·
2015-04-22 16:00
Lucene
suggest
Lucene5
学习之Suggest关键字提示
首先需要搞清楚Suggest模块是用来解决什么问题的?Google我想大家都用过,当我们在搜索输入框里输入搜索关键字的时候,紧贴着输入框下方会弹出一个提示框,提示框里会列出TopN个包含当前用户输入的搜索关键字的搜索热词,如图: 这里说的不是前端的这种JS效果,而说的是输入一个关键字如何获取相关的搜索热词,至于js效果,自己GoogleJQuery自动补全插件,我以前玩过,这里关注的
lxwt909
·
2015-04-22 16:00
Lucene
suggest
Lucene5
学习之Suggest关键字提示
首先需要搞清楚Suggest模块是用来解决什么问题的?Google我想大家都用过,当我们在搜索输入框里输入搜索关键字的时候,紧贴着输入框下方会弹出一个提示框,提示框里会列出TopN个包含当前用户输入的搜索关键字的搜索热词,如图: 这里说的不是前端的这种JS效果,而说的是输入一个关键字如何获取相关的搜索热词,至于js效果,自己GoogleJQuery自动补全插件,我以前玩过,这里关注的
lxwt909
·
2015-04-22 08:00
学习
suggest
lucene5
Lucene5
学习之Spatial地理位置搜索
现在手机APP满天飞,我想大家都用过这个功能:【搜索我附近的饭店或宾馆】之类的功能,类似这样的地理位置搜索功能非常适用,因为它需要利用到用户当前的地理位置数据,是以用户角度出发,找到符合用户自身需求的信息,应用返回的信息对于用户来说满意度会比较高,可见,地理位置空间搜索在提高用户体验方面有至关重要的作用。在Lucene中,地理位置空间搜索是借助Spatial模块来实现的。 要实现
lxwt909
·
2015-04-21 13:00
Lucene
spatial
Lucene5
学习之Spatial地理位置搜索
现在手机APP满天飞,我想大家都用过这个功能:【搜索我附近的饭店或宾馆】之类的功能,类似这样的地理位置搜索功能非常适用,因为它需要利用到用户当前的地理位置数据,是以用户角度出发,找到符合用户自身需求的信息,应用返回的信息对于用户来说满意度会比较高,可见,地理位置空间搜索在提高用户体验方面有至关重要的作用。在Lucene中,地理位置空间搜索是借助Spatial模块来实现的。 要实现
lxwt909
·
2015-04-21 13:00
Lucene
spatial
Lucene5
学习之Facet(续)
阅读更多默认Facet是统计落入某一组域值的总数的,然后按照总数从大到小排序,判定规则是域值是否相同,其实还可以根据域值是否在某个范围内来判定是否落入某一个分组。这里说的范围就是通过Range定义的,比如:/**1小时之前的毫秒数*/finalLongRangePAST_HOUR=newLongRange("Pasthour",this.nowSec-3600L,true,this.nowSec,
lxwt909
·
2015-04-19 16:00
Lucene
Facet
Lucene5
学习之Facet(续)
默认Facet是统计落入某一组域值的总数的,然后按照总数从大到小排序,判定规则是域值是否相同,其实还可以根据域值是否在某个范围内来判定是否落入某一个分组。这里说的范围就是通过Range定义的,比如:/**1小时之前的毫秒数*/ finalLongRangePAST_HOUR=newLongRange("Pasthour",this.nowSec-3600L, true,this.no
lxwt909
·
2015-04-19 16:00
Lucene
facet
Lucene5
学习之Facet(续)
默认Facet是统计落入某一组域值的总数的,然后按照总数从大到小排序,判定规则是域值是否相同,其实还可以根据域值是否在某个范围内来判定是否落入某一个分组。这里说的范围就是通过Range定义的,比如:/**1小时之前的毫秒数*/ finalLongRangePAST_HOUR=newLongRange("Pasthour",this.nowSec-3600L, true,this.no
lxwt909
·
2015-04-19 16:00
Lucene
facet
Lucene5
学习之Facet(续)
阅读更多默认Facet是统计落入某一组域值的总数的,然后按照总数从大到小排序,判定规则是域值是否相同,其实还可以根据域值是否在某个范围内来判定是否落入某一个分组。这里说的范围就是通过Range定义的,比如:/**1小时之前的毫秒数*/finalLongRangePAST_HOUR=newLongRange("Pasthour",this.nowSec-3600L,true,this.nowSec,
lxwt909
·
2015-04-19 16:00
Lucene
Facet
Lucene5
学习之Highlighte关键字高亮
Lucene5
中高亮功能相关API都在org.apache.lucene.search.highlight包下,我们先从简单的高亮器开始即Highlighter 透过Hightlighter类的源码
lxwt909
·
2015-04-18 16:00
Lucene
highlighter
Lucene5
学习之Highlighte关键字高亮
Lucene5
中高亮功能相关API都在org.apache.lucene.search.highlight包下,我们先从简单的高亮器开始即Highlighter 透过Hightlighter类的源码
lxwt909
·
2015-04-18 16:00
Lucene
highlighter
Lucene5
学习之Facet简单入门
阅读更多说到Facet,我还真找不到一个合适的中文词汇来描述它,英文翻译是方面,感觉不够贴切,大家也不必纠结它的中文叫法是啥,你只需要知道使用Facet能解决什么类型的问题就行了,来看几个典型的应用案例:看了上面几张图,大家应该知道Facet是用来干嘛的了,如果非要用语言描述Facet的用途,那Facet的用途就是根据域的域值进行分组统计,注意这里的域必须是FacetField,你Facet域的域
lxwt909
·
2015-04-16 17:00
Lucene
Facet
Lucene5
学习之Facet简单入门
说到Facet,我还真找不到一个合适的中文词汇来描述它,英文翻译是方面,感觉不够贴切,大家也不必纠结它的中文叫法是啥,你只需要知道使用Facet能解决什么类型的问题就行了,来看几个典型的应用案例: 看了上面几张图,大家应该知道Facet是用来干嘛的了,如果非要用语言描述Facet的用途,那Facet的用途就是根据域的域值进行分组统计,注意这里的域必须是FacetField,你Fa
lxwt909
·
2015-04-16 17:00
Lucene
facet
Lucene5
学习之Facet简单入门
说到Facet,我还真找不到一个合适的中文词汇来描述它,英文翻译是方面,感觉不够贴切,大家也不必纠结它的中文叫法是啥,你只需要知道使用Facet能解决什么类型的问题就行了,来看几个典型的应用案例: 看了上面几张图,大家应该知道Facet是用来干嘛的了,如果非要用语言描述Facet的用途,那Facet的用途就是根据域的域值进行分组统计,注意这里的域必须是FacetField,你Fa
lxwt909
·
2015-04-16 17:00
Lucene
facet
Lucene5
学习之Facet简单入门
阅读更多说到Facet,我还真找不到一个合适的中文词汇来描述它,英文翻译是方面,感觉不够贴切,大家也不必纠结它的中文叫法是啥,你只需要知道使用Facet能解决什么类型的问题就行了,来看几个典型的应用案例:看了上面几张图,大家应该知道Facet是用来干嘛的了,如果非要用语言描述Facet的用途,那Facet的用途就是根据域的域值进行分组统计,注意这里的域必须是FacetField,你Facet域的域
lxwt909
·
2015-04-16 17:00
Lucene
Facet
Lucene5
学习之创建索引入门示例
Lucene更新实在太快了,只好紧跟脚步开始学习
Lucene5
,花了点时间写了一个demo,就是程序根据用户提供的一个文件夹,读取该文件夹下的所有文件,然后读取文件里的内容写入索引。
ice86rain
·
2015-04-15 14:00
Lucene
Lucene5
学习之Group分组统计
阅读更多Group即分组,类似SQL里的groupby功能,Lucene中分组是通过内置的几种Collector结果集收集器实现的,有关group的结果集收集器都在org.apache.lucene.search.grouping包及其子包下,包含group关键字的Collector都是有关Group分组的结果收集器,如果你只需要统计如下这些分组信息:/**所有组的数量*/inttotalGrou
lxwt909
·
2015-04-15 12:00
Lucene
Group
Lucene5
学习之Group分组统计
Group即分组,类似SQL里的groupby功能,Lucene中分组是通过内置的几种Collector结果集收集器实现的,有关group的结果集收集器都在org.apache.lucene.search.grouping包及其子包下, 包含group关键字的Collector都是有关Group分组的结果收集器,如果你只需要统计如下这些分组信息:/**所有组的数量*/ inttotalG
lxwt909
·
2015-04-15 12:00
Lucene
group
Lucene5
学习之Group分组统计
阅读更多Group即分组,类似SQL里的groupby功能,Lucene中分组是通过内置的几种Collector结果集收集器实现的,有关group的结果集收集器都在org.apache.lucene.search.grouping包及其子包下,包含group关键字的Collector都是有关Group分组的结果收集器,如果你只需要统计如下这些分组信息:/**所有组的数量*/inttotalGrou
lxwt909
·
2015-04-15 12:00
Lucene
Group
Lucene5
学习之Group分组统计
Group即分组,类似SQL里的groupby功能,Lucene中分组是通过内置的几种Collector结果集收集器实现的,有关group的结果集收集器都在org.apache.lucene.search.grouping包及其子包下, 包含group关键字的Collector都是有关Group分组的结果收集器,如果你只需要统计如下这些分组信息:/**所有组的数量*/ inttotalG
lxwt909
·
2015-04-15 12:00
Lucene
group
上一页
1
2
3
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他