openjweb基于lucene3全文检索技术实现

openjweb基于Apache Lucene3.0的

全文索引技术实现方案

qq:29803446

一、为什么要使用全文索引技术？

在网站应用中，我们经常需要用到站内搜索的功能来查找指定的关键字。在网站的后台

存储中，信息可能存储的地方主要有：数据库表、HTML静态页面文件、word、pdf、excel、ppt、txt等文本文件中。

基于文件的全文检索当然是使用分词技术来实现。在Java开源产品中，Lucene是一个使用最广泛的全文搜索引擎，我们可以使用Lucene的API将文本的内容进行分词处理。经分词处理后，Lucene会将解析的分词增加到文件索引库中，然后我们可以通过分词查询技术，将与查询内容相关的文件检索出来。

那么对于数据库的全文检索如何实现？在企业的网站中，大量的动态信息是存储在数据库中的，例如新闻内容、知识库、商品信息等都是存储在数据库表中的。如果我们使用数据库的like ‘%关键词%’这种方式查找信息显然是不可取的，因为数据库对于 like ‘%关键词%’这种查询模式，数据库索引是起不到效果的，这样会严重影响查询的效率。所以对于数据库的全文检索，也应使用分词技术，在增加表记录的时候，将相关字段采用Lucene的分词技术增加到索引库中，并同时将记录的ID和对应的访问连接也同时加入到索引库中，我们就可以在查询关键词的时候，将对应信息的访问连接同时查找出来，这样就起到全文检索的效果。

二、网站内容管理系统(CMS)全文检索技术实现

在网站内容管理系统中，信息的正文一般是存储在数据库表中，信息表的结构一般包括

信息ID、标题、摘要、正文、所属栏目、关键词、作者、来源等字段。在信息发布的流程中，主要包括信息的编辑、送审、审批、发布、取消发布、信息删除等环节。信息正式发布的时候，除了需要生成此信息对应的html文件，还要将对信息的标题、摘要、正文等字段进行分词处理，这是为了在信息发布以后，可通过站内搜索功能，将查询内容关联的信息条目查找出来。在删除信息或取消发布时，还要将对应信息的分词从索引库中删除。

因为操作索引库的同时Lucene会对索引文件加锁，所以增加和删除索引库会导致并发问题，一旦索引库被锁定，则其他用户发布信息的时候就不能将词条增加到索引库中，所以我们在信息发布和取消发布的时候，只需要把发布或删除的信息记录到索引库待处理队列中，由定时器定时处理。

整个全文检索的实现需要设计以下功能：

（1）索引库初始化工具：清空索引库，主要用于系统初始化的时候。

（2）定时器及索引队列：定时处理索引队列，对增加的信息，向索引库中添加分词，对删除或取消发布的信息，从索引库中删除分词。

（3）分词处理：主要用于添加分词、删除分词。对于内容管理系统而言，如果一篇文章如果带有word等附件，附件的正文也要参与分词处理。

（4）分词查询：提供带分页功能的关键词查找。

下面具体介绍全文检索功能的实现：

（1） 索引库初始化：指定一个目录，创建Lucene的分词库文件。全文检索必须有索引库文件才能进行增加索引、删除索引和进行索引查询等操作。下面是初始化分词库代码：

public static void initIndex(String dir) throws CorruptIndexException, LockObtainFailedException, IOException

{

IndexWriter writer; // new index being built

try

{

File file = new File(dir);

file.mkdirs();

}

catch(Exception ex)

{

logger.error("创建目录失败!");

}

writer = new IndexWriter(FSDirectory.open(new File(dir)), new StandardAnalyzer(Version.LUCENE_CURRENT), true,

new IndexWriter.MaxFieldLength(1000000));

writer.optimize();

writer.close();

}

(2) 索引队列数据库设计：

索引队列表Comm_Lucene_queue的表结构（只列出主要字段）：

字段	字段中文名	字段说明
Entity_name	表名	对于内容管理系统，主要是信息表需要处理全文检索，但系统还需支持对其他数据库表进行全文检索，所以设置一个表名字段用于区分
Entity_row_id	记录ID	记录要处理的表的哪条记录，用唯一行号区分。
Index_oper_type	全文检索处理方式	标识增加分词用add,标识删除分词用delete
Create_dt	队列创建时间	记录本条队列创建的日期+时分秒+毫秒，用于标识处理顺序

全文检索的定时器只需要定时处理这个数据库表的队列信息就可以了，处理完毕后，删除已处理的记录。定时器可以设置每几分钟读取几千条队列信息进行处理，处理队列信息就是根据index_oper_type来区分是增加分词还是删除分词，然后根据entity_name和row_id来确认处理哪个数据库表的哪条记录。因为对于信息表，在设计时就已经确认需要对标题、摘要、正文等字段进行分词，那么如果对于其他数据库表，系统如何知道哪些表的哪些字段需要分词呢？我们可以单独设置一个表字段信息配置表来标识哪些表哪些字段需要分词。下面是对数据库表字段基本信息表中增加的全文检索设置字段:

字段	字段中文名	字段说明
Table_name	数据库表名
Column_name	表字段名
Is_search	是否参与全文检索	如果字段参与全文检索，则需要设置是否分词和是否在索引库中存储字段值。
Is_lucene_analyzed	是否做分词解析	对于全文检索，如作者，信息ID,创建时间，对应的url都不需分词解析，因为这些字段拆分是没意义的，但需要存储到索引库
Is_lucene_indx	是否存储分词	对于大文本的正文一般只做分词，不存储。例如对于信息表，正文字段做分词处理，但不存储，信息ID做存储（存储在索引库而不是数据库），但不分词。

在这里顺便说明一下索引库的优化，因为Lucene索引库的增加和删除都需要打开和关闭索引文件，所以在处理索引队列时，不是每读一条记录就打开和关闭一次索引库，而是首先打开索引文件，然后按队列的记录信息逐条做增加或删除分词，知道本次查询的所有队列处理完毕后再优化和关闭索引文件。见下面的代码:

//第一步：首先打开索引文件

String indexPath = ServiceLocator.getSysConfigService().getStringValueByParmName("luceneIndexDir");

IndexWriter writer = null;

writer = new IndexWriter(FSDirectory.open(new File(indexPath)), new StandardAnalyzer(Version.LUCENE_CURRENT),false,

new IndexWriter.MaxFieldLength(1000000));

writer.setMergeFactor(100);

writer.setMaxBufferedDocs(50);

writer.setMaxMergeDocs(2000);

//第二步：索引队列处理（代码略）

//第三步：优化和关闭索引库

writer.optimize();//优化索引库

writer.close(); //关闭索引库

……

(3)分词处理

【删除分词】

关于分词的删除比较简单，当信息记录删除后，根据信息记录的唯一行号在分词库中查到对应的记录，然后删除分词：

String indexPath = ServiceLocator.getSysConfigService().getStringValueByParmName("luceneIndexDir");

String filePath = ServiceLocator.getSysConfigService().getStringValueByParmName("searchRoot");

Query query = null;

IndexReader reader = IndexReader.open(FSDirectory.open(new File(indexPath)), true);

IndexSearcher searcher = null;

searcher = new IndexSearcher(reader);

Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_CURRENT);

//根据信息id查找对应的索引条目

QueryParser qp = new QueryParser(Version.LUCENE_CURRENT,"id", analyzer);

query = qp.parse(infoId);

//删除对应的索引

writer.deleteDocuments(query);

【增加分词】

在信息发布过程中，每条发布的信息已生成了对应的静态页面，为了让访问网站的用户能够在站内搜索中根据查询关键字查找到这条信息，需要增加此信息对应的分词，因为发布信息时，系统会往索引处理队列中插入记录，所以如果从队列中读取到标识为”add”的记录，就会执行增加分词操作，增加分词的基本处理逻辑就是根据信息ID,找到数据库中对应的记录，然后将表字段的值赋予给Lucene的Field(域)，然后构造一个Lucene特有的Document对象写入到索引库中。看下面的代码片段：

//首先创建一个Document对象。

Document doc = new Document();

IndexReader reader = IndexReader.open(FSDirectory.open(new File(indexPath)), true);

Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_CURRENT);

//添加Path域，这个非常重要，实际值是此信息对应的URL访问连接。Path域不需要分词，但//要存储,Index.NOT_ANALYZED表示不需要分词，Field.Store.YES表示需存储。

doc.add(new Field("path", infEnt.getInfUrl(), Field.Store.YES,Field.Index.NOT_ANALYZED));

//增加标题域，信息在页面中显示的标题文字

doc.add(new Field("title", infEnt.getInfTitle(), Field.Store.YES, Field.Index.ANALYZED));

//增加摘要域,Field.Store.YES表示需存储，Field.Index.ANALYZED表示需分词。

String summary = infEnt.getInfSummary();

if(summary==null)summary="";//空值是不能建立索引的

doc.add(new Field("summary", summary, Field.Store.YES, Field.Index.ANALYZED));//或者取正文的某段做摘要。

……

//对于正文的处理：获取信息表的正文字段，如果有附件，根据附件格式//(word,pdf,excel,ppt,txt等)调用对应的正文读取器获取这些文件的正文，再加上信息//表的正文作为contents域的值参与分词解析，这样查询时，无论是正文还是附件，只要有对//应的关键词都可以被检索出来。如果信息是一个外部连接，可使用org.htmlparser包的API将对应html连接的正文获取下来，加入到contents中。

doc.add(new Field("contents", buffer.toString(), Field.Store.NO, Field.Index.ANALYZED));//其中bugger.toString()是正文+附件的内容。

//增加ID表示域，增加这个用于区分对哪个索引条目进行处理，删除信息时，需要查找id值以便删除对应的索引分词。

doc.add(new Field("id", infoId, Field.Store.NO, Field.Index.NOT_ANALYZED));

//将增加的索引分词添加到索引库

writer.addDocument(doc);

说明：Field域的标识是可以自己定义的，如上面的title,path,contents域，具体根据业务需要来定义，但定义的域一般都需要在编程中使用，否则就没有意义。

(4)分词查询

分词查询实际就是全文检索的最终目标，可以在网站的页面上输入关键词进行全文检索，简单的站内检索一般是针对正文关键词进行检索，如果设计的复杂一点，还可以按标题、作者、发布日期、摘要、信息分类等进行全文检索。分词查询需要实现：搜索条件输入页面、查询结果页面（带分页的）、后台分词查询算法。

一般首页、主要的二级页面都有站内搜索的输入框，如下图：

点击搜索后，系统将搜索参数提交到MVC控制层中进行全文检索查询，查询后返回搜索的结果页面，搜索结果页面必须是带分页功能，因为查询出来的匹配的记录可能会很多，另外搜索出来的每条信息都应有标题、摘要、查询出来符合条件的记录数，点击信息标题后可以连接到详细信息的查看页面。通过全文检索查询的效率比数据库直接查询效率会高出很多，查询出几万条符合条件记录需要的时间基本都在毫秒级。见下图查询结果页：

对Lucene的全文检索效率可到http://www.culturalink.gov.cn/ 中国文化网的首页上体验一下查询效率，使用“中国”作为查询内容大概可查到两万多条记录。

具体的分词查询和分页算法的代码就不在这里赘述了。

三、带权限的全文检索

带权限的全文检索的实现也比较简单，可以首先设置每条信息应该归什么权限访问，例如某条信息的可以由AUTH_1,AUTH_2权限码访问，则在增加索引库的时候可添加一个名为auth_id的Field域，域的值为按逗号隔开的权限码，如auth_1,auth_2，在信息查询的时候，检查当前用户的权限集合是否有这些权限，在分词查询逻辑中增加对auth_id域的权限判断，就可以过滤掉自己无权查看的记录。

ElasticSearch 谈谈你对段合并的策略思想的认识用心去追梦 elasticsearch 大数据搜索引擎
段合并是Elasticsearch中的一个重要概念，它在数据索引和查询过程中起着关键的作用。Elasticsearch使用Lucene作为其全文搜索库，Lucene中使用的数据结构就是段（Segment）合并。段合并的策略思想主要体现在以下几个方面：提高查询性能：在Elasticsearch中，段合并的过程可以看作是对索引进行优化，通过合并将多个小的段合并成一个大的段，这样可以减少内存的使用，提高
ES架构及原理李澎昆 ES ES
Elasticsearch是一个兼有搜索引擎和NoSQL数据库功能的开源系统，基于Java/Lucene构建，可以用于全文搜索，结构化搜索以及近实时分析。说明：Lucene：只是一个框架，要充分利用它的功能，需要使用JAVA，并且在程序中集成Lucene，学习成本高，Lucene确实非常复杂。Elasticsearch是面向文档型数据库，这意味着它存储的是整个对象或者文档，它不但会存储它们，还会为
Elasticsearch段合并喵喵喵更多 java 运维分布式后端
欢迎访问本人博客查看原文：http://wangnan.techelasticsearch中每个索引都会创建一个到多个分片和零个到多个副本，这些分片或副本实质上都是lucene索引lucene索引是基于多个索引段创建，索引文件中绝大部分数据都是只写一次，读多次，而只有用于保存文档删除信息的文件才会被多次更改在某些时刻，当某种条件满足时，多个索引段会被拷贝合并到一个更大的索引段，而那些旧的索引段会被
Lucece评分公式OKapi BM25原理解析(中) 双人余_先生
背景：延续上篇写了TF/IDF的公式解析，本篇为BM25解析简单介绍。BM25起源于概率相关性模型，而不是矢量空间模型，但是该算法与Lucene的实际评分功能有很多共同点。两者都使用Term词频率，逆文档频率和字段长度归一化，但是每个因素的定义都略有不同。与其详细解释BM25公式，不如将重点放在BM25提供的实际优势上。BM25是一个词袋检索功能，它基于每个文档中出现的查询词对一组文档进行排名，而
分布式搜索引擎Elasticsearch——基础敲代码的旺财架构进阶 elasticsearch java 搜索引擎 ES-head
文章目录一、Lucene与Solr与Elasticsearch二、ES核心术语三、ES核心概念四、倒排索引五、ES的安装（centos7）1、下载地址（这里安装linux版本）2、解压压缩包3、修改配置文件(1)修改核心配置文件(2)修改JVM配置文件4、启动ES(1)添加系统用户并授权(2)ES启动(3)修改配置文件(4)再次启动ES六、安装ES-head插件（可视化管理插件）1、使用谷歌市场安
docker部署Elasticsearch和Kibana youm. docker docker elasticsearch 容器
1.Elasticsearch和Kibana介绍1.1什么是Elasticsearch？Elasticsearch是一个开源的分布式搜索和分析引擎，用于处理大规模数据的实时搜索、分析和存储。它构建在ApacheLucene搜索引擎库的基础上，提供了一个RESTfulAPI和易于使用的工具，使得在大数据量情况下进行搜索和分析变得高效和简单。1.2为什么使用Elasticsearch？Elastics
Elasticsearch中文本字段与关键字字段的聚合和排序问题好奇的菜鸟 Elasticsearch elasticsearch 大数据搜索引擎
引言Elasticsearch是一个强大的搜索引擎，它基于Lucene构建，提供了全文搜索、分析、聚合等功能。然而，在使用Elasticsearch时，我们可能会遇到一些特定的问题，比如在文本字段上进行聚合和排序操作时出现的错误。本文将详细解释这个问题，并提供解决方案。问题概述在使用Elasticsearch进行数据分析时，我们可能会尝试对文本字段进行聚合或排序。但是，Elasticsearch默
单机安装 ELK 日志分析系统 TheFlsah Linux
一、ELK介绍ELKStack是软件集合Elasticsearch、Logstash、Kibana的简称，它们都是开源软件。新增了一个FileBeat，它是一个轻量级的日志收集处理工具(Agent)，Filebeat占用资源少，适合于在各个服务器上搜集日志后传输给Logstash，官方也推荐此工具。Elasticsearch是一个基于Lucene的、支持全文索引的分布式存储和索引引擎，主要负责将日
Elastic Search常用命令胖毁青春，瘦解百病 ES es
1测试环境信息ElasticSearch服务器：192.168.0.100用户：docker启停：dockerstart/stop/restartelasticsearchKibana控制台：http://192.168.0.100:5601/app/kibana#/dev_tools/console2基本概念Elasticsearch也是基于Lucene的全文检索库，本质也是存储数据，很多概念与
ELK离线安装和配置流程 GB9125 运维开发 elasticsearch elk linux 运维开发
ELK离线安装和配置流程一、介绍ELK是一个开源的数据分析和可视化工具，由三个开源项目组成：Elasticsearch、Logstash和Kibana。Elasticsearch是一个基于Lucene库的分布式搜索和分析引擎；Logstash是一个用于收集、处理和转换数据的数据管道，它可以从各种来源读取数据，包括日志文件、系统事件、网络流量等；Kibana则是一个数据可视化平台，可以对从Elast
Elasticsearch详解es 思静语 elasticsearch elasticsearch 大数据搜索引擎
文章目录概述es架构为什么要使用ElasticSearchElasticSearch的优势使用场景es为什么这么快倒排索引如何保证ES和数据库的数据一致性监听binlog同步双写elasticsearch是如何实现master选举的Elasticsearch与Solr的区别概述ES全称是ElasticSearch，它是一个建立在全文搜索引擎库Lucene基础上的开源搜索和分析引擎。ES它本身具有分
Java——ikanalyzer分词·只用自定义词库 weixin_30902251 java 数据库 c/c++
需要包：IKAnalyzer2012_FF_hf1.jarlucene-core-5.5.4.jar需要文件：IKAnalyzer.cfg.xmlext.dicstopword.dic整理好的下载地址：http://download.csdn.net/detail/talkwah/9770635importjava.io.IOException;importjava.io.StringReader
Lucene实现自定义中文同义词分词器 WangJonney Lucene Lucene
----------------------------------------------------------lucene的分词_中文分词介绍----------------------------------------------------------Paoding:庖丁解牛分词器。已经没有更新了mmseg:使用搜狗的词库1.导入包（有两个包：1.带dic的，2.不带dic的）如果使用
选型搜索引擎之参考Elasticsearch 剑飞的编程思维 elasticsearch
简介Elasticsearch（简称ES）是一个基于ApacheLucene的开源、分布式、RESTful接口的全文搜索引擎。其设计用于云计算环境，能够达到实时搜索、稳定、可靠、快速、安装使用方便的效果。Elasticsearch是用Java开发的，并作为Apache许可条款下的开放源码发布，是当前流行的企业级搜索引擎。Elasticsearch的特点包括：分布式存储和搜索：Elasticsear
从入门到精通：Elasticsearch开发实践教程青年老年程序员 Elasticsearch学习 elasticsearch jenkins 大数据
Elasticsearch是一款开源的搜索引擎，它使用Lucene搜索库作为其核心搜索引擎。Elasticsearch使用RESTfulAPI进行交互，并支持多种数据类型的搜索和聚合。本教程将介绍Elasticsearch的基本原理，如何开发，以及如何在SpringBoot中使用Elasticsearch。Elasticsearch的原理Elasticsearch是一个分布式的文档存储和搜索引擎。
深入理解Lucene：开源全文搜索引擎的核心技术解析一休哥助手分布式系统算法搜索引擎 lucene 开源
1.介绍Lucene是什么？Lucene是一个开源的全文搜索引擎库，提供了强大的文本搜索和检索功能。它由Apache软件基金会维护和开发，采用Java语言编写，因其高性能、可扩展性和灵活性而备受欢迎。Lucene的作用和应用场景Lucene主要用于创建全文索引和执行文本搜索。其主要作用包括但不限于：在大型文本数据集中快速进行文本搜索和检索。实现网站、应用程序或系统中的搜索功能。构建文档管理系统、知
Elasticsearch基础知识与架构概述禅与计算机程序设计艺术 elasticsearch 架构 jenkins 大数据搜索引擎
1.背景介绍Elasticsearch是一个基于分布式搜索和分析引擎，它可以处理大量数据并提供实时搜索功能。在本文中，我们将深入了解Elasticsearch的基础知识和架构概述，并探讨其核心概念、算法原理、最佳实践、实际应用场景和未来发展趋势。1.背景介绍Elasticsearch是一款开源的搜索引擎，由ElasticCorporation开发。它基于Lucene库，具有高性能、可扩展性和实时性
视野 | OpenSearch，云厂商的新选择？ RadonDB 数据库搜索引擎 elasticsearch
王奇顾问软件工程师目前从事PaaS中间件服务（Redis/MongoDB/ELK等）开发工作，对NoSQL数据库有深入的研究以及丰富的二次开发经验，热衷对NoSQL数据库领域内的最新技术动态的学习，能够把握行业技术发展趋势。|最流行的全文搜索引擎Elasticsearch是一款广泛使用的开源分布式全文搜索引擎，源于ApacheLucene[1]，许可证为Apache2.0。由于出色的搜索引擎、高扩
Elasticsearch使用场景说明车马去闲闲丶 elasticsearch 大数据搜索引擎
Elasticsearch是一个基于Lucene的搜索服务器。它提供了一个分布式多租户能力的全文搜索引擎，基于RESTfulweb接口。Elasticsearch是用Java开发的，并作为Apache许可条款下的开放源码发布，是当前流行的企业级搜索引擎。它设计用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。以下是一些Elasticsearch的常见使用场景：全文搜索：Elastic
ElasticSearch学习笔记重生之Java再爱我一次 elasticsearch 学习笔记
ElasticSearch一、初识ES1.什么是ElasticSearch？ES的概念：ElasticSearch是一款非常强大的开源搜索引擎，可以帮助我们从海量数据中快速找到需要的内容。ElasticSearch结合Kibana、LogStach、Beats，也就是ElasticStack（ELK）。被广泛应用在日志数据分析、实时监控等领域。ES的发展：Lucene是一个Java语言的搜索引擎类
solr —— 1 全文检索Solr8.0第一部分苏打饼干没加心 solr
solr，毕设啊，快被写完吧1solr介绍什么是solrLucene与Solr与ES为什么要用slor2HelloWorld2.1项目安装部署2.2项目安装配置创建核心创建document(表)添加文件查询数据3solr后台管理页面详解控制面板5全文检索千万级别数据实战，全面剖析架构设计，大数据瓶颈突破6数据库导入索引BV1Dt411G7eF1solr介绍什么是solrsolr简化了程序员的操作L
（三十七）大数据实战——Solr服务的部署安装厉害哥哥吖大数据大数据 solr
前言Solr是一个基于ApacheLucene的开源搜索平台，它提供了强大的全文搜索、分布式搜索和数据分析功能。Solr可以用于构建高性能的搜索应用程序，支持从海量数据中快速检索和分析信息。Solr使用倒排索引和先进的搜索算法，可实现快速而准确的全文搜索。Solr可以在多个服务器上进行水平扩展，实现分布式搜索和负载均衡。Solr支持复杂的过滤、排序和范围查询，使您可以根据各种条件对搜索结果进行精确
《ElasticSearch技术解析与实战-朱林》云澜哥哥 ElasticSearch elasticsearch big data
《第一章：ElasticSearch入门》ElasticSearch简介：ElasticSearch是一个基于lucener构建的开源的，分布式的，resultful接口全文搜索引擎。ElasticSearch是一个分布式文档数据库。其中每个字段都是可以被索引的数据且可被搜索。ElasticSearch能够扩展到数以百计的服务器存储以及处理PB级的数据，它可以在很短的时间内存储，搜索，分析大量的数
阿里P8架构师谈：开源搜索引擎Lucene、Solr、Sphinx等优劣势比较 liuhuiteng 中间件中间件
开源搜索引擎分类1.Lucene系搜索引擎，java开发,包括：LuceneSolrElasticsearchKatta、Compass等都是基于Lucene封装。你可以想象Lucene系有多强大。2.Sphinx搜素引擎，c++开发,简单高性能。以下重点介绍最常用的开源搜素引擎：Lucene、Solr、Elasticsearch、Sphinx的特点和优劣势选型比较。Lucene1.Lucene简
16款开源的全文搜索引擎网络安全乔妮娜开源搜索引擎网络安全 web安全数据库安全前端
网络安全重磅福利：入门&进阶全套282G学习资源包免费分享！全文搜索引擎就是通过从互联网上提取的各个网站的信息（以网页文字为主）而建立的数据库中，检索与用户查询条件匹配的相关记录，然后按一定的排列顺序将结果返回给用户。1、ApacheLuceneJava全文搜索框架许可证：Apache-2.0开发语言：Java官网：https://lucene.apache.org/ApacheLucene是完全
Lucene初识 KhaosYang
Lucene是一种高性能、可伸缩的信息搜索（IR）库，在2000年开源，最初由鼎鼎大名的DougCutting开发，是基于Java实现的高性能的开源项目。Lucene采用了基于倒排表的设计原理，可以非常高效地实现文本查找，在底层采用了分段的存储模式，使它在读写时几乎完全避免了锁的出现，大大提升了读写性能。核心模块Lucene的写流程和读流程如图1所示。1.Lucene读写流程图其中，虚线箭头（A、
03-03 elasticsearch nan得糊涂
入门篇使用场景海量存储：支持分布式存储实时搜索：lucene倒排索引，海量数据下近乎实时搜索a.日志分析，es+logstash+kibanab.Github代码数据分析：支持数据分析及处理基本功能分布式的搜索引擎和数据分析引擎全文检索，结构化检索，数据分析海量数据实时处理根据这些功能，可以实现的使用场景某张表有海量数据，需要实时快速查询数据分析带来的问题ES用在海量数据实时查询，基本的数据分析等
Error CREATEing SolrCore 'index': Unable to create core: index Caused by: No enum constant org.apach 杉斯狼后台 Java solr enum 索引 lucene
ErrorCREATEingSolrCore'index':Unabletocreatecore:indexCausedby:Noenumconstantorg.apache.lucene.util.Version.LUCENE_48出错原因：solr版本配置不正确解决方法：在索引文件的目录下conf>solrconfig.xml4.8将4.8修改为4.7（你具体的版本，可以参照collectio
Elasticsearch的使用场景深入详解 Y T elasticsearch
Elasticsearch是一个基于Lucene的开源搜索引擎，它提供了一个分布式多用户能力，能够处理PB级别的结构化或非结构化数据。Elasticsearch的设计目标是实现一个可扩展的搜索解决方案，它适用于多种使用场景，以下是一些深入的使用场景详解：1.日志分析与监控Elasticsearch与Logstash和Kibana（统称为ELKStack）结合使用，可以构建强大的日志分析平台。它能够
Elasticsearch—概念、安装和配置 Sunflow007
13.jpg前言：Elasticsearch是一款很火热的，很优秀的，基于lucene的开源的分布式的搜索引擎，话不多说，本篇文章主要是Elasticsearch基本概念介绍、安装和配置。Elasticsearch的基本概念官方文档——BasicConcepts|ElasticsearchReference[6.4]|Elastic我们在学习关系型数据库和服务器的时候，接触到了一些概念如：data
HQL之投影查询归来朝歌 HQL Hibernate 查询语句投影查询
在HQL查询中，常常面临这样一个场景，对于多表查询，是要将一个表的对象查出来还是要只需要每个表中的几个字段，最后放在一起显示？针对上面的场景，如果需要将一个对象查出来： HQL语句写“from 对象”即可 Session session = HibernateUtil.openSession();
Spring整合redis bylijinnan redis
pom.xml <dependencies>  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redi
org.hibernate.NonUniqueResultException: query did not return a unique result: 2 0624chenhong Hibernate
参考：http://blog.csdn.net/qingfeilee/article/details/7052736 org.hibernate.NonUniqueResultException: query did not return a unique result: 2 在项目中出现了org.hiber
android动画效果不懂事的小屁孩 android动画
前几天弄alertdialog和popupwindow的时候，用到了android的动画效果，今天专门研究了一下关于android的动画效果，列出来，方便以后使用。 Android 平台提供了两类动画。一类是Tween动画，就是对场景里的对象不断的进行图像变化来产生动画效果（旋转、平移、放缩和渐变）。第二类就是 Frame动画，即顺序的播放事先做好的图像，与gif图片原理类似。
js delete 删除机理以及它的内存泄露问题的解决方案换个号韩国红果果 JavaScript
delete删除属性时只是解除了属性与对象的绑定，故当属性值为一个对象时，删除时会造成内存泄露（其实还未删除）举例： var person={name:{firstname:'bob'}} var p=person.name delete person.name p.firstname -->'bob' // 依然可以访问p.firstname，存在内存泄露
Oracle将零干预分析加入网络即服务计划蓝儿唯美 oracle
由Oracle通信技术部门主导的演示项目并没有在本月较早前法国南斯举行的行业集团TM论坛大会中获得嘉奖。但是，Oracle通信官员解雇致力于打造一个支持零干预分配和编制功能的网络即服务（NaaS）平台，帮助企业以更灵活和更适合云的方式实现通信服务提供商（CSP）的连接产品。这个Oracle主导的项目属于TM Forum Live!活动上展示的Catalyst计划的19个项目之一。Catalyst计
spring学习——springmvc（二） a-john springMVC
Spring MVC提供了非常方便的文件上传功能。 1，配置Spring支持文件上传： DispatcherServlet本身并不知道如何处理multipart的表单数据，需要一个multipart解析器把POST请求的multipart数据中抽取出来，这样DispatcherServlet就能将其传递给我们的控制器了。为了在Spring中注册multipart解析器，需要声明一个实现了Mul
POJ-2828-Buy Tickets aijuans ACM_POJ
POJ-2828-Buy Tickets http://poj.org/problem?id=2828 线段树，逆序插入 #include<iostream>#include<cstdio>#include<cstring>#include<cstdlib>using namespace std;#define N 200010struct
Java Ant build.xml详解 asia007 build.xml
1,什么是antant是构建工具2,什么是构建概念到处可查到，形象来说，你要把代码从某个地方拿来，编译，再拷贝到某个地方去等等操作，当然不仅与此，但是主要用来干这个3,ant的好处跨平台 --因为ant是使用java实现的，所以它跨平台使用简单--与ant的兄弟make比起来语法清晰--同样是和make相比功能强大--ant能做的事情很多，可能你用了很久，你仍然不知道它能有
android按钮监听器的四种技术百合不是茶 android xml配置监听器实现接口
android开发中经常会用到各种各样的监听器,android监听器的写法与java又有不同的地方; 1,activity中使用内部类实现接口 ,创建内部类实例使用add方法与java类似创建监听器的实例 myLis lis = new myLis(); 使用add方法给按钮添加监听器
软件架构师不等同于资深程序员 bijian1013 程序员架构师架构设计
本文的作者Armel Nene是ETAPIX Global公司的首席架构师，他居住在伦敦，他参与过的开源项目包括 Apache Lucene,，Apache Nutch， Liferay 和 Pentaho等。如今很多的公司
TeamForge Wiki Syntax & CollabNet User Information Center sunjing TeamForge How do Attachement Anchor Wiki Syntax
the CollabNet user information center http://help.collab.net/ How do I create a new Wiki page? A CollabNet TeamForge project can have any number of Wiki pages. All Wiki pages are linked, and
【Redis四】Redis数据类型 bit1129 redis
概述 Redis是一个高性能的数据结构服务器，称之为数据结构服务器的原因是，它提供了丰富的数据类型以满足不同的应用场景，本文对Redis的数据类型以及对这些类型可能的操作进行总结。 Redis常用的数据类型包括string、set、list、hash以及sorted set.Redis本身是K/V系统，这里的数据类型指的是value的类型，而不是key的类型，key的类型只有一种即string
SSH2整合-附源码白糖_ eclipse spring tomcat Hibernate Google
今天用eclipse终于整合出了struts2+hibernate+spring框架。我创建的是tomcat项目，需要有tomcat插件。导入项目以后，鼠标右键选择属性，然后再找到“tomcat”项，勾选一下“Is a tomcat project”即可。具体方法见源码里的jsp图片，sql也在源码里。补充1：项目中部分jar包不是最新版的，可能导
[转]开源项目代码的学习方法 braveCS 学习方法
转自： http://blog.sina.com.cn/s/blog_693458530100lk5m.html http://www.cnblogs.com/west-link/archive/2011/06/07/2074466.html 1）阅读features。以此来搞清楚该项目有哪些特性2）思考。想想如果自己来做有这些features的项目该如何构架3）下载并安装d
编程之美-子数组的最大和（二维） bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; import java.util.Random; public class MaxSubArraySum2 { /** * 编程之美子数组之和的最大值（二维） */ private static final int ROW = 5; private stat
读书笔记-3 chengxuyuancsdn jquery笔记 resultMap配置 ibatis一对多配置
1、resultMap配置 2、ibatis一对多配置 3、jquery笔记 1、resultMap配置当<select resultMap="topic_data"> <resultMap id="topic_data">必须一一对应。 (1)<resultMap class="tblTopic&q
[物理与天文]物理学新进展 comsci
如果我们必须获得某种地球上没有的矿石,才能够进行某些能量输出装置的设计和建造,而要获得这种矿石,又必须首先进行深空探测,而要进行深空探测,又必须获得这种能量输出装置,这个矛盾的循环,会导致地球联盟在与宇宙文明建立关系的时候,陷入困境怎么办呢?
Oracle 11g新特性:Automatic Diagnostic Repository daizj oracle ADR
Oracle Database 11g的FDI（Fault Diagnosability Infrastructure）是自动化诊断方面的又一增强。 FDI的一个关键组件是自动诊断库（Automatic Diagnostic Repository-ADR）。在oracle 11g中，alert文件的信息是以xml的文件格式存在的，另外提供了普通文本格式的alert文件。这两份log文
简单排序:选择排序 dieslrae 选择排序
public void selectSort(int[] array){ int select; for(int i=0;i<array.length;i++){ select = i; for(int k=i+1;k<array.leng
C语言学习六指针的经典程序，互换两个数字 dcj3sjt126com c
示例程序，swap_1和swap_2都是错误的，推理从1开始推到2，2没完成，推到3就完成了 # include <stdio.h> void swap_1(int, int); void swap_2(int *, int *); void swap_3(int *, int *); int main(void) { int a = 3; int b =
php 5.4中php-fpm 的重启、终止操作命令 dcj3sjt126com PHP
php 5.4中php-fpm 的重启、终止操作命令: 查看php运行目录命令：which php/usr/bin/php 查看php-fpm进程数：ps aux | grep -c php-fpm 查看运行内存/usr/bin/php -i|grep mem 重启php-fpm/etc/init.d/php-fpm restart 在phpinfo()输出内容可以看到php
线程同步工具类 shuizhaosi888 同步工具类
同步工具类包括信号量（Semaphore）、栅栏（barrier）、闭锁（CountDownLatch）闭锁（CountDownLatch） public class RunMain { public long timeTasks(int nThreads, final Runnable task) throws InterruptedException { fin
bleeding edge是什么意思 haojinghua DI
不止一次，看到很多讲技术的文章里面出现过这个词语。今天终于弄懂了——通过朋友给的浏览软件，上了wiki。我再一次感到，没有辞典能像WiKi一样，给出这样体贴人心、一清二楚的解释了。为了表达我对WiKi的喜爱，只好在此一一中英对照，给大家上次课。 In computer science, bleeding edge is a term that
c中实现utf8和gbk的互转 jimmee c iconv utf8&gbk编码
#include <iconv.h> #include <stdlib.h> #include <stdio.h> #include <unistd.h> #include <fcntl.h> #include <string.h> #include <sys/stat.h> int code_c
大型分布式网站架构设计与实践 lilin530 应用服务器搜索引擎
1.大型网站软件系统的特点？ a.高并发，大流量。 b.高可用。 c.海量数据。 d.用户分布广泛，网络情况复杂。 e.安全环境恶劣。 f.需求快速变更，发布频繁。 g.渐进式发展。 2.大型网站架构演化发展历程？ a.初始阶段的网站架构。应用程序，数据库，文件等所有的资源都在一台服务器上。 b.应用服务器和数据服务器分离。 c.使用缓存改善网站性能。 d.使用应用
在代码中获取Android theme中的attr属性值 OliveExcel android theme
Android的Theme是由各种attr组合而成, 每个attr对应了这个属性的一个引用, 这个引用又可以是各种东西. 在某些情况下, 我们需要获取非自定义的主题下某个属性的内容 (比如拿到系统默认的配色colorAccent), 操作方式举例一则: int defaultColor = 0xFF000000; int[] attrsArray = { andorid.r.
基于Zookeeper的分布式共享锁 roadrunners zookeeper 分布式共享锁
首先，说说我们的场景，订单服务是做成集群的，当两个以上结点同时收到一个相同订单的创建指令，这时并发就产生了，系统就会重复创建订单。等等......场景。这时，分布式共享锁就闪亮登场了。共享锁在同一个进程中是很容易实现的，但在跨进程或者在不同Server之间就不好实现了。Zookeeper就很容易实现。具体的实现原理官网和其它网站也有翻译，这里就不在赘述了。官
两个容易被忽略的MySQL知识 tomcat_oracle mysql
1、varchar(5)可以存储多少个汉字，多少个字母数字？　　相信有好多人应该跟我一样，对这个已经很熟悉了，根据经验我们能很快的做出决定，比如说用varchar(200)去存储url等等，但是，即使你用了很多次也很熟悉了，也有可能对上面的问题做出错误的回答。　　这个问题我查了好多资料，有的人说是可以存储5个字符，2.5个汉字（每个汉字占用两个字节的话），有的人说这个要区分版本，5.0
zoj 3827 Information Entropy(水题) 阿尔萨斯 format
题目链接：zoj 3827 Information Entropy 题目大意：三种底，计算和。解题思路：调用库函数就可以直接算了，不过要注意Pi = 0的时候，不过它题目里居然也讲了。。。limp→0+plogb(p)=0，因为p是logp的高阶。 #include <cstdio> #include <cstring> #include <cmath&

openjweb基于lucene3全文检索技术实现

你可能感兴趣的:(Lucene)