Lucene之起源现状及初步应用

Lucene之起源现状及初步应用

作者：陈光--ZDNet reader
Thursday, September 9 2004 3:11 PM

本文是Lucene研究文集的首篇，主要介绍了Lucene的起源、发展、现状，以及Luence的初步应用，可以作为了解和学习Lucene的入门资料。

1．起源与发展

Lucene是一个高性能、纯Java的全文检索引擎，而且免费、开源。Lucene几乎适合于任何需要全文检索的应用，尤其是跨平台的应用。

Lucene的作者Doug Cutting是一个资深的全文检索专家，刚开始，Doug Cutting将Lucene发表在自己的主页上，2000年3月将其转移到sourceforge，于2001年10捐献给Apache，作为Jakarta的一个子工程。

2．使用现状

经过多年的发展，Lucene在全文检索领域已经有了很多的成功案例，并积累了良好的声誉。

基于Lucene的全文检索产品（Lucene本身只是一个组件，而非一个完整的应用）和应用Lucene的项目在世界各地已经非常之多，比较知名的有：

l Eclipse：主流Java开发工具，其帮助文档采用Lucene作为检索引擎

l Jive：知名论坛系统，其检索功能基于Lucene

l Ifinder：出自德国的网站检索系统，基于Lucene（http://ifinder.intrafind.org/）

l MIT DSpace Federation：一个文档管理系统（http://www.dspace.org/）

国内外采用Lucene作为网站全文检索引擎的也很多，比较知名的有：

l http://www.blogchina.com/weblucene/

l http://www.ioffer.com/

l http://search.soufun.com/

l http://www.taminn.com/

（更多案例，请参见http://wiki.apache.org/jakarta-lucene/PoweredBy）

在所有这些案例中，开源应用占了很大一部分，但更多的还是商化业产品和网站。毫不夸张的说，Lucene的出现，极大的推动了全文检索技术在各个行业或领域中的深层次应用。

3．初步应用

前面提到，Lucene本身只是一个组件，而非一个完整的应用，所以若想让Lucene跑起来，还得在Lucene基础上进行必要的二次开发。

下载与安装

首先，你需要到Lucene的官方网站http://jakarta.apache.org/lucene/ 去下载一份拷贝，最新版是1.4。下载后将得到一个名为lucene-1.4-final.zip的压缩文件，将其解压，里面有一个名为lucene-1.4-final.jar的文件，这就是Lucene组件包了，若需要在项目使用Lucene，只需要把lucene-1.4-final.jar置于类路径下即可，至于解压后的其他文件都是参考用的。

接下来，我用Eclipse建立一个工程，实现基于Lucene的建库、记录加载和记录查询等功能。

如上图所示，这是开发完成后的工程，其中有三个源文件CreateDataBase.java，InsertRecords.java，QueryRecords.java，分别实现建库、入库、检索的功能。

以下是对这三个源文件的分析。

建库源码及说明

CreateDataBase.java

packagecom.holen.part1;

importjava.io.File;

importorg.apache.lucene.analysis.standard.StandardAnalyzer;

importorg.apache.lucene.index.IndexWriter;

/**

* @authorHolenChen

*初始化检索库

public classCreateDataBase{

publicCreateDataBase(){

}

public intcreateDataBase(Filefile){

intreturnValue=0;

if(!file.isDirectory()){

file.mkdirs();

}

try{

IndexWriterindexWriter= newIndexWriter(file,newStandardAnalyzer(),true);

indexWriter.close();

returnValue=1;

}catch(Exceptionex){

ex.printStackTrace();

}

returnreturnValue;

}

/**

*传入检索库路径,初始化库

* @paramfile

* @return

public intcreateDataBase(Stringfile){

return this.createDataBase(newFile(file));

}

public static voidmain(String[]args){

CreateDataBasetemp= newCreateDataBase();

if(temp.createDataBase("e:\\lucene\\holendb")==1){

System.out.println("db init succ");

}

说明：这里最关键的语句是IndexWriterindexWriter= newIndexWriter(file,newStandardAnalyzer(),true)。

第一个参数是库的路径，也就是说你准备把全文检索库保存在哪个位置，比如main方法中设定的“e:\\lucene\\holendb”，Lucene支持多库，且每个库的位置允许不同。

第二个参数是分析器，这里采用的是Lucene自带的标准分析器，分析器用于对整篇文章进行分词解析，这里的标准分析器实现对英文（或拉丁文，凡是由字母组成，由空格分开的文字均可）的分词，分析器将把整篇英文按空格切成一个个的单词（在全文检索里这叫切词，切词是全文检索的核心技术之一，Lucene默认只能切英文或其他拉丁文，默认不支持中日韩等双字节文字，关于中文切词技术将在后续章节重点探讨）。

第三个参数是是否初始化库，这里我设的是true，true意味着新建库或覆盖已经存在的库，false意味着追加到已经存在的库。这里新建库，所以肯定需要初始化，初始化后，库目录下只存在一个名为segments的文件，大小为1k。但是当库中存在记录时执行初始化，库中内容将全部丢失，库回复到初始状态，即相当于新建了该库，所以真正做项目时，该方法一定要慎用。

加载记录源码及说明

InsertRecords.java

packagecom.holen.part1;

importjava.io.File;

importjava.io.FileReader;

importjava.io.Reader;

importorg.apache.lucene.analysis.standard.StandardAnalyzer;

importorg.apache.lucene.document.Document;

importorg.apache.lucene.document.Field;

importorg.apache.lucene.index.IndexWriter;

/**

* @authorHolenChen

*记录加载

public classInsertRecords{

publicInsertRecords(){

}

public intinsertRecords(Stringdbpath,Filefile){

intreturnValue=0;

try{

IndexWriterindexWriter

= newIndexWriter(dbpath,newStandardAnalyzer(),false);

this.addFiles(indexWriter,file);

returnValue=1;

}catch(Exceptionex){

ex.printStackTrace();

}

returnreturnValue;

}

/**

*传入需加载的文件名

* @paramfile

* @return

public intinsertRecords(Stringdbpath,Stringfile){

return this.insertRecords(dbpath,newFile(file));

}

public voidaddFiles(IndexWriterindexWriter,Filefile){

Documentdoc= newDocument();

try{

doc.add(Field.Keyword("filename",file.getName()));

//以下两句只能取一句,前者是索引不存储,后者是索引且存储

//doc.add(Field.Text("content",new FileReader(file)));

doc.add(Field.Text("content",this.chgFileToString(file)));

indexWriter.addDocument(doc);

indexWriter.close();

}catch(Exceptionex){

ex.printStackTrace();

}

/**

*从文本文件中读取内容

* @paramfile

* @return

publicStringchgFileToString(Filefile){

StringreturnValue= null;

StringBuffersb= newStringBuffer();

char[]c= new char[4096];

try{

Readerreader= newFileReader(file);

intn=0;

while(true){

n=reader.read(c);

if(n>0){

sb.append(c,0,n);

}else{

break;

}

reader.close();

}catch(Exceptionex){

ex.printStackTrace();

}

returnValue=sb.toString();

returnreturnValue;

}

public static voidmain(String[]args){

InsertRecordstemp= newInsertRecords();

Stringdbpath="e:\\lucene\\holendb";

//holen1.txt中包含关键字"holen"和"java"

if(temp.insertRecords(dbpath,"e:\\lucene\\holen1.txt")==1){

System.out.println("add file1 succ");

}

//holen2.txt中包含关键字"holen"和"chen"

if(temp.insertRecords(dbpath,"e:\\lucene\\holen2.txt")==1){

System.out.println("add file2 succ");

}

说明：这个类里面主要有3个方法insertRecords(Stringdbpath,Filefile)，addFiles(IndexWriterindexWriter,Filefile)，chgFileToString(Filefile)。

ChgFileToString方法用于读取文本型文件到一个String变量中。

InsertRecords方法用于加载一条记录，这里是将单个文件入全文检索库，第一个参数是库路径，第二个参数是需要入库的文件。

InsertRecords需要调用addFiles，addFiles是文件入库的真正执行者。AddFiles里有如下几行重点代码：

doc.add(Field.Keyword("filename",file.getName()));

注意，在Lucene里没有严格意义上表，Lucene的表是通过Field类的方法动态构建的，比如Field.Keyword("filename",file.getName())就相当于在一条记录加了一个字段，字段名为filename，该字段的内容为file.getName()。

常用的Field方法如下：

方法	切词	索引	存储	用途
Field.Text(String name, String value)	Y	Y	Y	标题，文章内容
Field.Text(String name, Reader value)	Y	Y	N	META信息
Field.Keyword(String name, String value)	N	Y	Y	作者
Field.UnIndexed(String name, String value)	N	N	Y	文件路径
Field.UnStored(String name, String value)	Y	Y	N	与第二种类似

为了更深入的了解全文检索库，我们可以将全文检索库与通常的关系型数据库（如Oracle，Mysql）作一下对比。

全文检索库对关系型数据库对比
对比项	全文检索库（Lucene）	关系型数据库（Oracle）
核心功能	以文本检索为主，插入（insert）、删除（delete）、修改（update）比较麻烦，适合于大文本块的查询。	插入（insert）、删除（delete）、修改（update）十分方便，有专门的SQL命令，但对于大文本块（如CLOB）类型的检索效率低下。
库	与Oracle类似，都可以建多个库，且各个库的存储位置可以不同。	可以建多个库，每个库一般都有控制文件和数据文件等，比较复杂。
表	没有严格的表的概念，比如Lucene的表只是由入库时的定义字段松散组成。	有严格的表结构，有主键，有字段类型等。
记录	由于没有严格表的概念，所以记录体现为一个对象，在Lucene里记录对应的类是Document。	Record，与表结构对应。
字段	字段类型只有文本和日期两种，字段一般不支持运算，更无函数功能。在Lucene里字段的类是Field，如document（field1,field2…）	字段类型丰富，功能强大。 record（field1,field2…）
查询结果集	在Lucene里表示查询结果集的类是Hits，如hits（doc1,doc2,doc3…）	在JDBC为例， Resultset（record1,record2,record3...）

两种库对比图如下：

检索源码及说明

QueryRecords.java

packagecom.holen.part1;

importjava.util.ArrayList;

importorg.apache.lucene.analysis.standard.StandardAnalyzer;

importorg.apache.lucene.document.Document;

importorg.apache.lucene.queryParser.QueryParser;

importorg.apache.lucene.search.Hits;

importorg.apache.lucene.search.IndexSearcher;

importorg.apache.lucene.search.Query;

importorg.apache.lucene.search.Searcher;

/**

* @authorHolenChen

*检索查询

public classQueryRecords{

publicQueryRecords(){

}

/**

*检索查询,将结果集返回

* @paramsearchkey

* @paramdbpath

* @paramsearchfield

* @return

publicArrayListqueryRecords(Stringsearchkey,Stringdbpath,Stringsearchfield){

ArrayListlist= null;

try{

Searchersearcher= newIndexSearcher(dbpath);

Queryquery

=QueryParser.parse(searchkey,searchfield,newStandardAnalyzer());

Hitshits=searcher.search(query);

if(hits!= null){

list= newArrayList();

inttemp_hitslength=hits.length();

Documentdoc= null;

for(inti=0;i<temp_hitslength;i++){

doc=hits.doc(i);

list.add(doc.get("filename"));

}

}catch(Exceptionex){

ex.printStackTrace();

}

returnlist;

}

public static voidmain(String[]args){

QueryRecordstemp= newQueryRecords();

ArrayListlist= null;

list=temp.queryRecords("holen","e:\\lucene\\holendb","content");

for(inti=0;i<list.size();i++){

System.out.println((String)list.get(i));

}

说明：该类中Searcher负责查询，并把查询结果以Hits对象集方式返回，Hits好比JDBC中的RecordSet，Hits是Document的集合，每个Document相当于一条记录，Document中包含一个或多个字段，可以通过Document.get(“字段名”)方法得到每个字段的内容。

通过这三个类，就完成了一个简单的基于Lucene的全文检索应用。

4．总结

Lucene十分精练纯粹，就一个jar包，引入到你的工程中，调用其接口，就可以为你的应用增添全文检索功能。

通过上一节的初步应用会发现，Lucene使用起来很简单，与JDBC有些类似，应用时重点掌握好IndexWriter，Document，Field，Searcher等几个类即可。

Lucene的结构很清晰，每个package司职一项，比如org.apache.Lucene.search负责检索，org.apache.Lucene.index索引，org.apache.Lucene.analysis切词等，且Lucene的主要动作都采用了抽象类，扩展起来十分方便。

相对于一些商业化全文检索，Lucene的入库速度更快。因为它的存储采取分步合并的方法，先建立小索引，待时机成熟才把小索引合并到大索引树上。因此，我们在操作应用数据时可以同步进行全文检索库的操作而不会（或许很少）影响系统的效能。

Lucene性能稳定，使用简单，而且开源免费，有Apache基金在后面做支撑，资金和技术力量都十分雄厚，这两年也一直是稳步更新，每次新版本的推出，业界均争相报导。

参考资料

1． Introduction to Text Indexing with Apache Jakarta Lucene（Otis Gospodnetic）

2． Lucene Introduction in Chinese（车东）

3． Lucene Tutorial（Steven J. Owens）

作者简介

陈光－ J2EE项目经理，熟悉EJB、XML，致力于Aapche Jakarta项目的应用与推广，可通过[email protected]与作者联系。

你可能感兴趣的:(Lucene)

ElasticSearch 谈谈你对段合并的策略思想的认识用心去追梦 elasticsearch 大数据搜索引擎
段合并是Elasticsearch中的一个重要概念，它在数据索引和查询过程中起着关键的作用。Elasticsearch使用Lucene作为其全文搜索库，Lucene中使用的数据结构就是段（Segment）合并。段合并的策略思想主要体现在以下几个方面：提高查询性能：在Elasticsearch中，段合并的过程可以看作是对索引进行优化，通过合并将多个小的段合并成一个大的段，这样可以减少内存的使用，提高
ES架构及原理李澎昆 ES ES
Elasticsearch是一个兼有搜索引擎和NoSQL数据库功能的开源系统，基于Java/Lucene构建，可以用于全文搜索，结构化搜索以及近实时分析。说明：Lucene：只是一个框架，要充分利用它的功能，需要使用JAVA，并且在程序中集成Lucene，学习成本高，Lucene确实非常复杂。Elasticsearch是面向文档型数据库，这意味着它存储的是整个对象或者文档，它不但会存储它们，还会为
Elasticsearch段合并喵喵喵更多 java 运维分布式后端
欢迎访问本人博客查看原文：http://wangnan.techelasticsearch中每个索引都会创建一个到多个分片和零个到多个副本，这些分片或副本实质上都是lucene索引lucene索引是基于多个索引段创建，索引文件中绝大部分数据都是只写一次，读多次，而只有用于保存文档删除信息的文件才会被多次更改在某些时刻，当某种条件满足时，多个索引段会被拷贝合并到一个更大的索引段，而那些旧的索引段会被
Lucece评分公式OKapi BM25原理解析(中) 双人余_先生
背景：延续上篇写了TF/IDF的公式解析，本篇为BM25解析简单介绍。BM25起源于概率相关性模型，而不是矢量空间模型，但是该算法与Lucene的实际评分功能有很多共同点。两者都使用Term词频率，逆文档频率和字段长度归一化，但是每个因素的定义都略有不同。与其详细解释BM25公式，不如将重点放在BM25提供的实际优势上。BM25是一个词袋检索功能，它基于每个文档中出现的查询词对一组文档进行排名，而
分布式搜索引擎Elasticsearch——基础敲代码的旺财架构进阶 elasticsearch java 搜索引擎 ES-head
文章目录一、Lucene与Solr与Elasticsearch二、ES核心术语三、ES核心概念四、倒排索引五、ES的安装（centos7）1、下载地址（这里安装linux版本）2、解压压缩包3、修改配置文件(1)修改核心配置文件(2)修改JVM配置文件4、启动ES(1)添加系统用户并授权(2)ES启动(3)修改配置文件(4)再次启动ES六、安装ES-head插件（可视化管理插件）1、使用谷歌市场安
docker部署Elasticsearch和Kibana youm. docker docker elasticsearch 容器
1.Elasticsearch和Kibana介绍1.1什么是Elasticsearch？Elasticsearch是一个开源的分布式搜索和分析引擎，用于处理大规模数据的实时搜索、分析和存储。它构建在ApacheLucene搜索引擎库的基础上，提供了一个RESTfulAPI和易于使用的工具，使得在大数据量情况下进行搜索和分析变得高效和简单。1.2为什么使用Elasticsearch？Elastics
Elasticsearch中文本字段与关键字字段的聚合和排序问题好奇的菜鸟 Elasticsearch elasticsearch 大数据搜索引擎
引言Elasticsearch是一个强大的搜索引擎，它基于Lucene构建，提供了全文搜索、分析、聚合等功能。然而，在使用Elasticsearch时，我们可能会遇到一些特定的问题，比如在文本字段上进行聚合和排序操作时出现的错误。本文将详细解释这个问题，并提供解决方案。问题概述在使用Elasticsearch进行数据分析时，我们可能会尝试对文本字段进行聚合或排序。但是，Elasticsearch默
单机安装 ELK 日志分析系统 TheFlsah Linux
一、ELK介绍ELKStack是软件集合Elasticsearch、Logstash、Kibana的简称，它们都是开源软件。新增了一个FileBeat，它是一个轻量级的日志收集处理工具(Agent)，Filebeat占用资源少，适合于在各个服务器上搜集日志后传输给Logstash，官方也推荐此工具。Elasticsearch是一个基于Lucene的、支持全文索引的分布式存储和索引引擎，主要负责将日
Elastic Search常用命令胖毁青春，瘦解百病 ES es
1测试环境信息ElasticSearch服务器：192.168.0.100用户：docker启停：dockerstart/stop/restartelasticsearchKibana控制台：http://192.168.0.100:5601/app/kibana#/dev_tools/console2基本概念Elasticsearch也是基于Lucene的全文检索库，本质也是存储数据，很多概念与
ELK离线安装和配置流程 GB9125 运维开发 elasticsearch elk linux 运维开发
ELK离线安装和配置流程一、介绍ELK是一个开源的数据分析和可视化工具，由三个开源项目组成：Elasticsearch、Logstash和Kibana。Elasticsearch是一个基于Lucene库的分布式搜索和分析引擎；Logstash是一个用于收集、处理和转换数据的数据管道，它可以从各种来源读取数据，包括日志文件、系统事件、网络流量等；Kibana则是一个数据可视化平台，可以对从Elast
Elasticsearch详解es 思静语 elasticsearch elasticsearch 大数据搜索引擎
文章目录概述es架构为什么要使用ElasticSearchElasticSearch的优势使用场景es为什么这么快倒排索引如何保证ES和数据库的数据一致性监听binlog同步双写elasticsearch是如何实现master选举的Elasticsearch与Solr的区别概述ES全称是ElasticSearch，它是一个建立在全文搜索引擎库Lucene基础上的开源搜索和分析引擎。ES它本身具有分
Java——ikanalyzer分词·只用自定义词库 weixin_30902251 java 数据库 c/c++
需要包：IKAnalyzer2012_FF_hf1.jarlucene-core-5.5.4.jar需要文件：IKAnalyzer.cfg.xmlext.dicstopword.dic整理好的下载地址：http://download.csdn.net/detail/talkwah/9770635importjava.io.IOException;importjava.io.StringReader
Lucene实现自定义中文同义词分词器 WangJonney Lucene Lucene
----------------------------------------------------------lucene的分词_中文分词介绍----------------------------------------------------------Paoding:庖丁解牛分词器。已经没有更新了mmseg:使用搜狗的词库1.导入包（有两个包：1.带dic的，2.不带dic的）如果使用
选型搜索引擎之参考Elasticsearch 剑飞的编程思维 elasticsearch
简介Elasticsearch（简称ES）是一个基于ApacheLucene的开源、分布式、RESTful接口的全文搜索引擎。其设计用于云计算环境，能够达到实时搜索、稳定、可靠、快速、安装使用方便的效果。Elasticsearch是用Java开发的，并作为Apache许可条款下的开放源码发布，是当前流行的企业级搜索引擎。Elasticsearch的特点包括：分布式存储和搜索：Elasticsear
从入门到精通：Elasticsearch开发实践教程青年老年程序员 Elasticsearch学习 elasticsearch jenkins 大数据
Elasticsearch是一款开源的搜索引擎，它使用Lucene搜索库作为其核心搜索引擎。Elasticsearch使用RESTfulAPI进行交互，并支持多种数据类型的搜索和聚合。本教程将介绍Elasticsearch的基本原理，如何开发，以及如何在SpringBoot中使用Elasticsearch。Elasticsearch的原理Elasticsearch是一个分布式的文档存储和搜索引擎。
深入理解Lucene：开源全文搜索引擎的核心技术解析一休哥助手分布式系统算法搜索引擎 lucene 开源
1.介绍Lucene是什么？Lucene是一个开源的全文搜索引擎库，提供了强大的文本搜索和检索功能。它由Apache软件基金会维护和开发，采用Java语言编写，因其高性能、可扩展性和灵活性而备受欢迎。Lucene的作用和应用场景Lucene主要用于创建全文索引和执行文本搜索。其主要作用包括但不限于：在大型文本数据集中快速进行文本搜索和检索。实现网站、应用程序或系统中的搜索功能。构建文档管理系统、知
Elasticsearch基础知识与架构概述禅与计算机程序设计艺术 elasticsearch 架构 jenkins 大数据搜索引擎
1.背景介绍Elasticsearch是一个基于分布式搜索和分析引擎，它可以处理大量数据并提供实时搜索功能。在本文中，我们将深入了解Elasticsearch的基础知识和架构概述，并探讨其核心概念、算法原理、最佳实践、实际应用场景和未来发展趋势。1.背景介绍Elasticsearch是一款开源的搜索引擎，由ElasticCorporation开发。它基于Lucene库，具有高性能、可扩展性和实时性
视野 | OpenSearch，云厂商的新选择？ RadonDB 数据库搜索引擎 elasticsearch
王奇顾问软件工程师目前从事PaaS中间件服务（Redis/MongoDB/ELK等）开发工作，对NoSQL数据库有深入的研究以及丰富的二次开发经验，热衷对NoSQL数据库领域内的最新技术动态的学习，能够把握行业技术发展趋势。|最流行的全文搜索引擎Elasticsearch是一款广泛使用的开源分布式全文搜索引擎，源于ApacheLucene[1]，许可证为Apache2.0。由于出色的搜索引擎、高扩
Elasticsearch使用场景说明车马去闲闲丶 elasticsearch 大数据搜索引擎
Elasticsearch是一个基于Lucene的搜索服务器。它提供了一个分布式多租户能力的全文搜索引擎，基于RESTfulweb接口。Elasticsearch是用Java开发的，并作为Apache许可条款下的开放源码发布，是当前流行的企业级搜索引擎。它设计用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。以下是一些Elasticsearch的常见使用场景：全文搜索：Elastic
ElasticSearch学习笔记重生之Java再爱我一次 elasticsearch 学习笔记
ElasticSearch一、初识ES1.什么是ElasticSearch？ES的概念：ElasticSearch是一款非常强大的开源搜索引擎，可以帮助我们从海量数据中快速找到需要的内容。ElasticSearch结合Kibana、LogStach、Beats，也就是ElasticStack（ELK）。被广泛应用在日志数据分析、实时监控等领域。ES的发展：Lucene是一个Java语言的搜索引擎类
solr —— 1 全文检索Solr8.0第一部分苏打饼干没加心 solr
solr，毕设啊，快被写完吧1solr介绍什么是solrLucene与Solr与ES为什么要用slor2HelloWorld2.1项目安装部署2.2项目安装配置创建核心创建document(表)添加文件查询数据3solr后台管理页面详解控制面板5全文检索千万级别数据实战，全面剖析架构设计，大数据瓶颈突破6数据库导入索引BV1Dt411G7eF1solr介绍什么是solrsolr简化了程序员的操作L
（三十七）大数据实战——Solr服务的部署安装厉害哥哥吖大数据大数据 solr
前言Solr是一个基于ApacheLucene的开源搜索平台，它提供了强大的全文搜索、分布式搜索和数据分析功能。Solr可以用于构建高性能的搜索应用程序，支持从海量数据中快速检索和分析信息。Solr使用倒排索引和先进的搜索算法，可实现快速而准确的全文搜索。Solr可以在多个服务器上进行水平扩展，实现分布式搜索和负载均衡。Solr支持复杂的过滤、排序和范围查询，使您可以根据各种条件对搜索结果进行精确
《ElasticSearch技术解析与实战-朱林》云澜哥哥 ElasticSearch elasticsearch big data
《第一章：ElasticSearch入门》ElasticSearch简介：ElasticSearch是一个基于lucener构建的开源的，分布式的，resultful接口全文搜索引擎。ElasticSearch是一个分布式文档数据库。其中每个字段都是可以被索引的数据且可被搜索。ElasticSearch能够扩展到数以百计的服务器存储以及处理PB级的数据，它可以在很短的时间内存储，搜索，分析大量的数
阿里P8架构师谈：开源搜索引擎Lucene、Solr、Sphinx等优劣势比较 liuhuiteng 中间件中间件
开源搜索引擎分类1.Lucene系搜索引擎，java开发,包括：LuceneSolrElasticsearchKatta、Compass等都是基于Lucene封装。你可以想象Lucene系有多强大。2.Sphinx搜素引擎，c++开发,简单高性能。以下重点介绍最常用的开源搜素引擎：Lucene、Solr、Elasticsearch、Sphinx的特点和优劣势选型比较。Lucene1.Lucene简
16款开源的全文搜索引擎网络安全乔妮娜开源搜索引擎网络安全 web安全数据库安全前端
网络安全重磅福利：入门&进阶全套282G学习资源包免费分享！全文搜索引擎就是通过从互联网上提取的各个网站的信息（以网页文字为主）而建立的数据库中，检索与用户查询条件匹配的相关记录，然后按一定的排列顺序将结果返回给用户。1、ApacheLuceneJava全文搜索框架许可证：Apache-2.0开发语言：Java官网：https://lucene.apache.org/ApacheLucene是完全
Lucene初识 KhaosYang
Lucene是一种高性能、可伸缩的信息搜索（IR）库，在2000年开源，最初由鼎鼎大名的DougCutting开发，是基于Java实现的高性能的开源项目。Lucene采用了基于倒排表的设计原理，可以非常高效地实现文本查找，在底层采用了分段的存储模式，使它在读写时几乎完全避免了锁的出现，大大提升了读写性能。核心模块Lucene的写流程和读流程如图1所示。1.Lucene读写流程图其中，虚线箭头（A、
03-03 elasticsearch nan得糊涂
入门篇使用场景海量存储：支持分布式存储实时搜索：lucene倒排索引，海量数据下近乎实时搜索a.日志分析，es+logstash+kibanab.Github代码数据分析：支持数据分析及处理基本功能分布式的搜索引擎和数据分析引擎全文检索，结构化检索，数据分析海量数据实时处理根据这些功能，可以实现的使用场景某张表有海量数据，需要实时快速查询数据分析带来的问题ES用在海量数据实时查询，基本的数据分析等
Error CREATEing SolrCore 'index': Unable to create core: index Caused by: No enum constant org.apach 杉斯狼后台 Java solr enum 索引 lucene
ErrorCREATEingSolrCore'index':Unabletocreatecore:indexCausedby:Noenumconstantorg.apache.lucene.util.Version.LUCENE_48出错原因：solr版本配置不正确解决方法：在索引文件的目录下conf>solrconfig.xml4.8将4.8修改为4.7（你具体的版本，可以参照collectio
Elasticsearch的使用场景深入详解 Y T elasticsearch
Elasticsearch是一个基于Lucene的开源搜索引擎，它提供了一个分布式多用户能力，能够处理PB级别的结构化或非结构化数据。Elasticsearch的设计目标是实现一个可扩展的搜索解决方案，它适用于多种使用场景，以下是一些深入的使用场景详解：1.日志分析与监控Elasticsearch与Logstash和Kibana（统称为ELKStack）结合使用，可以构建强大的日志分析平台。它能够
Elasticsearch—概念、安装和配置 Sunflow007
13.jpg前言：Elasticsearch是一款很火热的，很优秀的，基于lucene的开源的分布式的搜索引擎，话不多说，本篇文章主要是Elasticsearch基本概念介绍、安装和配置。Elasticsearch的基本概念官方文档——BasicConcepts|ElasticsearchReference[6.4]|Elastic我们在学习关系型数据库和服务器的时候，接触到了一些概念如：data
对于规范和实现，你会混淆吗？ yangshangchuan HotSpot
昨晚和朋友聊天，喝了点咖啡，由于我经常喝茶，很长时间没喝咖啡了，所以失眠了，于是起床读JVM规范，读完后在朋友圈发了一条信息： JVM Run-Time Data Areas：The Java Virtual Machine defines various run-time data areas that are used during execution of a program. So
android 网络百合不是茶网络
android的网络编程和java的一样没什么好分析的都是一些死的照着写就可以了,所以记录下来方便查找 , 服务器使用的是TomCat 服务器代码; servlet的使用需要在xml中注册 package servlet; import java.io.IOException; import java.util.Arr
[读书笔记]读法拉第传 comsci 读书笔记
1831年的时候,一年可以赚到1000英镑的人..应该很少的... 要成为一个科学家,没有足够的资金支持,很多实验都无法完成但是当钱赚够了以后....就不能够一直在商业和市场中徘徊......
随机数的产生沐刃青蛟随机数
c++中阐述随机数的方法有两种：一是产生假随机数（不管操作多少次，所产生的数都不会改变）这类随机数是使用了默认的种子值产生的，所以每次都是一样的。 //默认种子 for (int i = 0; i < 5; i++) { cout<<
PHP检测函数所在的文件名 IT独行者 PHP 函数
很简单的功能，用到PHP中的反射机制，具体使用的是ReflectionFunction类，可以获取指定函数所在PHP脚本中的具体位置。创建引用脚本。代码： [php] view plain copy // Filename: functions.php <?php&nbs
银行各系统功能简介文强chu 金融
银行各系统功能简介　业务系统核心业务系统业务功能包括：总账管理、卡系统管理、客户信息管理、额度控管、存款、贷款、资金业务、国际结算、支付结算、对外接口等清分清算系统以清算日期为准，将账务类交易、非账务类交易的手续费、代理费、网络服务费等相关费用，按费用类型计算应收、应付金额，经过清算人员确认后上送核心系统完成结算的过程国际结算系
Python学习1(pip django 安装以及第一个project) 小桔子 python django pip
最近开始学习python,要安装个pip的工具。听说这个工具很强大，安装了它，在安装第三方工具的话so easy!然后也下载了，按照别人给的教程开始安装，奶奶的怎么也安装不上！第一步：官方下载pip-1.5.6.tar.gz, https://pypi.python.org/pypi/pip easy! 第二部：解压这个压缩文件，会看到一个setup.p
php 数组 aichenglong PHP 排序数组循环多维数组
1 php中的创建数组 $product = array('tires','oil','spark');//array()实际上是语言结构而不是函数 2 如果需要创建一个升序的排列的数字保存在一个数组中，可以使用range()函数来自动创建数组 $numbers=range(1,10)//1 2 3 4 5 6 7 8 9 10 $numbers=range(1,10,
安装python2.7 AILIKES python
安装python2.7 1、下载可从 http://www.python.org/进行下载#wget https://www.python.org/ftp/python/2.7.10/Python-2.7.10.tgz 2、复制解压 #mkdir -p /opt/usr/python #cp /opt/soft/Python-2
java异常的处理探讨百合不是茶 JAVA异常
//java异常 /* 1，了解java 中的异常处理机制，有三种操作 a,声明异常 b,抛出异常 c,捕获异常 2，学会使用try-catch-finally来处理异常 3，学会如何声明异常和抛出异常 4，学会创建自己的异常 */ //2，学会使用try-catch-finally来处理异常
getElementsByName实例 bijian1013 element
实例1： <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/x
探索JUnit4扩展：Runner bijian1013 java 单元测试 JUnit
参加敏捷培训时，教练提到Junit4的Runner和Rule，于是特上网查一下，发现很多都讲的太理论，或者是举的例子实在是太牵强。多搜索了几下，搜索到两篇我觉得写的非常好的文章。文章地址：http://www.blogjava.net/jiangshachina/archive/20
[MongoDB学习笔记二]MongoDB副本集 bit1129 mongodb
1. 副本集的特性 1)一台主服务器(Primary),多台从服务器(Secondary) 2)Primary挂了之后，从服务器自动完成从它们之中选举一台服务器作为主服务器，继续工作，这就解决了单点故障，因此，在这种情况下，MongoDB集群能够继续工作 3)挂了的主服务器恢复到集群中只能以Secondary服务器的角色加入进来 2
【Spark八十一】Hive in the spark assembly bit1129 assembly
Spark SQL supports most commonly used features of HiveQL. However, different HiveQL statements are executed in different manners: 1. DDL statements (e.g. CREATE TABLE, DROP TABLE, etc.)
Nginx问题定位之监控进程异常退出 ronin47
nginx在运行过程中是否稳定，是否有异常退出过？这里总结几项平时会用到的小技巧。 1. 在error.log中查看是否有signal项，如果有，看看signal是多少。比如，这是一个异常退出的情况： $grep signal error.log 2012/12/24 16:39:56 [alert] 13661#0: worker process 13666 exited on s
No grammar constraints (DTD or XML schema).....两种解决方法 byalias xml
方法一：常用方法关闭XML验证工具栏：windows => preferences => xml => xml files => validation => Indicate when no grammar is specified:选择Ignore即可。方法二：（个人推荐）添加内容如下 <?xml version=
Netty源码学习-DefaultChannelPipeline bylijinnan netty
package com.ljn.channel; /** * ChannelPipeline采用的是Intercepting Filter 模式 * 但由于用到两个双向链表和内部类，这个模式看起来不是那么明显，需要仔细查看调用过程才发现 * * 下面对ChannelPipeline作一个模拟，只模拟关键代码： */ public class Pipeline {
MYSQL数据库常用备份及恢复语句 chicony mysql
备份MySQL数据库的命令，可以加选不同的参数选项来实现不同格式的要求。 mysqldump -h主机 -u用户名 -p密码数据库名 > 文件备份MySQL数据库为带删除表的格式，能够让该备份覆盖已有数据库而不需要手动删除原有数据库。 mysqldump -–add-drop-table -uusername -ppassword databasename > ba
小白谈谈云计算--基于Google三大论文 CrazyMizzz Google 云计算 GFS
之前在没有接触到云计算之前，只是对云计算有一点点模糊的概念，觉得这是一个很高大上的东西，似乎离我们大一的还很远。后来有机会上了一节云计算的普及课程吧，并且在之前的一周里拜读了谷歌三大论文。不敢说理解，至少囫囵吞枣啃下了一大堆看不明白的理论。现在就简单聊聊我对于云计算的了解。我先说说GFS &n
hadoop 平衡空间设置方法 daizj hadoop balancer
在hdfs-site.xml中增加设置balance的带宽，默认只有1M： <property> <name>dfs.balance.bandwidthPerSec</name> <value>10485760</value> <description&g
Eclipse程序员要掌握的常用快捷键 dcj3sjt126com 编程
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得
Android学习之路 dcj3sjt126com Android学习
转自：http://blog.csdn.net/ryantang03/article/details/6901459 以前有J2EE基础，接触JAVA也有两三年的时间了，上手Android并不困难，思维上稍微转变一下就可以很快适应。以前做的都是WEB项目，现今体验移动终端项目，让我越来越觉得移动互联网应用是未来的主宰。下面说说我学习Android的感受，我学Android首先是看MARS的视
java 遍历Map的四种方法 eksliang java HashMap java 遍历Map的四种方法
转载请出自出处： http://eksliang.iteye.com/blog/2059996 package com.ickes; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Map.Entry; /** * 遍历Map的四种方式
【精典】数据库相关相关 gengzg 数据库
package C3P0; import java.sql.Connection; import java.sql.SQLException; import java.beans.PropertyVetoException; import com.mchange.v2.c3p0.ComboPooledDataSource; public class DBPool{
自动补全 huyana_town 自动补全
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml&quo
jquery在线预览PDF文件，打开PDF文件天梯梦 jquery
最主要的是使用到了一个jquery的插件jquery.media.js，使用这个插件就很容易实现了。核心代码 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.
ViewPager刷新单个页面的方法 lovelease android viewpager tag 刷新
使用ViewPager做滑动切换图片的效果时，如果图片是从网络下载的，那么再子线程中下载完图片时我们会使用handler通知UI线程，然后UI线程就可以调用mViewPager.getAdapter().notifyDataSetChanged()进行页面的刷新，但是viewpager不同于listview，你会发现单纯的调用notifyDataSetChanged()并不能刷新页面
利用按位取反（~）从复合枚举值里清除枚举值草料场 enum
以 C# 中的 System.Drawing.FontStyle 为例。如果需要同时有多种效果，如：“粗体”和“下划线”的效果，可以用按位或（|） FontStyle style = FontStyle.Bold | FontStyle.Underline; 如果需要去除 style 里的某一种效果，
Linux系统新手学习的11点建议刘星宇编程工作 linux 脚本
　　随着Linux应用的扩展许多朋友开始接触Linux，根据学习Windwos的经验往往有一些茫然的感觉：不知从何处开始学起。这里介绍学习Linux的一些建议。　　一、从基础开始：常常有些朋友在Linux论坛问一些问题，不过，其中大多数的问题都是很基础的。例如：为什么我使用一个命令的时候，系统告诉我找不到该目录，我要如何限制使用者的权限等问题，这些问题其实都不是很难的，只要了解了 Linu
hibernate dao层应用之HibernateDaoSupport二次封装 wangzhezichuan DAO Hibernate
/** * 方法描述:sql语句查询返回List<Class> * 方法备注: Class 只能是自定义类 * @param calzz * @param sql * @return * 创建人：王川 * 创建时间：Jul