chenhaiyang_ok

很好的lucene3.6入门指南

Lucene3.6 入门指南

Lucene系列介绍

Lucene3.6 入门指南

一、简介

Lucene是什么：Lucene是apache软件基金会jakarta项目组的一个子项目，是一个开放源代码的全文检索引擎工具包，即它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，部分文本分析引擎（英文与德文两种西方语言）。Lucene的目的是为软件开发人员提供一个简单易用的工具包，以方便的在目标系统中实现全文检索的功能，或者是以此为基础建立起完整的全文检索引擎。

Lucene是一个基于Java的全文搜索，不是一个完整的搜索应用，而是一个代码库和API，可以方便地为应用提供搜索功能。实际上Lucene的功能就是将开发人员提供的若干个字符串建立索引，然后提供一个全文搜索服务，用户将搜索的关键词提供给搜索服务，搜索服务告诉用户关键词出现的各字符串。

二、基本流程

可见，lucene包含两部分：建立索引和搜索服务。建立索引是将源（本质是字符串）写入索引或者将源从索引中删除；进行搜索是向用户提供全文搜索服务，用户可以通过关键词定位源。

1. 建立索引的流程

使用analyzer处理源字符串，包括：分词，即分成一个个单词；去除stopword（可选）。
将源中的有效信息以不同Field的形式加入Document中，并把Document加入索引，从而在索引中记录有效的Field。
将索引写入存储器（内存或磁盘）。

2. 检索的流程

用户提供搜索关键词，经过analyzer处理。
对处理后的关键词搜索索引找出对应的Document。
用户根据需要从找到的Document中提取需要的Field。

三、基本概念

1. Analyzer

Analyzer的作用是分词，并去除字符串中的无效词语。

分词的目的是把字符串按某种语义规则划分为若干个词。英文中比较容易实现分词，因为英文本身就是以单词为单位，已经用空格分开；而中文则必须以某种方法将连成一片的句子划分成一个个词。无效词语，如英文中的“of”、“the”和中文中的“的”、“地”等，这些词语在文章中大量出现。但是本身不包含关键信息，去掉后有利于缩小索引文件、提高命中率和执行效率。

2. Document

用户提供的源可以是文本文件、字符串或者数据库表中的一条记录等。一个源字符串经过索引之后，以一个Document的形式存储在索引文件中。搜索服务的结果也是以Document列表的形式返回。

3. Field

一个Document可以包含多个信息域，如一篇文章可以包含“标题”、“正文”、“最后修改时间”等信息域，这些信息域以Field的形式保存在Document中。

Field有两个属性：存储和索引。存储属性可以控制是否对这个Field进行存储；索引属性可以控制是否对该Field进行索引。这似乎多此一举，但事实上对这两个属性的正确组合很重要。

下面举例说明：一篇文章需要对标题和正文进行全文搜索，所以把这两个Field的索引属性设置为真；同时希望能直接从搜索结果中提取文章标题，所以把标题Field的存储属性设置为真。但是正文Field太大了，为了缩小索引文件，将正文Field的存储属性设置为假，需要访问时再直接读取文件正文；希望能从搜索结果中提取最后修改时间；但是不需要对它进行搜索，所以把最后修改时间Field的存储属性设置为真，索引属性设置为假。

Field的两个属性禁止全为假的情况因为这对建立索引没有意义。

4. segment

建立索引时，并不是每个document都马上添加到同一个索引文件，它们首先被写入到不同的小文件，然后再合并成一个大索引文件，每个小文件都是一个segment。

5. term term

表示文档的一个词，是搜索的最小单位。term由两部分组成：所表示的词语和这个词语所出现的field。

6. token

token是term的一次出现，它包含trem文本和相应的起止偏移，以及一个类型字符串。一句话中可以出现多次相同的词语，它们都用同一个term表示，但是用不同的token，每个token标记该词语出现的位置。

四、 Lucene的组成结构

Lucene包括core和sandbox两部分，其中core是lucene的核心，sandbox包含了一些附加功能，如highlighter、各种分析器等。 Lucene core包含8个包：analysis、collation、document、index、queryParser、search、store、util。

1. analysis包

Analysis提供自带的各种Analyzer，如按空白字符分词的WhitespaceAnalyzer，添加了stopword过滤的StopAnalyzer，支持中文分词的SmartChineseAnalyzer，以及最常用的StandardAnalyzer。

2. collation包

包含collationKeyFilter和collationKeyAnalyzer两个相同功能的类，将所有token转换为CollationKey，并将CollationKey与IndexableBinaryStringTools一起编码存储为一个term。

3. document包

document包中是Document相关的各种数据结构，如Document类、Field类等。

4. index包

index包中是索引的读写操作类，常用的是对索引文件的segment进行写、合并和优化的IndexWriter类和对索引进行读取和删除操作的IndexReader类。IndexWriter只关心如何将索引写入一个个segment并将它们合并优化；IndexReader关注索引文件中各个文档的组织形式。

5. queryParser包

queryParser包中是解析查询语句相关的类（常用的是QueryParser类）以及Token类。

6. search包

search包中是从索引中进行搜索的各种不同的Query类（如TermQuery、BooleanQuery等）和搜索结果集Hits类。

7. store包 store包中是索引的存储相关类，如Directory类定义了索引文件的存储结构，FSDirectory是存储在文件系统（即磁盘）中的索引存储类，RAMDirectory为存储在内存中的索引存储类，MmapDirectory为使用内存映射的索引存储类。

8. util包 util包中是公共工具类，例如时间和字符串之间的转换工具。

五、环境搭建

下载：

http://lucene.apache.org/core/downloads.html
http://mirror.bjtu.edu.cn/apache/lucene/java/3.6.1/lucene-3.6.1.zip

把lucene-core-3.6.1.jar加到项目中。

快速入门(Helloworld)

在开始helloworld之前，以lucene创建索引的流程辅助我们来了解几个概念。

信息源：要采集，必须有信息源，在这里我们就以读取硬盘中的文件（File）充当信息源。
加工：要把采集的信息，以lucene规定的形式存放到索引库中，所以要创建相应的文档（Document）对象。在这个文档中，我们要存放哪些信息才能达到完整且辟免垃圾信息，例如网页，我们可以要存储的是他的标题、内容、URL等，那些广告是不用存储的。在这里我们用到Field来存储各项目内容。
分析：对于加工好的了文档，我们是不是应该对其进行分词，答案是肯定的。用什么分词器呢？对英文和中文使用的分词器有可能不一样吧,这个得看后续分解了。在这里我们就用标准的分词器（StandardAnalyzer）
索引库：要把文档写入到索引库，并且根据分词器进行分词、建立索引，这得建索引库吧，在lucene中对应的是Directory，它可以建立在内存中，也可以建立在硬盘中。
一切具备，只缺把文档写入到索引库了，用什么呢？当然是IndexWriter。

好了，这就是lucene创建索引的过程，下面看看代码是怎样表现的。

六、代码示例

Lucene在lucene-3.6.1-src/contrib/demo/src/java/org/apache/lucene/demo中提供了入门的示例代码。 

IndexFiles.java是关于建立索引的示例。 
SearchFiles.java是关于进行检索的示例。

1. 在文件系统中建立索引的代码

String indexPath = "/lucene/myindex";
Directory dir = FSDirectory.open(new File(indexPath));
Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_36);
IndexWriterConfig iwc = new IndexWriterConfig(Version.LUCENE_36, analyzer);
iwc.setOpenMode(OpenMode.CREATE); //即创建新索引文件OpenMode.CREATE_OR_APPEND表示创建或追加到已有索引文件
IndexWriter writer = new IndexWriter(dir, iwc);
Document doc = new Document();
doc.add(new Field("title", "lucene introduction", Field.Store.YES, Field.Index.ANALYZED));
doc.add(new Field("content", "lucene works well", Field.Store.YES, Field.Index. ANALYZED));
writer.addDocument(doc);
writer.close()

2. 直接在内存中建立索引的代码

Directory dir = new RAMDirectory();
Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_36);
IndexWriterConfig iwc = new IndexWriterConfig(Version.LUCENE_36, analyzer);
iwc.setOpenMode(OpenMode.CREATE); //即创建新索引文件OpenMode.CREATE_OR_APPEND表示创建或追加到已有索引文件
IndexWriter writer = new IndexWriter(dir, iwc);
Document doc = new Document();
doc.add(new Field("title", "lucene introduction", Field.Store.YES, Field.Index.ANALYZED));
doc.add(new Field("content", "lucene works well", Field.Store.YES, Field.Index. ANALYZED));
writer.addDocument(doc);
writer.close();

3. 对整个文本文件my.txt建立索引的代码

…
File file = new File(“/home/hanxb/my.txt”);
FileInputStream fis = new FileInputStream(file);
Document doc = new Document();
Field pathField = new Field("path", file.getPath(), Field.Store.YES, Field.Index.NOT_ANALYZED_NO_NORMS);
pathField.setIndexOptions(IndexOptions.DOCS_ONLY);
doc.add(pathField);
NumericField modifiedField = new NumericField("modified");//索引key为modified
modifiedField.setLongValue(file.lastModified());//文件的最后修改时间
doc.add(modifiedField);
doc.add(new Field("contents", new BufferedReader(new InputStreamReader(fis, "UTF-8"))));
writer.addDocument(doc);//这里为创建新的索引文件
//如果为创建或追加索引文件, 则writer.updateDocument(new Term("path", file.getPath()), doc);
fis.close();
writer.close()

4. 检索“Cloud Computing”关键词的代码

IndexReader reader = IndexReader.open(FSDirectory.open(new File(index)));
IndexSearcher searcher = new IndexSearcher(reader);
Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_36);
QueryParser parser = new QueryParser(Version.LUCENE_36, field, analyzer);
Query query = parser.parse("Cloud Computing"); //搜索关键词“Cloud Computing”
searcher.search(query, null, 100);
TopDocs results = searcher.search(query, 10); //只取排名前10的搜索结果
ScoreDoc[] hits = results.scoreDocs;
Document doc = null;
for (int i = start; i < end; i++) {
     doc = searcher.doc(hits[i].doc);
     String path = doc.get("path");
     long modifiedtime = doc.get("modified");
     String contents = doc.get("contents");
}
searcher.close();
reader.close();

elasticsearch源码-terminate_after修改为基于segment的截断功能 Signal_075a
1.背景当前es的terminate_after是基于shard级别的截断功能，在遍历每个shard到指定数量后就返回结果，这样会导致查询结果不够好(部分segment没有搜索)，实现按照segment级别截断源码改写luence遍历每个segment的主逻辑:类:IndexSearcher:image.pngelasticsearch的shard级别的截断实现类是EarlyTerminating
solr入门级部署+连接数据库的简单配置 DoUbLE_tree
本文为博主研究的记录，如有不对，敬请指出。如有问题，欢迎交流。在下在此拜谢了！一、基本概念1.Solr是基于Luence的基础上，制作的企业级搜索服务器，因为其可视化界面和便捷的操作，很多人开始使用。因为solr和Luence现在都是由Apache公司的一个项目组进行开发，所以solr/Luence有时候指的是一个东西。2.核心源，solr的搜索的文件存储位置，博主感觉可以认为是一个项目。二、使用
ElastaticSearch的入门使用好梦留人睡 java
1.es的概念–es是一个基于luence的全文检索框架–特点是操作简单、不需要繁琐的配置，支持分布式、集群，可以以JSON格式来操作，可以以restful风格来操作。–和es类似的框架还有solr,solr是一个重量级框架，功能比es丰富一些，但是实时搜索上面比es弱一些。2.es的安装–es的安装，在官网下载解压即可：https://www.elastic.co/downloads/elast
【elasticsearch】elasticsearch es读写原理 kiraraLou es elasticsearch 搜索引擎 lucene
一、前言：今天来学习下es的写入原理。Elasticsearch底层使用Lucene来实现doc的读写操作：Luence存在的问题：没有并发设计lucene只是一个搜索引擎库，并没有涉及到分布式相关的设计，因此要想使用Lucene来处理海量数据，并利用分布式的能力，就必须在其之上进行分布式的相关设计。非实时将文件写入lucence后并不能立即被检索，需要等待lucene生成一个完整的segment
springboot集成IKAnalyer分词工具昊天02 java spring
什么是IKAnalyerIKAnalyzer是一个很轻量的中文分词工具，是基于java开发的轻量级的中文分词工具包。它是以开源项目Luence为主体的，结合词典分词和文法分析算法的中文分词组件集成到springboot在pom.xml中添加IKAnalyer依赖com.janeluoikanalyzer2012_u6org.apache.lucenelucene-coreorg.apache.lu
elasticsearch 使用优化 skydeity
1、jvm内存最好为系统的一半，另一半交给luence使用2、增加reflush刷新间隔（10s，减少段合并带来的性能影响）3、增大集群间互相发现、心跳的时间间隔（防止脑裂和误操作导致的不可用）4、每个分片的存储量尽量和jvm内存分配的大小一致（保证搜索的数据都在内存中，对搜索延迟至关重要）5、关闭不必要的索引（只要索引开着，就会分配内存给这个索引）6、提前建好template，设置好mappin
ElasticSearch 基本概念 ________方块丶
ElasticSearch是目前最流行的搜索引擎，Java语言开发，基于Luence做底层的索引和检索，高可用，高扩展，天生分布式。学习ES首先就要了解他的基本概念。集群（cluster）具有相同cluster.name的节点组成一个集群，每个节点在集群中有唯一的UID。//查看集群的状态green=正常，yellow=有副本分片无法分配，red=有主分片无法分配GET_cluster/healt
elasticSearch详细教程百里度搜索引擎搜索引擎
一、Elasticsearch简介Elasticsearch是使用Java编写的一种开源搜索引擎，它在内部使用Luence做索引与搜索，通过对Lucene的封装，提供了一套简单一致的RESTfulAPI。Elasticsearch也是一种分布式的搜索引擎架构，可以很简单地扩展到上百个服务节点，并支持PB级别的数据查询，使系统具备高可用和高并发性。二、Elasticsearch的核心概念如下Clus
人工智能常用的开源包 listwebit
----------------------------------目录----------------------------------------一、自然语言处理工具包1.基础工具包(1).结巴分词(2).ansj分词3.IKAnalyzer：luence4.NLPIR:中科院3.hanLP4.stanford的corenlp5.OpenNLP：Apache下的一个自然语言处理工具包，提供了
中文分词在线工具比较 belief_8f6c
一、现有分词工具包Paste_Image.png详情：http://blog.csdn.net/sunfoot001/article/details/51523741Analyzer在线工具IKAnalyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包。最初，它是以开源项目Luence为应用主体的，结合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyzer3.0则发展为
Luence java
Lucene是一款高性能的、可扩展的信息检索（IR）工具库。信息检索是指文档搜索、文档内信息搜索或者文档相关的元数据搜索等操作。索引过程获取内容建立文档获取原始内容后，就需要对这些内容进行索引，必须首先将这些内容转换成部件（通常称为文档），以供搜索引擎使用。文档主要包括几个带值的域，比如标题、正文、摘要、作者和链接。文档分析搜索引擎不能直接对文本进行索引：确切地说，必须将文本分割成一系列被称为语汇
中文分词开源软件整理和基本判断 WaveVector 算法解析
这是刚入数据挖掘组，只有读过吴军《数学之美》的情况下做的中文分词调研。很简练，是那个时候的笔记。是我在NLP和数据挖掘的开端，在离开小组前，整理出来，以作纪念。1.IKAnalyzerIKAnalyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包。它是以开源项目Luence为应用主体的，结合词典分词和文法分析算法的中文分词组件。初判：使用文法分析的算法一般不适合扩展，文法无法覆盖现
14款中文分词开源软件 hello9050 中文分词 lucene 跨平台算法语言 java 搜索引擎
链接：http://www.oschina.net/project/tag/264/segment开源中国社区1、IKAnalyzerIKAnalyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始，IKAnalyzer已经推出了3个大版本。最初，它是以开源项目Luence为应用主体的，结合词典分词和文法分析算法的中文分词组件。新版本的IKAnal
Luence和Solr的区别简介 ztianlong solr
很多像我刚接触Lucene和Solr的人都会问这样的问题：何时用Lucene？何时用Solr？两种有什么关系？答案很简单：如果你问自己这样的问题，那么99%的情形，你需要的是Solr！Solr是什么?ApacheSolr是包含各类功能的围绕Lucene的HTTP包装。诸如增加了XML/HTTP和JSONAPI，XML/HTTP和JSONAPIs、命中率加亮、面状搜索，缓存、复制、Web管理界面等等
ElasticSearch学习日志——了解ElasticSearch newheart_2020 2020 ElasticSearch elasticsearch
文章目录ElasticSearch是什么？了解Luence搜索数据的分类顺序扫描全文搜索Luence是怎么实现全文搜索应用场景ElasticSearch核⼼概念ElasticSearch高扩展ElasticSearch高实时ElasticSearch是什么？是一个基于Luence的全文搜索引擎，基于RESTfulweb接口ElasticSearch是一个分布式、高扩展、高实时的搜索与数据分析引擎了
分享Lucene中文分词组件"IK Analyzer V3.2.8" linliangyi2006
IKAnalyzer3.X介绍IKAnalyzer是一个开源的，基于java诧言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始，IKAnalyzer已经推出了3个大版本。最初，它是以开源项目Luence为应用主体的，结合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyzer3.X则发展为面吐Java的公用分词组件，独立于Lucene项目，同时提供了对Lucene的默认
分享IKAnalyzer 3.0 中文分词器 linliangyi2006
1.IKAnalyzer3.0介绍IKAnalyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始，IKAnalyzer已经推出了3个大版本。最初，它是以开源项目Luence为应用主体的，结合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyzer3.0则发展为面向Java的公用分词组件，独立于Lucene项目，同时提供了对Lucene的
理解它，才算真正掌握Elasticsearch-es 时间都哪去了 elasticsearch
Elasticsearch简介Elasticsearch是使用Java编写的一种开源搜索引擎，它在内部使用Luence做索引与搜索，通过对Lucene的封装，提供了一套简单一致的RESTfulAPI。Elasticsearch也是一种分布式的搜索引擎架构，可以很简单地扩展到上百个服务节点，并支持PB级别的数据查询，使系统具备高可用和高并发性。核心概念Elasticsearch的核心概念如下：Clu
开发面试问题寒夕若梦面试
基础5负载均衡5函数和存储过程的区别？5什么是view（数据库视图）？5用过和weblogic，tomcat相同的服务器吗？5工作流引擎有哪些？5用过和webservice相同的技术吗？5WebService数据压缩：6WebService数据加密：7Luence的了解？7线程池溢出问题解决方案?7jdbc链接数据库具体代码7web.xml的作用8hibenate与mybatis区别9大数据量的解
Elasticsearch 入门到高手的成长阶梯-Elasticsearch集成中文分词IK 冯立彬 Elasticsearch
1、IK的介绍ElasticsearchIK分析器插件是国内非常著名的开源中文分析器插件，它是基于国人所开发的另一款基于Luence的IK分词器做的扩展，以达到对Elasticsearch的支持。ElasticsearchIK分词器是Java语言编写的，在Elasticsearch0.16的时候就已经开始对其支持了，涵盖了Elasticsearch后续各版本的支持。它包括了ik_smart和ik_
ElasticSearch集群搭建宇宙第一帅 es
介绍ElasticSearch（以下简称ES）是一个比较好的分布式索引数据库，底层是基于Luence的，经测试其性能相比solr要高30-50倍左右，而且支持数据存储，这里是对ES集群的搭建方法。下载这里我下载的es2.4.2版本，当前最新版本是ES5（版本直接从2调到5），这里是各个版本的下载链接：[ES版本下载连接(https://www.elastic.co/downloads/past-r
【Lucene】全文检索技术详解 qq_35029429 lucene
1.什么是luceneLucene是Apache的一个全文检索引擎（核心组件）工具包（jar包、类库），通过lucene可以让程序员快速开发一个全文检索功能。它不能独立运行，不能单独对外提供服务。2.全文检索的定义全文检索首先对要搜索的文档进行分词，然后形成索引，通过查询索引来查询文档。比如：字典，字典的偏旁部首页，就类似于luence的索引；字典的具体内容，就类似于luence的文档内容。3.L
Luence搜索引擎技术代码示例苏凯勇往直前 java
Luence了解搜索技术搜索引擎一个搜索引擎由搜索器、索引器、检索器和用户接口四个部分组成。搜索器的功能是在互联网中漫游，发现和搜集信息。索引器的功能是理解搜索器所搜索的信息，从中抽取出索引项，用于表示文档以及生成文档库的索引表。检索器的功能是根据用户的查询在索引库中快速检出文档，进行文档与查询的相关度评价，对将要输出的结果进行排序，并实现某种用户相关性反馈机制。用户接口的作用是输入用户查询、显示
【ElasticSearch系列（四）】elasticsearch安装ik分词插件（6.3.0版本）和光同其尘 ElasticSearch
1、介绍elasticseach默认所有分词解析器对中文都不友好，开发建议使用Ik分词；IKAnalyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始，IKAnalyzer已经推出了3个大版本。最初，它是以开源项目Luence为应用主体的，结合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyzer3.0则发展为面向Java的公用分词组
Luence 课程1----索引和搜索的建立 LeeAng12138 lucence 索引搜索 lucence
packagecom.lucence;importjava.io.File;importjava.io.FileReader;importjava.io.IOException;importorg.apache.lucene.analysis.standard.StandardAnalyzer;importorg.apache.lucene.document.Document;importorg.
大数据学习笔记之项目（二）：离线平台部署 Leesin Dong Big Data Cloud Technology❤️#Big Data ------project
文章目录离线平台部署项目开发流程项目调研项目需求分析1.3、方案设计1.3.1、概要设计1.3.2、详细设计编码实现1.4.1、单元测试1.4.2、集成测试1.4.3、压力测试1.4.4、用户测试二、大数据常用应用2.1、数据出售2.2、数据分析2.2.1、百度统计2.2.2、友盟2.2.3、其他统计分析组织2.3、搜索引擎2.3.1、solr2.3.2、luence2.3.3、luence&so
Luence入门啊策策 ELK(ES LogStash KiBana)
学习目标掌握倒排索引原理了解Lucene的作用了解Field字段的选择掌握Lucene创建索引基本API掌握Lucene查询基本API1.了解搜索技术1.1搜索引擎什么是搜索引擎？搜索引擎的原理可以看到搜索引擎的功能主要是三部分：爬行和抓取数据（爬虫多用Python来编写、但是Java也能实现）对数据做预处理（提取文字、中文分词、建立倒排索引）提供搜索功能（用户输入关键词后、去索引库搜索数据）在上
lucene教程静能出慧
luence是一个非常好的检索工具,，使用简单，几行代码就能搞定。Lucene的架构设计及介绍这个架构分为两部分，一是建立索引，从数据源建立相应的索引机制，二是索引查询，输入关键词，根据索引，查找并且返回结果。1.lucene包org.apache.Lucene.search/搜索入口org.apache.Lucene.index/索引入口org.apache.Lucene.analysis/语言
4.elasticseach7.0.1安装ik分词插件(2019-05-13) eighthroute ElasticSearch
elasticseach默认所有分词解析器对中文都不友好，我们开发建议使用Ik分词。IKAnalyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始，IKAnalyzer已经推出了3个大版本。最初，它是以开源项目Luence为应用主体的，结合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyzer3.0则发展为面向Java的公用分词组件，
Luence Solr Nutch说明 RockeyHoo 搜索
LuenceSolrNutch说明1概述1.1LuenceLucene是apache软件基金会4jakarta项目组的一个子项目，是一个开放源代码的全文检索引擎工具包，即它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，部分文本分析引擎（英文与德文两种西方语言）。Lucene的目的是为软件开发人员提供一个简单易用的工具包，以方便的在目标系统中实现全文检索的功
Java实现的简单双向Map，支持重复Value superlxw1234 java 双向map
关键字：Java双向Map、DualHashBidiMap 有个需求，需要根据即时修改Map结构中的Value值，比如，将Map中所有value=V1的记录改成value=V2，key保持不变。数据量比较大，遍历Map性能太差，这就需要根据Value先找到Key，然后去修改。即：既要根据Key找Value，又要根据Value
PL/SQL触发器基础及例子百合不是茶 oracle数据库触发器 PL/SQL编程
触发器的简介; 触发器的定义就是说某个条件成立的时候，触发器里面所定义的语句就会被自动的执行。因此触发器不需要人为的去调用，也不能调用。触发器和过程函数类似过程函数必须要调用, 一个表中最多只能有12个触发器类型的,触发器和过程函数相似触发器不需要调用直接执行, 触发时间：指明触发器何时执行，该值可取： before：表示在数据库动作之前触发
[时空与探索]穿越时空的一些问题 comsci 问题
我们还没有进行过任何数学形式上的证明,仅仅是一个猜想..... 这个猜想就是; 任何有质量的物体(哪怕只有一微克)都不可能穿越时空,该物体强行穿越时空的时候,物体的质量会与时空粒子产生反应,物体会变成暗物质,也就是说,任何物体穿越时空会变成暗物质..(暗物质就我的理
easy ui datagrid上移下移一行商人shang js 上移下移 easyui datagrid
/** * 向上移动一行 * * @param dg * @param row */ function moveupRow(dg, row) { var datagrid = $(dg); var index = datagrid.datagrid("getRowIndex", row); if (isFirstRow(dg, row)) {
Java反射 oloz 反射
本人菜鸟，今天恰好有时间，写写博客，总结复习一下java反射方面的知识，欢迎大家探讨交流学习指教首先看看java中的Class package demo; public class ClassTest { /*先了解java中的Class*/ public static void main(String[] args) { //任何一个类都
springMVC 使用JSR-303 Validation验证杨白白 spring mvc
JSR-303是一个数据验证的规范，但是spring并没有对其进行实现，Hibernate Validator是实现了这一规范的，通过此这个实现来讲SpringMVC对JSR-303的支持。 JSR-303的校验是基于注解的，首先要把这些注解标记在需要验证的实体类的属性上或是其对应的get方法上。登录需要验证类 public class Login { @NotEmpty
log4j 香水浓 log4j
log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, HTML, DATABASE #log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, ROLLINGFILE, HTML #console log4j.appender.STDOUT=org.apache.log4j.ConsoleAppender log4
使用ajax和history.pushState无刷新改变页面URL agevs jquery 框架 Ajax html5 chrome
表现如果你使用chrome或者firefox等浏览器访问本博客、github.com、plus.google.com等网站时，细心的你会发现页面之间的点击是通过ajax异步请求的，同时页面的URL发生了了改变。并且能够很好的支持浏览器前进和后退。是什么有这么强大的功能呢？ HTML5里引用了新的API，history.pushState和history.replaceState，就是通过
centos中文乱码 AILIKES centos OS ssh
一、CentOS系统访问 g.cn ，发现中文乱码。于是用以前的方式：yum -y install fonts-chinese CentOS系统安装后，还是不能显示中文字体。我使用 gedit 编辑源码，其中文注释也为乱码。后来，终于找到以下方法可以解决，需要两个中文支持的包： fonts-chinese-3.02-12.
触发器 baalwolf 触发器
触发器(trigger)：监视某种情况，并触发某种操作。触发器创建语法四要素：1.监视地点(table) 2.监视事件(insert/update/delete) 3.触发时间(after/before) 4.触发事件(insert/update/delete) 语法： create trigger triggerName after/before
JS正则表达式的i m g bijian1013 JavaScript 正则表达式
g:表示全局（global)模式，即模式将被应用于所有字符串，而非在发现第一个匹配项时立即停止。 i:表示不区分大小写（case-insensitive）模式，即在确定匹配项时忽略模式与字符串的大小写。 m:表示
HTML5模式和Hashbang模式 bijian1013 JavaScript AngularJS Hashbang模式 HTML5模式
我们可以用$locationProvider来配置$location服务（可以采用注入的方式，就像AngularJS中其他所有东西一样）。这里provider的两个参数很有意思，介绍如下。 html5Mode 一个布尔值，标识$location服务是否运行在HTML5模式下。 ha
[Maven学习笔记六]Maven生命周期 bit1129 maven
从mvn test的输出开始说起当我们在user-core中执行mvn test时，执行的输出如下： /software/devsoftware/jdk1.7.0_55/bin/java -Dmaven.home=/software/devsoftware/apache-maven-3.2.1 -Dclassworlds.conf=/software/devs
【Hadoop七】基于Yarn的Hadoop Map Reduce容错 bit1129 hadoop
运行于Yarn的Map Reduce作业，可能发生失败的点包括 Task Failure Application Master Failure Node Manager Failure Resource Manager Failure 1. Task Failure 任务执行过程中产生的异常和JVM的意外终止会汇报给Application Master。僵死的任务也会被A
记一次数据推送的异常解决端口解决 ronin47 记一次数据推送的异常解决
　　需求：从db获取数据然后推送到B 程序开发完成，上jboss,刚开始报了很多错，逐一解决，可最后显示连接不到数据库。机房的同事说可以ping 通。　　自已画了个图，逐一排除，把linux 防火墙　和　setenforce　设置最低。　　　service iptables stop
巧用视错觉-UI更有趣 brotherlamp UI ui视频 ui教程 ui自学 ui资料
我们每个人在生活中都曾感受过视错觉（optical illusion）的魅力。视错觉现象是双眼跟我们开的一个玩笑，而我们往往还心甘情愿地接受我们看到的假象。其实不止如此，视觉错现象的背后还有一个重要的科学原理——格式塔原理。格式塔原理解释了人们如何以视觉方式感觉物体，以及图像的结构，视角，大小等要素是如何影响我们的视觉的。在下面这篇文章中，我们首先会简单介绍一下格式塔原理中的基本概念，
线段树-poj1177-N个矩形求边长（离散化+扫描线） bylijinnan 数据结构算法线段树
package com.ljn.base; import java.util.Arrays; import java.util.Comparator; import java.util.Set; import java.util.TreeSet; /** * POJ 1177 (线段树+离散化+扫描线)，题目链接为http://poj.org/problem?id=1177
HTTP协议详解 chicony http协议
引言
Scala设计模式 chenchao051 设计模式 scala
Scala设计模式我的话：在国外网站上看到一篇文章，里面详细描述了很多设计模式，并且用Java及Scala两种语言描述，清晰的让我们看到各种常规的设计模式，在Scala中是如何在语言特性层面直接支持的。基于文章很nice，我利用今天的空闲时间将其翻译，希望大家能一起学习，讨论。翻译
安装mysql daizj mysql 安装
安装mysql (1)删除linux上已经安装的mysql相关库信息。rpm -e xxxxxxx --nodeps (强制删除) 执行命令rpm -qa |grep mysql 检查是否删除干净 (2)执行命令 rpm -i MySQL-server-5.5.31-2.el
HTTP状态码大全 dcj3sjt126com http状态码
完整的 HTTP 1.1规范说明书来自于RFC 2616，你可以在http://www.talentdigger.cn/home/link.php?url=d3d3LnJmYy1lZGl0b3Iub3JnLw%3D%3D在线查阅。HTTP 1.1的状态码被标记为新特性，因为许多浏览器只支持 HTTP 1.0。你应只把状态码发送给支持 HTTP 1.1的客户端，支持协议版本可以通过调用request
asihttprequest上传图片 dcj3sjt126com ASIHTTPRequest
NSURL *url =@"yourURL"; ASIFormDataRequest*currentRequest =[ASIFormDataRequest requestWithURL:url]; [currentRequest setPostFormat:ASIMultipartFormDataPostFormat];[currentRequest se
C语言中，关键字static的作用 e200702084 C++c C#
在C语言中，关键字static有三个明显的作用： 1)在函数体，局部的static变量。生存期为程序的整个生命周期，（它存活多长时间）；作用域却在函数体内（它在什么地方能被访问（空间））。一个被声明为静态的变量在这一函数被调用过程中维持其值不变。因为它分配在静态存储区，函数调用结束后并不释放单元，但是在其它的作用域的无法访问。当再次调用这个函数时，这个局部的静态变量还存活，而且用在它的访
win7/8使用curl geeksun win7
1. WIN7/8下要使用curl，需要下载curl-7.20.0-win64-ssl-sspi.zip和Win64OpenSSL_Light-1_0_2d.exe。下载地址： http://curl.haxx.se/download.html 请选择不带SSL的版本，否则还需要安装SSL的支持包 2. 可以给Windows增加c
Creating a Shared Repository; Users Sharing The Repository hongtoushizi git
转载自： http://www.gitguys.com/topics/creating-a-shared-repository-users-sharing-the-repository/ Commands discussed in this section: git init –bare git clone git remote git pull git p
Java实现字符串反转的8种或9种方法 Josh_Persistence 异或反转递归反转二分交换反转 java字符串反转栈反转
注：对于第7种使用异或的方式来实现字符串的反转，如果不太看得明白的，可以参照另一篇博客： http://josh-persistence.iteye.com/blog/2205768 /** * */ package com.wsheng.aggregator.algorithm.string; import java.util.Stack; /**
代码实现任意容量倒水问题 home198979 PHP 算法倒水
形象化设计模式实战 HELLO!架构 redis命令源码解析倒水问题：有两个杯子，一个A升，一个B升，水有无限多，现要求利用这两杯子装C
Druid datasource zhb8015 druid
推荐大家使用数据库连接池 DruidDataSource. http://code.alibabatech.com/wiki/display/Druid/DruidDataSource DruidDataSource经过阿里巴巴数百个应用一年多生产环境运行验证，稳定可靠。它最重要的特点是：监控、扩展和性能。下载和Maven配置看这里： http
两种启动监听器ApplicationListener和ServletContextListener spjich java spring 框架
引言:有时候需要在项目初始化的时候进行一系列工作，比如初始化一个线程池，初始化配置文件，初始化缓存等等，这时候就需要用到启动监听器，下面分别介绍一下两种常用的项目启动监听器 ServletContextListener 特点: 依赖于sevlet容器，需要配置web.xml 使用方法: public class StartListener implements
JavaScript Rounding Methods of the Math object 何不笑 JavaScript Math
The next group of methods has to do with rounding decimal values into integers. Three methods — Math.ceil(), Math.floor(), and Math.round() — handle rounding in differen

很好的lucene3.6入门指南

Lucene3.6 入门指南

你可能感兴趣的:(Luence)