liuguofeng

Lucene / Solr 开发经验

注意：该文章所属Blog中的日记遵循Creative Commons(创作共用)授权，您可以任意转载，转载时请务必以超链接形式标明文章原始出处和作者信息及本声明。

[开篇语 ]按照惯例应该写一篇技术文章了，这次结合Lucene/Solr来分享一下开发经验。

Lucene是一个使用Java语言写的全文检索开发包（API），利用它可以实现强大的检索功能，它的详细介绍大家可以去Google上搜索一下，本文重点放在Solr相关的讨论上。

[概述 ]目前国内研究Solr的人不多，而且大多是因为项目开发需要。Solr师承Lucene，为 Apache基金会下的一个项目，具体的说它还是Lucene下的一个子项目。Solr出身豪门，而且具有自己的技术特点，填补了以往Lucene仅仅作为开发工具包的遗憾，它是一个完完整整地应用。换句话说，它是一个全文检索服务器，它开箱即用，让我们能立马体会到Lucene的强大功能，为 Lucene产品化走出了一大步。

[渊源 ]最初，CNET Networks使用Lucene API来开发了一些应用，并在这个基础上产生了Solr的雏形，后来Apache Software Foundation在Lucene顶级项目的支持下得到了Solr，这已经是2006年1月份的事了。2006年1月17日，Solr正是加入 Apache基金会的孵化项目，在整个项目孵化期间，Solr 稳步地积累各种特性并吸引了一个稳定的user群体、developer群体和Committer群体，并于1年之后的17日正式酝酿成熟，在这之前已经成功发布了1.1.0版。目前的稳定版本是1.2，Solr在9月份的2007Apache年会上大放异彩，在今年11月底将来到香港参加2007亚洲开源软件峰会，遗憾的是为什么不来北京:-(

[初识Solr ]Solr服务器不同于普通的关系型数据库，不仅仅在于它核心本质的不同（面向结构化和非结构化数据的不同），很大的不同还在于它的体系架构上。Solr服务器一般情况下需要部署于应用服务器/Java容器上（如果是本机通信不涉及RPC可以不使用 Java容器，如采用嵌入方式使用Solr），无法独立工作于JVM上。

Solr架构图
Solr服务器可以存储数据并通过索引对其进行快速高效检索。对外提供HTTP/XML和Json API接口，这使得它能够在多语言环境下集成，比如针对它的客户端的开发。Solr目前的客户端面向的有Java、PHP、Python、C#、Json 和Ruby等，遗憾的是没有面向C/C++（这也是本人目前在研究的），研究音乐搜索分类的Brian Whitman曾在苹果平台上使用JNI技术在C代码中嵌入Solr实现检索，不过是一个Cocoa工程。有了这些客户端，使用者能很方便地将Solr集成到具体运用中。目前最完善的当属Java客户端Solrj，以及加入到Solr trunk，并将在1.3版本中正式发布。

如果不研究开发Solr，只是使用Solr，只需要关注Solr的以下几个方面：
1、Solr服务器的配置在solrconfig.xml中完成，包括对缓存，servlet的个性化配置等等，即系统全局的配置；
2、索引方法、索引域（字段）等等在schema.xml中完成，这个配置是针对Solr实例的；
3、索引数据文件默认放在Solr文档根目录下的data/index目录下，这个路径可以通过第1点配置，同时可以将这个目录下的文件进行复制粘贴，即可完成索引的复用；
4、建立索引的时间相当长，我采用按词无字典索引方式对2G110万条中文记录进行索引，花了将近2个半小时的时间（当然这个时间和很多因素有关，有兴趣的话大家可以留言和我讨论），相对而言，在linux下建索引时间要比windows下快很多，可以使用commit操作使新增索引生效，同时注意索引的优化，索引优化也是很费资源和时间的，但是优化索引也是提高检索速度的重要方法，因此需要好好权衡这一点；
5、安装完后的Solr目录下有这么几个文件夹：bin文件夹里主要是用于建立镜像和完成远程同步的脚本；conf文件夹下主要是1、2点中提到的配置文件；admin文件夹下是的主要是提供web管理界面的文件；
6、目前Solr1.2不具备安全性设计，没有用户组及权限设置，在进行具体应用时需要注意安全，目前最有效的方法是通过应用服务器上的授权实现。
本文永久链接：http://www.jinsehupan.com/blog/?p=25

[Solr的安装 ]Solr发行版中已经有一个使用Jetty为servlet容器的小例子，可以使用这个例子来体验，那正在在自己想部署的平台和应用服务器上该怎么一个步骤呢？

要开始使用 Solr，需安装以下软件：
1、Java 1.5 或更高版本；
2、Ant 1.6.x 或更高版本（用于编译管理Solr工程，个人推荐，当然可以使用eclipse）；
3、Web 浏览器，用来查看管理页面（官方建议使用Firefox，但实际没有发现和IE有什么差别）；
4、servlet 容器，如Tomcat 5.5（不建议使用6版本）。本文以Tomcat 在 8080 端口上运行为例。如果运行的是其他 servlet 容器或在其他的端口上运行，则可能要修改代码中的URL才能访问示例应用程序和 Solr。

下面开始安装配置：

1、使用Ant编译工程或下载示例应用程序，将Solr WAR 文件复制到 servlet 容器的webapps目录中；
2、得到Solr文件夹，以备随后将其复制到当前目录，可以使用ant build得到，也可以在下载的压缩包中找到，以它为模板以备之后的修改；
3、可以通过以下三种方式之一设置 Solr 的主位置：
设置 java 系统属性 solr.solr.home （没错，就是 solr.solr.home，一般在嵌入式集成中用得多）；
配置 java:comp/env/solr/home 的一个 JNDI 查找指向 solr 目录，建立/tomcat55/conf/Catalina/localhost/solr.xml文件，注意这个xml文件名将是Solr实例名称，2 中的当前目录被指定为下面中的f:/solrhome，文件内容如下：

     Xml代码   
     
   
<context docBase="f:/solr.war" debug="0" crossContext="true" >  
  <environment name="solr/home" type="java.lang.String" value="f:/solrhome" override="true" />  
</context>  

在包含 solr 目录的目录中启动 servlet 容器（默认的 Solr 主目录是当前工作目录下的 solr）；
4、最后一点就是如果有CJK（中日韩文字）应用，出现乱码问题，采用如下方法解决（其实已经不算是solr配置问题，而是应用服务器配置问题），修改 Tomcat的conf/server.xml文件中对于端口（本文为8080）的连接器统一资源编码为UTF-8，因为Solr1.2内核支持UTF- 8编码：

     Java代码   
     
   
<server ...>  
  <service ...>  
    <connector ... URIEncoding="UTF-8"/>  
    ...  
  </service>  
</server>  

[Solr分词顺序 ]Solr建立索引和对关键词进行查询都得对字串进行分词，在向索引库中添加全文检索类型的索引的时候，Solr会首先用空格进行分词，然后把分词结果依次使用指定的过滤器进行过滤，最后剩下的结果才会加入到索引库中以备查询。分词的顺序如下：
索引
1：空格whitespaceTokenize
2：过滤词StopFilter
3：拆字WordDelimiterFilter
4：小写过滤LowerCaseFilter
5：英文相近词EnglishPorterFilter
6：去除重复词RemoveDuplicatesTokenFilter
查询
1：查询相近词
2：过滤词
3：拆字
4：小写过滤
5：英文相近词
6：去除重复词
以上是针对英文，中文的除了空格，其他都类似

[Solr中文应用的一个实例 ]
1、首先配置schema.xml，这个相当于数据表配置文件，它定义了加入索引的数据的数据类型的。1.2版本的schema.xml主要包括types、fields和其他的一些缺省设置。

A、首先需要在types结点内定义一个FieldType子结点，包括name,class,positionIncrementGap等等一些参数，name就是这个FieldType的名称，class指向org.apache.solr.analysis包里面对应的class名称，用来定义这个类型的行为。在FieldType定义的时候最重要的就是定义这个类型的数据在建立索引和进行查询的时候要使用的分析器analyzer,包括分词和过滤。在例子中text这个FieldType在定义的时候，在index的analyzer中使用 solr.WhitespaceTokenizerFactory这个分词包，就是空格分词，然后使用 solr.StopFilterFactory，solr.WordDelimiterFilterFactory，solr.LowerCaseFilterFactory，solr.EnglishPorterFilterFactory，solr.RemoveDuplicatesTokenFilterFactory 这几个过滤器。在向索引库中添加text类型的索引的时候，Solr会首先用空格进行分词，然后把分词结果依次使用指定的过滤器进行过滤，最后剩下的结果才会加入到索引库中以备查询。Solr的analysis包并没有带支持中文的包，在这里我们采用lucene里的语言包（在下载后的solr压缩包内，lib目录下有一个lucene-analyzers-2.2.0.jar包，里面含有中文处理的cn和cjk类），有cn和cjk两个类可以支持中文。我们采用cjk类，并在schema.xml中加入如下配置：

     Java代码   
     
   
<fieldtype name="text_cjk" class="solr.TextField">  
  <analyzer class="org.apache.lucene.analysis.cjk.CJKAnalyzer"/>  
</fieldtype>  

支持类型定义完成了。

B、接下来的工作就是在fields结点内定义具体的字段（类似数据库中的字段），就是filed，filed定义包括name,type（为之前定义过的各种FieldType）,indexed（是否被索引）,stored（是否被储存），multiValued（是否有多个值）等等。例如定义如下：

     Xml代码   
     
   
<field name="记录号" type="slong" indexed="true" stored="true" required="true" />  
<field name="文件名" type="string" indexed="true" stored="true" />  
<field name="日期" type="date" indexed="true" stored="true" />  
<field name="版次" type="string" indexed="true" stored="true" multiValued="true"/>  
<field name="栏目" type="string" indexed="true" stored="true" multiValued="true"/>  
<field name="标题" type="text_cjk" indexed="true" stored="true" multiValued="true"/>  
<field name="作者" type="text_cjk" indexed="true" stored="true" multiValued="true"/>  
<field name="正文" type="text_cjk" indexed="true" stored="true" multiValued="true"/>  
<field name="标记" type="text_cjk" indexed="true" stored="true" multiValued="true"/>  

field的定义相当重要，有几个技巧需注意一下，对可能存在多值得字段尽量设置multiValued属性为true，避免建索引是抛出错误；如果不需要存储相应字段值，尽量将stored属性设为false。

C、建议建立了一个拷贝字段，将所有的全文字段复制到一个字段中，以便进行统一的检索：

     Xml代码   
     
<field name="text_com" type="text_cjk" indexed="true" stored="false" multiValued="true"/>

并在拷贝字段结点处完成拷贝设置：

     Xml代码   
     
   
<copyfield source="标题" dest="text_com"/>  
<copyfield source="正文" dest="text_com"/>  

D、除此之外，还可以定义动态字段，所谓动态字段就是不用指定具体的名称，只要定义字段名称的规则，例如定义一个dynamicField，name 为*_i，定义它的type为text，那么在使用这个字段的时候，任何以_i结尾的字段都被认为是符合这个定义的，例如 name_i，gender_i，school_i等。

2、配置solrconfig.xml，用来配置Solr的一些系统属性，比较重要的一个就是可以通过更改其中的dataDir属性来指定索引文件的存放位置，对于有大数据量的情况下还要进行自动commit操作配置，以下设置为当内存索引量达到20W条时自动进行往磁盘写操作，以免堆溢出，这也是解决单个入库xml文件最好不要超过30M的有效方法：

     Xml代码   
     
   
<autocommit>  
  <maxdocs>200000</maxdocs>  
</autocommit>  

3、配置好这些后，需要重新启动Solr服务器使配置生效，然后向其中添加数据。

4、添加数据是通过向服务器的update Servlet POST xml格式的数据来实现的，xml结构是这样的add中间有很多个doc，每个doc中有很多个field。添加到索引库中的每条记录都必须指定唯一的数字id来唯一标识这条索引。建立好xml文件（例如solr.xml）之后，在exampledocs目录下执行：java -jar post.jar solr.xml来添加索引数据。对于post的jar包，如果重新配置了应用服务器，如使用了comcat，端口改为8080，实例名称改为solrx 了需要重新生成相应的post.jar包进行操作。

[Solr的检索运算符 ]
1. “:” 指定字段查指定值，如返回所有值*:*
2. “?” 表示单个任意字符的通配
3. “*” 表示多个任意字符的通配（不能在检索的项开始使用*或者?符号）
4. “~” 表示模糊检索，如检索拼写类似于”roam”的项这样写：roam~将找到形如foam和roams的单词；roam~0.8，检索返回相似度在0.8以上的记录。
5. 邻近检索，如检索相隔10个单词的”apache”和”jakarta”，”jakarta apache”~10
6. “^” 控制相关度检索，如检索jakarta apache，同时希望去让”jakarta”的相关度更加好，那么在其后加上”^”符号和增量值，即jakarta^4 apache
7. 布尔操作符AND、||
8. 布尔操作符OR、&&

9. 布尔操作符NOT、!、- （排除操作符不能单独与项使用构成查询）
10. “+” 存在操作符，要求符号”+”后的项必须在文档相应的域中存在
11. ( ) 用于构成子查询
12. [] 包含范围检索，如检索某时间段记录，包含头尾，date:[200707 TO 200710]
13. {} 不包含范围检索，如检索某时间段记录，不包含头尾
date:{200707 TO 200710}
14. \ 转义操作符，特殊字符包括+ - && || ! ( ) { } [ ] ^ ” ~ * ? : \

－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－

1 lucene简介
1.1 什么是lucene
Lucene是一个全文搜索框架，而不是应用产品。因此它并不像www.baidu.com 或者google Desktop那么拿来就能用，它只是提供了一种工具让你能实现这些产品。

1.2 lucene能做什么
要回答这个问题，先要了解lucene的本质。实际上lucene的功能很单一，说到底，就是你给它若干个字符串，然后它为你提供一个全文搜索服务，告诉你你要搜索的关键词出现在哪里。知道了这个本质，你就可以发挥想象做任何符合这个条件的事情了。你可以把站内新闻都索引了，做个资料库；你可以把一个数据库表的若干个字段索引起来，那就不用再担心因为“%like%”而锁表了；你也可以写个自己的搜索引擎……

1.3 你该不该选择lucene
下面给出一些测试数据，如果你觉得可以接受，那么可以选择。
测试一：250万记录，300M左右文本，生成索引380M左右，800线程下平均处理时间300ms。
测试二：37000记录，索引数据库中的两个varchar字段，索引文件2.6M，800线程下平均处理时间1.5ms。

2 lucene的工作方式
lucene提供的服务实际包含两部分：一入一出。所谓入是写入，即将你提供的源（本质是字符串）写入索引或者将其从索引中删除；所谓出是读出，即向用户提供全文搜索服务，让用户可以通过关键词定位源。

2.1写入流程
源字符串首先经过analyzer处理，包括：分词，分成一个个单词；去除stopword（可选）。
将源中需要的信息加入Document的各个Field中，并把需要索引的Field索引起来，把需要存储的Field存储起来。
将索引写入存储器，存储器可以是内存或磁盘。

2.2读出流程
用户提供搜索关键词，经过analyzer处理。
对处理后的关键词搜索索引找出对应的Document。
用户根据需要从找到的Document中提取需要的Field。

3 一些需要知道的概念
lucene用到一些概念，了解它们的含义，有利于下面的讲解。

3.1 analyzer
Analyzer 是分析器，它的作用是把一个字符串按某种规则划分成一个个词语，并去除其中的无效词语，这里说的无效词语是指英文中的“of”、 “the”，中文中的 “的”、“地”等词语，这些词语在文章中大量出现，但是本身不包含什么关键信息，去掉有利于缩小索引文件、提高效率、提高命中率。
分词的规则千变万化，但目的只有一个：按语义划分。这点在英文中比较容易实现，因为英文本身就是以单词为单位的，已经用空格分开；而中文则必须以某种方法将连成一片的句子划分成一个个词语。具体划分方法下面再详细介绍，这里只需了解分析器的概念即可。

3.2 document
用户提供的源是一条条记录，它们可以是文本文件、字符串或者数据库表的一条记录等等。一条记录经过索引之后，就是以一个Document的形式存储在索引文件中的。用户进行搜索，也是以Document列表的形式返回。

3.3 field
一个Document可以包含多个信息域，例如一篇文章可以包含“标题”、“正文”、“最后修改时间”等信息域，这些信息域就是通过Field在Document中存储的。
Field有两个属性可选：存储和索引。通过存储属性你可以控制是否对这个Field进行存储；通过索引属性你可以控制是否对该Field进行索引。这看起来似乎有些废话，事实上对这两个属性的正确组合很重要，下面举例说明：
还是以刚才的文章为例子，我们需要对标题和正文进行全文搜索，所以我们要把索引属性设置为真，同时我们希望能直接从搜索结果中提取文章标题，所以我们把标题域的存储属性设置为真，但是由于正文域太大了，我们为了缩小索引文件大小，将正文域的存储属性设置为假，当需要时再直接读取文件；我们只是希望能从搜索解果中提取最后修改时间，不需要对它进行搜索，所以我们把最后修改时间域的存储属性设置为真，索引属性设置为假。上面的三个域涵盖了两个属性的三种组合，还有一种全为假的没有用到，事实上Field不允许你那么设置，因为既不存储又不索引的域是没有意义的。

3.4 term
term是搜索的最小单位，它表示文档的一个词语，term由两部分组成：它表示的词语和这个词语所出现的field。

3.5 tocken
tocken是term的一次出现，它包含trem文本和相应的起止偏移，以及一个类型字符串。一句话中可以出现多次相同的词语，它们都用同一个term表示，但是用不同的tocken，每个tocken标记该词语出现的地方。

3.6 segment
添加索引时并不是每个document都马上添加到同一个索引文件，它们首先被写入到不同的小文件，然后再合并成一个大索引文件，这里每个小文件都是一个segment。

4 lucene的结构
lucene包括core和sandbox两部分，其中core是lucene稳定的核心部分，sandbox包含了一些附加功能，例如highlighter、各种分析器。
Lucene core有七个包：analysis，document，index，queryParser，search，store，util。
4.1 analysis
Analysis包含一些内建的分析器，例如按空白字符分词的WhitespaceAnalyzer，添加了stopwrod过滤的StopAnalyzer，最常用的StandardAnalyzer。
4.2 document
Document包含文档的数据结构，例如Document类定义了存储文档的数据结构，Field类定义了Document的一个域。
4.3 index
Index 包含了索引的读写类，例如对索引文件的segment进行写、合并、优化的IndexWriter类和对索引进行读取和删除操作的 IndexReader类，这里要注意的是不要被IndexReader这个名字误导，以为它是索引文件的读取类，实际上删除索引也是由它完成， IndexWriter只关心如何将索引写入一个个segment，并将它们合并优化；IndexReader则关注索引文件中各个文档的组织形式。
4.4 queryParser
QueryParser 包含了解析查询语句的类，lucene的查询语句和sql语句有点类似，有各种保留字，按照一定的语法可以组成各种查询。 Lucene有很多种 Query类，它们都继承自Query，执行各种特殊的查询，QueryParser的作用就是解析查询语句，按顺序调用各种 Query类查找出结果。
4.5 search
Search包含了从索引中搜索结果的各种类，例如刚才说的各种Query类，包括TermQuery、BooleanQuery等就在这个包里。
4.6 store
Store包含了索引的存储类，例如Directory定义了索引文件的存储结构，FSDirectory为存储在文件中的索引，RAMDirectory为存储在内存中的索引，MmapDirectory为使用内存映射的索引。
4.7 util
Util包含一些公共工具类，例如时间和字符串之间的转换工具。

5 如何建索引
5.1 最简单的能完成索引的代码片断

IndexWriter writer = new IndexWriter(“/data/index/”, new StandardAnalyzer(), true);
Document doc = new Document();
doc.add(new Field("title", "lucene introduction", Field.Store.YES, Field.Index.TOKENIZED));
doc.add(new Field("content", "lucene works well", Field.Store.YES, Field.Index.TOKENIZED));
writer.addDocument(doc);
writer.optimize();
writer.close();

下面我们分析一下这段代码。
首先我们创建了一个writer，并指定存放索引的目录为“/data/index”，使用的分析器为StandardAnalyzer，第三个参数说明如果已经有索引文件在索引目录下，我们将覆盖它们。
然后我们新建一个document。
我们向document添加一个field，名字是“title”，内容是“lucene introduction”，对它进行存储并索引。
再添加一个名字是“content”的field，内容是“lucene works well”，也是存储并索引。
然后我们将这个文档添加到索引中，如果有多个文档，可以重复上面的操作，创建document并添加。
添加完所有document，我们对索引进行优化，优化主要是将多个segment合并到一个，有利于提高索引速度。
随后将writer关闭，这点很重要。

对，创建索引就这么简单！
当然你可能修改上面的代码获得更具个性化的服务。

5.2 将索引直接写在内存
你需要首先创建一个RAMDirectory，并将其传给writer，代码如下：

Directory dir = new RAMDirectory();
IndexWriter writer = new IndexWriter(dir, new StandardAnalyzer(), true);
Document doc = new Document();
doc.add(new Field("title", "lucene introduction", Field.Store.YES, Field.Index.TOKENIZED));
doc.add(new Field("content", "lucene works well", Field.Store.YES, Field.Index.TOKENIZED));
writer.addDocument(doc);
writer.optimize();
writer.close();

5.3 索引文本文件
如果你想把纯文本文件索引起来，而不想自己将它们读入字符串创建field，你可以用下面的代码创建field：

Field field = new Field("content", new FileReader(file));

这里的file就是该文本文件。该构造函数实际上是读去文件内容，并对其进行索引，但不存储。

6 如何维护索引
索引的维护操作都是由IndexReader类提供。

6.1 如何删除索引
lucene提供了两种从索引中删除document的方法，一种是

void deleteDocument(int docNum)

这种方法是根据document在索引中的编号来删除，每个document加进索引后都会有个唯一编号，所以根据编号删除是一种精确删除，但是这个编号是索引的内部结构，一般我们不会知道某个文件的编号到底是几，所以用处不大。另一种是

void deleteDocuments(Term term)

这种方法实际上是首先根据参数term执行一个搜索操作，然后把搜索到的结果批量删除了。我们可以通过这个方法提供一个严格的查询条件，达到删除指定document的目的。
下面给出一个例子：

Directory dir = FSDirectory.getDirectory(PATH, false);
IndexReader reader = IndexReader.open(dir);
Term term = new Term(field, key);
reader.deleteDocuments(term);
reader.close();

6.2 如何更新索引
lucene并没有提供专门的索引更新方法，我们需要先将相应的document删除，然后再将新的document加入索引。例如：

Directory dir = FSDirectory.getDirectory(PATH, false);
IndexReader reader = IndexReader.open(dir);
Term term = new Term(“title”, “lucene introduction”);
reader.deleteDocuments(term);
reader.close();

IndexWriter writer = new IndexWriter(dir, new StandardAnalyzer(), true);
Document doc = new Document();
doc.add(new Field("title", "lucene introduction", Field.Store.YES, Field.Index.TOKENIZED));
doc.add(new Field("content", "lucene is funny", Field.Store.YES, Field.Index.TOKENIZED));
writer.addDocument(doc);
writer.optimize();
writer.close();

7 如何搜索
lucene 的搜索相当强大，它提供了很多辅助查询类，每个类都继承自Query类，各自完成一种特殊的查询，你可以像搭积木一样将它们任意组合使用，完成一些复杂操作；另外lucene还提供了Sort类对结果进行排序，提供了Filter 类对查询条件进行限制。你或许会不自觉地拿它跟SQL语句进行比较： “lucene能执行and、or、order by、where、like ‘%xx%’操作吗？”回答是：“当然没问题！”

7.1 各种各样的Query
下面我们看看lucene到底允许我们进行哪些查询操作：

7.1.1 TermQuery
首先介绍最基本的查询，如果你想执行一个这样的查询：“在content域中包含‘lucene’的document”，那么你可以用TermQuery：

Term t = new Term("content", " lucene";
Query query = new TermQuery(t);

7.1.2 BooleanQuery
如果你想这么查询：“在content域中包含java或perl的document”，那么你可以建立两个TermQuery并把它们用BooleanQuery连接起来：

TermQuery termQuery1 = new TermQuery(new Term("content", "java");
TermQuery termQuery 2 = new TermQuery(new Term("content", "perl");
BooleanQuery booleanQuery = new BooleanQuery();
booleanQuery.add(termQuery 1, BooleanClause.Occur.SHOULD);
booleanQuery.add(termQuery 2, BooleanClause.Occur.SHOULD);

7.1.3 WildcardQuery
如果你想对某单词进行通配符查询，你可以用WildcardQuery，通配符包括’?’匹配一个任意字符和’*’匹配零个或多个任意字符，例如你搜索’use*’，你可能找到’useful’或者’useless’：

Query query = new WildcardQuery(new Term("content", "use*");

7.1.4 PhraseQuery
你可能对中日关系比较感兴趣，想查找‘中’和‘日’挨得比较近（5个字的距离内）的文章，超过这个距离的不予考虑，你可以：

PhraseQuery query = new PhraseQuery();
query.setSlop(5);
query.add(new Term("content ", “中”));
query.add(new Term(“content”, “日”));

那么它可能搜到“中日合作……”、“中方和日方……”，但是搜不到“中国某高层领导说日本欠扁”。

7.1.5 PrefixQuery
如果你想搜以‘中’开头的词语，你可以用PrefixQuery：

PrefixQuery query = new PrefixQuery(new Term("content ", "中");

7.1.6 FuzzyQuery
FuzzyQuery用来搜索相似的term，使用Levenshtein算法。假设你想搜索跟‘wuzza’相似的词语，你可以：

Query query = new FuzzyQuery(new Term("content", "wuzza");

你可能得到‘fuzzy’和‘wuzzy’。

7.1.7 RangeQuery
另一个常用的Query是RangeQuery，你也许想搜索时间域从20060101到20060130之间的document，你可以用RangeQuery：

RangeQuery query = new RangeQuery(new Term(“time”, “20060101”), new Term(“time”, “20060130”), true);

最后的true表示用闭合区间。

7.2 QueryParser
看了这么多Query，你可能会问：“不会让我自己组合各种Query吧，太麻烦了！”当然不会，lucene提供了一种类似于SQL语句的查询语句，我们姑且叫它lucene语句，通过它，你可以把各种查询一句话搞定，lucene会自动把它们查分成小块交给相应Query执行。下面我们对应每种 Query演示一下：
TermQuery可以用“field:key”方式，例如“content:lucene”。
BooleanQuery中‘与’用‘+’，‘或’用‘ ’，例如“content:java contenterl”。
WildcardQuery仍然用‘?’和‘*’，例如“content:use*”。
PhraseQuery用‘~’，例如“content:"中日"~5”。
PrefixQuery用‘*’，例如“中*”。
FuzzyQuery用‘~’，例如“content: wuzza ~”。
RangeQuery用‘[]’或‘{}’，前者表示闭区间，后者表示开区间，例如“time:[20060101 TO 20060130]”，注意TO区分大小写。
你可以任意组合query string，完成复杂操作，例如“标题或正文包括lucene，并且时间在20060101到20060130之间的文章”可以表示为：“+ (title:lucene content:lucene) +time:[20060101 TO 20060130]”。代码如下：

Directory dir = FSDirectory.getDirectory(PATH, false);
IndexSearcher is = new IndexSearcher(dir);
QueryParser parser = new QueryParser("content", new StandardAnalyzer());
Query query = parser.parse("+(title:lucene content:lucene) +time:[20060101 TO 20060130]";
Hits hits = is.search(query);
for (int i = 0; i < hits.length(); i++)
{
Document doc = hits.doc(i);
System.out.println(doc.get("title");
}
is.close();

首先我们创建一个在指定文件目录上的IndexSearcher。
然后创建一个使用StandardAnalyzer作为分析器的QueryParser，它默认搜索的域是content。
接着我们用QueryParser来parse查询字串，生成一个Query。
然后利用这个Query去查找结果，结果以Hits的形式返回。
这个Hits对象包含一个列表，我们挨个把它的内容显示出来。

7.3 Filter
filter 的作用就是限制只查询索引的某个子集，它的作用有点像SQL语句里的where，但又有区别，它不是正规查询的一部分，只是对数据源进行预处理，然后交给查询语句。注意它执行的是预处理，而不是对查询结果进行过滤，所以使用filter 的代价是很大的，它可能会使一次查询耗时提高一百倍。
最常用的filter 是RangeFilter 和QueryFilter 。RangeFilter 是设定只搜索指定范围内的索引；QueryFilter 是在上次查询的结果中搜索。
Filter 的使用非常简单，你只需创建一个filter 实例，然后把它传给searcher。继续上面的例子，查询“时间在20060101到20060130之间的文章”除了将限制写在query string中，你还可以写在RangeFilter 中：

Directory dir = FSDirectory.getDirectory(PATH, false);
IndexSearcher is = new IndexSearcher(dir);
QueryParser parser = new QueryParser("content", new StandardAnalyzer());
Query query = parser.parse("title:lucene content:lucene";
RangeFilter filter = new RangeFilter ("time", "20060101", "20060230", true, true);
Hits hits = is.search(query, filter );
for (int i = 0; i < hits.length(); i++)
{
Document doc = hits.doc(i);
System.out.println(doc.get("title");
}
is.close();

7.4 Sort
有时你想要一个排好序的结果集，就像SQL语句的“order by”，lucene能做到：通过Sort。
Sort sort = new Sort(“time”); //相当于SQL的“order by time”
Sort sort = new Sort(“time”, true); // 相当于SQL的“order by time desc”
下面是一个完整的例子：

Directory dir = FSDirectory.getDirectory(PATH, false);
IndexSearcher is = new IndexSearcher(dir);
QueryParser parser = new QueryParser("content", new StandardAnalyzer());
Query query = parser.parse("title:lucene content:lucene";
RangeFilter filter = new RangeFilter ("time", "20060101", "20060230", true, true);
Sort sort = new Sort(“time”);
Hits hits = is.search(query, filter , sort);
for (int i = 0; i < hits.length(); i++)
{
Document doc = hits.doc(i);
System.out.println(doc.get("title");
}
is.close();

8 分析器
在前面的概念介绍中我们已经知道了分析器的作用，就是把句子按照语义切分成一个个词语。英文切分已经有了很成熟的分析器： StandardAnalyzer，很多情况下StandardAnalyzer是个不错的选择。甚至你会发现StandardAnalyzer也能对中文进行分词。
但是我们的焦点是中文分词，StandardAnalyzer能支持中文分词吗？实践证明是可以的，但是效果并不好，搜索“如果” 会把“牛奶不如果汁好喝”也搜索出来，而且索引文件很大。那么我们手头上还有什么分析器可以使用呢？core里面没有，我们可以在sandbox里面找到两个： ChineseAnalyzer和CJKAnalyzer。但是它们同样都有分词不准的问题。相比之下用StandardAnalyzer和 ChineseAnalyzer建立索引时间差不多，索引文件大小也差不多，CJKAnalyzer表现会差些，索引文件大且耗时比较长。
要解决问题，首先分析一下这三个分析器的分词方式。StandardAnalyzer和ChineseAnalyzer都是把句子按单个字切分，也就是说 “牛奶不如果汁好喝”会被它们切分成“牛奶不如果汁好喝”；而CJKAnalyzer则会切分成“牛奶奶不不如如果果汁汁好好喝”。这也就解释了为什么搜索“果汁”都能匹配这个句子。
以上分词的缺点至少有两个：匹配不准确和索引文件大。我们的目标是将上面的句子分解成 “牛奶不如果汁好喝”。这里的关键就是语义识别，我们如何识别“牛奶”是一个词而“奶不”不是词语？我们很自然会想到基于词库的分词法，也就是我们先得到一个词库，里面列举了大部分词语，我们把句子按某种方式切分，当得到的词语与词库中的项匹配时，我们就认为这种切分是正确的。这样切词的过程就转变成匹配的过程，而匹配的方式最简单的有正向最大匹配和逆向最大匹配两种，说白了就是一个从句子开头向后进行匹配，一个从句子末尾向前进行匹配。基于词库的分词词库非常重要，词库的容量直接影响搜索结果，在相同词库的前提下，据说逆向最大匹配优于正向最大匹配。
当然还有别的分词方法，这本身就是一个学科，我这里也没有深入研究。回到具体应用，我们的目标是能找到成熟的、现成的分词工具，避免重新发明车轮。经过网上搜索，用的比较多的是中科院的 ICTCLAS和一个不开放源码但是免费的JE-Analysis。ICTCLAS有个问题是它是一个动态链接库， java调用需要本地方法调用，不方便也有安全隐患，而且口碑也确实不大好。JE-Analysis效果还不错，当然也会有分词不准的地方，相比比较方便放心。

9 性能优化
一直到这里，我们还是在讨论怎么样使lucene跑起来，完成指定任务。利用前面说的也确实能完成大部分功能。但是测试表明lucene的性能并不是很好，在大数据量大并发的条件下甚至会有半分钟返回的情况。另外大数据量的数据初始化建立索引也是一个十分耗时的过程。那么如何提高lucene的性能呢？下面从优化创建索引性能和优化搜索性能两方面介绍。

9.1 优化创建索引性能
这方面的优化途径比较有限，IndexWriter提供了一些接口可以控制建立索引的操作，另外我们可以先将索引写入RAMDirectory，再批量写入FSDirectory，不管怎样，目的都是尽量少的文件IO，因为创建索引的最大瓶颈在于磁盘IO。另外选择一个较好的分析器也能提高一些性能。

9.1.1 通过设置IndexWriter的参数优化索引建立
setMaxBufferedDocs(int maxBufferedDocs)
控制写入一个新的segment前内存中保存的document的数目，设置较大的数目可以加快建索引速度，默认为10。
setMaxMergeDocs(int maxMergeDocs)
控制一个segment中可以保存的最大document数目，值较小有利于追加索引的速度，默认Integer.MAX_VALUE，无需修改。
setMergeFactor(int mergeFactor)
控制多个segment合并的频率，值较大时建立索引速度较快，默认是10，可以在建立索引时设置为100。

9.1.2 通过RAMDirectory缓写提高性能
我们可以先把索引写入RAMDirectory，达到一定数量时再批量写进FSDirectory，减少磁盘IO次数。

FSDirectory fsDir = FSDirectory.getDirectory("/data/index", true);
RAMDirectory ramDir = new RAMDirectory();
IndexWriter fsWriter = new IndexWriter(fsDir, new StandardAnalyzer(), true);
IndexWriter ramWriter = new IndexWriter(ramDir, new StandardAnalyzer(), true);
while (there are documents to index)
{
... create Document ...
ramWriter.addDocument(doc);
if (condition for flushing memory to disk has been met)
{
fsWriter.addIndexes(new Directory[] { ramDir });
ramWriter.close();
ramWriter = new IndexWriter(ramDir, new StandardAnalyzer(), true);
}
}

9.1.3 选择较好的分析器
这个优化主要是对磁盘空间的优化，可以将索引文件减小将近一半，相同测试数据下由600M减少到380M。但是对时间并没有什么帮助，甚至会需要更长时间，因为较好的分析器需要匹配词库，会消耗更多cpu，测试数据用StandardAnalyzer耗时133分钟；用MMAnalyzer耗时 150分钟。

9.2 优化搜索性能
虽然建立索引的操作非常耗时，但是那毕竟只在最初创建时才需要，平时只是少量的维护操作，更何况这些可以放到一个后台进程处理，并不影响用户搜索。我们创建索引的目的就是给用户搜索，所以搜索的性能才是我们最关心的。下面就来探讨一下如何提高搜索性能。

9.2.1 将索引放入内存
这是一个最直观的想法，因为内存比磁盘快很多。Lucene提供了RAMDirectory可以在内存中容纳索引：

Directory fsDir = FSDirectory.getDirectory(“/data/index/”, false);
Directory ramDir = new RAMDirectory(fsDir);
Searcher searcher = new IndexSearcher(ramDir);

但是实践证明RAMDirectory和FSDirectory速度差不多，当数据量很小时两者都非常快，当数据量较大时（索引文件400M）RAMDirectory甚至比FSDirectory还要慢一点，这确实让人出乎意料。
而且lucene的搜索非常耗内存，即使将400M的索引文件载入内存，在运行一段时间后都会out of memory，所以个人认为载入内存的作用并不大。

9.2.2 优化时间范围限制
既然载入内存并不能提高效率，一定有其它瓶颈，经过测试发现最大的瓶颈居然是时间范围限制，那么我们可以怎样使时间范围限制的代价最小呢？
当需要搜索指定时间范围内的结果时，可以：
1、用RangeQuery，设置范围，但是RangeQuery的实现实际上是将时间范围内的时间点展开，组成一个个 BooleanClause加入到 BooleanQuery中查询，因此时间范围不可能设置太大，经测试，范围超过一个月就会抛 BooleanQuery.TooManyClauses，可以通过设置 BooleanQuery.setMaxClauseCount (int maxClauseCount)扩大，但是扩大也是有限的，并且随着maxClauseCount扩大，占用内存也扩大
2、用 RangeFilter 代替RangeQuery，经测试速度不会比RangeQuery慢，但是仍然有性能瓶颈，查询的90%以上时间耗费在 RangeFilter ，研究其源码发现RangeFilter 实际上是首先遍历所有索引，生成一个BitSet，标记每个document，在时间范围内的标记为true，不在的标记为false，然后将结果传递给Searcher查找，这是十分耗时的。
3、进一步提高性能，这个又有两个思路：
a、缓存Filter 结果。既然RangeFilter 的执行是在搜索之前，那么它的输入都是一定的，就是IndexReader，而 IndexReader是由Directory决定的，所以可以认为RangeFilter 的结果是由范围的上下限决定的，也就是由具体的 RangeFilter 对象决定，所以我们只要以RangeFilter 对象为键，将filter 结果BitSet缓存起来即可。lucene API 已经提供了一个CachingWrapperFilter 类封装了Filter 及其结果，所以具体实施起来我们可以 cache CachingWrapperFilter 对象，需要注意的是，不要被CachingWrapperFilter 的名字及其说明误导， CachingWrapperFilter 看起来是有缓存功能，但的缓存是针对同一个filter 的，也就是在你用同一个filter 过滤不同 IndexReader时，它可以帮你缓存不同IndexReader的结果，而我们的需求恰恰相反，我们是用不同filter 过滤同一个 IndexReader，所以只能把它作为一个封装类。
b、降低时间精度。研究Filter 的工作原理可以看出，它每次工作都是遍历整个索引的，所以时间粒度越大，对比越快，搜索时间越短，在不影响功能的情况下，时间精度越低越好，有时甚至牺牲一点精度也值得，当然最好的情况是根本不作时间限制。
下面针对上面的两个思路演示一下优化结果（都采用800线程随机关键词随即时间范围）：
第一组，时间精度为秒：
方式直接用RangeFilter 使用cache 不用filter
平均每个线程耗时 10s 1s 300ms

第二组，时间精度为天
方式直接用RangeFilter 使用cache 不用filter
平均每个线程耗时 900ms 360ms 300ms

由以上数据可以得出结论：
1、尽量降低时间精度，将精度由秒换成天带来的性能提高甚至比使用cache还好，最好不使用filter 。
2、在不能降低时间精度的情况下，使用cache能带了10倍左右的性能提高。

9.2.3 使用更好的分析器
这个跟创建索引优化道理差不多，索引文件小了搜索自然会加快。当然这个提高也是有限的。较好的分析器相对于最差的分析器对性能的提升在20%以下。

10 一些经验

10.1关键词区分大小写
or AND TO等关键词是区分大小写的，lucene只认大写的，小写的当做普通单词。

10.2 读写互斥性
同一时刻只能有一个对索引的写操作，在写的同时可以进行搜索

10.3 文件锁
在写索引的过程中强行退出将在tmp目录留下一个lock文件，使以后的写操作无法进行，可以将其手工删除

10.4 时间格式
lucene只支持一种时间格式yyMMddHHmmss，所以你传一个yy-MM-dd HH:mm:ss的时间给lucene它是不会当作时间来处理的

10.5 设置boost
有些时候在搜索时某个字段的权重需要大一些，例如你可能认为标题中出现关键词的文章比正文中出现关键词的文章更有价值，你可以把标题的boost设置的更大，那么搜索结果会优先显示标题中出现关键词的文章（没有使用排序的前题下）。使用方法：
Field. setBoost(float boost);默认值是1.0，也就是说要增加权重的需要设置得比1大。

转自http://hi.baidu.com/51project/blog/category/%CB%D1%CB%F7%D2%FD%C7%E6

－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－

Lucene应用编程接口（API）功能强大、非常灵活、易于使用。Lucene不但提供了出众的全文搜索功能，还提供了所有补充性的过滤和排序特性。如果想把高性能、特性丰富的多重标准全文搜索机制添加到应用程序中，就需要这些功能和特性。

索引

任何Lucene应用程序的第一步就是为数据建立索引。Lucene需要使用数据创建自己的一组索引，以便它可以对数据进行高性能的全文检查、过滤和排序等操作。这是相当简单、直观的过程。首先，需要创建IndexWriter对象，可以使用该对象建立Lucene 索引，并把它写到磁盘上。Lucene非常灵活，它有许多选项。这里，我们只是在“index”目录里面建立简单的索引结构：

Directory directory = FSDirectory.getDirectory("index", true);

Analyzer analyser = new StandardAnalyzer();

IndexWriter writer = new IndexWriter(directory, analyser, true);

接下来，需要为数据记录建立索引。需要为每个记录建立单独的索引。用Lucene为记录建立索引时，要为每个记录创建“文档”（Document）对象。要让全文索引发挥作用，就要为Lucene提供可以建立索引的一些数据。最简单的选项就是编写一个方法，写入记录的全文描述（包括想要搜索的各项内容），然后使用这个值作为可搜索字段。这里，我们把这个字段称为“description”。可以通过为文档添加“字段 ”（Field）类的新实例，来为字段建立索引，如下所示：

Field field = new Field("field", value, Field.Store.NO, Field.Index.TOKENIZED);

doc.add(field);

可以选择指定自己是否想保存该值供将来使用（Field.Store.YES），还是只是为它建立索引（Field.Store.NO）。后一个选项适用于想建立索引、但以后不想检索的大值。第四个参数表明想要如何为值建立索引。如果使用 Field.Index.TOKENIZED，值就会被分析，让Lucene可以更充分地利用功能强大的全文索引和搜索特性。正如我们会看到的那样，缺点在于，无法按标记化（tokenized）的字段对结果进行排序。如果想为字段建立索引，而不需要先进行分析，那么 Field.Index.UN_TOKENIZED很有用。如果只是想保存值，供将来使用，那么可以使用Field.Index.NO。下列代码表明了如何为来自库目录的条目列表建立索引：

List< Item> items = Catalog.getAllItems();

for(Item item : items) {}

Document doc = new Document();

String description = item.getTitle+ " " + item.getAuthors()+ " " + item.getSummary()...;

doc.add(new Field("description", description, Field.Store.NO, Field.Index.TOKENIZED));

... }

上述方法非常适用于全文搜索，但有时候也需要按特定字段进行更加准确的搜索。可搜索字段应当是标记化的，不过它们确实不需要保存起来（除非想直接从Lucene文档获得字段值）。设想一下：如果需要根据库目录建立全文索引，目录里面有成千上万个条目，譬如图书、文章、报纸、视频和声音等资料。下列代码说明了如何按特定库条目（这里是图书）的书名和国际标准图书编号添加可搜索的索引：

doc.add(new Field("title", item.getTitle(), Field.Store.NO, Field.Index.TOKENIZED));

doc.add(new Field("isbn", item.getISBNNumber(), Field.Store.NO, Field.Index.TOKENIZED));

doc.add(new Field("type", Item.BOOK, Field.Store.NO, Field.Index.TOKENIZED));

writer.addDocument(doc);

...

writer.close();

有时候往往会需要在表中显示搜索结果，让用户可以按列对结果进行排序。这可以用Lucene来完成，不过有一个问题：字段必须是UN_TOKENIZED。这意味着，无法对可搜索的索引进行排序：需要添加有着不同名字的另一个索引。办法之一就是用某种易于识读的方式为字段名添加前缀，如下所示：

// 按照书名字段的可搜索索引

doc.add(new Field("sort-on-title", book.getTitle(), Field.Store.YES, Field.Index.UN_TOKENIZED));

// 按照国际标准图书编号字段的可搜索索引

doc.add(new Field("sort-on-isbn", book.getISBNNumber(), Field.Store.YES, Field.Index.UN_TOKENIZED));

全文搜索

Lucene的全文搜索比较容易实现。典型的Lucene全文搜索如下所示：

Searcher is = indexer.getIndexSearcher();

QueryParser parser = indexer.getQueryParser("description");

Query query = parser.parse("Some full-text search terms");

Hits hits = is.search(query);

这里，我们使用索引程序按“描述”（description）字段执行全文搜索。Lucene返回“搜索结果”（Hits）对象，我们可以使用该对象获得匹配文档，如下所示：

for (int i = 0; i < searchResults.length(); i++) {

Document doc = searchResults.doc(i);

String title = (String) doc.getField("title");

System.out.println(title);}

对这部分代码进行扩充以实现多重标准搜索需要多一些工作量。我们这里使用的关键字类是“过滤器”（Filter）类，顾名思义，这个类可以对搜索结果进行过滤。“过滤器”类实际上是一个抽象类。有几种类型的过滤器类可以定义准确的过滤操作。QueryFilter类可以根据Lucene查询表达式来对搜索结果进行过滤。这里，我们构建了一个过滤器，把搜索结果限制为图书，使用了“类型”（type）字段：

Query booksQuery = new TermQuery(new Term("type",Item.BOOK));

Filter typeFilter = new QueryFilter(booksQuery);

RangeFilter类可以把搜索结果限制为某个范围的值。下列过滤器就把搜索结果限制为日期从1990年到1999年的条目，使用了year字段（最后两个布尔字段表明限制值是不是包括在内）：

Filter rangeFilter = new RangeFilter("year", "1990", "1999", true, true);

ChainedFilter类可以使用“与”（AND）、“或”（OR）、“异”（XOR）或者“与非”（ANDNOT）等逻辑操作符来合并其他过滤器。在下一个示例中，我们把搜索结果限制为只有与上述两个条件都匹配的文档：

List< Filter> filters = new ArrayList< Filter>();

filters.add(typeFilter);

filters.add(rangeFilter);

Filter filter = new ChainedFilter(filterList, ChainedFilter.AND);

可以把同一操作符应用于所有过滤器，也可以提供一组操作符，这样就可以提供不同的操作符供每个过滤器使用。不过，应当认真考虑用于多重标准搜索的操作符。譬如说，在典型的多重标准搜索中，可能会让用户使用复选框（图书、文章和视频等），从而选择他们需要的文档类型。来自这些复选框值的过滤器通常需要使用“或”（OR）表达式来进行合并。另一方面，酒店预订网站可能会提供房间号、类别或者酒店位置等搜索标准。这些是限制性的标准，它们需要使用“与”（AND）表达式来进行合并。

以下是一个比较完整的示例，它使用了我们上面讨论过的所有特性：

public List< CatalogItem> search(String expression, boolean displayBooks, boolean displayArticles, boolean displayVideo) {

List< Filter> filters = new ArrayList< Filter>();

//显示图书

if (displayBooks) {

　Query booksQuery = new TermQuery(new Term("type",Item.BOOK));

　filters.add(new QueryFilter(booksQuery)); }

// 显示文章

if (displayArticles) {

　Query articlesQuery = new TermQuery(new Term("type",Item.ARTICLE));

　filters.add(new QueryFilter(articlesQuery)); }

// 显示录像

if (displayVideo) {

　Query videoQuery = new TermQuery(new Term("type",Item.VIDEO));

　filters.add(new QueryFilter(videoQuery)); }

Filter filter = new ChainedFilter(filterList, ChainedFilter.OR);

QueryParser parser = indexer.getQueryParser("description");

Query query = parser.parse(expression);

hits = is.search(query, filter);

... }

结果排序

对搜索结果进行排序是用户对Web应用程序的一个常见需求。如今JavaServer Faces和Tapestry等许多基于组件的Web框架拥有表组件，让用户可以对每一列进行排序，就像Struts这些较为传统的模型－视图－控制器框架那样。一旦返回了搜索结果，就有可能在内存中对它们进行排序。不过，这种方法浪费严重，而且效率低下。无论是传统的关系数据库应用程序，还是 Lucene应用程序，在源处执行排序操作要有效得多。

正如我们在前面看到的那样，Lucene可以建立专门用来对结果进行排序的索引。可以只对这些字段执行排序操作，因为对关系数据库中的未索引字段进行排序是不明智的。要使用这些字段，就要使用“排序”（Sort）类。使用这个类的最简单的方法就是，只要创建一个新实例，并提供想要进行排序的列。然后把这个“排序”（Sort）实例传递给search()方法，如下所示：

Sort sort = new Sort("name");

hits = is.search(query, filter, sort);

除了这个简单示例外，Lucene还提供了一系列广泛的排序功能。只要利用列名字来指定布尔标记，就可以进行逆序排序。这里，我们按名字进行递减排序：

Sort sort = new Sort("name", true);

也可以通过提供一组列名字，对几个列进行排序：

String[] sortOrder = {"lastName","firstName"};

Sort sort = new Sort(sortOrder);

如果需要按每个字段使用不同的排序顺序，就要使用“字段排序”（SortField）类。这里，我们按姓进行递增排序，然后按出生日期朝廷递减排序：

SortField([] sortOrder = {new SortField("lastName"),new SortField("dateOfBirth",true)};

Sort sort = new Sort(sortOrder);

转自：http://www2.ccw.com.cn/06/0647/b/0647b04_3.html

你可能感兴趣的:(Lucene)

ElasticSearch 谈谈你对段合并的策略思想的认识用心去追梦 elasticsearch 大数据搜索引擎
段合并是Elasticsearch中的一个重要概念，它在数据索引和查询过程中起着关键的作用。Elasticsearch使用Lucene作为其全文搜索库，Lucene中使用的数据结构就是段（Segment）合并。段合并的策略思想主要体现在以下几个方面：提高查询性能：在Elasticsearch中，段合并的过程可以看作是对索引进行优化，通过合并将多个小的段合并成一个大的段，这样可以减少内存的使用，提高
ES架构及原理李澎昆 ES ES
Elasticsearch是一个兼有搜索引擎和NoSQL数据库功能的开源系统，基于Java/Lucene构建，可以用于全文搜索，结构化搜索以及近实时分析。说明：Lucene：只是一个框架，要充分利用它的功能，需要使用JAVA，并且在程序中集成Lucene，学习成本高，Lucene确实非常复杂。Elasticsearch是面向文档型数据库，这意味着它存储的是整个对象或者文档，它不但会存储它们，还会为
Elasticsearch段合并喵喵喵更多 java 运维分布式后端
欢迎访问本人博客查看原文：http://wangnan.techelasticsearch中每个索引都会创建一个到多个分片和零个到多个副本，这些分片或副本实质上都是lucene索引lucene索引是基于多个索引段创建，索引文件中绝大部分数据都是只写一次，读多次，而只有用于保存文档删除信息的文件才会被多次更改在某些时刻，当某种条件满足时，多个索引段会被拷贝合并到一个更大的索引段，而那些旧的索引段会被
Lucece评分公式OKapi BM25原理解析(中) 双人余_先生
背景：延续上篇写了TF/IDF的公式解析，本篇为BM25解析简单介绍。BM25起源于概率相关性模型，而不是矢量空间模型，但是该算法与Lucene的实际评分功能有很多共同点。两者都使用Term词频率，逆文档频率和字段长度归一化，但是每个因素的定义都略有不同。与其详细解释BM25公式，不如将重点放在BM25提供的实际优势上。BM25是一个词袋检索功能，它基于每个文档中出现的查询词对一组文档进行排名，而
分布式搜索引擎Elasticsearch——基础敲代码的旺财架构进阶 elasticsearch java 搜索引擎 ES-head
文章目录一、Lucene与Solr与Elasticsearch二、ES核心术语三、ES核心概念四、倒排索引五、ES的安装（centos7）1、下载地址（这里安装linux版本）2、解压压缩包3、修改配置文件(1)修改核心配置文件(2)修改JVM配置文件4、启动ES(1)添加系统用户并授权(2)ES启动(3)修改配置文件(4)再次启动ES六、安装ES-head插件（可视化管理插件）1、使用谷歌市场安
docker部署Elasticsearch和Kibana youm. docker docker elasticsearch 容器
1.Elasticsearch和Kibana介绍1.1什么是Elasticsearch？Elasticsearch是一个开源的分布式搜索和分析引擎，用于处理大规模数据的实时搜索、分析和存储。它构建在ApacheLucene搜索引擎库的基础上，提供了一个RESTfulAPI和易于使用的工具，使得在大数据量情况下进行搜索和分析变得高效和简单。1.2为什么使用Elasticsearch？Elastics
Elasticsearch中文本字段与关键字字段的聚合和排序问题好奇的菜鸟 Elasticsearch elasticsearch 大数据搜索引擎
引言Elasticsearch是一个强大的搜索引擎，它基于Lucene构建，提供了全文搜索、分析、聚合等功能。然而，在使用Elasticsearch时，我们可能会遇到一些特定的问题，比如在文本字段上进行聚合和排序操作时出现的错误。本文将详细解释这个问题，并提供解决方案。问题概述在使用Elasticsearch进行数据分析时，我们可能会尝试对文本字段进行聚合或排序。但是，Elasticsearch默
单机安装 ELK 日志分析系统 TheFlsah Linux
一、ELK介绍ELKStack是软件集合Elasticsearch、Logstash、Kibana的简称，它们都是开源软件。新增了一个FileBeat，它是一个轻量级的日志收集处理工具(Agent)，Filebeat占用资源少，适合于在各个服务器上搜集日志后传输给Logstash，官方也推荐此工具。Elasticsearch是一个基于Lucene的、支持全文索引的分布式存储和索引引擎，主要负责将日
Elastic Search常用命令胖毁青春，瘦解百病 ES es
1测试环境信息ElasticSearch服务器：192.168.0.100用户：docker启停：dockerstart/stop/restartelasticsearchKibana控制台：http://192.168.0.100:5601/app/kibana#/dev_tools/console2基本概念Elasticsearch也是基于Lucene的全文检索库，本质也是存储数据，很多概念与
ELK离线安装和配置流程 GB9125 运维开发 elasticsearch elk linux 运维开发
ELK离线安装和配置流程一、介绍ELK是一个开源的数据分析和可视化工具，由三个开源项目组成：Elasticsearch、Logstash和Kibana。Elasticsearch是一个基于Lucene库的分布式搜索和分析引擎；Logstash是一个用于收集、处理和转换数据的数据管道，它可以从各种来源读取数据，包括日志文件、系统事件、网络流量等；Kibana则是一个数据可视化平台，可以对从Elast
Elasticsearch详解es 思静语 elasticsearch elasticsearch 大数据搜索引擎
文章目录概述es架构为什么要使用ElasticSearchElasticSearch的优势使用场景es为什么这么快倒排索引如何保证ES和数据库的数据一致性监听binlog同步双写elasticsearch是如何实现master选举的Elasticsearch与Solr的区别概述ES全称是ElasticSearch，它是一个建立在全文搜索引擎库Lucene基础上的开源搜索和分析引擎。ES它本身具有分
Java——ikanalyzer分词·只用自定义词库 weixin_30902251 java 数据库 c/c++
需要包：IKAnalyzer2012_FF_hf1.jarlucene-core-5.5.4.jar需要文件：IKAnalyzer.cfg.xmlext.dicstopword.dic整理好的下载地址：http://download.csdn.net/detail/talkwah/9770635importjava.io.IOException;importjava.io.StringReader
Lucene实现自定义中文同义词分词器 WangJonney Lucene Lucene
----------------------------------------------------------lucene的分词_中文分词介绍----------------------------------------------------------Paoding:庖丁解牛分词器。已经没有更新了mmseg:使用搜狗的词库1.导入包（有两个包：1.带dic的，2.不带dic的）如果使用
选型搜索引擎之参考Elasticsearch 剑飞的编程思维 elasticsearch
简介Elasticsearch（简称ES）是一个基于ApacheLucene的开源、分布式、RESTful接口的全文搜索引擎。其设计用于云计算环境，能够达到实时搜索、稳定、可靠、快速、安装使用方便的效果。Elasticsearch是用Java开发的，并作为Apache许可条款下的开放源码发布，是当前流行的企业级搜索引擎。Elasticsearch的特点包括：分布式存储和搜索：Elasticsear
从入门到精通：Elasticsearch开发实践教程青年老年程序员 Elasticsearch学习 elasticsearch jenkins 大数据
Elasticsearch是一款开源的搜索引擎，它使用Lucene搜索库作为其核心搜索引擎。Elasticsearch使用RESTfulAPI进行交互，并支持多种数据类型的搜索和聚合。本教程将介绍Elasticsearch的基本原理，如何开发，以及如何在SpringBoot中使用Elasticsearch。Elasticsearch的原理Elasticsearch是一个分布式的文档存储和搜索引擎。
深入理解Lucene：开源全文搜索引擎的核心技术解析一休哥助手分布式系统算法搜索引擎 lucene 开源
1.介绍Lucene是什么？Lucene是一个开源的全文搜索引擎库，提供了强大的文本搜索和检索功能。它由Apache软件基金会维护和开发，采用Java语言编写，因其高性能、可扩展性和灵活性而备受欢迎。Lucene的作用和应用场景Lucene主要用于创建全文索引和执行文本搜索。其主要作用包括但不限于：在大型文本数据集中快速进行文本搜索和检索。实现网站、应用程序或系统中的搜索功能。构建文档管理系统、知
Elasticsearch基础知识与架构概述禅与计算机程序设计艺术 elasticsearch 架构 jenkins 大数据搜索引擎
1.背景介绍Elasticsearch是一个基于分布式搜索和分析引擎，它可以处理大量数据并提供实时搜索功能。在本文中，我们将深入了解Elasticsearch的基础知识和架构概述，并探讨其核心概念、算法原理、最佳实践、实际应用场景和未来发展趋势。1.背景介绍Elasticsearch是一款开源的搜索引擎，由ElasticCorporation开发。它基于Lucene库，具有高性能、可扩展性和实时性
视野 | OpenSearch，云厂商的新选择？ RadonDB 数据库搜索引擎 elasticsearch
王奇顾问软件工程师目前从事PaaS中间件服务（Redis/MongoDB/ELK等）开发工作，对NoSQL数据库有深入的研究以及丰富的二次开发经验，热衷对NoSQL数据库领域内的最新技术动态的学习，能够把握行业技术发展趋势。|最流行的全文搜索引擎Elasticsearch是一款广泛使用的开源分布式全文搜索引擎，源于ApacheLucene[1]，许可证为Apache2.0。由于出色的搜索引擎、高扩
Elasticsearch使用场景说明车马去闲闲丶 elasticsearch 大数据搜索引擎
Elasticsearch是一个基于Lucene的搜索服务器。它提供了一个分布式多租户能力的全文搜索引擎，基于RESTfulweb接口。Elasticsearch是用Java开发的，并作为Apache许可条款下的开放源码发布，是当前流行的企业级搜索引擎。它设计用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。以下是一些Elasticsearch的常见使用场景：全文搜索：Elastic
ElasticSearch学习笔记重生之Java再爱我一次 elasticsearch 学习笔记
ElasticSearch一、初识ES1.什么是ElasticSearch？ES的概念：ElasticSearch是一款非常强大的开源搜索引擎，可以帮助我们从海量数据中快速找到需要的内容。ElasticSearch结合Kibana、LogStach、Beats，也就是ElasticStack（ELK）。被广泛应用在日志数据分析、实时监控等领域。ES的发展：Lucene是一个Java语言的搜索引擎类
solr —— 1 全文检索Solr8.0第一部分苏打饼干没加心 solr
solr，毕设啊，快被写完吧1solr介绍什么是solrLucene与Solr与ES为什么要用slor2HelloWorld2.1项目安装部署2.2项目安装配置创建核心创建document(表)添加文件查询数据3solr后台管理页面详解控制面板5全文检索千万级别数据实战，全面剖析架构设计，大数据瓶颈突破6数据库导入索引BV1Dt411G7eF1solr介绍什么是solrsolr简化了程序员的操作L
（三十七）大数据实战——Solr服务的部署安装厉害哥哥吖大数据大数据 solr
前言Solr是一个基于ApacheLucene的开源搜索平台，它提供了强大的全文搜索、分布式搜索和数据分析功能。Solr可以用于构建高性能的搜索应用程序，支持从海量数据中快速检索和分析信息。Solr使用倒排索引和先进的搜索算法，可实现快速而准确的全文搜索。Solr可以在多个服务器上进行水平扩展，实现分布式搜索和负载均衡。Solr支持复杂的过滤、排序和范围查询，使您可以根据各种条件对搜索结果进行精确
《ElasticSearch技术解析与实战-朱林》云澜哥哥 ElasticSearch elasticsearch big data
《第一章：ElasticSearch入门》ElasticSearch简介：ElasticSearch是一个基于lucener构建的开源的，分布式的，resultful接口全文搜索引擎。ElasticSearch是一个分布式文档数据库。其中每个字段都是可以被索引的数据且可被搜索。ElasticSearch能够扩展到数以百计的服务器存储以及处理PB级的数据，它可以在很短的时间内存储，搜索，分析大量的数
阿里P8架构师谈：开源搜索引擎Lucene、Solr、Sphinx等优劣势比较 liuhuiteng 中间件中间件
开源搜索引擎分类1.Lucene系搜索引擎，java开发,包括：LuceneSolrElasticsearchKatta、Compass等都是基于Lucene封装。你可以想象Lucene系有多强大。2.Sphinx搜素引擎，c++开发,简单高性能。以下重点介绍最常用的开源搜素引擎：Lucene、Solr、Elasticsearch、Sphinx的特点和优劣势选型比较。Lucene1.Lucene简
16款开源的全文搜索引擎网络安全乔妮娜开源搜索引擎网络安全 web安全数据库安全前端
网络安全重磅福利：入门&进阶全套282G学习资源包免费分享！全文搜索引擎就是通过从互联网上提取的各个网站的信息（以网页文字为主）而建立的数据库中，检索与用户查询条件匹配的相关记录，然后按一定的排列顺序将结果返回给用户。1、ApacheLuceneJava全文搜索框架许可证：Apache-2.0开发语言：Java官网：https://lucene.apache.org/ApacheLucene是完全
Lucene初识 KhaosYang
Lucene是一种高性能、可伸缩的信息搜索（IR）库，在2000年开源，最初由鼎鼎大名的DougCutting开发，是基于Java实现的高性能的开源项目。Lucene采用了基于倒排表的设计原理，可以非常高效地实现文本查找，在底层采用了分段的存储模式，使它在读写时几乎完全避免了锁的出现，大大提升了读写性能。核心模块Lucene的写流程和读流程如图1所示。1.Lucene读写流程图其中，虚线箭头（A、
03-03 elasticsearch nan得糊涂
入门篇使用场景海量存储：支持分布式存储实时搜索：lucene倒排索引，海量数据下近乎实时搜索a.日志分析，es+logstash+kibanab.Github代码数据分析：支持数据分析及处理基本功能分布式的搜索引擎和数据分析引擎全文检索，结构化检索，数据分析海量数据实时处理根据这些功能，可以实现的使用场景某张表有海量数据，需要实时快速查询数据分析带来的问题ES用在海量数据实时查询，基本的数据分析等
Error CREATEing SolrCore 'index': Unable to create core: index Caused by: No enum constant org.apach 杉斯狼后台 Java solr enum 索引 lucene
ErrorCREATEingSolrCore'index':Unabletocreatecore:indexCausedby:Noenumconstantorg.apache.lucene.util.Version.LUCENE_48出错原因：solr版本配置不正确解决方法：在索引文件的目录下conf>solrconfig.xml4.8将4.8修改为4.7（你具体的版本，可以参照collectio
Elasticsearch的使用场景深入详解 Y T elasticsearch
Elasticsearch是一个基于Lucene的开源搜索引擎，它提供了一个分布式多用户能力，能够处理PB级别的结构化或非结构化数据。Elasticsearch的设计目标是实现一个可扩展的搜索解决方案，它适用于多种使用场景，以下是一些深入的使用场景详解：1.日志分析与监控Elasticsearch与Logstash和Kibana（统称为ELKStack）结合使用，可以构建强大的日志分析平台。它能够
Elasticsearch—概念、安装和配置 Sunflow007
13.jpg前言：Elasticsearch是一款很火热的，很优秀的，基于lucene的开源的分布式的搜索引擎，话不多说，本篇文章主要是Elasticsearch基本概念介绍、安装和配置。Elasticsearch的基本概念官方文档——BasicConcepts|ElasticsearchReference[6.4]|Elastic我们在学习关系型数据库和服务器的时候，接触到了一些概念如：data
tomcat基础与部署发布暗黑小菠萝 Tomcat java web
从51cto搬家了，以后会更新在这里方便自己查看。做项目一直用tomcat，都是配置到eclipse中使用，这几天有时间整理一下使用心得，有一些自己配置遇到的细节问题。 Tomcat：一个Servlets和JSP页面的容器，以提供网站服务。一、Tomcat安装安装方式：①运行.exe安装包 &n
网站架构发展的过程 ayaoxinchao 数据库应用服务器网站架构
1.初始阶段网站架构：应用程序、数据库、文件等资源在同一个服务器上 2.应用服务和数据服务分离：应用服务器、数据库服务器、文件服务器 3.使用缓存改善网站性能：为应用服务器提供本地缓存，但受限于应用服务器的内存容量，可以使用专门的缓存服务器，提供分布式缓存服务器架构 4.使用应用服务器集群改善网站的并发处理能力：使用负载均衡调度服务器，将来自客户端浏览器的访问请求分发到应用服务器集群中的任何
[信息与安全]数据库的备份问题 comsci 数据库
如果你们建设的信息系统是采用中心-分支的模式,那么这里有一个问题如果你的数据来自中心数据库,那么中心数据库如果出现故障,你的分支机构的数据如何保证安全呢? 是否应该在这种信息系统结构的基础上进行改造,容许分支机构的信息系统也备份一个中心数据库的文件呢? &n
使用maven tomcat plugin插件debug关联源代码商人shang maven debug 查看源码 tomcat-plugin
*首先需要配置好'''maven-tomcat7-plugin'''，参见[[Maven开发Web项目]]的'''Tomcat'''部分。 *配置好后，在[[Eclipse]]中打开'''Debug Configurations'''界面，在'''Maven Build'''项下新建当前工程的调试。在'''Main'''选项卡中点击'''Browse Workspace...'''选择需要开发的
大访问量高并发 oloz 大访问量高并发
大访问量高并发的网站主要压力还是在于数据库的操作上，尽量避免频繁的请求数据库。下面简要列出几点解决方案： 01、优化你的代码和查询语句，合理使用索引 02、使用缓存技术例如memcache、ecache将不经常变化的数据放入缓存之中 03、采用服务器集群、负载均衡分担大访问量高并发压力 04、数据读写分离 05、合理选用框架，合理架构(推荐分布式架构)。
cache 服务器小猪猪08 cache
Cache 即高速缓存.那么cache是怎么样提高系统性能与运行速度呢？是不是在任何情况下用cache都能提高性能？是不是cache用的越多就越好呢？我在近期开发的项目中有所体会，写下来当作总结也希望能跟大家一起探讨探讨，有错误的地方希望大家批评指正。　　1.Cache 是怎么样工作的? 　　Cache 是分配在服务器上
mysql存储过程香水浓 mysql
Description:插入大量测试数据 use xmpl; drop procedure if exists mockup_test_data_sp; create procedure mockup_test_data_sp( in number_of_records int ) begin declare cnt int; declare name varch
CSS的class、id、css文件名的常用命名规则 agevs JavaScript UI 框架 Ajax css
CSS的class、id、css文件名的常用命名规则 (一)常用的CSS命名规则　　头：header 　　内容：content/container 　　尾：footer 　　导航：nav 　　侧栏：sidebar 　　栏目：column 　　页面外围控制整体布局宽度：wrapper 　　左右中：left right
全局数据源 AILIKES java tomcat mysql jdbc JNDI
实验目的：为了研究两个项目同时访问一个全局数据源的时候是创建了一个数据源对象，还是创建了两个数据源对象。 1：将diuid和mysql驱动包（druid-1.0.2.jar和mysql-connector-java-5.1.15.jar）copy至%TOMCAT_HOME%/lib下；2：配置数据源，将JNDI在%TOMCAT_HOME%/conf/context.xml中配置好,格式如下：&l
MYSQL的随机查询的实现方法 baalwolf mysql
MYSQL的随机抽取实现方法。举个例子，要从tablename表中随机提取一条记录，大家一般的写法就是：SELECT * FROM tablename ORDER BY RAND() LIMIT 1。但是，后来我查了一下MYSQL的官方手册，里面针对RAND()的提示大概意思就是，在ORDER BY从句里面不能使用RAND()函数，因为这样会导致数据列被多次扫描。但是在MYSQL 3.23版本中，
JAVA的getBytes()方法 bijian1013 java eclipse unix OS
在Java中，String的getBytes()方法是得到一个操作系统默认的编码格式的字节数组。这个表示在不同OS下，返回的东西不一样！ String.getBytes(String decode)方法会根据指定的decode编码返回某字符串在该编码下的byte数组表示，如： byte[] b_gbk = "
AngularJS中操作Cookies bijian1013 JavaScript AngularJS Cookies
如果你的应用足够大、足够复杂，那么你很快就会遇到这样一咱种情况：你需要在客户端存储一些状态信息，这些状态信息是跨session(会话)的。你可能还记得利用document.cookie接口直接操作纯文本cookie的痛苦经历。幸运的是，这种方式已经一去不复返了，在所有现代浏览器中几乎
[Maven学习笔记五]Maven聚合和继承特性 bit1129 maven
Maven聚合在实际的项目中，一个项目通常会划分为多个模块，为了说明问题，以用户登陆这个小web应用为例。通常一个web应用分为三个模块： 1. 模型和数据持久化层user-core, 2. 业务逻辑层user-service以 3. web展现层user-web， user-service依赖于user-core user-web依赖于user-core和use
【JVM七】JVM知识点总结 bit1129 jvm
1. JVM运行模式 1.1 JVM运行时分为-server和-client两种模式，在32位机器上只有client模式的JVM。通常，64位的JVM默认都是使用server模式，因为server模式的JVM虽然启动慢点，但是，在运行过程，JVM会尽可能的进行优化 1.2 JVM分为三种字节码解释执行方式：mixed mode, interpret mode以及compiler
linux下查看nginx、apache、mysql、php的编译参数 ronin47
在linux平台下的应用，最流行的莫过于nginx、apache、mysql、php几个。而这几个常用的应用，在手工编译完以后，在其他一些情况下（如：新增模块），往往想要查看当初都使用了那些参数进行的编译。这时候就可以利用以下方法查看。 1、nginx [root@361way ~]# /App/nginx/sbin/nginx -V nginx: nginx version: nginx/
unity中运用Resources.Load的方法？ brotherlamp unity视频 unity资料 unity自学 unity unity教程
问：unity中运用Resources.Load的方法？答：Resources.Load是unity本地动态加载资本所用的方法,也即是你想动态加载的时分才用到它,比方枪弹,特效,某些实时替换的图像什么的,主张此文件夹不要放太多东西,在打包的时分,它会独自把里边的一切东西都会集打包到一同,不论里边有没有你用的东西,所以大多数资本应该是自个建文件放置 1、unity实时替换的物体即是依据环境条件
线段树-入门 bylijinnan java 算法线段树
/** * 线段树入门 * 问题：已知线段[2,5] [4,6] [0,7]；求点2,4,7分别出现了多少次 * 以下代码建立的线段树用链表来保存，且树的叶子结点类似[i,i] * * 参考链接：http://hi.baidu.com/semluhiigubbqvq/item/be736a33a8864789f4e4ad18 * @author lijinna
全选与反选 chicony 全选
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <title>全选与反选</title>
vim一些简单记录 chenchao051 vim
mac在/usr/share/vim/vimrc linux在/etc/vimrc 1、问：后退键不能删除数据，不能往后退怎么办？答：在vimrc中加入set backspace=2 2、问：如何控制tab键的缩进？答：在vimrc中加入set tabstop=4 (任何
Sublime Text 快捷键 daizj 快捷键 sublime
[size=large][/size]Sublime Text快捷键：Ctrl+Shift+P：打开命令面板Ctrl+P：搜索项目中的文件Ctrl+G：跳转到第几行Ctrl+W：关闭当前打开文件Ctrl+Shift+W：关闭所有打开文件Ctrl+Shift+V：粘贴并格式化Ctrl+D：选择单词，重复可增加选择下一个相同的单词Ctrl+L：选择行，重复可依次增加选择下一行Ctrl+Shift+L：
php 引用(&)详解 dcj3sjt126com PHP
在PHP 中引用的意思是：不同的名字访问同一个变量内容. 与Ｃ语言中的指针是有差别的．Ｃ语言中的指针里面存储的是变量的内容在内存中存放的地址变量的引用 PHP 的引用允许你用两个变量来指向同一个内容复制代码代码如下: <? $a="ABC"; $b =&$a; echo
SVN中trunk,branches,tags用法详解 dcj3sjt126com SVN
Subversion有一个很标准的目录结构，是这样的。比如项目是proj，svn地址为svn://proj/，那么标准的svn布局是svn://proj/|+-trunk+-branches+-tags这是一个标准的布局，trunk为主开发目录，branches为分支开发目录，tags为tag存档目录（不允许修改）。但是具体这几个目录应该如何使用，svn并没有明确的规范，更多的还是用户自己的习惯。
对软件设计的思考 e200702084 设计模式数据结构算法 ssh 活动
软件设计的宏观与微观软件开发是一种高智商的开发活动。一个优秀的软件设计人员不仅要从宏观上把握软件之间的开发，也要从微观上把握软件之间的开发。宏观上，可以应用面向对象设计，采用流行的SSH架构，采用web层，业务逻辑层，持久层分层架构。采用设计模式提供系统的健壮性和可维护性。微观上，对于一个类，甚至方法的调用，从计算机的角度模拟程序的运行情况。了解内存分配，参数传
同步、异步、阻塞、非阻塞 geeksun 非阻塞
同步、异步、阻塞、非阻塞这几个概念有时有点混淆，在此文试图解释一下。同步：发出方法调用后，当没有返回结果，当前线程会一直在等待（阻塞）状态。场景：打电话，营业厅窗口办业务、B/S架构的http请求-响应模式。异步：方法调用后不立即返回结果，调用结果通过状态、通知或回调通知方法调用者或接收者。异步方法调用后，当前线程不会阻塞，会继续执行其他任务。实现：
Reverse SSH Tunnel 反向打洞實錄 hongtoushizi ssh
實際的操作步驟： # 首先，在客戶那理的機器下指令連回我們自己的 Server，並設定自己 Server 上的 12345 port 會對應到幾器上的 SSH port ssh -NfR 12345:localhost:22 [email protected] # 然後在 myhost 的機器上連自己的 12345 port，就可以連回在客戶那的機器 ssh localhost -p 1
Hibernate中的缓存 Josh_Persistence 一级缓存 Hiberante缓存查询缓存二级缓存
Hibernate中的缓存一、Hiberante中常见的三大缓存：一级缓存，二级缓存和查询缓存。 Hibernate中提供了两级Cache，第一级别的缓存是Session级别的缓存，它是属于事务范围的缓存。这一级别的缓存是由hibernate管理的，一般情况下无需进行干预；第二级别的缓存是SessionFactory级别的缓存，它是属于进程范围或群集范围的缓存。这一级别的缓存
对象关系行为模式之延迟加载 home198979 PHP 架构延迟加载
形象化设计模式实战 HELLO!架构一、概念 Lazy Load：一个对象，它虽然不包含所需要的所有数据，但是知道怎么获取这些数据。延迟加载貌似很简单，就是在数据需要时再从数据库获取，减少数据库的消耗。但这其中还是有不少技巧的。二、实现延迟加载实现Lazy Load主要有四种方法：延迟初始化、虚
xml 验证 pengfeicao521 xml xml解析
有些字符，xml不能识别，用jdom或者dom4j解析的时候就报错 public static void testPattern() { // 含有非法字符的串 String str = "Jamey친Ñ&#1282
div设置半透明效果 spjich css 半透明
为div设置如下样式： div{filter:alpha(Opacity=80);-moz-opacity:0.5;opacity: 0.5;} 说明： 1、filter：对win IE设置半透明滤镜效果，filter:alpha(Opacity=80)代表该对象80%半透明，火狐浏览器不认2、-moz-opaci
你真的了解单例模式么？ w574240966 java 单例设计模式 jvm
单例模式，很多初学者认为单例模式很简单，并且认为自己已经掌握了这种设计模式。但事实上，你真的了解单例模式了么。一，单例模式的5中写法。（回字的四种写法，哈哈。） 1，懒汉式（1）线程不安全的懒汉式 public cla