倒流二十年

Lucene入门与深入代码

1、Lucene简介

①Lucene是apache软件基金会4 jakarta项目组的一个子项目，是一个开放源代码的全文检索引擎工具包，但它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，部分文本分析引擎（英文与德文两种西方语言）。

②Lucene的目的是为软件开发人员提供一个简单易用的工具包，以方便的在目标系统中实现全文检索的功能，或者是以此为基础建立起完整的全文检索引擎。

③Lucene是一套用于全文检索和搜寻的开源程式库，由Apache软件基金会支持和提供。Lucene提供了一个简单却强大的应用程式接口，能够做全文索引和搜寻。

④在Java开发环境里Lucene是一个成熟的免费开源工具。就其本身而言，Lucene是当前以及最近几年最受欢迎的免费Java信息检索程序库。人们经常提到信息检索程序库，虽然与搜索引擎有关，但不应该将信息检索程序库与搜索引擎相混淆。[1]

2、Lucene创始人

       Lucene['lusen]的原作者是Doug Cutting，他是一位资深全文索引/检索专家，曾经是V-Twin搜索引擎的主要开发者，后在Excite担任高级系统架构设计师，当前从事于一些Internet底层架构的研究。早先发布在作者自己的博客上，他贡献出Lucene的目标是为各种中小型应用程式加入全文检索功能。后来发布在SourceForge，2001年年底成为apache软件基金会jakarta的一个子项目。

3、Lucene特点优势

      作为一个开放源代码项目，Lucene从问世之后，引发了开放源代码社群的巨大反响，程序员们不仅使用它构建具体的全文检索应用，而且将之集成到各种系统软件中去，以及构建Web应用，甚至某些商业软件也采用了Lucene作为其内部全文检索子系统的核心。

      Lucene是一个高性能、可伸缩的信息搜索(IR)库。它可以为你的应用程序添加索引和搜索能力。Lucene是用java实现的、成熟的开源项目，是著名的Apache Jakarta大家庭的一员，并且基于Apache软件许可 [ASF, License]。同样，Lucene是当前非常流行的、免费的Java信息搜索(IR)库

4、Lucene突出的优点

Lucene作为一个全文检索引擎，其具有如下突出的优点：

（1）索引文件格式独立于应用平台。Lucene定义了一套以8位字节为基础的索引文件格式，使得兼容系统或者不同平台的应用能够共享建立的索引文件。
（2）在传统全文检索引擎的倒排索引的基础上，实现了分块索引，能够针对新的文件建立小文件索引，提升索引速度。然后通过与原有索引的合并，达到优化的目的。
（3）优秀的面向对象的系统架构，使得对于Lucene扩展的学习难度降低，方便扩充新功能。
（4）设计了独立于语言和文件格式的文本分析接口，索引器通过接受Token流完成索引文件的创立，用户扩展新的语言和文件格式，只需要实现文本分析的接口。
（5）已经默认实现了一套强大的查询引擎，用户无需自己编写代码即可使系统可获得强大的查询能力，Lucene的查询实现中默认实现了布尔操作、模糊查询（Fuzzy Search[11]）、分组查询等等。

面对已经存在的商业全文检索引擎，Lucene也具有相当的优势。

   首先，它的开发源代码发行方式（遵守Apache Software License[12]），在此基础上程序员不仅仅可以充分的利用Lucene所提供的强大功能，而且可以深入细致的学习到全文检索引擎制作技术和面向对象编程的实践，进而在此基础上根据应用的实际情况编写出更好的更适合当前应用的全文检索引擎。在这一点上，商业软件的灵活性远远不及Lucene。


    最后，转移到apache软件基金会后，借助于apache软件基金会的网络平台，程序员可以方便的和开发者、其它程序员交流，促成资源的共享，甚至直接获得已经编写完备的扩充功能。最后，虽然Lucene使用Java语言写成，但是开放源代码社区的程序员正在不懈的将之使用各种传统语言实现（例如.net framework[14]），在遵守Lucene索引文件格式的基础上，使得Lucene能够运行在各种各样的平台上，系统管理员可以根据当前的平台适合的语言来合理的选择。

5、Lucene前提

lucene有7个包需要导入：analysis，document，index，queryParser，search，store，util

6、lucene核心知识点

lucene用到一些概念，了解它们的含义，有利于下面的讲解。

3.2 Analyzer

       Analyzer 是分析器，它的作用是把一个字符串按某种规则划分成一个个词语，并去除其中的无效词语，这里说的无效词语是指英文中的“of”、“the”，中文中的 “的”、“地”等词语，这些词语在文章中大量出现，但是本身不包含什么关键信息，去掉有利于缩小索引文件、提高效率、提高命中率。

       分词的规则千变万化，但目的只有一个：按语义划分。这点在英文中比较容易实现，因为英文本身就是以单词为单位的，已经用空格分开；而中文则必须以某种方法将连成一片的句子划分成一个个词语。具体划分方法下面再详细介绍，这里只需了解分析器的概念即可。

3.2 document

       用户提供的源是一条条记录，它们可以是文本文件、字符串或者数据库表的一条记录等等。一条记录经过索引之后，就是以一个Document的形式存储在索引文件中的。用户进行搜索，也是以Document列表的形式返回。

3.3 field

       一个Document可以包含多个信息域，例如一篇文章可以包含“标题”、“正文”、“最后修改时间”等信息域，这些信息域就是通过Field在Document中存储的。 

       Field有两个属性可选：存储和索引。通过存储属性你可以控制是否对这个Field进行存储；通过索引属性你可以控制是否对该Field进行索引。这看起来似乎有些废话，事实上对这两个属性的正确组合很重要，下面举例说明：

       还是以刚才的文章为例子，我们需要对标题和正文进行全文搜索，所以我们要把索引属性设置为真，同时我们希望能直接从搜索结果中提取文章标题，所以 我们把标题域的存储属性设置为真，但是由于正文域太大了，我们为了缩小索引文件大小，将正文域的存储属性设置为假，当需要时再直接读取文件；我们只是希望 能从搜索解果中提取最后修改时间，不需要对它进行搜索，所以我们把最后修改时间域的存储属性设置为真，索引属性设置为假。上面的三个域涵盖了两个属性的三 种组合，还有一种全为假的没有用到，事实上Field不允许你那么设置，因为既不存储又不索引的域是没有意义的。

3.4 term

       term是搜索的最小单位，它表示文档的一个词语，term由两部分组成：它表示的词语和这个词语所出现的field。

3.5 tocken

       tocken是term的一次出现，它包含trem文本和相应的起止偏移，以及一个类型字符串。一句话中可以出现多次相同的词语，它们都用同一个term表示，但是用不同的tocken，每个tocken标记该词语出现的地方。

3.6 segment （段）

        添加索引时并不是每个document都马上添加到同一个索引文件，它们首先被写入到不同的小文件，然后再合并成一个大索引文件，这里每个小文件都是一个segment。

7、lucene的结构

lucene包括core和sandbox两部分，其中core是lucene稳定的核心部分，sandbox包含了一些附加功能，例如highlighter、各种分析器。 

Lucene core有七个包：analysis，document，index，queryParser，search，store，util。

4.1 analysis

Analysis包含一些内建的分析器，例如按空白字符分词的WhitespaceAnalyzer，添加了stopwrod过滤的StopAnalyzer，最常用的StandardAnalyzer。

4.2 document

Document包含文档的数据结构，例如Document类定义了存储文档的数据结构，Field类定义了Document的一个域。

4.3 index

Index 包含了索引的读写类，例如对索引文件的segment进行写、合并、优化的IndexWriter类和对索引进行读取和删除操作的 IndexReader类，这里要注意的是不要被IndexReader这个名字误导，以为它是索引文件的读取类，实际上删除索引也是由它完成， IndexWriter只关心如何将索引写入一个个segment，并将它们合并优化；IndexReader则关注索引文件中各个文档的组织形式。

4.4 queryParser

QueryParser 包含了解析查询语句的类，lucene的查询语句和sql语句有点类似，有各种保留字，按照一定的语法可以组成各种查询。 Lucene有很多种 Query类，它们都继承自Query，执行各种特殊的查询，QueryParser的作用就是解析查询语句，按顺序调用各种 Query类查找出结果。

4.5 search

Search包含了从索引中搜索结果的各种类，例如刚才说的各种Query类，包括TermQuery、BooleanQuery等就在这个包里。

4.6 store

Store包含了索引的存储类，例如Directory定义了索引文件的存储结构，FSDirectory为存储在文件中的索引，RAMDirectory为存储在内存中的索引，MmapDirectory为使用内存映射的索引。

4.7 util

Util包含一些公共工具类，例如时间和字符串之间的转换工具

8、学习流程

1、
添加文档
删除文档
修改文档
文档域加权
2、
对特定项搜索
查询表达式：QueryParser
其他查询方式：
指定项范围查询 TermRangeQuery ；
指定数字范围查询 NumericRangeQuery ；
指定字符串开头搜索 PrefixQuery ；
组合查询 BooleanQuery ；
3、
中文分词 smartcn
检索结果高亮显示实现

9、Lucene的评分概念

通过Searcher.explain(Query query, int doc)方法可以查看某个文档的得分的具体构成。

在Lucene中score简单说是由 tf * idf * boost * lengthNorm计算得出的。

tf：是查询的词在文档中出现的次数的平方根
idf：表示反转文档频率，观察了一下所有的文档都一样，所以那就没什么用处，不会起什么决定作用。
boost：激励因子，可以通过setBoost方法设置，需要说明的通过field和doc都可以设置，所设置的值会同时起作用
lengthNorm：是由搜索的field的长度决定了，越长文档的分值越低。

所以我们编程能够控制score的就是设置boost值。

还有个问题，为什么一次查询后最大的分值总是1.0呢？
因为Lucene会把计算后，最大分值超过1.0的分值作为分母，其他的文档的分值都除以这个最大值，计算出最终的得分。

下面用代码和运行结果来进行说明：
Java代码
1. public class ScoreSortTest {
2.
2. public final static String INDEX_STORE_PATH = “index”;
3. public static void main(String[] args) throws Exception {
4. IndexWriter writer = new IndexWriter(INDEX_STORE_PATH, new StandardAnalyzer(), true);
5. writer.setUseCompoundFile(false);
6.
7. Document doc1 = new Document();
8. Document doc2 = new Document();
9. Document doc3 = new Document();
10.
11. Field f1 = new Field(“bookname”,”bc bc”, Field.Store.YES, Field.Index.TOKENIZED);
12. Field f2 = new Field(“bookname”,”ab bc”, Field.Store.YES, Field.Index.TOKENIZED);
13. Field f3 = new Field(“bookname”,”ab bc cd”, Field.Store.YES, Field.Index.TOKENIZED);
14.
15. doc1.add(f1);
16. doc2.add(f2);
17. doc3.add(f3);
18.
19. writer.addDocument(doc1);
20. writer.addDocument(doc2);
21. writer.addDocument(doc3);
22.
23. writer.close();
24.
25. IndexSearcher searcher = new IndexSearcher(INDEX_STORE_PATH);
26. TermQuery q = new TermQuery(new Term(“bookname”, “bc”));
27. q.setBoost(2f);
28. Hits hits = searcher.search(q);
29. for(int i=0; i

10、Lucene生成文件简述

一、基本概念
下图就是Lucene生成的索引的一个实例：

Lucene的索引结构是有层次结构的，主要分以下几个层次：
索引(Index)：
①在Lucene中一个索引是放在一个文件夹中的。

段(Segment)：
①一个索引可以包含多个段，段与段之间是独立的，添加新文档可以生成新的段，不同的段可以合并。
②如上图，具有相同前缀文件的属同一个段，图中共两个段 “_0” 和 “_1”。
③segments.gen和segments_5是段的元数据文件，也即它们保存了段的属性信息。

文档(Document)：
①文档是我们建索引的基本单位，不同的文档是保存在不同的段中的，一个段可以包含多篇文档。
②新添加的文档是单独保存在一个新生成的段中，随着段的合并，不同的文档合并到同一个段中。

域(Field)：
①一篇文档包含不同类型的信息，可以分开索引，比如标题，时间，正文，作者等，都可以保存在不同的域里。

词(Term)：
①词是索引的最小单位，是经过词法分析和语言处理后的字符串。

Lucene的索引结构中，即保存了正向信息，也保存了反向信息。
所谓正向信息：

按层次保存了从索引，一直到词的包含关系：索引(Index) –> 段(segment) –> 文档(Document) –> 域(Field) –> 词(Term)
也即此索引包含了那些段，每个段包含了那些文档，每个文档包含了那些域，每个域包含了那些词。
既然是层次结构，则每个层次都保存了本层次的信息以及下一层次的元信息，也即属性信息，比如一本介绍中国地理的书，应该首先介绍中国地理的概况，以及中国包含多少个省，每个省介绍本省的基本概况及包含多少个市，每个市介绍本市的基本概况及包含多少个县，每个县具体介绍每个县的具体情况。

如上图，包含正向信息的文件有：
①segments_N保存了此索引包含多少个段，每个段包含多少篇文档。
②XXX.fnm保存了此段包含了多少个域，每个域的名称及索引方式。
③XXX.fdx，XXX.fdt保存了此段包含的所有文档，每篇文档包含了多少域，每个域保存了那些信息。
④XXX.tvx，XXX.tvd，XXX.tvf保存了此段包含多少文档，每篇文档包含了多少域，每个域包含了多少词，每个词的字符串，位置等信息。
所谓反向信息：
保存了词典到倒排表的映射：词(Term) –> 文档(Document)
如上图，包含反向信息的文件有：
①XXX.tis，XXX.tii保存了词典(Term Dictionary)，也即此段包含的所有的词按字典顺序的排序。
②XXX.frq保存了倒排表，也即包含每个词的文档ID列表。
③XXX.prx保存了倒排表中每个词在包含此词的文档中的位置。
在了解Lucene索引的详细结构之前，先看看Lucene索引中的基本数据类型。
想详细了解，请复制网址：http://www.cnblogs.com/forfuture1978/archive/2009/12/14/1623597.html

11、倒排索引相关概念及定义代码

一、倒排索引概述

在关系数据库系统里，索引[1] 是检索数据最有效率的方式,。但对于搜索引擎，它并不能满足其特殊要求：
1）海量数据：搜索引擎面对的是海量数据，像Google，百度这样大型的商业搜索引擎索引都是亿级甚至百亿级的网页数量，面对如此海量数据 ,使得数据库系统很难有效的管理。
2）数据操作简单：搜索引擎使用的数据操作简单 ,一般而言 ,只需要增、删、改、查几个功能 ,而且数据都有特定的格式 ,可以针对这些应用设计出简单高效的应用程序。而一般的数据库系统则支持大而全的功能 ,同时损失了速度和空间。最后 ,搜索引擎面临大量的用户检索需求 ,这要求搜索引擎在检索程序的设计上要分秒必争 ,尽可能的将大运算量的工作在索引建立时完成 ,使检索运算尽量的少。一般的数据库系统很难承受如此大量的用户请求 ,而且在检索响应时间和检索并发度上都不及我们专门设计的索引系统。

二、倒排索引相关概念及定义
倒排索引倒排列表

倒排列表用来记录有哪些文档包含了某个单词。一般在文档集合里会有很多文档包含某个单词，每个文档会记录文档编号（DocID），单词在这个文档中出现的次数（TF）及单词在文档中哪些位置出现过等信息，这样与一个文档相关的信息被称做倒排索引项（Posting），包含这个单词的一系列倒排索引项形成了列表结构，这就是某个单词对应的倒排列表。右图是倒排列表的示意图，在文档集合中出现过的所有单词及其对应的倒排列表组成了倒排索引。

在实际的搜索引擎系统中，并不存储倒排索引项中的实际文档编号，而是代之以文档编号差值（D-Gap）。文档编号差值是倒排列表中相邻的两个倒排索引项文档编号的差值，一般在索引构建过程中，可以保证倒排列表中后面出现的文档编号大于之前出现的文档编号，所以文档编号差值总是大于0的整数。如图2所示的例子中，原始的 3个文档编号分别是187、196和199，通过编号差值计算，在实际存储的时候就转化成了：187、9、3。
之所以要对文档编号进行差值计算，主要原因是为了更好地对数据进行压缩，原始文档编号一般都是大数值，通过差值计算，就有效地将大数值转换为了小数值，而这有助于增加数据的压缩率。
倒排索引倒排索引
倒排索引[2] （英语：Inverted index），也常被称为反向索引、置入档案或反向档案，是一种索引方法，被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。通过倒排索引，可以根据单词快速获取包含这个单词的文档列表。倒排索引主要由两个部分组成：“单词词典”和“倒排文件”。
　　
三、倒排索引
倒排索引[2] 有两种不同的反向索引形式：
　　一条记录的水平反向索引（或者反向档案索引）包含每个引用单词的文档的列表。
　　一个单词的水平反向索引（或者完全反向索引）又包含每个单词在一个文档中的位置。
　　后者的形式提供了更多的兼容性（比如短语搜索），但是需要更多的时间和空间来创建。
　　现代搜索引擎的索引[3] 都是基于倒排索引。相比“签名文件”、“后缀树”等索引结构，“倒排索引”是实现单词到文档映射关系的最佳实现方式和最有效的索引结构.

四、倒排索引构建方法

倒排索引简单法

索引的构建[4] 相当于从正排表到倒排表的建立过程。当我们分析完网页时 ,得到的是以网页为主码的索引表。当索引建立完成后 ,应得到倒排表 ,具体流程如图所示：
流程描述如下：
1）将文档分析称单词term标记，
2）使用hash去重单词term
　　3）对单词生成倒排列表
　　倒排列表就是文档编号DocID，没有包含其他的信息（如词频，单词位置等），这就是简单的索引。
　　这个简单索引功能可以用于小数据，例如索引几千个文档。然而它有两点限制：
　　1）需要有足够的内存来存储倒排表，对于搜索引擎来说，都是G级别数据，特别是当规模不断扩大时 ,我们根本不可能提供这么多的内存。
　　2）算法是顺序执行，不便于并行处理。

五、倒排索引合并法：
归并法[4] ,即每次将内存中数据写入磁盘时，包括词典在内的所有中间结果信息都被写入磁盘，这样内存所有内容都可以被清空，后续建立索引可以使用全部的定额内存。

六、归并索引：
合并流程：
1）页面分析，生成临时倒排数据索引A，B，当临时倒排数据索引A，B占满内存后，将内存索引A，B写入临时文件生成临时倒排文件，
2) 对生成的多个临时倒排文件 ,执行多路归并 ,输出得到最终的倒排文件 ( inverted file)。

合并流程
索引创建过程中的页面分析 ,特别是中文分词为主要时间开销。算法的第二步相对很快。这样创建算法的优化集中在中文分词效率上。

七、倒排索引更新策略：
更新策略有四种：完全重建、再合并策略、原地更新策略以及混合策略。

①完全重建策略：当新增文档到达一定数量，将新增文档和原先的老文档整合，然后利用静态索引创建方法对所有文档重建索引，新索引建立完成后老索引会被遗弃。此法代价高，但是主流商业搜索引擎一般是采用此方式来维护索引的更新（这句话是书中原话）

②再合并策略：当新增文档进入系统，解析文档，之后更新内存中维护的临时索引，文档中出现的每个单词，在其倒排表列表末尾追加倒排表列表项；一旦临时索引将指定内存消耗光，即进行一次索引合并，这里需要倒排文件里的倒排列表存放顺序已经按照索引单词字典顺序由低到高排序，这样直接顺序扫描合并即可。其缺点是：因为要生成新的倒排索引文件，所以对老索引中的很多单词，尽管其在倒排列表并未发生任何变化，也需要将其从老索引中取出来并写入新索引中，这样对磁盘消耗是没必要的。

③原地更新策略：试图改进再合并策略，在原地合并倒排表，这需要提前分配一定的空间给未来插入，如果提前分配的空间不够了需要迁移。实际显示，其索引更新的效率比再合并策略要低。

④混合策略：出发点是能够结合不同索引更新策略的长处，将不同索引更新策略混合，以形成更高效的方法。

12、关于stopword的简述

在中文网站里面其实也存在大量的stop word。比如，我们前面这句话，“在”、“里面”、“也”、“的”、“它”、“为”这些词都是停止词。这些词因为使用频率过高，几乎每个网页上都存在，所以搜索引擎开发人员都将这一类词语全部忽略掉。如果我们的网站上存在大量这样的词语，那么相当于浪费了很多资源。原本可以添加一个关键词，排名就可以上升一名的，为什么不留着添加为关键词呢？停止词对SEO的意义不是越多越好，而是尽量的减少为宜。

既然问的是stop words, 我想主要是针对英文吧，也叫common words,(Stop Words. Most Search Engines do not consider extremely common words in order to save disk space or to speed up search results.) google中提出的stop words的概念是把一些对短语表述不构成直接影响的单词的的搜索结果直接过滤掉,包括a,an,the等冠词，in, at, of等介词，一些人称代词，时态的助动词等，如果需要我这有一个停止词的大概列表可以发到你邮箱，这些词应为使用频率过高，所以搜索引擎把这些词的搜索结果会直接过滤掉，针对seo的话，这些词尽量少用较好，但如果不用对原来意思造成比较大的歪曲的话还是坚持使用吧，毕竟写的东西搜索只是抓取，最后看内容的还是人类。

13、代码

    //首先创建maven项目，建包省略。直接pom.xml文件代码
    //maven里的pom.xml配置代码
   
         
              junit
             junit
             3.8.1
              test
         

          
         
              org.apache.lucene
              lucene-core
               5.3.1
         

           
           
                org.apache.lucene
                lucene-queryparser
                5.3.1
           

           
           
                org.apache.lucene
                lucene-analyzers-common
                5.3.1
           

            
          
                 org.apache.lucene
                 lucene-analyzers-smartcn
                 5.3.1
          

             
          
                 org.apache.lucene
                 lucene-highlighter
                 5.3.1
          
//**start*******1、向文档写索引以及根据索引读取*************
import java.io.File;
import java.io.FileReader;
import java.nio.file.Paths;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.document.TextField;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.IndexWriterConfig;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;

/**
*   类简介：
 *           ①简单的向文档里写索引；
 *           ②在根据索引读取文档；
 *           ③运用路径来找被索引的文档，找到返回结果
 */
public class Indexer {

    //写索引的实例到指定目录下
    private IndexWriter writer;

    /**
     * 构造方法：为了实例化IndexWriter
     */
    public Indexer(String indexDir) throws Exception{

        //得到索引所在目录的路径
        Directory dir = FSDirectory.open(Paths.get(indexDir));

        //实例化分析器
        Analyzer analyzer = new StandardAnalyzer();

        //实例化IndexWriterConfig
        IndexWriterConfig con = new IndexWriterConfig(analyzer);

        //实例化IndexWriter
        writer = new IndexWriter(dir, con);

    }

    /**
     * 关闭写索引
     * @throws Exception
     */
    public void close()throws Exception{

        writer.close();
    }


    /**
     * 索引指定目录的所有文件
     * @throws Exception 
     */
    public int index(String dataDir) throws Exception{

        //定义文件数组，循环得出要加索引的文件
        File[] file = new File(dataDir).listFiles();

        for (File files : file) {

            //从这开始，对每个文件加索引
            indexFile(files);
        }

        //返回索引了多少个文件，有几个文件返回几个
        return writer.numDocs();

    }

    /**
     * 索引指定文件
     * @throws Exception 
     */
    private void indexFile(File files) throws Exception {

        System.out.println("索引文件："+files.getCanonicalPath());

        //索引要一行一行的找，，在数据中为文档，所以要得到所有行，即文档
        Document document = getDocument(files);

        //开始写入,就把文档写进了索引文件里去了；
        writer.addDocument(document);

    }

    /**
     * 获得文档，在文档里在设置三个字段
     * 
     * 获得文档，相当于数据库里的一行
     * @throws Exception 
     * */
    private Document getDocument(File files) throws Exception {

        //实例化Document
        Document doc = new Document();

        doc.add(new TextField("contents",new FileReader(files)));

        //Field.Store.YES：把文件名存索引文件里，为NO就说明不需要加到索引文件里去
        doc.add(new TextField("FileName", files.getName(), Field.Store.YES));

        //把完整路径存在索引文件里
        doc.add(new TextField("fullPath", files.getCanonicalPath(),Field.Store.YES));

        //返回document
        return doc;
    }


    //开始测试写入索引
    public static void main(String[] args){

        //索引指定的文档路径
        String indexDir = "E:\\luceneDemo";

        //被索引数据的路径
        String dataDir = "E:\\luceneDemo\\data";

        //写索引
        Indexer indexer = null;
        int numIndex = 0;

        //索引开始时间
        long start = System.currentTimeMillis();

        try {
            //通过索引指定的路径，得到indexer
            indexer = new  Indexer(indexDir);

            //将要索引的数据路径(int:因为这是要索引的数据，有多少就返回多少数量的索引文件)
            numIndex = indexer.index(dataDir);

        } catch (Exception e) {

            e.printStackTrace();
        }
        //索引结束时间
        long end = System.currentTimeMillis();

        //显示结果
        System.out.println("索引了  "+numIndex+"  个文件，花费了  "+(end-start)+"  毫秒");

    }

}

//以下就是根据索引读取的代码：
import java.nio.file.Paths;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.index.DirectoryReader;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.queryparser.classic.QueryParser;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.TopDocs;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;

/**
 * 
 * 通过索引字段来读取文档
 * @author SZQ
 *
 */
public class ReaderByIndexerTest {

    public static void search(String indexDir,String q)throws Exception{

        //得到读取索引文件的路径
        Directory dir=FSDirectory.open(Paths.get(indexDir));

        //通过dir得到的路径下的所有的文件
        IndexReader reader=DirectoryReader.open(dir);

        //建立索引查询器
        IndexSearcher is=new IndexSearcher(reader);

        //实例化分析器
        Analyzer analyzer=new StandardAnalyzer(); 

        //建立查询解析器
        /**
         * 第一个参数是要查询的字段；
         * 第二个参数是分析器Analyzer
         * */
        QueryParser parser=new QueryParser("contents", analyzer);

        //根据传进来的p查找
        Query query=parser.parse(q);

        //计算索引开始时间
        long start=System.currentTimeMillis();

        //开始查询
        /**
         * 第一个参数是通过传过来的参数来查找得到的query；
         * 第二个参数是要出查询的行数
         * */
        TopDocs hits=is.search(query, 10);

        //计算索引结束时间
        long end=System.currentTimeMillis();

        System.out.println("匹配 "+q+" ，总共花费"+(end-start)+"毫秒"+"查询到"+hits.totalHits+"个记录");

        //遍历hits.scoreDocs，得到scoreDoc
        /**
         * ScoreDoc:得分文档,即得到文档
         * scoreDocs:代表的是topDocs这个文档数组
         * @throws Exception 
         * */
        for(ScoreDoc scoreDoc:hits.scoreDocs){
            Document doc=is.doc(scoreDoc.doc);
            System.out.println(doc.get("fullPath"));
        }

        //关闭reader
        reader.close();
    }

    //测试
    public static void main(String[] args) {

        String indexDir="E:\\luceneDemo";
        String q="Zygmunt Saloni";

        try {
                      search(indexDir,q);

//**end*******1、向文档写索引以及根据索引读取*************

图片为写完索引的显示效果为：见以下代码，说明索引成功！

但是注意的是，在每次重新访问的时候，都要把文件夹下所产生的文件删除，否则会索引文件重复。

图片为根据索引的显示效果为：见以下代码，说明检索成功！

下面就开始为对索引文件的CRUD。
代码演示：

import java.nio.file.Paths;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.document.StringField;
import org.apache.lucene.document.TextField;
import org.apache.lucene.index.DirectoryReader;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.IndexWriterConfig;
import org.apache.lucene.index.Term;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.junit.Before;
import org.junit.Test;
/**
 * 对被索引的文章进行crud
 * @author SZQ
 *
 */
public class IndexDocument {

    //写测试数据，这些数据是写到索引文档里去的。
    private String ids[] = {"1","2","3"}; //标示文档
    private String citys[] = {"BeiJing","HeBei","ShanXi"}; 
    private String cityDes[] = {

         "BeiJing is the captial of China!",
         "HeBei is my hometown!",
         "ShanXi is a beautiful city!"
    };

    private Directory dir;

    //每次启动的时候都会执行这个方法，写索引的东西都写在setUp方法里
    @Before
    public void setUp() throws Exception {

        //得到读取索引文件的路径
        dir = FSDirectory.open(Paths.get("E:\\luceneDemo2"));

        //获取IndexWriter实例
        IndexWriter writer = getWriter();

        for(int i=0;inew Document();

            doc.add(new StringField("id", ids[i], Field.Store.YES));
            doc.add(new StringField("city",citys[i],Field.Store.YES));
            doc.add(new TextField("desc", cityDes[i], Field.Store.NO));

            // 添加文档
            writer.addDocument(doc); 
        }

        writer.close();
    }

    /**
     * 获取IndexWriter实例
     * @return
     * @throws Exception
     */
    private IndexWriter getWriter() throws Exception{

        //实例化分析器
        Analyzer analyzer = new StandardAnalyzer();

        //实例化IndexWriterConfig
        IndexWriterConfig con = new IndexWriterConfig(analyzer);

        //实例化IndexWriter
        IndexWriter writer = new IndexWriter(dir, con);

        return writer;
    }

    /**
     * 测试写了几个文档（对应图片一）
     * @throws Exception
     */
    @Test
    public void testIndexWriter()throws Exception{

        //获取IndexWriter实例
        IndexWriter writer=getWriter();

        System.out.println("写入了"+writer.numDocs()+"个文档");

        //关闭writer
        writer.close();
    }

    /**
     * 测试读取文档（对应图片二）
     * @throws Exception
     */
    @Test
    public void testIndexReader()throws Exception{

        //根据路径得到索引读取
        IndexReader reader=DirectoryReader.open(dir);

        //公共是多少文件，也就是最大文档数
        System.out.println("最大文档数："+reader.maxDoc()); 

        //读取的实际文档数
        System.out.println("实际文档数："+reader.numDocs()); 

        //关闭reader
        reader.close();
    }

    /**
     * 测试删除 在合并前（对应图片三）
     * @throws Exception
     */
    @Test
    public void testDeleteBeforeMerge()throws Exception{

        //获取IndexWriter实例
        IndexWriter writer=getWriter();

        //统计删除前的文档数
        System.out.println("删除前："+writer.numDocs());

        //Term：第一个参数是删除的条件，第二个是删除的条件值
        writer.deleteDocuments(new Term("id","1"));

        //提交writer（如果不提交，就不能删除）
        writer.commit();

        //显示删除在合并前的最大文档数量
        System.out.println("writer.maxDoc()："+writer.maxDoc());

        //显示删除在合并前的实际数量
        System.out.println("writer.numDocs()："+writer.numDocs());

        //关闭writer
        writer.close();
    }

    /**
     * 测试删除 在合并后（对应图片四）
     * @throws Exception
     */
    @Test
    public void testDeleteAfterMerge()throws Exception{

        //获取IndexWriter实例
        IndexWriter writer=getWriter();

        //删除前的文档数
        System.out.println("删除前："+writer.numDocs());

        //Term：第一个参数是删除的条件，第二个是删除的条件值
        writer.deleteDocuments(new Term("id","1"));

        // 强制删除
        writer.forceMergeDeletes(); 

        //提交writer
        writer.commit();

        //显示删除在合并后的最大文档数量
        System.out.println("writer.maxDoc()："+writer.maxDoc());

        //显示删除在合并后的实际数量
        System.out.println("writer.numDocs()："+writer.numDocs());

        //关闭writer
        writer.close();
    }

    /**
     * 测试更新（对应图片五）
     * @throws Exception
     */
    @Test
    public void testUpdate()throws Exception{

        //获取IndexWriter实例
        IndexWriter writer=getWriter();

        //实例化文档
        Document doc=new Document();

        //向文档里添加值
        doc.add(new StringField("id", "1", Field.Store.YES));
        doc.add(new StringField("city","qingdao",Field.Store.YES));
        doc.add(new TextField("desc", "dsss is a city.", Field.Store.NO));

        //更新文档
        /**
         * 第一个参数是根据id为1的更新文档，，
         * 第二个是更改的内容
         * 
         * 过程：先把查到的文档删掉，再添加。这就是更新。但是原来的数据还在；
         */
        writer.updateDocument(new Term("id","1"), doc);

        //关闭writer
        writer.close();
    }


}

图片一：出现图一，就说明检索文件成功！

图片二：首先来解释一下是什么是最大文件数：指的是你一共索引了多少的文档，写了7个，就是7个，写了3个就是3个。实际文档数是真正3个被索引的文档。值得注意的是，检索文件之后，手动删除图一当中的所有文件，否则会查出重复的文档数。因为在读取文档数的时候，相当于又重新对文档写了索引。

在这可能大家对什么是在合并前和在合并后起了疑问，那么就来看一下图片对比一下，就知道了：

合并前：
图片三：

合并后：
图片四：

细心的你可能已发现，在删除合并之前，删除前为3，最大文档数为 3；而合并后的图片四中删除前仍为3，但是最大文档数为 2.这说明了这两幅图都已删除成功，但是图片三没有真正的把删除文档，但实际文档数是代表已经删除了一个文档。
合并前在luke中显示的效果：

相反，图片四不管是最大文档数还是实际文档数都是2，更能看出已经强制删除了一个文档，合并后在luke中显示的效果：

所以，个人觉得，合并后是比较准确，直观的看出确实是删除了文档。

好了，，这就是对被索引文档的一个CRUD。还有一个工具还没给大家介绍，那就是Luke。那么什么是Luke呢？
复制url：http://www.getopt.org/luke/，说白了就是lucene全文检索的第三方工具，效果如下：

luke使用步骤：
步骤一：解压luke-5.3.0-luke-release.zip；

步骤二：双击luke.bat，出现如上图的效果（左下角的
空白处和右下角的空白处没有东西）；

步骤三：点击左上角的FIle，看见Open Lucene Index这
个选项，点击之后，就会出现你的路径，选
择索引文档所在文件夹的全路径就可以了。
最后的效果就和上图一模一样了。

但是你的jDK必须为1.7或1.8以上，否则会用不了。

好了，开始代码展示对被索引文档加权

补充：
在进入学习之前。先给大家介绍一下，什么是加权？

加权就是有时在搜索的时候，会根据需要的不同，对不同的关键值或者不同的关键索引分配不同的权值，让权值高的内容更容易被用户搜索出来，而且排在前面。

为索引域添加权是再创建索引之前，把索引域的权值设置好，这样，在进行搜索时，lucene会对文档进行评分，这个评分机制是跟权值有关的，而且其它情况相同时，权值跟评分是成正相关的。

也就是说，给谁加权，就会给谁评分，评分越高，就越排在最前面。

那么问题又来了，评分是啥呢？评分就是信息过滤，让用户快速，准确的找到其想要的结果，丰富用户体验。下图为计算公式：

q为查询语句，t是q分词后的每一项，d为去匹配的文档。

打分流程：http://www.360doc.com/content/13/0426/20/891660_281142154.shtml
java代码如下：

import java.nio.file.Paths;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.document.StringField;
import org.apache.lucene.document.TextField;
import org.apache.lucene.index.DirectoryReader;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.IndexWriterConfig;
import org.apache.lucene.index.Term;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.TermQuery;
import org.apache.lucene.search.TopDocs;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.junit.Test;


/**
 * 文档加权
 *  
 *  1、加权操作：给要迅速查找的东西加上权，可提升查找速度！
 * 
 */

public class AddDocumentReg {

    //写测试数据，这些数据是写到索引文档里去的。
        private String ids[] = {"1","2","3","4"}; //标示文档
        private String author[] = {"Jack","Mary","Jerry","Machech"}; 
        private String title[] = {"java of china","Apple of china","Androw of apple the USA","People of Apple java"}; //
        private String contents[] = {
                "java  of China!the world the why what",
                "why a dertity compante is my hometown!",
                "Jdekia ssde hhh is a beautiful city!",
                "Jdekia ssde hhh is a beautiful java!"
        };

        private Directory dir;

        /**
         * 获取IndexWriter实例
         * @return
         * @throws Exception
         */
        private IndexWriter getWriter()throws Exception{

            //实例化分析器
            Analyzer analyzer = new StandardAnalyzer();

            //实例化IndexWriterConfig
            IndexWriterConfig con = new IndexWriterConfig(analyzer);

            //实例化IndexWriter
            IndexWriter writer = new IndexWriter(dir, con);

            return writer;
        }

        /**
         * 生成索引（对应图一）
         * @throws Exception
         */
        @Test 
        public void index()throws Exception{

            dir=FSDirectory.open(Paths.get("E:\\luceneDemo3"));

            IndexWriter writer=getWriter();

            for(int i=0;inew Document();

                doc.add(new StringField("id", ids[i], Field.Store.YES));
                doc.add(new StringField("author", author[i], Field.Store.YES));
                // 加权操作
                TextField field=new TextField("title", title[i], Field.Store.YES);

                if("Mary".equals(author[i])){

                    //设权 默认为1
                    field.setBoost(1.5f);
                }

                doc.add(field);
                doc.add(new StringField("contents",contents[i],Field.Store.NO));

                // 添加文档
                writer.addDocument(doc); 
            }

            //关闭writer
            writer.close();
        }

        /**
         * 查询（对应图二）
         * @throws Exception
         */
        @Test
        public void search()throws Exception{

            //得到读取索引文件的路径
            dir = FSDirectory.open(Paths.get("E:\\luceneDemo3"));

            //通过dir得到的路径下的所有的文件
            IndexReader reader = DirectoryReader.open(dir);

            //建立索引查询器
            IndexSearcher searcher = new IndexSearcher(reader);

            //查找的范围
            String searchField = "title";

            //查找的字段
            String q = "apple";

            //运用term来查找
            Term t = new Term(searchField,q);

            //通过term得到query对象
            Query query = new TermQuery(t);

            //获得查询的hits
            TopDocs hits = searcher.search(query, 10);

            //显示结果
            System.out.println("匹配 '"+q+"'，总共查询到"+hits.totalHits+"个文档");

            //循环得到文档，得到文档就可以得到数据
            for(ScoreDoc scoreDoc:hits.scoreDocs){

                Document doc=searcher.doc(scoreDoc.doc);

                System.out.println(doc.get("author"));
            }

            //关闭reader
            reader.close();
        }

}

图一：见下图说明索引成功！

图二：

代码中匹配的是：apple，4个文档里3个都有，验证一下到底是不是呢？看下图：

大家看 author的这个数组，Mary、Jerry、Machech 对应的title 是不是有apple这个关键字。而且是不区分大小写的。什么它就是把索引为title的查出来了，为什么不差别的呢？这是因为在代码中，有注释为 “//查找的范围” 的代码：String searchField = “title”;因为它规定了只在索引为title范围里找符合条件的元素。当然换成别的也是可以实现的。

接下来的代码是学习Lucene对索引文档的特定项搜索

代码如下：

import java.io.File;
import java.io.FileReader;
import java.nio.file.Paths;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.document.TextField;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.IndexWriterConfig;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;

/**
 * 对特定项搜索
 */
 //先对文档进行索引
public class Indexer {

    //写索引的实例到指定目录下
    private IndexWriter writer;

    /**
     * 构造方法：为了实例化IndexWriter
     */
    private Indexer(String indexDir) throws Exception{

        //得到索引所在目录的路径
        Directory dir = FSDirectory.open(Paths.get(indexDir));

        //实例化分析器
        Analyzer analyzer = new StandardAnalyzer();

        //实例化IndexWriterConfig
        IndexWriterConfig con = new IndexWriterConfig(analyzer);

        //实例化IndexWriter
        writer = new IndexWriter(dir, con);

    }

    /**
     * 关闭写索引
     * @throws Exception
     */
    public void close()throws Exception{

        writer.close();
    }


    /**
     * 索引指定目录的所有文件
     * @throws Exception 
     */
    public int index(String dataDir) throws Exception{

        //定义文件数组，循环得出要加索引的文件
        File[] file = new File(dataDir).listFiles();

        for (File files : file) {

            //从这开始，对每个文件加索引
            indexFile(files);
        }

        //返回索引了多少个文件，有几个文件返回几个
        return writer.numDocs();

    }

    /**
     * 索引指定文件
     * @throws Exception 
     */
    private void indexFile(File files) throws Exception {

        System.out.println("索引文件："+files.getCanonicalPath());

        //索引要一行一行的找，，在数据中为文档，所以要得到所有行，即文档
        Document document = getDocument(files);

        //开始写入,就把文档写进了索引文件里去了；
        writer.addDocument(document);

    }

    /**
     * 获得文档，在文档里在设置两个字段
     * 
     * 获得文档，相当于数据库里的一行
     * @throws Exception 
     * */
    private Document getDocument(File files) throws Exception {

        Document doc = new Document();

        doc.add(new TextField("contents",new FileReader(files)));

        //Field.Store.YES：把文件名存索引文件里，上面没有就说明不需要加到索引文件里去
        doc.add(new TextField("FileName", files.getName(), Field.Store.YES));

        //把完整路径存在索引文件里
        doc.add(new TextField("fullPath", files.getCanonicalPath(),Field.Store.YES));

        //返回document
        return doc;
    }


    //开始测试写入索引
    public static void main(String[] args){

        //索引指定的路径
        String indexDir = "E:\\luceneDemo4";

        //被索引数据路径
        String dataDir = "E:\\luceneDemo4\\data";

        //写索引
        Indexer indexer = null;
        int numIndex = 0;

        //索引开始时间
        long start = System.currentTimeMillis();

        try {

            indexer = new  Indexer(indexDir);
            //将要索引的数据路径(int:因为这是要索引的数据，有多少就返回多少数量的索引文件)
            numIndex = indexer.index(dataDir);

        } catch (Exception e) {

            e.printStackTrace();
        }
        //索引结束时间
        long end = System.currentTimeMillis();

        //显示结果
        System.out.println("索引了  "+numIndex+"  个文件，花费了  "+(end-start)+"  毫秒");

    }

}

效果如下：说明检索成功！
索引文件：E:\luceneDemo4\data\a.txt
索引文件：E:\luceneDemo4\data\b.txt
索引了 2 个文件，花费了 338 毫秒

接下来就是根据索引来对特定项的搜索，代码如下：

import java.nio.file.Paths;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.index.DirectoryReader;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.index.IndexWriterConfig;
import org.apache.lucene.index.Term;
import org.apache.lucene.queryparser.classic.QueryParser;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.TermQuery;
import org.apache.lucene.search.TopDocs;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.junit.After;
import org.junit.Before;
import org.junit.Test;

/**
 * 对索引文档进行特定查询、解析表达式查询
 * @author SZQ
 */
public class searchDocumentDingEl {


    private Directory dir;
    private IndexReader reader;
    private IndexSearcher searcher;

    @Before
    public void setUp() throws Exception {

        //得到索引所在目录的路径
        dir = FSDirectory.open(Paths.get("E:\\luceneDemo4"));

        //通过dir得到的路径下的所有的文件
        reader = DirectoryReader.open(dir);

        //建立索引查询器
        searcher = new IndexSearcher(reader);

    }

    @After
    public void tearDown() throws Exception {

        reader.close();
    }

    /**
     * 对特定项搜索：对索引文档有的分词进行查询
     * @throws Exception
     */
    @Test
    public void testTermQuery()throws Exception{

        //定义要查询的索引
        String searchField = "contents";

        //根据contents要查询的对象
        String q = "percent"; 

        //运用term来查找
        Term t = new Term(searchField,q);

        //通过term得到query对象
        Query query = new TermQuery(t);

        //获得查询的hits
        TopDocs hits = searcher.search(query, 10);

        //显示结果
        System.out.println("匹配 '"+q+"'，总共查询到"+hits.totalHits+"个文档");

        //循环得到文档，得到文档就可以得到数据
        for(ScoreDoc scoreDoc:hits.scoreDocs){

            Document doc=searcher.doc(scoreDoc.doc);

            System.out.println(doc.get("fullPath"));
        }
    }

    /**
     * 解析查询表达式
     * @throws Exception
     */
    @Test
    public void testQueryParser()throws Exception{

        String searchField="contents";
        String q="Rob* AND separab*";

        //实例化分析器
        Analyzer analyzer = new StandardAnalyzer();

        //建立查询解析器
        /**
         * 第一个参数是要查询的字段；
         * 第二个参数是分析器Analyzer
         * */
        QueryParser parser=new QueryParser(searchField, analyzer);

        //根据传进来的p查找
        Query query=parser.parse(q);

        //开始查询
        /**
         * 第一个参数是通过传过来的参数来查找得到的query；
         * 第二个参数是要出查询的行数
         * */
        TopDocs hits=searcher.search(query, 100);

        //遍历topDocs
        /**
         * ScoreDoc:
         * scoreDocs:
         * @throws Exception 
         * */
        System.out.println("匹配 "+q+"查询到"+hits.totalHits+"个记录");

        for(ScoreDoc scoreDoc:hits.scoreDocs){

            Document doc=searcher.doc(scoreDoc.doc);

            System.out.println(doc.get("fullPath"));
        }

    }



}

出现大到的结果即成功。

接下来来看一下Lucene的特殊查询索引，
代码如下：

//****写索引 start********
package SpicalQuery;

import java.nio.file.Paths;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.document.IntField;
import org.apache.lucene.document.StringField;
import org.apache.lucene.document.TextField;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.IndexWriterConfig;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;

public class Indexer {

    private Integer ids[]={1,2,3};
    private String citys[]={"aingdao","banjing","changhai"};
    private String descs[]={
            "Qingdao is b beautiful city.",
            "Nanjing is c city of culture.",
            "Shanghai is d bustling city."
    };

    private Directory dir;

    /**
     *实例化indexerWriter
     * @return
     * @throws Exception
     */
    private IndexWriter getWriter()throws Exception{
        Analyzer analyzer=new StandardAnalyzer();
        IndexWriterConfig iwc=new IndexWriterConfig(analyzer);
        IndexWriter writer=new IndexWriter(dir, iwc);
        return writer;
    }

    /**
     * 获取indexDir
     * @param indexDir
     * @throws Exception
     */
    private void index(String indexDir)throws Exception{

        dir=FSDirectory.open(Paths.get(indexDir));

        IndexWriter writer=getWriter();

        for(int i=0;inew Document();

            doc.add(new IntField("id", ids[i], Field.Store.YES));
            doc.add(new StringField("city",citys[i],Field.Store.YES));
            doc.add(new TextField("desc", descs[i], Field.Store.YES));

            writer.addDocument(doc); 
        }

        writer.close();
    }


    public static void main(String[] args) throws Exception {

        new Indexer().index("E:\\luceneDemo5");
    }

}

//****写索引 end********

//****特殊项查找 start********
import java.nio.file.Paths;

import org.apache.lucene.document.Document;
import org.apache.lucene.index.DirectoryReader;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.index.Term;
import org.apache.lucene.search.BooleanClause;
import org.apache.lucene.search.BooleanQuery;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.NumericRangeQuery;
import org.apache.lucene.search.PrefixQuery;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.TermRangeQuery;
import org.apache.lucene.search.TopDocs;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.util.BytesRef;
import org.junit.After;
import org.junit.Before;
import org.junit.Test;

public class SearchTest {

    private Directory dir;
    private IndexReader reader;
    private IndexSearcher is;

    @Before
    public void setUp() throws Exception {
        dir=FSDirectory.open(Paths.get("E:\\luceneDemo5"));
        reader=DirectoryReader.open(dir);
        is=new IndexSearcher(reader);
    }

    @After
    public void tearDown() throws Exception {
        reader.close();
    }

    /**
     * ָ指定项范围查询 TermRangeQuery ；对应效果1
     * @throws Exception
     */
    @Test
    public void testTermRangeQuery()throws Exception{

        //核心句
        TermRangeQuery query=new TermRangeQuery("desc", new BytesRef("b".getBytes()), new BytesRef("c".getBytes()), true, true);

        TopDocs hits=is.search(query, 10);

        for(ScoreDoc scoreDoc:hits.scoreDocs){

            Document doc=is.doc(scoreDoc.doc);

            System.out.println(doc.get("id"));
            System.out.println(doc.get("city"));
            System.out.println(doc.get("desc"));
        }       
    }

    /**
     * 指定数字范围查询 NumericRangeQuery ；对应效果2
     * @throws Exception
     */
    @Test
    public void testNumericRangeQuery()throws Exception{

        //核心句
        //第三个参数：是否包含最小开始数；第四个参数：是否包含最大结束数
        NumericRangeQuery query=NumericRangeQuery.newIntRange("id", 1, 2, true, true);

        TopDocs hits=is.search(query, 10);

        for(ScoreDoc scoreDoc:hits.scoreDocs){
            Document doc=is.doc(scoreDoc.doc);
            System.out.println(doc.get("id"));
            System.out.println(doc.get("city"));
            System.out.println(doc.get("desc"));
        }       
    }

    /**
     * 指定字符串开头搜索 PrefixQuery ；对应效果3
     * @throws Exception
     */
    @Test
    public void testPrefixQuery()throws Exception{

        //运用term来查找
        PrefixQuery query=new PrefixQuery(new Term("city","c"));

        TopDocs hits=is.search(query, 10);

        for(ScoreDoc scoreDoc:hits.scoreDocs){
            Document doc=is.doc(scoreDoc.doc);
            System.out.println(doc.get("id"));
            System.out.println(doc.get("city"));
            System.out.println(doc.get("desc"));
        }   
    }

    /**
     * 组合查询 BooleanQuery 对应效果4
     * @throws Exception
     */
    @Test
    public void testBooleanQuery()throws Exception{

        //指定数字范围查询 NumericRangeQuery ；
        NumericRangeQuery query1=NumericRangeQuery.newIntRange("id", 1, 2, true, true);

        //指定字符串开头搜索 PrefixQuery ；
        PrefixQuery query2=new PrefixQuery(new Term("city","a"));

        //核心句
        BooleanQuery.Builder booleanQuery=new BooleanQuery.Builder();

        //把多条件查询的query都加到BooleanQuery中去
        /**
         * FILTER:是否统计的意思，一般不常用；
         * MUST:相当于 and，同时满足条件；
         * MUST_NOT:相当于not；
         * SHOULD:相当于or，两者满足一个条件即可查出
         */
        booleanQuery.add(query1,BooleanClause.Occur.MUST);
        booleanQuery.add(query2,BooleanClause.Occur.MUST);

        TopDocs hits=is.search(booleanQuery.build(), 10);

        for(ScoreDoc scoreDoc:hits.scoreDocs){

            Document doc=is.doc(scoreDoc.doc);

            System.out.println(doc.get("id"));
            System.out.println(doc.get("city"));
            System.out.println(doc.get("desc"));
        }   
    }

}
****特殊项查找 end********

显示效果如下：
效果1：
1
aingdao
Qingdao is b beautiful city.
2
banjing
Nanjing is c city of culture.
3
changhai
Shanghai is d bustling city.

效果2：
1
aingdao
Qingdao is b beautiful city.
2
banjing
Nanjing is c city of culture.

效果3：
3
changhai
Shanghai is d bustling city.

效果4：
1
aingdao
Qingdao is b beautiful city.

以上都对文档为全英文的时候检索查询的，那么在文档为全中文的时候该怎么办呢？

看一下以下的代码：

//****写索引 start******

import java.nio.file.Paths;

import org.apache.lucene.analysis.cn.smart.SmartChineseAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.document.IntField;
import org.apache.lucene.document.StringField;
import org.apache.lucene.document.TextField;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.IndexWriterConfig;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;

public class Indexer {

    private Integer ids[]={1,2,3};
    private String citys[]={"青岛","南京","上海"};
    private String descs[]={
            "青岛是一个漂亮的城市。",
            "南京是一个文化的城市。",
            "上海是一个繁华的城市。"
    };

    private Directory dir;

    /**
     *实例化indexerWriter
     * @return
     * @throws Exception
     */
    private IndexWriter getWriter()throws Exception{

        //中文分词器
        SmartChineseAnalyzer analyzer=new SmartChineseAnalyzer();

        IndexWriterConfig iwc=new IndexWriterConfig(analyzer);

        IndexWriter writer=new IndexWriter(dir, iwc);

        return writer;
    }

    /**
     * 获取indexDir
     * @param indexDir
     * @throws Exception
     */
    private void index(String indexDir)throws Exception{

        dir=FSDirectory.open(Paths.get(indexDir));

        IndexWriter writer=getWriter();

        for(int i=0;inew Document();

            doc.add(new IntField("id", ids[i], Field.Store.YES));
            doc.add(new StringField("city",citys[i],Field.Store.YES));
            doc.add(new TextField("desc", descs[i], Field.Store.YES));

            writer.addDocument(doc); 
        }

        writer.close();
    }


    public static void main(String[] args) throws Exception {

        new Indexer().index("E:\\luceneDemo6");
        //对应图一
    }

}
//****写索引 end********
//****对中文检索 start********
import java.io.StringReader;
import java.nio.file.Paths;

import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.cn.smart.SmartChineseAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.index.DirectoryReader;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.queryparser.classic.QueryParser;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.TopDocs;
import org.apache.lucene.search.highlight.Fragmenter;
import org.apache.lucene.search.highlight.Highlighter;
import org.apache.lucene.search.highlight.QueryScorer;
import org.apache.lucene.search.highlight.SimpleHTMLFormatter;
import org.apache.lucene.search.highlight.SimpleSpanFragmenter;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;

/**
 * 
 * 通过索引字段来读取文档
 * @author SZQ
 *
 */
public class ReaderByIndexerTest {

            public static void search(String indexDir, String par) throws Exception{

                //得到读取索引文件的路径
                Directory dir = FSDirectory.open(Paths.get(indexDir));

                //通过dir得到的路径下的所有的文件
                IndexReader reader = DirectoryReader.open(dir);

                //建立索引查询器
                IndexSearcher searcher = new IndexSearcher(reader);

                //中文分词器
                SmartChineseAnalyzer analyzer=new SmartChineseAnalyzer();

                //建立查询解析器
                /**
                 * 第一个参数是要查询的字段；
                 * 第二个参数是分析器Analyzer
                 * */
                QueryParser parser = new QueryParser("desc", analyzer);

                //根据传进来的par查找
                Query query = parser.parse(par);

                //计算索引开始时间
                long start = System.currentTimeMillis();

                //开始查询
                /**
                 * 第一个参数是通过传过来的参数来查找得到的query；
                 * 第二个参数是要出查询的行数
                 * */
                TopDocs topDocs = searcher.search(query, 10);

                //索引结束时间
                long end = System.currentTimeMillis();

                System.out.println("匹配"+par+",总共花费了"+(end-start)+"毫秒,共查到"+topDocs.totalHits+"条记录。");


                //高亮显示start

                //算分
                QueryScorer scorer=new QueryScorer(query);

                //显示得分高的片段
                Fragmenter fragmenter=new SimpleSpanFragmenter(scorer);

                //设置标签内部关键字的颜色
                //第一个参数：标签的前半部分；第二个参数：标签的后半部分。
                SimpleHTMLFormatter simpleHTMLFormatter=new SimpleHTMLFormatter("","");

                //第一个参数是对查到的结果进行实例化；第二个是片段得分（显示得分高的片段，即摘要）
                Highlighter highlighter=new Highlighter(simpleHTMLFormatter, scorer);

                //设置片段
                highlighter.setTextFragmenter(fragmenter);

                //高亮显示end

                //遍历topDocs
                /**
                 * ScoreDoc:是代表一个结果的相关度得分与文档编号等信息的对象。
                 * scoreDocs:代表文件的数组
                 * @throws Exception 
                 * */
                for(ScoreDoc scoreDoc : topDocs.scoreDocs){

                    //获取文档
                    Document document = searcher.doc(scoreDoc.doc);

                    //输出全路径
                    System.out.println(document.get("city"));
                    System.out.println(document.get("desc"));

                    String desc = document.get("desc");
                    if(desc!=null){

                        //把全部得分高的摘要给显示出来

                        //第一个参数是对哪个参数进行设置；第二个是以流的方式读入
                        TokenStream tokenStream=analyzer.tokenStream("desc", new StringReader(desc));

                        //获取最高的片段
                        System.out.println(highlighter.getBestFragment(tokenStream, desc));
                    }
                }

                reader.close();
            }


            //开始测试
            public static void main(String[] args) {

                //索引指定的路径
                String indexDir = "E:\\luceneDemo6";

                //查询的字段
                String par = "南京文明";

                try {

                    search(indexDir,par);

                } catch (Exception e) {
                    // TODO Auto-generated catch block
                    e.printStackTrace();
                }
            }

        //对应图二
    }
//****对中文检索 end********

图一：说明写索引成功！
打印台：Success Indexer

图二：说明查找成功！
匹配南京文明,总共花费了42毫秒,共查到1条记录。
南京
南京是一个文化的城市。

注意，一下的代码截图：

为什么会有标签呢？

看一下的代码：
//高亮显示start*****
//算分
QueryScorer scorer=new QueryScorer(query);
//显示得分高的片段
Fragmenter fragmenter=new SimpleSpanFragmenter(scorer);
//设置标签内部关键字的颜色
//第一个参数：标签的前半部分；第二个参数：标签的后半部分。
SimpleHTMLFormatter simpleHTMLFormatter=new SimpleHTMLFormatter(““,”“);
//第一个参数是对查到的结果进行实例化；第二个是片段得分（显示得分高的片段，即摘要）
Highlighter highlighter=new Highlighter(simpleHTMLFormatter, scorer);
//设置片段
highlighter.setTextFragmenter(fragmenter);
//*高亮显示end*****
String desc = document.get(“desc”);
if(desc!=null){

//把全部得分高的摘要给显示出来
//第一个参数是对哪个参数进行设置；第二个是以流的方式读入
TokenStream tokenStream=analyzer.tokenStream(“desc”, new StringReader(desc));
//获取最高的片段
System.out.println(highlighter.getBestFragment(tokenStream, desc));
}
}

以上的代码，就是设置高亮显示的效果，就像百度里的高亮显示一样，如下图：

关键字有颜色，搜索的要点片段显示出来。这就是高亮显示！

以上就是Lucene的全部内容，希望可以帮到大家！有兴趣的话，可以互加关注！欢迎各位朋友！

你可能感兴趣的:(lucene入门,stopword,倒排索引)

第四天旅游线路预览——从换乘中心到喀纳斯湖陟彼高冈yu 基于Google earth studio 的旅游规划和预览旅游
第四天：从贾登峪到喀纳斯风景区入口，晚上住宿贾登峪；换乘中心有4路车，喀纳斯①号车，去喀纳斯湖，路程时长约5分钟；将上面的的行程安排进行动态展示，具体步骤见”Googleearthstudio进行动态轨迹显示制作过程“、“Googleearthstudio入门教程”和“Googleearthstudio进阶教程“相关内容，得到行程如下所示：Day4-2-480p
linux中sdl的使用教程,sdl使用入门 Melissa Corvinus linux中sdl的使用教程
本文通过一个简单示例讲解SDL的基本使用流程。示例中展示一个窗口，窗口里面有个随机颜色快随机移动。当我们鼠标点击关闭按钮时间窗口关闭。基本步骤如下：1.初始化SDL并创建一个窗口。SDL_Init()初始化SDL_CreateWindow()创建窗口2.纹理渲染存储RGB和存储纹理的区别：比如一个从左到右由红色渐变到蓝色的矩形，用存储RGB的话就需要把矩形中每个点的具体颜色值存储下来；而纹理只是一
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
C++菜鸟教程 - 从入门到精通第二节 DreamByte c++
一.上节课的补充(数据类型)1.前言继上节课,我们主要讲解了输入,输出和运算符,我们现在来补充一下数据类型的知识上节课遗漏了这个知识点,非常的抱歉顺便说一下,博主要上高中了,更新会慢,2-4周更新一次对了,正好赶上中秋节,小编跟大家说一句:中秋节快乐!2.int类型上节课,我们其实只用了int类型int类型,是整数类型,它们存贮的是整数,不能存小数(浮点数)定义变量的方式很简单inta;//定义一
STM32中的计时与延时 lupinjia STM32 stm32 单片机
前言在裸机开发中，延时作为一种规定循环周期的方式经常被使用，其中尤以HAL库官方提供的HAL_Delay为甚。刚入门的小白可能会觉得既然有官方提供的延时函数，而且精度也还挺好，为什么不用呢？实际上HAL_Delay中有不少坑，而这些也只是HAL库中无数坑的其中一些。想从坑里跳出来还是得加强外设原理的学习和理解，切不可只依赖HAL库。除了延时之外，我们在开发中有时也会想要确定某段程序的耗时，这就需要
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
2019考研 | 西交大软件工程笔者阿蓉
本科背景：某北京211学校电子信息工程互联网开发工作两年录取结果：全日制软件工程学院分数：初试350+复试笔试80+面试85+总排名：100+从五月份开始脱产学习，我主要说一下专业课和复试还有我对非全的一些看法。【数学100+】张宇，张宇，张宇。跟着张宇学习，入门视频刷一遍，真题刷两遍，错题刷三遍。书刷N多遍。从视频开始学习，是最快的学习方法。5-7月份把主要是数学学好，8-9月份开始给自己每个周
esp32开发快速入门 8 : MQTT 的快速入门，基于esp32实现MQTT通信 z755924843 ESP32开发快速入门服务器网络运维
MQTT介绍简介MQTT（MessageQueuingTelemetryTransport，消息队列遥测传输协议），是一种基于发布/订阅（publish/subscribe）模式的"轻量级"通讯协议，该协议构建于TCP/IP协议上，由IBM在1999年发布。MQTT最大优点在于，可以以极少的代码和有限的带宽，为连接远程设备提供实时可靠的消息服务。作为一种低开销、低带宽占用的即时通讯协议，使其在物联
Armv8.3 体系结构扩展--原文版代码改变世界ctw ARM-TEE-Android armv8 嵌入式 arm架构安全架构芯片 Trustzone Secureboot
快速链接:.ARMv8/ARMv9架构入门到精通-[目录]付费专栏-付费课程【购买须知】:个人博客笔记导读目录(全部)TheArmv8.3architectureextensionTheArmv8.3architectureextensionisanextensiontoArmv8.2.Itaddsmandatoryandoptionalarchitecturalfeatures.Somefeat
Python入门之Lesson2:Python基础语法小熊同学哦 Python入门课程 python 开发语言算法数据结构青少年编程
目录前言一.介绍1.变量和数据类型2.常见运算符3.输入输出4.条件语句5.循环结构二.练习三.总结前言欢迎来到《Python入门》系列博客的第二课。在上一课中，我们了解了Python的安装及运行环境的配置。在这一课中，我们将深入学习Python的基础语法，这是编写Python代码的根基。通过本节内容的学习，你将掌握变量、数据类型、运算符、输入输出、条件语句等Python编程的基础知识。一.介绍1
摄影小白，怎么才能拍出高大上产品图片？是波妞唉
很多人以为文案只要会码字，会排版就OK了！说实话，没接触到这一行的时候，我的想法更简单，以为只要会写字就行！可是真做了文案才发现，码字只是入门级的基本功。一篇文章离不开排版、配图，说起来很简单！从头做到尾你就会发现，写文章用两个小时，找合适的配图居然要花掉半天的时间，甚至更久！图片能找到合适的就不怕，还有找不到的，比如产品图，只能亲自拍。拿着摆弄了半天，就是拍不出想要的效果，光线不好、搭出来丑破天
2021 CCF 非专业级别软件能力认证第一轮（CSP-J1）入门级C++语言试题（第三大题：完善程序代码） mmz1207 c++csp
最近有一段时间没更新了，在准备CSP考试，请大家见谅。（1）有n个人围成一个圈，依次标号0到n-1。从0号开始，依次0，1，0，1...交替报数，报到一的人离开，直至圈中剩最后一个人。求最后剩下的人的编号。#includeusingnamespacestd;intf[1000010];intmain(){intn;cin>>n;inti=0,cnt=0,p=0;while(cnt#includeu
Vue( ElementUI入门、vue-cli安装) m0_l5z elementui vue.js
一.ElementUI入门目录：1.ElementUI入门1.1ElementUI简介1.2Vue+ElementUI安装1.3开发示例2.搭建nodejs环境2.1nodejs介绍2.2npm是什么2.3nodejs环境搭建2.3.1下载2.3.2解压2.3.3配置环境变量2.3.4配置npm全局模块路径和cache默认安装位置2.3.5修改npm镜像提高下载速度2.3.6验证安装结果3.运行n
Spring MVC 全面指南：从入门到精通的详细解析一杯梅子酱技术栈学习 spring mvc java
引言：SpringMVC，作为Spring框架的一个重要模块，为构建Web应用提供了强大的功能和灵活性。无论是初学者还是有一定经验的开发者，掌握SpringMVC都将显著提升你的Web开发技能。本文旨在为初学者提供一个全面且易于理解的学习路径，通过详细的知识点分析和实际案例，帮助你快速上手SpringMVC，让学习过程既深刻又高效。一、SpringMVC简介1.1什么是SpringMVC？Spri
入门MySQL——查询语法练习 K_un
前言：前面几篇文章为大家介绍了DML以及DDL语句的使用方法，本篇文章将主要讲述常用的查询语法。其实MySQL官网给出了多个示例数据库供大家实用查询，下面我们以最常用的员工示例数据库为准，详细介绍各自常用的查询语法。1.员工示例数据库导入官方文档员工示例数据库介绍及下载链接：https://dev.mysql.com/doc/employee/en/employees-installation.h
ESP32-C3入门教程网络篇⑩——基于esp_https_ota和MQTT实现开机主动升级和被动触发升级的OTA功能小康师兄 ESP32-C3入门教程 https 服务器 esp32 OTA MQTT
文章目录一、前言二、软件流程三、部分源码四、运行演示一、前言本文基于VSCodeIDE进行编程、编译、下载、运行等操作基础入门章节请查阅：ESP32-C3入门教程基础篇①——基于VSCode构建HelloWorld教程目录大纲请查阅：ESP32-C3入门教程——导读ESP32-C3入门教程网络篇⑨——基于esp_https_ota实现史上最简单的ESP32OTA远程固件升级功能二、软件流程
2023最详细的Python安装教程（Windows版本）程序员林哥 Python python windows 开发语言
python安装是学习pyhon第一步，很多刚入门小白不清楚如何安装python，今天我来带大家完成python安装与配置，跟着我一步步来，很简单，你肯定能完成。第一部分：python安装（一）准备工作1、下载和安装python(认准官方网站)当然你不想去下载的话也可以分享给你，还有入门学习教程，点击下方卡片跳转进群领取（二）开始安装对于Windows操作系统，可以下载“executableins
【2022 CCF 非专业级别软件能力认证第一轮（CSP-J1）入门级 C++语言试题及解析】汉子萌萌哒 CCF noi 算法数据结构 c++
一、单项选择题(共15题，每题2分，共计30分；每题有且仅有一个正确选项)1.以下哪种功能没有涉及C++语言的面向对象特性支持：()。A.C++中调用printf函数B.C++中调用用户定义的类成员函数C.C++中构造一个class或structD.C++中构造来源于同一基类的多个派生类题目解析【解析】正确答案:AC++基础知识，面向对象和类有关，类又涉及父类、子类、继承、派生等关系，printf
现金贷“租系统”产业崛起：租金3000，本金10万，一月回本 Dayon
最近，地下现金贷的全面崛起，已成了不可阻挡的趋势。大量民间资本开始涌入，民间高利贷、炒房团、土豪的钱，都裹挟其中。而地下现金贷的入门门槛正在不断降低，一条新的产业链开始崛起：租现金贷系统。现在，只需要10万本金，花3000元租个系统，两个人的团队，一个月就能回本。大量的小本金玩家进场了，为了急速获利，他们甚至将利率调到1600%以上。业内人士称，真实的现金贷用户，现在大概只有200多万。整个行业几
【树一线性代数】005入门 Owlet_woodBird 算法
Index本文稍后补全，推荐阅读：https://blog.csdn.net/weixin_60702024/article/details/141874376分析实现总结本文稍后补全，推荐阅读：https://blog.csdn.net/weixin_60702024/article/details/141874376已知非空二叉树T的结点值均为正整数，采用顺序存储方式保存，数据结构定义如下:t
如何自学软件编程？零基础自学编程入门指南 _pangzi
前言零基础自学编程的动力是什么?在开启学习编程之路的时候必须搞清楚自己为什么要学编程?是因为工资高?还是对编程有浓厚的兴趣？还有自己有一定的编程基础想要继续提升自己？其实对于这个问题需要具体分析，如果是单纯看到程序员工资高，而自己本身并没有什么兴趣，那我不建议自学，可以选择参加培训或者不要进入编程领域不然自己学不会没有获得高薪，反而浪费了大把的时间，如果方法不对，反而会打击自信心。下面小编针对学习
Linux CTF逆向入门蚁景网络安全 linux 运维 CTF
1.ELF格式我们先来看看ELF文件头，如果想详细了解，可以查看ELF的manpage文档。关于ELF更详细的说明：e_shoff：节头表的文件偏移量（字节）。如果文件没有节头表，则此成员值为零。sh_offset：表示了该section（节）离开文件头部位置的距离+-------------------+|ELFheader|---++--------->+-------------------
python简单好玩的编程代码,python有哪些好玩的代码 2301_81900439 pygame python 开发语言
大家好，小编来为大家解答以下问题，20行python代码的入门级小游戏，python有什么好玩的代码嘛，今天让我们一起来看看吧！哈喽铁子们表弟最近在学Python，总是跟我抱怨很枯燥无味，其实，他有没有认真想过，可能是自己学习姿势不对？比方说，可以通过打游戏来学编程！今天给大家分享100个Python小游戏，一定要收藏！1、简易飞机大战飞机大战相信大家都玩过吧，非常简单有意思的游戏，咱们通过Pyt
思考成长丁昆朋
这篇文章是加紧赶出来“应付”日更，一方面不想要再晚睡了；另一方面不想失去日更达人的称号，只能坐下来匆忙写下一点文字。既然标题是成长，先来总结一下这段时间的收获：1、整理箱子站着可以看电脑，坐着反而是一种享受，减少了坐着腰酸背痛的现象；2、使用讯飞输入法大大增加自己的输出量；3、Anaconda+“pythontutor.com"+Google算是简单入门python；4、英语的阅读文章能力、听力提
HarmonyOS开发实战（ Beta5.0）搜索框热搜词自动切换让开，我要吃人了 OpenHarmony HarmonyOS 鸿蒙开发 harmonyos 华为鸿蒙移动开发鸿蒙系统前端开发语言
鸿蒙HarmonyOS开发往期必看：HarmonyOSNEXT应用开发性能实践总结最新版！“非常详细的”鸿蒙HarmonyOSNext应用开发学习路线！（从零基础入门到精通）介绍本示例介绍使用TextInput组件与Swiper组件实现搜索框内热搜词自动切换。效果图预览使用说明页面顶部搜索框内热搜词条自动切换，编辑搜索框时自动隐藏。实现思路使用TextInput实现搜索框TextInput({te
mysql学习教程，从入门到精通，TOP 和MySQL LIMIT 子句（15）知识分享小能手大数据数据库 MySQL mysql 学习 oracle 数据库开发语言 adb 大数据
1、TOP和MySQLLIMIT子句内容在SQL中，不同的数据库系统对于限制查询结果的数量有不同的实现方式。TOP关键字主要用于SQLServer和Access数据库中，而LIMIT子句则主要用于MySQL、PostgreSQL（通过LIMIT/OFFSET语法）、SQLite等数据库中。下面将分别详细介绍这两个功能的语法、语句以及案例。1.1、TOP子句（SQLServer和Access）1.1
【从问题中去学习k8s】k8s中的常见面试题（夯实理论基础）（二十八）向往风的男子 k8s 学习 kubernetes 容器
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》从问题中去学习k8s《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》
Nginx从入门到实践(三) 听你讲故事啊
动静分离动静分离是将网站静态资源（JavaScript，CSS，img等文件）与后台应用分开部署，提高用户访问静态代码的速度，降低对后台应用访问。动静分离的一种做法是将静态资源部署在nginx上，后台项目部署到应用服务器上，根据一定规则静态资源的请求全部请求nginx服务器，达到动静分离的目标。rewrite规则Rewrite规则常见正则表达式Rewrite主要的功能就是实现URL的重写，Ngin
【Python基础】Python迭代器与生成器（两种强大工具）姑苏老陈 Python编程入门 python 开发语言 python迭代器与生成器
本文收录于《Python编程入门》专栏，从零基础开始，分享一些Python编程基础知识，欢迎关注，谢谢！文章目录一、前言二、迭代器2.1创建迭代器2.2自定义迭代器2.3处理大型文件三、生成器四、生成器表达式五、实际应用案例5.1数据库查询5.2网络数据流处理六、总结一、前言在Python中，迭代器与生成器是两种非常强大的工具，它们可以帮助我们有效地处理大量数据，特别是在需要逐个访问元素的情况下。
java工厂模式 3213213333332132 java 抽象工厂
工厂模式有 1、工厂方法 2、抽象工厂方法。下面我的实现是抽象工厂方法, 给所有具体的产品类定一个通用的接口。 package 工厂模式; /** * 航天飞行接口 * * @Description * @author FuJianyong * 2015-7-14下午02:42:05 */ public interface SpaceF
nginx频率限制+python测试 ronin47 nginx 频率 python
部分内容参考：http://www.abc3210.com/2013/web_04/82.shtml 首先说一下遇到这个问题是因为网站被攻击，阿里云报警，想到要限制一下访问频率，而不是限制ip（限制ip的方案稍后给出）。nginx连接资源被吃空返回状态码是502，添加本方案限制后返回599，与正常状态码区别开。步骤如下：
java线程和线程池的使用 dyy_gusi ThreadPool thread Runnable timer
java线程和线程池一、创建多线程的方式 java多线程很常见，如何使用多线程，如何创建线程，java中有两种方式，第一种是让自己的类实现Runnable接口，第二种是让自己的类继承Thread类。其实Thread类自己也是实现了Runnable接口。具体使用实例如下： 1、通过实现Runnable接口方式 1 2
Linux 171815164 linux
ubuntu kernel http://kernel.ubuntu.com/~kernel-ppa/mainline/v4.1.2-unstable/ 安卓sdk代理 mirrors.neusoft.edu.cn 80 输入法和jdk sudo apt-get install fcitx su
Tomcat JDBC Connection Pool g21121 Connection
Tomcat7 抛弃了以往的DBCP 采用了新的Tomcat Jdbc Pool 作为数据库连接组件，事实上DBCP已经被Hibernate 所抛弃，因为他存在很多问题，诸如：更新缓慢，bug较多，编译问题，代码复杂等等。 Tomcat Jdbc P
敲代码的一点想法永夜-极光 java 随笔感想
入门学习java编程已经半年了,一路敲代码下来,现在也才1w+行代码量,也就菜鸟水准吧,但是在整个学习过程中,我一直在想,为什么很多培训老师,网上的文章都是要我们背一些代码?比如学习Arraylist的时候,教师就让我们先参考源代码写一遍,然
jvm指令集程序员是怎么炼成的 jvm 指令集
转自：http://blog.csdn.net/hudashi/article/details/7062675#comments 将值推送至栈顶时 const ldc push load指令 const系列该系列命令主要负责把简单的数值类型送到栈顶。(从常量池或者局部变量push到栈顶时均使用) 0x02 &nbs
Oracle字符集的查看查询和Oracle字符集的设置修改 aijuans oracle
本文主要讨论以下几个部分：如何查看查询oracle字符集、修改设置字符集以及常见的oracle utf8字符集和oracle exp 字符集问题。一、什么是Oracle字符集 Oracle字符集是一个字节数据的解释的符号集合,有大小之分,有相互的包容关系。ORACLE 支持国家语言的体系结构允许你使用本地化语言来存储，处理，检索数据。它使数据库工具，错误消息，排序次序，日期，时间，货
png在Ie6下透明度处理方法 antonyup_2006 css 浏览器 Firebug IE
由于之前到深圳现场支撑上线，当时为了解决个控件下载，我机器上的IE8老报个错，不得以把ie8卸载掉，换个Ie6,问题解决了，今天出差回来，用ie6登入另一个正在开发的系统，遇到了Png图片的问题，当然升级到ie8(ie8自带的开发人员工具调试前端页面JS之类的还是比较方便的，和FireBug一样，呵呵)，这个问题就解决了，但稍微做了下这个问题的处理。我们知道PNG是图像文件存储格式，查询资
表查询常用命令高级查询方法(二) 百合不是茶 oracle 分页查询分组查询联合查询
----------------------------------------------------分组查询 group by having --平均工资和最高工资 select avg(sal)平均工资,max(sal) from emp ; --每个部门的平均工资和最高工资
uploadify3.1版本参数使用详解 bijian1013 JavaScript uploadify3.1
使用：绑定的界面元素<input id='gallery'type='file'/>$("#gallery").uploadify({设置参数，参数如下}); 设置的属性： id: jQuery(this).attr('id'),//绑定的input的ID langFile: 'http://ww
精通Oracle10编程SQL(17)使用ORACLE系统包 bijian1013 oracle 数据库 plsql
/* *使用ORACLE系统包 */ --1.DBMS_OUTPUT --ENABLE:用于激活过程PUT,PUT_LINE,NEW_LINE,GET_LINE和GET_LINES的调用 --语法：DBMS_OUTPUT.enable(buffer_size in integer default 20000); --DISABLE:用于禁止对过程PUT,PUT_LINE,NEW
【JVM一】JVM垃圾回收日志 bit1129 垃圾回收
将JVM垃圾回收的日志记录下来，对于分析垃圾回收的运行状态，进而调整内存分配(年轻代，老年代，永久代的内存分配)等是很有意义的。JVM与垃圾回收日志相关的参数包括： -XX:+PrintGC -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintGCDateStamps -Xloggc -XX:+PrintGC 通
Toast使用白糖_ toast
Android中的Toast是一种简易的消息提示框，toast提示框不能被用户点击，toast会根据用户设置的显示时间后自动消失。创建Toast 两个方法创建Toast makeText(Context context, int resId, int duration) 参数：context是toast显示在
angular.identity boyitech AngularJS AngularJS API
angular.identiy 描述: 返回它第一参数的函数. 此函数多用于函数是编程. 使用方法: angular.identity(value); 参数详解: Param Type Details value * to be returned. 返回值: 传入的value 实例代码: <!DOCTYPE HTML>
java-两整数相除，求循环节 bylijinnan java
import java.util.ArrayList; import java.util.List; public class CircleDigitsInDivision { /** * 题目：求循环节，若整除则返回NULL，否则返回char*指向循环节。先写思路。函数原型：char*get_circle_digits(unsigned k,unsigned j)
Java 日期周年 Chen.H java C++c C#
/** * java日期操作(月末、周末等的日期操作) * * @author * */ public class DateUtil { /** */ /** * 取得某天相加(减)後的那一天 * * @param date * @param num *
[高考与专业]欢迎广大高中毕业生加入自动控制与计算机应用专业 comsci 计算机
不知道现在的高校还设置这个宽口径专业没有,自动控制与计算机应用专业,我就是这个专业毕业的,这个专业的课程非常多,既要学习自动控制方面的课程,也要学习计算机专业的课程,对数学也要求比较高.....如果有这个专业,欢迎大家报考...毕业出来之后,就业的途径非常广..... 以后
分层查询（Hierarchical Queries） daizj oracle 递归查询层次查询
Hierarchical Queries If a table contains hierarchical data, then you can select rows in a hierarchical order using the hierarchical query clause: hierarchical_query_clause::= start with condi
数据迁移 daysinsun 数据迁移
最近公司在重构一个医疗系统，原来的系统是两个.Net系统，现需要重构到java中。数据库分别为SQL Server和Mysql，现需要将数据库统一为Hana数据库，发现了几个问题，但最后通过努力都解决了。 1、原本通过Hana的数据迁移工具把数据是可以迁移过去的，在MySQl里面的字段为TEXT类型的到Hana里面就存储不了了，最后不得不更改为clob。 2、在数据插入的时候有些字段特别长
C语言学习二进制的表示示例 dcj3sjt126com c basic
进制的表示示例 # include <stdio.h> int main(void) { int i = 0x32C; printf("i = %d\n", i); /* printf的用法 %d表示以十进制输出 %x或%X表示以十六进制的输出 %o表示以八进制输出 */ return 0; }
NsTimer 和 UITableViewCell 之间的控制 dcj3sjt126com ios
情况是这样的: 一个UITableView, 每个Cell的内容是我自定义的 viewA viewA上面有很多的动画, 我需要添加NSTimer来做动画, 由于TableView的复用机制, 我添加的动画会不断开启, 没有停止, 动画会执行越来越多. 解决办法: 在配置cell的时候开始动画, 然后在cell结束显示的时候停止动画查找cell结束显示的代理
MySql中case when then 的使用 fanxiaolong casewhenthenend
select "主键", "项目编号", "项目名称","项目创建时间", "项目状态","部门名称","创建人" union (select pp.id as "主键", pp.project_number as &
Ehcache（01）——简介、基本操作 234390216 cache ehcache 简介 CacheManager crud
Ehcache简介目录 1 CacheManager 1.1 构造方法构建 1.2 静态方法构建 2 Cache 2.1&
最容易懂的javascript闭包学习入门 jackyrong JavaScript
http://www.ruanyifeng.com/blog/2009/08/learning_javascript_closures.html 闭包（closure）是Javascript语言的一个难点，也是它的特色，很多高级应用都要依靠闭包实现。下面就是我的学习笔记，对于Javascript初学者应该是很有用的。一、变量的作用域要理解闭包，首先必须理解Javascript特殊
提升网站转化率的四步优化方案 php教程分享数据结构 PHP 数据挖掘 Google 活动
网站开发完成后,我们在进行网站优化最关键的问题就是如何提高整体的转化率，这也是营销策略里最最重要的方面之一，并且也是网站综合运营实例的结果。文中分享了四大优化策略：调查、研究、优化、评估，这四大策略可以很好地帮助用户设计出高效的优化方案。 PHP开发的网站优化一个网站最关键和棘手的是，如何提高整体的转化率，这是任何营销策略里最重要的方面之一，而提升网站转化率是网站综合运营实力的结果。今天，我就分
web开发里什么是HTML5的WebSocket？ naruto1990 Web html5 浏览器 socket
当前火起来的HTML5语言里面，很多学者们都还没有完全了解这语言的效果情况，我最喜欢的Web开发技术就是正迅速变得流行的 WebSocket API。WebSocket 提供了一个受欢迎的技术，以替代我们过去几年一直在用的Ajax技术。这个新的API提供了一个方法，从客户端使用简单的语法有效地推动消息到服务器。让我们看一看6个HTML5教程介绍里的 WebSocket API：它可用于客户端、服
Socket初步编程——简单实现群聊 Everyday都不同 socket 网络编程初步认识
初次接触到socket网络编程，也参考了网络上众前辈的文章。尝试自己也写了一下，记录下过程吧：服务端：（接收客户端消息并把它们打印出来） public class SocketServer { private List<Socket> socketList = new ArrayList<Socket>(); public s
面试：Hashtable与HashMap的区别（结合线程） toknowme
昨天去了某钱公司面试，面试过程中被问道 Hashtable与HashMap的区别？当时就是回答了一点，Hashtable是线程安全的，HashMap是线程不安全的，说白了，就是Hashtable是的同步的，HashMap不是同步的，需要额外的处理一下。今天就动手写了一个例子，直接看代码吧 package com.learn.lesson001; import java
MVC设计模式的总结 xp9802 设计模式 mvc 框架 IOC
随着Web应用的商业逻辑包含逐渐复杂的公式分析计算、决策支持等，使客户机越来越不堪重负，因此将系统的商业分离出来。单独形成一部分，这样三层结构产生了。其中‘层’是逻辑上的划分。三层体系结构是将整个系统划分为如图2.1所示的结构[3] （1）表现层（Presentation layer）：包含表示代码、用户交互GUI、数据验证。该层用于向客户端用户提供GUI交互，它允许用户