使用Lucene.Net实现全文检索

一 Lucene.Net概述

二分词

三索引

四搜索

五实践中的问题

一 Lucene.Net概述

　　Lucene.Net是一个C#开发的开源全文索引库，其源码包括“核心”与“外围”两部分。外围部分实现辅助功能，而核心部分包括：

Lucene.Net.Index 提供索引管理，词组排序。
Lucene.Net.Search 提供查询相关功能。
Lucene.Net.Store 支持数据存储管理，主要包括I/O操作。
Lucene.Net.Util 公共类。
Lucene.Net.Documents 负责描述索引存储时的文件结构管理。
Lucene.Net.QueryParsers 提供查询语法。
Lucene.Net.Analysis 负责分析文本。

　　全文检索流程如下：

　　一个简单的全文检索实例：

　　创建索引：

　　关键代码形如：

        static void createIndex(string title, string content)
        {
            LN.Analysis.Analyzer analyzer = new LN.Analysis.Standard.StandardAnalyzer();
            LN.Index.IndexWriter iw = new LN.Index.IndexWriter("Index", analyzer, false);
            LN.Documents.Document document = new LN.Documents.Document();
            document.Add(new LN.Documents.Field("title", title, LN.Documents.Field.Store.YES, LN.Documents.Field.Index.TOKENIZED));
            document.Add(new LN.Documents.Field("content", content, LN.Documents.Field.Store.YES, LN.Documents.Field.Index.TOKENIZED));
            iw.AddDocument(document);
            iw.Optimize();
            iw.Close();
        }

　　查询：

　　关键代码形如：

　　　　 static List<Item> search(string keyWord)
        {
            List<Item> results = new List<Item>();
            LN.Analysis.Analyzer analyzer = new LN.Analysis.Standard.StandardAnalyzer();
            LN.Search.IndexSearcher searcher = new LN.Search.IndexSearcher("Index");
            LN.QueryParsers.MultiFieldQueryParser parser = new LN.QueryParsers.MultiFieldQueryParser(new string[] { "title", "content" }, analyzer);
            LN.Search.Query query = parser.Parse(keyWord);
            LN.Search.Hits hits = searcher.Search(query);
            for (int i = 0; i < hits.Length(); i++)
            {
                LN.Documents.Document doc = hits.Doc(i);
                results.Add(new Item() { Title = doc.Get("title"), Content = doc.Get("content") });
            }
            searcher.Close();
            return results;
        }

二分词

（一）内置分词器

　　分词（切词）是实现全文检索的基础，之所以我们能够让机器理解我们的自然语言，是因为有了分词的帮助。分词工作由Analyzer类完成，它负责把文本切成Token序列，Token就是索引中的单词。Lucene.Net在两个地方用到分词：创建文档索引和分析搜索关键字。其过程示意如下：

　　由此可知，在创建索引和搜索时，必须使用同样的分词器，保证其切出相同的Token才能检索到结果。（Lucene.Net把查询关键字中的单词叫做“Term”，Term和Token的文本是一样的，只是某些属性不一样。）

　　Lucene.Net实现了一些分词器，其对英文支持较好，但是对中文支持欠佳。

　　针对内置分词器测试结果如下：

　　关键代码形如：

        private static List<string> cutWords(string words, Analyzer analyzer)
        {
            List<string> results = new List<string>();
            TokenStream ts = analyzer.ReusableTokenStream("", new StringReader(words));
            Token token;
            while ((token = ts.Next()) != null)
            {
                results.Add(token.TermText());
            }
            ts.Close();
            return results;
        }

　　可见，除了StandardAnalyzer外，其它分词器对中文基本无法处理，需要用户自行解决。

（二）分词过程

　　分词实际是由以下类型完成：

　　查看WhitespaceAnalyzer的部分源码如下：

　　 public sealed class WhitespaceAnalyzer:Analyzer
    {
        public override TokenStream TokenStream(System.String fieldName, System.IO.TextReader reader)
        {
            return new WhitespaceTokenizer(reader);
        }
　　　　 ...
    }

　　由此可见，WhitespaceAnalyzer的工作都是交给WhitespaceTokenizer来完成的，并且没有使用筛选器，这也与之前测试的结果相符。我们可以利用TokenStream的派生类型来实现自定义分词器。例如修改上述代码来得到一个新的分词器，功能类似WhitespaceAnalyzer，不同的是将大写字母变为小写，其代码形如：

    public sealed class NewWhitespaceAnalyzer:Analyzer
    {
        public override TokenStream TokenStream(System.String fieldName, System.IO.TextReader reader)
        {
            TokenStream ts = new WhitespaceTokenizer(reader);
            return new LowerCaseFilter(ts);
        }
　　　　 ...
    }

（三）中文分词

　　显然，用户可以自定义分词器，来实现中文分词。但是，大多数用户不熟悉中文分词算法，同时也没有时间和精力来实现自定义分词，毕竟分词并不是我们系统的核心功能。因此，笔者引用了另一个中文分词组件——盘古分词。测试结果如下：

　　盘古分词使用步骤如下：

Setp 1：添加相关程序集引用

　　这里需要添加2个程序集，PanGu.dll（盘古分词的核心组件）和PanGu.Lucene.Analyzer.dll（盘古分词的Lucene组件）。

Step 2：添加中文分词库

Step 3：添加并设置配置文件

Step 4：在Lucene.Net使用盘古分词

　　PanGu.Lucene.Analyzer.dll中定义了Analyzer的派生类型Lucene.Net.Analysis.PanGu.PanGuAnalyzer，与Tokenizer的派生类Lucene.Net.Analysis.PanGu.PanGuTokenizer，语法与Lucene.Net内置分词器相同。

Step 5：维护分词库

　　使用DictManage.exe管理和维护词库：

三索引

（一）索引的存储结构

　　为了方便索引大量文档，Lucene.Net中的一个索引包括多个子索引，叫做Segment（段）。每个Segment包括多个可搜索的文档，叫做Document；每个Document包括多个Field；每个Field又包括多个Term。综上所述，Lucene.Net的索引文件的逻辑结构如下：

　　索引文件的物理表示如下：

　　Lucene.Net把一个文档写入索引时，首先生成这个文档的到排索引，然后再把文档的倒排索引合并到段的倒排索引中。

（二）常用类型

Directory Lucene.Net的Directory类型实现索引的存储。常用类型继承树如下：

IndexWriter 负责将索引写入Directory。Lucene通过设置缓存来提供写索引的速度，IndexWriter有几个参数来调整缓存的大小，控制Segment的数量，以及写索引的频率：

1. 合并因子（mergeFactor） 这个参数决定一个索引块中可以存放多少文档（Document）以及把磁盘上的索引段（Segment）合并成一个大索引段的频率。该参数默认值为10。在默认情况下，缓存中Document数达到10时，所有的文档将写入一个新的Segment。并且，如果Directory的Segment的个数达到10，这10个索引块会被合并成一个新的Segment。对于大量文档来说，这个值大一些会更好。可以通过“SetMergeFactor(int mergeFactor)”方法来设置、
2. 最小合并文档数（minMergeDocs）、最大缓存文档数（maxBufferedDocs） 默认值为10，它决定缓存中Document数量达到多少才能将他们写入磁盘。该值越大越消耗内存，I/O操作越少。（本处，笔者也有些糊涂，笔者感觉两者类似，不知道具体区别，若理解有误还请读者赐教。）
3. 最大合并文档数（maxMergeDocs） 默认值为Integer.MAX_VALUE，它决定一个索引段（Segment）中的最大文档（Document）数。该值越大越高效，因为默认值以及很大了所以不用改变。
4. 最大域长度（maxFieldLength） 默认值10000，表示截取该域中的前10000个Term，前10000个以外的Term将不被索引和检索。该值可在索引中随时更改，并即时生效（仅对之后的操作生效，一般该值设置为Integer.MAX_VALUE）。

　　　　IndexWriter的常用方法包括：

1. Flush/Commit Flush方法与Commit方法相同，都是把缓存中的数据提交，可以清除缓存。
2. Close 无论是否发生异常都必须调用Close方法，该方法将对文件进行解锁，并完成Flush方法的功能。
3. Optimize Optimize方法用于优化索引，执行相当耗时。

Document 包含了可索引文档的信息。每个Document都有一个编号，但该编号并非永远不变。
Field 类似实体的某个属性，就像数据库中的一个列，其成员如下：

　　（可以看到，Index的某些字段我给出的相同的注释，这是因为向下兼容的目的而具有相同的作用。注：高亮显示将用的TermVector。）

　　常用列选项组合及用法如下：

Index	Store	TermVector	用法
NOT_ANSLYZED	YES	NO	文件名、主键
ANSLYZED	YES	WITH_POSITUION_OFFSETS	标题、摘要
ANSLYZED	NO	WITH_POSITUION_OFFSETS	很长的全文
NO	YES	NO	文档类型
NOT_ANSLYZED	NO	NO	隐藏的关键词

（三）创建索引

　　创建索引流程如下：

1 基本实现

　　其代码形如：

    　　 private static void saveIndex(string dirPath, string uri, string title, string summary)
        {
            //判断是创建索引还是追加索引
            bool isNew = false;
            if (!LN.Index.IndexReader.IndexExists(dirPath))
            {
                isNew = true;
            }

            LN.Index.IndexWriter iw = new LN.Index.IndexWriter(dirPath, new PanGuAnalyzer(), isNew);//使用PanGuAnalyzer初始化IndexWriter，参数create为true表示创建，为false表示添加。

            LN.Documents.Document document = new LN.Documents.Document();//创建Document

            //添加Field
            document.Add(new LN.Documents.Field("Uri", uri, LN.Documents.Field.Store.YES, LN.Documents.Field.Index.NO));
            document.Add(new LN.Documents.Field("Title", title, LN.Documents.Field.Store.YES, LN.Documents.Field.Index.ANALYZED));
            document.Add(new LN.Documents.Field("CreateTime", DateTime.Now.ToString("yyyy-MM-dd"), LN.Documents.Field.Store.YES, LN.Documents.Field.Index.NOT_ANALYZED));
            document.Add(new LN.Documents.Field("Summary", summary, LN.Documents.Field.Store.YES, LN.Documents.Field.Index.ANALYZED));

            iw.AddDocument(document);//向索引添加文档

            iw.Optimize();//优化索引

            iw.Close();//关闭索引
        }

2 权重Boost

　　默认情况下，搜索结果以Document.Score作为排序依据，该数值越大排名越靠前。Score与Boost成正比，满分是1，如果某的Document的Score为1，其它文档将根据该文档进行评分，因此不会同时存在多个同时为1的情况。从公式也可看出，Boost不能为0，Boost=0则Score为0。在类型Lucene.Net.Search.Hits这定义了Score(int)方法，能够获取评分。

　　Boost的默认值为1，通过改变权重我们可以影响查询结果。其代码形如：

　　“document.SetBoost(2F);”改变Document的权重，将影响所有Field的搜索得分。

　　“document.GetField("FieldName").SetBoost(2F);”只改变某个Field的权重。

　　boost的数值存储在Norms中，因此要注意Index的设置，设置NO_NORMS将节省索引空间，但是将不支持权重。

　　权重的调整建议：

标题权重一般比内容高 标题更能够非常准确地描述文档的内容，而且长度比较短，提高权重不会造成严重的影响。
不要把包含大量索引的文档的权重设置过高 文档中能索引的词越多，对搜索的影响越大，例如在搜索如“好的”这样常用的词汇时，这篇文章也将位列榜首，但并不是我们需要的。
如果能靠设置Field的权重来解决，就不要设置Document的权重 原因与上面的类似，当我们要改变某些关键字的搜索结果时，要尽量减少对其它关键字搜索的影响。
考虑降低权重 对于某些没有意义的文档，考虑降低权重来为相对提升其它文档的搜索排位。

（四）合并索引

　　其代码形如：

        private static void mergeIndex(string sourcePath, string targetPath)
        {
            LN.Store.Directory sourceDir = LN.Store.FSDirectory.GetDirectory(sourcePath, false);
            LN.Store.Directory targetDir = LN.Store.FSDirectory.GetDirectory(targetPath, false);
            LN.Index.IndexWriter iw = new LN.Index.IndexWriter(targetPath, new PanGuAnalyzer(), false);
            iw.AddIndexes(new LN.Store.Directory[] { sourceDir });
            iw.Optimize();
            iw.Close();
        }

　　合并索引功能常用于将内存中的Directory合并到硬盘的Directory中。（通常我们使用这种方法来优化索引创建过程。）

（五）删除索引

　　IndexReader,IndexModifer,IndexWriter都提供了DeleteDocuements、DeleteDocument、DeleteAll方法常来删除索引。因为Document的编号会改变，使用一般不会持久化到数据库中，所以多数情况下会按指定的Term来删除索引。其代码形如：

        private static void delIndex(string dirPath, string key)
        {
            LN.Index.IndexWriter iw = new LN.Index.IndexWriter(dirPath, new PanGuAnalyzer(), false);
            iw.DeleteDocuments(new LN.Index.Term("Key", key));
　　　　　　　iw.Optimize();//删除文件后并非从磁盘中移除，而是生成一个.del的文件，需要调用Optimize方法来清除。在清除文件前可以使用UndeleteAll方法恢复（笔者未尝试）
            iw.Close();
        }

　　（需要注意的是，如果Field使用的是Index.NO，则表示不建立索引，当然也无法进行删除。）

（六）更新索引

　　更新索引时只允许更新整个Docuemnt，无法单独更新Docuemnt中的Field。其代码形如：

        private static void updateIndex(string path, string key, LN.Documents.Document doc)
        {
            LN.Index.IndexWriter iw = new LN.Index.IndexWriter(path, new PanGuAnalyzer(), false);
            iw.UpdateDocument(new LN.Index.Term("Key", key), doc);
            iw.Optimize();
            iw.Close();
        }

（七）优化索引

　　通过IndexWriter的Optimize方法优化索引，以加快搜索的速度，该方法提供多个重载，其执行相当耗时，应谨慎使用。优化产生的垃圾文件，在执行Flush/Commit/Close方法后才会被物理删除。Optimize方法及其重载包括：

Optimize() 合并段，完成后返回。
Optimize(bool doWait) 与Optimize()相同，但立即返回。
Optimize(int maxNumSegments) 针对最多maxNumSegments个段进行优化，而并非全部索引。
Optimize(int maxNumSegments, bool doWait) 与Optimize(int maxNumSegments)相同，但立即返回。

　　（优化索引实际就是在压缩索引文件，需要大约2倍索引大小的临时空间，且特别耗时。一种好的做法是把内存中的索引合并到应硬盘中。）

四搜索

（一）基本查询

        private static List<Item> search(string dirPath, string keywords)
        {
            List<Item> results = new List<Item>();

            LN.Search.IndexSearcher searcher = new LN.Search.IndexSearcher(dirPath);//初始化IndexSearcher

            LN.QueryParsers.MultiFieldQueryParser parser = new LN.QueryParsers.MultiFieldQueryParser(new string[] { "Title", "Summary" }, new PanGuAnalyzer());//初始化MultiFieldQueryParser以便同时查询多列

            LN.Search.Query query = parser.Parse(keywords);//初始化Query

            LN.Search.Hits hits = searcher.Search(query);//搜索

            //遍历结果集
            for (int i = 0; i < hits.Length(); i++)
            {
                LN.Documents.Document doc = hits.Doc(i);
                results.Add(new Item() { Title = doc.Get("Title"), Summary = doc.Get("Summary"), CreateTime = doc.Get("CreateTime"), Uri = doc.Get("Uri") });
            }
            searcher.Close();
            return results;
        }

　　以上代码显示了一个基本搜索的例子。搜索的基本过程包括：查询请求解析->搜索->获取匹配的结果集->提取所需数据。搜索主要做两件事情：首先，确定那些文档出现在结果集中；然后，为结果集中的文档打分，分高的排在前面。

　　Lucene.Net采用向量空间搜索模型，在向量空间中越接近的文档越相似。向量空间搜索模型比较复杂（详细内容可以参考维基百科），其大致影响因素包括：

与关键字在文档中出现的频率成正比
与权重成正比
与反转文档频率成正比 该值主要受文档总数和包含关键字的文档数量影响，与文档总数成正比，与包含关键字的文档总数成反比，即索引库中文档越多，包含此关键字的文档越少，反转文档频率越高。
与保有率成正比 保有率主要受到关键字在Fleld中出现的次数（词频）和Field的长度（Field包含的词数）影响，与词频成正比，与Field的长度成反比，即从越短的Field中搜索出越多的关键字，我们就认为保有率高。

（二）常用类型

IndexReader与IndexSearcher IndexReader能够读取索引，IndexSearcher是IndexReader的包装类型，负责搜索。
Query及其常用派生类 这组类型用于实现各类查询，常用类型的继承树如下：

QueryPaser及其常用派生类 该组类型用于分析用户的输入，并将其转换为Query实例，常用类型的继承树如下：

Sort与SortField Sort类型是负责对搜索结果进行排序，可以针对指定的一个或多个域进行排序。SortField用于指定列类型，常用的列类型如下：

Filter 这组类型实现对搜索的过滤。常用类型的继承树如下：

TermFregVector TermFregVector包含了指定文档的项和词频信息，当在索引期间存储项向量的时候，才能通过IndexReader检索出TermFregVector。
Hits Hits用于承载搜索的结果集。

（三）逻辑查询

　　查询同时包含多个Term的代码形如：

        private static List<Item> andTermSearch(string dirPath, string[] keywords)
        {
            List<Item> results = new List<Item>();

            LN.Search.IndexSearcher searcher = new LN.Search.IndexSearcher(dirPath);//初始化IndexSearcher

            LN.Search.BooleanQuery bq = new Lucene.Net.Search.BooleanQuery();

            foreach (var item in keywords)
            {
                LN.Index.Term term = new Lucene.Net.Index.Term("Title", item);
                LN.Search.TermQuery tq = new Lucene.Net.Search.TermQuery(term);
                bq.Add(tq, LN.Search.BooleanClause.Occur.MUST);
            }

            LN.Search.Hits hits = searcher.Search(bq);//搜索

            //遍历结果集
            for (int i = 0; i < hits.Length(); i++)
            {
                LN.Documents.Document doc = hits.Doc(i);
                results.Add(new Item() { Title = doc.Get("Title"), Summary = doc.Get("Summary"), CreateTime = doc.Get("CreateTime"), Uri = doc.Get("Uri") });
            }
            searcher.Close();
            return results;
        }

　　上述代码的核心是“bq.Add(tq, LN.Search.BooleanClause.Occur.MUST);”，Occur的取值及含义如下：

　　通过改变该值，实现“与”、“或”、“非”操作。“非”操作常常与全匹配查询联合使用，以达到查询不满足某个条件的结果。其代码形如：

LN.Search.MatchAllDocsQuery madq = new Lucene.Net.Search.MatchAllDocsQuery();//匹配所有文档
...
bq.Add(tq, LN.Search.BooleanClause.Occur.MUST_NOT);
bq.Add(madq, LN.Search.BooleanClause.Occur.MUST);
...

　　BooleanQuery的成员SetMinimumNumberShouldMatch(int min)，可以设置需要匹配上的条件的最小数量。

（四）复合查询

　　有2种方式实现复合查询，第一种方式是使用MultiFieldQueryParser，该方式已经在之前的代码中给出，还可以使用BooleanQuery，其代码形如：

        private static List<Item> search(string dirPath, string keywords)
        {
            List<Item> results = new List<Item>();

            LN.Search.IndexSearcher searcher = new LN.Search.IndexSearcher(dirPath);//初始化IndexSearcher

            LN.Search.BooleanQuery bq = new Lucene.Net.Search.BooleanQuery();

            LN.Search.Query qTitle = new Lucene.Net.Search.TermQuery(new Lucene.Net.Index.Term("Title", keywords));
            LN.Search.Query qSummary = new Lucene.Net.Search.TermQuery(new Lucene.Net.Index.Term("Summary", keywords));
            bq.Add(qTitle, LN.Search.BooleanClause.Occur.SHOULD);
            bq.Add(qSummary, LN.Search.BooleanClause.Occur.SHOULD);

            LN.Search.Hits hits = searcher.Search(bq);//搜索

            //遍历结果集
            for (int i = 0; i < hits.Length(); i++)
            {
                LN.Documents.Document doc = hits.Doc(i);
                results.Add(new Item() { Title = doc.Get("Title"), Summary = doc.Get("Summary"), CreateTime = doc.Get("CreateTime"), Uri = doc.Get("Uri") });
            }
            searcher.Close();
            return results;
        }

　　也可以使用如下形式：

        private static List<Item> search(string dirPath, string keywords)
        {
            List<Item> results = new List<Item>();
            PanGuAnalyzer analyzer = new PanGuAnalyzer();
            LN.Search.IndexSearcher searcher = new LN.Search.IndexSearcher(dirPath);//初始化IndexSearcher

            LN.Search.BooleanQuery bq = new Lucene.Net.Search.BooleanQuery();
            LN.QueryParsers.QueryParser qpTitle = new Lucene.Net.QueryParsers.QueryParser("Title", analyzer);
            LN.QueryParsers.QueryParser qpSummary = new Lucene.Net.QueryParsers.QueryParser("Summary", analyzer);

            LN.Search.Query qTitle = qpTitle.Parse(keywords);
            LN.Search.Query qSummary = qpSummary.Parse(keywords);

            bq.Add(qTitle, LN.Search.BooleanClause.Occur.SHOULD);
            bq.Add(qSummary, LN.Search.BooleanClause.Occur.SHOULD);

            LN.Search.Hits hits = searcher.Search(bq);//搜索

            //遍历结果集
            for (int i = 0; i < hits.Length(); i++)
            {
                LN.Documents.Document doc = hits.Doc(i);
                results.Add(new Item() { Title = doc.Get("Title"), Summary = doc.Get("Summary"), CreateTime = doc.Get("CreateTime"), Uri = doc.Get("Uri") });
            }
            searcher.Close();
            return results;
        }

（五）跨度查询

　　对以下内容分词“I come from Beijing.”应用WhitespaceAnalyzer的结果为：“I\come\from\Beijing.”，其跨度如下：

　　跨度查询的代码形如：

        private static List<Item> search(string dirPath, string keyword1,string keyword2)
        {
            List<Item> results = new List<Item>();
            Analyzer analyzer = new WhitespaceAnalyzer();
            LN.Search.IndexSearcher searcher = new LN.Search.IndexSearcher(dirPath);//初始化IndexSearcher

            LN.Search.Spans.SpanNearQuery snp = new Lucene.Net.Search.Spans.SpanNearQuery(new Lucene.Net.Search.Spans.SpanQuery[]{
                new LN.Search.Spans.SpanTermQuery(new Lucene.Net.Index.Term("Summary", keyword1)),//第一个关键字
                new LN.Search.Spans.SpanTermQuery(new Lucene.Net.Index.Term("Summary", keyword2))},//第二个关键字
                1,//1个跨度以内
                true);//有序
            LN.Search.Hits hits = searcher.Search(snp);//搜索

            //遍历结果集
            for (int i = 0; i < hits.Length(); i++)
            {
                LN.Documents.Document doc = hits.Doc(i);
                results.Add(new Item() { Title = doc.Get("Title"), Summary = doc.Get("Summary"), CreateTime = doc.Get("CreateTime"), Uri = doc.Get("Uri") });
            }
            searcher.Close();
            return results;
        }

　　更具上述代码，如果传入“I”,“Beijing.”，则无法查询到，因为我在上例中将最大跨度设置为1，而实际跨度为2。可见，利用跨度查询，可以帮助筛选部分查询结果，时候查询那些关系紧密的关键字。

　　从之前的类图可以看到，跨度查询还有几个常用派生类型，其功能如下：

SpanFirstQuery 限定只查询前面几个词。
SpanRegexQuery 支持正则表达式。
SpanNotQuery 包含必须满足的SpanQuery和必须排除的SpanQuery，例如查找包含“First”，但不包含“The”在前面的内容。
SpanOrQuery 并操作。

（六）通配符查找

　　WildcardQuery支持通配符搜索，其中“*”表示多个字符，“?”表示1个字符。其代码形如：WildcardQuery query = new WildcardQuery(new Lucene.Net.Index.Term("Summary", keyword));//keyword="?o*"。

（七）排序

　　Lucene.Net主要有两种方式来控制排序结果，包括使用Sort对象定制排序和影响相关度计算结果。

1 按单列排序

　　代码形如：

Sort sort = new Sort();
SortField sf = new SortField("CreateTime", SortField.STRING, true);//true表示逆序
sort.SetSort(sf);
Search.Hits hits = searcher.Search(query, sort);//搜索

2 按多列排序

　　代码形如：

Sort sort = new Sort();
SortField sf1 = new SortField("CreateTime", SortField.STRING, true);
SortField sf2 = new SortField("Title", SortField.SCORE, true);
sort.SetSort(new SortField[] { sf1, sf2 });
Search.Hits hits = searcher.Search(query, sort);//搜索

3 自定义排序

　　自定义排序功能，需要定义FieldComparatorSource的派生类型，还需要定义自己的比较器，要求其继承FieldComparator。然后重写FieldComparatorSource的NewComparator方法，并在其中返回自己定义的比较器实例。具体实例，可以参照Lucene.Net源码中的实现。

4 使用查询函数排序

　　查询函数将索引中的字符通过某个方法转变为数值，并作为评分来影响查询结果。

FieldScoreQuery fsq = new FieldScoreQuery("Uri", FieldScoreQuery.Type.INT);//将Uri列解释为Int
CustomScoreQuery csq = new CustomScoreQuery(query, fsq);//合并最初的查询分值与当前分值
TopDocs td = searcher.Search(csq, 10);//搜索
//遍历结果集
for (int i = 0; i < td.totalHits; i++)
{
　　LN.Documents.Document doc = searcher.Doc(td.scoreDocs[i].doc);
　　results.Add(new Item() { Title = doc.Get("Title"), Summary = doc.Get("Summary"), CreateTime = doc.Get("CreateTime"), Uri = doc.Get("Uri") });
}

　　可以定义自己的评分方法，具体用法可以参考FieldScoreQuery的源码。

5 设置权重

　　权重已在上文给出，不在赘述。

（八）过滤

　　使用Filter及其派生类完成对结果集的过滤，也可以定义自己的过滤器。使用过滤的代码形如：

RangeFilter filter = new RangeFilter("CreateTime", "19990101", "29991010", true, true);
Search.Hits hits = searcher.Search(query, filter,sort);//搜索

　　何时可以使用过滤：

根据不同的安全权限显示搜索结果，即查询某个范围内的数据时可以借助过滤器。
希望缓存结果时，可以使用支持缓存的过滤器。

五实践中的问题

　　本节之前的实例代码，仅针对Lucene.Net的使用进行了梳理，之前实例中的代码并不标准，在实际使用时还需要注意很多问题。本节将对这些问题进行探讨，以帮助读者开发高性能程序。

（一）缓存

　　Lucene.Net支持对查询（FieldCache）和排序结果（CachingWrapperFilter）进行缓存。每个IndexSearcher或者IndexReader都有自己的缓存，缓存的生命周期与IndexSearcher或者IndexReader的实例相同。CachingWrapperFilter针对每个Filter有一个缓存，除此之外还有其他支持缓存的筛选器。为了使缓存利用率最高，推荐使用单例模式来维护一个IndexSearcher实例。

（二）锁

　　Lucene.Net借助锁来应对并发问题。其索引访问原则如下：

在同一时刻，可以执行多个读操作（检索）。
在同一时刻，只能执行一个写操作（创建、优化、修改、删除）。
在执行写操作的同时可以同时执行多个读操作。

　　可见，在执行写操作时，索引文件会被加锁，以防止其他线程在同一时刻修改索引。加锁实际上是在索引目录下，产生一个锁文件，Lucene.Net一共有两种锁文件——commit.lock、write.lock。查询网上的一些资料发现两者的主要区别：

commit.lock主要与segment合并和读取的操作相关。例如，其出现在IndexWriter的初始化时，当segment的信息被读取完毕，它就会被释放。另外，当调用IndexWriter的AddIndexs()或MergeSegment()方法时，也会生成这个锁。

writer.lock出现在向索引添加文档时，或是将文档从索引中删除时。writer.lock会在IndexWriter被初始化时创建，然后会在调用IndexWriter的Close()方法时被释放。另外，会在IndexReader使用Delete方法删除文档时创建，并在调用IndexReader的Close()方法时被释放。

　　为了能够在出现异常时，得体得处理，最好报Close()放到finally快中。

　　注意，使用IndexModifier可以简化开发，IndexModifier对象封装了IndexWriter和IndexReader的常用操作，其内部实现了多线程同步锁定。使用 IndexModifier可避免同时使用 IndexWriter和IndexReader时需要在多个对象之间进行同步的麻烦。

（三）使用内存目录以及多线程查询器提高查询速度

　　对内存操作要比硬盘快的多，因此可以利用RAMDirectory来提高查询速度。设计思路为：在RAMDirectory中创建索引，查询时同时查询RAMDirectory与FSDirectory中的索引，并在合适的时候将RAMDirectory中的索引写入FSDirectory。

　　查询时使用ParallelMultiSearcher加快搜索速度。ParallelMultiSearcher为多线程版本的搜索器，查询内存与硬盘上的索引。

（四）总是设置权重

　　一般情况下，最好不要使用默认权重，原因很简单，标题中的关键字或者论文关键字栏目中的关键字，具有更高的价值，为了提高命中率，我们应该在创建索引时就有意地提高这些类型的权重。

主要参考文献：

　　《盘古分词使用手册》

　　《使用C#开发搜索引擎》

你可能感兴趣的:(Lucene)

【云原生】Docker 部署 Elasticsearch 9 操作详解逆风飞翔的小叔运维 Docker 部署es9 Docker部署es Docker搭建es9 Elasticsearch9 Docker搭建es
目录一、前言二、Elasticsearch9新特性介绍2.1基于Lucene10重大升级2.2BetterBinaryQuantization（BBQ）2.3ElasticDistributionsofOpenTelemetry（EDOT）2.4LLM可观测性2.5攻击发现与自动导入2.6ES|QL增强2.7语义检索三、基于Docker部署Elasticsearch93.1Elasticsearc
深度解析Lucene IndexWriter 性能优化微笑听雨。 java 进阶教程 lucene indexWriter 全文检索性能调优内存缓冲
深度解析LuceneIndexWriter性能优化目标：在大规模写入、频繁更新的场景下，既保持吞吐量，又兼顾搜索实时性与系统稳定性。关键调优点内存缓冲：将RAMBufferSizeMB提升至128–1024MB，减少flush次数；必要时配合maxBufferedDocs。合并策略：使用TieredMergePolicy，典型参数为maxMergeAtOnce4–8、segmentsPerTier
Spring Boot 集成 Elasticsearch（含 ElasticsearchRestTemplate 示例）超级小忍 SpringBoot spring boot elasticsearch
Elasticsearch是一个基于Lucene的分布式搜索服务器，具有高效的全文检索能力。在现代应用中，尤其是需要强大搜索功能的系统中，Elasticsearch被广泛使用。SpringBoot提供了对Elasticsearch的集成支持，使得开发者可以轻松地将Elasticsearch集成到SpringBoot应用中，实现高效的搜索、分析等功能。本文将详细介绍如何在SpringBoot中集成E
从源码角度了解Elasticsaerch(分布式协调排序、深分页问题)
引文Elasticsearch基于Lucene所以很多系统实现都在其中,所以可以先看看Lucene的实现:https://blog.csdn.net/qq_35040959/article/details/147931034项目组件不像Kafka这种顶级项目核心性能组件全自己实现,ELK中有很多引用至第三方开放库;网络模型-Netty网络模型多重要不必多说,Elasticsearch基于Netty
ELK在Java的使用 hqxstudying ELK java 日志 elasticsearch
在Java应用里运用ELK（Elasticsearch、Logstash、Kibana）技术栈，能够实现日志的集中化管理、高效搜索以及直观可视化。下面将从基础概念入手，逐步深入讲解其使用方法。一、基础概念ELK技术栈由三款开源工具构成：Elasticsearch：作为分布式搜索引擎，它基于Lucene开发，具备强大的全文检索和数据分析能力。Logstash：属于数据收集引擎，可对多源数据进行收集、
基于lucene的案例开发：实时索引管理类IndexManager
转载请注明出处：http://blog.csdn.net/xiaojimanman/article/details/44015983http://www.llwjy.com/blogdetail/5757ce8c007754704b563dd6a47ca1ca.html个人的博客小站也搭建成功，网址：www.llwjy.com，欢迎大家来吐槽~在前一篇博客中，对实时索引的实现原理做了一些简单的介绍
Elasticsearch 海量数据写入与高效文本检索实践指南 weixin_52755040 运维 es
Elasticsearch海量数据写入与高效文本检索实践指南一、引言在大数据时代，企业和组织面临着海量数据的存储与检索需求。Elasticsearch（以下简称ES）作为一款基于Lucene的分布式搜索和分析引擎，凭借其高可扩展性、实时搜索和分析能力，成为处理海量数据写入与文本检索的热门选择。本文将深入探讨如何在ES中实现海量数据的高效写入，并利用其强大的功能进行精准的文本检索，帮助开发者和技术人
solr教程，值得刚接触搜索开发人员一看 LarryHai6 IT-文档存储架构全文检索 lucene 企业搜索
Solr调研总结开发类型全文检索相关开发Solr版本4.2文件内容本文介绍solr的功能使用及相关注意事项;主要包括以下内容:环境搭建及调试;两个核心配置文件介绍;维护索引;查询索引,和在查询中可以应用的高亮显示、拼写检查、搜索建议、分组统计、拼音检索等功能的使用方法。版本作者/修改人日期V1.0gzk2013-06-041.Solr是什么？Solr它是一种开放源码的、基于LuceneJava的搜
ES分片（Shard）和副本（Replica）的作用？如何合理分配？搞不懂语言的程序员 elasticsearch 中间件 elasticsearch 大数据搜索引擎
ES分片和副本一、分片（Shard）的作用数据水平扩展将索引拆分为多个分片（默认5个），实现海量数据分布式存储和并行计算读写负载均衡每个分片作为独立的Lucene索引，支持并发读写操作，提升吞吐量故障隔离能力单个分片故障不会导致整个索引不可用，其他分片仍可继续提供服务二、副本（Replica）的作用数据高可用每个分片的副本（默认1个）存储在不同节点，主分片故障时副本自动升级为主分片读取性能提升副本
规则包含使用分词和JDK自带流式stream处理效率对比--分词lucene-word过滤与JDK的contains方法对比苦思冥想行则将至 word分词数据过滤 java过滤数据过滤数据效率 20万关键字处理
目录前言：1、lucene分词工具的使用2、分词word与JDK的stream流式过滤实现测试结果2.1通过包含20万条数据与否，进行效率对比2.2打印执行时间差，来实现效率对比3、一次性触发20万条数据执行进行Mysql记录执行结果，参数，耗时，入参4、数据库截图展示统计结果，JDK的效率更高一些前言：在数据过滤以及处理的过程中，会用到分词工具对于大文本的信息内容进行处理，作为java开发，经常
Springboot基于ElasticSearch全文搜索引擎策略实现 LQzhang_11 JAVA 缓存 Spring 搜索引擎 spring boot elasticsearch
一、ElasticSearch概念简介ElasticSearch是一个基于Lucene的开源搜索引擎，具有分布式、多租户能力的全文搜索引擎。ElasticSearch的设计目标是实现分布式、可扩展和速度快的搜索架构，使得用户在数据量较大的情况下依然能够快速高效地对数据进行搜索和分析。ElasticSearch使用RESTfulAPI进行操作，支持结构化、非结构化数据的索引和搜索，适合用来解决大量数
基于Elasticsearch的搜索引擎简介 weixin_47233946 编程搜索引擎 elasticsearch 大数据
##一、Elasticsearch简介Elasticsearch（简称ES）是一个开源的、分布式、RESTful风格的搜索和数据分析引擎，基于ApacheLucene开发。它能够实现对海量结构化和非结构化数据的实时存储、搜索和分析，广泛应用于全文检索、日志分析、数据可视化等场景。##二、核心原理Elasticsearch以文档为核心，每条数据都以JSON格式存储。其底层采用倒排索引（Inverte
Elasticsearch 方法论 catkin_ws 数据库
人工智能、大数据快速发展的今天，对于TB甚至PB级大数据的快速检索已然成为刚需。Elasticsearch作为开源领域的后起之秀，从2010年至今得到飞跃式的发展。Elasticsearch以其开源、分布式、RESTFulAPI三大优势，已经成为当下风口中“会飞的猪”。阿里云2018年2月5日已开价50-200W年薪招聘技术人员参与Elasticsearch、Lucene内核优化、改进。如果说，你
69道Elasticsearch高频题整理(附答案背诵版) Zeyhra elasticsearch jenkins 大数据
简述什么是Elasticsearch？参考回答Elasticsearch是一个基于分布式架构的开源搜索引擎，使用全文检索引擎ApacheLucene作为底层技术实现。它能够提供强大的搜索、数据存储和分析功能，适用于海量数据的实时搜索和分析场景。Elasticsearch的核心特点全文检索：提供强大的全文检索能力，支持模糊搜索、前缀搜索、短语搜索等多种高级搜索功能。分布式架构：支持水平扩展，数据分布
面试专区|【69道Elasticsearch高频题整理(附答案背诵版)】尺小闹面试 elasticsearch 职场和发展
简述什么是Elasticsearch？Elasticsearch是一个基于Lucene的搜索服务器，它提供了一个分布式、多用户能力的全文搜索引擎，基于RESTfulweb接口。Elasticsearch是用Java语言开发的，并作为Apache许可条款下的开放源码发布，是一种流行的企业级搜索引擎。它用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。官方客户端在Java、.NET（C#
ElasticSearch的基本概念：索引类型文档和映射 AI天才研究院计算 AI大模型应用入门实战与进阶大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA 计算 AI大模型应用
1.背景介绍ElasticSearch是一个基于Lucene的分布式搜索引擎，它提供了一个简单易用的RESTfulAPI，可以快速地进行全文搜索、结构化搜索、分析和聚合等操作。在ElasticSearch中，最基本的概念包括索引、类型、文档和映射。本文将详细介绍这些概念的含义和联系，以及它们在ElasticSearch中的具体实现和应用。2.核心概念与联系2.1索引索引是ElasticSearch
ElasticSearch 2.x入门与快速实践爱美有喜技术漫谈 elasticsearch 分布式搜索引擎索引
IntroductionElasticSearch是一个基于ApacheLucene(TM)的开源搜索引擎。无论在开源还是专有领域，Lucene可以被认为是迄今为止最先进、性能最好的、功能最全的搜索引擎库。但是，Lucene只是一个库。想要使用它，你必须使用Java来作为开发语言并将其直接集成到你的应用中，更糟糕的是，Lucene非常复杂，你需要深入了解检索的相关知识来理解它是如何工作的。Elas
ElasticSearch es 插件开发 2501_90252573 elasticsearch 大数据搜索引擎
PythonLanguageSecurityPlugins安全插件扩展es的安全策略，比如控制api的访问权限等优秀插件代表：X-PackSnapshot/RestoreRepositoryPlugins快照/还原存储库插件扩展es的快照和恢复功能StorePlugins存储插件扩展es的存储方式，es默认使用的是Lucene存储数据的优秀插件代表：StoreSMBWindowsSMB2.插件开发
Elasticsearch 快速入门指南 Luck_ff0810 开发工具 Java elasticsearch elasticsearch 大数据搜索引擎
1.Elasticsearch简介Elasticsearch是一个基于Lucene的开源分布式搜索和分析引擎，由Elastic公司开发。它具有以下特点：分布式：可以轻松扩展到数百台服务器，处理PB级数据实时性：数据一旦被索引，立即可被搜索全文检索：强大的全文搜索能力RESTfulAPI：提供简单易用的JSON风格API多功能：不仅是搜索引擎，还是强大的分析引擎2.核心概念在深入Elasticsea
Elasticsearch 最全调优，最佳实践（二）蒋厚施 elasticsearch 大数据搜索引擎
接着上一篇Elasticsearch最全调优，最佳实践（一）15、在Elasticsearch中，是怎么根据一个词找到对应的倒排索引的？Lucene的索引过程，就是按照全文检索的基本过程，将倒排表写成此文件格式的过程。Lucene的搜索过程，就是按照此文件格式将索引进去的信息读出来，然后计算每篇文档打分(score)的过程。16、Elasticsearch在部署时，对Linux的设置有哪些优化方法
elasticsearch-7.3.1集群搭建 jiedaodezhuti elasticsearch elasticsearch
1、es介绍ElasticSearch是一个基于Lucene的搜索服务器。提供了分布式多用户的全文搜索引擎，用Java语言开发的，Apache许可条款下的开放源码发布，是一种流行的企业级搜索引擎。包含如下特性：分布式高可用搜索引擎：每个索引都可以配置分片的数量。每个分片都有一个或多个副本且分片都支持读写多租户：支持多个索引以及索引级配置，如碎片数、索引存储等。提供各种API：包括HTTPRestf
Elasticsearch相关面试题真实的菜 es elasticsearch
概念理解类1.请简要阐述Elasticsearch为何被定义为基于Lucene的Restful分布式实时全文搜索引擎？1.基于Lucene底层引擎：ES的核心搜索能力依赖于ApacheLucene库。Lucene是一个高性能、功能强大的全文检索工具包，提供了倒排索引、分词、评分机制等核心搜索功能。扩展封装：ES在Lucene基础上进行了分布式和高可用性封装，简化了Lucene的复杂API，使其更易
16款开源的全文搜索引擎 (1) 码农x马马开源搜索引擎 web安全安全 ddos 游戏网络
全文搜索引擎就是通过从互联网上提取的各个网站的信息（以网页文字为主）而建立的数据库中，检索与用户查询条件匹配的相关记录，然后按一定的排列顺序将结果返回给用户。1、ApacheLuceneJava全文搜索框架许可证：Apache-2.0开发语言：Java官网：https://lucene.apache.org/ApacheLucene是完全用Java编写的高性能、功能齐全的全文检索引擎架构，提供了完
Lucene多种数据类型使用说明学会了没 lucene mybatis java
Lucene作为一款高性能的全文检索引擎库，其核心功能围绕索引和搜索文本数据，但它也支持多种数据类型以满足复杂的应用场景。以下是Lucene支持的主要数据类型及其用途的详细说明：1.文本类型（Text）用途：全文搜索、分词处理。特点：分词（Tokenization）：文本字段会被分词器（如StandardAnalyzer）拆分为词项（Term），便于模糊匹配、短语查询等。存储形式：通常使用Text
基于Docker的Elasticsearch ARM64架构镜像构建实践小盒子_spring 字节与烟火 docker elasticsearch 架构
一、前言Elasticsearch(以下简称为ES)是一个分布式的免费开源搜索和分析引擎，适用于包括文本、数字、地理空间、结构化和非结构化数据等在内的所有类型的数据。Elasticsearch在ApacheLucene的基础上开发而成，由ElasticsearchN.V.（即现在的Elastic）于2010年首次发布。Elasticsearch以其简单的REST风格API、分布式特性、速度和可扩展
Elasticsearch、Solr、Lucene 深度对比：架构解析、性能实战与选型指南 danny-IT技术博客 lucene elasticsearch solr java 后端 spring boot
文章目录Elasticsearch、Solr、Lucene深度对比：架构解析、性能实战与选型指南一、内核级技术对比：从架构到原理1.1核心架构差异图解（1）Lucene单机索引流程（2）Solr集群架构（3）Elasticsearch分布式架构1.2索引机制深度解析（1）Lucene段合并策略（2）Elasticsearch实时写入流程二、性能压测：百万级数据实战2.1测试环境配置2.2索引性能对
开放域问答的密集段落检索(以密集检索的角度解决 QA 问题) 多吃轻食深度解析：RAG与大模型检索机器学习自然语言处理深度学习人工智能 QA
开放域问答的密集段落检索摘要开放域问答依赖于有效的段落检索去选择候选内容，传统的稀疏向量空间模型，比如TF-IDF恶和BM25，确实是一个方法。在这项工作中，我们证明了检索实际上可以单独使用密集表示来实现，其中嵌入是通过一个简单的双编码器框架从少量的问题和段落中学习到的。在广泛的开放域QA数据集上进行评估时，我们的密集检索器在前20个段落检索准确率方面的绝对性能大大超过强大的Lucene-BM25
【工具】Elasticsearch：强大的开源搜索与分析引擎 RumIV 工具 elasticsearch 开源大数据
什么是Elasticsearch？Elasticsearch是一个开源的分布式搜索和分析引擎，基于ApacheLucene构建。它能够近乎实时地存储、搜索和分析大量数据。最初由ShayBanon开发并于2010年发布，Elasticsearch如今已成为最受欢迎的企业搜索引擎之一。核心特性1.分布式架构Elasticsearch采用分布式设计，可以轻松扩展到数百甚至数千台服务器，处理PB级的数据。
springboot集成Lucene详细使用搬砖牛马人 spring boot lucene mybatis
以下是SpringBoot集成Lucene的详细步骤：添加依赖在SpringBoot项目的pom.xml文件中添加Lucene的依赖，常用的核心依赖和中文分词器依赖如下：org.apache.lucenelucene-core8.11.0org.apache.lucenelucene-analyzers-common8.11.0org.wlteaik-analyzer20200623创建配置类创建
在 Ubuntu 环境为 Elasticsearch 引入 `icu_tokenizer Hello.Reader 搜索引擎 ubuntu elasticsearch jenkins
1.为什么需要ICU分析插件Elasticsearch默认的standardtokenizer遵循UAX#29规则，但在CJK（中、日、韩）等亚洲语言上仅能按字符切分，无法识别词边界；对包含重音符号、大小写或多脚本混排的文本也缺乏统一归一化能力。ICU（InternationalComponentsforUnicode）项目提供了高质量的Unicode处理库，Lucene把它封装为analysis
Nginx负载均衡 510888780 nginx 应用服务器
Nginx负载均衡一些基础知识: nginx 的 upstream目前支持 4 种方式的分配 1)、轮询（默认）每个请求按时间顺序逐一分配到不同的后端服务器，如果后端服务器down掉，能自动剔除。 2)、weight 指定轮询几率，weight和访问比率成正比
RedHat 6.4 安装 rabbitmq bylijinnan erlang rabbitmq redhat
在 linux 下安装软件就是折腾，首先是测试机不能上外网要找运维开通，开通后发现测试机的 yum 不能使用于是又要配置 yum 源，最后安装 rabbitmq 时也尝试了两种方法最后才安装成功机器版本： [root@redhat1 rabbitmq]# lsb_release LSB Version: :base-4.0-amd64:base-4.0-noarch:core
FilenameUtils工具类 eksliang FilenameUtils common-io
转载请出自出处：http://eksliang.iteye.com/blog/2217081 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
xml文件解析SAX 不懂事的小屁孩 xml
xml文件解析:xml文件解析有四种方式， 1.DOM生成和解析XML文档(SAX是基于事件流的解析) 2.SAX生成和解析XML文档(基于XML文档树结构的解析) 3.DOM4J生成和解析XML文档 4.JDOM生成和解析XML 本文章用第一种方法进行解析，使用android常用的DefaultHandler import org.xml.sax.Attributes;
通过定时任务执行mysql的定期删除和新建分区，此处是按日分区酷的飞上天空 mysql
使用python脚本作为命令脚本，linux的定时任务来每天定时执行 #!/usr/bin/python # -*- coding: utf8 -*- import pymysql import datetime import calendar #要分区的表 table_name = 'my_table' #连接数据库的信息 host,user,passwd,db =
如何搭建数据湖架构？听听专家的意见蓝儿唯美架构
Edo Interactive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据 “我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁Tim Garnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数
spring学习——控制反转与依赖注入 a-john spring
控制反转（Inversion of Control，英文缩写为IoC）是一个重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。控制反转一般分为两种类型，依赖注入（Dependency Injection，简称DI）和依赖查找（Dependency Lookup）。依赖注入应用比较广泛。
用spool+unixshell生成文本文件的方法 aijuans xshell
例如我们把scott.dept表生成文本文件的语句写成dept.sql,内容如下: 　　set pages 50000; 　　set lines 200; 　　set trims on; 　　set heading off; 　　spool /oracle_backup/log/test/dept.lst; 　　select deptno||','||dname||','||loc
1、基础--名词解析(OOA/OOD/OOP) asia007 学习基础知识
OOA:Object-Oriented Analysis（面向对象分析方法）是在一个系统的开发过程中进行了系统业务调查以后，按照面向对象的思想来分析问题。OOA与结构化分析有较大的区别。OOA所强调的是在系统调查资料的基础上，针对OO方法所需要的素材进行的归类分析和整理，而不是对管理业务现状和方法的分析。　　OOA（面向对象的分析）模型由5个层次（主题层、对象类层、结构层、属性层和服务层）
浅谈java转成json编码格式技术百合不是茶 json编码 java转成json编码
json编码;是一个轻量级的数据存储和传输的语言在java中需要引入json相关的包,引包方式在工程的lib下就可以了 JSON与JAVA数据的转换（JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 之间的数据的交
web.xml之Spring配置(基于Spring+Struts+Ibatis) bijian1013 java web.xml SSI spring配置
指定Spring配置文件位置 <context-param> <param-name>contextConfigLocation</param-name> <param-value> /WEB-INF/spring-dao-bean.xml,/WEB-INF/spring-resources.xml, /WEB-INF/
Installing SonarQube（Fail to download libraries from server） sunjing Install Sonar
1. Download and unzip the SonarQube distribution 2. Starting the Web Server The default port is "9000" and the context path is "/". These values can be changed in &l
【MongoDB学习笔记十一】Mongo副本集基本的增删查 bit1129 mongodb
一、创建复本集假设mongod,mongo已经配置在系统路径变量上，启动三个命令行窗口，分别执行如下命令： mongod --port 27017 --dbpath data1 --replSet rs0 mongod --port 27018 --dbpath data2 --replSet rs0 mongod --port 27019 -
Anychart图表系列二之执行Flash和HTML5渲染白糖_ Flash
今天介绍Anychart的Flash和HTML5渲染功能 HTML5 Anychart从6.0第一个版本起，已经逐渐开始支持各种图的HTML5渲染效果了，也就是说即使你没有安装Flash插件，只要浏览器支持HTML5，也能看到Anychart的图形（不过这些是需要做一些配置的）。这里要提醒下大家，Anychart6.0版本对HTML5的支持还不算很成熟，目前还处于
Laravel版本更新异常4.2.8-> 4.2.9 Declaration of ... CompilerEngine ... should be compa bozch laravel
昨天在为了把laravel升级到最新的版本，突然之间就出现了如下错误： ErrorException thrown with message "Declaration of Illuminate\View\Engines\CompilerEngine::handleViewException() should be compatible with Illuminate\View\Eng
编程之美-NIM游戏分析-石头总数为奇数时如何保证先动手者必胜 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class Nim { /**编程之美 NIM游戏分析问题：有N块石头和两个玩家A和B，玩家A先将石头随机分成若干堆，然后按照BABA...的顺序不断轮流取石头，能将剩下的石头一次取光的玩家获胜，每次取石头时，每个玩家只能从若干堆石头中任选一堆，
lunce创建索引及简单查询 chengxuyuancsdn 查询创建索引 lunce
import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Docume
[IT与投资]坚持独立自主的研究核心技术 comsci it
和别人合作开发某项产品....如果互相之间的技术水平不同,那么这种合作很难进行,一般都会成为强者控制弱者的方法和手段..... 所以弱者,在遇到技术难题的时候,最好不要一开始就去寻求强者的帮助,因为在我们这颗星球上,生物都有一种控制其
flashback transaction闪回事务查询 daizj oracle sql 闪回事务
闪回事务查询有别于闪回查询的特点有以下3个：（1）其正常工作不但需要利用撤销数据，还需要事先启用最小补充日志。（2）返回的结果不是以前的“旧”数据，而是能够将当前数据修改为以前的样子的撤销SQL（Undo SQL）语句。（3）集中地在名为flashback_transaction_query表上查询，而不是在各个表上通过“as of”或“vers
Java I/O之FilenameFilter类列举出指定路径下某个扩展名的文件游其是你 FilenameFilter
这是一个FilenameFilter类用法的例子，实现的列举出“c:\\folder“路径下所有以“.jpg”扩展名的文件。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
C语言学习五函数，函数的前置声明以及如何在软件开发中合理的设计函数来解决实际问题 dcj3sjt126com c
# include <stdio.h> int f(void) //括号中的void表示该函数不能接受数据，int表示返回的类型为int类型 { return 10; //向主调函数返回10 } void g(void) //函数名前面的void表示该函数没有返回值 { //return 10; //error 与第8行行首的void相矛盾 } in
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Pl dcj3sjt126com centos
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again 处理很简单，修改文件“/etc/yum.repos.d/epel.repo”，将baseurl的注释取消， mirrorlist注释掉。即可。 &n
单例模式 shuizhaosi888 单例模式
单例模式懒汉式 public class RunMain { /** * 私有构造 */ private RunMain() { } /** * 内部类，用于占位，只有 */ private static class SingletonRunMain { priv
Spring Security（09）——Filter 234390216 Spring Security
Filter 目录 1.1 Filter顺序 1.2 添加Filter到FilterChain 1.3 DelegatingFilterProxy 1.4 FilterChainProxy 1.5
公司项目NODEJS实践0.1 逐行分析JS源代码 mongodb nginx ubuntu nodejs
一、前言前端如何独立用nodeJs实现一个简单的注册、登录功能，是不是只用nodejs+sql就可以了？其实是可以实现，但离实际应用还有距离，那要怎么做才是实际可用的。网上有很多nod
java.lang.Math liuhaibo_ljf java Math lang
System.out.println(Math.PI); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1)); System.out.println(Math.abs(111111111)); System.out.println(Mat
linux下时间同步 nonobaba ntp
今天在linux下做hbase集群的时候，发现hmaster启动成功了，但是用hbase命令进入shell的时候报了一个错误 PleaseHoldException: Master is initializing，查看了日志，大致意思是说master和slave时间不同步，没办法，只好找一种手动同步一下，后来发现一共部署了10来台机器，手动同步偏差又比较大，所以还是从网上找现成的解决方
ZooKeeper3.4.6的集群部署 roadrunners zookeeper 集群部署
ZooKeeper是Apache的一个开源项目，在分布式服务中应用比较广泛。它主要用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步、集群管理、配置文件管理、同步锁、队列等。这里主要讲集群中ZooKeeper的部署。 1、准备工作我们准备3台机器做ZooKeeper集群，分别在3台机器上创建ZooKeeper需要的目录。数据存储目录
Java高效读取大文件 tomcat_oracle java
　　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：　　Files.readLines(new File(path), Charsets.UTF_8); 　　FileUtils.readLines(new File(path)); 　　这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致
微信支付api返回的xml转换为Map的方法 xu3508620 xml map 微信api
举例如下： <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><