MeteorSeed

使用Lucene.Net实现全文检索

一 Lucene.Net概述

二分词

三索引

四搜索

五实践中的问题

一 Lucene.Net概述

　　Lucene.Net是一个C#开发的开源全文索引库，其源码包括“核心”与“外围”两部分。外围部分实现辅助功能，而核心部分包括：

Lucene.Net.Index 提供索引管理，词组排序。
Lucene.Net.Search 提供查询相关功能。
Lucene.Net.Store 支持数据存储管理，主要包括I/O操作。
Lucene.Net.Util 公共类。
Lucene.Net.Documents 负责描述索引存储时的文件结构管理。
Lucene.Net.QueryParsers 提供查询语法。
Lucene.Net.Analysis 负责分析文本。

　　全文检索流程如下：

　　一个简单的全文检索实例：

　　创建索引：

　　关键代码形如：

        static void createIndex(string title, string content)
        {
            LN.Analysis.Analyzer analyzer = new LN.Analysis.Standard.StandardAnalyzer();
            LN.Index.IndexWriter iw = new LN.Index.IndexWriter("Index", analyzer, false);
            LN.Documents.Document document = new LN.Documents.Document();
            document.Add(new LN.Documents.Field("title", title, LN.Documents.Field.Store.YES, LN.Documents.Field.Index.TOKENIZED));
            document.Add(new LN.Documents.Field("content", content, LN.Documents.Field.Store.YES, LN.Documents.Field.Index.TOKENIZED));
            iw.AddDocument(document);
            iw.Optimize();
            iw.Close();
        }

　　查询：

　　关键代码形如：

　　　　 static List search(string keyWord)
        {
            List results = new List();
            LN.Analysis.Analyzer analyzer = new LN.Analysis.Standard.StandardAnalyzer();
            LN.Search.IndexSearcher searcher = new LN.Search.IndexSearcher("Index");
            LN.QueryParsers.MultiFieldQueryParser parser = new LN.QueryParsers.MultiFieldQueryParser(new string[] { "title", "content" }, analyzer);
            LN.Search.Query query = parser.Parse(keyWord);
            LN.Search.Hits hits = searcher.Search(query);
            for (int i = 0; i < hits.Length(); i++)
            {
                LN.Documents.Document doc = hits.Doc(i);
                results.Add(new Item() { Title = doc.Get("title"), Content = doc.Get("content") });
            }
            searcher.Close();
            return results;
        }

二分词

（一）内置分词器

　　分词（切词）是实现全文检索的基础，之所以我们能够让机器理解我们的自然语言，是因为有了分词的帮助。分词工作由Analyzer类完成，它负责把文本切成Token序列，Token就是索引中的单词。Lucene.Net在两个地方用到分词：创建文档索引和分析搜索关键字。其过程示意如下：

　　由此可知，在创建索引和搜索时，必须使用同样的分词器，保证其切出相同的Token才能检索到结果。（Lucene.Net把查询关键字中的单词叫做“Term”，Term和Token的文本是一样的，只是某些属性不一样。）

　　Lucene.Net实现了一些分词器，其对英文支持较好，但是对中文支持欠佳。

　　针对内置分词器测试结果如下：

　　关键代码形如：

        private static List cutWords(string words, Analyzer analyzer)
        {
            List results = new List();
            TokenStream ts = analyzer.ReusableTokenStream("", new StringReader(words));
            Token token;
            while ((token = ts.Next()) != null)
            {
                results.Add(token.TermText());
            }
            ts.Close();
            return results;
        }

　　可见，除了StandardAnalyzer外，其它分词器对中文基本无法处理，需要用户自行解决。

（二）分词过程

　　分词实际是由以下类型完成：

　　查看WhitespaceAnalyzer的部分源码如下：

　　 public sealed class WhitespaceAnalyzer:Analyzer
    {
        public override TokenStream TokenStream(System.String fieldName, System.IO.TextReader reader)
        {
            return new WhitespaceTokenizer(reader);
        }
　　　　 ...
    }

　　由此可见，WhitespaceAnalyzer的工作都是交给WhitespaceTokenizer来完成的，并且没有使用筛选器，这也与之前测试的结果相符。我们可以利用TokenStream的派生类型来实现自定义分词器。例如修改上述代码来得到一个新的分词器，功能类似WhitespaceAnalyzer，不同的是将大写字母变为小写，其代码形如：

    public sealed class NewWhitespaceAnalyzer:Analyzer
    {
        public override TokenStream TokenStream(System.String fieldName, System.IO.TextReader reader)
        {
            TokenStream ts = new WhitespaceTokenizer(reader);
            return new LowerCaseFilter(ts);
        }
　　　　 ...
    }

（三）中文分词

　　显然，用户可以自定义分词器，来实现中文分词。但是，大多数用户不熟悉中文分词算法，同时也没有时间和精力来实现自定义分词，毕竟分词并不是我们系统的核心功能。因此，笔者引用了另一个中文分词组件——盘古分词。测试结果如下：

　　盘古分词使用步骤如下：

Setp 1：添加相关程序集引用

　　这里需要添加2个程序集，PanGu.dll（盘古分词的核心组件）和PanGu.Lucene.Analyzer.dll（盘古分词的Lucene组件）。

Step 2：添加中文分词库

Step 3：添加并设置配置文件

Step 4：在Lucene.Net使用盘古分词

　　PanGu.Lucene.Analyzer.dll中定义了Analyzer的派生类型Lucene.Net.Analysis.PanGu.PanGuAnalyzer，与Tokenizer的派生类Lucene.Net.Analysis.PanGu.PanGuTokenizer，语法与Lucene.Net内置分词器相同。

Step 5：维护分词库

　　使用DictManage.exe管理和维护词库：

三索引

（一）索引的存储结构

　　为了方便索引大量文档，Lucene.Net中的一个索引包括多个子索引，叫做Segment（段）。每个Segment包括多个可搜索的文档，叫做Document；每个Document包括多个Field；每个Field又包括多个Term。综上所述，Lucene.Net的索引文件的逻辑结构如下：

　　索引文件的物理表示如下：

　　Lucene.Net把一个文档写入索引时，首先生成这个文档的到排索引，然后再把文档的倒排索引合并到段的倒排索引中。

（二）常用类型

Directory Lucene.Net的Directory类型实现索引的存储。常用类型继承树如下：

IndexWriter 负责将索引写入Directory。Lucene通过设置缓存来提供写索引的速度，IndexWriter有几个参数来调整缓存的大小，控制Segment的数量，以及写索引的频率：

1. 合并因子（mergeFactor） 这个参数决定一个索引块中可以存放多少文档（Document）以及把磁盘上的索引段（Segment）合并成一个大索引段的频率。该参数默认值为10。在默认情况下，缓存中Document数达到10时，所有的文档将写入一个新的Segment。并且，如果Directory的Segment的个数达到10，这10个索引块会被合并成一个新的Segment。对于大量文档来说，这个值大一些会更好。可以通过“SetMergeFactor(int mergeFactor)”方法来设置、
2. 最小合并文档数（minMergeDocs）、最大缓存文档数（maxBufferedDocs） 默认值为10，它决定缓存中Document数量达到多少才能将他们写入磁盘。该值越大越消耗内存，I/O操作越少。（本处，笔者也有些糊涂，笔者感觉两者类似，不知道具体区别，若理解有误还请读者赐教。）
3. 最大合并文档数（maxMergeDocs） 默认值为Integer.MAX_VALUE，它决定一个索引段（Segment）中的最大文档（Document）数。该值越大越高效，因为默认值以及很大了所以不用改变。
4. 最大域长度（maxFieldLength） 默认值10000，表示截取该域中的前10000个Term，前10000个以外的Term将不被索引和检索。该值可在索引中随时更改，并即时生效（仅对之后的操作生效，一般该值设置为Integer.MAX_VALUE）。

　　　　IndexWriter的常用方法包括：

1. Flush/Commit Flush方法与Commit方法相同，都是把缓存中的数据提交，可以清除缓存。
2. Close 无论是否发生异常都必须调用Close方法，该方法将对文件进行解锁，并完成Flush方法的功能。
3. Optimize Optimize方法用于优化索引，执行相当耗时。

Document 包含了可索引文档的信息。每个Document都有一个编号，但该编号并非永远不变。
Field 类似实体的某个属性，就像数据库中的一个列，其成员如下：

　　（可以看到，Index的某些字段我给出的相同的注释，这是因为向下兼容的目的而具有相同的作用。注：高亮显示将用的TermVector。）

　　常用列选项组合及用法如下：

Index	Store	TermVector	用法
NOT_ANSLYZED	YES	NO	文件名、主键
ANSLYZED	YES	WITH_POSITUION_OFFSETS	标题、摘要
ANSLYZED	NO	WITH_POSITUION_OFFSETS	很长的全文
NO	YES	NO	文档类型
NOT_ANSLYZED	NO	NO	隐藏的关键词

（三）创建索引

　　创建索引流程如下：

1 基本实现

　　其代码形如：

    　　 private static void saveIndex(string dirPath, string uri, string title, string summary)
        {
            //判断是创建索引还是追加索引
            bool isNew = false;
            if (!LN.Index.IndexReader.IndexExists(dirPath))
            {
                isNew = true;
            }

            LN.Index.IndexWriter iw = new LN.Index.IndexWriter(dirPath, new PanGuAnalyzer(), isNew);//使用PanGuAnalyzer初始化IndexWriter，参数create为true表示创建，为false表示添加。

            LN.Documents.Document document = new LN.Documents.Document();//创建Document

            //添加Field
            document.Add(new LN.Documents.Field("Uri", uri, LN.Documents.Field.Store.YES, LN.Documents.Field.Index.NO));
            document.Add(new LN.Documents.Field("Title", title, LN.Documents.Field.Store.YES, LN.Documents.Field.Index.ANALYZED));
            document.Add(new LN.Documents.Field("CreateTime", DateTime.Now.ToString("yyyy-MM-dd"), LN.Documents.Field.Store.YES, LN.Documents.Field.Index.NOT_ANALYZED));
            document.Add(new LN.Documents.Field("Summary", summary, LN.Documents.Field.Store.YES, LN.Documents.Field.Index.ANALYZED));

            iw.AddDocument(document);//向索引添加文档

            iw.Optimize();//优化索引

            iw.Close();//关闭索引
        }

2 权重Boost

　　默认情况下，搜索结果以Document.Score作为排序依据，该数值越大排名越靠前。Score与Boost成正比，满分是1，如果某的Document的Score为1，其它文档将根据该文档进行评分，因此不会同时存在多个同时为1的情况。从公式也可看出，Boost不能为0，Boost=0则Score为0。在类型Lucene.Net.Search.Hits这定义了Score(int)方法，能够获取评分。

　　Boost的默认值为1，通过改变权重我们可以影响查询结果。其代码形如：

　　“document.SetBoost(2F);”改变Document的权重，将影响所有Field的搜索得分。

　　“document.GetField("FieldName").SetBoost(2F);”只改变某个Field的权重。

　　boost的数值存储在Norms中，因此要注意Index的设置，设置NO_NORMS将节省索引空间，但是将不支持权重。

　　权重的调整建议：

标题权重一般比内容高 标题更能够非常准确地描述文档的内容，而且长度比较短，提高权重不会造成严重的影响。
不要把包含大量索引的文档的权重设置过高 文档中能索引的词越多，对搜索的影响越大，例如在搜索如“好的”这样常用的词汇时，这篇文章也将位列榜首，但并不是我们需要的。
如果能靠设置Field的权重来解决，就不要设置Document的权重 原因与上面的类似，当我们要改变某些关键字的搜索结果时，要尽量减少对其它关键字搜索的影响。
考虑降低权重 对于某些没有意义的文档，考虑降低权重来为相对提升其它文档的搜索排位。

（四）合并索引

　　其代码形如：

        private static void mergeIndex(string sourcePath, string targetPath)
        {
            LN.Store.Directory sourceDir = LN.Store.FSDirectory.GetDirectory(sourcePath, false);
            LN.Store.Directory targetDir = LN.Store.FSDirectory.GetDirectory(targetPath, false);
            LN.Index.IndexWriter iw = new LN.Index.IndexWriter(targetPath, new PanGuAnalyzer(), false);
            iw.AddIndexes(new LN.Store.Directory[] { sourceDir });
            iw.Optimize();
            iw.Close();
        }

　　合并索引功能常用于将内存中的Directory合并到硬盘的Directory中。（通常我们使用这种方法来优化索引创建过程。）

（五）删除索引

　　IndexReader,IndexModifer,IndexWriter都提供了DeleteDocuements、DeleteDocument、DeleteAll方法常来删除索引。因为Document的编号会改变，使用一般不会持久化到数据库中，所以多数情况下会按指定的Term来删除索引。其代码形如：

        private static void delIndex(string dirPath, string key)
        {
            LN.Index.IndexWriter iw = new LN.Index.IndexWriter(dirPath, new PanGuAnalyzer(), false);
            iw.DeleteDocuments(new LN.Index.Term("Key", key));
　　　　　　　iw.Optimize();//删除文件后并非从磁盘中移除，而是生成一个.del的文件，需要调用Optimize方法来清除。在清除文件前可以使用UndeleteAll方法恢复（笔者未尝试）
            iw.Close();
        }

　　（需要注意的是，如果Field使用的是Index.NO，则表示不建立索引，当然也无法进行删除。）

（六）更新索引

　　更新索引时只允许更新整个Docuemnt，无法单独更新Docuemnt中的Field。其代码形如：

        private static void updateIndex(string path, string key, LN.Documents.Document doc)
        {
            LN.Index.IndexWriter iw = new LN.Index.IndexWriter(path, new PanGuAnalyzer(), false);
            iw.UpdateDocument(new LN.Index.Term("Key", key), doc);
            iw.Optimize();
            iw.Close();
        }

（七）优化索引

　　通过IndexWriter的Optimize方法优化索引，以加快搜索的速度，该方法提供多个重载，其执行相当耗时，应谨慎使用。优化产生的垃圾文件，在执行Flush/Commit/Close方法后才会被物理删除。Optimize方法及其重载包括：

Optimize() 合并段，完成后返回。
Optimize(bool doWait) 与Optimize()相同，但立即返回。
Optimize(int maxNumSegments) 针对最多maxNumSegments个段进行优化，而并非全部索引。
Optimize(int maxNumSegments, bool doWait) 与Optimize(int maxNumSegments)相同，但立即返回。

　　（优化索引实际就是在压缩索引文件，需要大约2倍索引大小的临时空间，且特别耗时。一种好的做法是把内存中的索引合并到应硬盘中。）

四搜索

（一）基本查询

        private static List search(string dirPath, string keywords)
        {
            List results = new List();

            LN.Search.IndexSearcher searcher = new LN.Search.IndexSearcher(dirPath);//初始化IndexSearcher

            LN.QueryParsers.MultiFieldQueryParser parser = new LN.QueryParsers.MultiFieldQueryParser(new string[] { "Title", "Summary" }, new PanGuAnalyzer());//初始化MultiFieldQueryParser以便同时查询多列

            LN.Search.Query query = parser.Parse(keywords);//初始化Query

            LN.Search.Hits hits = searcher.Search(query);//搜索

            //遍历结果集
            for (int i = 0; i < hits.Length(); i++)
            {
                LN.Documents.Document doc = hits.Doc(i);
                results.Add(new Item() { Title = doc.Get("Title"), Summary = doc.Get("Summary"), CreateTime = doc.Get("CreateTime"), Uri = doc.Get("Uri") });
            }
            searcher.Close();
            return results;
        }

　　以上代码显示了一个基本搜索的例子。搜索的基本过程包括：查询请求解析->搜索->获取匹配的结果集->提取所需数据。搜索主要做两件事情：首先，确定那些文档出现在结果集中；然后，为结果集中的文档打分，分高的排在前面。

　　Lucene.Net采用向量空间搜索模型，在向量空间中越接近的文档越相似。向量空间搜索模型比较复杂（详细内容可以参考维基百科），其大致影响因素包括：

与关键字在文档中出现的频率成正比
与权重成正比
与反转文档频率成正比 该值主要受文档总数和包含关键字的文档数量影响，与文档总数成正比，与包含关键字的文档总数成反比，即索引库中文档越多，包含此关键字的文档越少，反转文档频率越高。
与保有率成正比 保有率主要受到关键字在Fleld中出现的次数（词频）和Field的长度（Field包含的词数）影响，与词频成正比，与Field的长度成反比，即从越短的Field中搜索出越多的关键字，我们就认为保有率高。

（二）常用类型

IndexReader与IndexSearcher IndexReader能够读取索引，IndexSearcher是IndexReader的包装类型，负责搜索。
Query及其常用派生类 这组类型用于实现各类查询，常用类型的继承树如下：

QueryPaser及其常用派生类 该组类型用于分析用户的输入，并将其转换为Query实例，常用类型的继承树如下：

Sort与SortField Sort类型是负责对搜索结果进行排序，可以针对指定的一个或多个域进行排序。SortField用于指定列类型，常用的列类型如下：

Filter 这组类型实现对搜索的过滤。常用类型的继承树如下：

TermFregVector TermFregVector包含了指定文档的项和词频信息，当在索引期间存储项向量的时候，才能通过IndexReader检索出TermFregVector。
Hits Hits用于承载搜索的结果集。

（三）逻辑查询

　　查询同时包含多个Term的代码形如：

        private static List andTermSearch(string dirPath, string[] keywords)
        {
            List results = new List();

            LN.Search.IndexSearcher searcher = new LN.Search.IndexSearcher(dirPath);//初始化IndexSearcher

            LN.Search.BooleanQuery bq = new Lucene.Net.Search.BooleanQuery();

            foreach (var item in keywords)
            {
                LN.Index.Term term = new Lucene.Net.Index.Term("Title", item);
                LN.Search.TermQuery tq = new Lucene.Net.Search.TermQuery(term);
                bq.Add(tq, LN.Search.BooleanClause.Occur.MUST);
            }

            LN.Search.Hits hits = searcher.Search(bq);//搜索

            //遍历结果集
            for (int i = 0; i < hits.Length(); i++)
            {
                LN.Documents.Document doc = hits.Doc(i);
                results.Add(new Item() { Title = doc.Get("Title"), Summary = doc.Get("Summary"), CreateTime = doc.Get("CreateTime"), Uri = doc.Get("Uri") });
            }
            searcher.Close();
            return results;
        }

　　上述代码的核心是“bq.Add(tq, LN.Search.BooleanClause.Occur.MUST);”，Occur的取值及含义如下：

　　通过改变该值，实现“与”、“或”、“非”操作。“非”操作常常与全匹配查询联合使用，以达到查询不满足某个条件的结果。其代码形如：

LN.Search.MatchAllDocsQuery madq = new Lucene.Net.Search.MatchAllDocsQuery();//匹配所有文档
...
bq.Add(tq, LN.Search.BooleanClause.Occur.MUST_NOT);
bq.Add(madq, LN.Search.BooleanClause.Occur.MUST);
...

　　BooleanQuery的成员SetMinimumNumberShouldMatch(int min)，可以设置需要匹配上的条件的最小数量。

（四）复合查询

　　有2种方式实现复合查询，第一种方式是使用MultiFieldQueryParser，该方式已经在之前的代码中给出，还可以使用BooleanQuery，其代码形如：

        private static List search(string dirPath, string keywords)
        {
            List results = new List();

            LN.Search.IndexSearcher searcher = new LN.Search.IndexSearcher(dirPath);//初始化IndexSearcher

            LN.Search.BooleanQuery bq = new Lucene.Net.Search.BooleanQuery();

            LN.Search.Query qTitle = new Lucene.Net.Search.TermQuery(new Lucene.Net.Index.Term("Title", keywords));
            LN.Search.Query qSummary = new Lucene.Net.Search.TermQuery(new Lucene.Net.Index.Term("Summary", keywords));
            bq.Add(qTitle, LN.Search.BooleanClause.Occur.SHOULD);
            bq.Add(qSummary, LN.Search.BooleanClause.Occur.SHOULD);

            LN.Search.Hits hits = searcher.Search(bq);//搜索

            //遍历结果集
            for (int i = 0; i < hits.Length(); i++)
            {
                LN.Documents.Document doc = hits.Doc(i);
                results.Add(new Item() { Title = doc.Get("Title"), Summary = doc.Get("Summary"), CreateTime = doc.Get("CreateTime"), Uri = doc.Get("Uri") });
            }
            searcher.Close();
            return results;
        }

　　也可以使用如下形式：

        private static List search(string dirPath, string keywords)
        {
            List results = new List();
            PanGuAnalyzer analyzer = new PanGuAnalyzer();
            LN.Search.IndexSearcher searcher = new LN.Search.IndexSearcher(dirPath);//初始化IndexSearcher

            LN.Search.BooleanQuery bq = new Lucene.Net.Search.BooleanQuery();
            LN.QueryParsers.QueryParser qpTitle = new Lucene.Net.QueryParsers.QueryParser("Title", analyzer);
            LN.QueryParsers.QueryParser qpSummary = new Lucene.Net.QueryParsers.QueryParser("Summary", analyzer);

            LN.Search.Query qTitle = qpTitle.Parse(keywords);
            LN.Search.Query qSummary = qpSummary.Parse(keywords);

            bq.Add(qTitle, LN.Search.BooleanClause.Occur.SHOULD);
            bq.Add(qSummary, LN.Search.BooleanClause.Occur.SHOULD);

            LN.Search.Hits hits = searcher.Search(bq);//搜索

            //遍历结果集
            for (int i = 0; i < hits.Length(); i++)
            {
                LN.Documents.Document doc = hits.Doc(i);
                results.Add(new Item() { Title = doc.Get("Title"), Summary = doc.Get("Summary"), CreateTime = doc.Get("CreateTime"), Uri = doc.Get("Uri") });
            }
            searcher.Close();
            return results;
        }

（五）跨度查询

　　对以下内容分词“I come from Beijing.”应用WhitespaceAnalyzer的结果为：“I\come\from\Beijing.”，其跨度如下：

　　跨度查询的代码形如：

        private static List search(string dirPath, string keyword1,string keyword2)
        {
            List results = new List();
            Analyzer analyzer = new WhitespaceAnalyzer();
            LN.Search.IndexSearcher searcher = new LN.Search.IndexSearcher(dirPath);//初始化IndexSearcher

            LN.Search.Spans.SpanNearQuery snp = new Lucene.Net.Search.Spans.SpanNearQuery(new Lucene.Net.Search.Spans.SpanQuery[]{
                new LN.Search.Spans.SpanTermQuery(new Lucene.Net.Index.Term("Summary", keyword1)),//第一个关键字
                new LN.Search.Spans.SpanTermQuery(new Lucene.Net.Index.Term("Summary", keyword2))},//第二个关键字
                1,//1个跨度以内
                true);//有序
            LN.Search.Hits hits = searcher.Search(snp);//搜索

            //遍历结果集
            for (int i = 0; i < hits.Length(); i++)
            {
                LN.Documents.Document doc = hits.Doc(i);
                results.Add(new Item() { Title = doc.Get("Title"), Summary = doc.Get("Summary"), CreateTime = doc.Get("CreateTime"), Uri = doc.Get("Uri") });
            }
            searcher.Close();
            return results;
        }

　　更具上述代码，如果传入“I”,“Beijing.”，则无法查询到，因为我在上例中将最大跨度设置为1，而实际跨度为2。可见，利用跨度查询，可以帮助筛选部分查询结果，时候查询那些关系紧密的关键字。

　　从之前的类图可以看到，跨度查询还有几个常用派生类型，其功能如下：

SpanFirstQuery 限定只查询前面几个词。
SpanRegexQuery 支持正则表达式。
SpanNotQuery 包含必须满足的SpanQuery和必须排除的SpanQuery，例如查找包含“First”，但不包含“The”在前面的内容。
SpanOrQuery 并操作。

（六）通配符查找

　　WildcardQuery支持通配符搜索，其中“*”表示多个字符，“?”表示1个字符。其代码形如：WildcardQuery query = new WildcardQuery(new Lucene.Net.Index.Term("Summary", keyword));//keyword="?o*"。

（七）排序

　　Lucene.Net主要有两种方式来控制排序结果，包括使用Sort对象定制排序和影响相关度计算结果。

1 按单列排序

　　代码形如：

Sort sort = new Sort();
SortField sf = new SortField("CreateTime", SortField.STRING, true);//true表示逆序
sort.SetSort(sf);
Search.Hits hits = searcher.Search(query, sort);//搜索

2 按多列排序

　　代码形如：

Sort sort = new Sort();
SortField sf1 = new SortField("CreateTime", SortField.STRING, true);
SortField sf2 = new SortField("Title", SortField.SCORE, true);
sort.SetSort(new SortField[] { sf1, sf2 });
Search.Hits hits = searcher.Search(query, sort);//搜索

3 自定义排序

　　自定义排序功能，需要定义FieldComparatorSource的派生类型，还需要定义自己的比较器，要求其继承FieldComparator。然后重写FieldComparatorSource的NewComparator方法，并在其中返回自己定义的比较器实例。具体实例，可以参照Lucene.Net源码中的实现。

4 使用查询函数排序

　　查询函数将索引中的字符通过某个方法转变为数值，并作为评分来影响查询结果。

FieldScoreQuery fsq = new FieldScoreQuery("Uri", FieldScoreQuery.Type.INT);//将Uri列解释为Int
CustomScoreQuery csq = new CustomScoreQuery(query, fsq);//合并最初的查询分值与当前分值
TopDocs td = searcher.Search(csq, 10);//搜索
//遍历结果集
for (int i = 0; i < td.totalHits; i++)
{
　　LN.Documents.Document doc = searcher.Doc(td.scoreDocs[i].doc);
　　results.Add(new Item() { Title = doc.Get("Title"), Summary = doc.Get("Summary"), CreateTime = doc.Get("CreateTime"), Uri = doc.Get("Uri") });
}

　　可以定义自己的评分方法，具体用法可以参考FieldScoreQuery的源码。

5 设置权重

　　权重已在上文给出，不在赘述。

（八）过滤

　　使用Filter及其派生类完成对结果集的过滤，也可以定义自己的过滤器。使用过滤的代码形如：

RangeFilter filter = new RangeFilter("CreateTime", "19990101", "29991010", true, true);
Search.Hits hits = searcher.Search(query, filter,sort);//搜索

　　何时可以使用过滤：

根据不同的安全权限显示搜索结果，即查询某个范围内的数据时可以借助过滤器。
希望缓存结果时，可以使用支持缓存的过滤器。

五实践中的问题

　　本节之前的实例代码，仅针对Lucene.Net的使用进行了梳理，之前实例中的代码并不标准，在实际使用时还需要注意很多问题。本节将对这些问题进行探讨，以帮助读者开发高性能程序。

（一）缓存

　　Lucene.Net支持对查询（FieldCache）和排序结果（CachingWrapperFilter）进行缓存。每个IndexSearcher或者IndexReader都有自己的缓存，缓存的生命周期与IndexSearcher或者IndexReader的实例相同。CachingWrapperFilter针对每个Filter有一个缓存，除此之外还有其他支持缓存的筛选器。为了使缓存利用率最高，推荐使用单例模式来维护一个IndexSearcher实例。

（二）锁

　　Lucene.Net借助锁来应对并发问题。其索引访问原则如下：

在同一时刻，可以执行多个读操作（检索）。
在同一时刻，只能执行一个写操作（创建、优化、修改、删除）。
在执行写操作的同时可以同时执行多个读操作。

　　可见，在执行写操作时，索引文件会被加锁，以防止其他线程在同一时刻修改索引。加锁实际上是在索引目录下，产生一个锁文件，Lucene.Net一共有两种锁文件——commit.lock、write.lock。查询网上的一些资料发现两者的主要区别：

commit.lock主要与segment合并和读取的操作相关。例如，其出现在IndexWriter的初始化时，当segment的信息被读取完毕，它就会被释放。另外，当调用IndexWriter的AddIndexs()或MergeSegment()方法时，也会生成这个锁。

writer.lock出现在向索引添加文档时，或是将文档从索引中删除时。writer.lock会在IndexWriter被初始化时创建，然后会在调用IndexWriter的Close()方法时被释放。另外，会在IndexReader使用Delete方法删除文档时创建，并在调用IndexReader的Close()方法时被释放。

　　为了能够在出现异常时，得体得处理，最好报Close()放到finally快中。

　　注意，使用IndexModifier可以简化开发，IndexModifier对象封装了IndexWriter和IndexReader的常用操作，其内部实现了多线程同步锁定。使用 IndexModifier可避免同时使用 IndexWriter和IndexReader时需要在多个对象之间进行同步的麻烦。

（三）使用内存目录以及多线程查询器提高查询速度

　　对内存操作要比硬盘快的多，因此可以利用RAMDirectory来提高查询速度。设计思路为：在RAMDirectory中创建索引，查询时同时查询RAMDirectory与FSDirectory中的索引，并在合适的时候将RAMDirectory中的索引写入FSDirectory。

　　查询时使用ParallelMultiSearcher加快搜索速度。ParallelMultiSearcher为多线程版本的搜索器，查询内存与硬盘上的索引。

（四）总是设置权重

　　一般情况下，最好不要使用默认权重，原因很简单，标题中的关键字或者论文关键字栏目中的关键字，具有更高的价值，为了提高命中率，我们应该在创建索引时就有意地提高这些类型的权重。

主要参考文献：

　　《盘古分词使用手册》

　　《使用C#开发搜索引擎》

你可能感兴趣的:(使用Lucene.Net实现全文检索)

Python 中 sys 库的全面解析与实战应用二向箔reverse 服务器 python
在Python的众多标准库中，sys库占据着举足轻重的地位。它与Python解释器紧密交互，为开发者提供了访问解释器内部信息和控制解释器行为的强大能力。无论是命令行参数处理、系统环境配置，还是程序退出控制，sys库都能大显身手。本文将带您深入探索sys库的常用功能，通过丰富的实例讲解，助您轻松掌握其使用技巧。sys库的基础认知sys库是Python的内置标准库，无需额外安装，只需通过imports
【004】 ITK 读取 CT Dicom 数据并使用 VTK 显示
【004】ITK读取CTDicom数据并使用VTK显示文章目录1.CMakeList.txt2.ITK读取CTdicom文件并使用VTK显示代码实现1.CMakeList.txtcmake_minimum_required(VERSION3.5)project(Image2ReadImageLANGUAGESCXX)set(CMAKE_CXX_STANDARD11)set(CMAKE_CXX_ST
三轴云台之姿态调节技术篇
三轴云台的姿态调节技术通过机械解耦、传感器融合、智能控制算法及动态补偿机制协同实现，能在复杂运动环境下保持高精度稳定，其核心技术与实现方式如下：一、机械结构优化：三轴解耦与轻量化设计三轴独立驱动解耦俯仰轴（Pitch）、横滚轴（Roll）、航向轴（Yaw）通过无刷电机+编码器+驱动器模块化设计实现运动解耦，避免轴间干扰。应用场景：无人机急转弯时，航向轴优先响应姿态变化，俯仰轴同步补偿相机倾斜，横滚
三轴云台之电机控制技术篇
三轴云台的电机控制技术以无刷直流电机（BLDC）为核心执行单元，结合磁场定向控制（FOC）、闭环反馈、多算法融合及减震设计，实现高精度、低延迟、抗干扰的稳定姿态调整。一、电机选型：无刷直流电机（BLDC）的优势高效率与低噪音BLDC电机通过电子换向替代传统电刷，减少机械摩擦，效率可达90%以上，同时噪音降低10-15dB，满足云台对静音和续航的要求。高精度控制配合编码器（如磁编码器）可实现0.01
三轴云台之控制算法协同技术篇 SKYDROID云卓小助手人工智能算法机器学习网络自动化
三轴云台的控制算法协同技术是确保云台在复杂动态环境下实现高精度、高稳定性运动控制的核心，其技术体系涵盖多传感器融合、多算法协同以及多目标优化三个关键维度。以下从技术架构与实现路径展开分析：一、多传感器融合：构建环境感知基础三轴云台通过集成IMU（惯性测量单元）、编码器、视觉传感器等多源数据，构建高鲁棒性的环境感知系统。IMU与编码器融合IMU提供高频率的姿态角速度数据，编码器提供低延迟的关节位置反
椭圆曲线密码学 Elliptic Curve Cryptography AIMercs BTC密码学密码学
密码学是研究在存在对抗行为的情况下还能安全通信的技术。即算法加密信息，再算法解密出信息。加密分为两类1.Symmetric-keyEncryption(secretkeyencryption)即一种密钥，加密和解密使用同一密钥，可相互转换2.Asymmetric-keyEncryption(publickeyencryption)分为公钥和私钥，不能转换，密钥搬运难题，用公钥加密，私钥解密椭圆密码
Day7 作业 ququququ
使用一个变量all_students保存一个班的学生信息(4个)，每个学生需要保存：姓名、年龄、成绩、电话all_students=[{'name':'stu1','age':19,'score':81,'tel':'192222'},{'name':'stu2','age':29,'score':90,'tel':'211222'},{'name':'stu3','age':12,'score'
二分查找进阶：查找最靠左和最靠右的索引（Java实现）算法第二深情算法学习算法 java intellij-idea
一、引言在实际开发中，二分查找（BinarySearch）是一种高效的查找算法，尤其在处理有序数组时表现出色。然而，标准的二分查找只能返回目标值的任意一个位置（例如中间位置）。如果需要找到目标值的最左索引或最右索引（例如统计重复元素的出现次数），或者只需要单纯知道最左或最有二、普通二分查找vs.边界查找1.普通二分查找publicstaticintbinarySearch(int[]arr,int
【vue-7】Vue3 响应式数据声明：深入理解 reactive() AllenBright #Vue vue.js 前端 javascript
在Vue3中，响应式系统经过了彻底的重构，提供了更强大、更灵活的方式来声明和管理响应式数据。reactive()是Vue3组合式API中最核心的响应式函数之一。本文将深入探讨reactive()的工作原理、使用场景以及最佳实践。1.什么是reactive()?reactive()是Vue3提供的一个函数，它接收一个普通JavaScript对象，并返回该对象的响应式代理。这个代理对象与原始对象看起来
剑指offer67_构建乘积数组
构建乘积数组给定一个数组A[0,1,…,n-1]，请构建一个数组B[0,1,…,n-1]，其中B中的元素B[i]=A[0]×A[1]×…×A[i-1]×A[i+1]×…×A[n-1]。不能使用除法。数据范围输入数组长度[0,20]。样例输入：[1,2,3,4,5]输出：[120,60,40,30,24]思考题：能不能只使用常数空间？（除了输出的数组之外）算法思路核心思想：将B[i]拆解为左乘积（l
无人设备遥控器之双向通讯技术篇 SKYDROID云卓小助手算法单片机嵌入式硬件服务器网络
无人设备遥控器的双向通讯技术通过整合数据传输与状态反馈机制，实现了遥控器与设备间的高效协同，其核心原理、技术实现及应用场景如下：一、技术原理：双向通信的构建基础双向通讯的核心在于建立一条双向数据通路，使遥控器既能发送控制指令，又能接收设备的状态信息。其实现依赖以下关键技术：射频（RF）技术遥控器与设备通过无线电波（如2.4GHz或5.8GHz频段）传输信号。发射器将指令编码为射频信号，接收器解调后
三轴云台之高精度控制技术篇 SKYDROID云卓小助手网络人工智能单片机嵌入式硬件安全
三轴云台的高精度控制技术通过多维度协同设计，实现了对负载（如相机）的毫米级稳定控制，其核心在于机械结构、传感器、算法与智能控制系统的深度融合。一、机械结构设计：三轴联动与轻量化三轴云台通过横滚轴（Roll）、俯仰轴（Pitch）、航向轴（Yaw）的三维联动，实现负载在三维空间中的稳定控制。其机械设计需兼顾刚性与轻量化：解耦设计：三轴独立驱动，避免轴间干扰。例如，无人机急转弯时，航向轴优先响应姿态变
KVM中使用桥接模式.运维就业技术教程
在KVM中使用桥接模式可以让虚拟机直接接入物理网络，使其成为局域网中的独立节点。以下是配置和使用桥接模式的详细指南：一、桥接模式原理作用:虚拟机通过宿主机的网桥（如virbr0）直接与物理交换机/路由器通信，获得与宿主机相同的网段IP。特点:虚拟机拥有独立IP，可被局域网内其他设备直接访问。无需NAT转换，网络性能更高。需确保宿主机网桥已正确配置。二、配置步骤1.创建网桥接口大多数Linux发行版
kvm虚拟机下的格式转换 teayear linux 运维服务器运维技术教程自动化监控
该指令使用qemu-img工具将原始磁盘镜像（raw格式）转换为QCOW2格式的虚拟磁盘镜像，具体参数解释如下：分步解析qemu-imgconvert调用QEMU的镜像转换工具，用于不同虚拟磁盘格式之间的转换。-p显示转换进度条（等同于--progress），实时反馈转换过程的状态。-fraw指定源文件的格式为raw（原始二进制格式）。raw格式无元数据头，直接存储磁盘扇区数据，常用于物理磁盘拷贝
c++ STL 之队列——priority_queue 详解必胜的小铭 c++
一、简介priority_queue是C++STL的一个容器，它中文名是优先队列，注意不是堆，优先队列是一种特殊的队列，每个元素都有一个优先级（一般为升序或降序，也可以按入队顺序，即普通队列）。在插入元素时，根据元素的优先级将其插入到合适的位置。优先队列可以使用多种数据结构实现，包括堆、有序数组、二叉搜索树等，在这里逐一介绍。1.有序数组有序数组的定义很广泛，只按照一定顺序排列的数组，可以用排序算
炒股思维和纪律决定成败，同时知道做超短线看什么选股指标，月盈利30%以上。股海救星
炒股思维和纪律决定成败，同时知道做超短线看什么选股指标，月盈利30%以上。（请加老师微信：hxw128126进入到“股票强化训练营”一起学习，领取涨幅大于40%的选股指标和战法）做交易的，尤其是做交易的，几乎每个人都会了解一些技术分析。趋势线、支撑压力、各种价格形态、超买超卖、背离、百分比回撤，等等，这些技术手段几乎每个人都了解它的主要内容和使用方法。可是，为什么很多人总是用不好技术分析的这些工具
19、大规模 MIMO系统中的混合预编码与自动重传请求性能分析 wood5 大规模MIMO 混合预编码自动重传请求(ARQ)
大规模MIMO系统中的混合预编码与自动重传请求性能分析1引言现代无线通信系统中，大规模多输入多输出（MIMO）技术通过增加天线数量显著提升了频谱效率和链路可靠性。然而，由于硬件复杂性和功耗的限制，传统的全数字实现方式在大规模天线阵列中变得不切实际。混合射频-基带预编码/合并架构通过引入射频模拟预编码阶段，有效降低了硬件复杂性，并在频谱效率和可靠性方面表现出色。本篇文章将探讨在大规模MIMO系统中，
python爬虫之获取渲染代码
获取渲染后的网页代码过get()方法获取浏览器中的网页资源后,浏览器将自动渲染网页源代码内容，并生成渲染后的的时使用page_source()方法即可获取渲染后的网页代码。示例代码:'''获取渲染后的网页代码'''fromseleniumimportwebdriverfromselenium.webdriver.chrome.optionsimportOptionschrome_options=O
WebDriver 对象中的方法一百天成为python专家 python pycharm 开发语言 python3.11 ipython
在WebDriver对象中有大量的对浏览器进行操作的方法,其中几种常见方法的使用形式如下back()功能:返回到上一个页面。forward()功能:前进到下一个页面。refresh()功能:刷新当前页面。quit()功能:关闭当前浏览器。close()功能:关闭当前标签页(一个浏览器窗口中展示的每一个网页为一个标签页，当前标签页指当前正在显示的网页)示例代码(操作浏览器):'''前进后退刷新'''
filter函数幻雨疾风 python
filter一般用法filter()函数被用于过滤序列，它会过滤掉不符合条件的数据，符合条件的数据将会被留下，filter函数返回的结果是一个可迭代对象。之所以称它为高级语法，因为想要正确理解使用它并不容易，同时还要配合上lambda表达式。filter的语法如下filter(function,iterable)function是判断函数，filter会遍历iterable里的每一个数据，用fun
最全2025年AI开发工具深度对比分析：程序员的智能编程助手全指南最新功能、定价策略、使用体验和适用场景 Cursor、GitHub Copilot、Claude 4、Claude Code wei佳人工智能 ai AI编程 webstorm idea vscode
2025年AI开发工具深度对比分析：程序员的智能编程助手全指南引言(不想看文字可直接看后面图表对比）随着人工智能技术的飞速发展，AI编程助手已经从概念走向现实，成为现代软件开发不可或缺的工具。2025年上半年，AI编程工具市场迎来了前所未有的变革，各大厂商纷纷推出革命性功能，从简单的代码补全演进为能够理解完整项目上下文的智能编程代理。据最新市场研究显示，全球AI代码工具市场在2024年达到67亿美
面试真题 | 小红书-C++引擎架构
文章目录1.自我介绍2.项目3.c++多态，如何实现的，虚表、虚表指针存储位置C++多态的实现机制虚表指针的存储位置面试官的深度追问4.explicit关键字explicit关键字的回答面试官可能的追问5.unique_ptr、shared_ptr、weak_ptr的原理，有没有线程安全问题，weak_ptr的解决了什么问题？可以用裸指针吗？会有什么问题回答unique_ptrshared_ptr
掌握reStructuredText：编写与格式化文档的技巧
本文还有配套的精品资源，点击获取简介：reStructuredText（rST）是一种轻量级文本标记语言，广泛用于Python社区的文档编写，特别是借助Sphinx文档生成器。本文介绍了rST的基础语法和高级特性，包括段落、标题、强调、代码、列表、引用、链接、图像、表格、章节组织、自定义角色和指令、包含和排除文件以及源代码高亮。同时，探讨了Sphinx与rST结合使用的高级功能，包括扩展、配置和构
掌握C#文件操作与XML处理：学习资料完整指南竹石文化传播有限公司
本文还有配套的精品资源，点击获取简介：C#是一种广泛应用于Windows和跨平台开发的编程语言，它在.NET框架中包含强大的文件和XML操作能力。本文深入探讨了C#中的文件读写技术，包括使用System.IO命名空间中的File类进行文本和二进制文件处理，FileStream类的流操作，以及XML文档的解析、创建和修改方法。同时，文章也介绍了文件操作的扩展功能和在进行文件操作时应考虑的异常处理。通
[Python] -项目实战5- Python 实现简易学生成绩管理系统踏雪无痕老爷子 Python python 开发语言
一、为什么做这个项目？学习OOP和GUI基础：通过类与对象封装学生信息，熟悉Tkinter构建窗口、表格、按钮等。实用性强：可添加、查询、删除、修改学生记录，是常见管理系统的基本功能。扩展性好：后续可以接入数据库、图表展示、权限控制等功能。二、核心技术与工具tkinter：Python内置的桌面GUI库，用于构建窗口界面、表单和按钮。sqlite3：轻量级关系数据库，适合小型持久化存储，无需部署服
[Python] -项目实战类3- 用Python制作一个记事本应用踏雪无痕老爷子 Python 开发语言 python
一、为什么要自己写记事本？提升GUI编程能力：通过构建窗口、菜单、文本区等组件，理解基本控件的使用。实用工具：自定义功能、更轻量、更符合个人使用习惯。实验与扩展空间大：方便加入特色功能，如自动保存、代码高亮、插件等。二、准备工作✅安装Python（建议Python 3.7+）。无需安装第三方库，tkinter是Python标准库的一部分。用于构建UI界面。sudoaptinstallpython3
用bash-completion 实现pman自动补全
前言每次查php函数的用法，都要查看手册，感觉好麻烦，于是决心在自己的命令行里实现pman自动补全提示：以下是本篇文章正文内容，下面案例可供参考一、安装先安装pear命令。不是本文重点，请自行查阅Manual::Installation(PEAR)执行命令pearinstalldoc.php.net/pman二、直接使用代码如下（示例）：pmangettype结果如下三、按装bash-comple
微信小程序-礼物商城：完整开发项目教程薛迟
本文还有配套的精品资源，点击获取简介：微信小程序是腾讯公司推出的移动应用开发平台，适用于无需安装即可使用的在线服务。本项目分享的“微信小程序-礼物商城”源码为开发者提供了电商功能的实际参考，包括商品展示、搜索、购物车、订单管理、支付和用户评价等。源码覆盖了WXML、WXSS、JavaScript基础技术，数据存储、网络请求、页面路由、组件化开发、样式设计、调试与发布、授权与登录以及性能优化等微信小
网初（25）第12次课收获然子_50bd
中原焦点团队李明然中（15）坚持分享第705天（2021.2.18）约练总第287（咨51）次第四期约练挑战挑战每周2次第七周约练0次1.家里是会有评判的，如果没有评判就不正常了。2.具体化。在使用具体化时，咨询师要保持足够的好奇、未知的态度和空杯的心态。例如：妈妈：“我儿子恋爱了。”咨询师可询问：“是什么让你想聊这个话题呢？”“儿子多大啦？”“你是怎么知道儿子恋爱的？”“家里的其他人知道吗？”“
CentOS Bash 命令补全增强软件包 bash-completion weixin_30790841 操作系统 shell 运维
之前安装的CentOS7是最小化安装，在使用systemctl命令进行服务的管理时，经常手动输入相关服务名。如果对一个服务名称不熟悉，这样可以迫使我们记住它，但如果对一个服务名已经很熟悉了，再手动输入就比较浪费时间了。这时我们可以安装使用Bash命令补全增强软件包bash-completion，这个包支持对systemctl命令服务名称的补全。bash-completion简介及安装使用在RHEL
Dom 周华华 JavaScript html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
【Spark九十六】RDD API之combineByKey bit1129 spark
1. combineByKey函数的运行机制 RDD提供了很多针对元素类型为(K,V)的API，这些API封装在PairRDDFunctions类中，通过Scala隐式转换使用。这些API实现上是借助于combineByKey实现的。combineByKey函数本身也是RDD开放给Spark开发人员使用的API之一首先看一下combineByKey的方法说明：
msyql设置密码报错：ERROR 1372 (HY000): 解决方法详解 daizj mysql 设置密码
MySql给用户设置权限同时指定访问密码时，会提示如下错误： ERROR 1372 (HY000): Password hash should be a 41-digit hexadecimal number；问题原因：你输入的密码是明文。不允许这么输入。解决办法：用select password('你想输入的密码');查询出你的密码对应的字符串，然后
路漫漫其修远兮吾将上下而求索周凡杨学习思索
王国维在他的《人间词话》中曾经概括了为学的三种境界古今之成大事业、大学问者，罔不经过三种之境界。“昨夜西风凋碧树。独上高楼，望尽天涯路。”此第一境界也。“衣带渐宽终不悔，为伊消得人憔悴。”此第二境界也。“众里寻他千百度，蓦然回首，那人却在灯火阑珊处。”此第三境界也。学习技术，这也是你必须经历的三种境界。第一层境界是说，学习的路是漫漫的，你必须做好充分的思想准备，如果半途而废还不如不要开始。这里，注
Hadoop(二)对话单的操作朱辉辉33 hadoop
Debug： 1、 A = LOAD '/user/hue/task.txt' USING PigStorage(' ') AS (col1,col2,col3); DUMP A; //输出结果前几行示例： (>ggsnPDPRecord(21),,) (-->recordType(0),,) (-->networkInitiation(1),,)
web报表工具FineReport常用函数的用法总结（日期和时间函数）老A不折腾 finereport 报表工具 web开发
web报表工具FineReport常用函数的用法总结（日期和时间函数）说明：凡函数中以日期作为参数因子的，其中日期的形式都必须是yy/mm/dd。而且必须用英文环境下双引号(" ")引用。 DATE DATE(year,month,day):返回一个表示某一特定日期的系列数。 Year:代表年，可为一到四位数。 Month:代表月份。
c++ 宏定义中的##操作符墙头上一根草 C++
#与##在宏定义中的--宏展开 #include <stdio.h> #define f(a,b) a##b #define g(a) #a #define h(a) g(a) int main() { &nbs
分析Spring源代码之，DI的实现 aijuans spring DI 现源代码
(转) 分析Spring源代码之，DI的实现 2012/1/3 by tony 接着上次的讲，以下这个sample [java] view plain copy print
for循环的进化 alxw4616 JavaScript
// for循环的进化 // 菜鸟 for (var i = 0; i < Things.length ; i++) { // Things[i] } // 老鸟 for (var i = 0, len = Things.length; i < len; i++) { // Things[i] } // 大师 for (var i = Things.le
网络编程Socket和ServerSocket简单的使用百合不是茶网络编程基础 IP地址端口
网络编程;TCP/IP协议网络:实现计算机之间的信息共享,数据资源的交换协议:数据交换需要遵守的一种协议,按照约定的数据格式等写出去端口:用于计算机之间的通信每运行一个程序，系统会分配一个编号给该程序，作为和外界交换数据的唯一标识 0~65535 查看被使用的
JDK1.5 生产消费者 bijian1013 java thread 生产消费者 java多线程
ArrayBlockingQueue：一个由数组支持的有界阻塞队列。此队列按 FIFO（先进先出）原则对元素进行排序。队列的头部是在队列中存在时间最长的元素。队列的尾部是在队列中存在时间最短的元素。新元素插入到队列的尾部，队列检索操作则是从队列头部开始获得元素。 ArrayBlockingQueue的常用方法：
JAVA版身份证获取性别、出生日期及年龄 bijian1013 java 性别出生日期年龄
工作中需要根据身份证获取性别、出生日期及年龄，且要还要支持15位长度的身份证号码，网上搜索了一下，经过测试好像多少存在点问题，干脆自已写一个。 CertificateNo.java package com.bijian.study; import java.util.Calendar; import
【Java范型六】范型与枚举 bit1129 java
首先，枚举类型的定义不能带有类型参数，所以，不能把枚举类型定义为范型枚举类，例如下面的枚举类定义是有编译错的 public enum EnumGenerics<T> { //编译错，提示枚举不能带有范型参数 OK, ERROR; public <T> T get(T type) { return null;
【Nginx五】Nginx常用日志格式含义 bit1129 nginx
1. log_format 1.1 log_format指令用于指定日志的格式，格式： log_format name(格式名称) type(格式样式) 1.2 如下是一个常用的Nginx日志格式： log_format main '[$time_local]|$request_time|$status|$body_bytes
Lua 语言 15 分钟快速入门 ronin47 lua 基础
- - 单行注释 - - [[ [多行注释] - - ]] - - - - - - - - - - - 1. 变量 & 控制流 - - - - - - - - - - num = 23 - - 数字都是双精度 str = 'aspythonstring'
java-35.求一个矩阵中最大的二维矩阵 ( 元素和最大 ) bylijinnan java
the idea is from: http://blog.csdn.net/zhanxinhang/article/details/6731134 public class MaxSubMatrix { /**see http://blog.csdn.net/zhanxinhang/article/details/6731134 * Q35 求一个矩阵中最大的二维
mongoDB文档型数据库特点开窍的石头 mongoDB文档型数据库特点
MongoDD: 文档型数据库存储的是Bson文档-->json的二进制特点：内部是执行引擎是js解释器，把文档转成Bson结构，在查询时转换成js对象。 mongoDB传统型数据库对比传统类型数据库：结构化数据，定好了表结构后每一个内容符合表结构的。也就是说每一行每一列的数据都是一样的文档型数据库：不用定好数据结构，
[毕业季节]欢迎广大毕业生加入JAVA程序员的行列 comsci java
一年一度的毕业季来临了。。。。。。。。正在投简历的学弟学妹们。。。如果觉得学校推荐的单位和公司不适合自己的兴趣和专业，可以考虑来我们软件行业，做一名职业程序员。。。软件行业的开发工具中，对初学者最友好的就是JAVA语言了，网络上不仅仅有大量的
PHP操作Excel – PHPExcel 基本用法详解 cuiyadll PHP Excel
导出excel属性设置//Include classrequire_once('Classes/PHPExcel.php');require_once('Classes/PHPExcel/Writer/Excel2007.php');$objPHPExcel = new PHPExcel();//Set properties 设置文件属性$objPHPExcel->getProperties
IBM Webshpere MQ Client User Issue (MCAUSER) darrenzhu IBM jms user MQ MCAUSER
IBM MQ JMS Client去连接远端MQ Server的时候，需要提供User和Password吗？答案是根据情况而定，取决于所定义的Channel里面的属性Message channel agent user identifier (MCAUSER)的设置。 http://stackoverflow.com/questions/20209429/how-mca-user-i
网线的接法 dcj3sjt126com
一、PC连HUB (直连线)A端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。 B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。二、PC连PC （交叉线）A端：(568A)：白绿，绿，白橙，蓝，白蓝，橙，白棕，棕； B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。三、HUB连HUB&nb
Vimium插件让键盘党像操作Vim一样操作Chrome dcj3sjt126com chrome vim
什么是键盘党？键盘党是指尽可能将所有电脑操作用键盘来完成，而不去动鼠标的人。鼠标应该说是新手们的最爱，很直观，指哪点哪，很听话！不过常常使用电脑的人，如果一直使用鼠标的话，手会发酸，因为操作鼠标的时候，手臂不是在一个自然的状态，臂肌会处于绷紧状态。而使用键盘则双手是放松状态，只有手指在动。而且尽量少的从鼠标移动到键盘来回操作，也省不少事。在chrome里安装 vimium 插件
MongoDB查询（2）——数组查询[六] eksliang mongodb MongoDB查询数组
MongoDB查询数组转载请出自出处：http://eksliang.iteye.com/blog/2177292 一、概述 MongoDB查询数组与查询标量值是一样的，例如，有一个水果列表，如下所示： > db.food.find() { "_id" : "001", "fruits" : [ "苹
cordova读写文件（1） gundumw100 JavaScript Cordova
使用cordova可以很方便的在手机sdcard中读写文件。首先需要安装cordova插件：file 命令为： cordova plugin add org.apache.cordova.file 然后就可以读写文件了，这里我先是写入一个文件，具体的JS代码为： var datas=null;//datas need write var directory=&
HTML5 FormData 进行文件jquery ajax 上传到又拍云 ileson jquery Ajax html5 FormData
html5 新东西：FormData 可以提交二进制数据。页面test.html <!DOCTYPE> <html> <head> <title> formdata file jquery ajax upload</title> </head> <body> <
swift appearanceWhenContainedIn:(version1.2 xcode6.4) 啸笑天 version
swift1.2中没有oc中对应的方法： + (instancetype)appearanceWhenContainedIn:(Class <UIAppearanceContainer>)ContainerClass, ... NS_REQUIRES_NIL_TERMINATION; 解决方法：在swift项目中新建oc类如下： #import &
java实现SMTP邮件服务器 macroli java 编程
电子邮件传递可以由多种协议来实现。目前，在Internet 网上最流行的三种电子邮件协议是SMTP、POP3 和 IMAP，下面分别简单介绍。　　◆ SMTP 协议　　简单邮件传输协议(Simple Mail Transfer Protocol,SMTP)是一个运行在TCP/IP之上的协议，用它发送和接收电子邮件。SMTP 服务器在默认端口25上监听。SMTP客户使用一组简单的、基于文本的
mongodb group by having where 查询sql qiaolevip 每天进步一点点学习永无止境 mongo 纵观千象
SELECT cust_id, SUM(price) as total FROM orders WHERE status = 'A' GROUP BY cust_id HAVING total > 250 db.orders.aggregate( [ { $match: { status: 'A' } }, { $group: {
Struts2 Pojo（六） Luob. POJO strust2
注意：附件中有完整案例 1.采用POJO对象的方法进行赋值和传值 2.web配置 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee&q
struts2步骤 wuai struts
1、添加jar包 2、在web.xml中配置过滤器 <filter> <filter-name>struts2</filter-name> <filter-class>org.apache.st