Dacc123

Lucene.net(4.8.0) 学习问题记录五: JIEba分词和Lucene的结合，以及对分词器的思考

前言：目前自己在做使用Lucene.net和PanGu分词实现全文检索的工作，不过自己是把别人做好的项目进行迁移。因为项目整体要迁移到ASP.NET Core 2.0版本,而Lucene使用的版本是3.6.0 ，PanGu分词也是对应Lucene3.6.0版本的。不过好在Lucene.net 已经有了Core 2.0版本（4.8.0 bate版），而PanGu分词，目前有人正在做，貌似已经做完，只是还没有测试~，Lucene升级的改变我都会加粗表示。

Lucene.net 4.8.0

https://github.com/apache/lucenenet

PanGu分词

https://github.com/LonghronShen/Lucene.Net.Analysis.PanGu/tree/netcore2.0

Lucene.net 4.8.0 和之前的Lucene.net 3.6.0 改动还是相当多的，这里对自己开发过程遇到的问题，做一个记录吧，希望可以帮到和我一样需要升级Lucene.net的人。我也是第一次接触Lucene ,也希望可以帮助初学Lucene的同学。

Lucene.net(4.8.0) 学习问题记录一:分词器Analyzer的构造和内部成员ReuseStategy
Lucene.net(4.8.0) 学习问题记录二: 分词器Analyzer中的TokenStream和AttributeSource
Lucene.net(4.8.0) 学习问题记录三: 索引的创建 IndexWriter 和索引速度的优化
Lucene.net(4.8.0) 学习问题记录四: IndexWriter 索引的优化以及思考

一，PanGu分词与JIEba分词

1.中文分词工具

Lucene的自带分词工具对中文分词的效果很是不好。因此在做中文的搜索引擎的时候，我们需要用额外的中文分词组件。这里可以总结一下中文分词工具有哪些，在下面这个衔接中，有对很多中文分词工具的性能测试：

https://github.com/ysc/cws_evaluation

可惜我们看不到PanGu分词的性能，在PanGu分词的官网我们可以看到：Core Duo 1.8 GHz 下单线程分词速度为 390K 字符每秒，2线程分词速度为 690K 字符每秒。在上面的排行榜中属于中等吧。但由于我做的是基于.net的搜索引擎，所以我只找到了IK分词器，PanGu分词器，JIEba分词器的.net core2.0 版本。

1.1 PanGu分词 .net core 版

这是PanGu分词.net core 2.0版本的迁移项目：

https://github.com/LonghronShen/Lucene.Net.Analysis.PanGu/tree/netcore2.0

这是一个没有迁移完全的项目，在使用过程中遇到了一些问题，前面的目录中记录过。我修改了一些bug,下面的是修改过后的可以直接使用的PanGu分词.net core2.0版本：

https://github.com/SilentCC/Lucene.Net.Analysis.PanGu/tree/netcore2.0

我提交了一个Pull Request ,作者还没有合并。我已经用了一段时间，很稳定。

1.2 JIEba分词 .net core 版

JIEba分词的.net core 版本迁移项目：

https://github.com/linezero/jieba.NET

但是这是.net core1.0的版本，拿过来也不能直接给Lucene使用，所以我升级到了2.0并且做了一个接口，让其支持Lucene，经过测试可以稳定的进行分词和高亮。当然在其中也遇到了一些问题，在下文中会详细阐述。这是改过之后的Lucene版:

https://github.com/SilentCC/JIEba-netcore2.0

1.3 IK分词 .net core 版

在Nuget中可以搜索到（IKNetAnalyzer）

在GitHub中 https://github.com/stanzhai/IKAnalyzer.NET 显示正在开发中。由于一些原因，我并没有使用IK分词。所以也就没有细看了。

2.PanGu分词和JIEba分词的对比

Lucene和PanGu分词搭配，已经是Lucene.net 的经典搭配，但是PanGu分词已经很久没有更新，PanGu分词的字典也是很久以前维护的字典。在网上可以找到很多Lucene和PanGu分词搭配的例子。在PanGu分词和JIEba分词对比中，我选择了JIEba分词。因为我的搜索引擎一直是使用PanGu分词，然后却时常出现有些比较新的冷的词，无法被分词，导致搜索效果很差。究其原因，是PanGu分词的字典不够大，但是人工维护字典很烦。当然PanGu分词有新词录入的功能，我一直打开这个功能的开关：

 
           MatchOptions m =  
           new  
           MatchOptions(); 
          
           m.UnknownWordIdentify =  
           true 
           ;

然而并没有改善。后来我使用了JIEba分词测试分词效果，发现JIEba分词使用搜索引擎模式，和PanGu分词打开多元分词功能开关时的分词效果如下：

 
           测试样例：小明硕士毕业于中国科学院计算所，后在日本京都大学深造 
          
           结巴分词（搜索引擎模式）：小明/ 硕士/ 毕业/ 于/ 中国/ 科学/ 学院/ 科学院/ 中国科学院/ 计算/ 计算所/ ，/ 后/ 在/ 日本/ 京都/ 大学/ 日本京都大学/ 深造 
          
           盘古分词（开启多元分词开关）： 小  明  硕士  毕业  于  中国科学院  计算所  后  在  日本  京都  大学  深造

显然PanGu分词并没有细粒度分词，这是导致有些搜索召回率很低的原因。

这里就不对PanGu分词，和JIEba分词的具体分词方法进行比较了。本篇博文的还是主要讲解Lucene和JIEba分词

二，JIEba分词支持Lucene

在上面的JIEba分词.net core版本中，JIEba分词只是将给到的一个字符串进行分词，然后反馈给你分词信息，分词信息也只是一个一个字符串。显然这是无法接入到Lucene中。那么如何把一个分词工具成功的接入到Lucene中呢？

1.建立Analyzer类

所有要接入Lucene中的分词工具，都要有一个继承Lucene.Net.Analyzer的类，在这个类：JIEbaAnalyzer中，必须要覆写TokenStreamComponents函数，因为Lucene正是通过这个函数获取分词器分词之后的TokenStream（一些列分词信息的集合）我们可以在这个函数中给tokenStream中注入我们想要得到的属性，在Lucene.net 4.8.0中分词的概念已经是一些列分词属性的组合

  public class JieBaAnalyzer
        :Analyzer
    {
        public TokenizerMode mode;
        public JieBaAnalyzer(TokenizerMode Mode)
            :base()
        {
            this.mode = Mode;
        }

        protected override TokenStreamComponents CreateComponents(string filedName,TextReader reader)
        {
            var tokenizer = new JieBaTokenizer(reader,mode);

            var tokenstream = (TokenStream)new LowerCaseFilter(Lucene.Net.Util.LuceneVersion.LUCENE_48, tokenizer);

            tokenstream.AddAttribute();
            tokenstream.AddAttribute();

            return new TokenStreamComponents(tokenizer, tokenstream);
        }
    }
}

这里可以看到，我只使用了ICharTermAttribute 和IOffsetAttribute 也就是分词的内容属性和位置属性。这里的Mode要提一下，这是JIEba分词的特性，JIEba分词提供了三种模式：

精确模式，试图将句子最精确地切开，适合文本分析；
全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；
搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。

这里的Model只有Default和Search两种，一般的，写入索引的时候使用Search模式，查询的时候使用Default模式

上面的JieBaTokenizer类正是我们接下来要定义的类

1.建立Tokenizer类

继承Lucene.Net.Tokenizer 。Tokenizer 是正真将大串文本分成一系列分词的类，在Tokenizer类中，我们必须要覆写 Reset()函数，IncrementToken（）函数，上面的Analyzer类中：

var tokenstream = (TokenStream)new LowerCaseFilter(Lucene.Net.Util.LuceneVersion.LUCENE_48, tokenizer);

tokenizer是生产tokenstream。实际上Reset()函数是将文本进行分词，IncrementToken（）是遍历分词的信息，然后将分词的信息注入的tokenstream,这样就得到我们想要的分词流。在Tokenizer类中我们调用JIEba分词的Segment实例，对文本进行分词。再将获得分词包装，遍历。

 public class JieBaTokenizer
        : Tokenizer
    {
        private static object _LockObj = new object();
        private static bool _Inited = false;
        private System.Collections.Generic.List _WordList = new List();
        private string _InputText;
        private bool _OriginalResult = false;

        private ICharTermAttribute termAtt;
        private IOffsetAttribute offsetAtt;
        private IPositionIncrementAttribute posIncrAtt;
        private ITypeAttribute typeAtt;

        private List<string> stopWords = new List<string>();
        private string stopUrl="./stopwords.txt";
        private JiebaSegmenter segmenter;

        private System.Collections.Generic.IEnumerator iter;
        private int start =0;

        private TokenizerMode mode;



        public JieBaTokenizer(TextReader input,TokenizerMode Mode)
            :base(AttributeFactory.DEFAULT_ATTRIBUTE_FACTORY,input)
        {
            segmenter = new JiebaSegmenter();
            mode = Mode;
            StreamReader rd = File.OpenText(stopUrl);
            string s = "";
            while((s=rd.ReadLine())!=null)
            {
                stopWords.Add(s);
            }
           
            Init();
            
        }

        private void Init()
        {
            termAtt = AddAttribute();
            offsetAtt = AddAttribute();
            posIncrAtt = AddAttribute();
            typeAtt = AddAttribute();
        }

        private string ReadToEnd(TextReader input)
        {
            return input.ReadToEnd();
        }

        public sealed override Boolean IncrementToken()
        {
            ClearAttributes();

            Lucene.Net.Analysis.Token word = Next();
            if(word!=null)
            {
                var buffer = word.ToString();
                termAtt.SetEmpty().Append(buffer);
                offsetAtt.SetOffset(CorrectOffset(word.StartOffset),CorrectOffset(word.EndOffset));
                typeAtt.Type = word.Type;
                return true;
            }
            End();
            this.Dispose();
            return false;
            
        }

        public Lucene.Net.Analysis.Token Next()
        {
           
            int length = 0;
            bool res = iter.MoveNext();
            Lucene.Net.Analysis.Token token;
            if (res)
            {
                JiebaNet.Segmenter.Token word = iter.Current;

                token = new Lucene.Net.Analysis.Token(word.Word, word.StartIndex,word.EndIndex);
               // Console.WriteLine("xxxxxxxxxxxxxxxx分词："+word.Word+"xxxxxxxxxxx起始位置："+word.StartIndex+"xxxxxxxxxx结束位置"+word.EndIndex);
                start += length;
                return token;

            }
            else
                return null;    
            
        }

        public override void Reset()
        {
            base.Reset();

            _InputText = ReadToEnd(base.m_input);
            RemoveStopWords(segmenter.Tokenize(_InputText,mode));


            start = 0;
            iter = _WordList.GetEnumerator();

        }

        public void RemoveStopWords(System.Collections.Generic.IEnumerable words)
        {
            _WordList.Clear();
            
            foreach(var x in words)
            {
                if(stopWords.IndexOf(x.Word)==-1)
                {
                    _WordList.Add(x);
                }
            }

        }

    }

一开始我写的Tokenizer类并不是这样，因为遇到了一些问题，才逐渐改成上面的样子，下面就说下自己遇到的问题。

3.问题和改进

3.1 JIEba CutForSearch

一开始在Reset函数中，我使用的是JIEba分词介绍的CutForSearch函数，CutForSearch的到是List ,所以位置属性OffsetAttribute得我自己来写：

 public Lucene.Net.Analysis.Token Next()
        {
           
            int length = 0;
            bool res = iter.MoveNext();
            Lucene.Net.Analysis.Token token;
            if (res)
            {
                JiebaNet.Segmenter.Token word = iter.Current;

                token = new Lucene.Net.Analysis.Token(word.Word, word.StartIndex,word.EndIndex);
                start += length;
                return token;

            }
            else
                return null;    
            
        }

自己定义了start,根据每个分词的长度，很容易算出来每个分词的位置。但是我忘了CutForSearch是一个细粒度模式，会有“中国模式”，“中国”，“模式”同时存在，这样的写法就是错的了，如果是Cut就对了。分词的位置信息错误，带来的就是高亮的错误，因为高亮需要知道分词的正确的起始和结束位置。具体的错误就是：

 at System.String.Substring(Int32 startIndex, Int32 length)
   at Lucene.Net.Search.VectorHighlight.BaseFragmentsBuilder.MakeFragment(StringBuilder buffer, Int32[] index, Field[] values, WeightedFragInfo fragInfo, String[] preTags, String[] postTags, IEncoder encoder) in C:\BuildAgent\work\b1b63ca15b99dddb\src\Lucene.Net.Highlighter\VectorHighlight\BaseFragmentsBuilder.cs:line 195
   at Lucene.Net.Search.VectorHighlight.BaseFragmentsBuilder.CreateFragments(IndexReader reader, Int32 docId, String fieldName, FieldFragList fieldFragList, Int32 maxNumFragments, String[] preTags, String[] postTags, IEncoder encoder) in C:\BuildAgent\work\b1b63ca15b99dddb\src\Lucene.Net.Highlighter\VectorHighlight\BaseFragmentsBuilder.cs:line 146
   at Lucene.Net.Search.VectorHighlight.BaseFragmentsBuilder.CreateFragments(IndexReader reader, Int32 docId, String fieldName, FieldFragList fieldFragList, Int32 maxNumFragments) in C:\BuildAgent\work\b1b63ca15b99dddb\src\Lucene.Net.Highlighter\VectorHighlight\BaseFragmentsBuilder.cs:line 99

当你使用Lucene的时候出现这样的错误，大多数都是你的分词位置属性出错。

后来才发现JIEba分词提供了 Tokenize（）函数，专门提供了分词以及分词的位置信息，我很欣慰的用了Tokenize（）函数，结果还是报错，一样的报错，当我尝试着加上CorrectOffset()函数的时候：

 offsetAtt.SetOffset(CorrectOffset(word.StartOffset),CorrectOffset(word.EndOffset));

虽然不报错了，但是高亮的效果总是有偏差，总而言之换了Tokenize函数，使用CorrectOffset函数，都无法使分词的位置信息变准确。于是查看JIEba分词的源码。

Tokenize函数：

 public IEnumerable Tokenize(string text, TokenizerMode mode = TokenizerMode.Default, bool hmm = true)
        {
            var result = new List();

            var start = 0;
            if (mode == TokenizerMode.Default)
            {
                foreach (var w in Cut(text, hmm: hmm))
                {
                    var width = w.Length;
                    result.Add(new Token(w, start, start + width));
                    start += width;
                }
            }
            else
            {
                foreach (var w in Cut(text, hmm: hmm))
                {
                    var width = w.Length;
                    if (width > 2)
                    {
                        for (var i = 0; i < width - 1; i++)
                        {
                            var gram2 = w.Substring(i, 2);
                            if (WordDict.ContainsWord(gram2))
                            {
                                result.Add(new Token(gram2, start + i, start + i + 2));
                            }
                        }
                    }
                    if (width > 3)
                    {
                        for (var i = 0; i < width - 2; i++)
                        {
                            var gram3 = w.Substring(i, 3);
                            if (WordDict.ContainsWord(gram3))
                            {
                                result.Add(new Token(gram3, start + i, start + i + 3));
                            }
                        }
                    }

                    result.Add(new Token(w, start, start + width));
                    start += width;
                }
            }

            return result;
        }

Cut函数：

 public IEnumerable<string> Cut(string text, bool cutAll = false, bool hmm = true)
        {
            var reHan = RegexChineseDefault;
            var reSkip = RegexSkipDefault;
            Func<string, IEnumerable<string>> cutMethod = null;

            if (cutAll)
            {
                reHan = RegexChineseCutAll;
                reSkip = RegexSkipCutAll;
            }

            if (cutAll)
            {
                cutMethod = CutAll;
            }
            else if (hmm)
            {
                cutMethod = CutDag;
            }
            else
            {
                cutMethod = CutDagWithoutHmm;
            }

            return CutIt(text, cutMethod, reHan, reSkip, cutAll);
        }

终于找到了关键的函数：CutIt

 internal IEnumerable<string> CutIt(string text, Func<string, IEnumerable<string>> cutMethod,
                                           Regex reHan, Regex reSkip, bool cutAll)
        {
            var result = new List<string>();
            var blocks = reHan.Split(text);
            foreach (var blk in blocks)
            {
                if (string.IsNullOrWhiteSpace(blk))
                {
                    continue;
                }

                if (reHan.IsMatch(blk))
                {
                    foreach (var word in cutMethod(blk))
                    {
                        result.Add(word);
                    }
                }
                else
                {
                    var tmp = reSkip.Split(blk);
                    foreach (var x in tmp)
                    {
                        if (reSkip.IsMatch(x))
                        {
                            result.Add(x);
                        }
                        else if (!cutAll)
                        {
                            foreach (var ch in x)
                            {
                                result.Add(ch.ToString());
                            }
                        }
                        else
                        {
                            result.Add(x);
                        }
                    }
                }
            }

            return result;
        }

在CutIt函数中JieBa分词都把空格省去，这样在Tokenize函数中使用start=0 start+=word.Length 显示不能得到正确的原始文本中的位置。

  if (string.IsNullOrWhiteSpace(blk))
                {
                    continue;
                }

JIEba分词也没有考虑到会使用Lucene的高亮，越是只能自己改写了CutIt函数和Tokenize函数：

在CutIt函数中，返回的值不在是一个string，而是一个包含string,startPosition的类，这样在Tokenize中就很准确的得到每个分词的位置属性了。

 internal IEnumerable CutIt2(string text, Func<string, IEnumerable<string>> cutMethod,
                                           Regex reHan, Regex reSkip, bool cutAll)
        {
            //Console.WriteLine("*********************************我开始分词了*******************");
            var result = new List();
            var blocks = reHan.Split(text);
            var start = 0;
            foreach(var blk in blocks)
            {
                //Console.WriteLine("?????????????当前的串："+blk);
                if(string.IsNullOrWhiteSpace(blk))
                {
                    start += blk.Length;
                    continue;
                }
                if(reHan.IsMatch(blk))
                {
                    
                    foreach(var word in cutMethod(blk))
                    {
                        //Console.WriteLine("？？？？？blk 分词：" + word + "????????初始位置：" + start);
                        result.Add(new WordInfo(word,start));
                        start += word.Length;
                    }
                }
                else
                {
                    var tmp = reSkip.Split(blk);
                    foreach(var x in tmp)
                    {
                        if(reSkip.IsMatch(x))
                        {
                            //Console.WriteLine("？？？？？ x  reSkip 分词：" + x + "????????初始位置：" + start);
                            result.Add(new WordInfo(x,start));
                            start += x.Length;
                        }
                        else if(!cutAll)
                        {
                            foreach(var ch in x)
                            {
                                //Console.WriteLine("？？？？？ch  分词：" + ch + "????????初始位置：" + start);
                                result.Add(new WordInfo(ch.ToString(),start));
                                start += ch.ToString().Length;
                            }
                        }
                        else{
                            //Console.WriteLine("？？？？？x  分词：" + x + "????????初始位置：" + start);
                            result.Add(new WordInfo(x,start));
                            start += x.Length;
                            
                        }
                    }
                }
            }

            return result;
        }



 public IEnumerable Tokenize(string text, TokenizerMode mode = TokenizerMode.Default, bool hmm = true)
        {
            var result = new List();

            if (mode == TokenizerMode.Default)
            {
                foreach (var w in Cut2(text, hmm: hmm))
                {
                    var width = w.value.Length;
                    result.Add(new Token(w.value, w.position, w.position + width));

                }
            }
            else
            {
                var xx = Cut2(text, hmm: hmm);
                foreach (var w in Cut2(text, hmm: hmm))
                {
                    var width = w.value.Length;
                    if (width > 2)
                    {
                        for (var i = 0; i < width - 1; i++)
                        {
                            var gram2 = w.value.Substring(i, 2);
                            if (WordDict.ContainsWord(gram2))
                            {
                                result.Add(new Token(gram2, w.position + i, w.position + i + 2));
                            }
                        }
                    }
                    if (width > 3)
                    {
                        for (var i = 0; i < width - 2; i++)
                        {
                            var gram3 = w.value.Substring(i, 3);
                            if (WordDict.ContainsWord(gram3))
                            {
                                result.Add(new Token(gram3, w.position + i, w.position + i + 3));
                            }
                        }
                    }

                    result.Add(new Token(w.value, w.position, w.position + width));

                 }
            }

            return result;
        }



 public class WordInfo
    {
        public WordInfo(string value,int position)
        {
            this.value = value;
            this.position = position;
        }
        //分词的内容
        public string value { get; set; }
        //分词的初始位置
        public int position { get; set; }
    }

这样的话，终于可以正确的进行高亮了，果然搜索效果要比PanGu分词好很多。

4.停用词

是用JIEba的停用词的方法，是把停用词的文件里的内容读取出来，然后在Reset（）函数里把停用词都过滤掉：

 StreamReader rd = File.OpenText(stopUrl);
            string s = "";
            while((s=rd.ReadLine())!=null)
            {
                stopWords.Add(s);
            }

 public override void Reset()
        {
            base.Reset();

            _InputText = ReadToEnd(base.m_input);
            RemoveStopWords(segmenter.Tokenize(_InputText,mode));


            start = 0;
            iter = _WordList.GetEnumerator();

        }

        public void RemoveStopWords(System.Collections.Generic.IEnumerable words)
        {
            _WordList.Clear();
            
            foreach(var x in words)
            {
                if(stopWords.IndexOf(x.Word)==-1)
                {
                    _WordList.Add(x);
                }
            }

        }

5.索引速度

使用JIEba分词之后，虽然效果很好，但是写索引的速度很慢，考虑到时细粒度分词，相比以前一篇文章多出来很多分词，所以索引速度慢了8倍左右，但是感觉这并不正常，前面的开源代码测试结果中，CutForSearch很快的，应该是自己的代码哪里出了问题。

三，Lucene的高亮

这里再对Lucene的高亮的总结一下，Lucene提供了两种高亮模式，一种是普通高亮，一种是快速高亮。

1.普通高亮

普通高亮的原理，就是将搜索之后得到的文档，使用分词器再进行分词，得到的TokenStream，再进行高亮：

 SimpleHTMLFormatter simpleHtmlFormatter = new SimpleHTMLFormatter("", "");

            Lucene.Net.Search.Highlight.Highlighter highlighter = new Lucene.Net.Search.Highlight.Highlighter(simpleHtmlFormatter, new QueryScorer(query));

            highlighter.TextFragmenter = new SimpleFragmenter(150);
Analyzer analyzer = new JieBaAnalyzer(TokenizerMode.Search);


            TokenStream tokenStream = analyzer.GetTokenStream("Content", new StringReader(doc.Get("Content")));
var frags = highlighter.GetBestFragments(tokenStream, doc.Get(fieldName), 200);

2.快速高亮

之所很快速，是因为高亮是直接根据索引储存的信息进行高亮，前面已经说过我们索引需要储存分词的位置信息，这个就是为高亮服务的，所以速度很快，当然带来的后果是你的索引文件会比较大，因为储存了位置信息。

 FastVectorHighlighter fhl = new FastVectorHighlighter(false, false, simpleFragListBuilder, scoreOrderFragmentsBuilder);
            FieldQuery fieldQuery = fhl.GetFieldQuery(query,_indexReader);

          highLightSetting.MaxFragNum.GetValueOrDefault(MaxFragNumDefaultValue);
            var frags = fhl.GetBestFragments(fieldQuery, _indexReader, docid, fieldName, fragSize, maxFragNum);

快速高亮的关键源代码：

   protected virtual string MakeFragment(StringBuilder buffer, int[] index, Field[] values, WeightedFragInfo fragInfo,
            string[] preTags, string[] postTags, IEncoder encoder)
        {
            StringBuilder fragment = new StringBuilder();
            int s = fragInfo.StartOffset;
            int[] modifiedStartOffset = { s };
            string src = GetFragmentSourceMSO(buffer, index, values, s, fragInfo.EndOffset, modifiedStartOffset);
            int srcIndex = 0;
            foreach (SubInfo subInfo in fragInfo.SubInfos)
            {
                foreach (Toffs to in subInfo.TermsOffsets)
                {
                    
                    fragment
                        .Append(encoder.EncodeText(src.Substring(srcIndex, (to.StartOffset - modifiedStartOffset[0]) - srcIndex)))
                        .Append(GetPreTag(preTags, subInfo.Seqnum))
                        .Append(encoder.EncodeText(src.Substring(to.StartOffset - modifiedStartOffset[0], (to.EndOffset - modifiedStartOffset[0]) - (to.StartOffset - modifiedStartOffset[0]))))
                        .Append(GetPostTag(postTags, subInfo.Seqnum));
                    srcIndex = to.EndOffset - modifiedStartOffset[0];
                }
            }
            fragment.Append(encoder.EncodeText(src.Substring(srcIndex)));
            return fragment.ToString();
        }

fragInfo储存了所有需要高亮的关键字和位置信息，src则是原始文本，而之前报的错误正是这里引起的错误，由于位置信息有误src.Substring就会报错。

四，结语

.net core2.0版的中文分词确实不多，相比较之下，java,c++,的分词工具有很多，或许可以用c++的速度快的特点，做一个单独分词服务，效果是不是会更好。

英语语法学习：非谓语动词&过去分词的形式练习！树先生本人
一、过去分词的变化规则1.规则变化(规则动词的变化规则)规则动词的过去分词与过去式变化规则一致：(1)一般而言，在动词原形后直接加-ed.(2)以字母e结尾的动词，直接加-d.(3)以辅音字母加-y结尾的动词，变y为i，再加-ed.(4)以重读闭音节(辅音+元音+辅音)形式结尾的动词，双写末尾的辅音字母，再加-ed.2.不规则变化(不规则动词的变化规则)过去分词的不规则变化，可以和过去式的不规则变
NLP_jieba中文分词的常用模块 Hiweir · NLP_jieba的使用自然语言处理中文分词人工智能 nlp
1.jieba分词模式（1）精确模式:把句子最精确的切分开,比较适合文本分析.默认精确模式.（2）全模式:把句子中所有可能成词的词都扫描出来,cut_all=True,缺点:速度快,不能解决歧义（3）paddle:利用百度的paddlepaddle深度学习框架.简单来说就是使用百度提供的分词模型.use_paddle=True.（4）搜索引擎模式:在精确模式的基础上,对长词再进行切分,提高召回率,
docker安装与使用小鱼做了就会开发框架及各种插件 docker java maven ubuntu linux
docker安装与使用一、docker安装二、容器三、镜像五、Docker部署ES5.1部署ES5.2配置跨域5.3重启容器5.4Docker部署ES-IK分词器5.5Docker部署ElasticSearch-Head5.6Docker快速安装kibana一、docker安装sudowget-qO-https://get.docker.com/|bash二、容器容器是由镜像实例化而来，这和我们学
Python的情感词典情感分析和情绪计算 yava_free python 大数据人工智能
一.大连理工中文情感词典情感分析(SentimentAnalysis)和情绪分类(EmotionClassification）都是非常重要的文本挖掘手段。情感分析的基本流程如下图所示，通常包括：自定义爬虫抓取文本信息；使用Jieba工具进行中文分词、词性标注；定义情感词典提取每行文本的情感词；通过情感词构建情感矩阵，并计算情感分数；结果评估，包括将情感分数置于0.5到-0.5之间，并可视化显示。目
使用Python和Jieba库进行中文情感分析：从文本预处理到模型训练的完整指南快撑死的鱼 Python算法精解 python 人工智能开发语言
使用Python和Jieba库进行中文情感分析：从文本预处理到模型训练的完整指南情感分析（SentimentAnalysis）是自然语言处理（NLP）领域中的一个重要分支，旨在从文本中识别出情绪、态度或意见等主观信息。在中文文本处理中，由于语言特性不同于英语，如何高效、准确地分词和提取关键词成为情感分析的关键步骤之一。在这篇文章中，我们将深入探讨如何使用Python和Jieba库进行中文情感分析，
python连接es_Elasticsearch --- 3. ik中文分词器, python操作es weixin_39962285 python连接es
一.IK中文分词器1.下载安装2.测试#显示结果{"tokens":[{"token":"上海","start_offset":0,"end_offset":2,"type":"CN_WORD","position":0},{"token":"自来水","start_offset":2,"end_offset":5,"type":"CN_WORD","position":1},{"token":"
使用Python的Elasticsearch客户端 elasticsearch-py 来完成删除现有索引、重新创建索引并测试分词的示例代码 Roc-xb Python python elasticsearch
以下是一个使用Python的Elasticsearch客户端elasticsearch-py来完成删除现有索引、重新创建索引并测试分词的示例代码一、安装依赖pipinstallelasticsearch二、运行效果三、程序代码fromelasticsearchimportElasticsearch,NotFoundError#连接到Elasticsearches=Elasticsearch(
JAVA使用es不分词_谈谈 Elasticsearch 分词和自定义分词 weixin_39966376 JAVA使用es不分词
初次接触Elasticsearch的同学经常会遇到分词相关的难题，比如如下这些场景：1、为什么命名有包含搜索关键词的文档，但结果里面就没有相关文档呢？2、我存进去的文档到底被分成哪些词(term)了？3、我得自定义分词规则，但感觉好麻烦呢，无从下手如果你遇到过类似的问题，希望本文可以解决你的疑惑。一、上手让我们从一个实例出发，如下创建一个文档：PUTtest/doc/1{"msg":"Eating
ElasticSearch 谈谈你对段合并的策略思想的认识用心去追梦 elasticsearch 大数据搜索引擎
段合并是Elasticsearch中的一个重要概念，它在数据索引和查询过程中起着关键的作用。Elasticsearch使用Lucene作为其全文搜索库，Lucene中使用的数据结构就是段（Segment）合并。段合并的策略思想主要体现在以下几个方面：提高查询性能：在Elasticsearch中，段合并的过程可以看作是对索引进行优化，通过合并将多个小的段合并成一个大的段，这样可以减少内存的使用，提高
es安装ik分词器 abments ES elasticsearch jenkins 大数据
下载分词器首先确定es对应的版本（假设版本是7.10.0）根据版本下载指定的分词器开始安装在线安装./bin/elasticsearch-plugininstallhttps://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.10.0/elasticsearch-analysis-ik-7.10.0.zip离线安装-
三国演义python分析系统_Python之三国演义(上) weixin_40002692 三国演义python分析系统
一、设计实现详细说明1.1任务详细描述以中国四大名著之一——《三国演义》为蓝本，结合python数据分析知识进行本次的文本分析。《三国演义》全书共120回。本次的分析主要基于统计分析、文本挖掘等知识。1.2设计思路详细描述数据准备、数据预处理、分词等全书各个章节的字数、词数、段落等相关方面的关系整体词频和词云的展示全书各个章节进行聚类分析并可视化，主要进行了根据IF-IDF的系统聚类和根据词频的L
重生之我们在ES顶端相遇第11 章 - 深入自定义语言分词器不能放弃治疗 Elasticsearch elasticsearch
文章目录0.前言1.英语分词器2.阿拉伯语分词器3.结语0.前言国内企业出海是大势所趋，那么基于不同的语种进行分词就显得尤为重要，因为这会让用户的搜索体验更棒！国内出海企业，会更偏向于选择欧美、中东这2个地区。因此本文章也重点介绍英语、阿拉伯语的分词。在ES中内置的分词器中，有一个叫Languageanalyzers，我们可以根据该分词器，自定义出符合业务需求的特定语言分词器。1.英语分词器英语分
NLP面试题（9月4日笔记）好好学习Py 自然语言处理自然语言处理笔记人工智能
常见的分词方法分词是将连续的子序列按照一定的规则进行重新组合形成词序列的过程，是NLP领域内最基础的内容。常见的分词方法有jieba分词，jieba分词支持多种分词模模式：精确模式，全模式，搜索引擎模式。1）精确模式：将句子最精确的进行切分，适合文本分析，在日常工作中最为常用；2）全模式：将句子中所有可以成词的词语都扫描出来，速度非常快，但不能消除歧义。3）搜索引擎模式：在精确模式的基础上，对长词
小学英语初级高频词汇学习- be 英语小天地nice
1）be+现在分词,构成进行时态,例如：Theyarehavingameeting.他们正在开会.Englishisbecomingmoreandmoreimportant.英语现在越来越重要.2)be+过去分词,构成被动语态,例如：ThewindowwasbrokenbyTom..窗户是汤姆打碎的.Englishistaughtthroughouttheworld.世界各地都教英语.3）be+动
微软开源 Phi-3.5 视觉模型三花AI 三花AI microsoft 人工智能深度学习
微软刚刚发布了Phi3.5系列模型，一个小型模型("Mini")、一个混合模型("MoE")和一个视觉模型。下面是关键总结：Phi3.5Mini:3.8B参数，性能超过Llama3.1(8B)和Mistral7B，接近MistralNeMo12B。支持多种语言，使用了包含32,000个词汇的分词器。512个H100GPU，3.4万亿个tokens训练了10天。Phi3.5MoE:16x3.8B参数
好用的文本内容抽取关键词API接口调用示例天聚数行天行数据天行数据 API接口 tianapi python
用户输入的内容通常是一个不那么简洁的长尾词，通过抽取关键词接口就能快速抽取其中的核心词。该接口支持指定抽取数量和词性，其中num参数为可选，默认返回10个词语，999为不限数量。当指定wordtag参数为1时，返回一个包含词性的列表，例如把一大段文本中的人名或者把一篇文章里提到的地名单独提取出来。词性代码释义请参考中文智能分词接口词性代码释义。接口信息抽取一段文本信息中的核心关键词接口地址：htt
搜索引擎设计：如何避免大海捞针般的信息搜索 CopyLower 架构 Java 学习搜索引擎
搜索引擎设计：如何避免大海捞针般的信息搜索随着互联网的发展，信息的数量呈爆炸式增长。如何在海量信息中快速、准确地找到所需信息，成为了搜索引擎设计中的核心问题。本文将详细探讨搜索引擎的设计原理和技术，从信息获取、索引建立、查询处理、结果排序到性能优化，全面解析如何避免大海捞针般的信息搜索。目录引言信息获取网页抓取数据清洗索引建立倒排索引正排索引查询处理查询解析词法分析与分词查询扩展结果排序相关性评分
fastText 情感分类 dreampai
情感分类任务就是看一段文本，然后分辨这个人是否喜欢他们在讨论的这个东西。情感分类一个最大的挑战就是可能标记的训练集没有那么多，但是有了词嵌入，即使只有中等大小的标记的训练集，你也能构建一个不错的情感分类器image.pngimage.png假设有一个句子：“这个衣服质量不错”通过分词、去除停用词等预处理操作，得到“衣服/质量/不错”获取“衣服”、“质量”、“不错”的对应词向量（可以通过TF-IDF
ES架构及原理李澎昆 ES ES
Elasticsearch是一个兼有搜索引擎和NoSQL数据库功能的开源系统，基于Java/Lucene构建，可以用于全文搜索，结构化搜索以及近实时分析。说明：Lucene：只是一个框架，要充分利用它的功能，需要使用JAVA，并且在程序中集成Lucene，学习成本高，Lucene确实非常复杂。Elasticsearch是面向文档型数据库，这意味着它存储的是整个对象或者文档，它不但会存储它们，还会为
默默背单词-231 ss的专属赫兹
1.stinky:[ˈstɪŋki]adj.发恶臭的n.全景雷达；环视雷达站stink:[stɪŋk]v.发恶臭；（非正式）讨厌透顶n.恶臭；（非正式）大吵大闹adj.臭气熏天的；讨厌的；腐败的过去式stank或stunk过去分词stunk2.gamey:adj.味道强的；勇敢的；多猎物的3.funky:[ˈfʌŋki]adj.时髦的；畏缩的；恶臭的funk:[fʌŋk]n.恐惧；怯懦；恐怖；臭味
python 绘制词云图（自定义png形状、指定字体、颜色）最全！！！早八起得来 python python 开发语言中文分词
前言本文为分总结构，有特定需求的可以查阅前部分分结构的对应板块，最后的总结不懂的可以在分板块查阅解释。分板块分别有引用的库、阅读文本、分词并设置停用词、设置png掩膜、字体设置、生成词云图，感谢您点开这篇分享，祝顺利。目录前言一、引用的库二、阅读文本（让python阅读）三、分词并设置停用词四、设置png掩膜五、字体设置六、生成词云图总结生成示例一、引用的库fromwordcloudimportW
Elasticsearch段合并喵喵喵更多 java 运维分布式后端
欢迎访问本人博客查看原文：http://wangnan.techelasticsearch中每个索引都会创建一个到多个分片和零个到多个副本，这些分片或副本实质上都是lucene索引lucene索引是基于多个索引段创建，索引文件中绝大部分数据都是只写一次，读多次，而只有用于保存文档删除信息的文件才会被多次更改在某些时刻，当某种条件满足时，多个索引段会被拷贝合并到一个更大的索引段，而那些旧的索引段会被
Elasticsearch检索原理知知之之 Elasticsearch elasticsearch 大数据搜索引擎
Elasticsearch的检索原理主要基于其内部使用的倒排索引结构，以及诸如BM25等相关性评分算法。查询解析当用户提交查询时，Elasticsearch接收和解析该请求，包括确定查询类型（如Match、Bool、Term等）和相关字段。解析过程涉及以下步骤：查询解析：Elasticsearch会对查询进行语法和语义分析。分词处理：对查询中的文本进行分词处理，将其转换为词项，以便于与倒排索引对应
自然语言处理系列八》中文分词》规则分词》正向最大匹配法陈敬雷-充电了么-CEO兼CTO 算法人工智能大数据算法人工智能编程语言 java 自然语言处理
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》（人工智能科学与技术丛书）【陈敬雷编著】【清华大学出版社】文章目录自然语言处理系列八规则分词正向最大匹配法总结自然语言处理系列八规则分词规则分词是基于字典、词库匹配的分词方法（机械分词法），其实现的主要思想是：切分语句时，将语句特定长的字符串与字典进行匹配，匹配成功就进行切分。按照匹配的方式可分为：正向最
LSTM与文本生成 Jiang_Immortals 人工智能 lstm 人工智能 rnn
当使用Python和Keras构建LSTM模型时，可以按照以下步骤进行简单的文本生成：准备数据集：首先，将文本数据集进行预处理，例如分词、去除标点符号、将文本转换为小写等。创建一个词汇表，将每个唯一的单词映射到一个整数值，以便进行向量化。将文本序列划分为输入序列和目标序列。例如，对于句子“IloveAI”，输入序列是“Ilove”，目标序列是“AI”。构建LSTM模型：导入必要的库，如Keras和
Lucece评分公式OKapi BM25原理解析(中) 双人余_先生
背景：延续上篇写了TF/IDF的公式解析，本篇为BM25解析简单介绍。BM25起源于概率相关性模型，而不是矢量空间模型，但是该算法与Lucene的实际评分功能有很多共同点。两者都使用Term词频率，逆文档频率和字段长度归一化，但是每个因素的定义都略有不同。与其详细解释BM25公式，不如将重点放在BM25提供的实际优势上。BM25是一个词袋检索功能，它基于每个文档中出现的查询词对一组文档进行排名，而
分布式搜索引擎Elasticsearch——基础敲代码的旺财架构进阶 elasticsearch java 搜索引擎 ES-head
文章目录一、Lucene与Solr与Elasticsearch二、ES核心术语三、ES核心概念四、倒排索引五、ES的安装（centos7）1、下载地址（这里安装linux版本）2、解压压缩包3、修改配置文件(1)修改核心配置文件(2)修改JVM配置文件4、启动ES(1)添加系统用户并授权(2)ES启动(3)修改配置文件(4)再次启动ES六、安装ES-head插件（可视化管理插件）1、使用谷歌市场安
es映射配置（_mapping）小丁学Java ElasticSearch elasticsearch jenkins 大数据 _mapping 映射配置
文章目录1、创建映射字段2、查看映射关系1、创建映射字段PUT/索引库名/_mapping{"properties":{"字段名":{"type":"类型","index":true，"store":true，"analyzer":"分词器"}}}POST/atguigu/_mapping{"properties":{"title":{"type":"text","index":true,"ana
文本数据分析-（TF-IDF）（2）红米煮粥数据分析 tf-idf python
文章目录一、TF-IDF与jieba库介绍1.TF-IDF概述2.jieba库概述二、TF-IDF与jieba库的结合1.结合2.提取步骤三，代码实现1.导入必要的库读取文件：3.将文件路径和内容存储到DataFrame4.加载自定义词典和停用词5.分词并去除停用词TF-IDF（TermFrequency-InverseDocumentFrequency）与jieba库在文本处理领域有着紧密的联系
全文检索服务 ElasticSearch---------IK分词器的使用 Connection Reset 全文检索服务 ElasticSearch elasticsearch 全文检索搜索引擎
全文检索服务ElasticSearch其他相关：介绍入门及安装Field整合SpringBoot集群管理1.IK分词器1.1测试分词器在添加文档时会进行分词，索引中存放的就是一个一个的词（term），当你去搜索时就是拿关键字去匹配词，最终找到词关联的文档。测试当前索引库使用的分词器：POST/_analyze{"text":"测试分词器，后边是测试内容：springcloud实战"}结果如下：
HttpClient 4.3与4.3版本以下版本比较 spjich java httpclient
网上利用java发送http请求的代码很多，一搜一大把，有的利用的是java.net.*下的HttpURLConnection，有的用httpclient，而且发送的代码也分门别类。今天我们主要来说的是利用httpclient发送请求。 httpclient又可分为 httpclient3.x httpclient4.x到httpclient4.3以下 httpclient4.3
Essential Studio Enterprise Edition 2015 v1新功能体验 Axiba .net
概述：Essential Studio已全线升级至2015 v1版本了！新版本为JavaScript和ASP.NET MVC添加了新的文件资源管理器控件，还有其他一些控件功能升级，精彩不容错过，让我们一起来看看吧！ syncfusion公司是世界领先的Windows开发组件提供商，该公司正式对外发布Essential Studio Enterprise Edition 2015 v1版本。新版本
[宇宙与天文]微波背景辐射值与地球温度 comsci 背景
宇宙这个庞大,无边无际的空间是否存在某种确定的,变化的温度呢? 如果宇宙微波背景辐射值是表示宇宙空间温度的参数之一,那么测量这些数值,并观测周围的恒星能量输出值,我们是否获得地球的长期气候变化的情况呢? &nbs
lvs-server 男人50 server
#!/bin/bash # # LVS script for VS/DR # #./etc/rc.d/init.d/functions # VIP=10.10.6.252 RIP1=10.10.6.101 RIP2=10.10.6.13 PORT=80 case $1 in start) /sbin/ifconfig eth2:0 $VIP broadca
java的WebCollector爬虫框架 oloz 爬虫
WebCollector主页： https://github.com/CrawlScript/WebCollector 下载：webcollector-版本号-bin.zip将解压后文件夹中的所有jar包添加到工程既可。接下来看demo package org.spider.myspider; import cn.edu.hfut.dmic.webcollector.cra
jQuery append 与 after 的区别小猪猪08
1、after函数定义和用法： after() 方法在被选元素后插入指定的内容。语法： $(selector).after(content) 实例： <html> <head> <script type="text/javascript" src="/jquery/jquery.js"></scr
mysql知识充电香水浓 mysql
索引索引是在存储引擎中实现的，因此每种存储引擎的索引都不一定完全相同，并且每种存储引擎也不一定支持所有索引类型。根据存储引擎定义每个表的最大索引数和最大索引长度。所有存储引擎支持每个表至少16个索引，总索引长度至少为256字节。大多数存储引擎有更高的限制。MYSQL中索引的存储类型有两种：BTREE和HASH，具体和表的存储引擎相关； MYISAM和InnoDB存储引擎
我的架构经验系列文章索引 agevs 架构
下面是一些个人架构上的总结，本来想只在公司内部进行共享的，因此内容写的口语化一点，也没什么图示，所有内容没有查任何资料是脑子里面的东西吐出来的因此可能会不准确不全，希望抛砖引玉，大家互相讨论。要注意，我这些文章是一个总体的架构经验不针对具体的语言和平台，因此也不一定是适用所有的语言和平台的。（内容是前几天写的，现附上索引）前端架构 http://www.
Android so lib库远程http下载和动态注册 aijuans andorid
一、背景在开发Android应用程序的实现，有时候需要引入第三方so lib库，但第三方so库比较大，例如开源第三方播放组件ffmpeg库, 如果直接打包的apk包里面, 整个应用程序会大很多.经过查阅资料和实验，发现通过远程下载so文件，然后再动态注册so文件时可行的。主要需要解决下载so文件存放位置以及文件读写权限问题。二、主要
linux中svn配置出错 conf/svnserve.conf:12: Option expected 解决方法 baalwolf option
在客户端访问subversion版本库时出现这个错误： svnserve.conf:12: Option expected 为什么会出现这个错误呢，就是因为subversion读取配置文件svnserve.conf时，无法识别有前置空格的配置文件，如### This file controls the configuration of the svnserve daemon, if you##
MongoDB的连接池和连接管理 BigCat2013 mongodb
在关系型数据库中，我们总是需要关闭使用的数据库连接，不然大量的创建连接会导致资源的浪费甚至于数据库宕机。这篇文章主要想解释一下mongoDB的连接池以及连接管理机制，如果正对此有疑惑的朋友可以看一下。通常我们习惯于new 一个connection并且通常在finally语句中调用connection的close()方法将其关闭。正巧，mongoDB中当我们new一个Mongo的时候，会发现它也
AngularJS使用Socket.IO bijian1013 JavaScript AngularJS Socket.IO
目前，web应用普遍被要求是实时web应用，即服务端的数据更新之后，应用能立即更新。以前使用的技术（例如polling）存在一些局限性，而且有时我们需要在客户端打开一个socket，然后进行通信。 Socket.IO(http://socket.io/)是一个非常优秀的库，它可以帮你实
[Maven学习笔记四]Maven依赖特性 bit1129 maven
三个模块为了说明问题，以用户登陆小web应用为例。通常一个web应用分为三个模块，模型和数据持久化层user-core, 业务逻辑层user-service以及web展现层user-web， user-service依赖于user-core user-web依赖于user-core和user-service 依赖作用范围 Maven的dependency定义
【Akka一】Akka入门 bit1129 akka
什么是Akka Message-Driven Runtime is the Foundation to Reactive Applications In Akka, your business logic is driven through message-based communication patterns that are independent of physical locatio
zabbix_api之perl语言写法 ronin47 zabbix_api之perl
zabbix_api网上比较多的写法是python或curl。上次我用java－－http://bossr.iteye.com/blog/2195679，这次用perl。for example: #!/usr/bin/perl use 5.010 ; use strict ; use warnings ; use JSON :: RPC :: Client ; use
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ brotherlamp linux运维工程师 linux运维工程师教程 linux运维工程师视频 linux运维工程师资料 linux运维工程师自学
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ ----------------------------------------------------- 兄弟连Linux运维工程师课堂实录-计算机基础-1-课程体系介绍1 链接：http://pan.baidu.com/s/1i3GQtGL 密码：bl65 兄弟连Lin
bitmap求哈密顿距离-给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y( bylijinnan java
import java.util.Random; /** * 题目： * 给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y(y1,y2,y3,y4,y5)， * 使得他们的哈密顿距离（d=|x1-y1| + |x2-y2| + |x3-y3| + |x4-y4| + |x5-y5|）最大
map的三种遍历方法 chicony map
package com.test; import java.util.Collection; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Set; public class TestMap { public static v
Linux安装mysql的一些坑 chenchao051 linux
1、mysql不建议在root用户下运行 2、出现服务启动不了，111错误，注意要用chown来赋予权限，我在root用户下装的mysql，我就把usr/share/mysql/mysql.server复制到/etc/init.d/mysqld, (同时把my-huge.cnf复制/etc/my.cnf) chown -R cc /etc/init.d/mysql
Sublime Text 3 配置 daizj 配置 Sublime Text
Sublime Text 3 配置解释(默认){// 设置主题文件“color_scheme”: “Packages/Color Scheme – Default/Monokai.tmTheme”,// 设置字体和大小“font_face”: “Consolas”,“font_size”: 12,// 字体选项：no_bold不显示粗体字，no_italic不显示斜体字，no_antialias和
MySQL server has gone away 问题的解决方法 dcj3sjt126com SQL Server
MySQL server has gone away 问题解决方法，需要的朋友可以参考下。应用程序（比如PHP）长时间的执行批量的MYSQL语句。执行一个SQL，但SQL语句过大或者语句中含有BLOB或者longblob字段。比如，图片数据的处理。都容易引起MySQL server has gone away。今天遇到类似的情景，MySQL只是冷冷的说：MySQL server h
javascript/dom:固定居中效果 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&
使用 Spring 2.5 注释驱动的 IoC 功能 e200702084 spring bean 配置管理 IOC Office
使用 Spring 2.5 注释驱动的 IoC 功能 developerWorks 文档选项将打印机的版面设置成横向打印模式打印本页将此页作为电子邮件发送将此页作为电子邮件发送级别：初级陈雄华 ([email protected]), 技术总监, 宝宝淘网络科技有限公司 2008 年 2 月 28 日 &nb
MongoDB常用操作命令 geeksun mongodb
1. 基本操作 db.AddUser(username,password) 添加用户 db.auth(usrename,password) 设置数据库连接验证 db.cloneDataBase(fromhost)
php写守护进程（Daemon） hongtoushizi PHP
转载自： http://blog.csdn.net/tengzhaorong/article/details/9764655 守护进程（Daemon）是运行在后台的一种特殊进程。它独立于控制终端并且周期性地执行某种任务或等待处理某些发生的事件。守护进程是一种很有用的进程。php也可以实现守护进程的功能。 1、基本概念 &nbs
spring整合mybatis,关于注入Dao对象出错问题 jonsvien DAO spring bean mybatis prototype
今天在公司测试功能时发现一问题：先进行代码说明： 1，controller配置了Scope="prototype"（表明每一次请求都是原子型） @resource/@autowired service对象都可以（两种注解都可以）。 2，service 配置了Scope="prototype"（表明每一次请求都是原子型）
对象关系行为模式之标识映射 home198979 PHP 架构企业应用对象关系标识映射
HELLO!架构一、概念 identity Map:通过在映射中保存每个已经加载的对象，确保每个对象只加载一次，当要访问对象的时候，通过映射来查找它们。其实在数据源架构模式之数据映射器代码中有提及到标识映射，Mapper类的getFromMap方法就是实现标识映射的实现。二、为什么要使用标识映射？在数据源架构模式之数据映射器中 //c
Linux下hosts文件详解 pda158 linux
　1、主机名：　　无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。　　公网：IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。　　局域网：每台机器都有一个主机名，用于主机与主机之间的便于区分，就可以为每台机器设置主机
nginx配置文件粗解 spjich java nginx
#运行用户#user nobody;#启动进程,通常设置成和cpu的数量相等worker_processes 2;#全局错误日志及PID文件#error_log logs/error.log;#error_log logs/error.log notice;#error_log logs/error.log inf
数学函数 w54653520 java
public class S { // 传入两个整数，进行比较，返回两个数中的最大值的方法。 public int get( int num1, int nu