weixin_33762321

Solr：文本分析

文本分析时搜索引擎的核心工作之一，对文本包含许多处理步骤，比如：分词、大写转小写、词干化、同义词转化等。简单的说，文本分析就说将一个文本字段的值转为一个一个的token，然后被保存到Lucene的索引结构中被将来搜索用。当然，文本分析不仅在建立索引时有用，在查询时对对所输入的查询串也一样可以进行文本分析。在 Solr Schema设计中我们介绍了许多Solr中的字段类型，其中最重要的是solr.TextField，这个类型可以进行分析器配置来进行文本分析。

接下来我们先来说说什么是分析器。

分析器

一个分析器可以检查字段的文本信息，并且产生一个 token 流。

分析器是 schema.xml 中元素的一个子元素，通常使用中，只有 solr.TextField 类型的字段会专门制定一个分析器。最简单配置一个分析器的方式是使用元素，制定这个元素的 class 属性为一个完整的 Java 类名。这些类名必须源自 org.apache.lucene.analysis.Analyzer 。

<fieldType name="nametext" class="solr.TextField">
　　<analyzer class="org.apache.lucene.analysis.WhitespaceAnalyzer"/>
fieldType>

在这个例子中，WhitespaceAnalyzer 这个类负责分析文本字段的内容并且产生出正确的 tokens。如果只是简单的文本，例如“this is a pig"，像这样的一个分析器的类足可以应付了，但是我们经常需要对字段内容做复杂的分析，这就需要把分析作为多个独立的简单步骤来进行处理了。

以下是处理复杂分析的示例，在元素（不是类属性）下添加分词器和过滤器的工厂类：

<fieldType name="nametext" class="solr.TextField">
　　<analyzer>
　　　　<tokenizer class="solr.StandardTokenizerFactory"/>
　　　　<filter class="solr.LowerCaseFilterFactory"/>
　　　　<filter class="solr.StopFilterFactory"/>
　　analyzer>
fieldType>

需要说明的话solr.前缀的包，其实是指向 org.apache.solr.analysis 这个包

在这个例子中，在元素没有指定分析器的类，而是一系列的类共同承担一个字段的分析器。文本首先传到列表的第一个元素（solr.StandardTokenizerFactory），然后再依次执行filter。简单的说就是经过Tokenizer分词之后，再继续处理，比如全转成小写、时态处理、去掉语气词等，产生出来的tokens 作为 terms 在字段的索引和查询时使用。

现在我们来看下Solr示例Schema配置中的text_en_splitting字段类型的定义，看看它用了哪些分析组件。

    
    <fieldType name="text_en_splitting" class="solr.TextField" positionIncrementGap="100" autoGeneratePhraseQueries="true">
      <analyzer type="index">
 　　　　
        <tokenizer class="solr.WhitespaceTokenizerFactory"/>
        
        
        <filter class="solr.StopFilterFactory"
                ignoreCase="true"
                words="lang/stopwords_en.txt"
                />
        <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="1" catenateNumbers="1" catenateAll="0" splitOnCaseChange="1"/>
        <filter class="solr.LowerCaseFilterFactory"/>
        <filter class="solr.KeywordMarkerFilterFactory" protected="protwords.txt"/>
        <filter class="solr.PorterStemFilterFactory"/>
      analyzer>
      <analyzer type="query">
        <tokenizer class="solr.WhitespaceTokenizerFactory"/>
        <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
        <filter class="solr.StopFilterFactory"
                ignoreCase="true"
                words="lang/stopwords_en.txt"
                />
        <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="0" catenateNumbers="0" catenateAll="0" splitOnCaseChange="1"/>
        <filter class="solr.LowerCaseFilterFactory"/>
        <filter class="solr.KeywordMarkerFilterFactory" protected="protwords.txt"/>
        <filter class="solr.PorterStemFilterFactory"/>
      analyzer>
    fieldType>

Type属性可以指定为index或是query值，分别表示是索引时用的分析器，和查询时所用的分析器。如果在索引和查询时使用相同的分析器，你可以不指定type属性值。

分析器的配置中可以选用一个或多个字符过滤器（character filter），字符过滤器是对原始文本进行字符流级别的操作。它通常可以用于大小写转化，去除字母上标等等。在字符过滤器之后是分词器（Tokenizer），它是必须要配置的。分析器会使用分词器将字符流切分成词元（Token）系列，通常用在空格处切分这种简单的算法。后面的步骤是可选的，比如token过滤器（Token Filter）会对token进行许多种操作，最后产生的词元会被称为词（Term），即用于Lucene实际索引和查询的单位。

最后，我有必须对autoGeneratePhraseQueries布尔属性补充两句，这个属性只能用于文本域。如果在查询文本分析时产生了多个词元，比如Wi-Fi分词为Wi和Fi，那么默认情况下它们只是两个不同的搜索词，它们没有位置上的关系。但如果autoGeneratePhraseQueries被设置，那么这两个词元就构造了一个词组查询，即“WiFi”，所以索引中“WiFi”必须相邻才能被查询到。在新Solr版本中，默认它被设置为false。我不建议使用它。

在Admin上对字段进行分析

在我们深入特定分析组件的细节之前，有必要去熟悉Solr的分析页面，它是一个很好的实验和查错工具，绝对不容错过。你将会用它来验证不同的分析配置，来找到你最想要的效果，你还可以用它来找到你认为应该会匹配的查询为什么没有匹配。在Solr的管理页面，你可以看到一个名为[Analysis]的链接，你进入后，会看到下面的界面。

界面上的第一个选项是必选的，你可选择直接通过字段类型名称来选择类型，你也可以间接地通过一个字段的名字来选择自端类型。在上面的示例中，我选择了title字段

通过Schema Browser可以看到这个字段类型是 text_general

点击灰色的 text_general，可以看到这个字段的分析器中定义的分词器和过滤器

接下来，你可以分析索引或是查询文本，也可以两者同时分析。你需要输入些文本到文本框中以进行分析。将字段值放到Index文本框中，将查询文本放入Query文本框中，点击Analyze按钮看到一下文本处理结果，因为还没有中文处理，所以中文都被一个字一个字的分开处理了。

你可以选中verbose output来查看处理的详细信息，我希望你能自己试一下。

上图中每一行表示分析器处理链上的每一步的处理结果。比如第三个分析组件是LowerCaseFilter，它的处理结果就在第三行。前面的ST/SF/LCF应该是分词器和过滤器的简称。

下面我们接着来详细看看有哪些分词器和过滤器吧。

Character Filter

字符过滤器在元素中定义，它是对字符流进行处理。字符过滤器种类不多。这个特性只有下面第一个介绍的比较常见。

MappingCharFilterFactory：它将一个字符（或字符串）映射到另一个，也可以映射为空。换言之，它是一个查找-替换的功能。在mapping属性中你可以指定一个配置文件。Solr的示例配置中包括了两个有用的映射配置文件：

1. mapping-FoldToASCII.txt：一个丰富的将non-ASCII转化成ASCII的映射。如果想了解字符映射更多的细节，可以阅读这个文件顶部的注释。这个字符过滤器有一个类似的词元过滤器ASCIIFoldFilterFactory，这个词元过滤器运行速度更快，建议使用它。
2. maping-ISOLatinAccent.txt：一个更小的映射文件子集，它只能将ISO Latin1上标映射。FoldToASCII内容更丰富，所以不建议使用这个配置。

HTMLStripCharFilterFactory：它用于HTML和XML，它不要求它们格式完全正确。本质上它是移除所有的标记，只留下文本内容。移除脚本内容和格式元素。转义过的特殊字符被还原（比如&）。
PatternReplaceCharFilterFactory：根据pattern属性中的正则表达式进行查找，并根据replacement属性中的值进行替换。它的实现需要一个缓冲区容器，默认设置为10000个字符，可以通过maxBlockChars进行配置。分词器和词元过滤器中也有正则表达式组件。所以你应该只在会影响分词的影响下使用它，比如对空格进行处理。

Tokenization

分词器在元素中定义，它将一个字符流切分成词元序列，大部分它会去除不重要的符号，比如空字符和连接符号。

一个分析器有且只应有一个分词器，你可选的分词器如下：

KeywordTokenizerFactory：这个分词器不进行任何分词！整个字符流变为单个词元。String域类型也有类似的效果，但是它不能配置文本分析的其它处理组件，比如大小写转换。任何用于排序和大部分Faceting功能的索引域，这个索引域只有能一个原始域值中的一个词元。
WhitespaceTokenizerFactory：文本由空字符切分（即，空格，Tab，换行）。
StandardTokenizerFactory：它是一个对大部分西欧语言通常的分词器。它从空白符和其它Unicode标准中的词分隔符处进行切分。空白符和分隔符会被移除。连字符也被认为是词的分隔符，这使得它不适合与WordDelimiterFilter一起用。
UAX29URLEmailTokenizer：它表现的与StandardTokenizer相似，但它多了一个识别e-mail，URL并将它们视为单个词元的特性。
ClassicTokenizerFactory：（曾经的StandardTokenizer）它是一个英语的通用分词器。对英语来说，它优于StandardTokenizer。它可以识别有点号的缩写词，比如I.B.M.。如果词元中包含数字它不会在连字符处分词，并可以将Email地址和主机名视为单个词元。并且ClassicFilter词元过滤器经常与这个分词器配合使用。ClassicFilter会移除缩写词中的点号，并将单引号（英语中的所有格）去除。它只能与ClassicTokenizer一起使用。
LetterTokenizerFactory：这个分词器将相邻的字母（由Unicode定义）都视为一个词元，并忽略其它字符。
LowerCaseTokenizerFactory：这个分词器功能上等同于LetterTokenizer加上LowerCaseFilter，但它运行更快。
PatternTokenizerFactory：这个基于正则表达式的分词器可以以下面两种方式工作：
1. 通过一个指定模式切分文本，例如你要切分一个用分号分隔的列表，你可以写：.
2. 只选择匹配的一个子集作为词元。比如：。组属性指定匹配的哪个组将被视为词元。如果你输入的文本是aaa ‘bbb’ ‘ccc’，那么词元就是bbb和ccc。
PathHierachyTokenizerFactory：这是一个可配置的分词器，它只处理以单个字符分隔的字符串，比如文件路径和域名。它在实现层次Faceting中很有用，或是可以过滤以某些路径下的文件。比如输入字符串是/usr/local/apache会被分词为三个词元：/usr，/usr/local，/usr/local/apache。这个分词器有下面四个选项：
1. Delimiter：分隔字符：默认为/
2. Replace：将分隔字符替换为另一字符（可选）
3. Reverse：布尔值表明是否层次是从右边开始，比如主机名，默认：false。
4. Skip：忽略开头的多少个词元，默认为0.
WikipediaTokenizerFactory：一个用于Mediawiki语法（它用于wikipedia）的实验性质的分词器。

还有用于其它语言的分词器，比如中文和俄语，还有ICUTokenizer会检测语言。另外NGramtokenizer会在后面讨论。可以在http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters中找到更多内容。

WordDelimiterFilter

它也许不是一个正式的分词器，但是这个名为WordDeilimiterFilter的词元过滤器本质上是一个分词器。

<filter class="solr.WordDelimiterFilterFactory"

generateWordParts="1" generateNumberParts="catenateWords="1" catenateNumbers="1"

catenateAll="0" splitOnCaseChange="1"/>

上面并没有给出所有的选项，这个过滤器可以通过多种配置指定如切分和连接合成词，并有多种定义合成词的方法。这个过滤器通常与WhitespaceTokenizer配合，而不是StandardTokenizer。这个过滤器的配置中1是设置，0是重置。

WordDelimiterFilter先通过配置选项中的定义切分词元：

词间的分隔符切分：Agile-Me切为Agile，Me
字母和数据间的切分：SD500切为SD，500（如果设置splitOnNumerics）
忽略任何分隔符：hello,Agile-Me切为hello, Agile,Me
移除所有格’s：David’s切为Divid（如果设置stemEnglishPocessive）
在小写到大小时切分：Agile-Me切为agile,me（如果设置splitOnCaseChange）

此时，如果下面的选项没有设置，上面这些切分后的词都要被过滤掉。因为默认下面的选项设置为false，你一般至少要设置下面其中一项。

如果设置generateWordParts或是generateNumberParts，那么全是字母或是全是数字的词元就会不被过滤。他们还会受到连接选项的进一步影响。
连接多个全字母的词元，设置catenateWords（比如wi-fi连接为wifi）。如果generateWordParts设置了，这个例子还是会产生wi和fi，反过来不成立。catenateNumbers工作方式也是相似的。catenateAll会考虑连接所有的词到一起。
要保留原始的词，设置preserveOriginal。

下面是一个对上面选项的解释的例子：

WiFi-802.11b 切为 Wi,Fi,WiFi,802,11,80211,b,WiFi80211b, WiFi-802.11b

Stemming

词干化是去除词尾变化或是有时将派生词变回它们的词干——基本形的过程。比如，一种词干化算法可能会将Riding和Rides转化为Ride。词干化有助于提高结果召回率，但是会对准确率造成负影响。如果你是处理普通文本，你用词干化会提高你的搜索质量。但是如果你要处理的文本都是名词，比如在MusicBrainz中的艺术家名字，那么深度的词干化可能会影响结果。如果你想提高搜索的准确率，并且不降低完整率，那么你可以考虑将数据索引到两个域，其中一个进行词干化，另一个不进行词干化，在搜索时查找这两个域。

大多词干器产生的词干化的词元都不再是一个拼写合法的单词，比如Bunnies会转化为Bunni，而不是Bunny，Quote转化为Quot，你可以在Solr的文本分析页面看到这些结果。如果在索引和查找时都进行词干化，那么是不会影响搜索的。但是一个域词干化之后，就无法进行拼写检查，通配符匹配，或是输入提示，因为这些特性要直接用索引中的词。

下面是一些适用于英文的词干器：

SnowballPorterFilterFactory：这个词干器允许选择多种词干器算法，这些词干器算法是由一个名为Snowball的程序产生的。你可以在language属性中指定你要选择的词干器。指定为English会使用Porter2算法，它比原生的Porter的算法有一点点改进。指定为Lovins会使用Lovins算法，它比起Porter有一些改进，但是运行速度太慢。
PorterStemFIlterFactory：它是原生的英语Porter算法，它比SnowBall的速度快一倍。
KStemFilterFactory：这个英语词干器没有Porter算法激进。也就是在很多Porter算法认为应该词干化的时候，KSterm会选择不进行词干化。我建议使用它为默认的英语词干器。
EnglishMinimalStemFilterFactory：它是一个简单的词干器，只处理典型的复数形式。不同于多数的词干器，它词干化的词元是拼写合法的单词，它们是单数形式的。它的好处是使用这个词干器的域可以进行普通的搜索，还可以进行搜索提示。

Correcting and augmenting stemming

上面提到的词干器都是使用算法进行词干化，而不是通过词库进行词干化。语言中有许多的拼写规则，所以算法型的词干器是很难做到完美的，有时在不应该进行词干化的时候，也进行了词干化。

如果你发现了一些不应该进行词干化的词，你可以先使用KeywordMarkerFilter词干器，并在它的protected属性中指定不需要词干化的词元文件，文件中一行一个词元。还有ignoreCase布尔选项。一些词干器有或以前有protected属性有相似的功能，但这种老的方式不再建议使用。

如果你需要指定一些特定的单词如何被词干化，就先使用StemmerOverrideFilter。它的dictionary属性可以指定一个在conf目录下的UTF-8编码的文件，文件中每行两个词元，用tab分隔，前面的是输入词元，后面的是词干化后的词元。它也有ignoreCase布尔选项。这个过滤器会跳过KeywordMarkerFilter标记过的词元，并且它会标记它替换过的词元，以使后面的词干器不再处理它们。

下面是三个词干器链在分析器中配置的示例：

<filter class="solr.KeywordMarkerFilterFactory" protected="protwords.txt" />

<filter class="solr.StemmerOverrideFilterFactory" dictionary="stemdict.txt" />

<filter class="solr.PorterStemFilterFactory" />

Synonyms

进行同义词处理的目的是很好理解的，在搜索时搜索所用的关键词可能本身并不匹配文档中的任何一个词，但文档中有这个搜索关键词的同义词，但一般来讲你还是想匹配这个文档的。当然，同义词并一定不是按字典意义上同义词，它们可以是你应该中特定领域中的同义词。

这下一个同义词的分析器配置：

<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt"  ignoreCase="true" expand="true"/>

synonyms的属性值是在conf目录下的一个文件。设置ignoreCase为true在查找同义词时忽略大小写。

在我们讨论expand选项前，我们考虑一个例子。同义词文件是一行行的。下面是一个显式映射的例子，映射用=>符号表示：

i-pod, i pod =>ipod

这表示如果在输入词元流中如果发现i-pod（一个词元）或是i pod（两个词元），都会替换为ipod。替换的同义词也可以是多个词元。逗号是分隔多个同义词之间的分隔符，同义词的词元间用空格分隔。如果你要实现自定义的不用空格分隔的格式，有一个tokenizerFactory属性，但它极少被使用。

你也可能看到配置文件里是这样的格式：

ipod, i-pod, i pod

配置文件里没有=>符号，它的意义由expand参数来决定，如果expand为true，它会被解释为下面的显式映射：

ipod, i-pod, i pod =>ipod, i-pod, i pod

如果expand设置为false，它就变为下面的显式映射，第一个同义词为替换同义词：

ipod, i-pod, i pod =>ipod

在多行中指定多个词替换为共一同义词是允许的。如果一个源同义词已经被规则替换了，另一个规则替换这个替换后词，则这两个规则可以合并。

Index-time versus query-time, and to expand or not

如果你要进行同义词扩展，你可以在索引时或是查询时进行同义处理。但不要在索引和查询时都处理，这样处理会得到正确的结果，但是会减慢处理速度。我建议在索引时进行扩展，因为在查询时进行会有下面的问题：

一个源同义词包含多个词元（比如：i pod）不会在查询时被查询时被识别，因为查询解析器会在分析器处理之前就对空格进行切分。
如果被匹配的一个同义词在所有文档中很少出现，那么Lucene打分算法中的IDF值会很高，这会使得得分不准确。
前缀，通配符查询不会进行文本分析，所以不会匹配同义词。

但是任何在索引时进行的分文本处理都是不灵活的。因为如果改变了同义词则需要完全重建索引才能看到效果。并且，如果在索引时进行扩展，索引会变大，如果你使用WordNet类似的同义词规则，可能索引大到你不能接受，所以你在同义词扩展规则上应该选择一个合理的度，但是我通常还是建议在索引时扩展。

你也许可以采用一种混合策略。比如，你有一个很大的索引，所以你不想对它经常重建，但是你需要使新的同义词迅速生效，所以你可以将新的同义词在查询时和索引时都使用。当全量索引重建完成后，你可以清空查询同义词文件。也许你喜欢查询时进行同义词处理，但你无法处理个别同义词有空格的情况，你可以在索引时处理这些个别的同义词。

Stop Words

StopFilterFactory是一个简单的过滤器，它是过滤掉在配置中指定的文件中的停词（stop words），这个文件在conf目录下，可以指定忽略大小写。

<filter class="solr.StopFilterFactory" words="stopwords.txt" ignoreCase="true"/>

如果文档中有大量无意义的词，比如“the”，“a”，它们会使索引变大，并在使用短语查询时降低查询速度。一个简单的方法是将这些词经常出现的域中过滤掉，在包含多于一句(sentence)的内容的域中可以考虑这种作法，但是如果把停词过滤后，就无法对停词进行查询了。所以如果你要使用，应该在索引和查询分析器链中都使用。这通常是可以接受的，但是在搜索“To be or not to be”这种句子时，就会有问题。对停词理想的做法是不要去过滤它们，以后介绍CommonGramsFilterFactory来解决这个问题。

Solr自带了一个不错的英语停词集合。如果你在索引非英语的文本，你要用自己指定停词。要确定你索引中有哪些词经常出现，可以从Solr管理界面点击进入SCHEMA BROWSER。你的字段列表会在左边显示，如果这个列表没有立即出现，请耐心点，因为Solr要分析你索引里的数据，所以对于较大的索引，会有一定时间的延时。请选择一个你知道包含有大量文本的域，你可以看到这个域的大量统计，包括出现频率最高的10个词。

Phonetic sound-like analysis

语音转换（phonetic translation）可以让搜索进行语音相似匹配。语音转化的过滤器在索引和查询时都将单词编码为phoneme。有五种语音编码算法：Caverphone，DoubleMetaphone，Metaphone，RefinedSoundex和Soundex。有趣的是，DoubleMetaphone似乎是最好的选择，即使是用在非英语文本上。但也许你想通过实验来选择算法。RefinedSoundex声称是拼写检查应用中最适合的算法。然而，Solr当前无法在它的拼写检查组件中使用语音分析。

下面是在schema.xml里推荐使用的语音分析配置。



<fieldType name="phonetic" class="solr.TextField" positionIncrementGap="100" stored="false" multiValued="true">

　　<analyzer>

　　　　<tokenizer class="solr.WhitespaceTokenizerFactory"/>

　　　　<filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="0" catenateWords="1" catenateNumbers="0" catenateAll="0"/>

　　　　<filter class="solr.DoubleMetaphoneFilterFactory" inject="false" maxCodeLength="8"/>

　　analyzer>

fieldType>

注意，语音编码内部忽略大小写。

在MusicBrainz Schema中，有一个名为a_phonetic使用这个域类型，它的域值是通过copyField拷贝的Artist名字。第四章你会学习到dismax查询解析器可以让你对不同的域赋不同的boost，同时查找这几个域。你可以不仅仅搜索a_name域，你还可以用一个较低的boost来搜索a_phonenic域，这样就可以进行兼顾语音搜索了。

用Solr的分析管理页面，你可以看到这它将Smashing Pumpkins编码为SMXNK|XMXNK PMPKNS（|表示两边的词元在同一位置）。编码后的内容看起来没什么意义，实际它是为比较相似语音的效率而设计。

上面配置示例中使用的DoubleMetaphoneFilterFactory分析过滤器，它有两个选项：

Inject：默认设置为true，为true会使原始的单词直接通过过滤器。这会影响其它的过滤器选项，查询，还可能影响打分。所以最好设置为false，并用另一个域来进行语音索引。
maxCodeLength：最大的语音编码长度。它通常设置为4。更长的编码会被截断。只有DoubleMetaphone支持这个选项。

如果要使用其它四个语音编码算法，你必须用这个过滤器：

<filter class="solr.PhoneticFilterFactory" encoder="RefinedSoundex" inject="false"/>

其中encoder属性值是第一段中的几个算法之一。

Substring indexing and wildcards

通常，文本索引技术用来查找整个单词，但是有时会查找一个索引单词的子串，或是某些部分。Solr支持通配符查询（比如mus*ainz），但是支持它需要在索引时过行一定的处理。

要理解Lucene在索引时内部是如何支持通配符查询是很有用的。Lucene内部会在已经排序的词中先查询非通配符前缀（上例中的mus）。注意前缀的长度与整个查询的时间为指数关系，前缀越短，查询时间越长。事实上Solr配置Lucene中不支持以通配符开头的查询，就是因为效率的原因。另外，词干器，语音过滤器，和其它一些文本分析组件会影响这种查找。比如，如果running被词干化为run，而runni*无法匹配。

ReversedWildcardFilter

Solr不支持通配符开头的查询，除非你对文本进行反向索引加上正向加载，这样做可以提高前缀很短的通配符查询的效率。

下面的示例应该放到索引文本分析链的最后：

<filter class="solr.ReversedWildcardFilterFactory" />

你可以在JavaDocs中了解一些提高效率的选项，但默认的就很不错：http://lucene.apache.org/solr/api/org/apache/solr/analysis/ReversedWildcardFilterFactory.html

Solr不支持查询中同时有配置符在开头和结尾，当然这是出于性能的考虑。

N-grams

N-gram分析会根据配置中指定的子中最小最大长度，将一个词的最小到最大的子串全部得到，比如Tonight这个单词，如果NGramFilterFactory配置中指定了minGramSize为2，maxGramSize为5，那么会产生下面的索引词：(2-grams)：To, on , ni, ig, gh, ht，(3-grams)：ton, oni, nig, ight, ght, (4-grams)：toni, onig, nigh, ight, (5-grams)：tonig，onigh, night。注意Tonight完整的词不会产生，因为词的长度不能超过maxGramSize。N-Gram可以用作一个词元过滤器，也可以用作为分词器NGramTokenizerFactory，它会产生跨单词的n-Gram。

下是是使用n-grams匹配子串的推荐配置：

<fieldType name="nGram" class="solr.TextField" positionIncrementGap="100" stored="false" multiValued="true">

　　<analyzer type="index">

　　　　<tokenizer class="solr.StandardTokenizerFactory"/>

　　　　

　　　　<filter class="solr.LowerCaseFilterFactory"/>

　　　　<filter class="solr.NGramFilterFactory" minGramSize="2" maxGramSize="15"/>

　　analyzer>

　　<analyzer type="query">

　　　　<tokenizer class="solr.StandardTokenizerFactory"/>

　　　　

　　　　<filter class="solr.LowerCaseFilterFactory"/>

　　analyzer>

fieldType>

注意n-Gram只在索引时进行，gram的大小配置是根据你想进行匹配子串的长度而决定的（示例中是最小是2，最长是15）。

N_gram分析的结果可以放到另一个用于匹配子串的域中。用dismaxquery解析器支持搜索多个域，在搜索匹配这个子串的域可以设置较小的boost。

另一个变形的是EdgeNGramTokenizerFactory和EdgeNGramFilterFactory，它会忽略输入文本开头或结尾的n-Gram。对过滤器来说，输入是一个词，对分词器来说，它是整个字符流。除了minGramSize和maxGramSize之后，它还有一个side参数，可选值为front和back。如果只需要前缀匹配或是后缀匹配，那边EdgeNGram分析是你所需要的了。

N-gram costs

n-Gram的代价很高，前面的例子中Tonight有15个子串词，而普通的文本分析的结果一般只有一个词。这种转换会产生很多词，也就需要更长的时间去索引。以MusicBrainz Schema为例，a_name域以普通方式索引并stored，a_ngram域对a_name中的值进行n-Gram分析，子串的长度为2-15。它不是一个stored域，因为Artist的名字已经保存在a_name中了。

a_name a_name + a_ngram

Increase

Indexing Time 46 seconds 479 seconds > 10x

Disk Size 11.7 MB 59.7 MB > 5x

Distinct Terms 203,431 1,288,720 > 6x

上表给出了只索引a_name和索引a_name和a_ngram的统计信息。注意索引时间增加了10倍，而索引大小增加了5倍。注意，这才只是一个域。

注意如果变大minGramSize的大小，nGram的代价会小很多。Edge nGraming也代价也会小，因为它只关心开头或结尾的nGram。基于nGram的分词器无疑会比基于nGram的过滤器代码要高，因为分词器将产生带空格的词，然而，这种方式可以支持跨词的通配符。

Sorting Text

通常，搜索结果是由神奇的score伪字段进行排序的，但是有时候也会根据某个字段的值进行排序。除了对结果进行排序，它还有许多的作用，进行区间查询和对Facet结果进行排序。

MusicBrainz提供了对Artist和Lable名称进行排序的功能。排序的版本会将原来的名字中的某些词，比如“The”移到最后，用逗号分隔。我们将排序的名字域设置为indexed，但不是stored，因为我们要对它进行排序，但不进行展示，这与MusicBrainz所实现的有所不同。记住indexed和stored默认设置为true。因为有些文本分析组件会限制text域的排序功能，所以在你的Schema中要用于排序的文本域应该拷贝到另一个域中。copyField功能会很轻松地完成这个任务。String类型不进行文本分析，所以它对我们的MusicBrainz情况是非常适合的。这样我们就支持了对Artist排序，而没有派生任何内容。

Miscellaneous token filters

Solr还包括许多其它的过滤器：

ClassicFilterFactory：它与ClassicTokenizer配置，它会移除缩写词中的点号和末尾的’s："I.B.M. cat's" => "IBM", "cat"
EnglishProcessiveFilterFactory：移除’s。
TrimFilterFactory：移除开头和结尾的空格，这对于脏数据域进行排序很有用。
LowerCaseFilterFactory：小写化所有的文本。如果你要用WordDelimeterFilterFactory中的大小写转换切分功能，你就不要将这个过滤器放前面。
KeepWordFilterFactory：只保留指定配置文件中的词：ignoreCase="true"/> 如果你想限制一个域的词汇表，你可以使用这个过滤器。
LengthFilterFactory：过滤器会过滤掉配置长度之间的词：
LimitTokenCountFilterFactory：限制域中最多有多少个词元，数量由maxTokenCount属性指定。Solr的solrconfig.xml中还有设置，它对所有域生效，可以将它注释掉，不限制域中的词元个数。即使没有强制限制，你还要受Java内存分配的限制，如果超过内存分配限制，就会抛出错误。
RemoveDuplicatestTokenFilterFactory：保存重复的词不出现在同一位置。当使用同义词时这是可能发生的。如果还要进行其它的分本分析，你应该把这个过滤器放到最后。
ASCIIFoldingFilterFactory：参见前面的“Character filter”一节中的MappingCharFilterFactory。
CapitalizationFilterFactory：根据你指定的规则大写每个单词。你可以在http://lucene.apache.org/solr/api/org/apache/solr/analysis/CapitalizationFilterFactory.html中了解更多内容。
PatternReplaceFilterFactory：使用正则表达式查找替换。比如：replacement="$1" replace="first" /> 这个例子是处理e-mail地址域，只取得地址中的域名。Replacement是正则表达式中的组，但它也可以是一个字符串。如果replace属性设置为first，表示只替换第一个匹配内容。如果replace设置为all，这也是默认选项，则替换全部。
实现你自己的过滤器：如果现有的过滤器无法满足你的需求。你可以打开Solr的代码看一下里面是如何实现的。在你深入之前，你看PatternReplaceFilterFactory的实现是如此简单。作为一个初学者，可以看一下在本书提供的补充资料中schema.xml中的rType域类型。
还有其它各式各样的Solr过滤器，你可以在http://lucene.apache.org/solr/api/org/apache/solr/analysis/TokenFilterFactory.html 中了解所有的过滤器。

你可能感兴趣的:(Solr：文本分析)

Apache Tika入门野生开发者 #Java
文章目录1、基本介绍2、Tika使用2.1、解析器接口（TheParserinterface）2.1.1、自定义Parser类2.2、检测器接口2.3、Tika配置1、基本介绍ApacheTika（文本分析工具包）能够检测并提取来自上千种不同文件类型(如PPT、XLS和PDF)的元数据和文本；所有这些文件类型都可以通过一个接口进行解析，这使得Tika在搜索引擎索引、内容分析、翻译等方面非常有用。2
PPT处理控件Aspose功能演示：使用C＃从PowerPoint文件中提取文本 Lee-Shyllen Aspose 文档开发文档管理 aspose PPT 文档开发文档处理
有时需要从PowerPoint幻灯片中提取文本以执行文本分析。另一方面，可能需要提取文本并将其保存在文件或数据库中以进行进一步处理。因此，本文介绍了如何使用C＃从PowerPoint演示文稿中提取文本。特别是，将学习如何从特定的幻灯片或整个演示文稿中提取文本。从PowerPoint幻灯片中提取文本从PowerPoint演示文稿中提取文本为了处理PowerPoint演示文稿，Aspose提供Aspo
[特殊字符] Python 实战 | 批量统计中文文档词频并导出 Excel happydog007 python自动化办公 python 开发语言
本文展示如何用Python脚本：批量读取文件夹中的多篇中文文档；用jieba分词并统计词频（过滤停用词与单字符）；将各文档词频输出为对应Excel文件；是文本分析、内容审查、报告编写中的实用技巧。Step1：批量加载文件夹中文本文件路径importospath='主要业务'files=[os.path.join(path,f)forfinos.listdir(path)]使用标准库os.listd
使用Python爬虫与自然语言处理技术抓取并分析网页内容 Python爬虫项目 python 爬虫自然语言处理 javascript 数据分析人工智能
1.引言在如今数据驱动的时代，网页爬虫（WebScraping）和自然语言处理（NLP）已成为处理大量网页数据的重要工具。利用Python爬虫抓取网页内容，结合NLP技术进行文本分析和信息抽取，能够从大量网页中提取有价值的信息。无论是新闻文章的情感分析、社交媒体的舆情分析，还是电商网站的商品评论挖掘，这些技术都发挥着至关重要的作用。本文将介绍如何利用Python爬虫与自然语言处理技术抓取并分析网页
canal实现Mysql数据同步 BUG指挥官 MySQL数据库相关讲解 mysql 数据库
在当今互联网行业尤其是现在分布式、微服务开发环境下，为了提高搜索效率，以及搜索的精准度，会大量使用Redis、Memcached等NoSQL数据库，也会使用大量的Solr、Elasticsearch等全文检索服务和搜索引擎。那么，这个时候，就会有一个问题需要我们来思考和解决：那就是数据同步的问题！如何将实时变化的数据库中的数据同步到Redis/Memcached或者Solr/Elasticsear
如果用于AI评课系统的话——五款智能体比较东方-教育技术博主人工智能应用人工智能
你目前的项目特点是：已经具备了课堂文本分析、大模型对话系统、课堂视频分析的技术模块；计划通过智能体调用你现有的Python分析脚本，实现数据分析、自动可视化，并与教师互动；更强调多智能体协作、流程灵活编排，以及循证研究的交互分析。因此，我们重点考量生态成熟度、流程编排能力、多智能体协作能力、易用性四个维度。下面逐个分析你提到的框架：智能体框架综合对比分析：框架生态成熟度多智能体能力流程编排能力易用
Python爬虫实战：研究jieba相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 html jieba 分词
1.引言1.1研究背景与意义随着互联网技术的飞速发展，网络新闻已成为人们获取信息的主要渠道之一。每天产生的新闻文本数据量呈爆炸式增长，如何从海量文本中高效提取有价值的信息，成为信息科学领域的重要研究课题。文本分析技术通过对文本内容的结构化处理和语义挖掘，能够揭示隐藏在文本中的主题、情感和趋势，为舆情监测、信息检索、内容推荐等应用提供技术支持。1.2研究目标与方法本研究旨在构建一个完整的新闻文本分析
Fastapi+Celery实现异步回调现实、狠残酷项目部署 fastapi
这里写目录标题场景简介（模拟大模型调用）：一、准备工作二、FastAPI+Celery项目结构三、项目代码test_client.pymain.pytasks.pytest.py四、测试流程场景简介（模拟大模型调用）：用户请求接口/analyze，传入一个文本；FastAPI处理后，用Celery异步任务模拟调用大模型进行文本分析；分析完成后，调用用户提供的回调地址（比如/callback）并把分
Linux文本处理三剑客实战指南：grep、sed、awk
目录三剑客简介与对比grep：文本搜索利器✂️sed：流编辑与批量替换awk：文本分析与格式化输出⚔️易混辨析与命令对比实战案例集锦高频面试问答️进阶技巧与最佳实践三剑客组合实战常见错误与排查建议1.三剑客简介与对比grep：按模式搜索文本，输出匹配行，适合快速查找和过滤。sed：流编辑器，支持查找、替换、插入、删除等批量文本处理。awk：强大的文本分析与报告生成工具，支持条件判断、格式化输出、统
从理论到实践：情感分析如何提升量化价值投资收益率？量化价值投资入门到精通 ai
从理论到实践：情感分析如何提升量化价值投资收益率？关键词：情感分析、量化价值投资、自然语言处理、投资组合优化、收益率提升、金融文本分析、量化策略摘要：本文系统解析情感分析技术在量化价值投资中的理论基础与实践路径。首先构建情感分析与价值投资的理论关联模型，揭示金融文本情感数据对资产定价的影响机制。其次通过数学建模和算法实现，演示如何将情感得分嵌入经典量化模型（如CAPM、Black-Litterma
Apache Solr stream.url SSRF与任意文件读取漏洞(附pythonEXP脚本) MD@@nr丫卡uer 渗透测试
漏洞背景ApacheSolr是一个开源的搜索服务，使用Java语言开发。ApacheSolr的某些功能存在过滤不严格，在ApacheSolr未开启认证的情况下，攻击者可直接构造特定请求开启特定配置，并最终造成SSRF或文件读取漏洞。目前互联网已公开漏洞poc，建议相关用户及时采取措施阻止攻击。fofa查询app="APACHE-Solr"影响范围ApacheSolr所有版本漏洞复现首先访问，获取实
python 英语词频统计软件_Python文本分析基本库——wordcloud Andy Kwong python 英语词频统计软件
一、wordcloud简介词云，又称文字云、标签云，是对文本数据中出现频率较高的“关键词”在视觉上的突出呈现，形成关键词的渲染形成类似云一样的彩色图片，从而一眼就可以领略文本数据的主要表达意思。创建于文本分析及其可视化中。除了网上现成的Wordle、Tagxedo、Tagul、Tagcrowd等词云制作工具，在python中也可以用wordcloud包比较轻松地实现。官网：https://pypi
Apache Solr stream.url 存在任意文件读取漏洞 sublime88 漏洞复现 solr apache web安全
文章目录ApacheSolrstream.url存在任意文件读取漏洞1.ApacheSolr简介2.漏洞描述3.影响版本4.fofa查询语句5.漏洞复现6.POC&EXP7.整改意见8.往期回顾ApacheSolrstream.url存在任意文件读取漏洞1.ApacheSolr简介微信公众号搜索：南风漏洞复现文库该文章南风漏洞复现文库公众号首发Solr采用Java5开发，是建立在ApacheLuc
Python实现小说词频统计 I_Scholar python windows 开发语言
源码地址：python实现小说词频统计资源-CSDN文库这段代码实现了一个简单的文本分析工具，主要用于统计用户指定的词语在小说中的出现次数、位置和频次。以下是代码的详细解析和功能说明：1.功能概述选择文件：通过文件对话框选择一个小说文件。读取文件内容：将小说文件的内容读取到一个字符串中。去除标点符号：从文本中去除指定的标点符号。统计词频：统计用户指定的词语在小说中的出现次数、位置和频次。输出结果：
Python,Go开发专利申请与代理APP Geeker-2025 python golang
#专利申请与代理管理系统-Python&Go实现方案我将设计一个完整的专利申请与代理管理系统，结合Python和Go的优势，提供从申请到管理的全流程解决方案。##设计思路这个应用将包含：-Python用于专利文本分析、自然语言处理和文档生成-Go用于构建高性能API服务和任务调度-前端使用React构建响应式界面-数据存储在PostgreSQL和Elasticsearch中```htmlPaten
大模型——Dify 与 Browser-use 结合使用不二人生大模型人工智能 dify Browser-use
大模型——Dify与Browser-use结合使用Dify与Browser-use的结合使用，能够通过AI决策与自动化交互的协同，构建智能化、场景化的业务流程。以下是两者的整合思路与技术落地方案：一、核心组合逻辑分工定位Dify：作为AI模型调度中枢，负责自然语言理解、决策生成、数据处理（如文本分析、意图识别、动态指令生成）。Browser-use：作为执行终端，按Dify输出的结构化指令模拟人类
R语言非结构化文本挖掘入门指南 Morpheon R r语言开发语言
文本挖掘（TextMining），也称为文本分析（TextAnalytics），是从非结构化文本数据中提取有意义的见解。全球约80%的数据是非结构化的。本篇博客将探讨文本挖掘和网络爬取的关键概念及基于R的实用技术。什么是文本挖掘？文本挖掘利用计算技术从非结构化文本源（如书籍、报告、文章、博客和社交媒体帖子）中提取结构化信息。它能够自动化地从海量数据集中发现知识，实现文本摘要和分析。关键点：非结构化
5分钟了解AI原生应用中的自然语言处理原理 AGI大模型与大数据研究院 AI-native 自然语言处理 easyui ai
5分钟了解AI原生应用中的自然语言处理原理关键词：AI原生应用、自然语言处理、语言理解、语言生成、文本分析摘要：本文将带领大家在5分钟左右的时间里，了解AI原生应用中自然语言处理的原理。我们会用简单易懂的语言，像讲故事一样，从背景知识开始，深入解释核心概念、算法原理、数学模型，还会通过项目实战和实际应用场景来加深理解，最后探讨未来发展趋势与挑战，让大家对自然语言处理有一个清晰的认识。背景介绍目的和
为什么Elasticsearch能吊打其他搜索引擎？揭秘毫秒级检索的底层原理 I-NullMoneyException elasticsearch es java
一、前言：为什么ES能成为搜索引擎的性能王者？在当今大数据时代，搜索引擎的性能直接影响用户体验和业务效率。无论是电商的商品搜索、日志分析，还是企业级数据检索，Elasticsearch（ES）都因其超高的查询速度成为行业标杆。但ES为什么能比其他搜索引擎（如Solr、MySQL全文索引）快这么多？它的底层究竟做了哪些优化？本文将从架构设计、索引结构、缓存机制等多个角度深入解析，带你彻底理解ES的极
Python生成词云图实战教程小虾汉斯
本文还有配套的精品资源，点击获取简介：Python中的词云图生成是一项重要技能，它通过可视化展示文本数据中词汇的频率。本教程包含Python源码实例，教授如何使用wordcloud库来生成词云图，涵盖了自定义形状、调整词频权重、过滤停用词等高级定制功能。实例将引导读者通过实际操作来理解和掌握词云图的生成过程，同时提供了在数据可视化和文本分析中的应用示例。1.Python词云图生成生成词云图是数据分
基于bert预训练模型transformer架构的中文文本多标签分类的双向语义理解。
基于bert预训练模型transformer架构的中文文本多标签分类的双向语义理解。文章目录1.安装必要的库2.数据准备3.模型定义4.训练模型5.评估模型6.部署与应用概述：BERT多标签中文文本分类系统是一款先进的自然语言处理工具，专为中文文本分析和多标签分类设计。该系统利用BERT模型的强大能力，能够精确地对中文文本进行多维度的标签分类，广泛应用于内容管理、信息检索、情感分析等领域。主要特性
渣渣学习ElasticSearch的心路历程——下载安装篇（一）葫芦妹啊 Elasticsearch
下载安装，环境配置因为项目需求将solr替换成es，于是便被逼上一条不归路（刚好用上了mac，mac操作方面也是个新手，所以一起也做了记录）操作系统：macOS10.13JDK版本：jdk1.8设置jdk环境变量步骤：1⃣️创建文件：touch.bash_profile2⃣️打开文件：open-e.bash_profile3⃣️输入配置：JAVA_HOME=/Library/Java/JavaVi
使用 Python 构建知识图谱(教程含源码) 知识大胖 NVIDIA GPU和大语言模型开发教程 Python源码大全 python 知识图谱开发语言
介绍这篇文章概述了使用Python构建知识图谱的全面方法，重点介绍文本分析技术，例如命名实体识别(NER)、句法分析和关系提取。它详细介绍了清理和预处理文本、识别关键实体及其关系以及将数据可视化为结构化图的过程。该方法利用Spacy等库进行NER和大型语言模型(LLM)进行关系提取。该文档还提供了用于实现这些技术的代码片段和示例，强调了事件检测和共现分析在生成富有洞察力的知识图谱方面的重要性。最后
如何在 Ubuntu 24.04 服务器上安装 Apache Solr IT运维大本营 ubuntu apache solr
ApacheSolr是一个免费、开源的搜索平台，广泛应用于实时索引。其强大的可扩展性和容错能力使其在高流量互联网场景下表现优异。Solr基于Java开发，提供了分布式索引、复制、负载均衡及自动故障转移和恢复等功能。本教程将指导您如何在Ubuntu24.04服务器上安装ApacheSolr。前提条件在安装ApacheSolr之前，请确保您具备以下条件：运行Ubuntu24.04的服务器；服务器上已配
EMNLP 2017 北京论文报告会笔记 ljtyxl NLP
16号在北京举办的，邀请了国内部分被录用论文的作者来报告研究成果，整场报告会分为文本摘要及情感分析、机器翻译、信息抽取及自动问答、文本分析及表示学习四个部分。感觉上次的CCF-GAIR参会笔记写的像流水账，这次换一种方式做笔记。分为四个部分，并没有包含分享的所有论文。第一部分写我最喜欢的论文，第二部分总结一些以模型融合为主要方法的论文，第三部分总结一些对模型组件进行微调的论文，第四部分是类似旧瓶装
solr教程，值得刚接触搜索开发人员一看 LarryHai6 IT-文档存储架构全文检索 lucene 企业搜索
Solr调研总结开发类型全文检索相关开发Solr版本4.2文件内容本文介绍solr的功能使用及相关注意事项;主要包括以下内容:环境搭建及调试;两个核心配置文件介绍;维护索引;查询索引,和在查询中可以应用的高亮显示、拼写检查、搜索建议、分组统计、拼音检索等功能的使用方法。版本作者/修改人日期V1.0gzk2013-06-041.Solr是什么？Solr它是一种开放源码的、基于LuceneJava的搜
使用Python生成词云，分析政府工作报告热词 Auroraꦿ᭄²º²⁴ python 开发语言软件工程
引言：在这篇博客中，我将分享如何使用Python进行文本数据的分析与可视化，具体来说，将从“政府工作报告”提取的文本中分析热词，并且生成词云图像。这不仅可以帮助我们直观了解报告中的高频关键词，还为文本分析提供了一个良好的例子。实现思路：文本数据分析的基本步骤包括以下几点：读取文本：首先需要读取文本数据。可以从一个存储纯文本的文件中读取你需要分析的文本。数据预处理：这一步包括去除非汉字字符，确保我们
CVE-2017-12629-XXE源码分析与漏洞复现网安spinage Vulhub靶场 web安全 java 网络安全漏洞 solr xxe
漏洞概述漏洞名称：ApacheSolrXML实体注入漏洞（XXE）漏洞编号：CVE-2017-12629CVSS评分：9.8影响版本：ApacheSolr&defType=xmlparserSolr路由到XmlQParserPlugin处理请求：publicQParsercreateParser(Stringqstr,SolrParamslocalParams,SolrParamsparams,S
使用Python安装jieba库 qq_39605374 python 开发语言 Python
jieba是一个流行的中文分词库，用于将中文文本切分成单个词语。它是在Python中进行自然语言处理和文本分析时的常用工具之一。本文将介绍如何在Python中安装jieba库，并提供相应的源代码。安装jieba库的步骤如下：步骤1:安装Python首先，确保你已经安装了Python。jieba库兼容Python2.7和Python3.x版本。你可以从Python官方网站（https://www.p
MATLAB文本处理与自然语言处理方法 vipfanxu matlab 自然语言处理开发语言
自然语言处理（NaturalLanguageProcessing，简称NLP）是人工智能领域中的重要分支之一，它涉及到对自然语言的理解、生成、应用等多个方面。而MATLAB作为一种功能强大的编程语言和开发环境，也可以被用于文本处理和NLP任务。本文将介绍MATLAB中常用的文本处理和NLP方法，包括文本预处理、词袋模型、文本分类和情感分析等内容。一、文本预处理在进行文本分析之前，我们通常需要对文本
[黑洞与暗粒子]没有光的世界 comsci
无论是相对论还是其它现代物理学,都显然有个缺陷,那就是必须有光才能够计算但是,我相信,在我们的世界和宇宙平面中,肯定存在没有光的世界.... 那么,在没有光的世界,光子和其它粒子的规律无法被应用和考察,那么以光速为核心的 &nbs
jQuery Lazy Load 图片延迟加载 aijuans jquery
基于 jQuery 的图片延迟加载插件，在用户滚动页面到图片之后才进行加载。对于有较多的图片的网页，使用图片延迟加载，能有效的提高页面加载速度。版本： jQuery v1.4.4+ jQuery Lazy Load v1.7.2 注意事项：需要真正实现图片延迟加载，必须将真实图片地址写在 data-original 属性中。若 src
使用Jodd的优点 Kai_Ge jodd
1. 简化和统一 controller ，抛弃 extends SimpleFormController ，统一使用 implements Controller 的方式。 2. 简化 JSP 页面的 bind, 不需要一个字段一个字段的绑定。 3. 对 bean 没有任何要求，可以使用任意的 bean 做为 formBean。使用方法简介
jpa Query转hibernate Query 120153216 Hibernate
public List<Map> getMapList(String hql, Map map) { org.hibernate.Query jpaQuery = entityManager.createQuery(hql); if (null != map) { for (String parameter : map.keySet()) { jp
Django_Python3添加MySQL/MariaDB支持 2002wmj mariaDB
现状首先，[email protected] 中默认的引擎为 django.db.backends.mysql 。但是在Python3中如果这样写的话，会发现 django.db.backends.mysql 依赖 MySQLdb[5] ，而 MySQLdb 又不兼容 Python3 于是要找一种新的方式来继续使用MySQL。 MySQL官方的方案首先据MySQL文档[3]说，自从MySQL
在SQLSERVER中查找消耗IO最多的SQL 357029540 SQL Server
返回做IO数目最多的50条语句以及它们的执行计划。 select top 50 (total_logical_reads/execution_count) as avg_logical_reads, (total_logical_writes/execution_count) as avg_logical_writes, (tot
spring UnChecked 异常官方定义！ 7454103 spring
如果你接触过spring的事物管理！那么你必须明白 spring的非捕获异常！即 unchecked 异常！因为 spring 默认这类异常事物自动回滚！！ public static boolean isCheckedException(Throwable ex) { return !(ex instanceof RuntimeExcep
mongoDB 入门指南、示例 adminjun java mongodb 操作
一、准备工作 1、下载mongoDB 下载地址：http://www.mongodb.org/downloads 选择合适你的版本相关文档：http://www.mongodb.org/display/DOCS/Tutorial 2、安装mongoDB A、不解压模式：将下载下来的mongoDB-xxx.zip打开，找到bin目录，运行mongod.exe就可以启动服务，默
CUDA 5 Release Candidate Now Available aijuans CUDA
The CUDA 5 Release Candidate is now available at http://developer.nvidia.com/<wbr></wbr>cuda/cuda-pre-production. Now applicable to a broader set of algorithms, CUDA 5 has advanced fe
Essential Studio for WinRT网格控件测评 Axiba JavaScript html5
Essential Studio for WinRT界面控件包含了商业平板应用程序开发中所需的所有控件，如市场上运行速度最快的grid 和chart、地图、RDL报表查看器、丰富的文本查看器及图表等等。同时，该控件还包含了一组独特的库，用于从WinRT应用程序中生成Excel、Word以及PDF格式的文件。此文将对其另外一个强大的控件——网格控件进行专门的测评详述。网格控件功能 1、
java 获取windows系统安装的证书或证书链 bewithme windows
有时需要获取windows系统安装的证书或证书链，比如说你要通过证书来创建java的密钥库。有关证书链的解释可以查看此处。 public static void main(String[] args) { SunMSCAPI providerMSCAPI = new SunMSCAPI(); S
NoSQL数据库之Redis数据库管理(set类型和zset类型) bijian1013 redis 数据库 NoSQL
4.sets类型 Set是集合，它是string类型的无序集合。set是通过hash table实现的，添加、删除和查找的复杂度都是O(1)。对集合我们可以取并集、交集、差集。通过这些操作我们可以实现sns中的好友推荐和blog的tag功能。 sadd：向名称为key的set中添加元
异常捕获何时用Exception，何时用Throwable bingyingao
用Exception的情况 try { //可能发生空指针、数组溢出等异常 } catch (Exception e) {
【Kafka四】Kakfa伪分布式安装 bit1129 kafka
在http://bit1129.iteye.com/blog/2174791一文中，实现了单Kafka服务器的安装，在Kafka中，每个Kafka服务器称为一个broker。本文简单介绍下，在单机环境下Kafka的伪分布式安装和测试验证 1. 安装步骤 Kafka伪分布式安装的思路跟Zookeeper的伪分布式安装思路完全一样，不过比Zookeeper稍微简单些(不
Project Euler bookjovi haskell
Project Euler是个数学问题求解网站，网站设计的很有意思，有很多problem，在未提交正确答案前不能查看problem的overview，也不能查看关于problem的discussion thread，只能看到现在problem已经被多少人解决了，人数越多往往代表问题越容易。看看problem 1吧： Add all the natural num
Java-Collections Framework学习与总结-ArrayDeque BrokenDreams Collections
表、栈和队列是三种基本的数据结构，前面总结的ArrayList和LinkedList可以作为任意一种数据结构来使用，当然由于实现方式的不同，操作的效率也会不同。这篇要看一下java.util.ArrayDeque。从命名上看
读《研磨设计模式》-代码笔记-装饰模式-Decorator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.io.BufferedOutputStream; import java.io.DataOutputStream; import java.io.FileOutputStream; import java.io.Fi
Maven学习(一) chenyu19891124 Maven私服
学习一门技术和工具总得花费一段时间，5月底6月初自己学习了一些工具，maven+Hudson+nexus的搭建，对于maven以前只是听说，顺便再自己的电脑上搭建了一个maven环境，但是完全不了解maven这一强大的构建工具，还有ant也是一个构建工具，但ant就没有maven那么的简单方便，其实简单点说maven是一个运用命令行就能完成构建，测试，打包，发布一系列功
[原创]JWFD工作流引擎设计----节点匹配搜索算法(用于初步解决条件异步汇聚问题) 补充 comsci 算法工作 PHP 搜索引擎嵌入式
本文主要介绍在JWFD工作流引擎设计中遇到的一个实际问题的解决方案，请参考我的博文"带条件选择的并行汇聚路由问题"中图例A2描述的情况(http://comsci.iteye.com/blog/339756),我现在把我对图例A2的一个解决方案公布出来，请大家多指点节点匹配搜索算法(用于解决标准对称流程图条件汇聚点运行控制参数的算法) 需要解决的问题：已知分支
Linux中用shell获取昨天、明天或多天前的日期 daizj linux shell 上几年昨天获取上几个月
在Linux中可以通过date命令获取昨天、明天、上个月、下个月、上一年和下一年 # 获取昨天 date -d 'yesterday' # 或 date -d 'last day' # 获取明天 date -d 'tomorrow' # 或 date -d 'next day' # 获取上个月 date -d 'last month' #
我所理解的云计算 dongwei_6688 云计算
在刚开始接触到一个概念时，人们往往都会去探寻这个概念的含义，以达到对其有一个感性的认知，在Wikipedia上关于“云计算”是这么定义的，它说： Cloud computing is a phrase used to describe a variety of computing co
YII CMenu配置 dcj3sjt126com yii
Adding id and class names to CMenu We use the id and htmlOptions to accomplish this. Watch. //in your view $this->widget('zii.widgets.CMenu', array( 'id'=>'myMenu', 'items'=>$this-&g
设计模式之静态代理与动态代理 come_for_dream 设计模式
静态代理与动态代理代理模式是java开发中用到的相对比较多的设计模式，其中的思想就是主业务和相关业务分离。所谓的代理设计就是指由一个代理主题来操作真实主题，真实主题执行具体的业务操作，而代理主题负责其他相关业务的处理。比如我们在进行删除操作的时候需要检验一下用户是否登陆，我们可以删除看成主业务，而把检验用户是否登陆看成其相关业务
【转】理解Javascript 系列 gcc2ge JavaScript
理解Javascript_13_执行模型详解摘要: 在《理解Javascript_12_执行模型浅析》一文中,我们初步的了解了执行上下文与作用域的概念，那么这一篇将深入分析执行上下文的构建过程，了解执行上下文、函数对象、作用域三者之间的关系。函数执行环境简单的代码:当调用say方法时，第一步是创建其执行环境，在创建执行环境的过程中，会按照定义的先后顺序完成一系列操作:1.首先会创建一个
Subsets II hcx2013 set
Given a collection of integers that might contain duplicates, nums, return all possible subsets. Note: Elements in a subset must be in non-descending order. The solution set must not conta
Spring4.1新特性——Spring缓存框架增强 jinnianshilongnian spring4
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
shell嵌套expect执行命令 liyonghui160com
一直都想把expect的操作写到bash脚本里,这样就不用我再写两个脚本来执行了,搞了一下午终于有点小成就,给大家看看吧. 系统:centos 5.x 1.先安装expect yum -y install expect 2.脚本内容: cat auto_svn.sh #!/bin/bash
Linux实用命令整理 pda158 linux
0. 基本命令　　linux 基本命令整理　　1. 压缩解压　　tar -zcvf a.tar.gz a #把a压缩成a.tar.gz 　　tar -zxvf a.tar.gz #把a.tar.gz解压成a 　　2. vim小结　　2.1 vim替换　　:m,ns/word_1/word_2/gc
独立开发人员通向成功的29个小贴士 shoothao 独立开发
概述：本文收集了关于独立开发人员通向成功需要注意的一些东西,对于具体的每个贴士的注解有兴趣的朋友可以查看下面标注的原文地址。明白你从事独立开发的原因和目的。保持坚持制定计划的好习惯。万事开头难，第一份订单是关键。培养多元化业务技能。提供卓越的服务和品质。谨小慎微。营销是必备技能。学会组织，有条理的工作才是最有效率的。 “独立
JAVA中堆栈和内存分配原理 uule java
1、栈、堆 1.寄存器：最快的存储区, 由编译器根据需求进行分配,我们在程序中无法控制.2. 栈：存放基本类型的变量数据和对象的引用，但对象本身不存放在栈中，而是存放在堆（new 出来的对象）或者常量池中（字符串常量对象存放在常量池中。）3. 堆：存放所有new出来的对象。4. 静态域：存放静态成员（static定义的）5. 常量池：存放字符串常量和基本类型常量（public static f