jacksonary

ES学习记录10——ES分析器1

1. 概述
2. 分析器的本质
3. 分析器简易实操
4. 分析器Analyzers
- 4.1 配置内置的分析器
  - 4.1.1 标准分析器(Standard Analyzer)
  - 4.1.2 简易分析器(Simple Analyzer)
  - 4.1.3 空格分析器(Whitespace Analyzer)
  - 4.1.4 段词分析器(Stop Analyzer)
  - 4.1.5 关键词分析器(Keyword Analyzer)
  - 4.1.5 模式分析器(Pattern Analyzer)
  - 4.1.6 语言分析器(Language Analyzer)
  - 4.1.7 指纹分析器(Fingerprint Analyzer)
  - 4.1.8 定制分析器(Custom Analyzer)

1. 概述

ES中“分析”是指转换文本的处理过程(比如一个邮件的正文)，将这些文本转换为标记或者术语(即tokens和terms)，并将这些标记或术语添加到用于搜索的反向索引。分析这个动作在ES中是由分析器(analyzer)完成的，分析器可以是ES内置的，也可以是我们人为根据具体业务为具体的索引定制不同的分析器。

索引分析（查询字符串中的术语与倒排索引中的文本中的术语完全匹配）

文档中说的是“index time analysis”，“索引时分析”可能更明确一点。例如，下面的一个句子：

"The QUICK brown foxes jumped over the lazy dog!"

在索引时，内置英语分析器将首先把句子转换为不同的标记tokens，将每个token转成小写，删除频繁的停用词(比如the)，将术语term缩减为词干（即：foxes–>fox、jumped–>jump、lazy–>lazi），最后，下面的术语将会添加到逆向索引中：

[ quick, brown, fox, jump, over, lazi, dog ]

指定一个索引分析器

在结构化数据中(即mapping)的每个text字段都可以指定自己的分析器analyzer，如创建：

curl -X PUT "localhost:9200/my_index" -H 'Content-Type: application/json' -d'
{
  // 定义索引的结构化数据
  "mappings": {
    "_doc": {
      "properties": {
        "title": {
          "type":     "text",
          "analyzer": "standard"
        }
      }
    }
  }
}
'

索引时，如果没有特别指定分析器analyzer，它将会在索引设置中查找名为default的分析器，如果失败，就默认使用standard分析器。

搜索分析(Search time analysis)

在匹配查询的全文查询full text queries中，在搜索时将相同的分析过程应用于查询字符串，将查询字符串中的文本转换为与存储在倒排索引中的形式相同的形式。比如，用户想要搜索a quick fox这个字符串，这个字符串将由同样的英语分析器(english analyzer)分析为以下术语(term)：[ quick, fox ]，即使精确的单词(使用在查询字符串中)没有出现在原始的文本中(即查询字符串中的词干quick和fox没有出现在原始文本中，原始文本中出现的QUICK和foxes)，因为我们将相同的分析器应用到了文本分析和查询字符串分析过程中，查询字符串中的术语与倒排索引中的文本中的术语完全匹配，那就意味着这些查询字符串将会匹配到我们举例的文档。

指定搜索分析器

通常情况下，索引和搜索都应该使用同一个分析器，全文查询full text queries就像匹配查询match query使用结构化mapping的形式去查找运用于每个字段的分析器。用于搜索特定字段的分析器通过查找确定：

在查询中指定的分析器analyzer；
结构化数据中search_analyzer参数指定的；
结构化数据中analyzer参数指定的；
索引设置中的分析器default_search；
索引设置中的分析器default；
standard标准分析器；

2. 分析器的本质

无论是ES内置的分析器还是定制的分析器，都只是一个包含三个低级构建块的包：字符过滤器(character filters)、标记生成器(tokenizers)和标记过滤器(token filters)，这里面也要注意他们三者的工作顺序为：字符过滤器（数据预处理）–>标记生成器(处理数据，生成token)–>标记过滤器（过滤token以返回）。ES内置的分析器已经事先将适合不同语言和文本类型的构建块打包到这些内置的分析器中，Elasticsearch也公开了各个构建块，以便用户可以使用它们组合得到新的自定义分析器。三个构建块简单情况如下：

character filters：字符过滤器将原始文本作为字符流接收，并可以通过添加、删除或更改字符来转换流。比如，一个字符过滤器可以用来将印度-阿拉伯数字(٠‎١٢٣٤٥٦٧٨‎٩‎)转成等价的阿拉伯语-拉丁语中数字(0123456789)，或从流中删除等HTML元素。一个分析器中可能存在0个或多个字符过滤器，这些字符过滤器将按序工作；

tokenizer：标记生成器tokenizer接收一个字符流，将其分解为单个标记（通常是单个单词），并输出标记(tokens)流。例如，只要看到任何空格，空格标记器(whitespace)就会将文本分成标记，比如他将会把文本Quick brown fox!转换为这些术语：[Quick, brown, fox!]。标记生成器也负责记录每个术语的顺序和位置，也记录该术语所代表的原始单词的开始和结束字符偏移量。每个分析器有且仅有一个标记生成器tokenizer；

token filter：标记过滤器接受标记流，可以添加、移除或更改标记。比如，一个小写标记过滤器(lowercase)将所有的标记转换为小写，一个段词过滤器(stop)移除标记流中的常用段词(比如the，其实就是常用的冠词、定冠词这类单词)，还有一个同义词标记过滤器(synonym)将同义词引入标记流。标记过滤器是不被允许改变每个标记的位置或者字符偏移量的。一个分析器可以有0个或多个标记过滤器，这些标记过滤器按序工作；

所以最终的ES的分析器可以简单定义为tokenizer(有且仅有一个，需要特别指定)、character filters(0或多个，直接在filter中指定，就是过滤器)和token filter(0或多个，直接在filter中指定，就是过滤器)的组合。

3. 分析器简易实操

analyze API 是查看分析器生成的术语(term)的宝贵工具，内置的分析器可以在请求行中指定，比如：

// 栗子1：指定分析器（只有空格标记生成器）和文本进行分析 curl -X POST "localhost:9200/_analyze" -H 'Content-Type: application/json' -d' { "analyzer": "whitespace", "text": "The quick brown fox." } ' // 栗子1：分析结果 { "tokens": [ { "token": "The", "start_offset": 0, "end_offset": 3, "type": "word", "position": 0 }, { "token": "quick", "start_offset": 4, "end_offset": 9, "type": "word", "position": 1 }, { "token": "brown", "start_offset": 10, "end_offset": 15, "type": "word", "position": 2 }, { "token": "fox.", "start_offset": 16, "end_offset": 20, "type": "word", "position": 3 } ] } // 栗子2：指定分析器（包含1个标准标记生成器和2个标记过滤器）和文本进行分析 curl -X POST "localhost:9200/_analyze" -H 'Content-Type: application/json' -d' { "tokenizer": "standard", // asciifolding过滤器是用于去除特殊字符 "filter": [ "lowercase", "asciifolding" ], "text": "Is this déja vu?" } ' // 栗子2：分析结果 { "tokens": [ { "token": "is", "start_offset": 0, "end_offset": 2, "type": "", "position": 0 }, { "token": "this", "start_offset": 3, "end_offset": 7, "type": "", "position": 1 }, { "token": "deja", "start_offset": 8, "end_offset": 12, "type": "", "position": 2 }, { "token": "vu", "start_offset": 13, "end_offset": 15, "type": "", "position": 3 } ] }

【注意】位置和字符偏移：由于可以从 analyze API 的输出结果中看到，就像之前所提及的那样，分析器不仅仅将单词转换为术语(trems)，它们同样也记录每个术语的顺序和相对位置以及每个术语在原始文本中的始、末字符的偏移量（用于突出显示搜索片段）。比如上述栗子2中的结果，术语is的信息如下：

// is术语中开始字符“i”的偏移量在原始文本“Is this déja vu?”中的偏移量为0 "start_offset": 0, // is术语中的末尾字符“s”的偏移量在原始文本“Is this déja vu?”中的偏移量为2 "end_offset": 2, "type": "", // is术语在原始文本“Is this déja vu?”中的偏移量为0 "position": 0

当然，在特定索引上执行 analyze API 时，可以引用自定义的分析器，比如：

先创建一个新的索引，同时指定一个定制的分析器：

// 这里创建索引时先将之前栗子中已创建的my_index索引删除 curl -X PUT "localhost:9200/my_index" -H 'Content-Type: application/json' -d' { "settings": { "analysis": { "analyzer": { // 定义一个定制的分析器，名字指定为“std_folded” "std_folded": { "type": "custom", "tokenizer": "standard", "filter": ["lowercase","asciifolding"] } } } }, "mappings": { "_doc": { "properties": { "my_text": { "type": "text", // 指定“my_text”字段使用上面自定义的分析器“std_folded” "analyzer": "std_folded" } } } } } '

如果要引用上面自定义的分析器，可以这么干：

// 为了使用上述定义的分析器，必须指定特定的索引名字 curl -X GET "localhost:9200/my_index/_analyze" -H 'Content-Type: application/json' -d' { // 通过分析器名字引用分析器 "analyzer": "std_folded", "text": "Is this déjà vu?" } ' curl -X GET "localhost:9200/my_index/_analyze" -H 'Content-Type: application/json' -d' { // 引用my_text字段使用的分析器 "field": "my_text", "text": "Is this déjà vu?" } '

结果和之前的2个栗子一样，参考前面的。

4. 分析器Analyzers

ES配置了大量内置的分析器，我们可以不怎么自己去配置就可以使用这些分析器，主要如下：

Standard Analyzer：标准分析器(参数表示为standard)可以将文本以单词边界划分术语terms，采用的是由Unicode文本分段算法，它可以删除了大多数标点符号，将术语转成小写，支持删除段词（它仅仅是支持删除段词，这个功能需要自己配）；

Simple Analyzer：只要遇到非字母的字符，简单分析器(参数表示为simple)就会将文本划分为术语，将术语转成小写；

Whitespace Analyzer：只要遇到空格字符，空格分析器(参数表示为whitespace)就会将文本划分为术语，不会将术语转成小写；

Stop Analyzer：段词分词器(参数表示为simple)和标准分析器standard一样，遇到非字母字符就分割，也支持删除段词；

Keyword Analyzer：关键字分析器(参数表示为keyword)是一个“空”分析器，可以接受给定的任何文本，并输出与单个术语完全相同的文本；

Pattern Analyzer：模式分析器(参数表示为pattern)使用正则表达式将文本拆分为术语，它支持小写术语和段词；

Language Analyzer：Elasticsearch提供许多特定于语言的分析器，如英语分析器(参数表示为english)或法语分析器(参数表示为french)；

Fingerprint Analyzer：指纹分析器(参数表示为fingerprint)是一种创建可用于重复检测的指纹专业分析器；

自定义分析器，其实和之前介绍的一样，透过本质，我们可以通过适当的字符过滤器、标记生成器以及标记过滤器的组合完成一个自定义的分析器。

4.1 配置内置的分析器

内置的分析器可以无配置直接使用，但里面有部分内置分析器是支持配置一些选项改变它们部分行为的，比如，标准分析器standard可以配置支持段词：

PUT my_index { "settings": { "analysis": { // 在standard分析器的基础上配置段词得到一个自定分析器 std_english "analyzer": { "std_english": { "type": "standard", "stopwords": "_english_" } } } }, "mappings": { "_doc": { "properties": { "my_text": { "type": "text", // 直接指定 my_text 字段使用 standard 分析器，没有配置删除段词 "analyzer": "standard", "fields": { "english": { "type": "text", "analyzer": "std_english" } } } } } } }

测试样例：

POST my_index/_analyze { // 指定使用 my_text 字段的分析器，即 standard 分析器 "field": "my_text", "text": "The old brown cow" } POST my_index/_analyze { // 指定使用 my_text.english 字段的分析器，即 std_english 分析器，即可以删除段词的 standard 分析器 "field": "my_text.english", "text": "The old brown cow" }

结果为[the, old, brown, cow] 和 [old, brown, cow]

4.1.1 标准分析器(Standard Analyzer)

standard分析器是默认的分析器，如果没有特别指定分析器那就是使用的标准分析器，它提供了基于语法的标记生成方法（之前已经提过，它是基于Unicode文本分割算法），可以用于大部分的语言。比如：

curl -X POST "localhost:9200/_analyze" -H 'Content-Type: application/json' -d' { "analyzer": "standard", "text": "The 2 QUICK Brown-Foxes jumped over the lazy dog\u0027s bone." } '

分析器出来的结果就是[the, 2, quick, brown, foxes, jumped, over, the, lazy, dog's, bone]。

standard分析器是可配置的，可以接受的参数有：

max_token_length：指定标记的最大长度，如果一个标记超过了该参数设置的值，则用这个参数值直接分割(不论是否到标记)，默认是255；

stopwords：段词，比如像之前内置就定义了英语段词_english_或者包含一系列段词的数组，默认是\_none_；

stopwords_path：表示一个包含停用词的文件路径；

下面是一个小栗子：

curl -X PUT "localhost:9200/my_index" -H 'Content-Type: application/json' -d' { "settings": { "analysis": { "analyzer": { // 定义一个分析器，名字为 my_english_analyzer "my_english_analyzer": { "type": "standard", // 配置最大标记长度 "max_token_length": 5, // 指定段词为英语段词 "stopwords": "_english_" } } } } } '

测试：

curl -X POST "localhost:9200/my_index/_analyze" -H 'Content-Type: application/json' -d' { "analyzer": "my_english_analyzer", "text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone." } '

结果为：[2, quick, brown, foxes, jumpe, d, over, lazy, dog's, bone]，因为jumped是6个字符，超过了标记最大长度max_token_length的值，那直接分割成jumpe和d两个标记(token)。

standard分析器主要组成部分有：

Standard Tokenizer：这是standard分析器的标记生成器；

Standard Token Filter：这是standard分析器的标记过滤器；

Standard Case Token Filter：这是standard分析器的标记过滤器(将标记转成小写)；

Stop Token Filter：段词标记过滤器，默认不开启；

如果需要在配置参数之外自定义标准分析器，则需要将其重新创建自定义分析器并通常通过添加标记过滤器进行修改，这些行为将会重新创建standard分析器，可以直接在创建索引时直接创建，如：

curl -X PUT "localhost:9200/standard_example" -H 'Content-Type: application/json' -d' { "settings": { "analysis": { "analyzer": { // 定义一个基于standard的分析器 rebuilt_standard "rebuilt_standard": { "tokenizer": "standard", "filter": [ "standard", "lowercase" ] } } } } } '

4.1.2 简易分析器(Simple Analyzer)

simple分析器只要碰到非字母字符就分割文本，所有的术语全部转成小写，比如：

curl -X POST "localhost:9200/_analyze" -H 'Content-Type: application/json' -d' { "analyzer": "simple", "text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone." } '

遇到2(非字母)分割一下、遇到空格分割一次、遇到'分割一次，最后得到的结果为[the, quick, brown, foxes, jumped, over, the, lazy, dog, s, bone]。

simple分析器是不可配置的，它的组成没有其他的，就一个标记生成器 Lower Case Tokenizer 。如果要定制simple分析器，需要像custom类型一样重建这个分析器然后再修改，通常是添加一些标记过滤器，比如：

curl -X PUT "localhost:9200/simple_example" -H 'Content-Type: application/json' -d' { "settings": { "analysis": { "analyzer": { "rebuilt_simple": { "tokenizer": "lowercase", "filter": [ // 根据需求往里添加标记过滤器 "xxx1", "xxx2" ] } } } } } '

4.1.3 空格分析器(Whitespace Analyzer)

whitespace分析器只要遇到空格字符就分割文本，比如：

curl -X POST "localhost:9200/_analyze" -H 'Content-Type: application/json' -d' { "analyzer": "whitespace", "text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone." } '

之前提过whitespace分析器不会将标记转成小写，结果为：[The, 2, QUICK, Brown-Foxes, jumped, over, the, lazy, dog's, bone.]。

whitespace分析器也是不可配置的，它里面就一个 Whitespace Tokenizer 标记生成器。如果想定制whitespace分析器，需要将分析器的类型指定为custom进行重建修改，通常也就往里面加一些标记过滤器，比如：

curl -X PUT "localhost:9200/whitespace_example" -H 'Content-Type: application/json' -d' { "settings": { "analysis": { "analyzer": { "rebuilt_whitespace": { "tokenizer": "whitespace", "filter": [ // 根据需求往里添加标记过滤器 "xxx1", "xxx2" ] } } } } } '

4.1.4 段词分析器(Stop Analyzer)

stop分析器和simple分析器一样，遇到非字母字符就分割，但它支持删除段词(我理解下来就是一些冠词)，默认使用英语段词_english_。比如：

curl -X POST "localhost:9200/_analyze" -H 'Content-Type: application/json' -d' { "analyzer": "stop", "text": "The 2 QUICK Brown-Foxes jumped over the lazy dog\u0027s bone." } '

stop分析器是可配置的，可接受的参数有：

stopwords：预先定义的段词，和英语段词_english_或一个包含一系列段词的数组是一个意思，默认是_english_；

stopwords_path：表示一个包含段词文件的路径，这个路径是相对与ES的配置根目录config而言的；

下面是一个小栗子：

curl -X PUT "localhost:9200/my_index" -H 'Content-Type: application/json' -d' { "settings": { "analysis": { "analyzer": { "my_stop_analyzer": { "type": "stop", // 此时指定段词只有 the 和 over 两个，默认的 _english_ 失效 "stopwords": ["the", "over"] } } } } } '

使用下面的进行测试：

curl -X POST "localhost:9200/my_index/_analyze" -H 'Content-Type: application/json' -d' { "analyzer": "my_stop_analyzer", "text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone." } '

将非字母字符和the以及over作为段词，最终的结果结果为：[quick, brown, foxes, jumped, lazy, dog, s, bone]。

stop分析器主要是由一个标记生成器 Lower Case Tokenizer 和一个标记过滤器 Stop Token Filter 组成，如果需要在配置参数之外的自定义stop分析器，则需要将其重新创建自定义分析器并通常通过添加标记过滤器进行修改，这些行为将会重新创建standard分析器，可以直接在创建索引时直接创建，如：

PUT /stop_example { "settings": { "analysis": { "filter": { "english_stop": { "type": "stop", // 指定段词为英语段词 "stopwords": "_english_" } }, "analyzer": { "rebuilt_stop": { "tokenizer": "lowercase", "filter": [ "english_stop" ] } } } } }

注：上述stop分析器中默认的段词是可以被stopwords和stopwords_path参数覆盖的。

4.1.5 关键词分析器(Keyword Analyzer)

keyword分析器是一个内部为空的分析器，它会返回和输入的一模一样的字符串作为标记(token)。比如：

curl -X POST "localhost:9200/_analyze" -H 'Content-Type: application/json' -d' { "analyzer": "keyword", "text": "The 2 QUICK Brown-Foxes jumped over the lazy dog\u0027s bone." } '

根据上面所说可知，直接返回的结果为：[The 2 QUICK Brown-Foxes jumped over the lazy dog's bone.]，直接返回输入的文本作为单独一个token。

keyword分析器也是不可配置的，它内部就一个 Keyword Tokenizer 标记生成器。如果想定制keyword分析器，需要将分析器的类型指定为custom进行重建修改，通常也就往里面加一些标记过滤器，比如：

curl -X PUT "localhost:9200/keyword_example" -H 'Content-Type: application/json' -d' { "settings": { "analysis": { "analyzer": { "rebuilt_keyword": { "tokenizer": "keyword", "filter": [ // 根据需求往里添加标记过滤器 "xxx1", "xxx2" ] } } } } } '

4.1.5 模式分析器(Pattern Analyzer)

pattern分析使用正则表达式(使用的是Java正则表达式，注意避免病理正则表达式，可能导致搜索缓慢甚至导致StackOverflowError或运行的节点闪退)将文本分割为术语。正则表达式应该匹配token separators而不是标记本身，爱分析器中的默认正则表达式为\W+（即匹配1或多个非单词字符，就是除了字母和数字外的所有字符，等价于[^A-Za-z0-9_]）。比如：

curl -X POST "localhost:9200/_analyze" -H 'Content-Type: application/json' -d' { "analyzer": "pattern", "text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone." } '

匹配的结果为：[the, 2, quick, brown, foxes, jumped, over, the, lazy, dog, s, bone]。

pattern分析器是可配置，可接受如下的参数：

pattern：一个 Java 正则表达式，默认是\W+；

flags：Java正则表达式flags，多个标志之间是管道分开的（如CASE_INSENSITIVE|COMMENTS）；

lowercase：表示是否将术语转成小写，默认为true；

stopwords：表示预先定义好的段词，比如英语段词_english_或一个包含一系列段词的数组，默认为\_none_（即没有设段词）；

stopwords_path：表示一个包含段词文件的路径；

下面是一个小栗子：

curl -X PUT "localhost:9200/my_index" -H 'Content-Type: application/json' -d' { "settings": { "analysis": { "analyzer": { // 自定义一个分析器 my_email_analyzer "my_email_analyzer": { "type": "pattern", // 正则表达式，匹配非单词字符和下划线 "pattern": "\\W|_", // 将分割后的术语全部转成小写 "lowercase": true } } } } } '

验证：

curl -X POST "localhost:9200/my_index/_analyze" -H 'Content-Type: application/json' -d' { "analyzer": "my_email_analyzer", "text": "[email protected]" } '

直接使用非单词字符和下划线作为分割标记，最终的结果为：[john, smith, foo, bar, com]。当然还可以使用正则实现更加复杂的分割方式，比如按照Java中的驼峰命名的方式分割：

curl -X PUT "localhost:9200/my_index" -H 'Content-Type: application/json' -d' { "settings": { "analysis": { "analyzer": { "camel": { "type": "pattern", "pattern": "([^\\p{L}\\d]+)|(?<=\\D)(?=\\d)|(?<=\\d)(?=\\D)|(?<=[\\p{L}&&[^\\p{Lu}]])(?=\\p{Lu})|(?<=\\p{Lu})(?=\\p{Lu}[\\p{L}&&[^\\p{Lu}]])" } } } } } '

当指定上述定义的camel来分割文本MooseX::FTPClass2_beta，结果为[moose, x, ftp, class, 2, beta]，这里对上述正则做一个简单的说明：

([^\p{L}\d]+) # 吞下非字母和非数字的字符， | (?<=\D)(?=\d) # 或非数字后面跟数字， | (?<=\d)(?=\D) # 或数字后面跟非数字， | (?<=[ \p{L} && [^\p{Lu}]])(?=\p{Lu}) # 或小写字母后面跟大写字母， | (?<=\p{Lu})(?=\p{Lu}[\p{L}&&[^\p{Lu}]]) # 或大写字母后面跟大写再跟小写

pattern分析器的组成：一个 Pattern Tokenizer 标记生成器、一个 Lower Case Token Filter 标记过滤器、一个 Stop Token Filter 段词过滤器(默认没有开启)；如果想定制pattern分析器，需要将分析器的类型指定为custom进行重建修改，通常也就往里面加一些标记过滤器，比如：

curl -X PUT "localhost:9200/pattern_example" -H 'Content-Type: application/json' -d' { "settings": { "analysis": { // 配置标记生成器 "tokenizer": { "split_on_non_word": { "type": "pattern", // 默认模式为 \W+ 匹配非单词字符，可自己修改 "pattern": "\\W+" } }, "analyzer": { "rebuilt_pattern": { "tokenizer": "split_on_non_word", "filter": [ "lowercase" ] } } } } } '

4.1.6 语言分析器(Language Analyzer)

ES提供了一套针对特殊语言文本的分析器，之前用到的_english_是对英语段词的分析器，ES支持的语言分析器主要有：

arabic, armenian, basque, bengali, brazilian, bulgarian, catalan, cjk, czech, danish, dutch, english, finnish, french, galician, german, greek, hindi, hungarian, indonesian, irish, italian, latvian, lithuanian, norwegian, persian, portuguese, romanian, russian, sorani, spanish, swedish, turkish, thai。

所有分析器都支持在配置内设置自定义的段词stopwords，或通过设置stopwords_path使用外部段词文件。需要排除词干中的单词，stem_exclusion参数允许用户指定不应该被阻止的小写单词数组。在内部，这个功能是通过添加keyword_marker标记过滤器并将keywords设置为stem_exclusion参数的值来实现的。下面的分析器支持设置自定义的stem_exclusion数组：

arabic, armenian, basque, bengali, bulgarian, catalan, czech, dutch, english, finnish, french, galician, german, hindi, hungarian, indonesian, irish, italian, latvian, lithuanian, norwegian, portuguese, romanian, russian, sorani, spanish, swedish, turkish

如果想定制内部的语言分析器，需要将分析器的类型指定为custom进行重建修改，如果不打算排除被阻止的单词（相当于上面的stem_exclusion参数），那么应该从自定义分析器配置中删除keyword_marker标记过滤器。

下面是阿拉伯语言分析器的小栗子(其他语言类似)，需要将分析器的类型指定为custom进行重建修改：

curl -X PUT "localhost:9200/arabic_example" -H 'Content-Type: application/json' -d' { "settings": { "analysis": { "filter": { "arabic_stop": { "type": "stop", // 可以自定义或使用 stopwords_path 覆盖 "stopwords": "_arabic_" }, "arabic_keywords": { "type": "keyword_marker", // "keywords": ["مثال"] }, "arabic_stemmer": { "type": "stemmer", "language": "arabic" } }, "analyzer": { "rebuilt_arabic": { "tokenizer": "standard", "filter": [ "lowercase", "decimal_digit", "arabic_stop", "arabic_normalization", "arabic_keywords", "arabic_stemmer" ] } } } } } '

其他语言分析器的样例参看Language Analyzersedit
。

4.1.7 指纹分析器(Fingerprint Analyzer)

fingerprint分析器是基于指纹识别算法(由OpenRefine项目用于协助聚类)实现的。输入文本是小写的、规范化的以删除扩展字符，经过排序、删除重复数据并连接成单个标记token。如果配置了段词列表，则也会删除段词。如：

curl -X POST "localhost:9200/_analyze" -H 'Content-Type: application/json' -d' { "analyzer": "fingerprint", "text": "Yes yes, Gödel said this sentence is consistent and." } '

将重复的yes去除只留一个，然后将剩余的单词按字母表排序最终得到的结果为：[and consistent godel is said sentence this yes]。

fingerprint分析器是可配置的，可接受的参数有：

separator：表示连接术语的字符，默认为空格符；

max_output_size：表示输出标记的最大长度，默认为255，如果标记大于该参数直接按该参数的值分割；

stopwords：表示预先定义好的段词，比如英语段词_english_或一个包含一系列段词的数组，默认为\_none_（即没有设段词）；

stopwords_path：表示一个包含段词文件的路径；

下面是一个小栗子：

curl -X PUT "localhost:9200/my_index" -H 'Content-Type: application/json' -d' { "settings": { "analysis": { "analyzer": { // 自定义配置指纹分析器 "my_fingerprint_analyzer": { "type": "fingerprint", // 将段词指定为英文段词 "stopwords": "_english_" } } } } } '

使用上述的分析器my_fingerprint_analyzer分析文本Yes yes, Gödel said this sentence is consistent and.，由于配置了英语段词，所以在原来的结果上还要去除英语段词，得到的结果为：[consistent godel said sentence yes]。

fingerprint分析器组成： Standard Tokenizer 标记生成器、Lower Case Token Filter 小写标记过滤器、ASCII Folding Token Filter 过滤器（去除特殊字符）、Stop Token Filter 段词标记过滤器、Fingerprint Token Filter 过滤器。上述提及的过滤器都是按序执行工作的。如果想定制fingerprint分析器，需要将分析器的类型指定为custom进行重建修改，通常就是往里面加一些过滤器，如：

curl -X PUT "localhost:9200/fingerprint_example" -H 'Content-Type: application/json' -d' { "settings": { "analysis": { "analyzer": { "rebuilt_fingerprint": { "tokenizer": "standard", "filter": [ "lowercase", "asciifolding", "fingerprint", // 根据需求往里添加标记过滤器 "xxx1", "xxx2" ] } } } } } '

4.1.8 定制分析器(Custom Analyzer)

有一些场景，ES内置的分析器并不能满足需求，这时可以创建一个custom分析器，创建的原则就是立足分析器的本质进行组合就可以了，分析器的本质：

有且仅有1个标记生成器(tokenizer)；

0或多个标记过滤器(token filter)；

0或多个字符过滤器(character filter)；

custom分析器可接受的参数有：

tokenizer：表示内置或定制的标记生成器，必选参数；

char_filter：表示一个包含内置或定制字符过滤器的数组，可选参数；

filter：表示一个包含内置或定制的标记过滤器数组，可选参数；

position_increment_gap：当索引文本的值是一个数组时，Elasticsearch会在一个值的最后一个术语和下一个值的第一个术语之间插入一个虚假的“间隙”，以确保短语查询与来自不同数组元素的两个术语不匹配，默认为100；

下面是一个小栗子：

curl -X PUT "localhost:9200/my_index" -H 'Content-Type: application/json' -d' { "settings": { "analysis": { "analyzer": { "my_custom_analyzer": { // 将 type 指定为 custom，告诉ES我们正在自定义一个分析器 "type": "custom", "tokenizer": "standard", "char_filter": [ "html_strip" ], "filter": [ "lowercase", "asciifolding" ] } } } } } '

上述定制了一个自定义分析器，组合为：standard标记生成器(tokenizer)、html_strip字符过滤器、lowercase和asciifolding标记过滤器。用上述的自定义的分析器my_custom_analyzer分析文本Is this déjà vu?，得到的结果为：[is, this, deja, vu]。当然还可以自定义更加复杂的分析器，下面是一个复杂的小栗子：

curl -X PUT "localhost:9200/my_index" -H 'Content-Type: application/json' -d' { "settings": { "analysis": { "analyzer": { // 自定义分析器 my_custom_analyzer "my_custom_analyzer": { "type": "custom", "char_filter": [ // 指定字符过滤器为 emoticons，表情符号过滤器 "emoticons" ], // 指定标记生成器为 punctuation "tokenizer": "punctuation", "filter": [ "lowercase", // 指定标记过滤器为 english_stop "english_stop" ] } }, "tokenizer": { "punctuation": { "type": "pattern", "pattern": "[ .,!?]" } }, "char_filter": { "emoticons": { "type": "mapping", "mappings": [ ":) => _happy_", ":( => _sad_" ] } }, "filter": { "english_stop": { "type": "stop", "stopwords": "_english_" } } } } } '

用以上自定义的分析器my_custom_analyzer分析文本I'm a :) person, and you?，得到的结果为：[i'm, _happy_, person, you]。

C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
mysql禁用远程登录 igotyback mysql
去mysql库中的user表里，将host都改成localhost之后刷新权限FLUSHPRIVILEGES;
消息中间件有哪些常见类型 xmh-sxh-1314 java
消息中间件根据其设计理念和用途，可以大致分为以下几种常见类型：点对点消息队列（Point-to-PointMessagingQueues）：在这种模型中，消息被发送到特定的队列中，消费者从队列中取出并处理消息。队列中的消息只能被一个消费者消费，消费后即被删除。常见的实现包括IBM的MQSeries、RabbitMQ的部分使用场景等。适用于任务分发、负载均衡等场景。发布/订阅消息模型（Pub/Sub
每日一题——第八十四题互联网打工人no1 C语言程序设计每日一练 c语言
题目：编写函数1、输入10个职工的姓名和职工号2、按照职工由大到小顺序排列，姓名顺序也随之调整3、要求输入一个职工号，用折半查找法找出该职工的姓名#define_CRT_SECURE_NO_WARNINGS#include#include#defineMAX_EMPLOYEES10typedefstruct{intid;charname[50];}Empolyee;voidinputEmploye
C#中使用split分割字符串互联网打工人no1 c#
1、用字符串分隔：usingSystem.Text.RegularExpressions;stringstr="aaajsbbbjsccc";string[]sArray=Regex.Split(str,"js",RegexOptions.IgnoreCase);foreach(stringiinsArray)Response.Write(i.ToString()+"");输出结果：aaabbbc
linux sdl windows.h,Windows下的SDL安装奔跑吧linux内核 linux sdl windows.h
首先你要下载并安装SDL开发包。如果装在C盘下，路径为C:\SDL1.2.5如果在WINDOWS下。你可以按以下步骤：1.打开VC++，点击"Tools",Options2,点击directories选项3.选择"Includefiles"增加一个新的路径。"C:\SDL1.2.5\include"4，现在选择"Libaryfiles“增加"C:\SDL1.2.5\lib"现在你可以开始编写你的第
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
SQL Server_查询某一数据库中的所有表的内容 qq_42772833 SQL Server 数据库 sqlserver
1.查看所有表的表名要列出CrabFarmDB数据库中的所有表（名），可以使用以下SQL语句：USECrabFarmDB;--切换到目标数据库GOSELECTTABLE_NAMEFROMINFORMATION_SCHEMA.TABLESWHERETABLE_TYPE='BASETABLE';对这段SQL脚本的解释：SELECTTABLE_NAME：这个语句的作用是从查询结果中选择TABLE_NAM
四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
Git常用命令－修改远程仓库地址猿大师 Linux Java git java
查看远程仓库地址gitremote-v返回结果originhttps://git.coding.net/＊＊＊＊＊.git(fetch)originhttps://git.coding.net/＊＊＊＊＊.git(push)修改远程仓库地址gitremoteset-urloriginhttps://git.coding.net/＊＊＊＊＊.git先删除后增加远程仓库地址gitremotermori
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
利用Requests Toolkit轻松完成HTTP请求 nseejrukjhad http 网络协议网络 python
RequestsToolkit的力量：轻松构建HTTP请求Agent在现代软件开发中，API请求是与外部服务交互的核心。RequestsToolkit提供了一种便捷的方式，帮助开发者构建自动化的HTTP请求Agent。本文旨在详细介绍RequestsToolkit的设置、使用和潜在挑战。引言RequestsToolkit是一个强大的工具包，可用于构建执行HTTP请求的智能代理。这对于想要自动化与外
webpack图片等资源的处理 dmengmeng
需要的loaderfile-loader（让我们可以引入这些资源文件）url-loader（其实是file-loader的二次封装）img-loader（处理图片所需要的）在没有使用任何处理图片的loader之前，比如说css中用到了背景图片，那么最后打包会报错的，因为他没办法处理图片。其实你只想能够使用图片的话。只加一个file-loader就可以，打开网页能准确看到图片。{test:/\.(p
Faiss Tips：高效向量搜索与聚类的利器焦习娜Samantha
FaissTips：高效向量搜索与聚类的利器faiss_tipsSomeusefultipsforfaiss项目地址:https://gitcode.com/gh_mirrors/fa/faiss_tips项目介绍Faiss是由FacebookAIResearch开发的一个用于高效相似性搜索和密集向量聚类的库。它支持多种硬件平台，包括CPU和GPU，能够在海量数据集上实现快速的近似最近邻搜索（AN
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
ARM驱动学习之5 LEDS驱动 JT灬新一嵌入式 C 底层 arm开发学习单片机
ARM驱动学习之5LEDS驱动知识点：•linuxGPIO申请函数和赋值函数–gpio_request–gpio_set_value•三星平台配置GPIO函数–s3c_gpio_cfgpin•GPIO配置输出模式的宏变量–S3C_GPIO_OUTPUT注意点：DRIVER_NAME和DEVICE_NAME匹配。实现步骤：1.加入需要的头文件：//Linux平台的gpio头文件#include//三
基于CODESYS的多轴运动控制程序框架：逻辑与运动控制分离，快速开发灵活操作 GPJnCrbBdl python 开发语言
基于codesys开发的多轴运动控制程序框架，将逻辑与运动控制分离，将单轴控制封装成功能块，对该功能块的操作包含了所有的单轴控制（归零、点动、相对定位、绝对定位、设置当前位置、伺服模式切换等等）。程序框架由主程序按照状态调用分归零模式、手动模式、自动模式、故障模式，程序状态的跳转都已完成，只需要根据不同的工艺要求完成所需的动作即可。变量的声明、地址的规划都严格按照C++的标准定义，能帮助开发者快速
C++ | Leetcode C++题解之第409题最长回文串 Ddddddd_158 经验分享 C++Leetcode 题解
题目：题解：classSolution{public:intlongestPalindrome(strings){unordered_mapcount;intans=0;for(charc:s)++count[c];for(autop:count){intv=p.second;ans+=v/2*2;if(v%2==1andans%2==0)++ans;}returnans;}};
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
docker igotyback eureka 云原生
Docker容器的文件系统是隔离的，但是可以通过挂载卷（Volumes）或绑定挂载（BindMounts）将宿主机的文件系统目录映射到容器内部。要查看Docker容器的映射路径，可以使用以下方法：查看容器配置：使用dockerinspect命令可以查看容器的详细配置信息，包括挂载的卷。例如：bashdockerinspect在输出的JSON格式中，查找"Mounts"部分，这里会列出所有的挂载信息
mac电脑命令行获取电量小米人er 我的博客 macos 命令行
在macOS上，有几个命令行工具可以用来获取电量信息，最常用的是pmset命令。你可以通过以下方式来查看电池状态和电量信息：查看电池状态：pmset-gbatt这个命令会返回类似下面的输出：Nowdrawingfrom'BatteryPower'-InternalBattery-0(id=1234567)95%;discharging;4:02remainingpresent:true输出中包括电
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
209. 长度最小的子数组（滑动窗口法）清榎 leetcode刷题 c++leetcode 算法
209.长度最小的子数组题目描述：给定一个含有n个正整数的数组和一个正整数target。找出该数组中满足其和≥target的长度最小的连续子数组[numsl,numsl+1,...,numsr-1,numsr]，并返回其长度。如果不存在符合条件的子数组，返回0。解答：法一：直接使用暴力法。两重循环，对每一个元素向后进行寻找，若找到一个子数组≥target，比较其长度和result的大小，如果其长度
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
最超值的Mac——Mac mini 初心么么哒
你知道最超值的Mac是什么吗？自2005年以来，Macmini一直是Apple台式机产品线中的主要产品。最初推出是为了让对Mac好奇的Mac进入Apple生态系统的一种简单方式，现在新的AppleSiliconMacmini可能是任何寻找新Mac的人的最有吸引力的购买。什么是AppleSiliconMacmini？M1Macmini是Apple最小的台式电脑，同时也是最快的台式电脑之一。最新型号由
关于Mysql 中 Row size too large (＞ 8126) 错误的解决和理解秋刀prince mysql mysql 数据库
提示：啰嗦一嘴，数据库的任何操作和验证前，一定要记得先备份！！！不会有错；文章目录问题发现一、问题导致的可能原因1、页大小2、行格式2.1compact格式2.2Redundant格式2.3Dynamic格式2.4Compressed格式3、BLOB和TEXT列二、解决办法1、修改页大小（不推荐）2、修改行格式3、修改数据类型为BLOB和TEXT列4、其他优化方式（可以参考使用）4.1合理设置数据
推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
枚举的构造函数中抛出异常会怎样 bylijinnan java enum 单例
首先从使用enum实现单例说起。为什么要用enum来实现单例？这篇文章（ http://javarevisited.blogspot.sg/2012/07/why-enum-singleton-are-better-in-java.html）阐述了三个理由： 1.enum单例简单、容易，只需几行代码： public enum Singleton { INSTANCE;
CMake 教程 aigo C++
转自：http://xiang.lf.blog.163.com/blog/static/127733322201481114456136/ CMake是一个跨平台的程序构建工具，比如起自己编写Makefile方便很多。介绍：http://baike.baidu.com/view/1126160.htm 本文件不介绍CMake的基本语法，下面是篇不错的入门教程： http:
cvc-complex-type.2.3: Element 'beans' cannot have character Cb123456 spring Webgis
cvc-complex-type.2.3: Element 'beans' cannot have character Line 33 in XML document from ServletContext resource [/WEB-INF/backend-servlet.xml] is i
jquery实例:随页面滚动条滚动而自动加载内容 120153216 jquery
<script language="javascript"> $(function (){ var i = 4;$(window).bind("scroll", function (event){ //滚动条到网页头部的高度，兼容ie,ff,chrome var top = document.documentElement.s
将数据库中的数据转换成dbs文件何必如此 sql dbs
旗正规则引擎通过数据库配置器（DataBuilder）来管理数据库，无论是Oracle，还是其他主流的数据都支持，操作方式是一样的。旗正规则引擎的数据库配置器是用于编辑数据库结构信息以及管理数据库表数据，并且可以执行SQL 语句，主要功能如下。 1)数据库生成表结构信息：主要生成数据库配置文件(.conf文
在IBATIS中配置SQL语句的IN方式 357029540 ibatis
在使用IBATIS进行SQL语句配置查询时，我们一定会遇到通过IN查询的地方，在使用IN查询时我们可以有两种方式进行配置参数：String和List。具体使用方式如下： 1.String:定义一个String的参数userIds，把这个参数传入IBATIS的sql配置文件，sql语句就可以这样写： <select id="getForms" param
Spring3 MVC 笔记（一） 7454103 spring mvc bean REST JSF
自从 MVC 这个概念提出来之后 struts1.X struts2.X jsf 。。。。。这个view 层的技术一个接一个！都用过！不敢说哪个绝对的强悍！要看业务，和整体的设计！最近公司要求开发个新系统！
Timer与Spring Quartz 定时执行程序 darkranger spring bean 工作 quartz
有时候需要定时触发某一项任务。其实在jdk1.3，java sdk就通过java.util.Timer提供相应的功能。一个简单的例子说明如何使用，很简单： 1、第一步，我们需要建立一项任务，我们的任务需要继承java.util.TimerTask package com.test; import java.text.SimpleDateFormat; import java.util.Date;
大端小端转换，le32_to_cpu 和cpu_to_le32 aijuans C语言相关
大端小端转换，le32_to_cpu 和cpu_to_le32 字节序 http://oss.org.cn/kernel-book/ldd3/ch11s04.html 小心不要假设字节序. PC 存储多字节值是低字节为先(小端为先, 因此是小端), 一些高级的平台以另一种方式(大端)
Nginx负载均衡配置实例详解 avords
[导读] 负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡，单从字面上的意思来理解就可以解负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡
乱说的 houxinyou 框架敏捷开发软件测试
从很久以前，大家就研究框架，开发方法，软件工程，好多！反正我是搞不明白！这两天看好多人研究敏捷模型，瀑布模型！也没太搞明白. 不过感觉和程序开发语言差不多，瀑布就是顺序，敏捷就是循环. 瀑布就是需求、分析、设计、编码、测试一步一步走下来。而敏捷就是按摸块或者说迭代做个循环，第个循环中也一样是需求、分析、设计、编码、测试一步一步走下来。也可以把软件开发理
欣赏的价值——一个小故事 bijian1013 有效辅导欣赏欣赏的价值
　　第一次参加家长会，幼儿园的老师说："您的儿子有多动症，在板凳上连三分钟都坐不了，你最好带他去医院看一看。"　　回家的路上，儿子问她老师都说了些什么，她鼻子一酸，差点流下泪来。因为全班30位小朋友，惟有他表现最差；惟有对他，老师表现出不屑，然而她还在告诉她的儿子："老师表扬你了，说宝宝原来在板凳上坐不了一分钟，现在能坐三分钟。其他妈妈都非常羡慕妈妈，因为全班只有宝宝
包冲突问题的解决方法 bingyingao eclipse maven exclusions 包冲突
包冲突是开发过程中很常见的问题：其表现有： 1.明明在eclipse中能够索引到某个类，运行时却报出找不到类。 2.明明在eclipse中能够索引到某个类的方法，运行时却报出找不到方法。 3.类及方法都有，以正确编译成了.class文件，在本机跑的好好的，发到测试或者正式环境就抛如下异常： java.lang.NoClassDefFoundError: Could not in
【Spark七十五】Spark Streaming整合Flume-NG三之接入log4j bit1129 Stream
先来一段废话：实际工作中，业务系统的日志基本上是使用Log4j写入到日志文件中的，问题的关键之处在于业务日志的格式混乱，这给对日志文件中的日志进行统计分析带来了极大的困难，或者说，基本上无法进行分析，每个人写日志的习惯不同，导致日志行的格式五花八门，最后只能通过grep来查找特定的关键词缩小范围，但是在集群环境下，每个机器去grep一遍，分析一遍，这个效率如何可想之二，大好光阴都浪费在这上面了
sudoku solver in Haskell bookjovi sudoku haskell
这几天没太多的事做，想着用函数式语言来写点实用的程序，像fib和prime之类的就不想提了（就一行代码的事），写什么程序呢？在网上闲逛时发现sudoku游戏，sudoku十几年前就知道了，学生生涯时也想过用C/Java来实现个智能求解，但到最后往往没写成，主要是用C/Java写的话会很麻烦。现在写程序，本人总是有一种思维惯性，总是想把程序写的更紧凑，更精致，代码行数最少，所以现
java apache ftpClient bro_feng java
最近使用apache的ftpclient插件实现ftp下载，遇见几个问题，做如下总结。 1. 上传阻塞，一连串的上传，其中一个就阻塞了，或是用storeFile上传时返回false。查了点资料，说是FTP有主动模式和被动模式。将传出模式修改为被动模式ftp.enterLocalPassiveMode();然后就好了。看了网上相关介绍，对主动模式和被动模式区别还是比较的模糊，不太了解被动模
读《研磨设计模式》-代码笔记-工厂方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 工厂方法模式：使一个类的实例化延迟到子类 * 某次，我在工作不知不觉中就用到了工厂方法模式（称为模板方法模式更恰当。2012-10-29）： * 有很多不同的产品，它
面试记录语 chenyu19891124 招聘
或许真的在一个平台上成长成什么样，都必须靠自己去努力。有了好的平台让自己展示，就该好好努力。今天是自己单独一次去面试别人，感觉有点小紧张，说话有点打结。在面试完后写面试情况表，下笔真的好难，尤其是要对面试人的情况说明真的好难。今天面试的是自己同事的同事，现在的这个同事要离职了，介绍了我现在这位同事以前的同事来面试。今天这位求职者面试的是配置管理，期初看了简历觉得应该很适合做配置管理，但是今天面
Fire Workflow 1.0正式版终于发布了 comsci 工作 workflow Google
Fire Workflow 是国内另外一款开源工作流，作者是著名的非也同志，哈哈.... 官方网站是 http://www.fireflow.org 经过大家努力,Fire Workflow 1.0正式版终于发布了正式版主要变化: 1、增加IWorkItem.jumpToEx(...)方法，取消了当前环节和目标环节必须在同一条执行线的限制，使得自由流更加自由 2、增加IT
Python向脚本传参 daizj python 脚本传参
如果想对python脚本传参数，python中对应的argc, argv(c语言的命令行参数)是什么呢？需要模块：sys 参数个数：len(sys.argv) 脚本名： sys.argv[0] 参数1： sys.argv[1] 参数2： sys.argv[
管理用户分组的命令gpasswd dongwei_6688 passwd
NAME： gpasswd - administer the /etc/group file SYNOPSIS： gpasswd group gpasswd -a user group gpasswd -d user group gpasswd -R group gpasswd -r group gpasswd [-A user,...] [-M user,...] g
郝斌老师数据结构课程笔记 dcj3sjt126com 数据结构与算法
<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
yii2 cgridview加上选择框进行操作 dcj3sjt126com GridView
页面代码 <?=Html::beginForm(['controller/bulk'],'post');?> <?=Html::dropDownList('action','',[''=>'Mark selected as: ','c'=>'Confirmed','nc'=>'No Confirmed'],['class'=>'dropdown',])
linux mysql fypop linux
enquiry mysql version in centos linux yum list installed | grep mysql yum -y remove mysql-libs.x86_64 enquiry mysql version in yum repositoryyum list | grep mysql oryum -y list mysql* install mysq
Scramble String hcx2013 String
Given a string s1, we may represent it as a binary tree by partitioning it to two non-empty substrings recursively. Below is one possible representation of s1 = "great":
跟我学Shiro目录贴 jinnianshilongnian 跟我学shiro
历经三个月左右时间，《跟我学Shiro》系列教程已经完结，暂时没有需要补充的内容，因此生成PDF版供大家下载。最近项目比较紧，没有时间解答一些疑问，暂时无法回复一些问题，很抱歉，不过可以加群（334194438/348194195）一起讨论问题。 ----广告-----------------------------------------------------
nginx日志切割并使用flume-ng收集日志 liyonghui160com
nginx的日志文件没有rotate功能。如果你不处理，日志文件将变得越来越大，还好我们可以写一个nginx日志切割脚本来自动切割日志文件。第一步就是重命名日志文件，不用担心重命名后nginx找不到日志文件而丢失日志。在你未重新打开原名字的日志文件前，nginx还是会向你重命名的文件写日志，linux是靠文件描述符而不是文件名定位文件。第二步向nginx主
Oracle死锁解决方法 pda158 oracle
　select p.spid,c.object_name,b.session_id,b.oracle_username,b.os_user_name from v$process p,v$session a, v$locked_object b,all_objects c where p.addr=a.paddr and a.process=b.process and c.object_id=b.
java之List排序 shiguanghui list排序
在Java Collection Framework中定义的List实现有Vector，ArrayList和LinkedList。这些集合提供了对对象组的索引访问。他们提供了元素的添加与删除支持。然而，它们并没有内置的元素排序支持。　　你能够使用java.util.Collections类中的sort()方法对List元素进行排序。你既可以给方法传递
servlet单例多线程 utopialxw 单例多线程 servlet
转自http://www.cnblogs.com/yjhrem/articles/3160864.html 和 http://blog.chinaunix.net/uid-7374279-id-3687149.html Servlet 单例多线程 Servlet如何处理多个请求访问？Servlet容器默认是采用单实例多线程的方式处理多个请求的：1.当web服务器启动的

ES学习记录10——ES分析器1

1. 概述

2. 分析器的本质

3. 分析器简易实操

4. 分析器Analyzers

4.1 配置内置的分析器

4.1.1 标准分析器(Standard Analyzer)

4.1.2 简易分析器(Simple Analyzer)

4.1.3 空格分析器(Whitespace Analyzer)

4.1.4 段词分析器(Stop Analyzer)

4.1.5 关键词分析器(Keyword Analyzer)

4.1.5 模式分析器(Pattern Analyzer)

4.1.6 语言分析器(Language Analyzer)

4.1.7 指纹分析器(Fingerprint Analyzer)

4.1.8 定制分析器(Custom Analyzer)

你可能感兴趣的:(#,ES,Elasticsearch)