昕光xg

elk笔记20--Analysis

elk笔20--Analysis

1 Analysis 简介
- 1.1 Index time analysis(索引时分析)
- 1.2 Specifying an index time analyzer(指定索引时分词器)
- 1.3 Search time analysis(搜索时分析)
- 1.4 Specifying a search time analyzer(指定搜索时分词器)
2 Analysis 分类
- 2.1 Anatomy of an analyzer(剖析分词器)
- 2.2 Testing analyzers(测试分词器)
- 2.3 Analyzers(分词器)
- 2.4 Normalizers
- 2.5 Tokenizers
- 2.6 Token Filters
- 2.7 Character Filters
3 案例
4 说明

1 Analysis 简介

分析|解是转化text类字段为符号或数据项目的过程，这些符号或数据项会被添加到倒排索引中以便于搜索，例如转化邮件的主体。分析|通常是被特定的分析器执行，每个索引的分析器要么是内置的，要么是自定义。

1.1 Index time analysis(索引时分析)

在索引时，内置的 english 分析|词器会将如下句子转化为多个不同的字符。转化后会将单个字符转化为小写，移除停用词，减少单词为其原始状态(即去掉复数、过去式等操作)。最后将转化后的数据项将如到倒排索引中。

原始：
"The QUICK brown foxes jumped over the lazy dog!"
转化为：
[ quick, brown, fox, jump, over, lazi, dog ]

1.2 Specifying an index time analyzer(指定索引时分词器)

es 中，每个text 字段都可以在mapping中指定其自己的分词器。在索引时候，如果没有指定分词器，将会在索引的settings中找default对应的分词器；如果没找到，则默认会使用standard分词器。
此处创建my_index 索引，设置 titile 的分词器为 standard 分词器，当写入的时候会通过standard 分词器对title字段进行分词。

PUT my_index
{
  "mappings": {
    "properties": {
      "title": {
        "type":     "text",
        "analyzer": "standard"
      }
    }
  }
}

1.3 Search time analysis(搜索时分析)

在搜索时候，在一个全文检索中(例如 match query)会将相同的分析过程应用到 query string 上，该分析过程会使用和存储在倒排索引中相同分词器将query string中的文本转化为数据项。
例如，用户可能搜索如下内容，搜索的内容会被english 分词器解析为 quick 和 fox 两个数据项。

原始搜索内容：
"a quick fox"
分词后的内容：
[ quick, fox ]

1.4 Specifying a search time analyzer(指定搜索时分词器)

通常情况下，相同的分词器应该同时应用在索引时和搜索时，且类似于match query 类型的全文查找会通过maping来查找每个字段的分词器。
在es中，搜索特定字段的分词器是通过如下方式查找到的：
1）query 自己指定的分词器；
2）mapping 参数中的 search_analyzer；
3）分词器mapping 参数；
4）索引settigns 中 default_search 对应的分词器；
5）索引settings 中 default 对应的分词器；
6）standard 分词器。

2 Analysis 分类

2.1 Anatomy of an analyzer(剖析分词器)

不论是内置还是自定义的分词器，它都是有3个低级的基础模块组成的一包，具体包括：字符过滤器、分词器、符号过滤器。
内置的分词器预先打包这些基础模块到分词器中，以适用于不通的语言和类别的文本。es 中也暴露来个体的基础模块，以便于它们可以被相互结合来定义新的自定义分词器。

Character filters(字符过滤器)
字符过滤器接受原始文本为字符流，并且可以通过增加、移除或改变字符来转换字符流。
例如一个字符过滤器可以用于转换印度教的数字符号 (٠‎١٢٣٤٥٦٧٨‎٩‎) 为阿拉伯语等价字 (0123456789)，或者从字符流中去掉HTML元素中的。
分词器可能有0个或者多个字符过滤器，它们会按照一定次序使用。

Tokenizer(分词器)
分词器接收字符流，然后把它分解为单个的字符(通常为单个的单词)，并输出一个token|单词流。例如空格分词器一旦发现空格就把文本分解为多个token，它会把文本"Quick brown fox!" 分解为数据项 [Quick, brown, fox!].
分词器也负责记录每个数据项的次序和位置，当然也会记录数据项的开始和结束字符偏移位置。
一个analyzer 必须拥有一个确切的 tokenizer.

Token filters(符号过滤器)
符号过滤器接收符号流，并且可能增加、移除或者改变相应符号。例如，以下小写符号过滤器转换所有的符号为小写字母，一个停止符号过滤器移除常见的停用符(例如移除字符流中的停用词the)，一个同义词符号过滤器把一个或多个同义词引入符号流中。
符号过滤器不会改变每个符号的围追和字符偏移位置。
一个 analyzer可能拥有0个或者多个符号过滤器，它们会按照一定的次序使用。

2.2 Testing analyzers(测试分词器)

analyze API 是一个非常重要的工具，它可以用来观察分词器产生数据项。内置的分词器 analyzer (or combination of built-in tokenizer, token filters, and character filters) 可以特别指定到相应的请求中。
以下为2个分词器测试案例：

POST _analyze { "analyzer": "whitespace", "text": "The quick brown fox." } 分词结果：[The, quick, brown, fox] POST _analyze { "tokenizer": "standard", "filter": [ "lowercase", "asciifolding" ], "text": "Is this déja vu?" } 分词结果： { "tokens" : [{ "token" : "is", "start_offset" : 0, "end_offset" : 2, "type" : "", "position" : 0 },{ "token" : "this", "start_offset" : 3, "end_offset" : 7, "type" : "", "position" : 1 },{ "token" : "deja", "start_offset" : 8, "end_offset" : 12, "type" : "", "position" : 2 },{ "token" : "vu", "start_offset" : 13, "end_offset" : 15, "type" : "", "position" : 3 }] } 分词结果中记录了每个数据项的相对位置，它可以用来实现 phrase queries 或 word proximity queries；记录来每个数据项的其实偏移位置，它可以用来实现 highlighting search snippets；

作为一种选择，自定义的分词器也可以通过在一个特定的索引上执行 analyze API 而被使用；以下案例创建了一个索引my_inde，并自定义分词器std_folded，同时设置 my_text 字段的分词器为 std_folded。

PUT my_index { "settings": { "analysis": { "analyzer": { "std_folded": { #1 定义一个自定义的分词器名称为std_folded "type": "custom", "tokenizer": "standard", "filter": [ "lowercase", "asciifolding" ] } } } }, "mappings": { "properties": { "my_text": { "type": "text", "analyzer": "std_folded" #2 字段my_text 使用自定义的分词器std_folded } } } } GET my_index/_analyze #3 使用这个定义的分词器时必须指定对应的索引 { "analyzer": "std_folded", #4 通过分词器的名称使用分词器 "text": "Is this déjà vu?" } GET my_index/_analyze { "field": "my_text", #5 字段mapping指定了分词器后，也可以直接通过字段来使用分词器 "text": "Is this déjà vu?" }

2.3 Analyzers(分词器)

es 附带了大量的内置分词器，这些分词器不加而外配置的情况下被任何索引使用。es 中包含了如下内置分词器：
Standard Analyzer
The standard analyzer divides text into terms on word boundaries, as defined by the Unicode Text Segmentation algorithm. It removes most punctuation, lowercases terms, and supports removing stop words.
Simple Analyzer
The simple analyzer divides text into terms whenever it encounters a character which is not a letter. It lowercases all terms.
Whitespace Analyzer
The whitespace analyzer divides text into terms whenever it encounters any whitespace character. It does not lowercase terms.
Stop Analyzer
The stop analyzer is like the simple analyzer, but also supports removal of stop words.
Keyword Analyzer
The keyword analyzer is a “noop” analyzer that accepts whatever text it is given and outputs the exact same text as a single term.
Pattern Analyzer
The pattern analyzer uses a regular expression to split the text into terms. It supports lower-casing and stop words.
Language Analyzers
Elasticsearch provides many language-specific analyzers like english or french.
Fingerprint Analyzer
The fingerprint analyzer is a specialist analyzer which creates a fingerprint which can be used for duplicate detection.

当找不到合适分词器的时候，也可以在es使用自定义的分词器；自定义的分词可以结合适当的character filters, tokenizer, and token filters的功能，以实现特有的分词效果。

2.4 Normalizers

Normalizers 和分词器类似，但它只能产生一个token。因此，Normalizers 不需要 Tokenizers(分词器)，且只接收部分 char filters and token filters(只有工作在单个字符上的过滤器才能被使用)。例如，lowercasing filter 可以使用(但是stemming filter 不可以使用)，它会把keyword类型的字段视作一个整体。当前7.2 版本es的 normalizer 可以支持如下过滤器：arabic_normalization, asciifolding, bengali_normalization, cjk_width, decimal_digit, elision, german_normalization, hindi_normalization, indic_normalization, lowercase, persian_normalization, scandinavian_folding, serbian_normalization, sorani_normalization, uppercase.

目前es并没有内置normalizer，因此只能通过自定义的方式来得到一个normalizer。自定义的normalizer包含来一系列的字符过滤器和 token 过滤器。
以下为一个自定义的my_normalizer，它包括来自定义的quote 和默认的 “lowercase”, “asciifolding” 过滤器。

PUT index { "settings": { "analysis": { "char_filter": { "quote": { "type": "mapping", "mappings": [ "« => \"", "» => \"" ] } }, "normalizer": { "my_normalizer": { #1 定义一个normalizer "type": "custom", "char_filter": ["quote"], "filter": ["lowercase", "asciifolding"] } } } }, "mappings": { "properties": { "foo": { "type": "keyword", "normalizer": "my_normalizer" #2 keyword中使用上述normlizer } } } }

2.5 Tokenizers

分词器|tokenizer接收字符流，并把它分解为单个的字符(通常为单个的单词)，并输出一个token|单词流。例如空格分词器一旦发现空格就把文本分解为多个token，它会把文本"Quick brown fox!" 分解为数据项 [Quick, brown, fox!].

分词器也负责记录每个数据项的次序和位置，当然也会记录数据项的开始和结束字符偏移位置。分词结果记录了每个数据项的相对位置，它可以用来实现 phrase queries 或 word proximity queries；记录了每个数据项的起始偏移位置，它可以用来实现 highlighting search snippets。

es 拥有大量内置的tokenizers，它们可以用于创建自定义的analyzers。

Word Oriented Tokenizers
如下 tokenizers 一般用来把完整的文本信息划分为单个的单词：
Standard Tokenizer
The standard tokenizer divides text into terms on word boundaries, as defined by the Unicode Text Segmentation algorithm. It removes most punctuation symbols. It is the best choice for most languages.
Letter Tokenizer
The letter tokenizer divides text into terms whenever it encounters a character which is not a letter.
Lowercase Tokenizer
The lowercase tokenizer, like the letter tokenizer, divides text into terms whenever it encounters a character which is not a letter, but it also lowercases all terms.
Whitespace Tokenizer
The whitespace tokenizer divides text into terms whenever it encounters any whitespace character.
UAX URL Email Tokenizer
The uax_url_email tokenizer is like the standard tokenizer except that it recognises URLs and email addresses as single tokens.
Classic Tokenizer
The classic tokenizer is a grammar based tokenizer for the English Language.
Thai Tokenizer
The thai tokenizer segments Thai text into words.

Partial Word Tokenizers
Partial Word Tokenizers主要用于把文本或者单词分解为更小的片段，以便于部分单词匹配。
N-Gram Tokenizer
The ngram tokenizer can break up text into words when it encounters any of a list of specified characters (e.g. whitespace or punctuation), then it returns n-grams of each word: a sliding window of continuous letters, e.g. quick → [qu, ui, ic, ck].
Edge N-Gram Tokenizer
The edge_ngram tokenizer can break up text into words when it encounters any of a list of specified characters (e.g. whitespace or punctuation), then it returns n-grams of each word which are anchored to the start of the word, e.g. quick → [q, qu, qui, quic, quick].

Structured Text Tokenizers
Structured Text Tokenizers 通常The following tokenizers are usually used with structured text like identifiers, email addresses, zip codes, and paths, rather than with full text:
Keyword Tokenizer
The keyword tokenizer is a “noop” tokenizer that accepts whatever text it is given and outputs the exact same text as a single term. It can be combined with token filters like lowercase to normalise the analysed terms.
Pattern Tokenizer
The pattern tokenizer uses a regular expression to either split text into terms whenever it matches a word separator, or to capture matching text as terms.
Simple Pattern Tokenizer
The simple_pattern tokenizer uses a regular expression to capture matching text as terms. It uses a restricted subset of regular expression features and is generally faster than the pattern tokenizer.
Char Group Tokenizer
The char_group tokenizer is configurable through sets of characters to split on, which is usually less expensive than running regular expressions.
Simple Pattern Split Tokenizer
The simple_pattern_split tokenizer uses the same restricted regular expression subset as the simple_pattern tokenizer, but splits the input at matches rather than returning the matches as terms.
Path Tokenizer
The path_hierarchy tokenizer takes a hierarchical value like a filesystem path, splits on the path separator, and emits a term for each component in the tree, e.g. /foo/bar/baz → [/foo, /foo/bar, /foo/bar/baz ].

2.6 Token Filters

Token filters 从tokenizer 接收 tokens 流，并且能够修改tokens(例如将token变为小写)、删除tokens(例如删除停用词)、增加tokens(例如添加同义词)。
es 具有大量内置的 token filters，它们可以用来创建自定义的 analyzers。es 7.2 版本包括如下token filters(此处暂时不逐一介绍，后续会按需挑选一些 token filter 加以说明)：
ASCII Folding Token Filter
Flatten Graph Token Filter
Length Token Filter
Lowercase Token Filter
Uppercase Token Filter
NGram Token Filter
Edge NGram Token Filter
Porter Stem Token Filter
Shingle Token Filter
Stop Token Filter
Word Delimiter Token Filter
Word Delimiter Graph Token Filter
Multiplexer Token Filter
Conditional Token Filter
Predicate Token Filter Script
Stemmer Token Filter
Stemmer Override Token Filter
Keyword Marker Token Filter
Keyword Repeat Token Filter
KStem Token Filter
Snowball Token Filter
Phonetic Token Filter
Synonym Token Filter
Parsing synonym files
Synonym Graph Token Filter
Compound Word Token Filters
Reverse Token Filter
Elision Token Filter
Truncate Token Filter
Unique Token Filter
Pattern Capture Token Filter
Pattern Replace Token Filter
Trim Token Filter
Limit Token Count Token Filter
Hunspell Token Filter
Common Grams Token Filter
Normalization Token Filter
CJK Width Token Filter
CJK Bigram Token Filter
Delimited Payload Token Filter
Keep Words Token Filter
Keep Types Token Filter
Exclude mode settings example
Classic Token Filter
Apostrophe Token Filter
Decimal Digit Token Filter
Fingerprint Token Filter
MinHash Token Filter
Remove Duplicates Token Filter

2.7 Character Filters

Character filters 用来预处理字符流，被处理后就会继续交给 tokenizer来进一步分词。
字符过滤器接受原始文本为字符流，并且可以通过增加、移除或改变字符来转换字符流。
例如一个字符过滤器可以用于转换印度教的数字符号 (٠‎١٢٣٤٥٦٧٨‎٩‎) 为阿拉伯语等价字 (0123456789)，或者从字符流中去掉HTML元素中的。
es 中有一些内置的字符过滤器，它们可以用来创建自定义的 analyzers，以下3个为es 中的字符过滤器：

HTML Strip Character Filter
html_strip 字符过滤器不仅可以过滤掉 HTML元素(例如过滤掉 ) , 且能够解码出html中的对象(例如 &，html 中的空格)。
Mapping Character Filter
mapping字符过滤器可以替换任何出现的指定字符串为特定的替换字符串。
Pattern Replace Character Filter
pattern_replace 字符过滤器可以替换任何匹配到特定正则表达的字符串为特定的替换字符串。

3 案例

此处主要用于介绍常见分词器和特有的案例。
to add

4 说明

参考文档
7.2/analysis-lang-analyzer

第05章 17 Contour 过滤器介绍与例子捕鲸叉 VTK编程学习信息可视化 VTK
vtkContourFilter是VTK（VisualizationToolkit）中的一个关键类，用于从输入数据生成等值线或等值面。它是基于阈值的过滤器，可以从标量字段中提取等值线或等值面。vtkContourFilter的核心功能是根据用户指定的值生成等值线或等值面，并将其表示为多边形网格。vtkContourFilter的主要功能等值线/等值面生成：根据用户指定的等值（通常是标量值）生成等值
不同模型对 Emoji 和普通文本的处理表现，Emoji的向量嵌入（含测试代码） 2301_79306982 机器学习人工智能 bert transformer
数据处理目标保留emoji和文本的原始形态。分词时不拆分emoji符号，让emoji成为一个完整的Token。确保分词结果与模型兼容，既能表达语义，也能保留emoji的特性。验证代码fromtransformersimportAutoTokenizer#测试的模型列表models=["bert-base-uncased",#BERT"vinai/bertweet-base",#BERTweet"r
Hive 整合 Spark 全教程（Hive on Spark）字节全栈_rJF hive spark hadoop
hadoop.proxyuser.luanhao.groups*hadoop.proxyuser.luanhao.groups*2）HDFS配置文件配置hdfs-site.xmldfs.namenode.http-addressBigdata00:9870dfs.namenode.secondary.http-addressBigdata00:9868dfs.replication13）YARN配
微服务中传递用户信息的实现方案寒士obj 微服务架构
文章目录前言一、网关过滤器的处理二、SpringMVC拦截器的处理三、微服务之间调用时的处理总结前言网关过滤器：通过mutate()方法修改请求头，直接在请求中添加用户信息。SpringMVC拦截器：将请求头中的用户信息存储到ThreadLocal中，确保用户信息的隔离。微服务之间调用：使用RequestInterceptor在每次远程调用时，从ThreadLocal获取用户信息并将其设置到请求头
centos7搭建flink1.18并以 standalone模式启动咸鱼c君 flink 大数据大数据
版本组件版本scala2.12.20java1.8.0_181flink1.18.1关于scala和Java的安装参考：scala和java安装flink下载地址：flink下载链接集群规划bigdata01bigdata02bigdata03masterworkerworkerworker安装1.创建存放路径三个节点都需要操作用于存放安装包:mkdir/home/software/用于存放存放解
pytorch实现简单的情感分析算法纠结哥_Shrek pytorch 人工智能 python
在PyTorch中实现中文情感分析算法通常涉及以下几个步骤：数据预处理、模型定义、训练和评估。下面是一个简单的实现示例，使用LSTM模型进行中文情感分析。1.数据预处理首先，我们需要对中文文本进行分词，并将文本转换为数值形式（如词向量）。可以使用jieba进行分词，并使用torchtext或自定义的词汇表将词语转换为索引。importtorchimporttorch.nnasnnimporttor
Qt事件处理：理解处理器、过滤器与事件系统行十万里人生 Qt qt 开发语言华为 harmonyos 华为云华为od git
1.事件事件是一个描述应用程序中、发生的某些事情的对象。在Qt中，所有事件都继承自QEvent，并且每个事件都有特定的标识符，如：Qt::MouseButtonPress代表鼠标按下事件。每个事件对象包含该事件的所有相关信息，如：鼠标事件包含鼠标的坐标、按下的按钮等信息。2.事件处理器事件处理器是用于处理特定类型事件的成员函数，通常以event结尾，如：mousePressEvent、enterE
SpringBoot常用技术集成陌殇殇 spring boot java
SpringBoot中常用技术集成文章目录SpringBoot中常用技术集成1.@ConfigurationProperties2.集成Mybatis-Plus3.Web组件的使用1.注解方式2.配置类注册1.Servlet2.过滤器3.拦截器4.集成Redis5.集成RabbitMQ6.LogBack日志7.Swegger2集成8.阿里云OSS对象存储9.HttpClient10.Task定时任
Java基础入门day55 zpz2001 java hive 开发语言
day55过滤器简介过滤器filter，是处于客户端与服务器端目标资源之间的一道过滤技术技术作用执行地位在servlet之前，客户发送请求时，会先经过Filter，再到达目标Servlet中。相应时，会根据执行流程再次反向执行Filter可以解决多个Servlet共性代码的冗余问题编写新增一个类，实现Filter接口编写其生命周期方法再doFilter当中实现过滤方法packagecom.saas
零碎的知识点（十二）：卷积神经网络CNN通道数的理解！墨绿色的摆渡人零碎知识点 cnn 深度学习神经网络
卷积神经网络CNN通道数的理解！通道数的核心概念解析1.通道数的本质2.单张灰度图的处理示例：3.批量输入的处理通道与批次的关系：4.RGB三通道输入的处理计算过程：示例：5.通道数的实际意义6.可视化理解(1)单通道输入（灰度图）的过滤器(2)三通道输入（RGB）的过滤器总结通道数的核心概念解析1.通道数的本质在卷积神经网络中，通道数（Channels）表示不同过滤器的数量。每个通道对应一个独立
【Elasticsearch 】自定义分词器程风破～ Elasticsearch elasticsearch 大数据搜索引擎
博主简介：CSDN博客专家，历代文学网（PC端可以访问：https://literature.sinhy.com/#/?__c=1000，移动端可微信小程序搜索“历代文学”）总架构师，15年工作经验，精通Java编程，高并发设计，Springboot和微服务，熟悉Linux，ESXI虚拟化以及云原生Docker和K8s，热衷于探索科技的边界，并将理论知识转化为实际应用。保持对新技术的好奇心，乐于分
Synthesia技术浅析（四）：自然语言处理爱研究的小牛 AIGC—视频 AIGC—虚拟现实 AIGC—自然语言处理自然语言处理人工智能 AIGC
Synthesia的自然语言处理（NLP）模块是其核心技术之一，涵盖了文本转语音（TTS）、情感分析以及多语言支持等多个方面。一、文本转语音（TTS）1.关键组件Synthesia的TTS系统主要依赖于Tacotron2和WaveGlow模型。这些模型共同作用，将文本转换为高质量的语音。2.过程模型详解2.1文本预处理文本预处理是TTS的第一步，包括分词、标点符号处理、数字和日期格式转换等。分词（
webpack-bundle-analyzer 打包分析工具 cc蒲公英辅助工具 webpack 前端 node.js
移动端项目优化的时候，需要这个插件来可视化查看打包大小，在此记录下插件官网地址一.安装npminstall--save-devwebpack-bundle-analyzer二.使用方式：1.作为插件使用（推荐）在webpack配置文件，如果有生产配置文件放入生产配置文件里require方式引入进来，然后在plugins配置项new一个实例即可constwebpack=require('webpac
一文了解大数据概论程序员
一.大数据概论1.1大数据概念大数据（bigdata）：指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。主要解决，海量数据的存储和海量数据的分析计算问题。按顺序给出数据存储单位：bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。1Byte=8bit
宽带出现服务器响应超时,客户端请求服务端莫名出现超时芦苇毛宽带出现服务器响应超时
背景：客户端请求服务端域名，进行查询操作，偶尔出现200ms+延迟，且对于该请求服务端执行速度4ms左右，此问题非常诡异，决定对此进行研究.下面记录下当时详细的定位&解决流程问题定位：1、分析代码服务端系统是一个常见的spring-bootweb工程，使用了集成的tomcat。分析了代码之后，发现并没有特殊的地方，没有特殊的过滤器或者拦截器，所以初步排除业务代码问题.2、确定调用链路3、问题排查分
网易云音乐评论生成Wordcloud（词云） SCUTJcfeng Python 网易云音乐词云
网易云音乐评论生成Wordcloud（词云）1前言1.1目的本篇主要介绍网易云音乐爬取歌曲知足的评论生成词云，可以结合新浪微博生成词云学习。1.2工具Wordcloud词云（pipinstallwordcloud安装即可）jieba分词（pipinstalljieba安装即可）第三方网易云API（需配合node.js食用）：https://github.com/Binaryify/NeteaseC
华为OD机试 - 中文分词模拟器（Python/JS/C/C++ 2024 D卷 100分）哪吒华为od 中文分词 python
一、题目描述给定一个连续不包含空格字符的字符串，该字符串仅包含英文小写字母及英文标点符号（逗号、句号、分号），同时给定词库，对该字符串进行精确分词。说明：精确分词：字符串分词后，不会出现重叠。例如“ilovechina”，不同切分后可得到“i”,“love”,“china”。标点符号不分词，仅用于断句。词库：根据常识及词库统计出来的常用词汇。例如：dictionary={“i”,“love”,“c
Lucene常用的字段类型&lucene检索打分原理学会了没全文检索 lucene 打分字段
在ApacheLucene中，Field类是文档中存储数据的基础。不同类型的Field用于存储不同类型的数据（如文本、数字、二进制数据等）。以下是一些常用的Field类型及其底层存储结构：TextField：用途：用于存储文本数据，并对其进行分词和索引。底层存储结构：文本数据会被分词器（Analyzer）处理，将文本分割成词项（terms）。每个词项会被存储在倒排索引（invertedindex）
Solon Cloud Gateway 开发：熟悉 ExContext 及相关接口组合缺一 Solon Java Framework gateway solon java 后端
分布式网关的主要工作是路由及数据交换，在定义时，会经常用到：接口说明RouteFilterFactory路由过滤器工厂RoutePredicateFactory路由检测器工厂CloudGatewayFilter分布式网关过滤器ExFilter交换过滤器ExPredicate交换检测器ExContext交换上下文ExFilter应用场景CloudGatewayFilterextendsExFilte
基于centos6.5安装ElasticSearch 小码农叔叔 ElasticSearch linux与容器实战 ElasticSearch ES安装
前面我们讲述了solr的安装搭建过程，今天讲讲ElasticSearch，ElasticSearch是另一款作为分词和搜索的服务器，相比solr，ElasticSearch在做大数据方面更有优势，因为其天然支持分布式，而且其强大的分词技术使得其在众多需要处理大数据量的业务中低位逐渐拔高，像大数据中做日志的提取和分析，使用ElasticSearch很适合，实际工作中，ElasticSearch主要是
es6.7.1分词器ik插件安装-和head插件连接es特殊配置运维实战课程 jenkins 运维
es6.7.1分词器ik插件安装-和head插件连接es特殊配置如果对运维课程感兴趣，可以在b站上、A站或csdn上搜索我的账号：运维实战课程，可以关注我，学习更多免费的运维实战技术视频1.查看es6.7.1和es-head安装位置和es插件路径[root@verify-10-100-4-4data]#dockerps|grepes4f0fe4db0ca9elasticsearch-head:6.
Python 日志记录工具logging 酒酿小圆子～ Python python 运维
文章目录1.日志的作用2.日志的级别3.几个重要的概念3.1Logger记录器3.2Handler处理器3.3Formatter格式化器3.4Filter过滤器4.常见示例4.1常见示例1：Logging日志记录4.2常见示例2：函数化示例(避免重复日志)4.3多进程环境下往同一个文件写日志日志对于系统开发的开发、调试和运行整个过程中都起着很重要的作用，调试阶段需要查看日志来明确问题所在，运行阶段
【python学习】loguru日志库用法大全！附代码示例 NLP仙人 python python 学习开发语言
Loguru是一个用于Python的简单且强大的日志库。它的目标是使日志记录变得简单和优雅，同时提供许多有用的功能。Loguru的主要特点包括：简单易用：不需要复杂的配置，开箱即用。丰富的功能：支持异步日志、日志文件轮转、日志格式化、过滤器等。优雅的语法：通过logger对象的直接方法调用记录日志。下面通过代码演示Loguru的几个最核心的功能：安装Loguru可以通过pip安装Loguru：pi
THULAC-Python 使用教程时昕海Minerva
THULAC-Python使用教程THULAC-PythonTHULAC-Python:由清华大学开发的中文词法分析工具包，提供中文分词和词性标注功能。项目地址:https://gitcode.com/gh_mirrors/th/THULAC-Python项目介绍THULAC（THULexicalAnalyzerforChinese）是由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词
【Python】探索自然语言处理的利器：THULAC 中文词法分析库详解技术无疆 Python 人工智能自然语言处理人工智能 python 数据挖掘机器学习深度学习神经网络
THULAC（THULexicalAnalyzerforChinese）是清华大学开发的一款中文词法分析工具，集成了分词和词性标注两大功能。THULAC拥有强大的分词能力和高效的词性标注，适用于多种中文文本处理场景。该工具能够在保证高准确率的同时保持较快的处理速度，非常适合大规模中文数据处理。⭕️宇宙起点THULAC的特点安装与配置1.使用pip安装2.使用GitHub源码安装♨️使用方法1.分词
ES学习二字段类型
1，text当一个字段的内容需要被全文检索时，可以使用text类型，它支持长内容的存储，如文章内容、商品信息等，该类型的字段在保存时会被分词器分析，并拆分成多个词项，然后根据拆分后的词项生成对应的索引。需要注意的是text类型的字段无法进行精确匹配，也不能直接用于排序、聚合，也被称为ananlyzed字符串。2，keywordkeyword类型的字段内容不会被分词器分析、拆分，而是根据原始文本直接
struts2 工布之者 struts struts
s2的工作原理（图解）详解Struts2的工作原理上图来源于Struts2官方站点，是Struts2的整体结构。一个请求在Struts2框架中的处理大概分为以下几个步骤1客户端初始化一个指向Servlet容器（例如Tomcat）的请求2这个请求经过一系列的过滤器（Filter）（这些过滤器中有一个叫做ActionContextCleanUp的可选过滤器，这个过滤器对于Struts2和其他框架的集成
Web安全漏洞——SSTI模版注入(初级） @Camelus 渗透与攻防 web安全网络安全安全安全架构
目录前言：（一）什么是SSTI举个栗子:前提：自动化工具：(二）Flask模块注入0x01常用的内建属性__class___base____bases____mro____subclasses__()__dict____init____global____getitem__过滤器0x01attr0x02format0x03firstlastrandom0x04join0x05lower0x06re
ranger-kms安装蘑菇丁 eclipse java ide
默认已安装ranger-admin和mysql服务。Ranger组件服务默认都在/opt/bigdata.test/core/ranger目录下安装。解压安装包[hadoop~]$cd/opt/ranger[hadoop@ranger]$tar-xzvfranger-2.1.0-kms.tar.gz[hadoop@xranger]$mvranger-2.1.0-kmsranger/ranger-k
【Springboot相关知识】Springboot结合SpringSecurity实现身份认证以及接口鉴权问道飞鱼后端开发实践微服务相关技术 spring boot java spring spring security jwt
Springboot结合SpringSecurity实现身份认证以及接口鉴权身份认证1.添加依赖2.配置JWT工具类3.配置SpringSecurity4.创建JWT请求过滤器5.创建认证控制器6.创建请求和响应对象7.配置UserDetailsService8.运行应用程序9.测试总结接口鉴权1.启用方法级安全注解2.定义角色和权限示例：定义用户角色3.使用注解进行接口鉴权1.`@PreAuth
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI linux PHP android
╔-----------------------------------╗┆
zookeeper admin 笔记 braveCS zookeeper
Required Software 1) JDK>=1.6 2)推荐使用ensemble的ZooKeeper(至少3台)，并run on separate machines 3)在Yahoo!，zk配置在特定的RHEL boxes里，2个cpu，2G内存，80G硬盘数据和日志目录 1)数据目录里的文件是zk节点的持久化备份，包括快照和事务日
Spring配置多个连接池 easterfly spring
项目中需要同时连接多个数据库的时候，如何才能在需要用到哪个数据库就连接哪个数据库呢？ Spring中有关于dataSource的配置： <bean id="dataSource" class="com.mchange.v2.c3p0.ComboPooledDataSource" &nb
Mysql 171815164 mysql
例如，你想myuser使用mypassword从任何主机连接到mysql服务器的话。 GRANT ALL PRIVILEGES ON *.* TO 'myuser'@'%'IDENTIFIED BY 'mypassword' WI TH GRANT OPTION; 如果你想允许用户myuser从ip为192.168.1.6的主机连接到mysql服务器，并使用mypassword作
CommonDAO（公共/基础DAO） g21121 DAO
好久没有更新博客了，最近一段时间工作比较忙，所以请见谅，无论你是爱看呢还是爱看呢还是爱看呢，总之或许对你有些帮助。 DAO(Data Access Object)是一个数据访问（顾名思义就是与数据库打交道）接口，DAO一般在业
直言有讳永夜-极光感悟随笔
1.转载地址:http://blog.csdn.net/jasonblog/article/details/10813313 精华: “直言有讳”是阿里巴巴提倡的一种观念，而我在此之前并没有很深刻的认识。为什么呢？就好比是读书时候做阅读理解，我喜欢我自己的解读，并不喜欢老师给的意思。在这里也是。我自己坚持的原则是互相尊重，我觉得阿里巴巴很多价值观其实是基本的做人
安装CentOS 7 和Win 7后，Win7 引导丢失随便小屋 centos
一般安装双系统的顺序是先装Win7，然后在安装CentOS，这样CentOS可以引导WIN 7启动。但安装CentOS7后，却找不到Win7 的引导，稍微修改一点东西即可。一、首先具有root 的权限。即进入Terminal后输入命令su，然后输入密码即可二、利用vim编辑器打开/boot/grub2/grub.cfg文件进行修改 v
Oracle备份与恢复案例 aijuans oracle
Oracle备份与恢复案例一. 理解什么是数据库恢复当我们使用一个数据库时，总希望数据库的内容是可靠的、正确的，但由于计算机系统的故障（硬件故障、软件故障、网络故障、进程故障和系统故障）影响数据库系统的操作，影响数据库中数据的正确性，甚至破坏数据库，使数据库中全部或部分数据丢失。因此当发生上述故障后，希望能重构这个完整的数据库，该处理称为数据库恢复。恢复过程大致可以分为复原(Restore)与
JavaEE开源快速开发平台G4Studio v5.0发布無為子
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V5.0版本已经正式发布。访问G4Studio网站 http://www.g4it.org 2013-04-06 发布G4Studio_V5.0版本功能新增 (1). 新增了调用Oracle存储过程返回游标，并将游标映射为Java List集合对象的标
Oracle显示根据高考分数模拟录取百合不是茶 PL/SQL编程 oracle例子模拟高考录取学习交流
题目要求: 1,创建student表和result表 2,pl/sql对学生的成绩数据进行处理 3,处理的逻辑是根据每门专业课的最低分线和总分的最低分数线自动的将录取和落选 1,创建student表,和result表学生信息表; create table student( student_id number primary key,--学生id
优秀的领导与差劲的领导 bijian1013 领导管理团队
责任优秀的领导：优秀的领导总是对他所负责的项目担负起责任。如果项目不幸失败了，那么他知道该受责备的人是他自己，并且敢于承认错误。差劲的领导：差劲的领导觉得这不是他的问题，因此他会想方设法证明是他的团队不行，或是将责任归咎于团队中他不喜欢的那几个成员身上。努力工作优秀的领导：团队领导应该是团队成员的榜样。至少，他应该与团队中的其他成员一样努力工作。这仅仅因为他
js函数在浏览器下的兼容 Bill_chen jquery 浏览器 IE DWR ext
做前端开发的工程师，少不了要用FF进行测试，纯js函数在不同浏览器下，名称也可能不同。对于IE6和FF，取得下一结点的函数就不尽相同： IE6：node.nextSibling,对于FF是不能识别的； FF：node.nextElementSibling,对于IE是不能识别的；兼容解决方式：var Div = node.nextSibl
【JVM四】老年代垃圾回收：吞吐量垃圾收集器(Throughput GC) bit1129 垃圾回收
吞吐量与用户线程暂停时间衡量垃圾回收算法优劣的指标有两个：吞吐量越高，则算法越好暂停时间越短，则算法越好首先说明吞吐量和暂停时间的含义。垃圾回收时，JVM会启动几个特定的GC线程来完成垃圾回收的任务，这些GC线程与应用的用户线程产生竞争关系，共同竞争处理器资源以及CPU的执行时间。GC线程不会对用户带来的任何价值，因此，好的GC应该占
J2EE监听器和过滤器基础白糖_ J2EE
Servlet程序由Servlet，Filter和Listener组成，其中监听器用来监听Servlet容器上下文。监听器通常分三类：基于Servlet上下文的ServletContex监听，基于会话的HttpSession监听和基于请求的ServletRequest监听。 ServletContex监听器 ServletContex又叫application
博弈AngularJS讲义(16) - 提供者 boyitech js AngularJS api Angular Provider
Angular框架提供了强大的依赖注入机制，这一切都是有注入器(injector)完成. 注入器会自动实例化服务组件和符合Angular API规则的特殊对象，例如控制器，指令，过滤器动画等。那注入器怎么知道如何去创建这些特殊的对象呢？ Angular提供了5种方式让注入器创建对象，其中最基础的方式就是提供者(provider), 其余四种方式(Value, Fac
java-写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 bylijinnan java
public class CommonSubSequence { /** * 题目：写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 * 写一个版本算法复杂度O(N^2)和一个O(N) 。 * * O(N^2)：对于a中的每个字符，遍历b中的每个字符，如果相同，则拷贝到新字符串中。 * O(
sqlserver 2000 无法验证产品密钥 Chen.H sql windows SQL Server Microsoft
在 Service Pack 4 (SP 4), 是运行 Microsoft Windows Server 2003、 Microsoft Windows Storage Server 2003 或 Microsoft Windows 2000 服务器上您尝试安装 Microsoft SQL Server 2000 通过卷许可协议 (VLA) 媒体。这样做, 收到以下错误信息CD KEY的 SQ
[新概念武器]气象战争 comsci
气象战争的发动者必须是拥有发射深空航天器能力的国家或者组织.... 原因如下: 地球上的气候变化和大气层中的云层涡旋场有密切的关系,而维持一个在大气层某个层次
oracle 中 rollup、cube、grouping 使用详解 daizj oracle grouping rollup cube
oracle 中 rollup、cube、grouping 使用详解 -- 使用oracle 样例表演示转自namesliu -- 使用oracle 的样列库，演示 rollup, cube, grouping 的用法与使用场景 --- ROLLUP ，为了理解分组的成员数量，我增加了分组的计数 COUNT(SAL)
技术资料汇总分享 Dead_knight 技术资料汇总分享
本人汇总的技术资料，分享出来，希望对大家有用。 http://pan.baidu.com/s/1jGr56uE 资料主要包含： Workflow->工作流相关理论、框架(OSWorkflow、JBPM、Activiti、fireflow...) Security->java安全相关资料(SSL、SSO、SpringSecurity、Shiro、JAAS...) Ser
初一下学期难记忆单词背诵第一课 dcj3sjt126com english word
could 能够 minute 分钟 Tuesday 星期二 February 二月 eighteenth 第十八 listen 听 careful 小心的，仔细的 short 短的 heavy 重的 empty 空的 certainly 当然 carry 携带；搬运 tape 磁带 basket 蓝子 bottle 瓶 juice 汁，果汁 head 头；头部
截取视图的图片, 然后分享出去 dcj3sjt126com OS Objective-C
OS 7 has a new method that allows you to draw a view hierarchy into the current graphics context. This can be used to get an UIImage very fast. I implemented a category method on UIView to get the vi
MySql重置密码 fanxiaolong MySql重置密码
方法一: 在my.ini的[mysqld]字段加入： skip-grant-tables 重启mysql服务，这时的mysql不需要密码即可登录数据库然后进入mysql mysql>use mysql; mysql>更新 user set password=password('新密码') WHERE User='root'; mysq
Ehcache（03）——Ehcache中储存缓存的方式 234390216 ehcache MemoryStore DiskStore 存储驱除策略
Ehcache中储存缓存的方式目录 1 堆内存（MemoryStore） 1.1 指定可用内存 1.2 驱除策略 1.3 元素过期 2 &nbs
spring mvc中的@propertysource jackyrong spring mvc
在spring mvc中，在配置文件中的东西，可以在java代码中通过注解进行读取了： @PropertySource 在spring 3.1中开始引入比如有配置文件 config.properties mongodb.url=1.2.3.4 mongodb.db=hello 则代码中 @PropertySource(&
重学单例模式 lanqiu17 单例 Singleton 模式
最近在重新学习设计模式，感觉对模式理解更加深刻。觉得有必要记下来。第一个学的就是单例模式，单例模式估计是最好理解的模式了。它的作用就是防止外部创建实例，保证只有一个实例。单例模式的常用实现方式有两种，就人们熟知的饱汉式与饥汉式，具体就不多说了。这里说下其他的实现方式静态内部类方式: package test.pattern.singleton.statics; publ
.NET开源核心运行时，且行且珍惜 netcome java .net 开源
背景 2014年11月12日，ASP.NET之父、微软云计算与企业级产品工程部执行副总裁Scott Guthrie，在Connect全球开发者在线会议上宣布，微软将开源全部.NET核心运行时，并将.NET 扩展为可在 Linux 和 Mac OS 平台上运行。.NET核心运行时将基于MIT开源许可协议发布，其中将包括执行.NET代码所需的一切项目——CLR、JIT编译器、垃圾收集器（GC）和核心
使用oscahe缓存技术减少与数据库的频繁交互 Everyday都不同 Web 高并发 oscahe缓存
此前一直不知道缓存的具体实现，只知道是把数据存储在内存中，以便下次直接从内存中读取。对于缓存的使用也没有概念，觉得缓存技术是一个比较”神秘陌生“的领域。但最近要用到缓存技术，发现还是很有必要一探究竟的。缓存技术使用背景：一般来说，对于web项目，如果我们要什么数据直接jdbc查库好了，但是在遇到高并发的情形下，不可能每一次都是去查数据库，因为这样在高并发的情形下显得不太合理——
Spring+Mybatis 手动控制事务 toknowme mybatis
@Override public boolean testDelete(String jobCode) throws Exception { boolean flag = false; &nbs
菜鸟级的android程序员面试时候需要掌握的知识点 xp9802 android
熟悉Android开发架构和API调用掌握APP适应不同型号手机屏幕开发技巧熟悉Android下的数据存储熟练Android Debug Bridge Tool 熟练Eclipse/ADT及相关工具熟悉Android框架原理及Activity生命周期熟练进行Android UI布局熟练使用SQLite数据库；熟悉Android下网络通信机制，S

elk笔记20--Analysis

elk笔20--Analysis

1 Analysis 简介

1.1 Index time analysis(索引时分析)

1.2 Specifying an index time analyzer(指定索引时分词器)

1.3 Search time analysis(搜索时分析)

1.4 Specifying a search time analyzer(指定搜索时分词器)

2 Analysis 分类

2.1 Anatomy of an analyzer(剖析分词器)

2.2 Testing analyzers(测试分词器)

2.3 Analyzers(分词器)

2.4 Normalizers

2.5 Tokenizers

2.6 Token Filters

2.7 Character Filters

3 案例

4 说明

你可能感兴趣的:(Bigdata,分词,分词器,全文检索,过滤器,analyzer)