知识汲取者

ElasticSearch中常见的分词器介绍

文章目录

ElasticSearch中常见的分词器介绍
- 前言
- 分词器的作用
- 如何指定分词器
- 分词器的组成
- 分词器的类型
- - 标准分词器
  - 空格分词器
  - 简单分词器
  - 关键词分词器
  - 停用词分词器
  - IK分词器
  - NGram分词器
  - 正则匹配分词器
  - 语言分词器
  - 自定义分词器

ElasticSearch中常见的分词器介绍

前言

ElasticSearch是一个高效的分布式搜索引擎，其中分词器是它的核心组件之一，平常开发中选择一个合适的分词器可以很大程度上提高检索效率，所以特意花点时间快速了解ElasticSearch中各大常见的分词器，本文也将分别介绍ElasticSearch中常见的几大分词器的特点、适用场景，以及如何使用

推荐阅读：

ElasticSearch快速入门_知识汲取者的博客-CSDN博客

分词器的作用

分词器是在搜索引擎和文本处理中起关键作用的组件，它负责将文本切分成一个个有意义的词语，以建立索引或进行搜索和分析。

上面可能说的有一些太官方了，详细点说就是，ES搜索引擎是根据词条进行检索的，这里的词条相当于MySQL中的索引，是ElasticSearch能实现海量数据高效检索的核心，在MySQL中，如果我们不恰当的建立索引，就会影响数据库的查询性能，比如我们为区分度不大的字段建立索引，SQL优化器评测发现走索引性能和全表扫描的性能差不多，这时候就直接进行全表扫描了，此时索引就一点作用都没有了，同理这个分词也是一样的道理，他都目的也是将一个一句话分成若干个词条，以词条为索引，以此来提高检索的效率和检索的正确性。

再举一个实际的例子，比如这里有一句话“他们在商店买了一些苹果手机和一些苹果”，如果我们分词时将苹果手机进行拆分，我们搜索苹果手机，可能无法搜索出带有苹果手机的文档
他们 在 商店 买 一些 苹果 手机 和 一些 苹果
而一下的分词，则可以正确搜索出带有苹果手机的词条
他们 在 商店 买 了 一些 苹果手机 和 一些 苹果

文本切分： 分词器根据一定的规则将文本切分为单个的词语或词汇单元。这个过程通常涉及到处理空格、标点符号、停用词等。
标准化： 分词器可以对词语进行标准化，例如将所有字符转为小写，以实现大小写不敏感的搜索。这有助于提高搜索的准确性。
去除停用词： 分词器通常会去除一些常见的停用词，这些词语在搜索中往往没有实际的意义，例如 “and”, “the”, “is” 等。
词干化： 对于词语的各种形式（如单数和复数、动词的不同时态等），分词器可以将它们转化为同一个基本形式，以提高搜索的准确性。
自定义规则： 分词器允许用户根据具体需求定义自己的切分规则、标准化规则等，以适应特定的搜索场景。
支持多语言： 对于全球化的应用，分词器能够支持多种语言，包括中文、英文、法文等，以确保对不同语言的文本都能有效地进行处理。
支持搜索建议： 通过使用边缘 n-gram 等技术，分词器可以支持搜索建议功能，提供更智能的搜索提示。

如何指定分词器

方式一：创建索引时，通过映射直接指定分词器

PUT /your_index_name
{
  "mappings": {
    "properties": {
      "your_field_name": {
        "type": "text",
        "analyzer": "your_analyzer_name"
      },
      // other fields...
    }
  }
}

Step2：修改索引时，通过修改映射修改分词器

PUT /your_index_name/_mapping
{
  "properties": {
    "your_field_name": {
      "type": "text",
      "analyzer": "your_analyzer_name"
    },
    // other fields...
  }
}

注意：

如果不指定分词器，则默认使用标准分词器 standard
不同的字段可以使用不同的分词器，根据实际需求选择适当的分词策略
ElasticSearch默认自带Standard Analyzer、Whitespace Analyzer、Simple Analyzer、Keyword Analyzer、Stop Analyzer等分词器，其它分词器，比如：IK Analyzer需要手动下载

分词器的组成

分词器主要由以下三部分组成

Character Filters（字符过滤器）：这一步针对原始文本进行预处理，对文本中的字符进行修改或删除。例如，去除 HTML 标签、替换特定字符等。
Tokenizer（分词器）：分词器将经过字符过滤器处理后的文本切分成一个个的词条，形成一个词条流。切分的规则可以是按空格、标点符号等，或者根据某种特定的算法，比如边缘 n-gram。
Token Filters（词汇过滤器）：这一步对切分后的词条流进行进一步的处理。可以进行词条的大小写转换、删除停用词（常用但无实际意义的词语）、词干化等操作。词汇过滤器对于调整文本以适应索引和搜索的需求非常重要。

分词器的类型

分词器	分词依据	特点
Standard Analyzer	空格、标点符号	小写化处理、过滤符号
Whitespace Analyzer	空格	不进行小写化处理、保留所有字符
Simple Analyzer	非字母（符号、数字）	小写化处理、过滤符号、支持中文拼音分词
Keyword Analyzer	无	将整个输入作为一个词条
Stop Analyzer	空格	小写化处理、过滤停用词
IK Analyzer	词典	中文分词
Edge NGram Analyzer	n-gram	按指定步长进行分词
Pattern Analyzer	正则匹配字符	较为灵活
Language Analyzer	空格	支持多国语言
Custom Analyzer	自定义	灵活

标准分词器

Standard Analyzer（默认）：
- 类型： standard
- 特点：
  1. 根据空格和标点符号分割文本
  2. 进行小写化处理
  3. 过滤符号
- 适用场景：适用于通用的全文搜索
示例：
```
原始文本："The quick brown fox jumps over the lazy dog."
分词结果：["the", "quick", "brown", "fox", "jumps", "over", "the", "lazy", "dog"]
```

空格分词器

Whitespace Analyzer:
- 类型： whitespace
- 特点：
  1. 根据空格分割文本
  2. 不进行小写化
  3. 保留所有字符
- 适用场景：适用于不需要额外处理的精确匹配场景。
示例：
```
原始文本："The quick brown fox jumps over the lazy dog."
分词结果：["The", "quick", "brown", "fox", "jumps", "over", "the", "lazy", "dog."]
```

简单分词器

Simple Analyzer:
- 类型： simple
- 特点：
  1. 按非字母切分
  2. 连续的数字为一个词条
  3. 进行小写处理
  4. 过滤符号
  5. 中文字单独建索引，并且把中文字转成拼音后也建搜索，这样就能同时支持中文和拼音检索。另外把拼音首字母也建索引，这样搜索 zjl 就能命中 “周杰伦”。
- 适用场景：适用一些简单的中文分词
示例：
```
原始文本："The quick brown fox jumps over the lazy dog."
分词结果：["the", "quick", "brown", "fox", "jumps", "over", "the", "lazy", "dog"]
```

关键词分词器

Keyword Analyzer:
- 类型： keyword
- 特点： 将整个输入视为单个关键字，不进行分词。
- 适用场景：适用于不需要分词的场景，比如精确匹配。
示例：
```
原始文本："The quick brown fox jumps over the lazy dog."
分词结果：["The quick brown fox jumps over the lazy dog."]
```

停用词分词器

Stop Analyzer:
- 类型： stop
- 特点：
  1. 去除停用词（is、a、the……）
  2. 根据空格分割文本
  3. 进行小写化处理。
- 适用场景：适用于需要去除常见停用词的场景。
示例：
```
原始文本："The quick brown fox jumps over the lazy dog."
分词结果：["quick", "brown", "fox", "jumps", "over", "lazy", "dog"]
```

IK分词器

IK Analyzer:

详情请参考：https://github.com/medcl/elasticsearch-analysis-ik
- 类型：
  - ik_max_word ：会将文本做最细粒度的拆分，会穷尽各种可能的组合，适合 Term Query
  - ik_smart：会做最粗粒度的拆分，不会对同一个词进行重复分词，适合 Phrase 查询
- 适用场景：适用于中文文本分析。
示例：
```
原始文本："中华人民共和国国歌"
ik_max_word分词结果：["中华人民共和国", "中华人民", "中华", "华人", "人民共和国", "人民", "人", "民", "共和国", "共和", "和", "国国", "国歌"]
ik_smart分词结果：["中华人民共和国", "国歌"]
```
ik分词器的使用步骤
- Step1：下载ik分词器
- Step2：将下载的压缩包解压到 Elasticsearch 插件目录（plugins 文件夹）中
- Step3：重启ElasticSearch
- Step4：直接指定即可

NGram分词器

NGram Analyzer:

详情参考：ElasticSearch之ngram分词器-CSDN博客

类型：
- edge_ngram：从单词的开头提取 n-gram
- ngram：在整个单词中提取 n-gram
适用场景：适用于前缀搜索和搜索建议

示例：

原始文本："I am Chinese."

edge_ngram分词结果：
n=2（bigram）: ["I am", "am Chinese."]
n=3（trigram）: ["I am Chinese."]
n=4（four-gram）: ["I am Chinese."]

ngram分词结果：
n=2（bigram）: ["I am", "am Chinese."]
n=3（trigram）: ["I am Chinese."]
n=4（four-gram）: ["I am Chinese."]

备注：

NGram Analyzer 不会过滤符号
NGram Analyzer默认的步长是1

{
  "settings": {
    // 创建分词器
    "analysis": {
      "analyzer": {
        "my_edge_ngram_analyzer": {
          "tokenizer": "standard", // 指定分词器
          "filter": ["my_edge_ngram_filter"] // 指定词汇过滤器
        }
      },
      "filter": {
        "my_edge_ngram_filter": {
          "type": "edge_ngram",
          "min_gram": 1, // 词汇最小长度为一个字符，注意：一个单词、数字、中文都是一个字符
          "max_gram": 10 // 词汇最大长度为10个字符
        }
      }
    }
  },
  "mappings": {
    "properties": {
      "content": {
        "type": "text",
        "analyzer": "my_edge_ngram_analyzer" // 使用我们配置的分词器
      }
    }
  }
}

知识拓展：n-gram 概念

n-gram 是一种文本处理的方法，其中 “n” 表示包含的元素的数量。在自然语言处理和信息检索中，n-gram 通常指的是连续的 n 个单词（或字符）序列。

Unigram（1-gram）： 包含一个单词的序列。例如，对于句子 “The quick brown fox”，每个单词都是一个 unigram。

Bigram（2-gram）： 包含两个相邻单词的序列。例如，对于句子 “The quick brown fox”，bigrams 包括 “The quick”、“quick brown”、“brown fox”。

Trigram（3-gram）： 包含三个相邻单词的序列。例如，对于句子 “The quick brown fox”，trigrams 包括 “The quick brown”、“quick brown fox”。

这个 n 表示按照几个单词来进行划分

正则匹配分词器

Pattern Analyzer
- 类型：pattern
- 特点：根据正则匹配进行分词

{
  "settings": {
    "analysis": {
      "analyzer": {
        "my_pattern_analyzer": {
          "type": "pattern",
          "pattern": "\\W+"  // 正则表达式模式，表示使用非单词字符作为分隔符
        }
      }
    }
  },
  "mappings": {
    "properties": {
      "content": {
        "type": "text",
        "analyzer": "my_pattern_analyzer"
      }
    }
  }
}

上诉配置的 Pattern Analyzer 与 Standard Analyzer的效果是一模一样的

语言分词器

Language Analyzer
- 类型
  - english：英语分词器
  - french：法语分词器
- 特点：
  1. 支持多个不同国家语言的分词，但就是没有支持中文的（中文分词器还得靠国内大佬或机构开发）
  2. 应用英文的 Stop Analyzer（停用词过滤器）
  3. 单词小写化
  4. 不会过滤符号
- 适用场景：一些国际化的软件可能会用，但是面向国内用户基本上用不上

{
  "mappings": {
    "properties": {
      "content": {
        "type": "text",
        "analyzer": "english"
      }
    }
  }
}

原始文本："The quick brown fox jumps over the lazy dog."
分词结果：["quick", "brown", "fox", "jumps", "over", "lazy", "dog"]

自定义分词器

Custom Analyzer:
- 类型： custom
- 特点： 可以根据具体需求自定义分词器，包括指定分词器、字符过滤器、标记过滤器等。
- 适用场景：现有分词器不满足当前功能，或者想要实现更加高效且灵活的分词
实现自定义分词器的步骤：
- Step1：定义字符过滤器（Char Filter），可以通过字符过滤器执行预处理，例如删除 HTML 标签或进行字符替换。
- Step2：定义分词器（Tokenizer），分词器负责将文本切分为单词或词条。可以选择现有的分词器，也可以创建自定义的分词逻辑。
- Step3：定义词汇过滤器（Token Filter） ，可以通过词汇过滤器对切分后的单词进行进一步处理，例如小写处理、停用词过滤、同义词处理等。
- Step4：创建 Custom Analyzer ，将定义的字符过滤器、分词器和词汇过滤器组合成一个自定义的 Custom Analyzer。
- Step5：将 Custom Analyzer 应用到字段 ，在创建索引时，将自定义的 Custom Analyzer 分配给相应的字段。

示例：

在下面的示例中，my_analyzer 是一个自定义的 Custom Analyzer，包含了一个 HTML 标签过滤器、标准分词器和小写过滤器。该分析器被应用于名为 “content” 的字段。实际上，你可以根据需求自定义各个组件，以满足你的分词需求。

{
  "settings": {
    "analysis": {
      // 指定字符过滤器
      "char_filter": {
        "my_char_filter": {
          "type": "html_strip" // 去除文本中的 HTML 标签的字符过滤器
        }
      },
      // 指定分词器
      "tokenizer": {
        "my_tokenizer": {
          "type": "standard" // 指定标准分词器，按照标准分词器进行分词
        }
      },
      // 指定词汇过滤器
      "filter": {
        "my_filter": {
          "type": "lowercase" // 小写化处理
        }
      },
      // 创建自定义分词器
      "analyzer": {
        "my_analyzer": {
          "type": "custom",
          "char_filter": ["my_char_filter"],
          "tokenizer": "my_tokenizer",
          "filter": ["my_filter"]
        }
      }
    }
  },
  "mappings": {
    "properties": {
      "content": { // 给 content 字段应用 自定义分词器
        "type": "text",
        "analyzer": "my_analyzer"
      }
    }
  }
}

原始文本：This is bold text.
分词结果：["this", "is", "bold", "text"]

参考资料：

Anatomy of an analyzer | Elasticsearch Guide 8.11| Elastic

ElasticSearch 分词器，了解一下 - 知乎 (zhihu.com)

MySQL与Python：连接与操作数据库的魔法之旅墨瑾轩一起学学数据库【一】数据库 mysql
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣开篇：数据库世界的探险️嘿，亲爱的Python小巫师们！今天我们要一起踏上一段探险之旅——连接并操作MySQL数据库。在这个数据的海洋中，MySQL是我们的宝藏库，而Python则是我们的魔法棒。准备好你的魔法帽，我们即将开始这段连接与操作数据库的魔法之旅！M
数据库备份与恢复--mysqldump+binlog增量备份一只懵懂得小猿数据库运维数据库
一、前提：开启bin-log修改配置文件vim/etc/my.cnf[mysqld]log_bin=mysql-binserver_id=31122--注意此处server_id要独立，建议使用IP地址后几位重启mysqld：systemctlrestartmysqld二、mysqldump+binlog当在完全备份后，由于操作失误将数据遗失而未来得及备份时使用binlog日志进行恢复当失误出现后
MongoDB深度解析与实践案例我的运维人生 mongodb 数据库运维开发技术共享
MongoDB深度解析与实践案例在当今大数据盛行的时代，NoSQL数据库以其灵活的数据模型和水平扩展能力，成为了众多应用场景下的首选。MongoDB，作为NoSQL数据库的领军者之一，凭借其面向文档的存储方式、强大的查询功能以及丰富的生态系统，在众多领域大放异彩。本文将从MongoDB的基本概念出发，深入探讨其核心特性，并通过一个实际案例展示如何在项目中高效使用MongoDB。一、MongoDB基
SpringBoot核心组件详细解析德乐懿后端 spring boot 后端 java
SpringBoot核心组件详细解析SpringBoot作为当前Java领域最流行的微服务框架之一，其核心组件的设计与应用对于开发高效、稳定的应用程序至关重要。本文将详细解析SpringBoot的核心组件，包括SpringBoot框架本身、Spring、SpringMVC、数据库连接池等，通过阐述每个组件的作用、特点、使用场景，并结合实际案例，深入分析SpringBoot核心组件之间的关联性和依赖
【TiDB系列文章】PD（Placement Driver）学弟Craze TiDB tidb 数据库
引言在分布式数据库的生态系统中，PD扮演着至关重要的角色。作为TiDB的核心组件之一，PD负责数据的放置和调度，确保数据的高可用性和负载均衡。本文将详细介绍PD的功能、架构以及它在TiDB中的作用。PD概述PD是TiDB分布式数据库中的元信息管理组件，负责存储集群的元信息和调度数据。它相当于分布式数据库的“大脑”，负责整个集群的数据分布和负载均衡。PD通过合理的调度策略，确保数据均匀分布在集群中，
（尚硅谷 Java 学习 B 站大学版）Day 13 面向对象方法亢从文_Jackson java 学习开发语言
4-5类的成员之二：方法（Method）一、“万事万物皆对象”**：（理解）1、在Java语言范畴中，我们都将功能、结构等封装到类中，通过类的实例化，来调用具体的功能结构>Scanner,String等>文件：File>网络资源：URL2、涉及到java语言与前端html、后端数据库交互时，前后端的结构在Java层面交互时，都体现为类、对象二、内存解析说明1、引用类型的变量，只可能存储两类值：nu
Bun：快速、现代的Go语言替代工具链廉欣盼Industrious
Bun：快速、现代的Go语言替代工具链bunuptrace/bun:是一个基于Rust的SQL框架，它支持PostgreSQL、MySQL、SQLite3等多种数据库。适合用于构建高性能、可扩展的Web应用程序，特别是对于需要使用Rust语言和SQL数据库的场景。特点是Rust语言、高性能、可扩展、支持多种数据库。项目地址:https://gitcode.com/gh_mirrors/bun/bu
探索数据库交互新境界：Rustorm，以Rust之力重塑ORM新篇章马兰菲
探索数据库交互新境界：Rustorm，以Rust之力重塑ORM新篇章old-rustormAnORMforrust项目地址:https://gitcode.com/gh_mirrors/ol/old-rustorm在现代软件开发的洪流中，一款高效、灵活且易于理解的ORM（对象关系映射）框架，无疑是连接应用程序与数据库之间的桥梁。今日，让我们一同探索基于Rust编程语言的明星项目——Rustorm，
MyBatis：深入了解其特性与优势 HelloZheQ mybatis
MyBatis是一款优秀的持久层框架，它通过XML或注解的方式将Java对象映射到数据库表，简化了数据库操作。相比于其他ORM框架，MyBatis更加灵活、轻量级，并且提供了更细粒度的SQL控制。本文将深入探讨MyBatis的特点和优势，帮助你更好地理解和使用它。MyBatis的核心特性SQL映射：定义：MyBatis的核心功能是将Java对象和SQL语句进行映射。这意味着你可以直接编写SQL语句
Web 开发入门：从前端到后端的全栈开发探索 HelloZheQ 前端
Web开发是指创建和维护通过网络浏览器访问的应用程序。Web开发涉及到的领域非常广泛，涵盖了前端、后端、数据库等多个技术栈。在这篇文章中，我们将详细介绍Web开发的基本概念、前端和后端的技术、全栈开发的特点以及如何开始从事Web开发。1.Web开发简介Web开发是构建和维护网站或Web应用程序的过程，分为前端开发、后端开发和全栈开发。前端开发负责用户界面和交互体验，后端开发负责服务器端的逻辑处理、
Elasticsearch与数据库数据一致性：最佳实践与解决方案 HelloZheQ elasticsearch 数据库 jenkins
在现代应用程序中，Elasticsearch（ES）作为一个高效的分布式搜索引擎，常常与数据库一同使用，以提供强大的搜索、分析和数据可视化功能。然而，数据库和Elasticsearch之间的同步与一致性常常成为一个挑战。如何确保在数据库中进行的每一次操作（如插入、更新和删除）都能正确地反映到Elasticsearch中？如何处理两者之间的数据一致性问题？本文将介绍如何保持Elasticsearch
Kafka中文文档圣心 kafka 分布式
文章来源：https://kafka.cadn.net.cn什么是事件流式处理？事件流是人体中枢神经系统的数字等价物。它是为“永远在线”的世界奠定技术基础，在这个世界里，企业越来越多地使用软件定义和automated，而软件的用户更多的是Software。从技术上讲，事件流式处理是从事件源实时捕获数据的做法如数据库、传感器、移动设备、云服务和流形式的软件应用程序事件;持久存储这些事件流以供以后检索
DBeaver连接MySQL提示Access denied for user ‘‘@‘ip‘ (using password: YES)的解决方法 lingllllove mysql tcp/ip adb
在使用DBeaver连接MySQL数据库时，如果遇到“Accessdeniedforuser''@'ip'(usingpassword:YES)”的错误提示，说明用户认证失败。此问题通常与数据库用户权限、配置错误或网络设置有关。本文将详细介绍解决此问题的步骤。一、检查用户名和密码首先，确保在DBeaver中输入的用户名和密码是正确的。验证步骤如下：打开DBeaver，选择对应的数据库连接。检查连接
使用 Docker(Podman) 部署 MongoDB 数据库及使用详解特立独行的猫a Go语言实践笔记数据库 docker podman
在现代开发环境中，容器化技术（如Docker和Podman）已成为部署和管理应用程序的标准方式。本文将详细介绍如何使用Podman/Docker部署MongoDB数据库，并确保其他应用程序容器能够通过Docker网络成功连接到MongoDB。我们将逐步解决常见的问题，如权限配置和认证设置，应用容器如何连接和使用容器中的MongoDB数据库等。选择Podman而不是Docker为什么选择Podman
Java学习教程，从入门到精通，JDBC中WHERE子句的语法知识点及案例代码（107）知识分享小能手大数据 Java 编程语言如门 java 学习开发语言数据库大数据 JDBC intellij-idea
JDBC中WHERE子句的语法知识点及案例代码JDBCWHERE子句语法知识点WHERE子句用于在SQL查询中对数据进行筛选，它可以根据指定的条件过滤数据行。在JDBC中，WHERE子句通常用于SELECT、UPDATE和DELETE语句中。常见的WHERE子句条件比较运算符=：等于：大于=：大于等于18ANDscore>=80";try{//加载数据库驱动Class.forName("com.m
携程Android开发面试题及参考答案大模型大数据攻城狮 android android面经 RN原理 android动画 kotlin okhttp 异步请求
在项目中，给别人发的动态点赞功能是如何实现的？数据库设计：首先要在数据库中为动态表添加一个点赞字段，用于记录点赞数量，同时可能需要一个点赞关系表，记录用户与动态之间的点赞关联，包括点赞时间等信息。界面交互：在Android界面上，为点赞按钮设置点击事件监听器。当用户点击点赞按钮时，按钮状态改变，比如从未点赞的图标变为已点赞的图标。网络请求：通过网络框架如Retrofit等，向服务器发送点赞请求，请
LSM-Tree 与 RocksDB 波哥在路上 RocksDB RocksDB
冥冥之中，接触到了不同于关系数据库的NoSQLKey-Value存储引擎RocksDB，懵懵懂懂、充满好奇，google一点，满眼皆是LSM-Tree，头晕眼花、若即若离，便有了这篇文章，一起与大家分享这趟探险之旅。LSM-Tree(Log-Structured-Merge-Tree)LSM从命名上看，容易望文生义成一个具体的数据结构，一个tree。但LSM并不是一个具体的数据结构，也不是一个tr
eclipse报错：java.lang.ClassNotFoundException: com.mysql.cj.jdbc.Driver 夏末秋也凉 WEB eclipse
驱动版本不一致，//MySQL8.0以下版本-JDBC驱动名及数据库URLstaticfinalStringJDBC_DRIVER="com.mysql.jdbc.Driver";staticfinalStringDB_URL="jdbc:mysql://localhost:3306/RUNOOB";//MySQL8.0以上版本-JDBC驱动名及数据库URLstaticfinalStringJDB
分库分表后如何进行join操作 fajianchen IT架构系统设计 sql 分库分表
在分库分表后的系统中，进行表之间的JOIN操作比在单一数据库表中复杂得多，因为涉及的数据可能位于不同的物理节点或分片中。此时，传统的SQLJOIN语句不能直接用于不同分片的数据，以下是几种处理这样的跨分片JOIN操作的方法：方法1：应用程序层JOIN分步查询：在应用程序中，先查询一个分片中的数据（如，获取第一个表的数据）。对于那些需要JOIN的数据，使用这些结果的数据再去另一个分片中查询。内存合并
Python Web框架比较：Flask与FastAPI的特性和应用场景不一样的信息安全 node.js
摘要本文探讨Python语言中的两大Web框架：Flask和FastAPI。Flask以轻量级和易用性著称，提供高度灵活性，允许开发者自由选择数据库、表单验证库等工具。其核心架构简洁，借助丰富的扩展可显著增强功能。FastAPI则专注于高性能与现代Web开发需求，支持异步编程，具备自动交互式API文档生成功能。两者各具特色，适合不同应用场景。关键词Python语言,Web框架,Flask特性,Fa
mysql索引结构 Qzer_407 #MySQL 后端技术栈 mysql 数据库
多种数据结构在数据库索引领域，特别是MySQL的InnoDB存储引擎中，聚簇索引（ClusteredIndex）和非聚簇索引（也称为二级索引，SecondaryIndex）是两种主要的索引类型。这些索引类型在数据结构的选择上有所不同，而Hash结构、二叉搜索树（BST）、AVL树、B-Tree、B+Tree和R-Tree是常见的索引数据结构。下面我将对这些数据结构进行类比，并特别关注它们在Inno
实战：利用百度站长平台加速网站收录百度网站快速收录百度百度快速收录网站快速收录
本文转自：百万收录网原文链接：https://www.baiwanshoulu.com/33.html利用百度站长平台加速网站收录是一个实战性很强的过程，以下是一些具体的步骤和策略：一、了解百度站长平台百度站长平台是百度为网站管理员提供的一系列工具和服务，旨在帮助网站更好地与百度搜索引擎进行交互。通过该平台，你可以提交网站地图、监控网站表现、优化搜索排名等。二、注册与验证网站注册百度账号：如果你还
mysql中insert into的用法青草地溪水旁 mysql学习笔记 mysql 数据库
在MySQL中，INSERTINTO语句用于向数据库表中插入新的行。以下是INSERTINTO语句的基本用法和一些示例。基本语法INSERTINTOtable_name(column1,column2,column3,...,columnN)VALUES(value1,value2,value3,...,valueN);插入单行数据假设有一个名为employees的表，其结构如下：id(INT)f
【Postgres_Python】使用python脚本将多个PG数据库合并为一个PG数据库萌小丹Fighting Postgres_Python 数据库
需要合并的多个PG数据库表个数和结构一致，这里提供一种思路，选择sql语句insert插入的方式进行，即将其他PG数据库的每个表内容插入到一个PG数据库中完成数据库合并示例代码说明：选择一个数据库导出表结构为.sql文件（可借助Navicat工具），在此基础上修改.sql内容加入insert语句和dblink语句，数据可能存在重复需要在每个insert插入语句后带上ONCONFLICTDONOTH
django多种查询筛选数据库方式 Sean_TS_Wang Django postgresql django
简介本文主要整理了Django多种针对postgresql数据库所支持的查询方式目录简介目录正文一、使用Python直接操作数二、使用Django执行数据库查询语句Django使用游标执行SQL查询语句Djangoraw执行SQL查询语句三、Django使用extra拆分SQL语句执行参数说明四、使用DjangoORM进行简单数据库查询五、使用双下划线查询六、关联表使用下划线查询外键关联查询多对多
Python 网络爬虫实战：从基础到高级爬取技术一ge科研小菜鸡编程语言 Python python
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注1.引言网络爬虫（WebScraping）是一种自动化技术，利用程序从网页中提取数据，广泛应用于数据采集、搜索引擎、市场分析、舆情监测等领域。本教程将涵盖requests、BeautifulSoup、Selenium、Scrapy等常用工具，并深入探讨反爬机制突破、动态加载页面、模拟登录、多线程/分布式爬取等高级技巧。2.爬虫基础：request
Tauri应用开发实践指南（5）—Tauri 集成本地数据库前端徐徐 Tauri应用开发实践指南数据库前端
本文首发于微信公众号：前端徐徐。欢迎关注，获取更多前端技能分享。前言Tauri是一个构建跨平台桌面应用程序的框架，利用Web技术构建前端，并使用Rust构建后端。它以其小巧的体积和高性能受到开发者的欢迎。在开发过程中，我们常常需要数据本地持久化，所以会需要与本地数据库进行交互。方案比较在Tauri中集成本地数据库有多种方案，常见的包括：SQLite通过直接绑定使用第三方数据库库Tauri插件：ta
索引的底层数据结构、B+树的结构、为什么InnoDB使用B+树而不是B树呢因特麦克斯数据库
索引的底层数据结构MySQL中常用的是Hash索引和B+树索引Hash索引：基于哈希表实现的，查找速度非常快，但是由于哈希表的特性，不支持范围查找和排序，在MySQL中支持的哈希索引是自适应的，不能手动创建B+树的结构B+树是一种高效的多路平衡树，适合磁盘存储和范围查询。它的结构特点包括数据集中在叶子节点、叶子节点连接成链表、内部节点仅存储键值和指针。在数据库和文件系统中，B+树被广泛应用于索引和
【Spring Security Oauth2】构建授权服务器(三)：使用数据库存储客户端信息 apple_csdn 数据库 spring 服务器 springcloud
一、环境准备1、回顾【SpringSecurityOauth2】构建授权服务器(一)：内存模式2、Sql脚本createdatabased_study_oauth2charactersetutf8;used_study_oauth2;--auto-generateddefinitioncreatetableoauth_client_details(client_idvarchar(255)notn
第十三章 I 开头的术语 yaoxin521123 IRIS相关术语 oracle 数据库
文章目录第十三章I开头的术语安装目录(install-dir)实例(instance)实例认证(InstanceAuthentication)实例方法(instancemethod)实例化(instantiate)中间源代码(intermediatesourcecode)InterSystemsIRIS启动器(InterSystemsIRISlauncher)InterSystemsIRIS数据库
算法单链的创建与删除换个号韩国红果果 c 算法
先创建结构体 struct student { int data; //int tag;//标记这是第几个 struct student *next; }; // addone 用于将一个数插入已从小到大排好序的链中 struct student *addone(struct student *h,int x){ if(h==NULL) //??????
《大型网站系统与Java中间件实践》第2章读后感白糖_ java中间件
断断续续花了两天时间试读了《大型网站系统与Java中间件实践》的第2章，这章总述了从一个小型单机构建的网站发展到大型网站的演化过程---整个过程会遇到很多困难，但每一个屏障都会有解决方案，最终就是依靠这些个解决方案汇聚到一起组成了一个健壮稳定高效的大型系统。看完整章内容，
zeus持久层spring事务单元测试 deng520159 java DAO spring jdbc
今天把zeus事务单元测试放出来,让大家指出他的毛病, 1.ZeusTransactionTest.java 单元测试 package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Test; import
Rss 订阅开发周凡杨 html xml 订阅 rss 规范
RSS是 Really Simple Syndication的缩写（对rss2.0而言，是这三个词的缩写，对rss1.0而言则是RDF Site Summary的缩写，1.0与2.0走的是两个体系）。 RSS
分页查询实现 g21121 分页查询
在查询列表时我们常常会用到分页，分页的好处就是减少数据交换，每次查询一定数量减少数据库压力等等。按实现形式分前台分页和服务器分页：前台分页就是一次查询出所有记录，在页面中用js进行虚拟分页，这种形式在数据量较小时优势比较明显，一次加载就不必再访问服务器了，但当数据量较大时会对页面造成压力，传输速度也会大幅下降。服务器分页就是每次请求相同数量记录，按一定规则排序，每次取一定序号直接的数据
spring jms异步消息处理 510888780 jms
spring JMS对于异步消息处理基本上只需配置下就能进行高效的处理。其核心就是消息侦听器容器，常用的类就是DefaultMessageListenerContainer。该容器可配置侦听器的并发数量，以及配合MessageListenerAdapter使用消息驱动POJO进行消息处理。且消息驱动POJO是放入TaskExecutor中进行处理，进一步提高性能，减少侦听器的阻塞。具体配置如下：
highCharts柱状图布衣凌宇 hightCharts 柱图
第一步：导入 exporting.js,grid.js,highcharts.js;第二步：写controller @Controller@RequestMapping(value="${adminPath}/statistick")public class StatistickController { private UserServi
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans spring mvc Spring 教程 spring3 教程 Spring 入门
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
TLS java简单实现 antlove java ssl keystore tls secure
1. SSLServer.java package ssl; import java.io.FileInputStream; import java.io.InputStream; import java.net.ServerSocket; import java.net.Socket; import java.security.KeyStore; import
Zip解压压缩文件百合不是茶 Zip格式解压 Zip流的使用文件解压
ZIP文件的解压缩实质上就是从输入流中读取数据。Java.util.zip包提供了类ZipInputStream来读取ZIP文件,下面的代码段创建了一个输入流来读取ZIP格式的文件; ZipInputStream in = new ZipInputStream(new FileInputStream(zipFileName)); &n
underscore.js 学习（一） bijian1013 JavaScript underscore
工作中需要用到underscore.js，发现这是一个包括了很多基本功能函数的js库，里面有很多实用的函数。而且它没有扩展 javascript的原生对象。主要涉及对Collection、Object、Array、Function的操作。学
java jvm常用命令工具——jstatd命令(Java Statistics Monitoring Daemon) bijian1013 java jvm jstatd
1.介绍 jstatd是一个基于RMI（Remove Method Invocation）的服务程序，它用于监控基于HotSpot的JVM中资源的创建及销毁，并且提供了一个远程接口允许远程的监控工具连接到本地的JVM执行命令。 jstatd是基于RMI的，所以在运行jstatd的服务
【Spring框架三】Spring常用注解之Transactional bit1129 transactional
Spring可以通过注解@Transactional来为业务逻辑层的方法(调用DAO完成持久化动作)添加事务能力，如下是@Transactional注解的定义： /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version
我(程序员)的前进方向 bitray 程序员
作为一个普通的程序员,我一直游走在java语言中,java也确实让我有了很多的体会.不过随着学习的深入,java语言的新技术产生的越来越多,从最初期的javase,我逐渐开始转变到ssh,ssi,这种主流的码农,.过了几天为了解决新问题,webservice的大旗也被我祭出来了,又过了些日子jms架构的activemq也开始必须学习了.再后来开始了一系列技术学习,osgi,restful.....
nginx lua开发经验总结 ronin47
使用nginx lua已经两三个月了，项目接开发完毕了，这几天准备上线并且跟高德地图对接。回顾下来lua在项目中占得必中还是比较大的，跟PHP的占比差不多持平了，因此在开发中遇到一些问题备忘一下 1：content_by_lua中代码容量有限制，一般不要写太多代码，正常编写代码一般在100行左右（具体容量没有细心测哈哈，在4kb左右），如果超出了则重启nginx的时候会报 too long pa
java-66-用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。颠倒之后的栈为{5,4,3,2,1}，5处在栈顶 bylijinnan java
import java.util.Stack; public class ReverseStackRecursive { /** * Q 66.颠倒栈。 * 题目：用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。 * 颠倒之后的栈为{5,4,3,2,1}，5处在栈顶。 *1. Pop the top element *2. Revers
正确理解Linux内存占用过高的问题 cfyme linux
Linux开机后，使用top命令查看，4G物理内存发现已使用的多大3.2G，占用率高达80%以上： Mem: 3889836k total, 3341868k used, 547968k free, 286044k buffers Swap: 6127608k total,&nb
[JWFD开源工作流]当前流程引擎设计的一个急需解决的问题 comsci 工作流
当我们的流程引擎进入IRC阶段的时候，当循环反馈模型出现之后，每次循环都会导致一大堆节点内存数据残留在系统内存中，循环的次数越多，这些残留数据将导致系统内存溢出，并使得引擎崩溃。。。。。。而解决办法就是利用汇编语言或者其它系统编程语言，在引擎运行时，把这些残留数据清除掉。
自定义类的equals函数 dai_lm equals
仅作笔记使用 public class VectorQueue { private final Vector<VectorItem> queue; private class VectorItem { private final Object item; private final int quantity; public VectorI
Linux下安装R语言 datageek R语言 linux
命令如下：sudo gedit /etc/apt/sources.list1、deb http://mirrors.ustc.edu.cn/CRAN/bin/linux/ubuntu/ precise/ 2、deb http://dk.archive.ubuntu.com/ubuntu hardy universesudo apt-key adv --keyserver ke
如何修改mysql 并发数(连接数)最大值 dcj3sjt126com mysql
MySQL的连接数最大值跟MySQL没关系，主要看系统和业务逻辑了方法一：进入MYSQL安装目录打开MYSQL配置文件 my.ini 或 my.cnf查找 max_connections=100 修改为 max_connections=1000 服务里重起MYSQL即可　　方法二：MySQL的最大连接数默认是100客户端登录：mysql -uusername -ppass
单一功能原则 dcj3sjt126com 面向对象的程序设计软件设计编程原则
单一功能原则[ 编辑] SOLID 原则单一功能原则开闭原则 Liskov代换原则接口隔离原则依赖反转原则查论编在面向对象编程领域中，单一功能原则（Single responsibility principle）规定每个类都应该有
POJO、VO和JavaBean区别和联系 fanmingxing VO POJO javabean
POJO和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Plain Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比POJO复杂很多，JavaBean是一种组件技术，就好像你做了一个扳子，而这个扳子会在很多地方被
SpringSecurity3.X--LDAP：AD配置 hanqunfeng SpringSecurity
前面介绍过基于本地数据库验证的方式，参考http://hanqunfeng.iteye.com/blog/1155226，这里说一下如何修改为使用AD进行身份验证【只对用户名和密码进行验证，权限依旧存储在本地数据库中】。将配置文件中的如下部分删除：
mac mysql 修改密码 IXHONG mysql
$ sudo /usr/local/mysql/bin/mysqld_safe –user=root & //启动MySQL(也可以通过偏好设置面板来启动)$ sudo /usr/local/mysql/bin/mysqladmin -uroot password yourpassword //设置MySQL密码（注意，这是第一次MySQL密码为空的时候的设置命令，如果是修改密码，还需在-
设计模式--抽象工厂模式 kerryg 设计模式
抽象工厂模式：工厂模式有一个问题就是，类的创建依赖于工厂类，也就是说，如果想要拓展程序，必须对工厂类进行修改，这违背了闭包原则。我们采用抽象工厂模式，创建多个工厂类，这样一旦需要增加新的功能，直接增加新的工厂类就可以了，不需要修改之前的代码。总结：这个模式的好处就是，如果想增加一个功能，就需要做一个实现类，
评"高中女生军训期跳楼” nannan408
首先，先抛出我的观点，各位看官少点砖头。那就是，中国的差异化教育必须做起来。孔圣人有云：有教无类。不同类型的人，都应该有对应的教育方法。目前中国的一体化教育，不知道已经扼杀了多少创造性人才。我们出不了爱迪生，出不了爱因斯坦，很大原因，是我们的培养思路错了，我们是第一要“顺从”。如果不顺从，我们的学校，就会用各种方法，罚站，罚写作业，各种罚。军
scala如何读取和写入文件内容？ qindongliang1922 java jvm scala
直接看如下代码： package file import java.io.RandomAccessFile import java.nio.charset.Charset import scala.io.Source import scala.reflect.io.{File, Path} /** * Created by qindongliang on 2015/
C语言算法之百元买百鸡 qiufeihu c 算法
中国古代数学家张丘建在他的《算经》中提出了一个著名的“百钱买百鸡问题”，鸡翁一，值钱五，鸡母一，值钱三，鸡雏三，值钱一，百钱买百鸡，问翁，母，雏各几何？代码如下： #include <stdio.h> int main() { int cock,hen,chick; /*定义变量为基本整型*/ for(coc
Hadoop集群安全性：Hadoop中Namenode单点故障的解决方案及详细介绍AvatarNode wyz2009107220 NameNode
正如大家所知，NameNode在Hadoop系统中存在单点故障问题，这个对于标榜高可用性的Hadoop来说一直是个软肋。本文讨论一下为了解决这个问题而存在的几个solution。 1. Secondary NameNode 原理：Secondary NN会定期的从NN中读取editlog，与自己存储的Image进行合并形成新的metadata image 优点：Hadoop较早的版本都自带，

ElasticSearch中常见的分词器介绍

文章目录

ElasticSearch中常见的分词器介绍

前言

分词器的作用

如何指定分词器

分词器的组成

分词器的类型

标准分词器

空格分词器

简单分词器

关键词分词器

停用词分词器

IK分词器

NGram分词器

正则匹配分词器

语言分词器

自定义分词器

你可能感兴趣的:(数据库,#,ElasticSearch,elasticsearch,搜索引擎)