没事儿写两篇

Elasticsearch 文本分析器（上）

文章目录

文本分析
分析器
- 分析器分析过程
什么时候会进行文本分析
分析器测试API
- 路径参数
- 查询参数
ES 内置分析器
- standard 标准分析器
- 可配参数说明
- 自定义分析器
simple 简单分析器
whitespace 空白分析器
stop 停用词分析器
- 可配参数说明
keyword 关键字分析器
pattern 正则表达式分析器
- 可配参数说明
各种语言分析器

文本分析

文本分析使 Elasticsearch 能够执行全文搜索，搜索返回所有相关结果，而不仅仅是精确匹配。就像我们平时在搜索引擎搜索关键词一样，比如我们搜索“蓉城”，则结果会出现与成都相关的信息，而且“成都”会是和“蓉城”一样的关键字。达到这样的效果，是通过分析器来实现的。

分析器

一个分析器包含如下三个模块：

character filters 字符过滤器：分析器可能有零个或多个字符过滤器，他们按顺序执行。主要作用为在分词前将原始文本进行整理（包括去除html标签、者将 & 转化成 and等）
tokenizers 分词器：分词器主要将文本进行分解标记（通常是单个单词或词语），分析器只有一个分词器。
token filters 令牌过滤器：可以添加、删除或更改令牌流，比如：lowercase令牌过滤器将所有令牌转换为小写、stop 令牌过滤器将删除常用词（a、the、and等）、synonym 将词语转换为同义词等。一个分析器可以包含多个令牌过滤器，它们按顺序执行。

分析器分析过程

标记之前对文本进行过滤更改（对应字符过滤器）
对文本进行标记（对应分词器）
对标记进行规范化修改（对应令牌过滤器）

Elasticsearch 包含一个默认分析器，称为标准分析器，它开箱即用，适用于大多数用例。当然我们也可以自定义分析器，我们可以选中不同的内置分析器，也可以配置自定义的分析器

什么时候会进行文本分析

索引时：当文档被索引时，任何text类型字段都会进行文本分析
搜索时：进行全文搜索时，对于查询的字段会进行文本分析

一般情况下，我们在文档对索引和搜索的时候应该对同样的字段使用同一个文本分析器，这样有助于我们的搜索要求。

分析器测试API

GET /_analyze

POST /_analyze

GET /<index>/_analyze

POST /<index>/_analyze

路径参数

index （可选，字符串）用于派生分析器的索引。

查询参数

analyzer
（可选，字符串）应应用于提供的分析器的名称字符串。这可能是一个内置的分析器，或者是在索引中配置的分析器。
- 如果未指定此参数，则分析 API 使用字段映射中定义的分析器。
- 如果未指定字段，分析 API 将使用索引的默认分析器。
- 如果未指定索引，或者索引没有默认分析器，则分析 API 使用标准分析器。
attributes
（可选，字符串数组）用于过滤参数输出的令牌属性数组
char_filter
（可选，字符串数组）字符过滤器数组，用于在分词器之前预处理字符
explain
（可选，布尔值）如果true，则响应包括令牌属性和其他详细信息。默认为false.
field
（可选，字符串）用于派生分析器的字段。要使用此参数，则必须指定一个索引，即必须配置路径参数
。
- 如果指定，analyzer参数将被覆盖
- 如果未指定字段，分析 API 将使用索引的默认分析器
- 如果未指定索引或索引没有默认分析器，则分析 API 使用标准分析器。
filter
（可选，字符串数组）用于在分词器之后应用的分词过滤器数组（Token filter）。
normalizer
（可选，字符串）用于将文本转换为单个标记的规范器。
text
（必需，字符串或字符串数组）要分析的文本。
tokenizer
（可选，字符串）用于将文本转换为标记的分词器。

ES 内置分析器

standard 标准分析器

根据 Unicode 文本分割算法定义的单词边界将文本划分为术语。它删除了大多数标点符号、小写术语，并支持删除停用词，且适用于大多数语言。

POST _analyze

{
  "analyzer": "standard",
  "text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."
}

{
    "tokens": [
        {
            "token": "the",
            "start_offset": 0,
            "end_offset": 3,
            "type": "",
            "position": 0
        },
        {
            "token": "2",
            "start_offset": 4,
            "end_offset": 5,
            "type": "",
            "position": 1
        },
        {
            "token": "quick",
            "start_offset": 6,
            "end_offset": 11,
            "type": "",
            "position": 2
        },
        {
            "token": "brown",
            "start_offset": 12,
            "end_offset": 17,
            "type": "",
            "position": 3
        },
        {
            "token": "foxes",
            "start_offset": 18,
            "end_offset": 23,
            "type": "",
            "position": 4
        },
        {
            "token": "jumped",
            "start_offset": 24,
            "end_offset": 30,
            "type": "",
            "position": 5
        },
        {
            "token": "over",
            "start_offset": 31,
            "end_offset": 35,
            "type": "",
            "position": 6
        },
        {
            "token": "the",
            "start_offset": 36,
            "end_offset": 39,
            "type": "",
            "position": 7
        },
        {
            "token": "lazy",
            "start_offset": 40,
            "end_offset": 44,
            "type": "",
            "position": 8
        },
        {
            "token": "dog's",
            "start_offset": 45,
            "end_offset": 50,
            "type": "",
            "position": 9
        },
        {
            "token": "bone",
            "start_offset": 51,
            "end_offset": 55,
            "type": "",
            "position": 10
        }
    ]
}

从结果可以看到，standard 分析器默认没有删除 the 这样的停用词（stop），但是将 QUICK 转换为了小写。

可配参数说明

max_token_length
单个词语的最大长度。如果词语长度超过该长度，则按max_token_length间隔将其拆分。默认为255。
stopwords
- _english_：预定义的停用词列表
- _none_：无，默认为 _none_
- 包含停用词列表的数组
stopwords_path
包含停用词的文件的路径。

自定义分析器

PUT person1
{
  "settings": {
    "analysis": {
      "analyzer": {
        "my_english_analyzer": {
          "type": "standard",
          "max_token_length": 5,
          "stopwords": "_english_"
        }
      }
    }
  }
}

说明：此示例为创建一个索引 person1，并配置了一个名为 my_english_analyzer 的文本分析器，其基础类型为 standard （意味着是以 standard 来扩展），并设置了拆分的词语最大长度为5，以及使用了 standard 预定义的停用词表。

如果需要修改一个已存在的索引的分析器，可使用更新索引设置的API

PUT /person1/_settings

{
  "settings": {
    "analysis": {
      "analyzer": {
        "my_english_analyzer": {
          "type": "standard",
          "max_token_length": 5,
          "stopwords": "_english_"
        }
      }
    }
  }
}

注：修改前请先使用 _close 接口关闭索引，否则会报如下错误：
Can’t update non dynamic settings [[index.analysis.analyzer.my_english_analyzer.stopwords, index.analysis.analyzer.my_english_analyzer.max_token_length, index.analysis.analyzer.my_english_analyzer.type]] for open indices [[person1/DQ3_0a2iRPGYrN7SLlxh3g]]

修改完成之后再打开索引即可。

再次测试我们自定义的文本分析器

POST /person1/_analyze

{
  "analyzer": "my_english_analyzer",
  "text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."
}

使用我们自定义的分析器 my_english_analyzer

{
    "tokens": [
        {
            "token": "2",
            "start_offset": 4,
            "end_offset": 5,
            "type": "",
            "position": 1
        },
        {
            "token": "quick",
            "start_offset": 6,
            "end_offset": 11,
            "type": "",
            "position": 2
        },
        {
            "token": "brown",
            "start_offset": 12,
            "end_offset": 17,
            "type": "",
            "position": 3
        },
        {
            "token": "foxes",
            "start_offset": 18,
            "end_offset": 23,
            "type": "",
            "position": 4
        },
        {
            "token": "jumpe",
            "start_offset": 24,
            "end_offset": 29,
            "type": "",
            "position": 5
        },
        {
            "token": "d",
            "start_offset": 29,
            "end_offset": 30,
            "type": "",
            "position": 6
        },
        {
            "token": "over",
            "start_offset": 31,
            "end_offset": 35,
            "type": "",
            "position": 7
        },
        {
            "token": "lazy",
            "start_offset": 40,
            "end_offset": 44,
            "type": "",
            "position": 9
        },
        {
            "token": "dog's",
            "start_offset": 45,
            "end_offset": 50,
            "type": "",
            "position": 10
        },
        {
            "token": "bone",
            "start_offset": 51,
            "end_offset": 55,
            "type": "",
            "position": 11
        }
    ]
}

可以看到结果与直接使用标准分析器是不一样的。特别是 jumped 被拆分为了：“jumpe” 和 “d” ，而且停用词（the）被删除了。

simple 简单分析器

将文本分解为任何非字母字符处的标记，例如数字、空格、连字符和撇号，丢弃非字母字符，并将大写字母更改为小写字母。

POST /_analyze
{
  "analyzer": "simple",
  "text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."
}

解析的结果如下：

[ the, quick, brown, foxes, jumped, over, the, lazy, dog, s, bone ]

注：以上是简化的结果

whitespace 空白分析器

每当遇到空白字符时，分析器都会将文本分解为术语。

{
  "analyzer": "whitespace",
  "text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."
}

解析的结果：

[ The, 2, QUICK, Brown-Foxes, jumped, over, the, lazy, dog's, bone. ]

stop 停用词分析器

stop 分析器与 simple 分析器相同，但增加了对删除停用词的支持。它默认使用 _english_ 停用词。

POST _analyze
{
  "analyzer": "stop",
  "text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."
}

解析结果：

[ quick, brown, foxes, jumped, over, lazy, dog, s, bone ]

可配参数说明

stopwords
- _english_：预定义的停用词列表，默认为 _english_
- _none_：无
- 包含停用词列表的数组
stopwords_path
包含停用词的文件的路径。

keyword 关键字分析器

keyword 关键字分析器，将整个输入字符串作为单个标记返回。

POST _analyze
{
  "analyzer": "keyword",
  "text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."
}

解析结果：

[ The 2 QUICK Brown-Foxes jumped over the lazy dog's bone. ]

pattern 正则表达式分析器

按照提供的正则表达式对文本进行拆分。正则表达式默认为\W+（索引的非单词字符）。

POST _analyze
{
  "analyzer": "pattern",
  "text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."
}

解析结果：

[ the, 2, quick, brown, foxes, jumped, over, the, lazy, dog, s, bone ]

可配参数说明

pattern
Java正则表达式，默认为\W+.
flags
Java 正则表达式标志。标志应该用管道分隔，例如"CASE_INSENSITIVE|COMMENTS".
lowercase
术语是否应该小写。默认为true.
stopwords
- _english_：预定义的停用词列表，默认为 _english_
- _none_：无
- 包含停用词列表的数组
stopwords_path
包含停用词的文件的路径。

各种语言分析器

其包含的语言分析器如下：

arabic, armenian, basque, bengali, brazilian, bulgarian, catalan, cjk, czech, danish, dutch, 
english, estonian, finnish, french, galician, german, greek, hindi, hungarian, indonesian,
 irish, italian, latvian, lithuanian, norwegian, persian, portuguese, romanian, russian, 
 sorani, spanish, swedish, turkish, thai.

可以看到其中有各种语言，但是没有中文，这也是我们前面的示例都是英文的原因，中文的分析我们后面再说。

你可能感兴趣的:(elasticsearch,分析器,分词器,分词,文本分析)

客服机器人怎么才能精准的回答用户问题？玩人工智能的辣条哥 AI面试机器人客服机器人
环境：客服机器人问题描述：客服机器人怎么才能精准的回答用户问题？解决方案：客服机器人要精准回答用户问题，需综合技术、数据和用户体验等多方面因素。以下是关键策略和步骤：1.精准理解用户意图自然语言处理（NLP）技术分词与实体识别：提取关键词（如“订单号”“退货”）和实体（如时间、地点）。意图分类：通过机器学习模型（如BERT、Transformer）将问题归类（如“售后”“支付”）。上下文理解记录对
使用LangGraph迁移MapReduceDocumentsChain进行长文档的摘要 dgay_hua python
在大数据处理和文本分析领域，MapReduce是一种非常重要的策略，用于处理和分析大型数据集。具体到文本处理方面，MapReduceDocumentsChain구현了一种map-reduce策略，可以有效地处理长文本。本文将介绍如何从MapReduceDocumentsChain迁移到LangGraph，并探讨LangGraph在流处理、检查点恢复等方面的优势。技术背景介绍MapReduceDoc
自然语言处理（5）—— 中文分词隐私无忧人工智能 #自然语言处理自然语言处理中文分词人工智能
中文分词的基本原理及实现1.什么是词2.基本原理3.发展趋势：多数场景无需显式分词信息处理的目标是使用计算机能够理解和产生自然语言。而自然语言理解和产生的前提是对语言能够做出全面的解析。汉语词汇是语言中能够独立运用的最小的语言单位，是语言中的原子结构。由于中文缺乏类似英文的空格分隔，分词的准确性直接影响后续任务（如机器翻译、情感分析）的效果。因此，对中文进行分词就显得至关重要。中文分词（Chine
JAVA代码实现ElasticSearch搜索（入门-进阶）(一):搜索方法、多字段查询、高亮展示 majunssz elasticsearch elasticsearch
一、搜索方法对比首先存入一条数据count="ilikeeatingandkuing"默认分词器应该将内容分为“i”“like”“eating”“and”“kuing”1.QueryBuilders.matchQuery("count",count);会将搜索词分词，再与目标查询字段进行匹配，若分词中的任意一个词与目标字段匹配上，则可查询到。count="i"可查出count="ili"可查出co
轻松入门Apache SeaTunnel：数据集成利器窝窝和牛牛 SeaTunnel ETL 数据集成
文章目录轻松入门ApacheSeaTunnel：数据集成利器什么是SeaTunnel基本原理运行流程SeaTunnelvsDataX：两大数据集成工具对比实战场景：MySQL数据同步至ElasticsearchSeaTunnel实现方案DataX实现方案实现原理对比底层依赖环境方案优缺点分析快速上手环境准备简单示例总结轻松入门ApacheSeaTunnel：数据集成利器什么是SeaTunnelAp
java毕业设计，网上商城系统爱编程的小哥 java毕设 java 课程设计 spring boot vue
️OnlineMall商城系统全解析|Vue3+SpringBoot全栈实战（附高并发与数据安全方案）一、系统架构全景基于七张效果图分析，该系统是企业级电商综合管理平台，采用SpringBoot3+Vue3+ElementPlus+MyBatisPlus技术栈，覆盖商品管理、订单处理、会员运营等核心场景。通过RBAC权限控制+Elasticsearch搜索+分布式事务三大技术亮点，支持10万级商品
通过 Kibana 操作 Elasticsearch：从入门到实践格子先生Lab elasticsearch 大数据搜索引擎
引言Kibana是Elasticsearch的可视化工具，提供了一个用户友好的界面来管理和操作Elasticsearch中的数据。通过Kibana，你可以轻松地执行数据搜索、创建可视化图表、构建仪表盘等操作。本文将带你从零开始学习如何通过Kibana操作Elasticsearch，掌握其基本功能和进阶操作。1.Kibana简介1.1什么是Kibana？Kibana是一个开源的数据可视化工具，专为E
同步MySQL数据至Elasticsearch：go-mysql-elasticsearch实战指南吴镇业
同步MySQL数据至Elasticsearch：go-mysql-elasticsearch实战指南go-mysql-elasticsearchSyncMySQLdataintoelasticsearch项目地址:https://gitcode.com/gh_mirrors/go/go-mysql-elasticsearch项目介绍go-mysql-elasticsearch是一个服务，能够自动将
ElasticSearch~查询操作~(简单查询、批量查询、匹配查询、模糊查询、精确查询、范围查询、通配符查询、must查询、should查询、过滤查询）飞Link Elastic elasticsearch lucene 全文检索
一、简单查询一、查询所有结果GET/student_info/_search{"query":{"match_all":{}}}二、根据条件查询GET/student_info/_search{"query":{"match":{"name":"张三"}}}三、排序GET/student_info/_search{"query":{"match":{"name":"张三"}},"sort":[{"
将MySQL数据同步到Elasticsearch作为全文检索数据的实战指南格子先生Lab 全文检索 mysql elasticsearch
在现代应用中，全文检索是一个非常重要的功能，尤其是在处理大量数据时。Elasticsearch是一个强大的分布式搜索引擎，能够快速地进行全文检索、分析和可视化。而MySQL作为传统的关系型数据库，虽然能够处理结构化数据，但在全文检索方面的性能不如Elasticsearch。因此，将MySQL中的数据同步到Elasticsearch中，可以充分发挥两者的优势。本文将介绍如何将MySQL中的数据同步到
MiniMind 亚伯拉罕·黄肯大模型人工智能
数据集分类：tokenizer训练集：这个数据集用于训练分词器（tokenizer），是文本处理中的一个重要步骤。它可以帮助模型更好地理解文本数据的结构。Pretrain数据：这是用于预训练模型的数据集，它可以帮助模型学习语言的基本结构和特征。SFT数据：SFT（SupervisedFine-Tuning）数据集，用于监督式微调，可以提高模型在特定任务上的性能。DPO数据1和DPO数据2：这两个数
Elasticsearch + Docker：实现容器化部署指南 IT成长日记 elasticsearch docker 容器化部署
Elasticsearch是一款强大的分布式搜索和分析引擎，广泛应用于日志分析、全文检索、实时数据分析等场景。而Docker作为一种轻量级的容器化技术，能够帮助开发者快速部署和管理应用。将Elasticsearch与Docker结合，不仅可以简化部署流程，还能提高资源利用率和系统可维护性。1环境准备1.1安装Docker安装操作请参考：Docker入门指南：1分钟搞定安装+常用命令，轻松入门容器化
HTML中的零宽字符 Jinuss 前端 html 前端
概述零宽字符是一组在文本中没有可见宽度的字符，它们通常用于处理文本的布局、分隔和合成。下面是一些常见的零宽字符及其详细介绍：详细介绍零宽空格(ZeroWidthSpace,ZWSP)Unicode码位:U+200BHTML实体:或用途:用于防止文字自动换行。用于在文本中插入不可见的间隔，以控制排版或进行文本分析。零宽非连字符(ZeroWidthNon-Joiner,ZWNJ)Unicode码位:U
ElasticSearch Java查询实现详解当牛作馬 ElasticSearch使用 elasticsearch java jenkins
文章目录前言一、环境准备二.连接到ElasticSearch三.实现各种查询1匹配查询（MatchQuery）2术语查询（TermQuery）3范围查询（RangeQuery）4复合查询（BoolQuery）5.术语聚合（TermsAggregation）5.平均值聚合（AvgAggregation）6.最大值聚合（MaxAggregation）与最小值聚合（MinAggregation）7.日期
sc命令在windows上将elasticsearch和kibana自动作为服务开机启动 windowselastic
sc是Windows自带的命令行工具，用于管理服务。1.创建服务：打开命令提示符，运行以下命令：sccreateElasticsearchbinPath="D:\elasticsearch\bin\elasticsearch.bat"start=auto2.启动服务：创建后，启动服务：scstartElasticsearch亲测可用
jieba库词频统计_jieba分词器（应用及字典的补充）及文档高频词提取实战袁圆园建建 jieba库词频统计
jieba分词器是Python中最好的中文分词组件，本文讲解一下jieba分词器及其应用。1、jieba分词器的分词模式jieba分词器提供了三种常用的分词模式1、精确模式：将句子按照最精确的方法进行切分，适合用于进行文本分析；2、全模式：将句子当中所有可以成词的词语都扫描出来，分词速度很快但容易产生歧义；3、搜索引擎模式：在精确模式分词的基础上，将长的句子再次进行切分，提高召回率，适用于搜索引擎
Mac上传本地项目文件夹到远程Github个人仓库的方法及常见报错处理 Uzw Git Mac git github mac
最近写NER模型的同时学习参悟了一个开源的项目，做了一些Comments改了点分词规则，打算上传到个人Github仓库，上一次本地上传还是用Windows系统，换了Mac发现有一些规则不能用了，好久不用Git都忘光了…上传过程中报错无数，在此一并总结啦！文章目录Prerequisite上传本地文件夹到Github步骤报错问题描述及解决方法1.You‘veaddedanothergitreposit
LLM(7)：文本分词 token 化 CS创新实验室大模型人工智能深度学习 LLM
下面讨论如何将输入文本分割成独立的token，这是为LLM创建嵌入所需的预处理步骤。这些tokens要么是单独的词语，要么是特殊字符，包括标点符号，如图2.4所示。图2.4显示了在LLM背景下文本处理步骤的视图。这里，我们将输入文本分割成独立的token，这些tokens要么是词语，要么是特殊字符，如标点符号。此处用于训练LLM的文本是伊迪斯·沃顿的短篇小说《TheVerdict》，该作品已进入公
Elasticsearch 介绍：分布式搜索与分析引擎吱屋猪_ elasticsearch
在如今大数据时代，企业和开发者面临着前所未有的数据量和实时性要求。为了能够高效地处理、存储和查询这些数据，Elasticsearch作为一种强大的分布式搜索引擎，已经成为了很多组织和开发者的首选解决方案。1.什么是Elasticsearch？Elasticsearch是一个开源的、基于ApacheLucene构建的全文搜索引擎。它提供了高效的搜索功能，并且非常适合处理大量数据，尤其是在需要快速搜索
TikTokenizer 开源项目教程邱纳巧Gillian
TikTokenizer开源项目教程tiktokenizerOnlineplaygroundforOpenAPItokenizers项目地址:https://gitcode.com/gh_mirrors/ti/tiktokenizer项目介绍TikTokenizer是一个基于Python的开源项目，旨在提供一个高效、灵活的文本分词工具。该项目利用先进的算法和数据结构，能够快速准确地对文本进行分词处
《Linux运维总结：基于银河麒麟V10+ARM64架构部署多机elasticsearch7.17.21分布式集群+单机kibana7.17.21二进制版ssl集群》东城绝神《Linux运维实战总结》运维 linux elasticsearch ssl
总结：整理不易，如果对你有帮助，可否点赞关注一下？更多详细内容请参考：Linux运维实战总结一、背景elasticsearch是一个分布式、实时、高性能的搜索和分析引擎，它广泛应用于企业级搜索、日志分析、实时数据处理等领域。随着elasticsearch的广泛应用，安全性变得越来越重要。这里将从安全策略和访问控制两方面来部署elasticsearch集群安全策略涉及到数据安全、访问安全和操作安全等
Rocky Linux安装部署Elasticsearch（ELK日志服务器）_rockylinux elk 2401_83739411 程序员服务器 linux elasticsearch
一、Elasticsearch的简介Elasticsearch是一个强大的开源搜索和分析引擎，可用于实时处理和查询大量数据。它具有高性能、可扩展性和分布式特性，支持全文搜索、聚合分析、地理空间搜索等功能，是构建实时应用和大规模数据分析平台的首选工具。二、RockyLinux系统安装链接：VMwareWorkstation下载安装（含秘钥）链接：VMwareWorkstation创建虚拟机链接：Ro
从关键词到权重：TF-IDF算法解析多巴胺与内啡肽. 机器学习 tf-idf 算法机器学习
文章目录前言一、TF-IDF：关键词的“价值”评估师二、TF-IDF的计算：拆解关键词的“价值”三、TF-IDF的应用：从搜索引擎到文本挖掘四、代码实现：从《红楼梦》中提取核心关键词1、分卷处理1.1代码功能1.2代码实现1.2.1、读取文件1.2.2逐行处理1.2.3.关闭文件2、分词与停用词过滤2.1代码功能2.2代码实现2.2.1读取分卷内容构建DataFrame：2.2.2分词与停用词过滤
Spring Boot 整合 Elasticsearch 实践：从入门到上手遇见伯灵说 mysql Spring elasticsearch jenkins springboot
引言Elasticsearch是一个开源的分布式搜索引擎，广泛用于日志分析、搜索引擎、数据分析等场景。本文将带你通过一步步的教程，在SpringBoot项目中整合Elasticsearch，轻松实现数据存储与查询。1.创建SpringBoot项目首先，你需要创建一个SpringBoot项目。如果你还没有创建，可以使用SpringInitializr快速生成一个项目。在生成项目时，确保选择了以下依赖
CentOS下安装ElasticSearch（日志分析）墨痕诉清风安全建设 elasticsearch 大数据日志分析
准备目录搞一个自己喜欢的目录mkdir/usr/local/app切换到该目录cd/usr/local/app下载wgethttps://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-7.9.2-linux-x86_64.tar.gz选择其他版本点击进入官网
docker 安装elasticsearch kibana，设置密码 biguojun docker elasticsearch kibana
安装elasticsearchdockerpulldocker.elastic.co/elasticsearch/elasticsearch:7.17.28dockerrun-d--namedocker-es-e"ES_JAVA_OPTS=-Xms512m-Xmx512m"-e"discovery.type=single-node"-vD:\docker\es\data:/usr/share/el
Dify知识库构建流程及示例 cqbelt ai 笔记 AI应用
总体流程1.数据预处理清洗：去除噪声、特殊字符、标准化格式。分词/标记化：拆分文本为单词或子词单元（如使用Tokenizer）。元数据关联：附加来源、时间戳等信息，支持多维度检索。2.文本分块固定长度分块：按字符或Token数切分，简单高效。语义分块：基于句子边界或主题分割（如NLP模型识别段落主旨）。重叠策略：相邻块间部分重叠，避免上下文断裂。3.向量化（Embedding）嵌入模型：调用预训练
ElasticSearch-7.17.10集群升级至ElasticSearch-7.17.24 程序终结者 elasticsearch elasticsearch 大数据
文章目录集群概览主机名系统版本es01CentOS_7.6-aaarch64ElasticSearch-7.17.10es02CentOS_7.6-aaarch64ElasticSearch-7.17.10es03CentOS_7.6-aaarch64ElasticSearch-7.17.10需求1.将三台ES节点从ElasticSearch-7.17.10升级至ElasticSearch-7.1
ES中_cat/nodes返回结果参数的解释以及性能调优指南 Elastic开源社区 elasticsearch 运维调优 ES 全文检索 ES角色
文章目录1、Elasticsearch`_cat/nodes?v`字段详解2、常用字段说明3、`node.role`字段详解4、示例输出5、其他可选参数6、总结1、Elasticsearch_cat/nodes?v字段详解在Elasticsearch中，_cat/nodesAPI用于查看集群中所有节点的信息。通过添加?v参数，可以返回带有表头的详细输出，便于理解每个字段的含义。以下是_cat/no
ES 中时间日期类型 “yyyy-MM-dd HH:mm:ss” 的完全避坑指南 Elastic开源社区 elasticsearch es 分布式数据库
文章目录1、ES中的日期类型有何不同2、案例2.1案例介绍2.2原理揭秘3、路为何这么不平4、又一个坑5、总结6、ES的时间类型为什么这么难用，有没有什么办法可以解决？7、更优的生产解决方案1、ES中的日期类型有何不同时间和日期类型是我们作为开发每天都会遇到的一种常见数据类型。和Java中有所不同，Elasticsearch在索引创建之前并不是必须要创建索引的mapping。关系型数据库的思维就是
java Illegal overloaded getter method with ambiguous type for propert的解决 zwllxs java jdk
好久不来iteye,今天又来看看，哈哈,今天碰到在编码时，反射中会抛出 Illegal overloaded getter method with ambiguous type for propert这么个东东，从字面意思看，是反射在获取getter时迷惑了，然后回想起java在boolean值在生成getter时，分别有is和getter，也许我们的反射对象中就有is开头的方法迷惑了jdk，
IT人应当知道的10个行业小内幕 beijingjava 工作互联网
10. 虽然IT业的薪酬比其他很多行业要好，但有公司因此视你为其“佣人”。　　尽管IT人士的薪水没有互联网泡沫之前要好，但和其他行业人士比较，IT人的薪资还算好点。在接下的几十年中，科技在商业和社会发展中所占分量会一直增加，所以我们完全有理由相信，IT专业人才的需求量也不会减少。　　然而，正因为IT人士的薪水普遍较高，所以有些公司认为给了你这么多钱，就把你看成是公司的“佣人”，拥有你的支配
java 实现自定义链表 CrazyMizzz java 数据结构
1.链表结构链表是链式的结构 2.链表的组成链表是由头节点，中间节点和尾节点组成节点是由两个部分组成： 1.数据域 2.引用域 3.链表的实现 &nbs
web项目发布到服务器后图片过一会儿消失麦田的设计者 struts2 上传图片永久保存
作为一名学习了android和j2ee的程序员，我们必须要意识到，客服端和服务器端的交互是很有必要的，比如你用eclipse写了一个web工程，并且发布到了服务器（tomcat）上，这时你在webapps目录下看到了你发布的web工程，你可以打开电脑的浏览器输入http://localhost:8080/工程/路径访问里面的资源。但是，有时你会突然的发现之前用struts2上传的图片
CodeIgniter框架Cart类 name 不能设置中文的解决方法 IT独行者 CodeIgniter Cart 框架　
今天试用了一下CodeIgniter的Cart类时遇到了个小问题，发现当name的值为中文时，就写入不了session。在这里特别提醒一下。在CI手册里也有说明，如下： $data = array( 'id' => 'sku_123ABC', 'qty' => 1, '
linux回收站 _wy_ linux 回收站
今天一不小心在ubuntu下把一个文件移动到了回收站，我并不想删，手误了。我急忙到Nautilus下的回收站中准备恢复它，但是里面居然什么都没有。后来我发现这是由于我删文件的地方不在HOME所在的分区，而是在另一个独立的Linux分区下，这是我专门用于开发的分区。而我删除的东东在分区根目录下的.Trash-1000/file目录下，相关的删除信息（删除时间和文件所在
jquery回到页面顶端知了ing html jquery css
html代码： <h1 id="anchor">页面标题</h1> <div id="container">页面内容</div> <p><a href="#anchor" class="topLink">回到顶端</a><
B树、B-树、B+树、B*树矮蛋蛋 B树
原文地址： http://www.cnblogs.com/oldhorse/archive/2009/11/16/1604009.html B树即二叉搜索树： 1.所有非叶子结点至多拥有两个儿子（Left和Right）； &nb
数据库连接池 alafqq 数据库连接池
http://www.cnblogs.com/xdp-gacl/p/4002804.html @Anthor:孤傲苍狼数据库连接池用MySQLv5版本的数据库驱动没有问题，使用MySQLv6和Oracle的数据库驱动时候报如下错误： java.lang.ClassCastException: $Proxy0 cannot be cast to java.sql.Connec
java泛型百合不是茶 java泛型
泛型在Java SE 1.5之前，没有泛型的情况的下，通过对类型Object的引用来实现参数的“任意化”，任意化的缺点就是要实行强制转换，这种强制转换可能会带来不安全的隐患泛型的特点：消除强制转换确保类型安全向后兼容简单泛型的定义：泛型：就是在类中将其模糊化，在创建对象的时候再具体定义 class fan
javascript闭包[两个小测试例子] bijian1013 JavaScript JavaScript
一.程序一 <script> var name = "The Window"; var Object_a = { 　　name : "My Object", 　　getNameFunc : function(){ var that = this; 　　　　return function(){ 　　　　
探索JUnit4扩展：假设机制（Assumption） bijian1013 java Assumption JUnit 单元测试
一.假设机制（Assumption）概述理想情况下，写测试用例的开发人员可以明确的知道所有导致他们所写的测试用例不通过的地方，但是有的时候，这些导致测试用例不通过的地方并不是很容易的被发现，可能隐藏得很深，从而导致开发人员在写测试用例时很难预测到这些因素，而且往往这些因素并不是开发人员当初设计测试用例时真正目的，
【Gson四】范型POJO的反序列化 bit1129 POJO
在下面这个例子中，POJO(Data类)是一个范型类，在Tests中，指定范型类为PieceData，POJO初始化完成后，通过 String str = new Gson().toJson(data); 得到范型化的POJO序列化得到的JSON串，然后将这个JSON串反序列化为POJO import com.google.gson.Gson; import java.
【Spark八十五】Spark Streaming分析结果落地到MySQL bit1129 Stream
几点总结： 1. DStream.foreachRDD是一个Output Operation，类似于RDD的action，会触发Job的提交。DStream.foreachRDD是数据落地很常用的方法 2. 获取MySQL Connection的操作应该放在foreachRDD的参数（是一个RDD[T]=>Unit的函数类型)，这样，当foreachRDD方法在每个Worker上执行时，
NGINX + LUA实现复杂的控制 ronin47 nginx lua
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-递归判断数组是否升序 bylijinnan java
public class IsAccendListRecursive { /*递归判断数组是否升序 * if a Integer array is ascending,return true * use recursion */ public static void main(String[] args){ IsAccendListRecursiv
Netty源码学习-DefaultChannelPipeline2 bylijinnan java netty
Netty3的API http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/ChannelPipeline.html 里面提到ChannelPipeline的一个“pitfall”：如果ChannelPipeline只有一个handler（假设为handlerA）且希望用另一handler（假设为handlerB）来
Java工具之JPS chinrui java
JPS使用熟悉Linux的朋友们都知道，Linux下有一个常用的命令叫做ps（Process Status)，是用来查看Linux环境下进程信息的。同样的，在Java Virtual Machine里面也提供了类似的工具供广大Java开发人员使用，它就是jps（Java Process Status)，它可以用来
window.print分页打印 ctrain window
function init() { var tt = document.getElementById("tt"); var childNodes = tt.childNodes[0].childNodes; var level = 0; for (var i = 0; i < childNodes.length; i++) {
安装hadoop时执行jps命令Error occurred during initialization of VM daizj jdk hadoop jps
在安装hadoop时，执行JPS出现下面错误 [slave16][email protected]:/tmp/hsperfdata_hdfs# jps Error occurred during initialization of VM java.lang.Error: Properties init: Could not determine current working
PHP开发大型项目的一点经验 dcj3sjt126com PHP 重构
一、变量最好是把所有的变量存储在一个数组中，这样在程序的开发中可以带来很多的方便，特别是当程序很大的时候。变量的命名就当适合自己的习惯，不管是用拼音还是英语，至少应当有一定的意义，以便适合记忆。变量的命名尽量规范化，不要与PHP中的关键字相冲突。二、函数 PHP自带了很多函数，这给我们程序的编写带来了很多的方便。当然，在大型程序中我们往往自己要定义许多个函数，几十
android笔记之--向网络发送GET/POST请求参数 dcj3sjt126com android
使用GET方法发送请求 private static boolean sendGETRequest (String path, Map<String, String> params) throws Exception{ //发送地http://192.168.100.91:8080/videoServi
linux复习笔记之bash shell (3) 通配符 eksliang linux 通配符 linux通配符
转载请出自出处： http://eksliang.iteye.com/blog/2104387 在bash的操作环境中有一个非常有用的功能，那就是通配符。下面列出一些常用的通配符，如下表所示符号意义 * 万用字符，代表0个到无穷个任意字符 ? 万用字符，代表一定有一个任意字符 [] 代表一定有一个在中括号内的字符。例如：[abcd]代表一定有一个字符，可能是a、b、c
Android关于短信加密 gqdy365 android
关于Android短信加密功能，我初步了解的如下（只在Android应用层试验）： 1、因为Android有短信收发接口，可以调用接口完成短信收发；发送过程：APP（基于短信应用修改）接受用户输入号码、内容——>APP对短信内容加密——>调用短信发送方法Sm
asp.net在网站根目录下创建文件夹 hvt .net C#hovertree asp.net Web Forms
假设要在asp.net网站的根目录下建立文件夹hovertree,C#代码如下： string m_keleyiFolderName = Server.MapPath("/hovertree"); if (Directory.Exists(m_keleyiFolderName)) { //文件夹已经存在 return; } else { try { D
一个合格的程序员应该读过哪些书 justjavac 程序员书籍
编者按：2008年8月4日，StackOverflow 网友 Bert F 发帖提问：哪本最具影响力的书，是每个程序员都应该读的？ “如果能时光倒流，回到过去，作为一个开发人员，你可以告诉自己在职业生涯初期应该读一本，你会选择哪本书呢？我希望这个书单列表内容丰富，可以涵盖很多东西。” 很多程序员响应，他们在推荐时也写下自己的评语。以前就有国内网友介绍这个程序员书单，不过都是推荐数
单实例实践跑龙套_az 单例
1、内部类 public class Singleton { private static class SingletonHolder { public static Singleton singleton = new Singleton(); } public Singleton getRes
PO VO BEAN 理解 q137681467 VO DTO po
PO：全称是 persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。 BO：全称是 business object:业务对象主要作用是把业务逻辑封装为一个对象。这个对
战胜惰性，暗自努力金笛子努力
偶然看到一句很贴近生活的话：“别人都在你看不到的地方暗自努力，在你看得到的地方，他们也和你一样显得吊儿郎当，和你一样会抱怨，而只有你自己相信这些都是真的，最后也只有你一人继续不思进取。”很多句子总在不经意中就会戳中一部分人的软肋，我想我们每个人的周围总是有那么些表现得“吊儿郎当”的存在，是否你就真的相信他们如此不思进取，而开始放松了对自己的要求随波逐流呢？我有个朋友是搞技术的，平时嘻嘻哈哈，以
NDK/JNI二维数组多维数组传递 wenzongliang 二维数组 jni NDK
多维数组和对象数组一样处理，例如二维数组里的每个元素还是一个数组用jArray表示，直到数组变为一维的，且里面元素为基本类型，去获得一维数组指针。给大家提供个例子。已经测试通过。 Java_cn_wzl_FiveChessView_checkWin( JNIEnv* env,jobject thiz,jobjectArray qizidata) { jint i,j; int s

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他