LinuxLOVERes

Elasticsearch基础学习笔记

一、全文搜索

1，数据分类

2，搜索分类：

3，什么是全文搜索

全文检索是指：

倒排索引

二、ElasticSearch简介

1，ElasticSearch是什么

2，ElasticSearch特点：

3，ElasticSearch版本特性：

4，Elastic生态圈－－Elastic Stack介绍

5，ElasticSearch应用场景

6，ElasticSearch单机版部署安装

1，环境准备

2，下载elasticsearch压缩包（Linux版本）

3，创建es用户

4，修改参数

5，配置主机名，重启系统

6，解压ES安装包

7，配置Java环境变量

8，修改目录所属属组

9，修改ElasticSearch的配置文件。

10，切换用户

11，启动elasticsearch服务

12，设置es安全访问的密码

13，验证

7，客户端Kibana部署安装

1，下载kibana安装包。

2，解压kibana tar包至es目录下

3，设置kibana-7.13.4-linux-x86_64目录的所属用户和所属组为es。

4，修改kibana配置文件~

5，启动kibana服务并验证是否启动成功

三、ElasticSearch使用操作

1，ElasticSearch常用cat API

2，Elasticsearch安装插件

1，）离线安装ik分词器。

2，）在线安装icu分词器。

3，）使用分词器测试分词效果

3，Elasticsearch索引操作

4，ElasticSearch基本概念

5，ElasticSearch文档操作

1，添加文档

2，修改文档

3，查询文档

4，删除文档操作

5，ElasticSearch文档批量写入操作

6，ES检索原理分析

索引的原理

磁盘IO与预读

倒排索引

四，Python读取excel数据批量写入ES文档数据

一、全文搜索

1，数据分类

结构化数据：固定格式，有限长度，比如数据库(MySQL，PostgreSQL)存的数据

非结构化数据：不定长，无固定格式比如邮件，word文档，日志

半结构化数据：前两者结合。比如xml，html网页

2，搜索分类：

结构化数据搜索：使用关系型数据库

非结构化数据搜索：

顺序扫描
全文检索

设想一个关于搜索的场景，假设要搜索一首诗句内容中带有“前”字的古诗

name	content	author
静夜思	床前明月光，疑是地上霜，举头望明月，低头思故乡	李白
望庐山瀑布	日照香炉生紫烟，遥看瀑布挂前川。飞流直下三千尺，疑是银河落九天	李白
...	...	...

如果使用数据库的SQL来存储古诗的话，应使用这样的SQL查询

select name from poems where content like "%前%";

这种使用SQL查询的方式称为顺序扫描法，需要遍历所有的记录进行匹配，不但效率低，而且不符合我们搜索时的期望数据~

所以，采用es的全文检索的方式，可以大幅提升我们搜索数据的效率~

3，什么是全文搜索

全文检索是指：

通过一个程序扫描文本中的每一个单词，针对单词建立索引，并保存该单词在文本中的位置，以及出现的次数
用户查询时，通过之前建立好的索引来查询，将索引中单词对应的文本位置，出现的次数返回给用户，因为有了具体文本的位置，所以就可以将具体内容读取出来了

示例：csdn搜索关键词查找对应信息

如上图，如果使用SQL的模糊匹配，则搜索结果对应应该是包含“nightingale部署使用”这个关键字的信息才会被匹配出来。

而根据上图搜索匹配出来的结果看，显然不是通过模糊匹配来搜索的。首先根据搜索出来的结果看，此搜索操作是被分词后的了，所以无论是匹配到nightingale部署，还是匹配到nightingale使用等其他一些关键词，都会匹配搜索出结果来。包括文章中出现对应分词的信息，也会被高亮显示出来~

简单理解搜索步骤原理主要概况为以下几个步骤：

内容爬取，停顿词过滤比如一些无用的像“的”，“了” 之类的语气词/连接词
内容分词，提取关键词
根据关键词建立倒排索引
用户输入关键词进行搜索

倒排索引

索引就类似于目录，平时我们使用的索引，都是通过主键定位到某条数据，那么倒排索引，刚好相反，数据对应到主键

示例图：

这里以一个博客文章的内容举例，来查看正排索引和倒排索引的区别~

正排索引（正向索引）

文章ID	文章标题	文章内容
1	浅析JAVA设计模式	JAVA设计模式是每一个JAVA程序员都应该掌握的进阶知识
2	JAVA多线程设计模式	JAVA多线程与设计模式结合

如上表格，正排索引可以根据主键id对应查询文章标题和文章内容

倒排索引（反向索引）

关键词	文章ID
JAVA	１，２
设计模式	１，２
多线程	２

假如，我们有一个站内搜索的功能，通过某个关键词来搜索相关的文章，那么这个关键词可能出现在标题中，也可能出现在文章内容中，那我们将会在创建或修改文章的时候，建立一个关键词与文章的对应关系表，这种，我们可以称之为倒排索引。

总结：

倒排索引：是数据关键词对应主键
正排索引：主键对应具体数据

二、ElasticSearch简介

1，ElasticSearch是什么

ElasticSearch（简称ES）是一个分布式、RESTful风格的搜索和数据分析引擎，是用Java开发并开源的企业级搜索引擎，能够达到近实时搜索，稳定，可靠，快速，安装使用方便。

客户端Java、.NET(c#）、PHP、Python、Ruby等多种语言。

官方网站：Elasticsearch Platform — Find real-time answers at scale | Elastic

下载地址：Download Elasticsearch | Elastic

2，ElasticSearch特点：

支持分布式，可水平扩展
降低全文检索的学习曲线，可以被任何编程语言调用
分片与副本机制，直接解决了集群下性能与高可用问题。

3，ElasticSearch版本特性：

５.ｘ新特性：

默认打分机制从TF－IDF改为BM25
内部引擎移除了避免同一文档并发更新的竞争锁，带来15％～20％的性能提升
Instant aggregation支持分片，上聚合的缓存
新增了Profile API

６.ｘ新特性：

跨集群复制（CCR）
索引生命周期管理
SQL的支持
更友好的升级和数据迁移
- 在主要版本之间的迁移更为简化；
- 全新的基于操作的数据复制框架，可加快恢复数据；
性能优化
- 有效存储稀疏字段的新方法，降低了存储成本
- 在索引时进行排序，可加快排序的查询性能

７.ｘ新特性：

重大改进：正式废除单个索引下多Type的支持

７.１开始，Security功能免费使用

ECK－Elasticsearch Operator on kubernetes

新功能

New Cluster coordination
Feature－－Complete High Level REST Client
Script Score Query

性能优化

默认的Primary　Shard数从５改为１，避免Over Sharding
性能优化，更快的Top K

8.ｘ新特性：

Rest　API相比较７.ｘ而言做了比较大的改动（比如彻底删除type）
默认开启安全配置
存储空间优化：对倒排文件使用新的编码集，对于keyword、match＿only＿text类型字段有效，有３.５％的空间优化提升，对于新建索引和segment自动生效
优化geo＿point，geo＿shape类型的索引（写入）效率：15％的提升
技术预览版KNN API发布，（K邻近算法），跟推荐系统、自然语言排名相关。

4，Elastic生态圈－－Elastic Stack介绍

首先，我们经常说的日志搜集分析系统ELK系统分别是Elasticsearch，Logstash，Kibana三款软件的简称，在发展的过程中又有新的成员Beats的加入，就形成了Elastic Stack。

指标分析/日志分析

利用Java程序或beats搜集各种中间件、或Java程序的日志；
将搜集到的日志数据写入到redis、或kafka、rabbitmq等各种mq消息队列中；
利用logstash对收集到的日志做过滤（数据分析，将主要报错或一些重要字段数据取出），并将数据转为json格式；
logstash将数据处理完成后，将数据持久化存储到elasticsearch中；
最后，使用可视化工具kibana或Grafana将数据可视化展示；
另外，可以配置使用nginx做一些安全策略（如限制ip访问等~）

5，ElasticSearch应用场景

站内搜索
日志管理和分析
大数据分析
应用性能监控
机器学习

6，ElasticSearch单机版部署安装

1，环境准备

操作系统：CentOS7.6
CPU：1核1G
内存：4G
软件版本：elasticsearch-7.13.4

注意：不同版本的es所需环境不同，es5需要安装java环境，需要jdk8以上的版本；

es从6.5开始支持java11，es从7.0开始，内置了java环境 ~~~

2，下载elasticsearch压缩包（Linux版本）

[root@ecs-69416390 ~]# wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-7.13.4-linux-x86_64.tar.gz

3，创建es用户

在Linux中添加一个普通用户：es 【目前ES不支持root用户启动】

[root@ecs-69416390 ~]# useradd -d /es -m es    #创建es用户并生成es用户的家目录
[root@ecs-69416390 ~]# passwd es              #设置es用户的登录密码

4，修改参数

修改Linux中最大文件描述符以及最大虚拟内存的参数。

因为ES对Linux的最大文件描述符以及最大虚拟内存有一定要求，所以需要修改。否则ES无法正常启动。

[root@localhost ~]# vi /etc/security/limits.conf
*                soft    nofile          65536
*                hard    nofile          131072
*                soft    nproc           2048
*                hard    nproc           4096

修改最大虚拟内存

[root@localhost ~]# vi /etc/sysctl.conf
vm.max_map_count=262144

5，配置主机名，重启系统

配置主机名，重启Linux系统。

前面修改的Linux的一些系统参数需要重启系统后才会生效。

[root@localhost ~]# hostnamectl set-hostname elasticsearch01
[root@elasticsearch01 ~]# vi /etc/hosts
...
... 
192.168.48.201  elasticsearch01
[root@localhost ~]# reboot -h now

6，解压ES安装包

解压ES安装包到es用户的家目录下面。

[root@localhost ~]# tar -zxvf elasticsearch-7.13.4-linux-x86_64.tar.gz
[root@localhost ~]# mv elasticsearch-7.13.4/ /es/

7，配置Java环境变量

在profile文件中配置ES_JAVA_HOME环境变量，指向ES中内置的JDK。

[root@localhost ~]# vi /etc/profile
...
export ES_JAVA_HOME=/es/elasticsearch-7.13.4/jdk/
export PATH=$PATH:$ES_JAVA_HOME/bin
...
[root@localhost ~]# source /etc/profile

8，修改目录所属属组

修改elasticsearch-7.13.4目录所属的属组。

因为前面是使用root用户解压的，elasticsearch-7.13.4目录下的文件es用户是没有权限的。

[root@localhost ~]# chown -R es:es /es/elasticsearch-7.13.4/

9，修改ElasticSearch的配置文件。

[root@localhost ~]# vi /es/elasticsearch-7.13.4/config/elasticsearch.yml
...
# ---------------------------------- Cluster -----------------------------------
...
cluster.name: comment-es
# 集群名称
...
# ------------------------------------ Node ------------------------------------
...
node.name: node-1
# 节点名称
...
# ---------------------------------- Network -----------------------------------
network.host: 192.168.26.10
# 为ES设置绑定的IP
http.port: 9200
# 为ES服务设置监听的端口
...
# --------------------------------- Discovery ----------------------------------
cluster.initial_master_nodes: ["node-1"]
# 初始化具备主节点资格的节点，在选择主节点时，会优先在这一批列表中进行选择
...
# ---------------------------------- Various -----------------------------------
...
xpack.security.enabled: true    #开启安全策略
xpack.security.transport.ssl.enabled: true  #开启安全策略

10，切换用户

切换到es用户

[root@localhost ~]# su es

11，启动elasticsearch服务

（1.）前台启动ES服务

[es@elasticsearch01 elasticsearch-7.13.4]$ bin/elasticsearch

（2.）后台启动ES服务

在实际生产环境中，需要将ES放到后台运行。

[es@elasticsearch01 elasticsearch-7.13.4]$ bin/elasticsearch -d

12，设置es安全访问的密码

此处密码设置均自定义设置，即执行命令后根据提示输入密码即可。

[es@elasticsearch01 elasticsearch-7.13.4]$ ./bin/elasticsearch-setup-passwords interactive

Initiating the setup of passwords for reserved users elastic,apm_system,kibana,kibana_system,logstash_system,beats_system,remote_monitoring_user.
You will be prompted to enter passwords as the process progresses.
Please confirm that you would like to continue [y/N]y


Enter password for [elastic]: 
Reenter password for [elastic]: 
Enter password for [apm_system]: 
Reenter password for [apm_system]: 
Enter password for [kibana_system]: 
Reenter password for [kibana_system]: 
Enter password for [logstash_system]: 
Reenter password for [logstash_system]: 
Enter password for [beats_system]: 
Reenter password for [beats_system]: 
Enter password for [remote_monitoring_user]: 
Reenter password for [remote_monitoring_user]: 
Changed password for user [apm_system]
Changed password for user [kibana_system]
Changed password for user [kibana]
Changed password for user [logstash_system]
Changed password for user [beats_system]
Changed password for user [remote_monitoring_user]
Changed password for user [elastic]

13，验证

验证ES服务。

通过jps命令或者jcmd命令验证进程是否存在。

[es@elasticsearch01 elasticsearch-7.13.4]$ jps
1314 Elasticsearch
8786 Jps
[es@elasticsearch01 elasticsearch-7.13.4]$ jcmd 
8800 jdk.jcmd/sun.tools.jcmd.JCmd
1314 org.elasticsearch.bootstrap.Elasticsearch

通过web界面访问验证是否可以正常访问。

http://192.168.26.10:9200/

到此，ElasticSearch部署完成 ~~~

7，客户端Kibana部署安装

Kibana是一个开源分析和可视化平台，旨在与ElasticSearch协同工作。

1，下载kibana安装包。

wget https://artifacts.elastic.co/downloads/kibana/kibana-7.13.4-linux-x86_64.tar.gz
# 注意：安装的kibana客户端的版本必须和elasticsearch的版本完全一致~
# 官网下载慢可以使用华为云镜像下载：https://mirrors.huaweicloud.com/home

2，解压kibana tar包至es目录下

[root@elasticsearch01 ~]# tar -zxvf kibana-7.13.4-linux-x86_64.tar.gz -C /es/

3，设置kibana-7.13.4-linux-x86_64目录的所属用户和所属组为es。

[root@elasticsearch01 es]# chown -R es:es kibana-7.13.4-linux-x86_64/

4，修改kibana配置文件~

[root@elasticsearch01 kibana-7.13.4-linux-x86_64]# vi config/kibana.yml
...
server.port: 5601
# kibana服务端口
...
server.host: "192.168.26.10"
...
elasticsearch.hosts: ["http://192.168.26.10:9200"]
...
elasticsearch.username: "elastic"    #此处为明文配置的es密码
elasticsearch.password: "自定义的elastic密码"
...
xpack.reporting.encryptionKey: "a_random_string"    
xpack.security.encryptionKey: "something_at_least_32_characters"
...
i18n.locale: "zh-CN"

5，启动kibana服务并验证是否启动成功

[es@elasticsearch01 kibana-7.13.4-linux-x86_64]$ nohup ./bin/kibana &
[root@elasticsearch01 kibana-7.13.4-linux-x86_64]# netstat -uptln |grep 5601
tcp        0      0 192.168.26.10:5601     0.0.0.0:*               LISTEN      18982/node

通过浏览器访问 http://192.168.26.10:5601/login?next=%2F 验证kibana服务

输入用户名密码：elastic，elastic

三、ElasticSearch使用操作

1，ElasticSearch常用cat API

/_cat/allocation   # 查看单节点的$hard分配整体情况
/_cat/shards       # 查看各shard的详细情况
/_cat/shards/{index}   # 查看指定分片的详细情况
# 示例：GET /_cat/shards/.kibana-event-log-7.13.4-000001
/_cat/master      # 查看master节点信息
/_cat/nodes		  # 查看所有节点信息
/_cat/indices		# 查看集群中所有index的详细信息
/_cat/indices/{index}  # 查看集群中指定index的详细信息
# 示例：GET /_cat/indices/.tasks
/_cat/segments  # 查看各index的segment详细信息，包括segment名，所属shard，内存(磁盘)占用大小等
/_cat/segments/{index} # 查看指定index的segment详细信息
/_cat/count   # 查看当前集群的doc数量
/_cat/count/{index} # 查看指定索引的doc数量
/_cat/recovery  # 查看集群内每个shard的recovery过程，调整replica。
/_cat/recovery/{index} # 查看指定索引$hard的recovery过程
/_cat/health   # 查看集群当前状态：红、黄、绿
/_cat/pending_tasks	 # 查看当前集群的pending task
/_cat/aliases			# 查看集群中所有alias信息，路由配置等
/_cat/aliases/{alias}	# 查看指定索引的alias信息
/_cat/thread_pool 		# 查看集群各节点内部不同类型的threadpool的统计信息
/_cat/plugins			# 查看集群各个节点上的plugin信息
/_cat/fielddata			# 查看当前集群各个节点的fielddata内存使用情况
/_cat/fielddata/{fields}	# 查看指定field的内存使用情况
/_cat/nodeattrs			# 查看单节点的自定义属性
/_cat/repositories		# 输出集群中组测快照存储库
/_cat/templates			# 输出当前正在存在的模板信息

2，Elasticsearch安装插件

安装分词器插件，这里安装ik分词器插件和icu分词器插件。

1，）离线安装ik分词器。

本地下载相应的插件，解压。然后手动上传到elasticsearch的plugins目录，然后重启ES示例就可以了

比如安装ik中文分词插件：GitHub - medcl/elasticsearch-analysis-ik: The IK Analysis plugin integrates Lucene IK analyzer into elasticsearch, support customized dictionary.

[root@elasticsearch01 ~]# cd /es/elasticsearch-7.13.4/plugins/
[root@elasticsearch01 plugins]# mkdir ik && cd ik
[root@elasticsearch01 plugins]# unzip elasticsearch-analysis-ik-7.13.4.zip
[root@elasticsearch01 plugins]# rm -rf elasticsearch-analysis-ik-7.13.4.zip

2，）在线安装icu分词器。

# 查看已安装插件
[es@elasticsearch01 elasticsearch-7.13.4]$ bin/elasticsearch-plugin list
# 安装插件
[es@elasticsearch01 elasticsearch-7.13.4]$ bin/elasticsearch-plugin install analysis-icu
# 删除插件
[es@elasticsearch01 elasticsearch-7.13.4]$ bin/elasticsearch-plugin remove analysis-icu

注意：安装和删除完插件后，需要重启ES服务才能生效。

# 杀掉es进程
[es@elasticsearch01 elasticsearch-7.13.4]$ kill 9387
# 重启es服务
[es@elasticsearch01 elasticsearch-7.13.4]$ ./bin/elasticsearch -d

3，）使用分词器测试分词效果

icu分词效果

POST _analyze
{
  "analyzer": "icu_analyzer",
  "text": "中华人民共和国"
}

ik分词效果

# 按最大词组分词
POST _analyze
{
  "analyzer": "ik_max_word",
  "text": "中华人民共和国"
}

# 按最少词组分词
POST _analyze
{
  "analyzer": "ik_smart"
  , "text": "中华人民共和国"
}

最大分词：

最少分词

3，Elasticsearch索引操作

官网文档地址：[Elasticsearch Guide 7.13] | Elastic

创建索引

索引命名必须小写，不能以下划线开头

格式：PUT /索引名称

# 创建索引
PUT /es_db
# 创建成功后返回：
{
  "acknowledged" : true,
  "shards_acknowledged" : true,
  "index" : "es_db"
}

# 创建索引时可以设置分片数和副本数
# 如果有多个elasticsearch节点，可以设置多个分片，比如如果有3个节点，可以指定设置3个分片，将索引数据分成3分放到3个节点上。
PUT /es_db
{
	"settings" : {
		"number_of_shards" : 3,
		"number_of_replicas" : 2
	}
}

# 修改索引配置
PUT /es_db/_settings
{
	"index" : {
		"number_of_replicas" : 1
	}
}

查询索引

格式：GET /索引名称

# 查询索引
GET /es_db
# 查询后输出一些信息：
{
  "es_db" : {
    "aliases" : { },    # 索引别名
    "mappings" : { },   # 映射，索引有数据之后 会存放数据类型~
    "settings" : {		# 设置
      "index" : {
        "routing" : {
          "allocation" : {
            "include" : {
              "_tier_preference" : "data_content"
            }
          }
        },
        "number_of_shards" : "1",		# 索引分片
        "provided_name" : "es_db",		# 索引名称
        "creation_date" : "1680163838332",	# 创建时间
        "number_of_replicas" : "1",		# 副本
        "uuid" : "tfWi352WT9WvvhriwslZqA",
        "version" : {
          "created" : "7130499"
        }
      }
    }
  }
}

# es_db索引是否存在
HEAD /es_db

删除索引

格式：DELETE /索引名称

DELETE /es_db

4，ElasticSearch基本概念

ElasticSearch与传统关系型数据库的区别：

Elasticsearch Schemaless /相关性/高性能全文检索
RDMS 事务性 / join

索引（Index）

一个索引就是一个拥有相似特征的文档的集合。一个索引由一个名字来标识（必须全部是小写字母），并且当我们要对对应这个索引中的文档进行索引、搜索、更新和删除的时候，都要使用到这个名字。

{
  "es_db" : {
    "aliases" : { },    # 索引别名
    "mappings" : { },   # 映射，索引有数据之后 会存放数据类型~
    "settings" : {		# 设置
      "index" : {
        "routing" : {
          "allocation" : {
            "include" : {
              "_tier_preference" : "data_content"
            }
          }
        },
        "number_of_shards" : "1",		# 索引分片
        "provided_name" : "es_db",		# 索引名称
        "creation_date" : "1680163838332",	# 创建时间
        "number_of_replicas" : "1",		# 副本
        "uuid" : "tfWi352WT9WvvhriwslZqA",
        "version" : {
          "created" : "7130499"
        }
      }
    }
  }
}

文档（Document）

Elasticsearch是面向文档的，文档是所有可搜索数据的最小单位。
- 日志文件中的日志项
- 一部电影的具体信息/一张唱片的详细信息
- MP3播放器里的一首歌/一篇PDF文档中的具体内容
文档会被序列化成JSON格式，保存在Elasticsearch中
- JSON对象由字段组成
- 每个字段都有对应的字段类型（字符串/数值/布尔/日期/二进制/范围类型）
每个文档都有一个Unique ID
- 可以自己指定ID或者通过Elasticsearch自动生成
一篇文档包含了一系列字段，类似数据库表中的一条记录
JSON文档，格式灵活，不需要预先定义格式
- 字段的类型可以指定或者通过Elasticsearch自动推算
- 支持数组/支持嵌套

文档元数据

元数据，用于标注文档的相关信息：

_index：文档所属的索引名

_type：文档所属的类型名

_id：文档唯一id

_source：文档的原始json数据

version：文档的版本号，修改删除操作version都会自增

seq_no：和version一样，一旦数据发生更改，数据也一直是累计的。Shard级别严格递增，保证后写入的Doc的seq_no大于先写入的Doc的seq_no。

primory_term：primory_term主要是用来恢复数据时处理当多个文档的seq_no一样时的冲突，避免Primary Shard上的写入被覆盖。每当Primary Shard发生重新分配时，比如重启，Primary选举等，_primory_term会递增1。

5，ElasticSearch文档操作

1，添加文档

格式：[PUT | POST /索引名称/[_doc | _create ]/id

# 创建文档，指定id
# 如果id不存在，创建新的文档，否则先删除现有文档，再创建新的文档，版本会增加

PUT /es_db/_doc/1
{
  "name":"张三",
  "sex":1,
  "age":25,
  "address":"广州天河公园",
  "remark":"java developer"
}

# 输出：
{
  "_index" : "es_db",
  "_type" : "_doc",
  "_id" : "1",
  "_version" : 1,
  "result" : "created",
  "_shards" : {
    "total" : 2,
    "successful" : 1,
    "failed" : 0
  },
  "_seq_no" : 0,
  "_primary_term" : 1
}
# PUT方式创建文档，它底层会根据id查看这条数据是否存在，如果存在则会删除这条文档，再新增（类似于全量更新操作），比如下面示例，将id为1的文档修改。
PUT /es_db/_doc/1
{
  "name":"张三xxx",
  "address":"广州天河公园",
  "remark":"java developer"
}

# 输出：可以看出此时version版本为2，result为update
{
  "_index" : "es_db",
  "_type" : "_doc",
  "_id" : "1",
  "_version" : 2,
  "result" : "updated",
  "_shards" : {
    "total" : 2,
    "successful" : 1,
    "failed" : 0
  },
  "_seq_no" : 1,
  "_primary_term" : 1
}

# 查看新增的这条文档数据：
GET /es_db/_doc/1
# 输出：
{
  "_index" : "es_db",
  "_type" : "_doc",
  "_id" : "1",
  "_version" : 2,
  "_seq_no" : 1,
  "_primary_term" : 1,
  "found" : true,
  "_source" : {
    "name" : "张三xxx",
    "address" : "广州天河公园",
    "remark" : "java developer"
  }
}

# 使用POST创建文档，ES自动生成id
POST /es_db/_doc
{
  "name":"张三",
  "sex":1,
  "age":25,
  "address":"广州天河公园",
  "remark":"java developer"
}

# 使用POST修改文档

POST /es_db/_doc/FuGtNYgBnLz27AmKfPQf
{
  "name":"李四xxx",
  "sex":1,
  "age":26,
  "address":"深圳金沙湾公园",
  "remark":"java developer"
}

# 输出：
{
  "_index" : "es_db",
  "_type" : "_doc",
  "_id" : "FuGtNYgBnLz27AmKfPQf",
  "_version" : 2,
  "result" : "updated",
  "_shards" : {
    "total" : 2,
    "successful" : 1,
    "failed" : 0
  },
  "_seq_no" : 4,
  "_primary_term" : 1
}

总结：POST和PUT都能起到创建/更新的作用，PUT需要对一个具体的资源进行操作也就是要确定id才能进行更新/创建；而POST是可以针对整个资源集合进行操作的，如果不写id就有ES生成一个唯一id进行创建新文档，如果填了id那就针对这个id的文档进行创建/更新

注意：语法中的_create语法，如果ID已经存在，再使用create创建就会失败。

一般_create语法用于多线程并发场景。

# 例如：针对es_db索引中id为1的文档做新增操作。
POST /es_db/_create/1
{
  "name":"李四xxx",
  "address":"广州天河公园",
  "remark":"java developer"
}

接口报错：提示该文档已存在

2，修改文档

全量更新，整个json都会替换，格式：[PUT | POST]/索引名称/_doc/id

如果文档存在，现有文档会被删除，新的文档会被索引

# 全量更新，替换整个json
PUT /es_db/_doc/1/
{
"name":"张三",
"sex":1,
"age":25
}

使用update部分更新，格式：POST /索引名称/update/id

update不会删除原来的文档，而是实现真正的数据更新

# 部分更新：在原有文档上更新
# Update - 文档必须已经存在，更新只会对相应字段做增量修改
POST /es_db/_update/1
{"doc": {
  "age":26,
  "address":"北京工人体育广场"
  }
}

# 查看索引文档
GET /es_db/_doc/1
# 输出：
{
  "_index" : "es_db",
  "_type" : "_doc",
  "_id" : "1",
  "_version" : 5,
  "_seq_no" : 7,
  "_primary_term" : 1,
  "found" : true,
  "_source" : {
    "name" : "张三",
    "sex" : 1,
    "age" : 26,
    "address" : "北京工人体育广场"
  }
}

使用_update_by_query更新文档

POST /es_db/_update_by_query
{
  "query": {
    "match": {
      "_id": "FuGtNYgBnLz27AmKfPQf"
    }
  },
  "script": {
    "source": "ctx._source.age = 30",
    "lang": "painless"
  }
}

根据id查看对应文档，age字段已更改

修改指定索引的name字段

3，查询文档

根据id查询文档，格式：GET /索引名称/_doc/id

GET /es_db/_doc/1  # 查询索引为1的文档数据

条件查询search，格式：GET /索引名称/doc/_search，默认查询前10条文档

# 查询前10条文档
GET /es_db/_doc/_search

ES Search API 提供了两种条件查询搜索方式：

REST风格的请求URI，直接将参数带过去
封装到request body中，这种方式可以定义更加易读的JSON格式

# search条件查询
1，）term精确查找文档数据
GET /es_db/_search
{
  "query": {
    "term": {
      "name": {
        "value": "张三" # 查询name字段是张三的索引文档
      }
    }
  }
}

# 使用match查询address中有工人体育的索引文档
GET /es_db/_search
{
  "query": {
    "match": {
      "address": "工人体育"      
    }
  }
}

常用search条件查询

# 通过URI搜索，使用"q"指定查询字符串，"query string syntax" KV键值对

# 条件查询，如果查询age等于25岁的 _search?q=*:***
GET /es_db/_search?q=age:25

# 范围查询，如果查询的age在25岁至27岁之间的，_search?q=***[** TO **] 注意：TO 必须为大写
GET /es_db/_search?q=age[25 TO 27]

# 查询年龄小于等于27岁的 :<=
GET /es_db/_search?q=age:<=27
# 查询年龄大于27岁的 :>
GET /es_db/_search?q=age:>27

# 分页查询 from=*&size=*
GET /es_db/_search?q=age[25 TO 28]&from=0&size=1  # 从第一页(索引0)开始，每页展示1条数据

# 对查询结果只输出某些字段 _source=字段,字段
GET /es_db/_search?_source=name,age,remark  # 只查询名称，年龄，职业

# 对查询结果排序 sort=字段:desc/asc
GET /es_db/_doc/_search?sort=age:desc

ES Search API 提供了SQL查询方式，可以使用SQL条件匹配查询数据。

# SQL 方式查询文档，注意后面不能带; 
POST _sql?format=json
{
  "query": """
  SELECT * FROM "es_db" where name = '王五'
  """
}

输出结果：

4，删除文档操作

格式：DELETE /索引名称/_doc/id

DELETE /es_db/_doc/F-G4NYgBnLz27AmKVPS4

5，ElasticSearch文档批量写入操作

批量对文档进行写操作是通过_bulk的API来实现的

请求方式：POST
请求地址：_bulk
请求参数：通过_bulk操作文档，一般至少有两行参数（或偶数行参数）
- 第一行参数为指定操作的类型及操作的对象（index，type和id）
- 第二行参数才是操作的数据

参数格式类似于：

{"actionName":{"_index":"indexName","_type":"typeName","_id":"id"}}
{"field1":"value1","field2":"value2"}

actionName：表示操作类型，主要有create,index,delete和update

批量创建文档create

POST _bulk
{"create":{"_index":"user_db","_type":"_doc","_id":1}}
{"id":1,"city":"哈尔滨","temperture":"25摄氏度"}
{"create":{"_index":"user_db","_type":"_doc","_id":2}}
{"id":2,"city":"长春","temperture":"26摄氏度"}
{"create":{"_index":"user_db","_type":"_doc","_id":3}}
{"id":3,"city":"沈阳","temperture":"27摄氏度"}
{"create":{"_index":"user_db","_type":"_doc","_id":5}}
{"id":5,"city":"大连","temperture":"27摄氏度"}

普通创建或全量替换index

POST _bulk
{"index":{"_index":"user_db","_type":"_doc","_id":1}}
{"id":1,"city":"哈尔滨","temperture":"25摄氏度"}
{"index":{"_index":"user_db","_type":"_doc","_id":2}}
{"id":2,"city":"长春","temperture":"26摄氏度"}
{"index":{"_index":"user_db","_type":"_doc","_id":3}}
{"id":3,"city":"沈阳","temperture":"27摄氏度"}
{"index":{"_index":"user_db","_type":"_doc","_id":5}}
{"id":5,"city":"大连","temperture":"27摄氏度"}

如果原文档不存在，则是创建
如果原文的存在，则是替换（全量修改原文档）

批量删除delete

POST _bulk
{"delete":{"_index":"user_db","_type":"_doc","_id":3}}
{"delete":{"_index":"user_db","_type":"_doc","_id":4}}

# 将索引为3和索引为4的文档数据删除

批量修改update

POST _bulk
{"update":{"_index":"user_db","_type":"_doc","_id":1}}
{"doc":{"temperture":"30摄氏度"}}
{"update":{"_index":"user_db","_type":"_doc","_id":2}}
{"doc":{"temperture":"31摄氏度"}}
{"update":{"_index":"user_db","_type":"_doc","_id":3}}
{"doc":{"temperture":"32摄氏度"}}
{"update":{"_index":"user_db","_type":"_doc","_id":5}}
{"doc":{"temperture":"33摄氏度"}}

组合应用

POST _bulk
{"delete":{"_index":"user_db","_type":"_doc","_id":"EuGSNYgBnLz27AmKKPT_"}} 
{"index":{"_index":"user_db","_type":"_doc","_id":4}}
{"id":6,"city":"昆明","temperture":"34摄氏度"}
{"update":{"_index":"user_db","_type":"_doc","_id":5}}
{"doc":{"temperture":"33摄氏度"}}

# 先删除索引为EuGSNYgBnLz27AmKKPT_的文档数据，然后创建索引为4的文档数据，然后更新索引为5的文档中的temperture字段

批量读取

GET _mget
{"docs":[{"_index":"es_db","_id":1},{"_index":"user_db","_id":1}]}

# 可以通过id批量获取es_db的数据
GET /es_db/_mget
{
"ids":["1","2","3","4"]
}

6，ES检索原理分析

索引的原理

索引是加速数据查询的重要手段，其核心原理是通过不断的缩小想要获取数据的范围来筛选出最终想要的结果，同时把随机的事件变成顺序的事件。

磁盘IO与预读

磁盘IO是程序设计中非常高昂的操作，也是影响程序性能的重要因素，因此应当尽量避免过多的磁盘IO，有效的利用内存可以大大的提升程序的性能。在操作系统层面，发生一次IO时，不光把当前磁盘地址的数据，而是把相邻的数据也都读取到内存缓冲区内，局部预读性原理告诉我们，当计算机访问一个地址的数据时，与其相邻的数据也会很快被访问到。每一次IO读取的数据我们称之为一页（page）。具体一页有多大数据跟操作系统有关，一般为4k或8k，也就是我们读取一页内的数据时，实际上才发生了一次IO，这个理论对于索引的数据结构设计非常有帮助。

倒排索引

当数据写入ES时，数据将会通过分词被切分为不同的term，ES将term与其对应的文档列表建立一种映射关系，这种结构就是 倒排索引。如下图所示：

为了进一步提升索引的效率，ES在term的基础上利用term的前缀或者后缀构建了term index，用于对term本身进行索引，ES实际的索引结构如下图所示：

这样当我们去搜索某个关键词时，ES首先根据它的前缀或者后缀迅速缩小关键词在term dictionary 中的范围，大大减少了磁盘IO的次数。

单词词典（Term Dictionary）：记录所有文档的单词，记录单词到倒排列表的关联关系
倒排列表（Posting List）：记录了单词对应的文档结合，由倒排索引项组成
倒排索引项（Posting）：
- 文档ID
- 词频TF：该单词在文档中出现的次数，用于相关性评分
- 位置（Position）：单词在文档中分词的位置，用于短语搜索（match phrase query）
- 偏移（Offset）：记录单词的开始结束位置，实现高亮显示

四，Python读取excel数据批量写入ES文档数据

excel数据展示：

python中提供了elasticsearch包用于操作ES。需要注意的是elasticsearch包的版本，不同版本的es使用不同版本的elasticsearch包。由于此处安装es是安装的elastsearch7版本，所以python安装elastsearch7包。

pip install elasticsearch7

from elasticsearch7 import Elasticsearch
# 导入elasticsearch7包
import openpyxl
# 导入openpyxl包用于读取excel文档中的数据

client = Elasticsearch(hosts="http://192.168.26.10:9200", http_auth=("elastic", "elastic"))
# 配置es的连接方式，http_auth 是设置es的用户名和密码

wb = openpyxl.load_workbook(r'test.xlsx')
sheet = wb['Sheet1']
# 读取test.xlsx文件中的Sheet1表

res = list(sheet.rows)
# 使用列表封装行的生成器
title = [i.value for i in res[0]]
# 将表格中行的value值放到列表中，即拿取表格的表头数据

for item in res[1:]: # 从第二行开始遍历
    data  = [i.value for i in item]
    dic = dict(zip(title,data))
    # 将每一行的value值和表头封装到字典中
    client.index(index='test_user_db',doc_type='_doc',document=dic)
    # 将拿取到的字典数据写入到es的test_user_db索引中

在kibana界面中查询test_user_db索引中的文档数据，检查写入是否成功。

可以看到文档写入已成功。

也可以在python中利用Elasticsearch模块查询

query = {'match_all': {}}
# 查询所有文档数据
allDoc = client.search(index='test_user_db', query=query,size=30)
# 查询test_user_db索引，指定显示最大条数30条

for item in allDoc['hits']['hits']:
    print(item['_source'])

结果输出：

你可能感兴趣的:(elasticsearch,学习,笔记,搜索引擎)

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element((1) 2401_84976182 程序员 c语言 c++学习
既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上CC++开发知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新如果你需要这些资料，可以戳这里获取#include#include#includeusingnamespacestd;boolcmp(int
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element(
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以添加戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！intmain(){vectormyvec{3,
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
精通Canvas：15款时钟特效代码实现指南烟幕缭绕
本文还有配套的精品资源，点击获取简介：HTML5的Canvas是一个用于绘制矢量图形的API，通过JavaScript实现动态效果。本项目集合了15种不同的时钟特效代码，帮助开发者通过学习绘制圆形、线条、时间更新、旋转、颜色样式设置及动画效果等概念，深化对Canvas的理解和应用。项目中的CSS文件负责时钟的样式设定，而JS文件则包含实现各种特效的逻辑，通过不同的函数或类处理时间更新和动画绘制，提
高效批量单词翻译工具的设计与应用
本文还有配套的精品资源，点击获取简介：在信息技术飞速发展的今天，批量单词翻译工具通过计算机的数据处理能力，大大提高了语言学习和文字处理的效率。用户通过简单输入单词列表到一个文本文件，并运行翻译程序，即可获得翻译结果并保存至指定文件。该工具集成了内置或外部翻译引擎，利用自然语言处理技术实现快速准确的翻译，并可能提供词性识别等附加功能。尽管机器翻译无法完全取代人工校对，但它为用户提供了一种高效的翻译解
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）阿牛的药铺算法移植部署 fpga开发 verilog
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）引言：为什么这个FPGA入门路线能帮你快速上岗？本文设计了一条**"Verilog语法→工具链操作→光学项目实战→岗位技能对标"的阶梯式学习路径。不同于泛泛而谈的FPGA教程，我们聚焦光学类产品开发**核心能力（时序接口设计、图像处理算法移植、高速接口应用），通过3个递进式项目（从LED闪烁到图像边缘检测），
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
基于链家网的二手房数据采集清洗与可视化分析 Mint_Datazzh 项目 selenium 网络爬虫
个人学习内容笔记，仅供参考。项目链接：https://gitee.com/rongwu651/lianjia原文链接：基于链家网的二手房数据采集清洗与可视化分析–笔墨云烟研究内容该课题的主要目的是通过将二手房网站上的存量与已销售房源，构建一个二手房市场行情情况与房源特点的可视化平台。该平台通过HTML架构和Echarts完成可视化的搭建。因此，该课题的主要研究内容就是如何利用相关技术设计并实现这样
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
分布式学习笔记_04_复制模型 NzuCRAS 分布式学习笔记架构后端
常见复制模型使用复制的目的在分布式系统中，数据通常需要被分布在多台机器上，主要为了达到：拓展性：数据量因读写负载巨大，一台机器无法承载，数据分散在多台机器上仍然可以有效地进行负载均衡，达到灵活的横向拓展高容错&高可用：在分布式系统中单机故障是常态，在单机故障的情况下希望整体系统仍然能够正常工作，这时候就需要数据在多台机器上做冗余，在遇到单机故障时能够让其他机器接管统一的用户体验：如果系统客户端分布
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
OpenWebUI(12)源码学习-后端constants.py常量定义文件青苔猿猿 AI大模型 openwebui constants常量定义
目录文件名：`constants.py`功能概述：主要功能点详解1.**MESSAGES枚举类**2.**WEBHOOK_MESSAGES枚举类**3.**ERROR_MESSAGES枚举类**✅默认错误模板✅认证与用户相关错误✅资源冲突与重复错误✅验证失败类错误✅权限限制类错误✅文件上传与格式错误✅模型与API错误✅请求频率与安全限制✅数据库与配置错误4.**TASKS枚举类**✅总结实际应用场
RocketMQ 基础教程-应用篇-死信队列码炫课堂-码哥 rocketmq专题 rocketmq java
作者简介：大家好，我是smart哥，前中兴通讯、美团架构师，现某互联网公司CTO联系qq：184480602，加我进群，大家一起学习，一起进步，一起对抗互联网寒冬学习必须往深处挖，挖的越深，基础越扎实！阶段1、深入多线程阶段2、深入多线程设计模式阶段3、深入juc源码解析阶段4、深入jdk其余源码解析
入门html这篇文章就够了 ξ流ぁ星ぷ132 html 前端
HTML笔记文章目录HTML笔记html介绍什么是htmlhtml的作用HTML标签介绍常用标签标签and标签and标签u标签del删除线br标签用于换行pre标签，预处理标签span标签div标签sub标签andsup标签hr标签h1,h2...h6标签：HTML5中的语义标签：特殊字符img标签a标签第一种用法：超链接第二种用法：锚点video标签表格标签：form标签input标签selec
OKHttp3源码分析——学习笔记 Sincerity_ 源码相关 Okhttp 源码解析读书笔记 httpclient cache
文章目录1.HttpClient与HttpUrlConnection的区别2.OKHttp源码分析使用步骤:dispatcher任务调度器,（后面有详细说明）Request请求RealCallAsyncCall3.OKHttp架构分析1.异步请求线程池,Dispather2.连接池清理线程池-ConnectionPool3.缓存整理线程池DisLruCache4.Http2异步事务线程池,http
JavaScript 基础09：Web APIs——日期对象、DOM节点梦想当全栈 JavaScript javascript 前端开发语言
JavaScript基础09：WebAPIs——日期对象、DOM节点进一步学习DOM相关知识，实现可交互的网页特效能够插入、删除和替换元素节点。能够依据元素节点关系查找节点。一、日期对象掌握Date日期对象的使用，动态获取当前计算机的时间。ECMAScript中内置了获取系统时间的对象Date，使用Date时与之前学习的内置对象console和Math不同，它需要借助new关键字才能使用。1.实例
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（Advanced RAG[1]）基于历史对话重新生成Query？ 985小水博一枚呀 AI大模型学习路线人工智能学习 langchain RAG
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）基于历史对话重新生成Query？【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）基于历史对话重新生成Query？文章目录【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）基于历史对话重新生成Q
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（Advanced RAG[1]）其他Query优化相关策略？ 985小水博一枚呀 AI大模型学习路线人工智能学习 langchain
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）其他Query优化相关策略？【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）其他Query优化相关策略？文章目录【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）其他Query优化相关策略？一
传奇修改map地图教程_传奇技能第三祭：NPC的增加、隐藏和脚本修改垃圾箱博物馆传奇修改map地图教程
技能献祭，Get新技能：传奇技能——NPC功能与实现跟航家学技能，用干货带你飞，现学现用，底部有配套学习资源本篇内容简介：通过对游戏内NPC的控制，可以让NPC出现在地图中的任意位置，还可以控制外观显示、自定义命名，新增与隐藏以及脚本功能的实现。一、NPC总控制文本所在路径：D:MirServerMir200EnvirEnvir目录下，找到NPC总控制文本：Merchant，游戏内的所有NPC都在
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
AI Agent开发学习系列 - langchain之Chains的使用(7)：用四种处理文档的预制链轻松实现文档对话 alex100 AI Agent 学习人工智能 langchain prompt 语言模型 python
在LangChain中，四种文档处理预制链（stuff、refine、mapreduce、mapre-rank）是实现文档问答、摘要等任务的常用高阶工具。它们的核心作用是：将长文档切分为块，分步处理，再整合结果，极大提升大模型处理长文档的能力。stuff直接拼接所有文档内容到prompt，一次性交给大模型处理。适合文档较短、token不超限的场景。refine递进式摘要。先对第一块文档生成初步答案
.NET 一款基于BGInfo的红队内网渗透工具 dot.Net安全矩阵网络 .net 安全 .netcore web安全矩阵
01阅读须知此文所提供的信息只为网络安全人员对自己所负责的网站、服务器等（包括但不限于）进行检测或维护参考，未经授权请勿利用文章中的技术资料对任何计算机系统进行入侵操作。利用此文所提供的信息而造成的直接或间接后果和损失，均由使用者本人负责。本文所提供的工具仅用于学习，禁止用于其他方面02基本介绍在内网渗透过程中，白名单绕过是红队常见的技术需求。Sharp4Bginfo.exe是一款基于微软签名工具
vue3面试题(个人笔记) 武昌库里写JAVA 面试题汇总与解析课程设计 spring boot vue.js java 学习
vue3比vue2有什么优势？性能更好，打包体积更小，更好的ts支持，更好的代码组织，更好的逻辑抽离，更多的新功能。描述Vue3生命周期CompositionAPI的生命周期：onMounted()onUpdated()onUnmounted()onBeforeMount()onBeforeUpdate()onBeforeUnmount()onErrorCaptured()onRenderTrac
Python学习笔记5|条件语句和循环语句 iamecho9 Python从0到1学习笔记 python 学习笔记
一、条件语句条件语句用于根据不同的条件执行不同的代码块。1、if语句基本语法：if布尔型语句1:代码块#语句1为True时执行的代码示例：age=int(input("请输入你的年龄:"))ifage>=18:print("你已成年")2、if-else语句如果if条件不成立，则执行else代码块：if布尔型语句1:代码块#语句1为True时执行的代码else:代码块#语句1为False时执行的代
2025年渗透测试面试题总结-2025年HW(护网面试) 43（题目+回答）独行soc 2025年护网面试职场和发展 linux 科技渗透测试安全护网
安全领域各种资源，学习文档，以及工具分享、前沿信息分享、POC、EXP分享。不定期分享各种好玩的项目及好用的工具，欢迎关注。目录2025年HW(护网面试)431.自我介绍与职业规划2.Webshell源码级检测方案3.2025年新型Web漏洞TOP54.渗透中的高价值攻击点5.智能Fuzz平台架构设计6.堆栈溢出攻防演进7.插桩技术实战应用8.二进制安全能力矩阵9.C语言内存管理精要10.Pyth
Javaweb学习之Vue模板语法（三）不要数手指啦 vue.js 学习前端
目录学习资料前情回顾本期介绍（vue模板语法）文本插值Vue的Attribute绑定使用JavaScript表达式综合实例代码：学习资料Vue.js-渐进式JavaScript框架|Vue.js(vuejs.org)前情回顾项目的创建大家可以看这篇文章Vue学习之项目的创建-CSDN博客本期介绍（vue模板语法）首先，找到我们编写代码的地方找到自己项目的src文件夹，打开之后点击component
swagger【个人笔记】撰卢笔记 java
文章目录swagger导入mave坐标在配置类(WebMvcConfiguration)中加入knife4j相关配置设置静态资源映射，主要是让拦截器放行swagger常用注解@Api(tags="\[描述这个类的作用]")@ApiModel(description="\[描述这个类的作用]")@ApiModelProPerty("描述这个类的作用")@ApiOperation("\[描述方法的作用
【个人笔记】负载均衡撰卢笔记负载均衡运维
文章目录nginx反向代理的好处负载均衡负载均很的配置方式均衡负载的方式nginx反向代理的好处提高访问速度进行负载均衡保证后端服务安全负载均衡负载均衡，就是把大量的请求按照我们指定的方式均衡的分配给集群中的每台服务器负载均很的配置方式upstreamwebservers{server192.168.100.128:8080server192.168.100.129:8080}server{lis
JVM StackMapTable 属性的作用及理解 lijingyao8206 jvm 字节码 Class文件 StackMapTable
在Java 6版本之后JVM引入了栈图(Stack Map Table)概念。为了提高验证过程的效率，在字节码规范中添加了Stack Map Table属性，以下简称栈图，其方法的code属性中存储了局部变量和操作数的类型验证以及字节码的偏移量。也就是一个method需要且仅对应一个Stack Map Table。在Java 7版
回调函数调用方法百合不是茶 java
最近在看大神写的代码时,.发现其中使用了很多的回调 ,以前只是在学习的时候经常用到 ,现在写个笔记记录一下代码很简单: MainDemo :调用方法得到方法的返回结果
[时间机器]制造时间机器需要一些材料 comsci 制造
根据我的计算和推测,要完全实现制造一台时间机器,需要某些我们这个世界不存在的物质和材料... 甚至可以这样说,这种材料和物质,我们在反应堆中也无法获得......
开口埋怨不如闭口做事邓集海邓集海做人做事工作
“开口埋怨，不如闭口做事。”不是名人名言，而是一个普通父亲对儿子的训导。但是，因为这句训导，这位普通父亲却造就了一个名人儿子。这位普通父亲造就的名人儿子，叫张明正。　　　　张明正出身贫寒，读书时成绩差，常挨老师批评。高中毕业，张明正连普通大学的分数线都没上。高考成绩出来后，平时开口怨这怨那的张明正，不从自身找原因，而是不停地埋怨自己家庭条件不好、埋怨父母没有给他创造良好的学习环境。　　　　
jQuery插件开发全解析，类级别与对象级别开发 IT独行者 jquery 开发插件　函数
jQuery插件的开发包括两种：一种是类级别的插件开发，即给 jQuery添加新的全局函数，相当于给 jQuery类本身添加方法。 jQuery的全局函数就是属于 jQuery命名空间的函数，另一种是对象级别的插件开发，即给 jQuery对象添加方法。下面就两种函数的开发做详细的说明。 1 、类级别的插件开发类级别的插件开发最直接的理解就是给jQuer
Rome解析Rss 413277409 Rome解析Rss
import java.net.URL; import java.util.List; import org.junit.Test; import com.sun.syndication.feed.synd.SyndCategory; import com.sun.syndication.feed.synd.S
RSA加密解密无量加密解密 rsa
RSA加密解密代码代码有待整理 package com.tongbanjie.commons.util; import java.security.Key; import java.security.KeyFactory; import java.security.KeyPair; import java.security.KeyPairGenerat
linux 软件安装遇到的问题 aichenglong linux 遇到的问题 ftp
1 ftp配置中遇到的问题 500 OOPS: cannot change directory 出现该问题的原因:是SELinux安装机制的问题.只要disable SELinux就可以了修改方法:1 修改/etc/selinux/config 中SELINUX=disabled 2 source /etc
面试心得 alafqq 面试
最近面试了好几家公司。记录下；支付宝，面试我的人胖胖的，看着人挺好的；博彦外包的职位，面试失败；阿里金融，面试官人也挺和善，只不过我让他吐血了。。。由于印象比较深，记录下； 1，自我介绍 2，说下八种基本类型；（算上string。楼主才答了3种，哈哈，string其实不是基本类型，是引用类型） 3，什么是包装类，包装类的优点； 4，平时看过什么书？NND，什么书都没看过。。照样
java的多态性探讨百合不是茶 java
java的多态性是指main方法在调用属性的时候类可以对这一属性做出反应的情况 //package 1; class A{ public void test(){ System.out.println("A"); } } class D extends A{ public void test(){ S
网络编程基础篇之JavaScript-学习笔记 bijian1013 JavaScript
1.documentWrite <html> <head> <script language="JavaScript"> document.write("这是电脑网络学校"); document.close(); </script> </h
探索JUnit4扩展：深入Rule bijian1013 JUnit Rule 单元测试
本文将进一步探究Rule的应用，展示如何使用Rule来替代@BeforeClass，@AfterClass，@Before和@After的功能。在上一篇中提到，可以使用Rule替代现有的大部分Runner扩展，而且也不提倡对Runner中的withBefores()，withAfte
[CSS]CSS浮动十五条规则 bit1129 css
这些浮动规则，主要是参考CSS权威指南关于浮动规则的总结，然后添加一些简单的例子以验证和理解这些规则。 1. 所有的页面元素都可以浮动 2. 一个元素浮动后，会成为块级元素，比如<span>,a, strong等都会变成块级元素 3.一个元素左浮动，会向最近的块级父元素的左上角移动，直到浮动元素的左外边界碰到块级父元素的左内边界；如果这个块级父元素已经有浮动元素停靠了
【Kafka六】Kafka Producer和Consumer多Broker、多Partition场景 bit1129 partition
0.Kafka服务器配置 3个broker 1个topic，6个partition，副本因子是2 2个consumer，每个consumer三个线程并发读取 1. Producer package kafka.examples.multibrokers.producers; import java.util.Properties; import java.util.
zabbix_agentd.conf配置文件详解 ronin47 zabbix 配置文件
Aliaskey的别名，例如 Alias=ttlsa.userid:vfs.file.regexp[/etc/passwd,^ttlsa:.:([0-9]+),,,,\1]，或者ttlsa的用户ID。你可以使用key：vfs.file.regexp[/etc/passwd,^ttlsa:.: ([0-9]+),,,,\1]，也可以使用ttlsa.userid。备注: 别名不能重复，但是可以有多个
java--19.用矩阵求Fibonacci数列的第N项 bylijinnan fibonacci
参考了网上的思路，写了个Java版的： public class Fibonacci { final static int[] A={1,1,1,0}; public static void main(String[] args) { int n=7; for(int i=0;i<=n;i++){ int f=fibonac
Netty源码学习-LengthFieldBasedFrameDecoder bylijinnan java netty
先看看LengthFieldBasedFrameDecoder的官方API http://docs.jboss.org/netty/3.1/api/org/jboss/netty/handler/codec/frame/LengthFieldBasedFrameDecoder.html API举例说明了LengthFieldBasedFrameDecoder的解析机制，如下：实
AES加密解密 chicony 加密解密
AES加解密算法，使用Base64做转码以及辅助加密： package com.wintv.common; import javax.crypto.Cipher; import javax.crypto.spec.IvParameterSpec; import javax.crypto.spec.SecretKeySpec; import sun.misc.BASE64Decod
文件编码格式转换 ctrain 编码格式
package com.test; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream;
mysql 在linux客户端插入数据中文乱码 daizj mysql 中文乱码
1、查看系统客户端，数据库，连接层的编码查看方法： http://daizj.iteye.com/blog/2174993 进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+------
好代码是廉价的代码 dcj3sjt126com 程序员读书
长久以来我一直主张：好代码是廉价的代码。当我跟做开发的同事说出这话时，他们的第一反应是一种惊愕，然后是将近一个星期的嘲笑，把它当作一个笑话来讲。当他们走近看我的表情、知道我是认真的时，才收敛一点。当最初的惊愕消退后，他们会用一些这样的话来反驳： “好代码不廉价，好代码是采用经过数十年计算机科学研究和积累得出的最佳实践设计模式和方法论建立起来的精心制作的程序代码。” 我只
Android网络请求库——android-async-http dcj3sjt126com android
在iOS开发中有大名鼎鼎的ASIHttpRequest库，用来处理网络请求操作，今天要介绍的是一个在Android上同样强大的网络请求库android-async-http，目前非常火的应用Instagram和Pinterest的Android版就是用的这个网络请求库。这个网络请求库是基于Apache HttpClient库之上的一个异步网络请求处理库，网络处理均基于Android的非UI线程，通
ORACLE 复习笔记之SQL语句的优化 eksliang SQL优化 Oracle sql语句优化 SQL语句的优化
转载请出自出处：http://eksliang.iteye.com/blog/2097999 SQL语句的优化总结如下 sql语句的优化可以按照如下六个步骤进行：合理使用索引避免或者简化排序消除对大表的扫描避免复杂的通配符匹配调整子查询的性能 EXISTS和IN运算符下面我就按照上面这六个步骤分别进行总结：
浅析：Android 嵌套滑动机制（NestedScrolling） gg163 android 移动开发滑动机制嵌套
谷歌在发布安卓 Lollipop版本之后，为了更好的用户体验，Google为Android的滑动机制提供了NestedScrolling特性 NestedScrolling的特性可以体现在哪里呢？ 比如你使用了Toolbar，下面一个ScrollView，向上滚
使用hovertree菜单作为后台导航 hvt JavaScript jquery .net hovertree asp.net
hovertree是一个jquery菜单插件，官方网址：http://keleyi.com/jq/hovertree/ ，可以登录该网址体验效果。 0.1.3版本：http://keleyi.com/jq/hovertree/demo/demo.0.1.3.htm hovertree插件包含文件： http://keleyi.com/jq/hovertree/css
SVG 教程（二）矩形天梯梦 svg
SVG <rect> SVG Shapes SVG有一些预定义的形状元素，可被开发者使用和操作：矩形 <rect> 圆形 <circle> 椭圆 <ellipse> 线 <line> 折线 <polyline> 多边形 <polygon> 路径 <path>
一个简单的队列 luyulong java 数据结构队列
public class MyQueue { private long[] arr; private int front; private int end; // 有效数据的大小 private int elements; public MyQueue() { arr = new long[10]; elements = 0; front
基础数据结构和算法九：Binary Search Tree sunwinner Algorithm
A binary search tree (BST) is a binary tree where each node has a Comparable key (and an associated value) and satisfies the restriction that the key in any node is larger than the keys in all
项目出现的一些问题和体会 Steven-Walker DAO Web servlet
第一篇博客不知道要写点什么，就先来点近阶段的感悟吧。这几天学了servlet和数据库等知识，就参照老方的视频写了一个简单的增删改查的，完成了最简单的一些功能，使用了三层架构。 dao层完成的是对数据库具体的功能实现，service层调用了dao层的实现方法，具体对servlet提供支持。 &
高手问答：Java老A带你全面提升Java单兵作战能力！ ITeye管理员 java
本期特邀《Java特种兵》作者：谢宇，CSDN论坛ID: xieyuooo 针对JAVA问题给予大家解答，欢迎网友积极提问，与专家一起讨论! 作者简介：淘宝网资深Java工程师，CSDN超人气博主，人称“胖哥”。 CSDN博客地址： http://blog.csdn.net/xieyuooo 作者在进入大学前是一个不折不扣的计算机白痴，曾经被人笑话过不懂鼠标是什么，