知识汲取者

初识ElasticSearch

文章目录

初识ElasticSearch
- 前言
- 1、初识ElasticSearch
- - 1.1 ES概述
  - 1.2 倒排索引
  - 1.3 ES中的一些常见概念
  - 1.4 安装ES和Kibana
- 2、索引库操作
- - 2.1 Mapping映射属性
  - 2.2 索引库的CRUD
  - - 2.2.1 创建索引和映射
    - 2.2.2 查询索引库
    - 2.2.3 修改索引库
    - 2.2.4 删除索引库
- 3、文档操作
- - 3.1 新增文档
  - 3.2 查询文档
  - 3.3 删除文档
  - 3.4 修改文档
  - - 3.4.1 全量修改
    - 3.4.2 增量修改
- 4、RestClient
- - 4.0 前置知识
  - 4.1 快速体验
  - 4.2 操作索引库
  - 4.3 操作文档
  - - 4.3.1 新增文档
    - 4.3.2 查询文档
    - 4.3.3 删除文档
    - 4.3.4 修改文档
    - 4.3.5 批量导入文档
- 常见的DSL语句

初识ElasticSearch

前言

本文是作者对于ElastiSearch的初步学习笔记，ElasticSearch属于NoSQL，能够进行高效的全文搜索，并且是基于分布式架构的，天然支持分布式、高并发，被广泛应用于各大搜索引擎。通过本篇文章，你将学习到ElasticSearch中的一些常见但重要的概念，掌握基本的DSL语法，同时学会使用SpringBoot整合ElasticSearch并掌握RestClient提供的常见API。
PS：如果文章存在纰漏、或者描述不当、错误，恳请您能够即使指出

1、初识ElasticSearch

1.1 ES概述

ElasticSearch是什么？

Elasticsearch，简称ES（不要和JavaScript中的ES搞混了，JavaScript中的ES一般要带上版本号，比如ES6，ES2015，一般直接说ES都是指ElasticSearch），是一个开源的分布式搜索和分析引擎（也是一种文档型数据库）。它使用Lucene搜索引擎来提供全文搜索功能，并提供了大量的API，用于聚合、过滤和分析数据。Elasticsearch支持实时数据搜索和分析，并可以在多个节点之间分发数据和工作负载。它广泛用于构建企业搜索应用程序、日志分析、安全信息和业务分析等场景。

官网地址：https://www.elastic.co/cn/
ElasticSearch有什么用？
- 搜索和查询：ElasticSearch被广泛用于网站和应用程序中的搜索功能，可以通过简单的HTTP请求实现高效、灵活的搜索和查询。
- 日志分析：ElasticSearch可以处理大量的实时和历史日志数据，并提供强大的搜索和可视化能力，支持针对大规模数据的实时分析和监控。
- 数据聚合和分析：ElasticSearch支持对大型数据集进行聚合分析，可以将多个数据源进行聚合并生成高级数据分析和可视化报告。
- 全文搜索：ElasticSearch支持多种语言、分词、聚合和扩展，可以帮助用户完成各种全文搜索和相关性匹配操作。
- 地理空间搜索：ElasticSearch支持地理空间搜索和位置数据可视化，可以针对地理位置信息进行搜索和分析。
像在Github上搜代码、在电商网站搜索商品、在百度搜索答案、在打车软件搜索附近的车……都可以使用ElasticSearch实现
ElasticSearch的特点有哪些？
- 分布式存储和搜索：Elasticsearch 能够无缝地扩展到多台服务器上，并自动分布式存储和搜索数据。支持水平和垂直扩展，不需要停机维护。
- 高可用性：Elasticsearch有多节点架构，可以设置数据备份数量，以保证数据的可用性和容灾性。
- 实时搜索：Elasticsearch 通过实时索引机制，能够快速搜索并返回最新的结果。
- 全文检索和分析：Elasticsearch 能够对文本和结构化数据进行全文检索、聚合、统计和分析，支持多种查询方式，包括模糊查询、短语查询、前缀查询、通配符查询等。
- 自动建模和更新：Elasticsearch 能够自动处理数据的结构，创建索引、映射、数据类型等，并支持动态添加或修改字段。
- 多语言支持：Elasticsearch 支持多种语言的分词器，能够更好地适应全球化需求。
- 开发者友好：Elasticsearch 支持多种语言客户端，包括 Java、Python、PHP、Ruby、JavaScript 等，也提供了 Restful API 接口，易于集成和开发。
ElasticSearch的优缺点
- 优点：
  - 高效的全文搜索：ElasticSearch 引擎基于 Lucene，具有高效的全文搜索能力，可以对海量的数据进行快速的检索。
  - 高可用性和可伸缩性：ElasticSearch 支持分布式部署，数据可以被分散保存在多个节点上，实现高可用性和可伸缩性。
  - 方便的数据聚合和分析：ElasticSearch 对数据聚合和分析提供了强大的支持，不仅可以进行基本的统计和聚合操作，还可以进行关系型数据库无法完成的复杂数据分析。
  - 灵活的实时更新和扩展：ElasticSearch 支持实时更新数据，并且可以方便地进行扩展。例如，可以通过增加新的节点来提高搜索的速度和处理能力。
- 缺点：
  - 学习成本较高：ElasticSearch具有很多的配置项和复杂的查询语法，需要用户学习和掌握。
  - 硬盘资源消耗较大：ElasticSearch 采用磁盘存储数据，需要大量硬盘资源。
  - 数据安全性问题： Elasticsearch 的默认设置对数据安全性的保护相对较低，需要用户进行必要的设置才能增强数据的安全性。
ELK技术栈

ELK（Elastic Stack）是一个开源的数据分析平台，包括 Elasticsearch、Logstash、Kibana和Beats这几个核心组件。
- Elasticsearch：是一个分布式的搜索和分析引擎，能够通过RESTful API提供实时的搜索、分析和数据可视化功能。
- Logstash：是一个数据收集和处理工具，支持从各种源获取数据，并将其转换为指定的格式，以供Elasticsearch等工具使用。
- Kibana：是一个用于可视化和分析Elasticsearch数据的开源平台，能够提供交互式的数据可视化和实时监控功能。
- Beats：是一个轻量级的数据收集器，能够从服务器、操作系统和各种设备中收集数据，并将其发送到Elasticsearch、Logstash和Kibana等组件进行分析和可视化。
Elastic Stack在企业中广泛应用于各种应用场景，如搜索、日志分析、安全监控、数据可视化等。由于其开源、可扩展和易于管理等特性，逐渐成为了开发人员和运维人员的首选数据分析平台。
Lucene是什么？

Lucene是一个Java语言实现的的搜索引擎类库，是Apache公司的顶级项目，由DougCutting于1999年研发。

官网地址：https://lucene.apache.org/ 。
ElasticSearch的发展历史
Elasticsearch最初是由Shay Banon在2010年创建的一个开源搜索引擎。在创业公司Compass的基础上，他开始发展一个新的分布式搜索引擎。最初，这个搜索引擎的原型被命名为Compass2，后来改名为Elasticsearch。
- 2004年Shay Banon基于Lucene开发了Compass
- 2010年Shay Banon 重写了Compass，取名为Elasticsearch。
- 2012年2月，Elasticsearch第一次发布了alpha版本，之后接着发布了beta版本。在发布了第一个1.0版本后，Elasticsearch的用户群迅速增加，Elasticsearch站在了开源搜索引擎的前沿位置。
- 2015年2月，Elasticsearch公司更名为Elastic，并发布了更广泛的Elastic Stack产品系列，包括Elasticsearch、Kibana、Logstash和Beats等。
随着时间的推移，Elasticsearch不断发展和改进，现在成为了全球最受欢迎和广泛采用的搜索引擎之一，被广泛应用于大数据分析、日志收集、安全分析、企业搜索和电子商务等领域。

题外话：据说ShayBanon最先是为他老婆写的，他老婆喜欢做菜，于是他就为他老婆写了一个搜索引擎，用于搜索各种菜谱
PS：看这发亮，就知道这是一个大佬
为什么学ElasticSearch而不是其它的搜索引擎？

其一，学技术我们要大众化，大众化好找工作，其二大众化的技术肯定是有它的优点的，不然也不会这么多人用它，是吧(●ˇ∀ˇ●)。其二它免费，各大社区活跃，生态较好，学起来会比较顺畅，遇到问题，可能已经有前辈给出了解决方案

下面这张图是2021年各大搜索引擎排行榜

虽然在早期，Apache Solr是最主要的搜索引擎技术，但随着发展elasticsearch已经渐渐超越了Solr，独占鳌头：

1.2 倒排索引

倒排索引的概念是基于MySQL这样的正向索引而言的，所以要了解倒排索引，就得先了解正向索引。在倒排索引中有两个十分重要的概念：文档和词条

文档（Document）：用来搜索的数据，其中的每一条数据就是一个文档。例如一个网页、一个商品信息
词条（Term）：对文档数据或用户搜索数据，利用某种算法分词，得到的具备含义的词语就是词条。例如：我是中国人，就可以分为：我、是、中国人、中国、国人这样的几个词条
什么是正向索引？

正向索引是MySQL中所使用的索引，它以每个文档的id（或者说每条记录的id）为关键字，建立索引。每次查看记录时，先通过id（这个在MySQL中称之为聚集索引）查找到对应的内容，或者通过二级索引查找到id，然后再查早到对应的内容，最后再判断该条记录中的内容是否符合我们的查找要求。

简而言之：就是必须要先有文档id，然后通过文档id查找文档内容，最后判断文档内容是否是我们要查找的，是则根据文档id得到文档内容

查找流程如下所示：
- 如果是根据id查询，那么直接走索引，查询速度非常快。
- 但如果是基于title做模糊查询（索引失效），只能是逐行扫描数据（全表搜索），流程如下：
  - Step1：用户输入。用户搜索数据，条件是title符合"%手机%"
  - Step2：查找。逐行获取数据，比如id为1的数据
  - Step3：比对。判断数据中的title是否符合用户搜索条件
  - Step4：获取数据。如果符合则放入结果集，不符合则丢弃。回到步骤1
什么是倒排索引？

倒排索引是ElasticSearch所使用的索引，它将每个文档中的内容划分为一个个的词条，然后以每个词条作为关键字，建立索引。每次查找先通过词条确定文档id，然后根据文档id查找对应的内容。感觉类似于MySQL中的二级索引。

简而言之：就行必须先有词条，然后有文档id，最后通过文档id得到要查找的内容

倒排索引的创建流程：
- Step1：将每一个文档的数据利用算法分词，得到一个个词条
- Step2：创建表，每行数据包括词条、词条所在文档id、位置等信息
- Step3：因为词条唯一性，可以给词条创建索引，例如hash表结构索引
查找流程如下所示：
- Step1：用户输入。用户输入条件"华为手机"进行搜索。
- Step2：分词。对用户输入内容分词，得到词条：华为、手机。
- Step3：查找。拿着词条在倒排索引中查找，可以得到包含词条的文档id：1、2、3。
- Step4：获取数据。拿着文档id到正向索引中查找具体文档。

1.3 ES中的一些常见概念

ElasticSearch中有很多独有的概念，与MySQL中略有差别，但也有相似之处，这里就着重介绍一下ES中的常见概念

文档（Document）：在Elasticsearch中，文档是存储在索引（Index）中的基本数据单元。它可以是JSON、XML或其他格式，它们通常包含了一些关键字和对应的值。每个文档都有一个唯一的标识符（ID），可以通过ID来获取或修改该文档的内容。在Elasticsearch索引中，文档可以看做是可搜索、可分析的数据单位，可以直接进行检索、聚合和过滤操作。

PS：数据库中的一条记录可以对应一个文档
字段（Field）：在Elasticsearch中，字段是文档的最基本组成部分。在一份文档中，字段表示文档中的一个单独数据项（类似于数据库中的列）。字段可以是以下类型之一：
- 文本字段（Text field）：包含一个文本字符串，可分词。例如，一篇文章的标题。
- 日期字段（Date field）：包含一个日期或日期时间。例如，一个事件的日期和时间。
- 数字字段（Numeric field）：包含数字值，可以是整数或浮点型。例如，一个产品的价格。
- 布尔字段（Boolean field）：包含一个布尔值，即“true”或“false”。例如，一个任务的完成状态。
- 地理位置字段（Geo field）：包含一个点或一组点的地理位置坐标。例如，一家商店的经纬度。
- 二进制字段（Binary field）：包含二进制数据，例如图片或PDF文件。
索引（Index）：就是相同类型的文档的集合。

例如：
- 所有用户文档，就可以组织在一起，称为用户的索引；
- 所有商品的文档，可以组织在一起，称为商品的索引；
- 所有订单的文档，可以组织在一起，称为订单的索引；
映射：我们可以把索引当做是数据库中的表。数据库的表会有约束信息，用来定义表的结构、字段的名称、类型等信息。因此，索引库中就有映射（mapping），是索引中文档的字段约束信息，类似表的结构约束。

MySQL与ElasticSearch中概念的对比

MySQL	Elasticsearch	说明
Table	Index	索引(index)，就是文档的集合，类似数据库的表(table)
Row	Document	文档（Document），就是一条条的数据，类似数据库中的行（Row），文档都是JSON格式
Column	Field	字段（Field），就是JSON文档中的字段，类似数据库中的列（Column）
Schema	Mapping	Mapping（映射）是索引中文档的约束，例如字段类型约束。类似数据库的表结构（Schema）
SQL	DSL	DSL是elasticsearch提供的JSON风格的请求语句，用来操作elasticsearch，实现CRUD

Mysql：擅长事务类型操作，可以确保数据的安全和一致性
Elasticsearch：擅长海量数据的搜索、分析、计算

因此在企业中，往往是两者结合使用：

对安全性要求较高的写操作，使用mysql实现
对查询性能要求较高的搜索需求，使用elasticsearch实现
两者再基于某种方式，实现数据的同步，保证一致性

1.4 安装ES和Kibana

略……详情见ElasticSearch安装教程.md

2、索引库操作

2.1 Mapping映射属性

mapping是对索引库中文档的约束，常见的mapping属性包括：

type：字段数据类型，常见的简单类型有：
- 字符串：text（可分词的文本）、keyword（精确值，例如：品牌、国家、ip地址）
- 数值：long、integer、short、byte、double、float、
- 布尔：boolean
- 日期：date
- 对象：object
index：是否创建索引，默认为true
analyzer：使用哪种分词器
properties：该字段的子字段

示例

{
    "age": 21,
    "weight": 52.1,
    "isMarried": false,
    "info": "黑马程序员Java讲师",
    "email": "[email protected]",
    "score": [99.1, 99.5, 98.9],
    "name": {
        "firstName": "云",
        "lastName": "赵"
    }
}

对应的每个字段映射（mapping）：

age：类型为 integer；参与搜索，因此需要index为true；无需分词器
weight：类型为float；参与搜索，因此需要index为true；无需分词器
isMarried：类型为boolean；参与搜索，因此需要index为true；无需分词器
info：类型为字符串，需要分词，因此是text；参与搜索，因此需要index为true；分词器可以用ik_smart
email：类型为字符串，但是不需要分词，因此是keyword；不参与搜索，因此需要index为false；无需分词器
score：虽然是数组，但是我们只看元素的类型，类型为float；参与搜索，因此需要index为true；无需分词器
name：类型为object，需要定义多个子属性
- name.firstName；类型为字符串，但是不需要分词，因此是keyword；参与搜索，因此需要index为true；无需分词器
- name.lastName；类型为字符串，但是不需要分词，因此是keyword；参与搜索，因此需要index为true；无需分词器

2.2 索引库的CRUD

这里我们统一使用Kibana编写DSL的方式来演示。

备注：在Kibana中，DSL是指“领域特定语言”（Domain Specific Language），即用于查询和过滤数据的查询语言。Kibana前端用户可以使用Kibana的查询DSL，通过图形界面，以文本格式或使用过滤器，从Elasticsearch中检索数据。

Kibana查询DSL具有丰富的语句类型，包括查询、聚合、过滤器等。语法类似于SQL，但具有Elasticsearch特定的查询语言元素。通过使用DSL，用户可以在Kibana中更好地与数据进行交互，并且可以更轻松地构建和管理他们的查询。另外，用户也可以利用Kibana的DSL来建立定期抽出和导出数据任务，方便数据的备份、共享和处理。

2.2.1 创建索引和映射

基本语法：
- 请求方式：PUT
- 请求路径：/索引库名（可以自定义）
- 请求参数：mapping映射

格式：

PUT /索引库名称
{
  "mappings": {
    "properties": {
      "字段名":{
        "type": "text",
        "analyzer": "ik_smart"
      },
      "字段名2":{
        "type": "keyword",
        "index": "false"
      },
      "字段名3":{
        "properties": {
          "子字段": {
            "type": "keyword"
          }
        }
      },
      // ...略
    }
  }
}

示例

创建索引库和映射：

PUT /test
{
  "mappings": {
    "properties": {
      "info": {
        "type": "text",
        "analyzer": "ik_smart"
      },
      "email": {
        "type": "keyword",
        "index": false
      },
      "name": {
        "type": "object",
        "properties": {
          "firstName": {
            "type": "keyword"
          },
          "lastName": {
            "type": "keyword"
          }
        }
      }
    }
  }
}

2.2.2 查询索引库

基本语法：
- 请求方式：GET
- 请求路径：/索引库名
- 请求参数：无
格式：
```
GET /索引库名
```

示例

查询2.2.1中创建的索引库

GET /test

注意：查询不存在的索引库会报错

{
  "test" : {
    "aliases" : { },
    "mappings" : {
      "properties" : {
        "email" : {
          "type" : "keyword",
          "index" : false
        },
        "info" : {
          "type" : "text",
          "analyzer" : "ik_smart"
        },
        "name" : {
          "properties" : {
            "firstName" : {
              "type" : "keyword"
            },
            "lastName" : {
              "type" : "keyword"
            }
          }
        }
      }
    },
    "settings" : {
      "index" : {
        "routing" : {
          "allocation" : {
            "include" : {
              "_tier_preference" : "data_content"
            }
          }
        },
        "number_of_shards" : "1",
        "provided_name" : "test",
        "creation_date" : "1684480784390",
        "number_of_replicas" : "1",
        "uuid" : "wrF-3jxuTgGTq5Z8j7yWHg",
        "version" : {
          "created" : "7120199"
        }
      }
    }
  }
}

2.2.3 修改索引库

倒排索引结构虽然不复杂，但是一旦数据结构改变（比如改变了分词器），就需要重新创建倒排索引，这简直是灾难。因此索引库一旦创建，无法修改mapping。虽然无法修改mapping中已有的字段，但是却允许添加新的字段到mapping中，因为不会对倒排索引产生影响。

基本语法
- 请求方式：PUT
- 请求路径：/索引库名/_mapping
- 请求参数：properties

格式

PUT /索引库名/_mapping
{
  "properties": {
    "新字段名":{
      "type": "integer"
    }
  }
}

示例

新增字段

PUT /test/_mapping
{
  "properties": {
    "age": {
      "type": "integer"
    }
  }
}

如果直接修改会报错：

2.2.4 删除索引库

基本语法
- 请求方式：DELETE
- 请求路径：/索引库名
- 请求参数：无
格式
```
DELETE /索引库名
```

示例

删除索引库

DELETE /test

注意：如果删除不存在的索引库，会报错

3、文档操作

3.1 新增文档

语法

POST /索引库名/_doc/文档id
{
    "字段1": "值1",
    "字段2": "值2",
    "字段3": {
        "子属性1": "值3",
        "子属性2": "值4"
    },
    // ...
}

示例

往test索引库中添加一个文档
```
POST /test/_doc/1
{
  "info":"往test索引库中添加一个文档",
  "email":"[email protected]",
  "name":{
    "firstName":"你",
    "lastName":"好"
  }
}
```
注意：
1. 如果不手动设置文档id，ES会自动随机生成一个文档id
2. 可以重复添加，每添加以此，文档的_version都会自增1

3.2 查询文档

语法
```
GET /{索引库名称}/_doc/{id}
```
示例

查询id为1的文档（不存在就会报错）
```
GET /test/_doc/1
```

3.3 删除文档

语法
```
DELETE /{索引库名}/_doc/id值
```
示例
```
DELETE /test/_doc/1
```
注意：每执行一次删除或者查询，_version字段都会自增1

3.4 修改文档

修改有两种方式：

全量修改：直接覆盖原来的文档，新生成的文档只含修改的字段，未修改的字段直接丢失了
增量修改：修改文档中的部分字段，未修改的字段不会丢失

温馨提示：尽量慎用全量修改

3.4.1 全量修改

全量修改是覆盖原来的文档，其本质是：

根据指定的id删除文档
新增一个相同id的文档

所以说全量修改既可以当作修改操作，又可以当作新增操作

注意：如果根据id删除时，id不存在，第二步的新增也会执行，也就从修改变成了新增操作了。

语法

PUT /{索引库名}/_doc/文档id
{
    "字段1": "值1",
    "字段2": "值2",
    // ... 略
}

示例

全量修改info和age字段
```
PUT /test/_doc/1
{
  "info":"进行全量修改",
  "age":"18"
}
```
可以看到，name字段没有了，但是多了一个age字段。如果如果文档id没有与之对应的文档，则直接新增
```
PUT /test/_doc/2
{
  "info":"进行全量修改",
  "age":"18"
}
```

3.4.2 增量修改

语法

POST /{索引库名}/_update/文档id
{
    "doc": {
         "字段名": "新的值",
    }
}

示例：

增量修改info字段
```
POST /test/_update/1
{
  "doc":{
    "info":"增量修改"
  }
}
```
注意：如果使用增量修改，修改一个不存在的文档，则会直接报错

4、RestClient

RestClient是什么？

RestClient（Restful Client）是一种HTTP请求工具，它可以模拟HTTP请求，用于测试和调试RESTful Web服务的API。RestClient通常被用于调试或测试服务端API是否正常工作，也可以用来将数据推送到Web服务端。

RestClient可以直接在浏览器中运行，它的操作界面简单易用，支持GET、POST、PUT、DELETE等常用的HTTP请求方法，并且用户可以在请求中添加请求参数、请求头部等元素，进行数据传输、调试和测试。同时，RestClient也支持设置SSL协议、HTTBP代理等高级选项，消除了在开发和测试过程中遇到的许多网络难题。

在开发过程中，RestClient是一个非常方便实用的工具，它不依赖任何语言、任何平台，只需要指定要测试的API URL和请求方法，就可以模拟HTTP请求，获取响应结果，有效地提高了开发效率。

官方文档地址：https://www.elastic.co/guide/en/elasticsearch/client/index.html

ES 提供了各种语言的 RestClient，而我们要使用的 JavaRestClient
JavaRestClient的分类
- Java Low-Level Rest Client：提供了基本的 REST API 功能，例如发送 HTTP 请求、从 HTTP 响应中解析出返回数据、错误处理等。因此，Java Low-Level Rest Client 是一个类似于其他 HTTP 客户端框架，例如 Apache HttpClient 的低级别客户端。需要自己手动构建请求和响应解析，相对比较繁琐和底层。
- Java High-Level Rest Client：提供了更高级别的接口，简化了与 Elasticsearch 交互的过程。它提供了自动序列化和反序列化数据、自动生成 JSON 等功能，可以更轻松地执行操作，并且支持 Elasticsearch 的复杂查询、聚合和操作。Java High-Level Rest Client 更加适合于业务开发人员，易于使用且具有更强的可读性，并且提供了更好的错误处理和重试机制。
总的来说，Java Low-Level Rest Client 捆绑比较低，主要用于开发者自己封装管理类库，而 Java High-Level Rest Client则提供了许多用于处理数据的帮助程序类，可以大大加速业务开发的进程。

Java High-Level Rest Client官方文档

4.0 前置知识

在体验RestClient之前，我们需要对依据MySQL中的表来创建索引库有一定程度的了解

创建索引库，最关键的是mapping映射，而mapping映射要考虑的信息包括：

字段名
字段数据类型
是否参与搜索
是否需要分词
如果分词，分词器是什么？

其中：

字段名、字段数据类型，可以参考数据表结构的名称和类型
是否参与搜索要分析业务来判断，例如图片地址，就无需参与搜索
是否分词呢要看内容，内容如果是一个整体就无需分词，反之则要分词
分词器，我们可以统一使用ik_max_word
什么情况需要分词

在 Elasticsearch 中，分词是将文本拆解为一段一段的单词或词汇的过程。对于需要被搜索、聚合¹、过滤的文本数据，需要使用分词来进行处理和索引，从而提高搜索的准确性和可靠性。
什么情况下不需要索引？
在 Elasticsearch 中，每个字段的 index 参数控制是否要对该字段进行索引。当 index 参数设置为 true 时，该字段将会被索引，可以进行全文搜索等相关操作。当 index 参数设置为 false 时，则意味着该字段不会被建立索引，也就不会被搜索、排序或聚合，只能被存储和请求。

一般来说：
1. 对于需要被搜索和过滤的字段，index 应该设置为 true。比如内容需要检索，日期需要筛选。
2. 对于不需要搜索、但是需要显示的字段，如用户的姓名、ID等，index 应该设置为 false。因为这样的字段不需要进行搜索和分析，可以减小索引的大小，提高检索效率。
同时请注意，设置 index 为 false 并不意味着该字段不能进行查询，只是该字段不能进行全文搜索、检索和聚合操作。如果对于不希望被搜索的敏感字段，可以考虑设置 index 为 false，但同时进行 store 参数设置为 true，即存储字段内容的值，避免对敏感数据的泄漏。或者也可以考虑使用加密等方式进行保护。
地址坐标

ES中支持两种地理坐标数据类型：
- geo_point：由纬度(latitude)和经度(longitude)确定的一个点。例如：“32.8752345,120.2981576”
- geo_shape：有多个 geo_point 组成的复杂几何图形。例如一线，“LINESTRING(-77.0365338.897676,-77.00905138.889939)”
copy_to

根据一个字段比根据一个字段搜的效率要高，但有时候在进行搜索时需要匹配多个或全部字段，此时一个一个字段进行查询会造成效率低下的情况。这时候可以使用 copy to 的方法，在索引时将多个字段的值合并成一个字段进行索引。这种方式在索引创建时将文本数据合并成一个字段，然后在搜索时只需要对一个字段进行搜索，从而提高了搜索速度和效率。这种方式的好处在于可以减少需要索引的字段数量，从而减小索引的大小，加快搜索速度。同时，使用 copy to 还可以简化查询语句，提高索引的可读性和可维护性。

需要注意的是，使用 copy to 的方法可能会增加索引时间和内存的消耗，因此需要权衡索引时间和查询效率的影响，在实际使用中选择合适的方法来进行数据处理。

字段拷贝可以使用copy_to属性将当前字段拷贝到指定字段。示例（将brand字段拷贝到all字段中）：

4.1 快速体验

示例

在Java中使用RestHighLevelClient创建索引库

搭建环境

初识化RestClient

创建索引库

Step1：环境搭建

1）创建数据库，导入数据

创建一个数据库，名称为heima，然后将课程资料中的SQL导入到该数据库中，

数据库的表结构如下所示：

CREATE TABLE `tb_hotel` (
  `id` bigint(20) NOT NULL COMMENT '酒店id',
  `name` varchar(255) NOT NULL COMMENT '酒店名称；例：7天酒店',
  `address` varchar(255) NOT NULL COMMENT '酒店地址；例：航头路',
  `price` int(10) NOT NULL COMMENT '酒店价格；例：329',
  `score` int(2) NOT NULL COMMENT '酒店评分；例：45，就是4.5分',
  `brand` varchar(32) NOT NULL COMMENT '酒店品牌；例：如家',
  `city` varchar(32) NOT NULL COMMENT '所在城市；例：上海',
  `star_name` varchar(16) DEFAULT NULL COMMENT '酒店星级，从低到高分别是：1星到5星，1钻到5钻',
  `business` varchar(255) DEFAULT NULL COMMENT '商圈；例：虹桥',
  `latitude` varchar(32) NOT NULL COMMENT '纬度；例：31.2497',
  `longitude` varchar(32) NOT NULL COMMENT '经度；例：120.3925',
  `pic` varchar(255) DEFAULT NULL COMMENT '酒店图片；例:/img/1.jpg',
  PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;

2）创建Maven工程，构建SpringBoot项目，导入依赖，编写application.yml配置文件

Step2：初始化 Java Rest Client

1）引入ES的Java Rest Hign Level Client依赖

<dependency>
    <groupId>org.elasticsearch.clientgroupId>
    <artifactId>elasticsearch-rest-high-level-clientartifactId>
dependency>

2）覆盖默认的ES版本

SpringBoot默认的ES版本是7.6.2，但我在Linux中安装的ES是7.12.1，所以需要进行版本覆盖

<properties>
    <java.version>1.8java.version>
    <elasticsearch.version>7.12.1elasticsearch.version>
properties>

3）初始化 Java Rest Hign Level Client

    @BeforeEach
    public void setUp(){
        this.restHighLevelClient = new RestHighLevelClient(RestClient.builder(
                HttpHost.create("http://192.168.88.130:9200")
        ));
    }

Step3：创建索引库

来看下酒店数据的索引库结构：
- 字段分析
  - id字段，在数据库中是long类型，但是ES中id一般都是字符串类型，而字符串类型有text（分词），keyword（不分词），显然文档id是不参与用户搜索（用户不可能直接输入id来搜索），所以type类型为keyword；又因为id要参与CRUD操作，所以需要index，index默认true即可
  - name字段，在数据库中是varchar类型，并且酒店名参与用户搜索，需要分词，所以为text；分词器统一采用ik_max_word，name参与了搜索所以需要index，默认为true即可
  - address字段，用户很少会根据地址搜索酒店（这个也可以分词，看具体场景吧，这里就参考一般情况），所以不需要分词，type为keyword，因为不参与搜索，不需要索引，所以index设置为false
  - price字段，参与排序、过滤等操作，所以需要分词，type为integer，同样需要索引，所以index默认为true
  - socre字段，参与求平均操作，所以需要分词，type为integer，index默认即可
  - brand字段，不参与搜索，所以不需要分词，type为keyword，但参与过滤，所以需要index
  - latitude字段在mysql中是varchar类型，但是在ES中有一个单独的数据类型 geo_point 用来存放地理坐标
  - copy to说明：由于name、brand、city等字段我们有时候需要一起来搜，为了提高效率，我们将他们统一拷贝到all字段中，然后ES会为all这个字段建立一个索引，此时搜索起来效率就会提高很多（类似于MySQL中的联合索引）
```
PUT /hotel
{
  "mappings": {
    "properties": {
      "id": {
        "type": "keyword"
      },
      "name":{
        "type": "text",
        "analyzer": "ik_max_word",
        "copy_to": "all"
      },
      "address":{
        "type": "keyword",
        "index": false
      },
      "price":{
        "type": "integer"
      },
      "score":{
        "type": "integer"
      },
      "brand":{
        "type": "keyword",
        "copy_to": "all"
      },
      "city":{
        "type": "keyword",
        "copy_to": "all"
      },
      "starName":{
        "type": "keyword"
      },
      "business":{
        "type": "keyword"
      },
      "location":{
        "type": "geo_point"
      },
      "pic":{
        "type": "keyword",
        "index": false
      },
      "all":{
        "type": "text",
        "analyzer": "ik_max_word"
      }
    }
  }
}
```
特殊字段说明：
- location：地理坐标，里面包含精度、纬度
- all：一个组合字段，其目的是将多字段的值利用copy_to合并，提供给用户搜索
上面的DSL语句只能在Kibana的DevTools工具中运行，如果我们想要在Java代码中运行，需要换种写法
```
    @Test
    public void createHotelIndex() throws IOException {
        // 创建Request对象（参数是要操作索引库的名称）
        CreateIndexRequest request = new CreateIndexRequest("hotel");
        // 准备请求参数（DSL语句）
        request.source(HotelConstants.MAPPING_TEMPLATE, XContentType.JSON);
        // 发送请求
        restHighLevelClient.indices().create(request, RequestOptions.DEFAULT);
    }
```
备注：HotelConstants.MAPPING_TEMPLATE是一个字符串，它就是上面的DSL语句

4.2 操作索引库

在4.1中我们学会了如何使用RestClient创建索引库，本小节我们将学习RestClient其它的API，比如：删除索引库、判断索引库是否存在

JavaRestClient操作elasticsearch的流程基本类似。核心是client.indices()方法来获取索引库的操作对象。

索引库操作的基本步骤：

初始化RestHighLevelClient
创建XxxIndexRequest。XXX是Create、Get、Delete
准备DSL（ Create时需要，其它是无参）
发送请求。调用RestHighLevelClient#indices().xxx()方法，xxx是create、exists、delete

删除索引库

    @Test
    void testDeleteHotelIndex() throws IOException {
        // 创建Request对象（参数是要操作索引库的名称）
        DeleteIndexRequest request = new DeleteIndexRequest("hotel");
        // 发送请求
        restHighLevelClient.indices().delete(request, RequestOptions.DEFAULT);
    }

判断索引库是否存在

    @Test
    void testExistsHotelIndex() throws IOException {
        // 创建Request对象（参数是要操作索引库的名称）
        GetIndexRequest request = new GetIndexRequest("hotel");
        // 发送请求
        boolean exists = restHighLevelClient.indices().exists(request, RequestOptions.DEFAULT);
        // 输出
        System.err.println(exists ? "索引库已经存在！" : "索引库不存在！");
    }

4.3 操作文档

文档操作的基本步骤：

初始化RestHighLevelClient
创建XxxRequest。XXX是Index、Get、Update、Delete、Bulk
准备参数（Index、Update、Bulk时需要）
发送请求。调用RestHighLevelClient#.xxx()方法，xxx是index、get、update、delete、bulk
解析结果（Get时需要）

4.3.1 新增文档

示例

我们要将 heima 这个数据库中的 hotel 表中的酒店数据查询出来，写入ES中

Step1：环境搭建

略……参考4.1的环境搭建
Step2：创建文档实体对象

我们从数据库查询出来的是一个Hotel类型的对象，它与我们在ES索引库中的数据类型和结构有一定程度差异，我们要将longitude和latitude需要合并为location，所以我们需要创建一个新的类 HotelDoc，用于对应ES索引库

Step3：新增文档

    @Test
    public void testAddDocument() throws IOException {
        // 根据id查询出酒店的数据
        Hotel hotel = hotelService.getById(36934L);
        // 将查询到的酒店数据转换成文档类型的数据
        HotelDoc hotelDoc = new HotelDoc(hotel);
        // 创建Request对象
        IndexRequest request = new IndexRequest("hotel").id(hotel.getId().toString());
        // 准备请求参数（DSL语句）
        request.source(JSON.toJSONString(hotelDoc), XContentType.JSON);
        // 发送请求
        restHighLevelClient.index(request, RequestOptions.DEFAULT);
    }

4.3.2 查询文档

示例

    @Test
    void testGetDocumentById() throws IOException {
        // 准备Request
        GetRequest request = new GetRequest("hotel", "36934");
        // 发送请求，得到响应
        GetResponse response = restHighLevelClient.get(request, RequestOptions.DEFAULT);
        // 解析响应结果
        String json = response.getSourceAsString();
        System.out.println(json);
        HotelDoc hotelDoc = JSON.parseObject(json, HotelDoc.class);
        System.out.println(hotelDoc);
    }

4.3.3 删除文档

    @Test
    public void testDeleteDocument() throws IOException {
        // 准备Request
        DeleteRequest request = new DeleteRequest("hotel", "36934");
        // 发送请求
        restHighLevelClient.delete(request, RequestOptions.DEFAULT);
    }

4.3.4 修改文档

在RestClient的API中，全量修改与新增的API完全一致，判断依据是ID：

如果新增时，ID已经存在，则修改（增量修改）
如果新增时，ID不存在，则新增（全量修改）

4.3.5 批量导入文档

RestClient提供BulkRequest用户进行批处理，其本质就是将多个普通的CRUD请求组合在一起发送

其中提供了一个add方法，用来添加其他请求：

可以看到，能添加的请求包括：

IndexRequest，也就是新增
UpdateRequest，也就是修改
DeleteRequest，也就是删除

因此Bulk中添加了多个IndexRequest，就是批量新增功能了。示例：

示例

利用BulkRequest批量将数据库数据导入到索引库中

    @Test
    public void testBulkRequest() throws IOException {
        // 批量查询酒店数据
        List<Hotel> hotels = hotelService.list();
        // 创建Request
        BulkRequest request = new BulkRequest();
        // 准备参数，添加多个新增的Request
        for (Hotel hotel : hotels) {
            // 转换为文档类型HotelDoc
            HotelDoc hotelDoc = new HotelDoc(hotel);
            // 创建新增文档的Request对象
            request.add(new IndexRequest("hotel")
                    .id(hotelDoc.getId().toString())
                    .source(JSON.toJSONString(hotelDoc), XContentType.JSON));
        }
        // 发送请求
        restHighLevelClient.bulk(request, RequestOptions.DEFAULT);
    }

常见的DSL语句

# 查询所有的索引库
GET _search
{
  "query": {
    "match_all": {}
  }
}

# 测试ES分词器对于中文的分词
POST /_analyze
{
  "text":"你好呀，ElasticSearch太优秀了！",
  "analyzer": "ik_smart"
}

# 测试添加了扩展词和禁用词
POST /_analyze
{
  "text":"嗯你好，鸡你太美，我们不能吸海洛因，但是可以白嫖黑马的Java课",
  "analyzer": "ik_smart"
}

# 创建索引库和映射
PUT /test
{
  "mappings": {
    "properties": {
      "info": {
        "type": "text",
        "analyzer": "ik_smart"
      },
      "email": {
        "type": "keyword",
        "index": false
      },
      "name": {
        "type": "object",
        "properties": {
          "firstName": {
            "type": "keyword"
          },
          "lastName": {
            "type": "keyword"
          }
        }
      }
    }
  }
}

# 查询
GET /test

# 新增字段
PUT /test/_mapping
{
  "properties": {
    "age": {
      "type": "integer"
    }
  }
}

# 删除索引库
DELETE /test

# 往test索引库中添加一个文档
POST /test/_doc/1
{
  "info":"往test索引库中添加一个文档",
  "email":"[email protected]",
  "name":{
    "firstName":"你",
    "lastName":"好"
  }
}

# 查询文档
GET /test/_doc/1

# 删除文档
DELETE /test/_doc/1

# 全量修改文档
PUT /test/_doc/2
{
  "info":"进行全量修改",
  "age":"18"
}

# 增量修改
POST /test/_update/1
{
  "doc":{
    "info":"增量修改"
  }
}

# 根据id查询文档
GET /hotel/_doc/1

# 查询索引库中所有的文档
POST hotel/_search
{
  "query": {
    "match_all": {}
  }
}

聚合：聚合操作包括求最大/小/平均值 ↩︎

你可能感兴趣的:(数据库,#,ElasticSearch,elasticsearch,搜索引擎,nosql)

【JDBC痛点终结者】MyBatis如何优雅解决传统数据库操作的七大难题码农技术栈 MyBatis 数据库 mybatis tomcat java 开发语言后端性能优化
你是否曾在JDBC的ResultSet和PreparedStatement的海洋中迷失方向？是否被无数重复的模板代码折磨得精疲力尽？本文将带你揭秘MyBatis如何优雅解决JDBC的痛点，让你告别繁琐，拥抱高效！一、先看一个真实场景：JDBCvsMyBatis1.JDBC实现用户查询//JDBC查询用户publicUserfindUserById(intid)throwsSQLException{
【MyBatis-Plus终极指南】十分钟搞定数据库操作！零基础也能玩转的MyBatis增强神器
是否厌倦了手写SQL的繁琐？MyBatis-Plus让数据库操作像呼吸一样简单！本文带你零基础掌握这个提升开发效率300%的神器~一、什么是MyBatis-Plus？1.1官方定义MyBatis-Plus（简称MP）是一个MyBatis的增强工具，在MyBatis的基础上只做增强不做改变，为简化开发、提高效率而生。它就像给MyBatis装上了涡轮增压引擎，让你的数据库操作飞起来！1.2核心定位My
资深php工程师必会必知架构深山技术宅 PHP 经验素养 php 架构开发语言
作为资深PHP工程师，必须掌握以下架构设计及核心组件，这些架构能力决定了系统能否支撑高并发、高可用及复杂业务场景：一、分层架构（基础但关键）经典三层模型HTTP请求SQL表示层业务逻辑层数据访问层数据库表示层：API网关（LaravelRoutes/SymfonyRouting）业务层：领域服务（DDD设计模式应用）数据层：Repository模式+Eloquent/DoctrineORM二、高性
在 Node.js 中如何使用 MongoDB 创建多个关联模型
在Node.js中使用MongoDB创建多个关联模型，通常是通过Mongoose来实现。Mongoose是一个基于Node.js的MongoDBODM（对象数据建模）库，它可以简化MongoDB数据库的操作，并且支持定义模型之间的关系，例如一对多（`one-to-many`）或多对多（`many-to-many`）关系。以下是如何在Node.js中使用Mongoose创建多个关联模型的示例：###
数据仓库技术及应用（Hive 产生背景与架构设计，存储模型与数据类型）娟恋无暇数据仓库笔记 hive
1.Hive产生背景传统Hadoop架构存在的一些问题：MapReduce编程必须掌握Java，门槛较高传统数据库开发、DBA、运维人员学习门槛高HDFS上没有Schema的概念，仅仅是一个纯文本文件Hive的产生：为了让用户从一个现有数据基础架构转移到Hadoop上现有数据基础架构大多基于关系型数据库和SQL查询Facebook诞生了Hive2.Hive是什么官网：https://hive.ap
C#与SQL Server交互的数据库技术实践不教书的塞涅卡
本文还有配套的精品资源，点击获取简介：本课程深入探讨C#与SQLServer数据库的交互技术，包括建立连接、执行SQL语句以及进行CRUD操作。详细介绍使用C#进行数据库操作时的核心概念与高级功能，如参数化查询、存储过程、事务处理、索引、视图和触发器等。旨在教授开发者如何高效、安全地管理和开发SQLServer数据库应用。1.C#与SQLServer的连接建立在现代软件开发中，后端服务经常需要与数
未来数据库硬件-网络篇数据库云计算架构
本文在绿泡泡“狗哥琐话”首发于2025.2.17<-关注不走丢。最近看到一篇不错的文章，叫做“ModernHardwareforFutureDatabases”，里面从几个方向讲了下现在数据库的硬件发展趋势，今天先来说说网络篇。内容中，一位大佬对（获过图灵奖的大佬）OLTP系统进行了一些基准测试，发现TCP-IP协议栈对于总体CPU使用率是占在47～68%。如果使用的网络带宽增加，这个开销还会提升
数据库的后悔药：Undo Log揭秘你一身傲骨怎能输游戏行业领域知识专栏撤销日志（Undo Log）
文章摘要撤销日志（UndoLog）是数据库的“后悔药”机制，用于保证数据操作的原子性和一致性。其核心原理是修改数据前先记录原始状态到UndoLog，若事务失败则进行回滚恢复。典型应用包括：1）事务回滚（如转账异常时还原数据）；2）并发控制（通过快照读提供多版本视图）。主流数据库如MySQLInnoDB和Oracle均采用该技术，其流程可概括为“先备份后修改，出错即还原”。简言之，UndoLog通过
基于虚拟化技术的网闸安全交换：物理隔离时代的智能数据流通引擎 109702008 #linux系统安全安全人工智能网络
摘要：在等保2.0和零信任架构背景下，传统网闸正从“物理断网”向“智能交换”演进。本文将深入解析如何通过硬件虚拟化+策略容器化在网闸内部实现安全数据交换，并提供工业级落地方案。一、痛点：隔离与效率的终极矛盾当企业面临以下场景时，传统网闸力不从心：生产网与办公网需实时同步数据库公有云与私有云间敏感文件传输多租户环境下跨安全域业务协同核心矛盾：物理隔离阻断攻击链的同时，也阻断了业务流！二、技术破局：虚
Python实例题：基于 Flask 的在线聊天系统
目录Python实例题题目要求：解题思路：代码实现：Python实例题题目基于Flask的在线聊天系统要求：使用Flask框架构建一个实时在线聊天系统，支持以下功能：用户注册、登录和个人资料管理一对一实时聊天功能群聊功能消息通知和未读消息提示在线用户状态显示使用Flask-SocketIO实现实时通信。使用SQLite数据库存储用户、聊天记录等信息。添加美观的前端界面，支持响应式设计。解题思路：使
xml文件笔记
今天学习了一下xml下面是总结的一些笔记Xml可以用来配置文件xml特点：Xml可以从HTYML中分离数据可以利用xml文件在不兼容的系统之间交换数据Xml数据以纯文本格式存储Xml与其他软硬件的耦合度更低，数据可以被更多的设备利用，还可以将XML文件当作数据源来处理，就像操作数据库一样Xml的格式在xml文件头部要有声明在XML中字母的大小写是敏感的Xml文件中有且只有一个根元素，所有的其他元素
oracle操作xml笔记 chushiyunen oracle xml 笔记
文章目录第一个例子EXTRACTVALUE()方法oracle这么成熟的数据库，肯定对xml有很好的支持了。第一个例子创建表：CREATETABLExml_table(idNUMBERPRIMARYKEY,xml_dataXMLType);插入数据：INSERTINTOxml_table(id,xml_data)VALUES(1,XMLType('Value'));查询：SELECTEXTRACT
在 Dify 平台中集成上下文工程技术由数入道人工智能数据库大数据人工智能软件工程 dify
1.提升LLM问答准确率的上下文构建与提示策略大语言模型在开放领域问答中常面临幻觉和知识过时等问题。为提高回答准确率，上下文工程的关键是在提示中注入相关背景知识与指导。具体策略包括：检索增强(RAG)：通过从知识库中检索相关内容并将其纳入提示，可以显著提升回答的准确性和可信度。Dify提供了知识检索节点，支持向量数据库存储外部知识，并将检索结果通过上下文变量注入LLM提示中。例如，在知识库问答应用
Entity Framework 实体数据模型入门：从创建到实战应用 Leon@Lee 数据库
EntityFramework（简称EF）作为.NET平台下的ORM（对象关系映射）框架，极大地简化了数据库操作。本文将由浅入深，带您一步步了解EF实体数据模型的创建、配置、开发与使用，即使是新手也能快速上手。一、EF与ADO.NET：为何选择EF？在介绍EF之前，我们先看看传统的数据访问方式与EF的区别：ADO.NET的局限：直接编写SQL语句操作数据库，需要手动处理类型转换、SQL拼接等问题，
爆改RAG！用强化学习让你的检索增强生成系统“开挂”——从小白到王者的实战指南许泽宇的技术分享人工智能
“RAG不准？RL来救场！”——一位被RAG气哭的AI工程师前言：RAG的烦恼与AI炼丹师的自我修养在AI圈混久了，大家都知道RAG（Retrieval-AugmentedGeneration，检索增强生成）是大模型落地的“万金油”方案。无论是企业知识库、智能问答，还是搜索引擎升级，RAG都能插上一脚。但你用过RAG就知道，理想很丰满，现实很骨感。明明知识库里啥都有，问个“量子比特的数学表达式”，
数据库连接池的作用是什么？破碎的天堂鸟学习教程数据库 oracle sql
数据库连接池（DatabaseConnectionPool）是一种核心的数据库资源管理技术，通过预先创建、复用和管理数据库连接，显著提升应用程序的性能、稳定性和资源利用率。其作用可归纳为以下核心维度：一、核心作用：提升系统性能与效率减少连接创建/销毁开销数据库连接的建立涉及TCP三次握手、身份验证、内存分配等操作，耗时约数十至数百毫秒。连接池在初始化时创建固定数量的连接（如minIdle），后续请
备份远程主机上mysql，mongodb上数据，在docker容器中导入酒千殇数据备份 docker mongodb mysql 数据备份 ubuntu
将远程机器中的mysql，mongodb数据备份到Ubuntu20.04中前提：一定要明确数据库的版本。已知：远程机器ip，mysql账号，密码。说明：以下命令均在Ubuntu20.04中执行查看远程mysql的版本：用mysqlworkbench连接上远程数据库。点击Query菜单，在空白框输入selectversion();在点击菜单栏中第二个闪电符号，执行这条命令。就可以在下面的输出中看到m
Java 工作中常用案例 qq_4240 java
1.LocalDateTime获取某月的第一天开始时间和最后一天的结束时间/***获取指定年和月的第一天和最后一天*应用：数据库同步，本地库和其他库按照月份分组统计后，两两比对后，得到不相同的月份，*根据月份的第一天和最后一天，查询两个库具体值，做交集或差集，然后得到未同步*的数据后同步数据*2022-12xx*2022-11xx*@parammonth2022-12*@return*/publi
深入理解数据库领域的 SQL 索引失效问题数据库管理艺术数据库 sql ai
深入理解数据库领域的SQL索引失效问题关键词：SQL索引、索引失效、查询优化、执行计划、数据库性能、B+树、索引选择性摘要：本文深入探讨SQL索引失效的核心问题，分析导致索引失效的8种典型场景及其背后的原理机制。通过B+树索引结构解析、执行计划解读和实际案例演示，帮助开发者全面理解索引失效的本质原因。文章提供详细的优化方案和最佳实践，包括索引设计原则、SQL编写规范以及性能调优技巧，并附有MySQ
搜索领域SEO进阶：内容优化与用户体验提升搜索引擎技术 ux ai
搜索领域SEO进阶：从关键词堆砌到用户价值——内容优化与体验升级的实战指南关键词SEO进阶、内容质量、用户体验、E-E-A-T、用户行为信号、结构化数据、页面速度优化摘要当“SEO=关键词堆砌”的时代成为历史，当搜索引擎算法从“识别文字”进化到“理解意图”，SEO从业者正面临一场从“技术投机”到“用户价值”的范式转移。本文将深度拆解搜索领域的进阶策略：从内容优化的核心逻辑（E-E-A-T框架、主题
2023年搜索领域的技术认证与职业发展指南搜索引擎技术搜索引擎 ai
2023年搜索领域的技术认证与职业发展指南关键词搜索领域、技术认证、职业发展、搜索引擎技术、人工智能搜索摘要本指南旨在为搜索领域的从业者和有志于进入该领域的人士提供全面的技术认证与职业发展参考。首先介绍搜索领域的概念基础，包括其历史发展和关键问题。接着阐述相关理论框架，分析不同认证背后的原理。架构设计部分展示搜索系统的组成与交互。实现机制探讨算法复杂度和代码优化。实际应用部分给出实施和部署策略。高
LRU缓存算法在搜索引擎中的应用数据结构与算法学习缓存算法搜索引擎 ai
LRU缓存算法在搜索引擎中的应用关键词：LRU算法、缓存淘汰、搜索引擎、哈希表、双向链表、性能优化、访问频率摘要：本文深入探讨了LRU(最近最少使用)缓存算法在搜索引擎中的关键应用。我们将从基本概念出发，通过生活化的比喻解释LRU的工作原理，分析其在搜索引擎架构中的具体实现方式，并通过Python代码示例展示如何构建一个高效的LRU缓存系统。文章还将讨论LRU算法的数学建模、实际应用场景以及未来发
掌握大数据领域数据湖的部署要点
掌握大数据领域数据湖的部署要点关键词：数据湖,大数据部署,数据治理,存储架构,元数据管理,数据质量,湖仓一体摘要：在数据爆炸的时代，企业面临着"数据多却用不好"的困境——结构化数据藏在数据库里，非结构化数据堆在服务器上，半结构化数据散落在日志文件中。数据湖就像一个"智能中央仓库"，能统一存储所有类型的数据，并通过灵活的管理让数据"活起来"。本文将用"图书馆管理员建仓库"的故事，从概念理解、架构设计
spring中@Transactional注解和事务的实战理解附代码 GJCTYU spring oracle 数据库 spring boot mybatis 后端
文章目录前言一、事务是什么？二、事务的特性2.1隔离性2.2事务的隔离级别三、@Transactional注解@Transactional注解简介基本用法常用属性配置事务传播行为事务隔离级别异常处理与回滚性能优化建议四、事务不生效的可能原因方法访问权限非public自调用问题异常被捕获未抛出数据库引擎不支持事务未启用事务管理特殊场景：final/static方法五、分布式事务考虑总结前言在开发过程
使用LIMIT + OFFSET 分页时，数据重复的风险码傻啦弟软件开发 oracle 数据库服务器
在使用LIMIT+OFFSET分页时，数据重复的风险不仅与排序字段的唯一性有关，还与数据变动（插入、删除、更新）密切相关。以下是详细分析：一、数据变动如何导致分页异常1.插入新数据场景：用户在浏览第1页时，数据库插入了新记录。问题：新记录可能会"挤入"已浏览过的页面，导致后续页出现重复数据。示例：sql--初始数据（按ID排序）IDName1Alice2Bob3Charlie--第1页：LIMIT
对加密字段进行模糊查询：基于分词密文映射表的实现方案大三小小小白数据库
引言在当今数据安全日益重要的背景下，数据库字段加密已成为保护敏感信息的常见做法。然而，加密后的数据给模糊查询带来了巨大挑战。本文将介绍一种基于分词密文映射表的解决方案，实现对加密字段的高效模糊查询。一、问题背景考虑一个用户管理系统，其中包含手机号、身份证号、住址等敏感信息。这些字段需要加密存储以保证安全，但同时业务上又需要支持模糊查询（如根据手机号前几位查询用户）。传统加密方式直接阻碍了模糊查询功
Spring Boot Flyway：数据库迁移工具集成 Java技术栈实战 spring boot 数据库网络 ai
SpringBootFlyway：数据库迁移工具集成全解析关键词：SpringBoot、Flyway、数据库迁移、版本控制、自动化脚本摘要：在团队协作开发中，数据库结构的变更管理一直是个“老大难”问题——手动执行SQL脚本容易漏操作、不同环境版本不一致、历史变更无法追溯……Flyway作为一款轻量级数据库迁移工具，能帮我们自动化管理数据库版本，就像给数据库“拍电影”，每一帧（每个版本）都清晰可查。
支持向量机（SVM）在肝脏CT/MRI图像分类（肝癌检测）中的应用及实现猿享天开医学影像支持向量机机器学习人工智能算法
博主简介：CSDN博客专家、CSDN平台优质创作者，高级开发工程师，数学专业，10年以上C/C++,C#,Java等多种编程语言开发经验，拥有高级工程师证书；擅长C/C++、C#等开发语言，熟悉Java常用开发技术，能熟练应用常用数据库SQLserver,Oracle,mysql,postgresql等进行开发应用，熟悉DICOM医学影像及DICOM协议,业余时间自学JavaScript,Vue,
aws 数据库迁移_AWS Loft的数据库周 dnc8371 数据库大数据 mysql java python
aws数据库迁移这是我的笔记：https://databaseweekoctober2019sf.splashthat.comAWS上的数据库：合适工作的合适工具在许多此类谈话中，我并没有做过深刻的记录。我正在关注重点。PostgreSQL排在MySQL之后。AWS上8种类型的数据库：关系型核心价值文件在记忆中图形搜索时间序列分类帐搜索：AWSDatabaseServices对于关系，他们有Ama
11.2.0.4 awr快照无法正常生成
某日检查数据库性能，发现数据库awr快照没有正常生成咨询supportsr执行如下脚本DearCustomer,1.Pleaseprovidethebelowscriptoutputoninstance3:conn/assysdbasetpages1000setnum20altersessionsetnls_date_format='yyyy-mm-ddhh24:mi:ss';altersessi
解线性方程组 qiuwanchi
package gaodai.matrix; import java.util.ArrayList; import java.util.List; import java.util.Scanner; public class Test { public static void main(String[] args) { Scanner scanner = new Sc
在mysql内部存储代码 annan211 性能 mysql 存储过程触发器
在mysql内部存储代码在mysql内部存储代码，既有优点也有缺点，而且有人倡导有人反对。先看优点： 1 她在服务器内部执行，离数据最近，另外在服务器上执行还可以节省带宽和网络延迟。 2 这是一种代码重用。可以方便的统一业务规则，保证某些行为的一致性，所以也可以提供一定的安全性。 3 可以简化代码的维护和版本更新。 4 可以帮助提升安全，比如提供更细
Android使用Asynchronous Http Client完成登录保存cookie的问题 hotsunshine android
Asynchronous Http Client是android中非常好的异步请求工具除了异步之外还有很多封装比如json的处理，cookie的处理引用 Persistent Cookie Storage with PersistentCookieStore This library also includes a PersistentCookieStore whi
java面试题 Array_06 java 面试
java面试题第一，谈谈final, finally, finalize的区别。 final-修饰符（关键字）如果一个类被声明为final，意味着它不能再派生出新的子类，不能作为父类被继承。因此一个类不能既被声明为 abstract的，又被声明为final的。将变量或方法声明为final，可以保证它们在使用中不被改变。被声明为final的变量必须在声明时给定初值，而在以后的引用中只能
网站加速 oloz 网站加速
前序:本人菜鸟，此文研究总结来源于互联网上的资料，大牛请勿喷！本人虚心学习，多指教. 1、减小网页体积的大小，尽量采用div+css模式，尽量避免复杂的页面结构，能简约就简约。 2、采用Gzip对网页进行压缩； GZIP最早由Jean-loup Gailly和Mark Adler创建，用于UNⅨ系统的文件压缩。我们在Linux中经常会用到后缀为.gz
正确书写单例模式随意而生 java 设计模式单例
　　单例模式算是设计模式中最容易理解，也是最容易手写代码的模式了吧。但是其中的坑却不少，所以也常作为面试题来考。本文主要对几种单例写法的整理，并分析其优缺点。很多都是一些老生常谈的问题，但如果你不知道如何创建一个线程安全的单例，不知道什么是双检锁，那这篇文章可能会帮助到你。　　懒汉式，线程不安全　　当被问到要实现一个单例模式时，很多人的第一反应是写出如下的代码，包括教科书上也是这样
单例模式香水浓 java
懒汉调用getInstance方法时实例化 public class Singleton { private static Singleton instance; private Singleton() {} public static synchronized Singleton getInstance() { if(null == ins
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" AdyZhang apache http server
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" 每次到这一步都很小心防它的端口冲突问题，结果，特意留出来的80端口就是不能用，烦。解决方法确保几处： 1、停止IIS启动 2、把端口80改成其它（譬如90，800，，，什么数字都好） 3、防火墙(关掉试试) 在运行处输入 cmd 回车，转到apa
如何在android 文件选择器中选择多个图片或者视频？ aijuans android
我的android app有这样的需求，在进行照片和视频上传的时候，需要一次性的从照片/视频库选择多条进行上传但是android原生态的sdk中，只能一个一个的进行选择和上传。我想知道是否有其他的android上传库可以解决这个问题，提供一个多选的功能，可以使checkbox之类的，一次选择多个处理方法官方的图片选择器(但是不支持所有版本的androi，只支持API Level
mysql中查询生日提醒的日期相关的sql baalwolf mysql
SELECT sysid,user_name,birthday,listid,userhead_50,CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')),CURDATE(), dayofyear( CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')))-dayofyear(
MongoDB索引文件破坏后导致查询错误的问题 BigBird2012 mongodb
问题描述： MongoDB在非正常情况下关闭时，可能会导致索引文件破坏，造成数据在更新时没有反映到索引上。解决方案：使用脚本，重建MongoDB所有表的索引。 var names = db.getCollectionNames(); for( var i in names ){ var name = names[i]; print(name);
Javascript Promise bijian1013 JavaScript Promise
Parse JavaScript SDK现在提供了支持大多数异步方法的兼容jquery的Promises模式，那么这意味着什么呢，读完下文你就了解了。一.认识Promises “Promises”代表着在javascript程序里下一个伟大的范式，但是理解他们为什么如此伟大不是件简
[Zookeeper学习笔记九]Zookeeper源代码分析之Zookeeper构造过程 bit1129 zookeeper
Zookeeper重载了几个构造函数，其中构造者可以提供参数最多，可定制性最多的构造函数是 public ZooKeeper(String connectString, int sessionTimeout, Watcher watcher, long sessionId, byte[] sessionPasswd, boolea
【Java命令三】jstack bit1129 jstack
jstack是用于获得当前运行的Java程序所有的线程的运行情况(thread dump），不同于jmap用于获得memory dump [hadoop@hadoop sbin]$ jstack Usage: jstack [-l] <pid> (to connect to running process) jstack -F
jboss 5.1启停脚本　动静分离部署 ronin47
以前启动jboss，往各种xml配置文件，现只要运行一句脚本即可。start nohup sh /**/run.sh -c servicename -b ip -g clustername -u broatcast jboss.messaging.ServerPeerID=int -Djboss.service.binding.set=p
UI之如何打磨设计能力? brotherlamp UI ui教程 ui自学 ui资料 ui视频
在越来越拥挤的初创企业世界里，视觉设计的重要性往往可以与杀手级用户体验比肩。在许多情况下，尤其对于 Web 初创企业而言，这两者都是不可或缺的。前不久我们在《右脑革命：别学编程了，学艺术吧》中也曾发出过重视设计的呼吁。如何才能提高初创企业的设计能力呢?以下是 9 位创始人的体会。 1.找到自己的方式如果你是设计师，要想提高技能可以去设计博客和展示好设计的网站如D-lists或
三色旗算法 bylijinnan java 算法
import java.util.Arrays; /** 问题：假设有一条绳子，上面有红、白、蓝三种颜色的旗子，起初绳子上的旗子颜色并没有顺序，您希望将之分类，并排列为蓝、白、红的顺序，要如何移动次数才会最少，注意您只能在绳子上进行这个动作，而且一次只能调换两个旗子。网上的解法大多类似：在一条绳子上移动，在程式中也就意味只能使用一个阵列，而不使用其它的阵列来
警告:No configuration found for the specified action: \'s chiangfai configuration
1.index.jsp页面form标签未指定namespace属性。  <%@taglib prefix="s" uri="/struts-tags"%> ... <s:form action="submit" method="post"&g
redis -- hash_max_zipmap_entries设置过大有问题 chenchao051 redis hash
使用redis时为了使用hash追求更高的内存使用率，我们一般都用hash结构，并且有时候会把hash_max_zipmap_entries这个值设置的很大，很多资料也推荐设置到1000，默认设置为了512，但是这里有个坑 #define ZIPMAP_BIGLEN 254 #define ZIPMAP_END 255 /* Return th
select into outfile access deny问题 daizj mysql txt 导出数据到文件
本文转自：http://hatemysql.com/2010/06/29/select-into-outfile-access-deny%E9%97%AE%E9%A2%98/ 为应用建立了rnd的帐号，专门为他们查询线上数据库用的，当然，只有他们上了生产网络以后才能连上数据库，安全方面我们还是很注意的，呵呵。授权的语句如下： grant select on armory.* to rn
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
<?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('This example should only be run from a Web Brows
美国电影超短200句 dcj3sjt126com 电影
1. I see．我明白了。2. I quit! 我不干了!3. Let go! 放手!4. Me too．我也是。5. My god! 天哪!6. No way! 不行!7. Come on．来吧(赶快)8. Hold on．等一等。9. I agree。我同意。10. Not bad．还不错。11. Not yet．还没。12. See you．再见。13. Shut up!
Java访问远程服务 dyy_gusi httpclient webservice get post
随着webService的崛起，我们开始中会越来越多的使用到访问远程webService服务。当然对于不同的webService框架一般都有自己的client包供使用，但是如果使用webService框架自己的client包，那么必然需要在自己的代码中引入它的包，如果同时调运了多个不同框架的webService，那么就需要同时引入多个不同的clien
Maven的settings.xml配置 geeksun settings.xml
settings.xml是Maven的配置文件，下面解释一下其中的配置含义： settings.xml存在于两个地方： 1.安装的地方：$M2_HOME/conf/settings.xml 2.用户的目录：${user.home}/.m2/settings.xml 前者又被叫做全局配置，后者被称为用户配置。如果两者都存在，它们的内容将被合并，并且用户范围的settings.xml优先。
ubuntu的init与系统服务设置 hongtoushizi ubuntu
转载自： http://iysm.net/?p=178 init Init是位于/sbin/init的一个程序，它是在linux下，在系统启动过程中，初始化所有的设备驱动程序和数据结构等之后，由内核启动的一个用户级程序，并由此init程序进而完成系统的启动过程。 ubuntu与传统的linux略有不同，使用upstart完成系统的启动，但表面上仍维持init程序的形式。运行
跟我学Nginx+Lua开发目录贴 jinnianshilongnian nginx lua
使用Nginx+Lua开发近一年的时间，学习和实践了一些Nginx+Lua开发的架构，为了让更多人使用Nginx+Lua架构开发，利用春节期间总结了一份基本的学习教程，希望对大家有用。也欢迎谈探讨学习一些经验。目录第一章安装Nginx+Lua开发环境第二章 Nginx+Lua开发入门第三章 Redis/SSDB+Twemproxy安装与使用第四章 L
php位运算符注意事项 home198979 位运算 PHP &
$a = $b = $c = 0; $a & $b = 1; $b | $c = 1 问a,b,c最终为多少? 当看到这题时，我犯了一个低级错误，误以为位运算符会改变变量的值。所以得出结果是1 1 0 但是位运算符是不会改变变量的值的，例如： $a=1;$b=2; $a&$b; 这样a,b的值不会有任何改变
Linux shell数组建立和使用技巧 pda158 linux
1.数组定义　　[chengmo@centos5 ~]$ a=(1 2 3 4 5) 　　[chengmo@centos5 ~]$ echo $a 　　1 　　一对括号表示是数组，数组元素用“空格”符号分割开。　　 2.数组读取与赋值　　得到长度：　　[chengmo@centos5 ~]$ echo ${#a[@]} 　　5 　　用${#数组名[@或
hotspot源码(JDK7) ol_beta java HotSpot jvm
源码结构图，方便理解： ├─agent Serviceab
Oracle基本事务和ForAll执行批量DML练习 vipbooks oracle sql
基本事务的使用：从账户一的余额中转100到账户二的余额中去，如果账户二不存在或账户一中的余额不足100则整笔交易回滚 select * from account; -- 创建一张账户表 create table account( -- 账户ID id number(3) not null, -- 账户名称 nam