lady_killer9

数据库-Elasticsearch进阶学习笔记（分片、映射、分词器、即时搜索、全文搜索等）

基础概念
- 定义
- 特点
- 索引(Index)
- - 分片(Shards)
  - 副本（Replicas）
  - 分配(Allocation)
- 映射(Mapping)
- - 动态映射
  - 显式映射
  - 常见数据类型
- 文档(document)
- 领域特定语言（DSL）
- - 分词器
  - 得分排序
- 后台执行的操作
深入搜索（实践）
- 数据添加
- - 创建索引及文档
- 结构化搜索
- - 单一过滤器（term）
  - 范围过滤器(range)
  - 组合过滤器（bool过滤器）
  - NULL值处理（exists）
- 全文搜索
- - 基于词项与基于全文
  - 匹配搜索（match）与操作符（operator）
  - 权重提升(boost)
- 多字段搜索
- - 最佳字段查询(dis_max与tie_breaker)
  - 多字段进行相同搜索（multi_match）
- 部分匹配
- - 输入即搜索(match_phrase_prefix)
  - 通配符搜索(wildcard)
  - 正则表达式搜索(regexp)
总结
附录
参考

本文基于数据库-ElasticSearch入门（索引、文档、查询），假设读者已学会安装ES，使用Postman和某语言的包或模块来对索引和文档进行基本的增删改查。

基础概念

定义

Elasticsearch 是一个开源的搜索引擎，建立在一个全文搜索引擎库 Apache Lucene基础之上。Elasticsearch 也是使用** Java** 编写的，它的内部使用 Lucene 做索引与搜索，但是它的目的是使全文检索变得简单，通过隐藏 Lucene 的复杂性，取而代之的提供一套简单一致的 RESTful API。

特点

一个分布式的实时文档存储，每个字段可以被索引与搜索
一个分布式实时分析搜索引擎
能胜任上百个服务节点的扩展，并支持 PB 级别的结构化或者非结构化数据

curl "http://localhost:9200/"
{
  "name" : "DESKTOP-BT64DM0",
  "cluster_name" : "elasticsearch",
  "cluster_uuid" : "Xk7sJl7OSei9DIyrn1G-vg",
  "version" : {
    "number" : "7.10.0",
    "build_flavor" : "default",
    "build_type" : "zip",
    "build_hash" : "51e9d6f22758d0374a0f3f5c6e8f3a7997850f96",
    "build_date" : "2020-11-09T21:30:33.964949Z",
    "build_snapshot" : false,
    "lucene_version" : "8.7.0",
    "minimum_wire_compatibility_version" : "6.8.0",
    "minimum_index_compatibility_version" : "6.0.0-beta1"
  },
  "tagline" : "You Know, for Search"
}

启动后访问9200端口，可以看到ES版本，集群名称，lucence版本等内容。
两个 Java 客户端都是通过 9300 端口并使用 Elasticsearch 的原生传输协议和集群交互。集群中的节点通过端口 9300 彼此通信。如果这个端口没有打开，节点将无法形成一个集群。

索引(Index)

可以创建索引时，携带请求体body，设置分片，mapping等

分片(Shards)

类似分表，进行容量扩展。ES可以将一个索引的分片放到不同的节点上，这样可以进行快速的分布式搜索。总的来说，分片可以

允许水平分分割/扩展容量。
允许进行分布式、并行的操作，提高吞吐量/性能。

副本（Replicas）

在一些情况下，可能导致某个节点/分片处于离线状态，为了保证出现故障时不影响服务，提出了副本，进行容灾备份，提供高可用性。

分配(Allocation)

master节点完成分配主分片和副本的过程。

映射(Mapping)

mapping是处理数据的方式和规则的限制。如字段的数据类型、是否被索引、分析器等。

动态映射

为了对新手友好一些，可以直接创建index，不用指定字段及类型，ES自动添加。

显式映射

了解字段类型之后，给不同的字段自定义数据类型，创建索引时进行指定。

PUT my-index
{
  "mappings": {
    "properties": {
      "city": {
        "type": "text",
        "fields": {
          "raw": { 
            "type":  "keyword"
          }
        }
      }
    }
  }
}

properties添加字段，fields使一个字段在不同类型搜索时是否可分析
city字段全文检索
city.raw字段是city的keyword版本，可被用于排序和聚合操作。
接下来先了解字段等概念，之后再配合搜索对映射进行深入理解。

常见数据类型

boolean：true、false
Numeric：
- byte：8位有符号整数
- short：16位有符号整数
- integer：32位有符号整数
- long、unsigned_long：有（无）符号64位整数
Keywords：
- keyword：用于结构化内容，例如 ID、电子邮件地址、主机名、状态代码、邮政编码或标签。
- constant_keyword：始终包含相同值的关键字字段。
- wildcard：非结构化，机器生成的长数据
date：日期，可使用format自定义
Range：
- integer_range：32位有字符整数，-2³¹ ~ 2³¹-1
- long_range：64位有符号整数
- double_range：64位IEEE754类型浮点数
- date_range：日期，可以使用format自定义格式
- ip_range：ipv4和ipv6均支持
Text：
- text：全文，一般是会进行分析和分析，邮件正文，商品描述等
- match_only_text：空间优化，禁用评分，适合日志消息。

文档(document)

_index：文档存放在的索引
_type：文档表示的对象类别，之前与关系型数据库的table对应，现在不再强调这个
_id：文档唯一标识
_version：版本，更新文档时，该字段会改变
_source：数据

领域特定语言（DSL）

使用 JSON 构造了一个请求。包含了filter range过滤器。

分词器

在全文检索情况下，对text等类型分词，方便建立倒排索引。常见的分词器有

ik分词器
icu分词器
smartcn分词器
pinyin分词器
更多分词器见参考，es官方github上有一些。腾讯云可支持大部分插件，点击ES集群->插件列表。如下图所示。

得分排序

按照相关性得分排序，一般使用TF-IDF算法（见参考，本文主要还是在ES实践方面，算法不赘述），通过_score返回得分

后台执行的操作

分配文档到不同的容器或分片中，文档可以储存在一个或多个节点中
按集群节点来均衡分配这些分片，从而对索引和搜索过程进行负载均衡
复制每个分片以支持数据冗余，从而防止硬件故障导致的数据丢失
将集群中任一节点的请求路由到存有相关数据的节点
集群扩容时无缝整合新节点，重新分配分片以便从离群节点恢复

深入搜索（实践）

ES，you know, for search, 搜索才是重点！！！

数据添加

索引heros，字段及类型如下：

name:keyword
age:byte
role:keyword
birthday:date
mail:text
hobby:text
sentence:text
数据如下：

name	age	role	birthday	mail	hobby	sentence
大乔	18	辅助	2003-11-10	[email protected]	写诗画画	诗是自由的载体
小乔	19	法师	2002-01-20	[email protected]	画画唱歌	Whenever you need me, I’ll be here.
孙策	25	坦克	1996-11-10	[email protected]	画画唱歌	我向往诗和远方，也不会忘记她和故乡
周瑜	23	法师	1998-01-20	[email protected]	写诗画画	Whenever you are in trouble,I’m always near.
刘备	30	打野	1991-10-20	[email protected]	兵法武器	Shi wo bu tai dong
孙尚香	26	射手	1995-10-20		兵法化妆	詩我不太懂

创建索引及文档

PUT /heros

这里使用的Kibana的DevTools，如果你看了ES系列第一篇文章，有白嫖腾讯云的ES集群，可以点击可视化配置，给Kibana配置公网白名单即可，由于我前面的文章还没有介绍Kibana的使用，你可以继续使用Postman、curl或elasticsearch-head插件来发起请求。

查看setting和mapping情况

GET /heros?pretty

添加一个文档

POST /heros/_doc/1001
{
  "name":"大乔",
  "age":18,
  "role":"辅助",
  "birthday":"2003-11-10",
  "mail":"[email protected]",
  "hobby":"写诗 画画",
  "sentence":"诗是自由的载体"
}

结果如下

再次查询mapping

可以看到ES自动添加了类型，但是与我们要求的不符合。有些不会自动分词，无法进行后序的搜索。
删除索引，再次添加

PUT /heros
{
  "settings": {
    "number_of_shards": 1,
    "number_of_replicas": 1
  },
  "mappings": {
    "properties": {
      "name":{
        "type": "keyword"
      },
      "age":{
        "type": "byte"
      },
      "role":{
        "type": "keyword"
      },
      "mail":{
        "type":"text"
      },
      "birthday":{
        "type":"date"
      },
      "hobby":{
        "type": "text"
      },
      "sentence":{
        "type":"text"
      }
    }
  }
}

之后添加文档，其他英雄的放在附录了，最终的索引应该如下图所示：

结构化搜索

结构化搜索（Structured search）是指有关探询那些具有内在结构数据的过程。比如日期、时间和数字都是结构化的：它们有精确的格式，我们可以对这些格式进行逻辑操作。
在结构化查询中，要么存于集合之中，要么存在集合之外。结构化查询不关心文件的相关度或评分；它简单的对文档包括或排除处理。

单一过滤器（term）

我们首先来看最为常用的 term 查询，可以用它处理数字（numbers）、布尔值（Booleans）、日期（date）等。
注意：ES5.0后，已经没有string类型了
警告：尽量不要用于text类型字段

查询角色是“法师”的英雄

GET /heros/_search
{
  "query":{
      "term":{
        "role":"法师"
      }
  }
}

结果如下图所示

多个精确值terms

查询角色是“法师”或“射手”的英雄

GET /heros/_search
{
  "query":{
      "terms":{
        "role":["法师","射手"]
      }
  }
}

结果如图所示

可以看到，多了射手角色的英雄。

范围过滤器(range)

{
	"range":{
		"field_name":{
		},
	}
}

对字段进行范围过滤，常用的如下

gt: > 大于（greater than）
lt: < 小于（less than）
gte: >= 大于或等于（greater than or equal to）
lte: <= 小于或等于（less than or equal to）

查询19<=age<25的英雄

GET /heros/_search
{
  "query": {
    "range":{
      "age":{
        "gte":19,
        "lt":25
      }
    }
  }
}

结果如下图所示

组合过滤器（bool过滤器）

将多个过滤器进行组组合

{
   "bool" : {
      "must" :     [],
      "must_not" : [],
      "should" :   [],
      "filter":[],
   }
}

must:所有语句必须匹配，相当于and
must_not：所有语句不能匹配，相当于not
should：至少有一个语句匹配，相当于or

查询角色是法师或辅助，年龄必须小于20，邮箱不能是新浪邮箱的英雄

GET /heros/_search
{
  "query": {
    "bool": {
      "must": {
        "range":{
          "age":{
            "lt":20
          }
        }
      },
      "must_not":
        {
          "match":{"mail":"@sina.com"}
        },
        "should": [
          {
            "term": {"role": "法师"}
          },
          {
            "term":{"role":"辅助"}
          }
        ]
    }
  }
}

看前面的数据可以发现，就剩大乔了，结果如下图所示

NULL值处理（exists）

查询有邮箱的英雄

GET /heros/_search
{
  "query": {
    "exists": {
      "field": "mail"
    }
  }
}

结果如下图所示

那么，如何查询不存在邮箱的英雄呢？之前有missing，现在不支持了，可以使用must_not进行嵌套

GET /heros/_search
{
  "query": {
    "bool": {
      "must_not": {
        "exists":{
          "field": "mail"
        }
      }
    }
  }
}

结果如下图所示

全文搜索

基于词项与基于全文

如 term 或 fuzzy 这样的底层查询不需要分析阶段，它们对单个词项进行操作。
像 match 或 query_string 这样的查询是高层查询，它们了解字段映射的信息

匹配搜索（match）与操作符（operator）

查询sentence中含诗的英雄

GET /heros/_search
{
  "query": {
    "match": {
      "sentence": "诗"
    }
  }
}

结果如下图所示

可以看到，评分语句更短的评分更高
多词搜索情况下
查询sentence中含“我诗”的英雄

GET /heros/_search
{
  "query": {
    "match": {
      "sentence": "我 诗"
    }
  }
}

结果如下图所示

可以看到有些只包含我或诗的内容也出来了，虽然排名落后，如何做到且呢，前面使用了must，这里使用operator实现

GET /heros/_search
{
  "query": {
    "match": {
      "sentence": {
        "query": "我 诗",
        "operator": "and"
      }
    }
  }
}

结果如下图所示

权重提升(boost)

查询sentence中必须包含"Whenever"，有"in"或者"be"的英雄

GET /heros/_search
{
    "query": {
        "bool": {
            "must": [
              {"match": {
                "sentence": "Whenever"
              }}
            ], 
            "should": [ 
                { "match": { "sentence": "in" }
                },
                { "match": { "sentence": "be"        }}
            ]
        }
    }
}

结果如下图所示

现要求含in的权重更高，也就是提高_score来提高搜索排名
boost默认为1，通过增加in的boost来提高in的排名

GET /heros/_search
{
    "query": {
        "bool": {
            "must": [
              {"match": {
                "sentence": "Whenever"
              }}
            ], 
            "should": [ 
                { "match": {
                  "sentence": {
                    "query": "in",
                    "boost": 2
                  }
                }
                },
                { "match": { "sentence": "be"        }}
            ]
        }
    }
}

结果如下图所示

多字段搜索

前面已经进行了简单的多字符串搜索，不过，还有一些多字段时复杂的搜索情况。

最佳字段查询(dis_max与tie_breaker)

查询爱好有诗，sentence（随便起的名字，可以理解为个性签名或一句话介绍）中有诗或她的英雄

GET /heros/_search
{
    "query": {
        "bool": {
            "should": [
                { "match": { "hobby": "诗" }},
                { "match": { "sentence":  "诗 她" }}
            ]
        }
    }
}

结果如下图所示

可以看到，第二个结果是我们更想得到的。bool会打两次分，再除以语句总数2，第一个结果hobby和sentence都有诗，导致第一个结果就靠前了，由于hobby和sentence的竞争关系，所以需要找到最佳匹配字段。
使用dis_max来得到想要的结果

GET /heros/_search
{
    "query": {
        "dis_max": {
            "queries": [
                { "match": { "hobby": "诗" }},
                { "match": { "sentence":  "诗 她" }}
            ]
        }
    }
}

结果如下图所示

tips：想要在bool和dis_max之间，可以使用tie_breaker参数，请读者自行深入了解。

多字段进行相同搜索（multi_match）

查询hobby或sentence中含诗的英雄，也就是对hobby sentence做同一搜索，如果写多个match会比较繁琐，可以采用multi_match，字段使用列表的方式填写多个即可。

GET /heros/_search
{
    "query": {
        "multi_match": {
            "query": "诗",
            "fields": ["hobby","sentence"]
    
        }  
      }
}

结果如下图所示

hobby和sentence都含诗的会排名靠前

部分匹配

即只输入一部分，也能匹配到，最经典的就是边输入边搜索，也。

输入即搜索(match_phrase_prefix)

现在很多搜索引擎都有用户边输入边提示的功能，不必等用户Enter，提高了用户体验
用户查询sentence，输入了when，查询此时的下拉框的结果

GET /heros/_search
{
    "query": {
        "match_phrase_prefix": {
          "sentence": {
            "query": "When"
          }
        }  
      }
}

结果如下图所示

通配符搜索(wildcard)

包含两个通配符"?“和”*"，? 匹配任意字符， * 匹配 0 或多个字符
搜索姓孙的英雄

GET /heros/_search
{
    "query": {
        "wildcard": {
          "name": "孙*"
        }  
      }
}

结果如下图所示

正则表达式搜索(regexp)

正则表达式更加的丰富，包含数字、特殊字符等
搜索邮箱含s、n，s在n前面的英雄

GET /heros/_search
{
    "query": {
        "regexp": {
          "mail": "s.*n.*"
        }  
      }
}

结果如下图所示

sunce符合，新浪邮箱也符合。

总结

本文讲了一些基础概念，深入研究了一些搜索（抛转引玉，官网还有很多搜索方式），本来想写集群的，白嫖腾讯云的只能固定三个节点，没法演示扩容之类的，下篇文章再说一下集群。
练习
查询角色是“坦克”的英雄？
查询年龄>18的“法师”英雄？
查询姓"孙"的且名字是两个字的英雄？

附录

POST /heros/_doc/1002
{
  "name":"小乔",
  "age":19,
  "role":"法师",
  "birthday":"2002-01-20",
  "mail":"[email protected]",
  "hobby":"画画 唱歌",
  "sentence":"Whenever you need me, I'll be here."
}

POST /heros/_doc/1003
{
  "name":"孙策",
  "age":25,
  "role":"坦克",
  "birthday":"1996-11-10",
  "mail":"[email protected]",
  "hobby":"画画 唱歌",
  "sentence":"我向往诗和远方，也不会忘记她和故乡"
}

POST /heros/_doc/1004
{
  "name":"周瑜",
  "age":23,
  "role":"法师",
  "birthday":"1998-01-20",
  "mail":"[email protected]",
  "hobby":"写诗 画画",
  "sentence":"Whenever you are in trouble,I'm always near."
}

POST /heros/_doc/1005
{
  "name":"刘备",
  "age":30,
  "role":"打野",
  "birthday":"1991-10-20",
  "mail":"[email protected]",
  "hobby":"兵法 武器",
  "sentence":"Shi wo bu tai dong"
}

POST /heros/_doc/1006
{
  "name":"孙尚香",
  "age":26,
  "role":"射手",
  "birthday":"1995-10-20",
  "hobby":"兵法 化妆",
  "sentence":"詩我不太懂"
}

参考

ES权威指南
ES Guide
ES中文社区
腾讯-ES服务产品文档
IK分词器
ICU分词器
smartcn分词器
TF-IDF与余弦相似性的应用（一）：自动提取关键词
更多ELK相关内容：数据库-ElasticSearch学习笔记_lady_killer9的博客-CSDN博客

喜欢本文的请动动小手点个赞，收藏一下，有问题请下方评论，转载请注明出处，并附有原文链接，谢谢！
如有侵权，请及时联系。如果您感觉有所收获，自愿打赏，可选择支付宝18833895206（小于），您的支持是我不断更新的动力。

Flink CDC MySQL同步MySQL错误记录 lingllllove flink mysql 大数据
FlinkCDC简介FlinkCDC（ChangeDataCapture）是一种高效的数据同步工具，利用Flink强大的实时流处理能力，从MySQL等数据库捕获数据变更，并将这些变更实时同步到目标数据库。本文将详细介绍FlinkCDCMySQL同步到MySQL时常见的错误记录及其解决方法。常见错误及解决方法1.连接错误错误信息：FailedtoconnecttoMySQLserver.可能原因：
MySQL备份策略（五）：LVM快照备份一万个大苹果自动化运维 mysql 数据库 lvm 运维
方法一：1.添加新的磁盘2.创建LVM并格式化3.将当前的mysql数据库迁移到逻辑卷上4.快照备份数据库5.测试快照备份方法二：（整理为脚本）1.将上面备份整理为脚本+Crontab计划任务定时完成备份数据文件要在逻辑卷上；此逻辑卷所在卷组必须有足够空间使用快照卷；数据文件和事务日志要在同一个逻辑卷上；MySQL数据lv和将要创建的快照要在同一vg，vg要有足够的空间存储。方法一：1.添加新的磁
mysql的timestamp类型_MySQL数据库中的timestamp类型与时区 weixin_39758696
MySQL的timestamp类型时间范围between'1970-01-0100:00:01'and'2038-01-1903:14:07'，超出这个范围则值记录为'0000-00-0000:00:00'，该类型的一个重要特点就是保存的时间与时区密切相关，上述所说的时间范围是UTC(UniversalTimeCoordinated)标准，指的是经度0度上的标准时间，我国日常生活中时区以首都北京所
MySQL表的创建实验谁把我睡的觉偷了xhxh mysql 数据库
创建并使用数据库mydb6_product。mysql>createdatabasemydb6_product;QueryOK,1rowaffected(0.01sec)mysql>usemydb6_product;Databasechanged新建employees表。对于gender，有默认值意味着不为空，在建表时可以选择不写notnull；mysql>createtableemployees
一种时序数据模式演化的跟踪与查询方法米朵儿技术屋智能科学与技术专栏分类学习数据挖掘
摘要在物联网与大数据应用蓬勃发展的背景下，各类感知设备产生海量的时序数据，设备管理软件版本的快速迭代导致时序数据的模式演化问题日益凸显.模式演化要求对数据模式进行版本管理，使数据进行模式变更时不产生信息损失，且支持对数据跨模式版本进行读写操作.结合流行的时序数据库管理系统，调研总结了各类数据库管理系统对模式演化的支持情况，对时序数据及其模式进行了形式化表述，对其模式演化的过程进行了分析，设计了一种
预约功能的知识整理 Bailey395 java servlet 数据库
前置知识如果项目为小程序的开发项目中：我们确定数据库中有的字段有:预约人姓名、手机号、家人名称、预约时间根据我们的经定一表必须要有的6个字段：主键、创建时间、修改时间、创建人、修改人、备注使用我们现在有的字段为：主键、预约人姓名、手机号、家人姓名、预约时间、创建时间、修改时间、创建人、修改人、备注预约的状态也有4种,具体如下:待报道预约成功后已完成取消过期所以，预约表中最终的表字段为：主键、预约人
oracle goldengate from mongodb to oracle的实时同步夹心饼2024 数据库运维案例分享 oracle mongodb 数据库
oraclegoldengatefrommongodbtooracle的实时同步近期因公司项目需要，需要将mongodb数据同步到oracle数据库，由于第一次接触到mongodb数据库同步到Oracle的项目，故没有主动获取数据，而且让对方工程师把mongodb数据同步到我方的mongodb数据库，为此新建了一个mongodb数据库。我方工程师把mongodb数据库同步到doris数据仓库。考虑
构建一个查询分析系统 AWsggdrg 数据库 python
技术背景介绍在构建一个查询分析系统时，需要能够加载文档、使用聊天模型、生成嵌入、创建向量存储并执行检索。这些过程的目标是将用户输入的查询优化，以实现更为精准的检索结果。本文将通过一个端到端的示例展示如何使用查询分析提升检索结果的相关性。我们将着眼于如何对LangChain的YouTube视频进行检索，并通过查询分析解决原始用户问题直接传递给搜索引擎时可能出现的失败模式。核心原理解析查询分析的核心在
MDX语言的数据类型 BinaryBardC 包罗万象 golang 开发语言后端
MDX语言的数据类型详解引言MDX（多维表达式）是一种用于查询和操作多维数据集的查询语言，广泛用于数据分析和商业智能领域。MDX语言的设计旨在帮助用户高效地从多维数据库（如MicrosoftSQLServerAnalysisServices）中提取和分析数据。随着数据量的不断增加和数据结构的日益复杂，MDX提供了一种强大的方式来处理和分析这些多维数据。在MDX中，数据类型是理解和使用该语言的基础，
《数据库学习之旅：探索数据的奥秘》 2301_82161368 oracle 数据库
在当今数字化的时代，数据库已成为信息管理和处理的核心基础设施。通过对数据库的学习和实践，我获得了许多宝贵的经验和深刻的认识。数据库就如同一座巨大的数据城堡，它有着严谨的结构和规则，却又充满了无限的可能。一开始，理解数据库的基本概念和原理并非易事，但随着逐步深入的学习，我渐渐揭开了它神秘的面纱。关系型数据库的表结构设计让我体会到了数据规划的重要性。合理地划分表、确定字段以及建立正确的关联关系，能够极
图书管理数据库简单sql语句空心木、 sql
已知某图书管理数据库有如下表格：用户表user、部门表dept、角色表role、图书表book、图书分类表book_classify、图书借阅表book_borrow、还书表book_return、借阅预约表book_appoint、图书遗失表book_lose;用户表user、部门表dept、角色表role、图书表book、图书分类表book_classify、图书借阅表book_borrow、
数据库高可用方案-09-数据库的灾难恢复演练老马啸西风 database mysql 数据库 oracle
数据库数据高可用系列数据库高可用方案-01-数据库备份还原方案数据库高可用方案-02-多机房部署数据库高可用方案-03-主备等高可用架构数据库高可用方案-04-删除策略数据库高可用方案-05-备份与恢复数据库高可用方案-06-监控与报警数据库高可用方案-07-一致性校验数据库高可用方案-08-多版本管理数据库高可用方案-09-数据库的灾难恢复演练数据库的灾难恢复演练数据库的灾难恢复演练是确保数据库
数据库高可用方案-05-备份与恢复老马啸西风 database mysql 数据库 oracle
数据库数据高可用系列数据库高可用方案-01-数据库备份还原方案数据库高可用方案-02-多机房部署数据库高可用方案-03-主备等高可用架构数据库高可用方案-04-删除策略数据库高可用方案-05-备份与恢复数据库高可用方案-06-监控与报警数据库高可用方案-07-一致性校验数据库高可用方案-08-多版本管理数据库高可用方案-09-数据库的灾难恢复演练数据库的备份与恢复数据库备份与恢复是数据库管理中至关
数据库高可用方案-07-一致性校验老马啸西风 database mysql 数据库 oracle
数据库数据高可用系列数据库高可用方案-01-数据库备份还原方案数据库高可用方案-02-多机房部署数据库高可用方案-03-主备等高可用架构数据库高可用方案-04-删除策略数据库高可用方案-05-备份与恢复数据库高可用方案-06-监控与报警数据库高可用方案-07-一致性校验数据库高可用方案-08-多版本管理数据库高可用方案-09-数据库的灾难恢复演练数据库的数据一致性校验数据库的数据一致性校验是指确保
数据库高可用方案-03-主备等高可用架构老马啸西风 database mysql 数据库架构
数据库数据高可用系列数据库高可用方案-01-数据库备份还原方案数据库高可用方案-02-多机房部署数据库高可用方案-03-主备等高可用架构数据库高可用方案-04-删除策略数据库高可用方案-05-备份与恢复数据库高可用方案-06-监控与报警数据库高可用方案-07-一致性校验数据库高可用方案-08-多版本管理数据库高可用方案-09-数据库的灾难恢复演练主备高可用架构主备高可用架构（Master-Slav
Python mysql数据库连接池戴** Python
最近在写一个Python的文本分析,需要大量的读取数据库(千万级别mysql)并进行更新操作,运行着程序发现一个问题,过了一会儿程序就报错说链接已经满了,或者是端口不可重复使用,因此我在网上找到了一个连接池的代码用于解决这个问题,在此处贴出代码本身是有配置文件的,因为我觉得在我的项目中不必要所以就删除了#!/usr/bin/envpython#-*-coding:utf-8-*-importpym
深入了解Text2SQL开源项目（Chat2DB、SQL Chat 、Wren AI 、Vanna） m0_74823983 开源 sql 人工智能
深入了解Text2SQL开源项目（Chat2DB、SQLChat、WrenAI、Vanna）前言1.Chat2DB2.SQLChat3.WrenAI4.Vanna前言在数据驱动决策的时代，将自然语言查询转化为结构化查询语言（SQL）的能力变得日益重要。无论是小型创业公司还是大型企业，都希望能够更轻松地从海量的数据中挖掘出有价值的见解。然而，对于那些不熟悉SQL或者数据库架构的用户来说，直接编写复杂
应学短视频App数据库表设计文档 2401_89285805 数据库
|:-:|:-:|:-:|:-:|:-:|:-:|:-:|:-:|:-:||1|id|int|10|0|N|Y||||2|username|varchar|20|0|N|N||||3|password|varchar|20|0|N|N|||ROPTABLEIFEXISTSadmin;CREATETABLEadmin(idintNOTNULLAUTO_INCREMENT,usernamevarcha
Mysql数据库和Sql语句 Jessica小戴数据库 mysql sql
数据库管理：sql语句：数据库用来增删改查的语句（重要）备份：数据库的数据进行备份主从复制、读写分离、高可用（重要）Mysql数据库和Sql语句一、Mysql数据库1、数据库：组织、存储、管理数据的仓库2、数据库的管理系统（DBMS）：实现对数据有效组织、管理和存取的系统软件3、数据库软件：mysql、oracle（大数据系统一般使用、大企业使用）、sql-server、MariaDB也是mysq
数据库管理语句分类旦沐已成舟数据库的日子数据库
1.SQL语句概述它是一种对关系型数据库中的数据进行定义和操作的语言，是大多数关系数据库管理系统所支持的工业标准语言。1.2SQL语句的分类分类说明涉及语句DDL数据定义语言create(创建)，alter（修改），delete（删除）等DCL数据控制语言grant（授权），revoke（权限回收），commit（提交），rollback（回滚）DML数据操作语言insert，delete，upd
【计算机视觉】人脸识别油泼辣子多加计算机视觉计算机视觉 opencv 人工智能
一、简介人脸识别是将图像或者视频帧中的人脸与数据库中的人脸进行对比，判断输入人脸是否与数据库中的某一张人脸匹配，即判断输入人脸是谁或者判断输入人脸是否是数据库中的某个人。人脸识别属于1：N的比对，输入人脸身份是1，数据库人脸身份数量为N，一般应用在办公室门禁，疑犯追踪；人脸验证属于1:1的比对，输入人脸身份为1，数据库中为同一人的数据，在安全领域应用比较多。一个完整的人脸识别流程主要包括人脸检测、
NAT静态原理NAT动态原理NAPT原理 aicc221016 计算机网络网络智能路由器
现网:环境dev开发环境，开发专用sit:测试环境。测试人员用的，需要的测试的代码，程序之类的都会在测试环境运行。pre:预生产环境。在版本最后上线之前会在预生产最后执行一遍。确保万无一失(狗头)运维，也有测试。prd:生产环境/现网:10运维人员。数据库3DBA数据库运维。100.00129.9999991201361.36私网访问公网的过程:百度192.168.233.10(主机ip)180.
家政招聘管理系统的设计与实现詹姆斯爱研究Java spring spring boot
摘要随着互联网技术的发展，搭建一个满足每个家庭对家政服务需求的人性化管理系统，不仅能为客户提供更广的查询求职者信息的服务，也为求职者提供了方便、快捷的应聘途径。求职者和招聘者可以在网上进行交流，招聘者和求职者也可以在系统中上传自己的要求和优势，不受时间可空间的局限。网上招聘与传统招聘相比范围更广，资源更丰富，可挑选机会多等优点。我的系统主要用Java编程语言和Oracle数据库作为基础开发的平台，
MPP（Massively Parallel Processing，大规模并行处理）架构唯心-fja 架构
MPP（MassivelyParallelProcessing，大规模并行处理）架构是一种数据库系统的设计模式，它允许数据处理任务在多个计算节点上并行执行。这种架构非常适合处理大规模数据集和执行复杂的查询操作。下面是一些关于MPP架构的关键概念和特点：MPP架构的特点并行处理：MPP架构的核心优势在于能够将数据处理任务分解并在多个节点上并行执行。每个节点都有自己的处理器、内存和本地存储，可以独立执
gaussdb大表查询性能慢的解决思路 _Evelyn 大数据 gaussdb
一、引言1.背景介绍数字化和智能化转型是经济发展的新动力。而面对国外对中国数据库市场的长期垄断，人们对于中国自研数据库的需求越来越普遍，高斯数据库成为许多企业的选择之一。在经营分析5G智慧加油站项目项目中，我接触到高斯数据库，并使用它来进行数据的存储和查询。高斯数据库是以PostgreSQL为内核进行开发的一款数据库产品，其具备了PostgreSQL的高并发特性，又具有很强的通用性，支持行和列两种
gds文件导出_GaussDB 200使用GDS服务导入导出数据 weixin_39576066 gds文件导出
GaussDB200支持将存在远端服务器上的TEXT、CSV和FIXED格式的数据导入到集群中。本文介绍使用GDS(GaussDataService)工具将远端服务器上的数据导入GaussDB200。环境如下表:1、准备源数据这里从PostgreSQL数据库中，使用copy命令导出一个csv格式的文件，如下：rhnschema=>copyrhnpackagefileto'/tmp/rhnpacka
mysql 用户名命名_MySQL命名、设计及使用规范《MySQL命名、设计及使用规范》 syzyzs mysql 用户名命名
数据库环境dev：开发环境，开发可读写，可修改表结构。开发人员可以修改表结构，可以随意修改其中的数据但是需要保证不影响其他开发同事。qa：测试环境，开发可读写，开发人员可以通过工具修改表结构。sim：模拟环境，开发可读写，发起上线请求时，会先在这个环境上进行预执行，这个环境也可供部署上线演练或压力测试使用。real：生产数据库从库(准实时同步)，只读环境，不允许修改数据，不允许修改表结构，供线上问
基于mybatis-plus实现的多租户架构叔叔很忙 java spring
整体概述多租户技术或称多重租赁技术，简称SaaS，是一种软件架构技术，是实现如何在多用户环境下（多用户一般是面向企业用户）共用相同的系统或程序组件，并且可确保各用户间数据的隔离性。多租户在数据存储上主要存在三种方案，独立数据库、共享数据库，独立Schema、共享数据库，共享Schema，共享数据表。独立数据库即一个租户一个数据库，这种方案的用户数据隔离级别最高，安全性最好，但成本较高。优点：为不同
MPP-大规模并行处理 quanzaiwoxin1
1、什么是MPP？MPP(MassivelyParallelProcessing)，即大规模并行处理，在数据库非共享集群中，每个节点都有独立的磁盘存储系统和内存系统，业务数据根据数据库模型和应用特点划分到各个节点上，每台数据节点通过专用网络或者商业通用网络互相连接，彼此协同计算，作为整体提供数据库服务。非共享数据库集群有完全的可伸缩性、高可用、高性能、优秀的性价比、资源共享等优势。简单来说，MPP
后端学习1.4： Mybatis-plus配置多租户 Congee_porridge 后端开发学习 mybatis java spring boot 后端
功能要求Mybatis-plus配置多租户。从header中的token获取租户信息；所有userController的数据库操作*不要*配置多租户，所有工作计划相关的数据库操作*需要*配置多租户，达成数据隔离。开发工具：IDEA技术：Springboot+MabtisPlus+Postman1、什么是多租户？多租户技术（多重租赁技术，简称saas），是一种软件架构技术；可以实现同一套程序下用户数
项目中枚举与注解的结合使用飞翔的马甲 java enum annotation
前言：版本兼容，一直是迭代开发头疼的事，最近新版本加上了支持新题型，如果新创建一份问卷包含了新题型，那旧版本客户端就不支持，如果新创建的问卷不包含新题型，那么新旧客户端都支持。这里面我们通过给问卷类型枚举增加自定义注解的方式完成。顺便巩固下枚举与注解。一、枚举 1.在创建枚举类的时候，该类已继承java.lang.Enum类，所以自定义枚举类无法继承别的类，但可以实现接口。
【Scala十七】Scala核心十一：下划线_的用法 bit1129 scala
下划线_在Scala中广泛应用，_的基本含义是作为占位符使用。_在使用时是出问题非常多的地方，本文将不断完善_的使用场景以及所表达的含义 1. 在高阶函数中使用 scala> val list = List(-3,8,7,9) list: List[Int] = List(-3, 8, 7, 9) scala> list.filter(_ > 7) r
web缓存基础：术语、http报头和缓存策略 dalan_123 Web
对于很多人来说，去访问某一个站点，若是该站点能够提供智能化的内容缓存来提高用户体验，那么最终该站点的访问者将络绎不绝。缓存或者对之前的请求临时存储，是http协议实现中最核心的内容分发策略之一。分发路径中的组件均可以缓存内容来加速后续的请求，这是受控于对该内容所声明的缓存策略。接下来将讨web内容缓存策略的基本概念，具体包括如如何选择缓存策略以保证互联网范围内的缓存能够正确处理的您的内容，并谈论下
crontab 问题周凡杨 linux crontab unix
一： 0481-079 Reached a symbol that is not expected. 背景： */5 * * * * /usr/IBMIHS/rsync.sh
让tomcat支持2级域名共享session g21121 session
tomcat默认情况下是不支持2级域名共享session的，所有有些情况下登陆后从主域名跳转到子域名会发生链接session不相同的情况，但是只需修改几处配置就可以了。打开tomcat下conf下context.xml文件找到Context标签,修改为如下内容如果你的域名是www.test.com <Context sessionCookiePath="/path&q
web报表工具FineReport常用函数的用法总结（数学和三角函数）老A不折腾 Web finereport 总结
ABS ABS(number):返回指定数字的绝对值。绝对值是指没有正负符号的数值。 Number:需要求出绝对值的任意实数。示例: ABS(-1.5)等于1.5。 ABS(0)等于0。 ABS(2.5)等于2.5。 ACOS ACOS(number):返回指定数值的反余弦值。反余弦值为一个角度，返回角度以弧度形式表示。 Number:需要返回角
linux 启动java进程 sh文件墙头上一根草 linux shell jar
#!/bin/bash #初始化服务器的进程PId变量 user_pid=0; robot_pid=0; loadlort_pid=0; gateway_pid=0; ######### #检查相关服务器是否启动成功 #说明： #使用JDK自带的JPS命令及grep命令组合，准确查找pid #jps 加 l 参数，表示显示java的完整包路径 #使用awk，分割出pid
我的spring学习笔记5-如何使用ApplicationContext替换BeanFactory aijuans Spring 3 系列
如何使用ApplicationContext替换BeanFactory？ package onlyfun.caterpillar.device; import org.springframework.beans.factory.BeanFactory; import org.springframework.beans.factory.xml.XmlBeanFactory; import
Linux 内存使用方法详细解析 annan211 linux 内存 Linux内存解析
来源 http://blog.jobbole.com/45748/ 我是一名程序员，那么我在这里以一个程序员的角度来讲解Linux内存的使用。一提到内存管理，我们头脑中闪出的两个概念，就是虚拟内存，与物理内存。这两个概念主要来自于linux内核的支持。 Linux在内存管理上份为两级，一级是线性区，类似于00c73000-00c88000，对应于虚拟内存，它实际上不占用
数据库的单表查询常用命令及使用方法(-) 百合不是茶 oracle 函数单表查询
创建数据库; --建表 create table bloguser(username varchar2(20),userage number(10),usersex char(2)); 创建bloguser表,里面有三个字段 &nbs
多线程基础知识 bijian1013 java 多线程 thread java多线程
一．进程和线程进程就是一个在内存中独立运行的程序，有自己的地址空间。如正在运行的写字板程序就是一个进程。 “多任务”：指操作系统能同时运行多个进程（程序）。如WINDOWS系统可以同时运行写字板程序、画图程序、WORD、Eclipse等。线程：是进程内部单一的一个顺序控制流。线程和进程 a. 每个进程都有独立的
fastjson简单使用实例 bijian1013 fastjson
一.简介阿里巴巴fastjson是一个Java语言编写的高性能功能完善的JSON库。它采用一种“假定有序快速匹配”的算法，把JSON Parse的性能提升到极致，是目前Java语言中最快的JSON库；包括“序列化”和“反序列化”两部分，它具备如下特征：
【RPC框架Burlap】Spring集成Burlap bit1129 spring
Burlap和Hessian同属于codehaus的RPC调用框架，但是Burlap已经几年不更新，所以Spring在4.0里已经将Burlap的支持置为Deprecated,所以在选择RPC框架时，不应该考虑Burlap了。这篇文章还是记录下Burlap的用法吧，主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成
【Mahout一】基于Mahout 命令参数含义 bit1129 Mahout
1. mahout seqdirectory $ mahout seqdirectory --input (-i) input Path to job input directory(原始文本文件). --output (-o) output The directory pathna
linux使用flock文件锁解决脚本重复执行问题 ronin47 linux lock　重复执行
linux的crontab命令，可以定时执行操作，最小周期是每分钟执行一次。关于crontab实现每秒执行可参考我之前的文章《linux crontab 实现每秒执行》现在有个问题，如果设定了任务每分钟执行一次，但有可能一分钟内任务并没有执行完成，这时系统会再执行任务。导致两个相同的任务在执行。例如： <? // test .php
java-74-数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 bylijinnan java
public class OcuppyMoreThanHalf { /** * Q74 数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 * two solutions: * 1.O(n) * see <beauty of coding>--每次删除两个不同的数字，不改变数组的特性 * 2.O(nlogn) * 排序。中间
linux 系统相关命令 candiio linux
系统参数 cat /proc/cpuinfo cpu相关参数 cat /proc/meminfo 内存相关参数 cat /proc/loadavg 负载情况性能参数 1）top M：按内存使用排序 P：按CPU占用排序 1：显示各CPU的使用情况 k：kill进程 o：更多排序规则回车：刷新数据 2）ulimit ulimit -a：显示本用户的系统限制参
[经营与资产]保持独立性和稳定性对于软件开发的重要意义 comsci 软件开发
一个软件的架构从诞生到成熟，中间要经过很多次的修正和改造如果在这个过程中，外界的其它行业的资本不断的介入这种软件架构的升级过程中那么软件开发者原有的设计思想和开发路线
在CentOS5.5上编译OpenJDK6 Cwind linux OpenJDK
几番周折终于在自己的CentOS5.5上编译成功了OpenJDK6，将编译过程和遇到的问题作一简要记录，备查。 0. OpenJDK介绍 OpenJDK是Sun（现Oracle）公司发布的基于GPL许可的Java平台的实现。其优点： 1、它的核心代码与同时期Sun（-> Oracle）的产品版基本上是一样的，血统纯正，不用担心性能问题，也基本上没什么兼容性问题；（代码上最主要的差异是
java乱码问题 dashuaifu java乱码问题 js中文乱码
swfupload上传文件参数值为中文传递到后台接收中文乱码在js中用setPostParams（{"tag" : encodeURI( document.getElementByIdx_x("filetag").value，"utf-8")}）; 然后在servlet中String t
cygwin很多命令显示command not found的解决办法 dcj3sjt126com cygwin
cygwin很多命令显示command not found的解决办法修改cygwin.BAT文件如下 @echo off D: set CYGWIN=tty notitle glob set PATH=%PATH%;d:\cygwin\bin;d:\cygwin\sbin;d:\cygwin\usr\bin;d:\cygwin\usr\sbin;d:\cygwin\us
[介绍]从 Yii 1.1 升级 dcj3sjt126com PHP yii2
2.0 版框架是完全重写的，在 1.1 和 2.0 两个版本之间存在相当多差异。因此从 1.1 版升级并不像小版本间的跨越那么简单，通过本指南你将会了解两个版本间主要的不同之处。如果你之前没有用过 Yii 1.1，可以跳过本章，直接从"入门篇"开始读起。请注意，Yii 2.0 引入了很多本章并没有涉及到的新功能。强烈建议你通读整部权威指南来了解所有新特性。这样有可能会发
Linux SSH免登录配置总结 eksliang ssh-keygen Linux SSH免登录认证 Linux SSH互信
转载请出自出处：http://eksliang.iteye.com/blog/2187265 一、原理我们使用ssh-keygen在ServerA上生成私钥跟公钥，将生成的公钥拷贝到远程机器ServerB上后,就可以使用ssh命令无需密码登录到另外一台机器ServerB上。生成公钥与私钥有两种加密方式，第一种是
手势滑动销毁Activity gundumw100 android
老是效仿ios，做android的真悲催！有需求：需要手势滑动销毁一个Activity 怎么办尼？自己写？不用~，网上先问一下百度。结果： http://blog.csdn.net/xiaanming/article/details/20934541 首先将你需要的Activity继承SwipeBackActivity，它会在你的布局根目录新增一层SwipeBackLay
JavaScript变换表格边框颜色 ini JavaScript html Web html5 css
效果查看：http://hovertree.com/texiao/js/2.htm代码如下，保存到HTML文件也可以查看效果： <html> <head> <meta charset="utf-8"> <title>表格边框变换颜色代码-何问起</title> </head> <body&
Kafka Rest : Confluent kane_xie kafka REST confluent
最近拿到一个kafka rest的需求，但kafka暂时还没有提供rest api（应该是有在开发中，毕竟rest这么火），上网搜了一下，找到一个Confluent Platform，本文简单介绍一下安装。这里插一句，给大家推荐一个九尾搜索，原名叫谷粉SOSO，不想fanqiang谷歌的可以用这个。以前在外企用谷歌用习惯了，出来之后用度娘搜技术问题，那匹配度简直感人。环境声明：Ubu
Calender不是单例 men4661273 单例 Calender
在我们使用Calender的时候，使用过Calendar.getInstance()来获取一个日期类的对象，这种方式跟单例的获取方式一样，那么它到底是不是单例呢，如果是单例的话，一个对象修改内容之后，另外一个线程中的数据不久乱套了吗？从试验以及源码中可以得出，Calendar不是单例。测试： Calendar c1 =
线程内存和主内存之间联系 qifeifei java thread
1， java多线程共享主内存中变量的时候，一共会经过几个阶段， lock:将主内存中的变量锁定，为一个线程所独占。 unclock:将lock加的锁定解除，此时其它的线程可以有机会访问此变量。 read:将主内存中的变量值读到工作内存当中。 load:将read读取的值保存到工作内存中的变量副本中。
schedule和scheduleAtFixedRate tangqi609567707 java timer schedule
原文地址：http://blog.csdn.net/weidan1121/article/details/527307 import java.util.Timer;import java.util.TimerTask;import java.util.Date; /** * @author vincent */public class TimerTest {
erlang 部署 wudixiaotie erlang
1.如果在启动节点的时候报这个错： {"init terminating in do_boot",{'cannot load',elf_format,get_files}} 则需要在reltool.config中加入 {app, hipe, [{incl_cond, exclude}]}, 2.当generate时，遇到： ERROR

数据库-Elasticsearch进阶学习笔记（分片、映射、分词器、即时搜索、全文搜索等）

目录

基础概念

定义

特点

索引(Index)

分片(Shards)

副本（Replicas）

分配(Allocation)

映射(Mapping)

动态映射

显式映射

常见数据类型

文档(document)

领域特定语言 （DSL）

分词器

得分排序

后台执行的操作

深入搜索（实践）

数据添加

创建索引及文档

结构化搜索

单一过滤器（term）

范围过滤器(range)

组合过滤器（bool过滤器）

NULL值处理（exists）

全文搜索

基于词项与基于全文

匹配搜索（match）与操作符（operator）

权重提升(boost)

多字段搜索

最佳字段查询(dis_max与tie_breaker)

多字段进行相同搜索（multi_match）

部分匹配

输入即搜索(match_phrase_prefix)

通配符搜索(wildcard)

正则表达式搜索(regexp)

总结

附录

参考

你可能感兴趣的:(数据库,elasticsearch,数据库,搜索引擎)

领域特定语言（DSL）