古城小栈

ElasticSearch 哪里不会点哪里

介绍

ElasticSearch是一个基于Lucene的搜索引擎以及存储引擎。
它提供了一个分布式的全文搜索引擎，其对外服务是基于RESTful web接口发布的。
Elasticsearch是用Java开发的应用，并作为Apache许可条款下的开放源码发布，是当前流行的企业级搜索引擎。
设计用于云计算中，能够达到近实时搜索，稳定，可靠，快速，安装使用方便。
官网https://www.elastic.co

Github 使用Elasticsearch搜索20TB的数据，包括13亿的文件和1300亿行的代码”。
Github在2013年1月升级了他们的代码搜索，由solr转为Elasticsearch，
目前集群规模为26个索引存储节点和 8个客户端节点（负责处理搜索请求）。

ELK，分别是 ES， Logstash、Kibana 。
在发展过程中新的成员Beats的加入，就形成了 Elastic Stack (生态圈)，
ES是该生态圈的基石，Kibana提供可视化操作， Logstash和 Beats可以对数据进行收集

在国内，阿里巴巴、腾讯、滴滴、今日头条、饿了么、360安全、小米，vivo 等诸多知名公司都在使用Elasticsearch。

ElasticSearch VS Solr

Solr是第一个基于Lucene核心库功能完备的搜索引擎产品，诞生远早于Elasticsearchs
当单纯的对已有数据进行搜索时，Solr更快。
当实时建立索引时， Solr会产生IO阻塞，查询性能较差，ES具有明显优势。
大型互联网公司，实际生产环境测试，ES的平均查询速度是 Solr的 50倍。

版本特性

6.x新特性

Lucene 7.x

新功能

跨集群复制 (CCR)

索引生命周期管理

SQL 的支持

更友好的升级及数据迁移

在主要版本之间的迁移更为简化，体验升级

全新的基于操作的数据复制框架，可加快恢复数据

性能优化

有效存储稀疏字段的新方法，降低了存储成本

在索引时进行排序，可加快排序的查询性能

7.x新特性

Lucene 8.0

重大改动， 废除单个索引下多Type 的支持

Security 功能免费使用

性能优化

8.x新特性

重大改动， 彻底删除 Type

默认开启安全配置

性能优化

应用场景

站内搜索

日志管理、分析

大数据分析

应用性能检测

机器学习

Docker 安装

ES 安装

docker pull elasticsearch:7.9.2

docker run -d --name esearch \
-e "ES_JAVA_OPTS=-Xms512m -Xmx512m" -e "discovery.type=single-node" \
-p 9200:9200 -p 9300:9300 \
elasticsearch:7.9.2

# 进入容器 进行 跨域配置
docker exec -it esearch /bin/bash
vi config/elasticsearch.yml
# 加入以下信息：
http.cors.enabled: true
http.cors.allow-origin: "*"

# 测试是否 成功启动： 访问elocalhost:9200 获得如下信息
{
  "name" : "bce8e8d3cddf",
  "cluster_name" : "docker-cluster",
  "cluster_uuid" : "chngjxFJTQStsI70tOn2HQ",
  "version" : {
    "number" : "7.9.2",
    "build_flavor" : "default",
    "build_type" : "docker",
    "build_hash" : "d34da0ea4a966c4e49417f2da2f244e3e97b4e6e",
    "build_date" : "2020-09-23T00:45:33.626720Z",
    "build_snapshot" : false,
    "lucene_version" : "8.6.2",
    "minimum_wire_compatibility_version" : "6.8.0",
    "minimum_index_compatibility_version" : "6.0.0-beta1"
  },
  "tagline" : "You Know, for Search"
}

ES可视化（ES-header）安装

docker pull mobz/elasticsearch-head:5-alpine

docker run -d --name es-head -p 9100:9100 mobz/elasticsearch-head:5-alpine

# 测试是否 成功启动： 访问elocalhost:9100 得到 UI界面

# ElasticSearch-head 在进行操作时 若不修改配置，会报 406错误码，
# 这里需要再对 ElasticSearch-head 进行 配置修改。
docker cp es-head:/usr/src/app/_site/vendor.js ./ # 因为该容器中没有vi，所以拷出来修改

vim vendor.js
### 修改一下两部分：
part1: 第6886行 contentType:"application/x-www-form-urlencoded"
       改为：contentType:"application/json;charset=UTF-8"
par2： 第7573行 var inspectData = s.contentType === "application/x-www-form-urlencoded" &&
       改为：var inspectData = s.contentType === "application/json;charset=UTF-8" &&

# 完成修改，将文件 复制回容器（即 覆盖掉同名文件）
docker cp ./vendor.js  es-head:/usr/src/app/_site

# 重启容器
docker restart es-head

# 浏览器在重新打开一下，别直接刷新，就可以操作ES了

重要概念

_倒排索引(反向索引)

全文检索：通过一个程序扫描文本中的每一个单词，针对单词建立索引，并保存该单词在文本中的位置、以及出现的次数。
.
倒排索引：通过搜索的关键字在倒排索引表中找到索引（id），然后再通过找到的索引在正排索引中找到数据。

例子：

正排索引

id	content
1001	my name is zhang san
1002	my name is li si

倒排索引（在正排索引的基础上通过全文检索创建出倒排索引表）

key	id
name	1001, 1002
zhang	1001

正排查找： id ===> value 通过索引找数据
倒排查找： value ===> id 通过关键字找索引，然后在通过索引找数据。

_ES文件目录结构

目录	描述
bin	脚本文件，包括启动ES、安装插件、运行、统计数据等
config	配置文件目录
jdk	java运行环境
data	默认的数据存放目录，包括节点、分片、索引、文档，生产环境需要修改
lib	es依赖的java类库
logs	日志文件存放路径，生产环境需要修改
modules	包含所有的ES模块
plugins	已经安装的插件目录

_ES主配置文件 elasticsearch.yml

cluster.name

当前节点所属集群名称，
多个节点如果要组成同一个集群，那么集群名称一定要配置成相同。
默认值elasticsearch，生产环境建议根据ES集群的使用目的修改成合适的名字。

node.name

当前节点名称，
默认值当前节点部署所在机器的主机名，所以如果一台机器上要起多个ES节点的话，需要通过配置该属性明确指定不同的节点名称。

path.data

配置数据存储目录，
比如索引数据等，默认值$ES_HOME/data，
生产环境下强烈建议部署到另外的安全目录，防止Es升级导致数据被误删除。

path.logs

配置日志存储目录，
比如运行日志和集群健康信息等，默认值$ES_HOME/logs，生产环境下强烈建议部署到另外的安全目录，
防止ES升级导致数据被误删除。

boostrap.memory_lock

ES启动时是否进行内存锁定，默认 true。
ES对于 内存的需求比较大，一般 生产环境建议配置大内存，
如果内存不足，容易导致内存交换到磁盘，严重影响ES的性能。
所以默认在启动时进行相应大小内存的锁定，如果无法锁定则会启动失败。

在 config/jvm.option 配置文件中， Xms和 Xmx设置成一样，但是不要超所主机内存的 50%

network.host

配置可以访问当前节点的主机。
默认值为仅本机访问，可以配置为0.0.0.0，表示所有主机均可访问。

http.port

对外提供服务的端口，默认是 9200

discovery.seed_hosts

配置参与集群节点发现过程的主机列表，
说白一点就是集群中所有节点所在的主机列表，可以是IP、域名。

cluster.initial_master_nodes

配置 ES集群初始化是参与 master 选举的节点名称列表，必须和 node.name配置一致。
ES集群首次构建完成后，应该将集群中所有节点的配置文件中的 clusterinitial_master_nodes配置项移除，
重启集群或者将新节点加入某个已存在的集群时切记不要设置该配置项。

_ES两个重要的端口

9200 是客户端访问 ES服务端的端口；
9300 是 ES 节点间交互的端口。

_分布式概念

cluster

cluster集群。ElasticSearch集群由一或多个节点组成，
其中有一个主节点，这个主节点是可以通过选举产生的，主从节点是对于集群内部来说的。
ElasticSearch的一个概念就是 去中心化，字面上理解就是无中心节点，这是对于集群外部来说的，
因为从外部看ElasticSearch集群，在逻辑上是个整体，你与集群中的任何一个节点通信和与整个ElasticSearch集群通信是等价的。
也就是说，主节点的存在不会产生单点安全隐患、并发访问瓶颈等问题。

shards

primary shard：代表索引的主分片，ElasticSearch可以把一个完整的索引分成多个primary shard，
这样的好处是可以把一个大的索引拆分成多个分片，分布存储在不同的ElasticSearch节点上，
从而形成分布式存储，并为搜索访问提供分布式服务，提高并发处理能力。
primary shard的 数量 只能在索引创建时指定，并且索引创建后不能再更改primary shard数量 (重新分片需要重新定义分片规则)。
primary shard的 数量 es5.x之后默认为5，es7.x默认为1。

replicas

replica shard：代表索引主分片的副本，ElasticSearch可以设置多个replica shard。可取值为0~n，默认为1。
replica shard的作用：

是提高系统的容错性，当某个节点某个primary shard损坏或丢失时可以从副本中恢复。

是提高ElasticSearch的查询效率，ElasticSearch会自动对搜索请求进行负载均衡，将并发的搜索请求发送给合适的节点，增强并发能力。

_和关系性数据库概念类比

mysql	数据库	数据表	记录	字段
ES	Index（索引）	Type（类型）	Document（文档）	Field

注意：在8.x之后，Type被砍掉以后，Index 既是数据库，又是数据表。

_插件安装

这里以安装分词器为例，至于什么是分词器，下面会进行解释说明。

在线安装

# 查看已经安装的插件
bin/elasticsearch-plugin list

# 安装 analysis-icu 插件， 重启ES生效
bin/elasticsearch-plugin install analysis-icu

# 卸载插件，重启ES生效
bin/elasticsearch-plugin remove analysis-icu

离线安装

下载相应的插件到本地，解压后，手动上传到 ES的 plugins目录，然后重启 ES就可以了。

_分词器

前面提到的全文检索就是通过分词器来完成的，
分词器是对文件进行字词划分的唯一单位。
ES默认的分词器是 standard 对中文不是太友好，分词的依据就是将单字拆分。
ik中文分词器是对中文比较有好的。

# 测试分词器 的分词 效果
POST 请求

/_analyze 请求路径

请求体：
{
	"analyzer": "icu_analyzer",
	"text":"我爱你中国"
}

ik分词器的测试：

一、粗粒度-少分次：一般用于 文章名称、人的姓名 等 不希望进一步拆分 的信息
POST  /_analyze
{
	"analyzer": "ik_smart",
	"text":"我爱你中国"
}
							分词效果： 我爱你中国 ===》 我爱你中国


二、细粒度-分多次：
{
	"analyzer": "ik_max_word",
	"text":"我爱你中国"
}
							分词效果： 我爱你中国 ===》 我爱你中国、我爱你、爱你、中国

在创建索引时可以指定分词器：

{
	"settings":{
		"index": {
			"analysis.analyzer.default.type": "ik_max_word"
		}
	}
}

_相关性和相关性计算——打分

这个地方对后面的布尔查询的算分有理解上的帮助。
.
搜索行为是用户和搜索引擎的交互，用户往往关心的是搜索结果的相关性。
搜索的相关性算分，描述的指标是返回的文档和关键字的匹配程度。
ES 会对每一个匹配查询的结果进行算分 _score. 打分的本质是排序，把符合预期的排在前面。
ES 5 之前算分的算法使用的是 TF-IDF，之后使用的是 BM 25，是对前者的优化。

TF-IDF

是一种用于信息检索和数据挖掘的常用加权技术。
是被公认的信息检索领域的最重要的发明。
其公式的三个决断算分结果的变量如下：

词频TF：对于某一条数据而言，检索词出现的频率越高，相关性越高。

逆向文本频率IDF：对于多条数据而言，检索词出现的频率越低，相关性越高。举例：
我们搜索： ES java，假如一共有10条数据，每条数据都有 ES信息，只有前两条有java信息，明显这里 ES的频率高于 java，但是 java的相关性要大于 ES。

字段长度归一值：为什么字段长度越短权重越高，因为字段越长越有出现信息冗余的可能，每个人组织语言的能力都是有一定缺陷的，话说的越多废话就越多。

BM25

BM25 优化 TF-IDF 算法，减少分数计算的资源损耗。
词频不断增加时， TF-IDF 算法的打出的分数是无限增加，而 BM25是趋近于一个数值。

索引index

一个索引就是一个 拥有几分相似特征 的文档的集合。
索引的命名必须全部是小写字母，不能以下划线开头。

索引主要有三个大属性（部分）组成：

aliases 别名

mappings 文档映射：
数据字段和字段类型的映射，创建索引的时候不设置，添加数据后会自动设置，当然也可以手动设置。

settings 设置：
设置索引相关的一些属性

mappings 文档映射

Mapping 类似数据库中的 schema的定义，作用如下:

定义索引中的字段名称

定义字段的数据类型，例如字符串，数字，布尔等

字段，倒排索引的相关配置(AnalyzedorNotAnalyzed,Analyzer)

Mapping映射分为动态和静态：

动态：
在关系数据库中，需要事先创建数据库，然后在该数据库下创建数据表，并创建表字段、类型、长度、主键等，最后才能基于表插入数据。
而Elasticsearch中不需要定义Mapping映射(即关系型数据库的表、字段等)，在文档写入Elasticsearch时，会根据文档字段自动识.

静态：
事先手动定义好映射。

动态映射的类型识别机制

JSON类型	ES类型
字符串	1- 匹配日期格式，设置为Date 2- 配置数据设置为float或long，默认关闭 3- 设置为Text，并且增加`keyword`字段
布尔值	boolean
浮点数	float
整数	long
对象	object
数组	由第一个非空元素决定
空值	忽略

Mapping生成之后，后期修改会怎么样？

新增字段

dynamic设为true时，一旦有新增字段的文档写入，Mapping也同时被更新

dynamic设为false，Mapping不会被更新，新增字段的数据无法被索引，但是信息会出现在source中

dynamic设置成strict(严格控制策略)，文档写入失败，抛出异常

// dynamic 设置为 true | false：
PUT /wtt/_mapping
{
	"dynamic": true
}

修改字段

倒排索引表一旦生成，就不允许修改，原因是修改字段的数据类型会导致已被索引的数据无法被搜索。
如果就是任性的想该字段，那么就重建索引呗。

// 重建索引
-- step1: 新建一个 静态索引，把之前的 索引的 数据 导入新的 索引中
POST /_reindex
{
	"source": {
		"index":"wtt"
	},
	"dest":{
		"index":"wtt2"
	}
}

-- step2: 删出原来的索引
DELETE /wtt

-- step3: 给新索引 起一个 老索引 的 别名
PUT /wtt2/_alias/wtt

让某个字段不被索引

PUT /wtt
{
	"mapping":{
		"properties": {
			"address": {
				"type":"text",
				"index":false  # address  不再被 索引了
			}
		}
	}
}

控制倒排索引记录的内容

记录内容：	doc id（文档id）	term frequency（词频）	term position（位置）	character offects（关联、影响）
docs	`y`	n	n	n
freqs	`y`	`y`	n	n
positions	`y`	`y`	`y`	n
offsets	`y`	`y`	`y`	`y`

说明： text类型默认记录 positions，其他默认记为 docs。

PUT /wtt
{
	"mappings": {
		"name": {
			"type": "text",
			"index_options": "offsets" // 这里指定 记录内容
		}
	}
}

对Null值的搜索

只有 keyword 类型支持 null_value 的设置。

PUT /wtt
{
	"mappings": {
		"name": {
			"type": "keyword",
			"null_value": "NULL" // 这样一来，该字段就可以 通过null值 搜索了
		}
	}
}

常见操作

创建

# PUT: 创建 shopping 索引
http://127.0.0.1:9200/shopping

# 指定 分片数 和 副本数
PUT /shopping
{
	"settings": {
		"number_of_shards": 3,  //分片
		"number_of_replicas": 2 //副本
	}
}

查看

# GET： 查看 指定 索引
http://127.0.0.1:9200/shopping

# 查看 索引 是否存在
HEAD	/shopping

# GET： 查看 全部 索引
http://127.0.0.1:9200/_cat/indices?v

删除

# DELETE
http://127.0.0.1:9200/shopping

编辑

PUT /shopping/_settings
{
	"index": {
		"number_of_replicas": 3 //副本
	}
}

文档

ES 是面向文档的，文档（不是字段）是可搜索数据的最小单位。
文档会被序列化为 JSON格式，保存在 ES中。
每一个文档都有一个唯一 ID，可以自动生成也可以手动指定。

文档元数据

_index：文档所属的索引名。
_type：文档所属的类名
_id：文档的唯一id
_source：文档的原始 json数据
version：文档的版本号，修改、删除操作会使得 version 自增1
seq_no : 修改、删除操作会使得 version 自增1
primary_term ：是纪元数据，每次分区选举都会自增1。即记录朝代的更替。

# seq_no 和 primary_term 属性 主要用来 并发场景下 修改文档， 是对 version 的优化
POST /wtt/_doc/11?if_seq_no=21&if_primary_term=6
{
	"name":"tom"
}

-- 说明：
只有id为11的文档 满足 seq_no==21   且 primary_term == 6
才会 进行 数据加入 的操作。

Request Body 文档查询方式

接下来重点讲解官方建议通过 request body 的方式进行查询，因为这种方式可以定义更加易读的 json格式。
但在此之前要先讲一下相关原理

ES检索原理

索引的原理

索引是加速数据查询的重要手段，其核心原理就是通过不不断的缩小想要获取数据的范围，来筛选出最终想要的结果。

磁盘IO 和预读

磁盘IO 是程序设计中非常昂贵的操作，也是影响程序性能的重要因素，
因此应当避免过多的磁盘IO，最直接有效的方式就是利用内存。
局部性原理告诉我们，当计算机访问一个地址的数据的时候，与其相邻的地址也会很快被访问到。
因此预读就是发生一次 IO时，不仅仅是度全当前的磁盘数据，而且把相邻地址的数据也读取到内存中。

上图主要为了说明两点：

磁盘IO的空间关系

查询数据的结果和词项-字典有直接的关系，而词项-字典的存储内容有分词器直接指定。
所以 查询数据的结果和分词器息息相关。

常用查询操作

全量查询 match_all

使用match_all，默认返回 10 条数据。
其原因是：如果全部数据有几十万条，一次性都查出来的话内存一下子会盛放不了导致宕机。

GET /wtt/_search
{
	"query":{
		"match_all": {
		
		}
	}
}

分页查询

size： limit

from：offset

GET /wtt/_search
{
	"query":{
		"match_all": {
		
		}
	}
	"size": 10,
	"from": 0
}

注意：
size 不可以无线增加，size 默认小于等于 10000，超过这个数会报错。
如果需要可以手动修改默认值，如下
PUT /wtt/_settings
{
 "index.max_result_window": "20000"
}
但是数据量需求过大的时候，不推荐修改上述配置，而是采用 scroll api，因为更高效。

分页查询 Scroll

改动 index.max_result_window 的大小，只能解决一时的问题，当数据持续增加时，
在查询 全量数据时，若超过手动指定的数据还是会报错。
最佳的方式还是采用 scroll api

# 查询命令中 新增 scroll=3m，说明采用 游标查询， 保持游标查询窗口 3分钟， 
# 即游标变量 中存储的地址信息 在3分钟后 被 垃圾回收机制 回收掉
# 实际使用中，为了减少 游标的查询次数，可以将 size 适当增加，例如500---2000
GET /wtt/_search?scroll=3m
{
	"query": {
		"match_all": {}
	},
	"size": 10
}
-- 查询结果 除了放回 前10条记录，还返回一个 游标ID值 _scroll_id


# 下一次查询， 只需要带上 上一次的 游标ID 就可以了， ES就知道 怎么查，查什么，查多少了
GET /_search/scroll
{
	"scroll": "2m",
	"scroll_id": "jfldJLJfldjfLJDfjldlFJljf453JLFJfjdljl"
}
-- 多次根据 scroll_id游标查询，知道没有 数据的返回 则 结束查询。  
-- 全量数据 用 游标查询 的好处：高效安全、限制单次对内存的 损耗。

排序和指定要返回的部分字段

GET /wtt/_search
{
	"query": {
		"match_all": {}
	},
	"sort": [
		{"age": "desc"}
	],
	"_source": ["name", "age"]
}

通过降低相关性实现更复杂的排序场景

我们知道，ES默认返回文档的顺序如果没有 sort的干预是采用打分排序的，
所以可以通过调整权重来干预打分机制，
在打分时， negative 部分的 query 会乘以 negative_boost的值，
negative_boost 的取值范围： 0—1

-- 例如： 我们搜索 苹果 关键字时， 我们希望 苹果手机  排在前面， 而 苹果水果 排在后面
GET /wtt/_search
{
	"query": {
		"boosting": {
			"positive":{ // 积极
				"match": { "content": "apple" }
			},
			"positive":{ // 消极， 该部分 会乘以 negative_boost的值
				"match": { "content": "pie" }
			},
			"negative_boost": 0.2
		}
	}
}

分词查询 match

match 在匹配时会对 所查找的关键字进行分词，然后再按关键字分词进行匹配查找。
match支持以下参数：

query：指定匹配的值

operator：匹配类型

and : 关键字的分词都要匹配上

or : 关键字的分词至少有一个能匹配上

minmum_should_match：最低匹配度，配合 or的情况，因为or默认是1个，该配置指定最少匹配的关键词数

GET /wtt/_search
{
	"query": {
		"match":{
			"film_name": {
				"query": "你好李焕英",
				"operator": "and"
			}
		}
	}
}

短语查询 match_phrase

match_phrase查询分析文本并根据分析的文本创建一个短语查询。
match_phrase 也会将管理子分词，但是匹配机制更严格：

分词结果必须都被匹配上。

分词结果的匹配顺序必须相同。

分词结果的匹配默认都是连续的。

-- 举例说明： 现ES存储一条文档， 字段address的内容是 “广州白云山” ===分词的顺序、结果为===>广州、白云山、白云

-- 查找1
GET /wtt/_search 
{
	"query": {
		"match_phrase": {
			"address": "广州白云山"
		}
	}
}

-- 查找2
GET /wtt/_search 
{
	"query": {
		"match_phrase": {
			"address": "广州白云"
		}
	}
}


--- 结果分析：
查找1 命中了数据， 查找2 没用命中一条数据。  
这只因为 查找2的 搜索词被  拆成了 广州、白云， 文档库中的 分词是： 广州、白云山、白云
虽然 满足 1、全命中	2、顺序相同 
但是不满足 3、连续， 明显 文档的分词 广州 和 白云 之前还隔着 一个 白云山。  

-- 解决方法：
通过 slop 参数 告诉 match_phrase 中间 隔 几个词 也可以认为是连续的
GET /wtt/_search 
{
	"query": {
		"match_phrase": {
			"address":  {
				"query": "广州白云",
				"slop": 1  // 这样一来 就能匹配上了
			}
		}
	}
}

多字段 multi_match

GET /wtt/_search
{
	"query": {
		"multi_match":{
			"query": "你好"，
			"fields": ["address", "name"]  // 这 俩字段 只要能 匹配上 你好 的 文档 都可以被命中
		}
	}
}

query_string

允许我们在单个查询字符串中指定 AND | OR | NOT 条件，
和 multi_match 一样支持多字段搜索。
和 match 类型，但是match 需要指定字段名， query_string在所有字段中搜索，范围更广。

注意：

查询的字段使用分词，就将查询条件分词查询。

查询的字段未使用分词，就将查询条件不分词查询。

不指定字段查询

GET /wtt/_search
{
	"query": {
		"query_string": {
			"query":"张三 OR 山东省"
		}
	}
}

指定单个字段查询

GET /wtt/_search
{
	"query": {
		"query_string": {
			"default_field": "name"
			"query":"张三 OR 李四"
		}
	}
}

指定多个字段查询

GET /wtt/_search
{
	"query": {
		"query_string": {
			"fields": ["name", "sex"]
			"query":"张三 OR (李四 AND 女)"
		}
	}
}

关键字查询 Term

term 是用来 精准查询 的，还可以用来查询没有被进行分词的数据类型。
term 是表达语义的最小单位。
match 匹配时会对关键词进行分词处理，然后在进行分词匹配。
而 term 不做分词处理，会直接对关键字进行匹配。
因此模糊查询的时候常用 match，精准匹配的时候常用 term。

类型的分词说明

在ES中， keyword、date、integer、long、double、boolean、ip 这些类型不会分词，
text类型会分词。

-- 查找1
GET /wtt/_search
{
	"query": {
		"term": {
			"address": {
				"value": "山东省临沂市"
			}
		}
	}
}

-- 查找2
GET /wtt/_search
{
	"query": {
		"term": {
			"address.keyword": {
				"value": "山东省临沂市"
			}
		}
	}
}

--- 结果说明：  
查找1 未命中数据， 查找2 命中数据

--- 原因解释：
term查询，不会对 山东省临沂市 进行分词， 而 address 的 text 类型 会对 山东省临沂市 ===分词为===> 山东省、临沂市。  
所以 待配的 词库中 没有 能和 山东省临沂市 匹配上的。

而 address 的 keyword 类型 不会对 山东省临沂市 进行分词为， 所以可以命中数据。  

所以 精准匹配的 时候 最好使用 keyword 类型

性能优化

精准匹配这一块是有个值得优化的点的，
每次查询数据 es对于每一个找到的结果数据都有一个分值计算，该分值体现了数据的匹配度。
在精准查询下，这个分值没有多大意义，所以去掉算分动作（毕竟有资源损耗）可以优化性能。
实现机制：

将query 转成 filter 就可以去掉算分动作 ， filter 可以有效利用缓存。

GET /wtt/_search
{
	"query": {
		"contant_score": {
			"filter":{
				"term": {
					"address.keyword": "山东省临沂市"
				}
			}
		}
	}
}

精准查询用的最多的常见

对bool、日期、数字、结构化的文本都可以利用 term 做精准匹配。

GET /wtt/_search
{
	"query": {
		"term": {
			"age": {
				"value": 18
			}
		}
	}
}

term 多值字段（数组）的处理

对于多值字段， term 查询是包含，而不是等于

-- 假设现在有两个文档：
{
	"name": "tom",
	"hobby"： ["篮球", "足球"]  // 多值字段
}

{
	"name": "cat",
	"hobby"： ["游泳", "篮球"]  // 多值字段
}

-- 多值字段的查询
GET /wtt/_search
{
	"query": {
		"term": {
			"hobby.keyword": {
				"value": "篮球"  // 可以命中以上 两条数据
			}
		}
	}
}

prefix 前缀搜索

它不会对关键字进行分词，查询的内容就是查找的前缀。
它的原理：遍历所有的倒排索引，比较每个 term（基本单位）的前缀是否能匹配上。
它的行为和过滤器很像，区别在于过滤器是可以被缓存的，它不行。

GET /wtt/_search
{
	"query": {
		"prefix": {
			"address": {
				"value": "山"
			}
		}
	}
}

wildcard 通配符查询

其工作原理和 prefix 相同，只不过它能支持更为复杂的模式

GET /wtt/_search
{
	"query": {
		"wildcard": {
			"address": {
				"value": "*东*"  // 可以命中 山东省
			}
		}
	}
}

范围查询 range

支持的范围描述关键字有：

gte：大于等于

lte：小于等于

gt：大于

lt：小于
-now ：当前时间

数值范围

GET /wtt/_search 
{
	"query": {
		"range": {
			"age": {
				"gte":15,
				"lte":35
			}
		}
	}
}

日期范围

GET /wtt/_search 
{
	"query": {
		"range": {
			"dates": {
				"gte":"now-2y", //大于 两年前
				"lte":"now-10m" //小于 10个月前 
			}
		}
	}
}

多id查询

ids 关键字：置为数组类型，用来根据一组 id 获取对应的多个文档。

GET /wtt/_search 
{
	"query": {
		"ids": {
			"values": [1,2,3]
		}
	}
}

模糊查询 fuzzy

在实际中，我们又是会打错字，从而导致搜索不到。
在ES中，使用 fuzziness 属性来进行模糊查询，来解决上述问题。

fuzzy 查询会用到两个很重要的参数：

fuzziness：输入的关键字通过几次可以转换为 ES中对应的字段

操作是指：新增、删除、修改，每次操作记为 1步

该参数值默认为 0，即不开启模糊查询。

prefix_length: 表示关键字和 ES中字段的开头前几个字符必须完全匹配，不可出错

默认值为0

加大该值可以提高匹配准确率

GET /wtt/_search 
{
	"query": {
		"fuzzy": {
			"address": {
				"value": "山冬省"  
				"fuzziness": 1 // 可以命中 山东省
			}
		}
	}
}

注意：摸出查询的最大模糊错误必须在 0–2之间

关键字长度	是否允许存在模糊	模糊次数
2	不允许
3-5	允许	1
大于5	允许	2

高亮查询

hightlight 关键字可以让符合条件的数据高亮。
其相关属性：

pre_tags 前缀标签

post_tags 后缀标签

tags_schema 设置为 styled 可以使用内置高亮样式

require_field_match 多字段高亮需要设置为 false

GET /wtt/_search 
{
	"query": {
		"fuzzy": {
			"address": {
				"value": "山冬省"  
				"fuzziness": 1 
			}
		}
	},
	"highlight": {
		"fields": {
			"*"{}  // 此时的高亮字段 就是 查询匹配字段  address
		}
	}
}


-- 可以自定义 高亮样式 且 多字段 高亮
GET /wtt/_search 
{
	"query": {
		"fuzzy": {
			"address": {
				"value": "山冬省"  
				"fuzziness": 1 
			}
		}
	},
	"highlight": {
		"pre_tags": [""],
		"post_tags": ["
"],
		"fields": {
			"name":{} ,  // 也可以是 没有 查找匹配的 文档字段
			"address":{} 
		}
	}
}

布尔查询 bool query

一个 bool 查询是一个 or 多个查询子句的组合，总共包括 4 种句子。
其中 2 种会影响打分， 2种不影响打分。

子句类型	相当于	匹配说明	是否贡献算分
must	&&	必须匹配	贡献
should	\|\|	选择性匹配	贡献
must_not	！	必须不能匹配	不
filter		必须匹配	不

在ES中，有 Query 和 Filter 两种不同的 Context

Query Context：相关性算法

Filter Context：不需要算法，可以利用 cache，获得更好的性能

子查询可以任意顺序出现，
可以嵌套多个查询，

GET /wtt/_search 
{
	"query": {
		"bool": {
			"must": [
				{ "term": { "sex": { "value": 1 } }},
				{ "match": { "address": "山东临沂" }}
			]， 
			
			"shuold": [
				{ "term": { "sex": { "value": 1 } }},
				{ "match": { "address": "山东临沂" }}
			],
			"minimum_should_match": 1 // shuold 下的俩个条件 至少满足 1 个
		}
	}
}

演示一下 bool 嵌套

GET /wtt/_search 
{
	"query": {
		"bool": { // 第一层
			"must": [
				{ 
					"bool": { // 第二层
						"must": [
							{ "term": { "sex": { "value": 1 } }},
							{ "match": { "address": "山东临沂" }}
						]
					}
				}
			]
		}
	}
}

聚合查询

{
    "aggs":{ // 聚合操作
        "price_group":{ // 名称，自定义
            "avg":{ // 平均值
                "field":"price" // 分组字段
            }
        }
    }
}

你可能感兴趣的:(elasticsearch,大数据,全文检索,搜索引擎)

IDC权威认证！永洪科技入选 IDC「GBI图谱」，点亮生成式 BI 价值灯塔永洪科技科技人工智能 BI 大数据数据分析
大数据市场正在稳步前进，生成式AI已成为厂商服务的重点方向，其发展离不开数据底座建设和数据工程管理，反过来AI也会帮助开发运维人员、业务人员和管理层更好地使用、查询数据。IDC调研数据显示，在生成式AI的驱动下，未来5年企业在数据管理和数据分析基础设施建设的投资增长率将分别达到8.7%和9.2%。近日，国际咨询机构IDC发布了《中国数据智能市场生态图谱V5.0》，在这一领域，永洪科技以其创新前沿的
打造金融数据新引擎，看永洪科技助力头部农信社搭建一站式分析平台永洪科技金融数据可视化 BI 数据分析大数据
在数字化转型的浪潮中，金融行业作为经济发展的核心引擎，正加速探索数字化、智能化的新路径。永洪科技，近日成功助力某省农村信用社联合社（简称：Z企业）完成了其数字化转型的重要一步，通过部署先进的商业智能解决方案，为Z企业的业务升级与效能提升注入了强劲动力。随着智能金融时代的来临，以大数据、人工智能、移动互联等新兴技术为核心的金融科技持续赋能银行金融业务数字化、智能化、开放化的发展，为金融机构营销体系的
读书笔记五 ---大数据之路--数仓分层 qq_38215991 big data 大数据
数据分层在流式数据模型中,数据模型整体上分为五层。ODS层跟离线系统的定义一样,ODS层属于操作数据层,是直接从业务系统采集过来的最原始数据（进行了数据清洗）,包含了所有业务的变更过程,数据粒度也是最细的。在这一层,实时和离线在源头上是统一的,这样的好处是用同一份数据加工出来的指标,口径基本是统一的,可以更方便进行实时和离线问数据比对。例如:原始的订单变更记录数据、服务器引擎的访同日志。（原始数据
使用LangGraph迁移MapReduceDocumentsChain进行长文档的摘要 dgay_hua python
在大数据处理和文本分析领域，MapReduce是一种非常重要的策略，用于处理和分析大型数据集。具体到文本处理方面，MapReduceDocumentsChain구현了一种map-reduce策略，可以有效地处理长文本。本文将介绍如何从MapReduceDocumentsChain迁移到LangGraph，并探讨LangGraph在流处理、检查点恢复等方面的优势。技术背景介绍MapReduceDoc
Python用Bokeh处理大规模数据可视化的最佳实践一键难忘 Bokeh python 开发语言
用Bokeh处理大规模数据可视化的最佳实践在大规模数据处理和分析中，数据可视化是一个至关重要的环节。Bokeh是一个在Python生态中广泛使用的交互式数据可视化库，它具有强大的可扩展性和灵活性。本文将介绍如何使用Bokeh处理大规模数据可视化，并提供一些最佳实践和代码实例，帮助你高效地展示大数据集中的重要信息。1.为什么选择Bokeh？Bokeh是一个专为浏览器呈现而设计的可视化库，它支持高效渲
分页优化之——游标分页 PhilipJ0303 Java面试 java 数据库优化游标分页分页查询
游标分页（Cursor-basedPagination）是一种高效的分页方式，特别适用于大数据集和无限滚动的场景。与传统的基于页码的分页（如page=1&size=10）不同，游标分页通过一个唯一的游标（通常是时间戳或唯一ID）来标记分页的位置，避免了传统分页在数据变动时的重复或遗漏问题。以下是游标分页在前后端的实现方式：1.游标分页的核心概念游标（Cursor）：游标是一个唯一标识符，通常是数据
Hadoop 集群规划与部署最佳实践 AI天才研究院 Python实战 DeepSeek R1 &大数据AI人工智能大模型自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介2009年2月2日，ApacheHadoop项目诞生。它是一个开源的分布式系统基础架构，用于存储、处理和分析海量的数据。Hadoop具有高容错性、可靠性、可扩展性、适应性等特征，因而广泛应用于数据仓库、日志分析、网络流量监测、推荐引擎、搜索引擎等领域。由于Hadoop采用“分而治之”的架构设计理念，因此可以轻松应对数据量、计算能力和存储成本的增长。2013年底，
JAVA代码实现ElasticSearch搜索（入门-进阶）(一):搜索方法、多字段查询、高亮展示 majunssz elasticsearch elasticsearch
一、搜索方法对比首先存入一条数据count="ilikeeatingandkuing"默认分词器应该将内容分为“i”“like”“eating”“and”“kuing”1.QueryBuilders.matchQuery("count",count);会将搜索词分词，再与目标查询字段进行匹配，若分词中的任意一个词与目标字段匹配上，则可查询到。count="i"可查出count="ili"可查出co
轻松入门Apache SeaTunnel：数据集成利器窝窝和牛牛 SeaTunnel ETL 数据集成
文章目录轻松入门ApacheSeaTunnel：数据集成利器什么是SeaTunnel基本原理运行流程SeaTunnelvsDataX：两大数据集成工具对比实战场景：MySQL数据同步至ElasticsearchSeaTunnel实现方案DataX实现方案实现原理对比底层依赖环境方案优缺点分析快速上手环境准备简单示例总结轻松入门ApacheSeaTunnel：数据集成利器什么是SeaTunnelAp
java毕业设计，网上商城系统爱编程的小哥 java毕设 java 课程设计 spring boot vue
️OnlineMall商城系统全解析|Vue3+SpringBoot全栈实战（附高并发与数据安全方案）一、系统架构全景基于七张效果图分析，该系统是企业级电商综合管理平台，采用SpringBoot3+Vue3+ElementPlus+MyBatisPlus技术栈，覆盖商品管理、订单处理、会员运营等核心场景。通过RBAC权限控制+Elasticsearch搜索+分布式事务三大技术亮点，支持10万级商品
探索数据安全新境界：Apache Spark SQL Ranger Security插件深度揭秘乌昱有Melanie
探索数据安全新境界：ApacheSparkSQLRangerSecurity插件深度揭秘项目地址:https://gitcode.com/gh_mirrors/sp/spark-ranger随着大数据的爆炸性增长，数据安全性成为了企业不可忽视的核心议题。在这一背景下，【ApacheSparkSQLRangerSecurityPlugin】以其强大的数据访问控制能力脱颖而出，成为数据处理领域的明星级
Java 大视界 -- Java 大数据在智能医疗远程会诊与专家协作中的技术支持（146）青云交大数据新视界 Java 大视界 java 大数据智能医疗远程会诊专家协作数据安全病例诊断
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
通过 Kibana 操作 Elasticsearch：从入门到实践格子先生Lab elasticsearch 大数据搜索引擎
引言Kibana是Elasticsearch的可视化工具，提供了一个用户友好的界面来管理和操作Elasticsearch中的数据。通过Kibana，你可以轻松地执行数据搜索、创建可视化图表、构建仪表盘等操作。本文将带你从零开始学习如何通过Kibana操作Elasticsearch，掌握其基本功能和进阶操作。1.Kibana简介1.1什么是Kibana？Kibana是一个开源的数据可视化工具，专为E
同步MySQL数据至Elasticsearch：go-mysql-elasticsearch实战指南吴镇业
同步MySQL数据至Elasticsearch：go-mysql-elasticsearch实战指南go-mysql-elasticsearchSyncMySQLdataintoelasticsearch项目地址:https://gitcode.com/gh_mirrors/go/go-mysql-elasticsearch项目介绍go-mysql-elasticsearch是一个服务，能够自动将
ElasticSearch~查询操作~(简单查询、批量查询、匹配查询、模糊查询、精确查询、范围查询、通配符查询、must查询、should查询、过滤查询）飞Link Elastic elasticsearch lucene 全文检索
一、简单查询一、查询所有结果GET/student_info/_search{"query":{"match_all":{}}}二、根据条件查询GET/student_info/_search{"query":{"match":{"name":"张三"}}}三、排序GET/student_info/_search{"query":{"match":{"name":"张三"}},"sort":[{"
将MySQL数据同步到Elasticsearch作为全文检索数据的实战指南格子先生Lab 全文检索 mysql elasticsearch
在现代应用中，全文检索是一个非常重要的功能，尤其是在处理大量数据时。Elasticsearch是一个强大的分布式搜索引擎，能够快速地进行全文检索、分析和可视化。而MySQL作为传统的关系型数据库，虽然能够处理结构化数据，但在全文检索方面的性能不如Elasticsearch。因此，将MySQL中的数据同步到Elasticsearch中，可以充分发挥两者的优势。本文将介绍如何将MySQL中的数据同步到
Flink相关面试题努力的搬砖人. 面试 java 后端 flink
以下是150道ApacheFlink面试题及其详细回答，涵盖了Flink的基础知识、核心架构、API使用、性能调优等多个方面，每道题目都尽量详细且简单易懂：Flink基础概念类1.什么是ApacheFlink？ApacheFlink是一个开源的流处理和批处理框架，能够实现快速、可靠、可扩展的大数据处理。它既可以处理无界的数据流，也可以处理有界的数据批，提供了低延迟和高吞吐量的实时数据处理能力。Fl
2017安全之势：云、大数据、IoT、人工智能 weixin_34392906 人工智能大数据嵌入式
“新技术让信息系统变成了孙悟空，开始无所不能，但安全仍是它的‘紧箍咒’！怎样解开这个‘紧箍咒’？各路安全厂商各显其能，但似乎路漫漫兮离目标还很遥远。”三未信安董事长张岳公在ZD至顶网《百位意见领袖寄语2017》中说出了这样一句话，我觉着很有道理。安全是一个永恒的话题，如果说它与新的信息技术相生相克也不过分。即便如此，我们更要尽可能的减少安全带来的束缚。2017已经到来，不妨来看看至顶网与业界大咖总
直方图梯度提升：大数据时代的极速决策引擎万事可爱^ 大数据机器学习深度学习直方图梯度提升 GBDT 算法
一、为什么需要直方图梯度提升？在Kaggle竞赛的冠军解决方案中，超过70%的获奖方案都使用了梯度提升算法。但当数据量突破百万级时，传统梯度提升树（GBDT）面临三大致命瓶颈：训练耗时剧增：每个特征的分割点计算都需要全量数据排序内存消耗爆炸：存储排序后的特征值需要额外空间处理效率低下：无法有效利用现代CPU的多核特性而梯度提升决策树（GBDT）作为集成学习的代表算法，通过迭代构建决策树实现预测能力
Elasticsearch + Docker：实现容器化部署指南 IT成长日记 elasticsearch docker 容器化部署
Elasticsearch是一款强大的分布式搜索和分析引擎，广泛应用于日志分析、全文检索、实时数据分析等场景。而Docker作为一种轻量级的容器化技术，能够帮助开发者快速部署和管理应用。将Elasticsearch与Docker结合，不仅可以简化部署流程，还能提高资源利用率和系统可维护性。1环境准备1.1安装Docker安装操作请参考：Docker入门指南：1分钟搞定安装+常用命令，轻松入门容器化
从原理到实践：Go 语言内存优化策略深度解析叶间清风1998 服务器 linux 网络
目录一、引言二、Go语言内存管理基础原理2.1栈与堆内存分配2.2垃圾回收机制剖析三、内存优化策略与实践3.1合理使用指针传递3.2避免不必要的内存分配3.3优化切片与映射的使用3.4控制变量作用域3.5减少闭包导致的变量逃逸四、内存优化工具与性能分析4.1pprof工具的使用4.2其他性能分析辅助手段五、不同场景下的内存优化案例分析5.1高并发Web服务场景5.2大数据处理与分析场景六、总结与展
网络安全-信息收集 One_Blanks 网络安全网络安全
声明学习视频来自B站UP主泷羽sec，如涉及侵权马上删除文章。笔记的只是方便各位师傅学习知识，以下网站只涉及学习内容，其他的都与本人无关，切莫逾越法律红线，否则后果自负。目录X一、Whois信息1.思路2.工具3.社工库二、搜索1.Google、bing、baidu三、Github四、搜索引擎FOFA：[https://fofa.info/](https://fofa.info/)360网络空间测
Python - 爬虫；爬虫-网页抓取数据-工具curl MinggeQingchun Python 爬虫 curl python
一、爬虫关于爬虫的合法性通用爬虫限制：Robots协议【约定协议robots.txt】robots协议：协议指明通用爬虫可以爬取网页的权限robots协议是一种约定，一般是大型公司的程序或者搜索引擎等遵守几乎每一个网站都有一个名为robots.txt的文档，当然也有部分网站没有设定robots.txt。对于没有设定robots.txt的网站可以通过网络爬虫获取没有口令加密的数据，也就是该网站所有页
硅谷企业的大数据平台架构什么样？看看Twitter、Airbnb、Uber的实践大数据v 分布式数据库大数据编程语言 hadoop
导读：本文分析一下典型硅谷互联网企业的大数据平台架构。作者：彭锋宋文欣孙浩峰来源：大数据DT（ID：hzdashuju）01Twitter的大数据平台架构Twitter是最早一批推进数字化运营的硅谷企业之一，其公司运营和产品迭代的很多功能是由其底层的大数据平台提供的。图7-2所示为Twitter大数据平台的基本示意图。▲图7-2Twitter大数据平台架构Twitter的大数据平台开发比较早，很多
商品详情中除了价格和库存，还有哪些重要信息？数据小爬虫@ 大数据
在获取商品详情时，除了价格和库存，还有许多其他重要信息可以帮助我们更全面地了解商品。这些信息对于市场调研、数据分析、商品比较以及用户体验优化等都非常有价值。以下是一些常见的商品详情字段及其重要性：1.商品名称（Name）重要性：商品名称是用户识别商品的关键信息，也是搜索引擎优化（SEO）的重要部分。应用场景：用于展示商品、搜索优化、分类整理等。2.商品描述（Description）重要性：详细的商
【图像预处理】瞬间记忆深度学习 python
(4条消息)图像预处理方法总结_AI强仔的博客-CSDN博客对图像进行预处理的一些常见方法包括：调整图像大小和分辨率，以便适应模型的输入要求。对图像进行裁剪或填充，以使其大小和比例符合要求。调整图像的亮度、对比度和饱和度等图像属性。进行图像平滑或锐化操作，以去除噪声或增强图像特征。进行图像归一化或标准化，以确保各个特征在相同的尺度上。应用数据增强技术，如旋转、平移、缩放、翻转等，以扩大数据集，提高
大数据学习（75）-大数据组件总结 viperrrrrrr 大数据 impala yarn hdfs hive CDH mapreduce
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦一、CDHCDH（ClouderaDistributionIncludingApacheHadoop)是由Cloudera公司提供的一个集成了ApacheHadoop以及相关生态系统的发行版本。CDH是一个大数据平台，简化和加速了大数据处理分析的部署和管理。CDH提供Hadoop的
大数据点燃智能制造变革之火——从数据到价值的跃迁 Echo_Wish 大数据高阶实战秘籍大数据制造
大数据点燃智能制造变革之火——从数据到价值的跃迁在全球制造业向智能化转型的浪潮中，大数据已然成为点燃变革的关键火种。从车间到供应链，从设备到产品生命周期，制造业正通过大数据分析找到隐形的效率优化机会，打破传统生产模式的桎梏。作为Echo_Wish，今天我将和大家探讨大数据如何融入智能制造，助力实现生产效率和业务价值的双重飞跃。一、智能制造的核心诉求：数据驱动的决策与执行智能制造的目标是通过数据驱动
Sqoop安装部署愿与狸花过一生大数据 sqoop hadoop hive
ApacheSqoop简介Sqoop（SQL-to-Hadoop）是Apache开源项目，主要用于：将关系型数据库中的数据导入Hadoop分布式文件系统（HDFS）或相关组件（如Hive、HBase）。将Hadoop处理后的数据导出回关系型数据库。核心特性批量数据传输支持从数据库表到HDFS/Hive的全量或增量数据迁移。并行化处理基于MapReduce实现并行导入导出，提升大数据量场景的效率。自
AI预测体彩排3新模型百十个定位预测+胆码预测+杀和尾+杀和值2025年3月21日第25弹 GIS小天体彩排3 人工智能机器学习彩票算法
前面由于工作原因停更了很长时间，停更期间很多彩友一直私信我何时恢复发布每日预测，目前手头上的项目已经基本收尾，接下来恢复发布。当然，也有很多朋友一直咨询3D超级助手开发的进度，在这里统一回复下。由于本人既精通编程+大数据分析，也热衷于彩票研究，所以很多彩友通过一些渠道找到了我。目前，加我的已有不少彩友，分成了3类人群：第一类：平时不懂数据分析，买彩全靠瞎猜乱蒙，这些朋友希望借助我的技术和方法来给他
tomcat基础与部署发布暗黑小菠萝 Tomcat java web
从51cto搬家了，以后会更新在这里方便自己查看。做项目一直用tomcat，都是配置到eclipse中使用，这几天有时间整理一下使用心得，有一些自己配置遇到的细节问题。 Tomcat：一个Servlets和JSP页面的容器，以提供网站服务。一、Tomcat安装安装方式：①运行.exe安装包 &n
网站架构发展的过程 ayaoxinchao 数据库应用服务器网站架构
1.初始阶段网站架构：应用程序、数据库、文件等资源在同一个服务器上 2.应用服务和数据服务分离：应用服务器、数据库服务器、文件服务器 3.使用缓存改善网站性能：为应用服务器提供本地缓存，但受限于应用服务器的内存容量，可以使用专门的缓存服务器，提供分布式缓存服务器架构 4.使用应用服务器集群改善网站的并发处理能力：使用负载均衡调度服务器，将来自客户端浏览器的访问请求分发到应用服务器集群中的任何
[信息与安全]数据库的备份问题 comsci 数据库
如果你们建设的信息系统是采用中心-分支的模式,那么这里有一个问题如果你的数据来自中心数据库,那么中心数据库如果出现故障,你的分支机构的数据如何保证安全呢? 是否应该在这种信息系统结构的基础上进行改造,容许分支机构的信息系统也备份一个中心数据库的文件呢? &n
使用maven tomcat plugin插件debug关联源代码商人shang maven debug 查看源码 tomcat-plugin
*首先需要配置好'''maven-tomcat7-plugin'''，参见[[Maven开发Web项目]]的'''Tomcat'''部分。 *配置好后，在[[Eclipse]]中打开'''Debug Configurations'''界面，在'''Maven Build'''项下新建当前工程的调试。在'''Main'''选项卡中点击'''Browse Workspace...'''选择需要开发的
大访问量高并发 oloz 大访问量高并发
大访问量高并发的网站主要压力还是在于数据库的操作上，尽量避免频繁的请求数据库。下面简要列出几点解决方案： 01、优化你的代码和查询语句，合理使用索引 02、使用缓存技术例如memcache、ecache将不经常变化的数据放入缓存之中 03、采用服务器集群、负载均衡分担大访问量高并发压力 04、数据读写分离 05、合理选用框架，合理架构(推荐分布式架构)。
cache 服务器小猪猪08 cache
Cache 即高速缓存.那么cache是怎么样提高系统性能与运行速度呢？是不是在任何情况下用cache都能提高性能？是不是cache用的越多就越好呢？我在近期开发的项目中有所体会，写下来当作总结也希望能跟大家一起探讨探讨，有错误的地方希望大家批评指正。　　1.Cache 是怎么样工作的? 　　Cache 是分配在服务器上
mysql存储过程香水浓 mysql
Description:插入大量测试数据 use xmpl; drop procedure if exists mockup_test_data_sp; create procedure mockup_test_data_sp( in number_of_records int ) begin declare cnt int; declare name varch
CSS的class、id、css文件名的常用命名规则 agevs JavaScript UI 框架 Ajax css
CSS的class、id、css文件名的常用命名规则 (一)常用的CSS命名规则　　头：header 　　内容：content/container 　　尾：footer 　　导航：nav 　　侧栏：sidebar 　　栏目：column 　　页面外围控制整体布局宽度：wrapper 　　左右中：left right
全局数据源 AILIKES java tomcat mysql jdbc JNDI
实验目的：为了研究两个项目同时访问一个全局数据源的时候是创建了一个数据源对象，还是创建了两个数据源对象。 1：将diuid和mysql驱动包（druid-1.0.2.jar和mysql-connector-java-5.1.15.jar）copy至%TOMCAT_HOME%/lib下；2：配置数据源，将JNDI在%TOMCAT_HOME%/conf/context.xml中配置好,格式如下：&l
MYSQL的随机查询的实现方法 baalwolf mysql
MYSQL的随机抽取实现方法。举个例子，要从tablename表中随机提取一条记录，大家一般的写法就是：SELECT * FROM tablename ORDER BY RAND() LIMIT 1。但是，后来我查了一下MYSQL的官方手册，里面针对RAND()的提示大概意思就是，在ORDER BY从句里面不能使用RAND()函数，因为这样会导致数据列被多次扫描。但是在MYSQL 3.23版本中，
JAVA的getBytes()方法 bijian1013 java eclipse unix OS
在Java中，String的getBytes()方法是得到一个操作系统默认的编码格式的字节数组。这个表示在不同OS下，返回的东西不一样！ String.getBytes(String decode)方法会根据指定的decode编码返回某字符串在该编码下的byte数组表示，如： byte[] b_gbk = "
AngularJS中操作Cookies bijian1013 JavaScript AngularJS Cookies
如果你的应用足够大、足够复杂，那么你很快就会遇到这样一咱种情况：你需要在客户端存储一些状态信息，这些状态信息是跨session(会话)的。你可能还记得利用document.cookie接口直接操作纯文本cookie的痛苦经历。幸运的是，这种方式已经一去不复返了，在所有现代浏览器中几乎
[Maven学习笔记五]Maven聚合和继承特性 bit1129 maven
Maven聚合在实际的项目中，一个项目通常会划分为多个模块，为了说明问题，以用户登陆这个小web应用为例。通常一个web应用分为三个模块： 1. 模型和数据持久化层user-core, 2. 业务逻辑层user-service以 3. web展现层user-web， user-service依赖于user-core user-web依赖于user-core和use
【JVM七】JVM知识点总结 bit1129 jvm
1. JVM运行模式 1.1 JVM运行时分为-server和-client两种模式，在32位机器上只有client模式的JVM。通常，64位的JVM默认都是使用server模式，因为server模式的JVM虽然启动慢点，但是，在运行过程，JVM会尽可能的进行优化 1.2 JVM分为三种字节码解释执行方式：mixed mode, interpret mode以及compiler
linux下查看nginx、apache、mysql、php的编译参数 ronin47
在linux平台下的应用，最流行的莫过于nginx、apache、mysql、php几个。而这几个常用的应用，在手工编译完以后，在其他一些情况下（如：新增模块），往往想要查看当初都使用了那些参数进行的编译。这时候就可以利用以下方法查看。 1、nginx [root@361way ~]# /App/nginx/sbin/nginx -V nginx: nginx version: nginx/
unity中运用Resources.Load的方法？ brotherlamp unity视频 unity资料 unity自学 unity unity教程
问：unity中运用Resources.Load的方法？答：Resources.Load是unity本地动态加载资本所用的方法,也即是你想动态加载的时分才用到它,比方枪弹,特效,某些实时替换的图像什么的,主张此文件夹不要放太多东西,在打包的时分,它会独自把里边的一切东西都会集打包到一同,不论里边有没有你用的东西,所以大多数资本应该是自个建文件放置 1、unity实时替换的物体即是依据环境条件
线段树-入门 bylijinnan java 算法线段树
/** * 线段树入门 * 问题：已知线段[2,5] [4,6] [0,7]；求点2,4,7分别出现了多少次 * 以下代码建立的线段树用链表来保存，且树的叶子结点类似[i,i] * * 参考链接：http://hi.baidu.com/semluhiigubbqvq/item/be736a33a8864789f4e4ad18 * @author lijinna
全选与反选 chicony 全选
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <title>全选与反选</title>
vim一些简单记录 chenchao051 vim
mac在/usr/share/vim/vimrc linux在/etc/vimrc 1、问：后退键不能删除数据，不能往后退怎么办？答：在vimrc中加入set backspace=2 2、问：如何控制tab键的缩进？答：在vimrc中加入set tabstop=4 (任何
Sublime Text 快捷键 daizj 快捷键 sublime
[size=large][/size]Sublime Text快捷键：Ctrl+Shift+P：打开命令面板Ctrl+P：搜索项目中的文件Ctrl+G：跳转到第几行Ctrl+W：关闭当前打开文件Ctrl+Shift+W：关闭所有打开文件Ctrl+Shift+V：粘贴并格式化Ctrl+D：选择单词，重复可增加选择下一个相同的单词Ctrl+L：选择行，重复可依次增加选择下一行Ctrl+Shift+L：
php 引用(&)详解 dcj3sjt126com PHP
在PHP 中引用的意思是：不同的名字访问同一个变量内容. 与Ｃ语言中的指针是有差别的．Ｃ语言中的指针里面存储的是变量的内容在内存中存放的地址变量的引用 PHP 的引用允许你用两个变量来指向同一个内容复制代码代码如下: <? $a="ABC"; $b =&$a; echo
SVN中trunk,branches,tags用法详解 dcj3sjt126com SVN
Subversion有一个很标准的目录结构，是这样的。比如项目是proj，svn地址为svn://proj/，那么标准的svn布局是svn://proj/|+-trunk+-branches+-tags这是一个标准的布局，trunk为主开发目录，branches为分支开发目录，tags为tag存档目录（不允许修改）。但是具体这几个目录应该如何使用，svn并没有明确的规范，更多的还是用户自己的习惯。
对软件设计的思考 e200702084 设计模式数据结构算法 ssh 活动
软件设计的宏观与微观软件开发是一种高智商的开发活动。一个优秀的软件设计人员不仅要从宏观上把握软件之间的开发，也要从微观上把握软件之间的开发。宏观上，可以应用面向对象设计，采用流行的SSH架构，采用web层，业务逻辑层，持久层分层架构。采用设计模式提供系统的健壮性和可维护性。微观上，对于一个类，甚至方法的调用，从计算机的角度模拟程序的运行情况。了解内存分配，参数传
同步、异步、阻塞、非阻塞 geeksun 非阻塞
同步、异步、阻塞、非阻塞这几个概念有时有点混淆，在此文试图解释一下。同步：发出方法调用后，当没有返回结果，当前线程会一直在等待（阻塞）状态。场景：打电话，营业厅窗口办业务、B/S架构的http请求-响应模式。异步：方法调用后不立即返回结果，调用结果通过状态、通知或回调通知方法调用者或接收者。异步方法调用后，当前线程不会阻塞，会继续执行其他任务。实现：
Reverse SSH Tunnel 反向打洞實錄 hongtoushizi ssh
實際的操作步驟： # 首先，在客戶那理的機器下指令連回我們自己的 Server，並設定自己 Server 上的 12345 port 會對應到幾器上的 SSH port ssh -NfR 12345:localhost:22 [email protected] # 然後在 myhost 的機器上連自己的 12345 port，就可以連回在客戶那的機器 ssh localhost -p 1
Hibernate中的缓存 Josh_Persistence 一级缓存 Hiberante缓存查询缓存二级缓存
Hibernate中的缓存一、Hiberante中常见的三大缓存：一级缓存，二级缓存和查询缓存。 Hibernate中提供了两级Cache，第一级别的缓存是Session级别的缓存，它是属于事务范围的缓存。这一级别的缓存是由hibernate管理的，一般情况下无需进行干预；第二级别的缓存是SessionFactory级别的缓存，它是属于进程范围或群集范围的缓存。这一级别的缓存
对象关系行为模式之延迟加载 home198979 PHP 架构延迟加载
形象化设计模式实战 HELLO!架构一、概念 Lazy Load：一个对象，它虽然不包含所需要的所有数据，但是知道怎么获取这些数据。延迟加载貌似很简单，就是在数据需要时再从数据库获取，减少数据库的消耗。但这其中还是有不少技巧的。二、实现延迟加载实现Lazy Load主要有四种方法：延迟初始化、虚
xml 验证 pengfeicao521 xml xml解析
有些字符，xml不能识别，用jdom或者dom4j解析的时候就报错 public static void testPattern() { // 含有非法字符的串 String str = "Jamey친Ñ&#1282
div设置半透明效果 spjich css 半透明
为div设置如下样式： div{filter:alpha(Opacity=80);-moz-opacity:0.5;opacity: 0.5;} 说明： 1、filter：对win IE设置半透明滤镜效果，filter:alpha(Opacity=80)代表该对象80%半透明，火狐浏览器不认2、-moz-opaci
你真的了解单例模式么？ w574240966 java 单例设计模式 jvm
单例模式，很多初学者认为单例模式很简单，并且认为自己已经掌握了这种设计模式。但事实上，你真的了解单例模式了么。一，单例模式的5中写法。（回字的四种写法，哈哈。） 1，懒汉式（1）线程不安全的懒汉式 public cla

ElasticSearch 哪里不会点哪里

介绍

ElasticSearch VS Solr

版本特性

6.x新特性

7.x新特性

8.x新特性

应用场景

Docker 安装

重要概念

*_*倒排索引(反向索引)

*_*ES文件目录结构

*_*ES主配置文件 elasticsearch.yml

*_*ES两个重要的端口

*_*分布式概念

cluster

shards

replicas

*_*和 关系性数据库 概念类比

*_*插件安装

在线安装

离线安装

*_*分词器

*_*相关性 和 相关性计算——打分

索引index

mappings 文档映射

动态映射 的 类型识别机制

Mapping生成之后，后期修改会怎么样？

让某个字段 不被 索引

控制 倒排索引 记录的内容

对Null值 的 搜索

常见操作

文档

文档元数据

相关操作

创建

编辑

删除

查询

Request Body 文档查询方式

ES检索原理

常用查询操作

全量查询 match_all

分页查询

分页查询 Scroll

排序 和 指定要返回的部分字段

通过 降低相关性 实现 更复杂 的 排序 场景

分词查询 match

短语查询 match_phrase

多字段 multi_match

query_string

关键字查询 Term

prefix 前缀搜索

wildcard 通配符查询

范围查询 range

多id查询

模糊查询 fuzzy

高亮查询

"], "post_tags": ["

布尔查询 bool query

聚合查询

你可能感兴趣的:(elasticsearch,大数据,全文检索,搜索引擎)

_倒排索引(反向索引)

_ES文件目录结构

_ES主配置文件 elasticsearch.yml

_ES两个重要的端口

_分布式概念

_和关系性数据库概念类比

_插件安装

_分词器

_相关性和相关性计算——打分

动态映射的类型识别机制

让某个字段不被索引

控制倒排索引记录的内容

对Null值的搜索

排序和指定要返回的部分字段

通过降低相关性实现更复杂的排序场景