工藤-新二

ElasticSearch详细教程-基础加实战

文章目录

第1章 ElasticSearch基础
- 1.1 简介
- 1.2 使用场景
- 1.3 ES与其他数据存储进行比较
- 1.4 ElasticSearch的特点
- - 1.4.1 天然分片，天然集群
  - 1.4.2 天然索引
- 1.5 Lucene、Nutch、ElasticSearch关系
第2章 ElasticSearch的安装
- 2.1 上传安装包
- 2.2 将ES解压到/opt/module目录下
- 2.3 在/opt/module目录下对ES重命名
- 2.4 修改ES配置文件
- 2.5 教学环境启动优化
- 2.6 分发ES
- 2.7 修改hadoop106和hadoop107上的节点名以及网络地址
- 2.8 单台启动测试，以及Linux解决常见问题
- 2.9 集群启动脚本
- 2.10 测试
- 2.11 如果启动未成功
第3章 Kibana的安装
- 3.1 上传安装包
- 3.2 将Kibana解压到/opt/module目录下
- 3.3 在/opt/module目录下对Kibana重命名
- 3.4 修改Kibana配置文件
- 3.5 启动、测试
第4章 ElasticSearch的基本概念
- 4.1 概念
- - 4.1.1 近实时(Near Realtime / NRT)
  - 4.1.2 集群(Cluster)
  - 4.1.3 节点(Node)
  - 4.1.4 索引(Index)
  - 4.1.5 类型（Type）
  - 4.1.6 文档(Document)
  - 4.1.7 字段|属性（Field）
  - 4.1.8分片与副本(Shards & Replicas)
- 4.2 概念之间关系图
- 4.3 ES概念和MySQL关系对比
第5章 ElasticSearch RestFulAPI(DSL)
- 5.1 全局操作
- - 5.1.1 查询集群健康情况
  - 5.1.2 查询各个节点状态
- 5.2 对索引的操作
- - 5.2.1 查询各个索引状态
  - 5.2.2 创建索引
  - 5.2.3 查询某个索引的分片情况
  - 5.2.4 删除索引
- 5.3 对文档进行操作
- - 5.3.1 创建文档
  - 5.3.2 根据文档id查看文档
  - 5.3.3 查询所有文档
  - 5.3.4 根据文档id删除文档
  - 5.3.5 替换文档
  - 5.3.6 根据文档id更新文档
  - 5.3.7 根据条件更新文档（了解）
  - 5.3.8 删除文档属性（了解）
  - 5.3.9 根据条件删除文档（了解）
  - 5.3.10 批处理
- 5.4 查询操作
- - 5.4.1 搜索参数传递有2种方法
  - 5.4.2 按条件查询(全部)
  - 5.4.3 按分词查询(必须使用分词text类型)
  - 5.4.4 按分词子属性查询
  - 5.4.5 按短语查询(相当于like %短语%)
  - 5.4.6 通过term精准搜索匹配（必须使用keyword类型）
  - 5.4.7 fuzzy查询（容错匹配）
  - 5.4.8 过滤—先匹配，再过滤
  - 5.4.9 过滤—匹配和过滤同时（推荐使用）
  - 5.4.10 过滤--按范围过滤
  - 5.4.11 排序
  - 5.4.12 分页查询
  - 5.4.13 指定查询的字段
  - 5.4.14 高亮
  - 5.4.15 聚合
- 5.5 分词
- - 5.5.1 查看英文单词默认分词情况
  - 5.5.2 查看中文默认分词情况
  - 5.5.3 中文分词器
  - 5.5.4 IK分词器的安装及使用
  - 5.5.5 自定义词库-本地指定
  - 5.5.6 自定义词库-远程指定
- 5.6 关于mapping
- - 5.6.1 基于中文分词搭建索引-自动定义mapping
  - 5.6.2 基于中文分词搭建索引-手动定义mapping
  - 5.6.3 索引数据拷贝
- 5.7 索引别名 _aliases
- - 5.7.1 创建索引别名
  - 5.7.2 查询别名列表
  - 5.7.3 使用索引别名查询
  - 5.7.4 删除某个索引的别名
  - 5.7.5 使用场景
- 5.8 索引模板
- - 5.8.1 创建索引模板
  - 5.8.2 测试
  - 5.8.3 查看系统中已有的模板清单
  - 5.8.4 查看某个模板详情
  - 5.8.5 使用场景
  - 5.8.6 注意
第6章 Idea中操作ElasticSearch
- 6.1 在Idea中编写操作ES的工具类
- 6.2 编写建立程序到ES的连接的代码
- 6.3 向ES中插入数据
- 6.4 从ES中查询数据

第1章 ElasticSearch基础

1.1 简介

Elasticsearch是一个高度可伸缩的开源全文搜索引擎。Elasticsearch让你可以快速、实时地存储、搜索和分析大量数据，它通常作为互联网应用的内部搜索引擎，为需要复杂搜索功能的应用提供支持。

ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口。Elasticsearch是用Java开发的，并作为Apache许可条款下的开放源码发布，是当前流行的企业级搜索引擎。

1.2 使用场景

电商搜索引擎，使用Elasticsearch存储商品与品类信息，提供搜索和搜索建议功能（全文检索）。
日志系统，收集、分析日志数据，可以使用Logstash (Elasticsearch/Logstash/Kibana栈的一部分)来收集，然后将这些数据提供给Elasticsearch，通过搜索和聚合计算挖掘有价值的信息，最后通过Kibana进行可视化展示。
价格提醒平台，在价格变动时，让用户可以收到通知。抓取供应商的价格，推入Elasticsearch，并使用其反向搜索(Percolator)功能来匹配用户的价格通知设置，找到匹配后将提醒推送给用户。
BI(商业智能)，分析业务大数据，挖掘有价值的商务信息。可以使用Elasticsearch来存储数据，然后使用Kibana (Elasticsearch/Logstash/Kibana堆栈的一部分)构建自定义仪表板，该仪表板可以可视化显示数据。此外，还可以使用Elasticsearch聚合功能对数据执行复杂的业务智能分析。

1.3 ES与其他数据存储进行比较

	redis	mysql	elasticsearch	hbase	hadoop/hive
容量/容量扩展	低	中	较大	海量	海量
查询时效性	极高	中等	较高	中等	低
查询灵活性	较差 k-v模式	非常好，支持sql	较好，关联查询较弱，但是可以全文检索，DSL语言可以处理过滤、匹配、排序、聚合等各种操作	较差，主要靠rowkey, scan的话性能不行，或者建立二级索引	非常好，支持sql
写入速度	极快	中等	较快	较快	慢
一致性、事务	弱	强	弱	弱	弱

1.4 ElasticSearch的特点

1.4.1 天然分片，天然集群

ES把数据分成多个shard，下图中的P0-P2，多个shard可以组成一份完整的数据，这些shard可以分布在集群中的各个机器节点中。随着数据的不断增加，集群可以增加多个分片，把多个分片放到多个机子上，已达到负载均衡，横向扩展。

在实际运算过程中，每个查询任务提交到某一个节点，该节点必须负责将数据进行整理汇聚，再返回给客户端，也就是一个简单的节点上进行Map计算，在一个固定的节点上进行Reduces得到最终结果向客户端返回。

这种集群分片的机制造就了elasticsearch强大的数据容量及运算扩展性。

1.4.2 天然索引

ES 所有数据都是默认进行索引的，这点和MySQL正好相反，MySQL是默认不加索引，要加索引必须特别说明，ES只有不加索引才需要说明。

而ES使用的是倒排索引和MySQL的B+Tree索引不同。

传统关系性数据库

弊端：

1.对于传统的关系性数据库对于关键词的查询，只能逐字逐行的匹配，性能非常差。

2.匹配方式不合理，比如搜索“小密手机”，如果用like进行匹配，根本匹配不到。但是考虑使用者的用户体验的话，除了完全匹配的记录，还应该显示一部分近似匹配的记录，至少应该匹配到“手机”。

倒排索引是怎么处理的

全文搜索引擎目前主流的索引技术就是倒排索引的方式。

传统的保存数据的方式都是：记录→单词

而倒排索引的保存数据的方式是：单词→记录, 基于分词技术构建倒排索引,每个记录保存数据时，都不会直接存入数据库。系统先会对数据进行分词，然后以倒排索引结构保存。如下:

搜索“红海行动”，那么搜索引擎是如何能将两者匹配上的呢？

等到用户搜索的时候，会把搜索的关键词也进行分词，会把“红海行动”分词分成：红海和行动两个词。

这样的话，先用红海进行匹配，得到id=1和id=2的记录编号，再用行动匹配可以迅速定位id为1,3的记录。

那么全文索引通常，还会根据匹配程度进行打分，显然1号记录能匹配的次数更多。所以显示的时候以评分进行排序的话，1号记录会排到最前面。而2、3号记录也可以匹配到。

索引结构对比

B+Tree

Lucene 倒排索引结构

可以看到 Lucene为倒排索引(Term Dictionary)部分又增加一层Term Index结构，用于快速定位，而这Term Index是缓存在内存中的，但MySQL的B+tree不在内存中，所以整体来看ES速度更快，但同时也更消耗资源（内存、磁盘）。

1.5 Lucene、Nutch、ElasticSearch关系

1998年9月4日，Google公司在美国硅谷成立。正如大家所知，它是一家做搜索引擎起家的公司。
同时期，一位名叫Doug Cutting的美国工程师，也迷上了搜索引擎，他基于Java语言开发了一个用于文本搜索的函数库（姑且理解为软件的功能组件），叫做Lucene。Lucene是第一个提供全文文本搜索的函数库，提供了一个简单而强大的应用程序接口，是一个高性能、可伸缩的信息搜索库。作为一个成熟免费的开源项目，Lucene在Java信息检索程序库中得到了广泛的欢迎。开发者不仅能利用它构建具体的全文检索应用，同时还能将其集成到各种系统软件中，它提供的很多API函数都能运用到各种实际应用程序中。
Nutch则是Doug在Lucene基础上将开源思想继续深化的成果，是一个真正的应用程序，它是建立在Lucene核心之上的Web搜索的实现，其目的旨在减少人们使用过程中的复杂度，并在花费很少的情况下配置世界一流的Web搜索引擎，实现开箱即用的特性。站内索引和搜索推广到全球网络的搜索上，就像Google和雅虎一样。
ElasticSearch ，简称为ES , ES是一个开源的高扩展的分布式全文检索引擎,它可以近乎实时的存储、检索数据；本身扩展性很好，可以扩展到上百台服务器，处理PB级别的数据。ES也使用Java开发并使用Lucene作为其核心来实现所有索引和搜索的功能，但是它的目的是通过简单的RESTful API来隐藏Lucene的复杂性，从而让全文搜索变得简单。

DB Engines统计的数据库排名情况, 在2016年1月, ElasticSearch已超过Solr等,成为排名第一的搜索引擎类应用

关于ES的起源，他说当年他还是一个待业工程师，跟随自己的新婚妻子来到伦敦，妻子想在伦敦学习做一名厨师，而自己则想为妻子开发一个方便搜索菜谱的应用，所以才接触到 Lucene。

直接使用 Lucene 构建搜索有很多问题，包含大量重复性的工作，所以 Shay Banon 便在 Lucene 的基础上不断地进行抽象，让 Java 程序嵌入搜索变得更容易，经过一段时间的打磨便诞生了他的第一个开源作品“Compass”，中文即“指南针”的意思。之后，他找到了一份面对高性能分布式开发环境的新工作，在工作中他渐渐发现越来越需要一个易用的、高性能、实时、分布式搜索服务，于是决定重写 Compass，将它从一个库打造成了一个独立的 server，并创建了Elasticsearch。

思考：咱们之前讲的处理分词，构建倒排索引，等等，都是这个叫Lucene的做的。那么能不能说这个Lucene就是搜索引擎呢？还不能。Lucene只是一个提供全文搜索功能类库的核心工具包，而真正使用它还需要一个完善的服务框架搭建起来的应用。好比Lucene是类似于发动机，而搜索引擎软件（ES,Solr）就是汽车。目前市面上流行的搜索引擎软件，主流的就两款，ElasticSearch和Solr,这两款都是基于Lucene的搭建的，可以独立部署启动的搜索引擎服务软件。由于内核相同，所以两者除了服务器安装、部署、管理、集群以外，对于数据的操作，修改、添加、保存、查询等等都十分类似。就好像都是支持sql语言的两种数据库软件。只要学会其中一个另一个很容易上手。从实际企业使用情况来看，ElasticSearch的市场份额逐步在取代Solr，国内百度、京东、新浪都是基于ElasticSearch实现的搜索功能。国外就更多了，像维基百科、GitHub、Stack Overflow等等也都是基于ES的。

第2章 ElasticSearch的安装

本课程选择的版本是elasticsearch-6.6.0

Elasticsearch官网：

https://www.elastic.co/products/elasticsearch

https://www.elastic.co/cn/downloads/past-releases/elasticsearch-6-6-0

2.1 上传安装包

将/2.资料/02-工具/elasticsearch下的压缩包上传到opt/software/目录下

2.2 将ES解压到/opt/module目录下

ES是开箱即用的，即解压就可以使用

[atguigu@hadoop105 software]$ tar -zxvf elasticsearch-6.6.0.tar.gz -C /opt/module/

2.3 在/opt/module目录下对ES重命名

[atguigu@hadoop105 module]$ mv elasticsearch-6.6.0/ elasticsearch

2.4 修改ES配置文件

修改yml配置的注意事项:

每行必须顶格，不能有空格

“：”后面必须有一个空格

[atguigu@hadoop105 elasticsearch]$ cd config/
[atguigu@hadoop105 config]$ vim elasticsearch.yml

集群名称，同一集群名称必须相同

# ---------------------------------- Cluster -----------------------------------
#
# Use a descriptive name for your cluster:
#
cluster.name: my-es

单个节点名称

# ------------------------------------ Node ------------------------------------
#
# Use a descriptive name for the node:
#
node.name: node-1

把bootstrap自检程序关掉

# ----------------------------------- Memory -----------------------------------
#
# Lock the memory on startup:
#
bootstrap.memory_lock: false
bootstrap.system_call_filter: false

网络部分改为当前的ip地址，端口号保持默认9200就行

# ---------------------------------- Network -----------------------------------
#
# Set the bind address to a specific IP (IPv4 or IPv6):
#
network.host: hadoop105
#
# Set a custom port for HTTP:
#
#http.port: 9200

自发现配置：新节点向集群报到的主机名

# --------------------------------- Discovery ----------------------------------
#
# Pass an initial list of hosts to perform discovery when new node is started:
# The default list of hosts is ["127.0.0.1", "[::1]"]
#
discovery.zen.ping.unicast.hosts: ["hadoop105", "hadoop106", "hadoop107"]

2.5 教学环境启动优化

ES是用在Java虚拟机中运行的，虚拟机默认启动占用1G内存。但是如果是装在PC机学习用，实际用不了1个G。所以可以改小一点内存；但生产环境一般128G内存是标配，这个时候需要将这个内存调大。

vim /opt/module/elasticsearch/config/jvm.options

# Xms represents the initial size of total heap space
# Xmx represents the maximum size of total heap space

-Xms512m
-Xmx512m

2.6 分发ES

[atguigu@hadoop105 module]$ xsync elasticsearch/

2.7 修改hadoop106和hadoop107上的节点名以及网络地址

hadoop106修改为：node.name: node-2 network.host: hadoop106

[atguigu@hadoop106 ~]$ cd /opt/module/elasticsearch/config/
[atguigu@hadoop106 config]$ vim elasticsearch.yml

hadoop107修改为：node.name: node-3 network.host: hadoop107

[atguigu@hadoop107 ~]$ cd /opt/module/elasticsearch/config/
[atguigu@hadoop107 config]$ vim elasticsearch.yml

2.8 单台启动测试，以及Linux解决常见问题

这时直接在hadoop105上单独启动ES，会报如下异常：

[atguigu@hadoop105 bin]$ ./elasticsearch

因为默认elasticsearch是单机访问模式，就是只能自己访问自己。但是上面我们已经设置成允许应用服务器通过网络方式访问，而且生产环境也是这种方式。这时，Elasticsearch就会因为嫌弃单机版的低端默认配置而报错，甚至无法启动。所以我们在这里就要把服务器的一些限制打开，能支持更多并发。

问题1：max file descriptors [4096] for elasticsearch process likely too low, increase to at least [65536] elasticsearch

原因

系统允许 Elasticsearch 打开的最大文件数需要修改成65536

解决

sudo vim /etc/security/limits.conf

添加内容

* soft nofile 65536
* hard nofile 131072
* soft nproc 2048
* hard nproc 65536

注意：“*” 不要省略掉

分发文件

sudo /home/atguigu/bin/xsync /etc/security/limits.conf

问题2：max virtual memory areas vm.max_map_count [65530] likely too low, increase to at least [262144]

原因

一个进程可以拥有的虚拟内存区域的数量。

解决

sudo vim /etc/sysctl.conf

在文件最后添加一行

vm.max_map_count=262144

即可永久修改

分发文件

```
sudo /home/atguigu/bin/xsync /etc/sysctl.conf    
```
问题3：max number of threads [1024] for user [judy2] likely too low, increase to at least [4096] （CentOS7.x 不用改）

原因

允许最大线程数修该成4096

解决

sudo vim /etc/security/limits.d/20-nproc.conf

修改如下内容

* soft nproc 1024

修改为

* soft nproc 4096

分发文件

sudo /home/atguigu/bin/xsync /etc/security/limits.d/20-nproc.conf

重启linux使配置生效
再次单独启动hadoop105上的ES

[atguigu@hadoop105 bin]$ ./elasticsearch

测试方式1：

curl http://hadoop105:9200/_cat/nodes?v

测试方式2：在浏览器中，输入http://hadoop105:9200/查看效果

ES天然就是集群状态，就算是只有一个节点，也会当做集群处理，

默认节点name=主机名，cluster_name=my_es

2.9 集群启动脚本

在/home/atguigu/bin目录下创建es.sh，并授予执行权限

根据自己的配置进行修改

#!/bin/bash 
es_home=/opt/module/elasticsearch
kibana_home=//opt/module/kibana
case $1  in
 "start") {
  for i in hadoop105 hadoop106 hadoop107
  do
        echo "==============$i上ES启动=============="
    ssh $i  "source /etc/profile.d/my_env.sh;${es_home}/bin/elasticsearch >/dev/null 2>&1 &"
    done
  nohup ${kibana_home}/bin/kibana >${kibana_home}/logs/kibana.log 2>&1 &
 };;
"stop") {
  ps -ef|grep ${kibana_home} |grep -v grep|awk '{print $2}'|xargs kill
  for i in hadoop105 hadoop106 hadoop107
  do
          echo "==============$i上ES停止=============="
      ssh $i "ps -ef|grep $es_home |grep -v grep|awk '{print \$2}'|xargs kill" >/dev/null 2>&1
  done
  };;
esac

2.10 测试

测试方式1：curl http://hadoop105:9200/_cat/nodes?v

测试方式2：在浏览器中，输入http://hadoop106:9200/查看效果

2.11 如果启动未成功

如果启动未成功，请去查看相关日志

vim  /opt/module/elasticsearch/logs/my-es.log

第3章 Kibana的安装

Elasticsearch提供了一套全面和强大的REST API，我们可以通过这套API与ES集群进行交互。例如：

我们可以通过 API: GET /_cat/nodes?v获取ES集群节点情况，要想访问这个API，我们需要使用curl命令工具来访问Elasticsearch服务

curl http://hadoop105:9200/_cat/nodes?v

也可以使用任何其他HTTP/REST调试工具，例如POSTMAN。

Kibana 是为 Elasticsearch设计的开源分析和可视化平台。你可以使用 Kibana 来搜索，查看存储在 Elasticsearch 索引中的数据并与之交互。你可以很容易实现高级的数据分析和可视化，以图表的形式展现出来。

3.1 上传安装包

将/2.资料/02-工具/elasticsearch下的压缩包上传到opt/software/目录下

3.2 将Kibana解压到/opt/module目录下

[atguigu@hadoop105 software]$ tar -zxvf kibana-6.6.0-linux-x86_64.tar.gz -C /opt/module/

3.3 在/opt/module目录下对Kibana重命名

[atguigu@hadoop105 module]$ mv kibana-6.6.0-linux-x86_64/ kibana

3.4 修改Kibana配置文件

[atguigu@hadoop105 kibana]$ cd config/
[atguigu@hadoop105 config]$ vim kibana.yml

授权远程访问

# To allow connections from remote users, set this parameter to a non-loopback address.
server.host: "0.0.0.0"

指定ElasticSearch地址（可以指定多个，多个地之间用逗号分隔）

# The URLs of the Elasticsearch instances to use for all your queries.
elasticsearch.hosts: ["http://hadoop105:9200","http://hadoop106:9200","http://hadoop107:9200"]

3.5 启动、测试

Kibana本身只是一个工具，不需要分发，不涉及集群，访问并发量也不会很大

启动Kinana

[atguigu@hadoop105 kibana]$ bin/kibana

成功后，提示如下

  log   [13:51:31.423] [info][listening] Server running at http://0.0.0.0:5601

浏览器访问http://hadoop105:5601/

在6.7版本之后，支持中文国际化

最终集群脚本

在es.sh中，对ES和Kibana同时进行操作

在/opt/module/kibana目录下执行mkdir logs

#!/bin/bash 
es_home=/opt/module/elasticsearch
kibana_home=//opt/module/kibana
case $1  in
 "start") {
  for i in hadoop105 hadoop106 hadoop107
  do
        echo "==============$i上ES启动=============="
    ssh $i  "source /etc/profile.d/my_env.sh;${es_home}/bin/elasticsearch >/dev/null 2>&1 &"
    done
  nohup ${kibana_home}/bin/kibana >${kibana_home}/logs/kibana.log 2>&1 &
 };;
"stop") {
  ps -ef|grep ${kibana_home} |grep -v grep|awk '{print $2}'|xargs kill
  for i in hadoop105 hadoop106 hadoop107
  do
          echo "==============$i上ES停止=============="
      ssh $i "ps -ef|grep $es_home |grep -v grep|awk '{print \$2}'|xargs kill" >/dev/null 2>&1
  done
  };;
esac

第4章 ElasticSearch的基本概念

4.1 概念

Elasticsearch有几个核心概念，先理解这些概念将有助于掌握Elasticsearch。

4.1.1 近实时(Near Realtime / NRT)

Elasticsearch是一个近实时的搜索平台，从生成文档索引到文档成为可搜索，有一个轻微的延迟(通常是一秒钟)。

4.1.2 集群(Cluster)

ES 默认就是集群状态，整个集群是一份完整、互备的数据。

集群是一个或多个节点(服务器)的集合。集群中的节点一起存储数据，对外提供搜索功能。集群由一个唯一的名称标识，该名称默认是“elasticsearch”。集群名称很重要，节点都是通过集群名称加入集群。

集群不要重名，取名一般要有明确意义，否则会引起混乱。例如，开发、测试和生产集群的名称可以使用logging-dev、logging-test和logging-prod。

集群节点数不受限制，可以只有一个节点。

4.1.3 节点(Node)

节点是一个服务器，属于某个集群。节点存储数据，参与集群的索引和搜索功能。与集群一样，节点也是通过名称来标识的。默认情况下，启动时会分配给节点一个UUID（全局惟一标识符）作为名称。如有需要，可以给节点取名，通常取名时应考虑能方便识别和管理。

默认情况下，节点加入名为elasticsearch的集群，通过设置节点的集群名，可加入指定集群。

4.1.4 索引(Index)

索引是具有某种特征的文档集合，相当于一本书的目录。例如，可以为客户数据建立索引，为订单数据建立另一个索引。索引由名称标识(必须全部为小写)，可以使用该名称，对索引中的文档进行建立索引、搜索、更新和删除等操作。一个集群中，索引数量不受限制。

类似于rdbms的database(5.x), 对于用户来说是一个逻辑数据库，虽然物理上会被分多个shard存放，也可能存放在多个node中。 6.x 7.x index相当于table

4.1.5 类型（Type）

类似于rdbms的table，但是与其说像table，其实更像面向对象中的class , 同一Json的格式的数据集合。（6.x只允许建一个，7.0被废弃，造成index实际相当于table级）

4.1.6 文档(Document)

文档是可以建立索引的基本信息单元，相当于书的具体章节。

例如，可以为单个客户创建一个文档，为单个订单创建另一个文档。文档用JSON (JavaScript对象表示法)表示。在索引中，理论上可以存储任意数量的文档。

类似于rdbms的 row、面向对象里的object

4.1.7 字段|属性（Field）

相当于字段、属性

4.1.8分片与副本(Shards & Replicas)

索引可能存储大量数据，数据量可能超过单个节点的硬件限制。

例如，一个索引包含10亿个文档，将占用1TB的磁盘空间，单个节点的磁盘放不下。

Elasticsearch提供了索引分片功能，创建索引时，可以定义所需的分片数量。每个分片本身都是一个功能齐全，独立的“索引”，可以托管在集群中的任何节点上。

分片之所以重要，主要有2个原因:

n 允许水平切分内容，以便内容可以存储到普通的服务器中

n 允许跨分片操作（如查询时，查询多个分片），提高性能/吞吐量

分片如何部署、如何跨片搜索完全由Elasticsearch管理，对外是透明的。

网络环境随时可能出现故障，如果某个分片/节点由于某种原因离线或消失，那么使用故障转移机制是非常有用的，强烈建议使用这种机制。为此，Elasticsearch允许为分片创建副本。

副本之所以重要，主要有2个原因:

n 在分片/节点失败时提供高可用性。因此，原分片与副本不应放在同一个节点上。

n 扩展吞吐量，因为可以在所有副本上并行执行搜索。

总而言之，索引可以分片，索引分片可以创建副本。复制后，每个索引将具有主分片与副本分片。

创建索引时，可以为每个索引定义分片和副本的数量。之后，还可以随时动态更改副本数量。您可以使用_shrink和_split api更改现有索引的分片数量，但动态修改副本数量相当麻烦，最好还是预先计划好分片数量。

默认情况下，Elasticsearch中的每个索引分配一个主分片和一个副本（7.X之前，默认是5片，副本是0。7.X默认改为1片，副本为1）。如果集群中有两个节点，就可以将索引主分片部署在一个节点，副本分片放在另一个节点，提高可用性。

4.2 概念之间关系图

这张图可以展示出ES各组件之间的关系，整张表是一个Cluster，横行是Nodes，竖列是Indices，深绿色方块是Primary Shards，浅绿色方块是Replica Shards。

至于单个Host上的Node数目问题，在硬件资源有限的情况下，一般的做法是一个Host只运行一个ES进程，也就是一个Node。例外情况是，由于ES内存配置上的特殊要求（JVM Heap不能超过32G），如果你的Host特别NB（16 Core CPU + 128G RAM + SSD 这种），完全可以在单个Host上运行多个ES进程以避免硬件资源的浪费。

4.3 ES概念和MySQL关系对比

MySQL	ES5.X	ES6.X	ES7.X
Database	Index
Table	Type	Index（Type成了摆设）	Index（Type被移除掉）
Row	Document	Document
Column	Field	Field

假设有如下实体

public class Movie {
   String id;
   String name;
   Double doubanScore;
   List<Actor> actorList;
}

public class Actor{
String id;
String name;
}

这两个对象如果放在关系型数据库保存，会被拆成2张表，但是ElasticSearch是用一个json来表示一个document。类似豆瓣某个电影详情页 https://movie.douban.com/

保存到ES中应该是

{
 "id":"1",
 "name":"operation red sea",
 "doubanScore":"8.5",
 "actorList":[ 
{"id":"1","name":"zhangyi"},
{"id":"2","name":"haiqing"},
{"id":"3","name":"zhanghanyu"}
] 
}

第5章 ElasticSearch RestFulAPI(DSL)

DSL全称 Domain Specific language，即特定领域专用语言

5.1 全局操作

5.1.1 查询集群健康情况

API：GET /_cat/health?v ?v表示显示头信息

集群的健康状态有红、黄、绿三个状态：

n 绿 – 一切正常(集群功能齐全)

n 黄 – 所有数据可用，但有些副本尚未分配(集群功能完全)

n 红 – 有些数据不可用(集群部分功能)

5.1.2 查询各个节点状态

API：GET /_cat/nodes?v

5.2 对索引的操作

5.2.1 查询各个索引状态

API：GET /_cat/indices?v

ES中会默认存在一些索引

health	green(集群完整) yellow(单点正常、集群不完整) red(单点不正常)
status	是否能使用
index	索引名
uuid	索引统一编号
pri	主节点几个分片
rep	从节点几个（副本数）
docs.count	文档数
docs.deleted	文档被删了多少
store.size	整体占空间大小
pri.store.size	主节点占空间大小

5.2.2 创建索引

API：PUT 索引名?pretty

PUT movie_index?pretty

使用PUT创建名为“movie_index”的索引。末尾追加pretty，可以漂亮地打印JSON响应(如果有的话)。红色警告说在7.x分片数会由默认的5改为1，我们忽略即可

索引名命名要求：

仅可能为小写字母，不能下划线开头
不能包括 , /, *, ?, ", <, >, |, 空格, 逗号, #
7.0版本之前可以使用冒号:，但不建议使用并在7.0版本之后不再支持
不能以这些字符 -, _, + 开头
不能包括 . 或 …
长度不能超过 255 个字符

5.2.3 查询某个索引的分片情况

API：GET /_cat/shards/索引名

GET /_cat/shards/movie_index

默认5个分片，1个副本。所以看到一共有10个分片，5个主，每一个主分片对应一个副本，注意：同一个分片的主和副本肯定不在同一个节点上

5.2.4 删除索引

API：DELETE /索引名

DELETE /movie_index

5.3 对文档进行操作

5.3.1 创建文档

现在向索引movie_index中放入文档，文档ID分别为1，2，3

API: PUT /索引名/类型名/文档id

注意：文档id和文档中的属性”id”不是一回事

PUT /movie_index/movie/1
{ "id":100,
 "name":"operation red sea",
 "doubanScore":8.5,
 "actorList":[ 
{"id":1,"name":"zhang yi"},
{"id":2,"name":"hai qing"},
{"id":3,"name":"zhang han yu"}
]
}

PUT /movie_index/movie/2
{
 "id":200,
 "name":"operation meigong river",
 "doubanScore":8.0,
 "actorList":[ 
{"id":3,"name":"zhang han yu"}
]
}


PUT /movie_index/movie/3
{
 "id":300,
 "name":"incident red sea",
 "doubanScore":5.0,
 "actorList":[ 
{"id":4,"name":"zhang san feng"}
]
}

注意，Elasticsearch并不要求，先要有索引，才能将文档编入索引。创建文档时，如果指定索引不存在，将自动创建。默认创建的索引分片是5，副本是1，我们创建的文档会在其中的某一个分片上存一份，副本上存一份，所以看到的响应_shards-total:2

5.3.2 根据文档id查看文档

API：GET /索引名/类型名/文档id

GET /movie_index/movie/1?pretty

这里有一个字段found为真，表示找到了一个ID为1的文档，另一个字段_source，该字段返回完整JSON文档。

5.3.3 查询所有文档

API：GET /索引名/_search

Kinana中默认显示10条，可以通过size控制

GET /movie_index/_search
{
    "size":10
}

took:执行查询花费的时间毫秒数

_shards=>total：搜索了多少个分片（当前表示搜索了全部5个分片）

5.3.4 根据文档id删除文档

API: DELETE /索引名/类型名/文档id

DELETE /movie_index/movie/3

注意：删除索引和删除文档的区别？

删除索引是会立即释放空间的，不存在所谓的“标记”逻辑。
删除文档的时候，是将新文档写入，同时将旧文档标记为已删除。磁盘空间是否释放取决于新旧文档是否在同一个segment file里面，因此ES后台的segment merge在合并segment file的过程中有可能触发旧文档的物理删除。
也可以手动执行POST /_forcemerge进行合并触发

5.3.5 替换文档

PUT(幂等性操作)

当我们通过执行PUT /索引名/类型名/文档id命令的添加时候，如果文档id已经存在，那么再次执行上面的命令，ElasticSearch将替换现有文档。

PUT /movie_index/movie/3
{
  "id":300,
  "name":"incident red sea",
  "doubanScore":5.0,
  "actorList":[  
{"id":4,"name":"zhang cuishan"}
]
}

文档id3已经存在，会替换原来的文档内容

POST(非幂等性操作)

创建文档时，ID部分是可选的。如果没有指定，Elasticsearch将生成一个随机ID，然后使用它来引用文档。

POST /movie_index/movie/
{
  "id":300,
  "name":"incident red sea",
  "doubanScore":5.0,
  "actorList":[  
{"id":4,"name":"zhang cuishan"}
]
}

5.3.6 根据文档id更新文档

除了创建和替换文档外，ES还可以更新文档中的某一个字段内容。注意，Elasticsearch实际上并没有在底层执行就地更新，而是先删除旧文档，再添加新文档。

API：
POST /索引名/类型名/文档id/_update?pretty
{
  "doc": { "字段名": "新的字段值" }   doc固定写法
}
需求：把文档ID为3中的name字段更改为“wudang”:
POST /movie_index/movie/3/_update?pretty
{
  "doc": {"name":"wudang"}
}

5.3.7 根据条件更新文档（了解）

POST /movie_index/_update_by_query
{
	"query": {
	  "match":{
	    "actorList.id":1
	  }  
	},
	"script": {
	  "lang": "painless",
	  "source":"for(int i=0;i
	}
}

5.3.8 删除文档属性（了解）

POST /movie_index/movie/1/_update
{
  "script" : "ctx._source.remove('name')"
}

5.3.9 根据条件删除文档（了解）

POST /movie_index /_delete_by_query
{
  "query": {
    "match_all": {}
  }
}

5.3.10 批处理

除了对单个文档执行创建、更新和删除之外，ElasticSearch还提供了使用_bulk API批量执行上述操作的能力。

API: POST /索引名/类型名/_bulk?pretty _bulk表示批量操作

注意：Kibana要求批量操作的json内容写在同一行

需求1：在索引中批量创建两个文档

POST /movie_index/movie/_bulk
 {"index":{"_id":66}}
 {"id":300,"name":"incident red sea","doubanScore":5.0,"actorList":[{"id":4,"name":"zhang cuishan"}]}
 {"index":{"_id":88}}
 {"id":300,"name":"incident red sea","doubanScore":5.0,"actorList":[{"id":4,"name":"zhang cuishan"}]}

需求2：在一个批量操作中，先更新第一个文档(ID为66)，再删除第二个文档(ID为88)

POST /movie_index/movie/_bulk
{“update”:{"_id":“66”}}
{“doc”: { “name”: “wudangshanshang” } }
{“delete”:{"_id":“88”}}

5.4 查询操作

5.4.1 搜索参数传递有2种方法

URI发送搜索参数查询所有数据

GET /索引名/_search?q=* &pretty

例如：GET /movie_index/_search?q=_id:66

这种方式不太适合复杂查询场景，了解

https://www.elastic.co/guide/en/elasticsearch/reference/current/search-search.html

请求体(request body)发送搜索参数查询所有数据

GET /movie_index/_search
{
  "query": {
    "match_all": {}
  }
}

5.4.2 按条件查询(全部)

GET movie_index/movie/_search
{
  "query":{
    "match_all": {}
  }
}

5.4.3 按分词查询(必须使用分词text类型)

测试前：将movie_index索引中的数据恢复到初始的3条

GET movie_index/movie/_search
{
  "query":{
    "match": {"name":"operation red sea"}
  }
}

ES中，name属性会进行分词，底层以倒排索引的形式进行存储，对查询的内容也会进行分词，然后和文档的name属性内容进行匹配，所以命中3次，不过命中的分值不同。

注意：ES底层在保存字符串数据的时候，会有两种类型text和keyword

text：分词

keyword：不分词

5.4.4 按分词子属性查询

GET movie_index/movie/_search
{
  "query":{
    "match": {"actorList.name":"zhang han yu"}
  }
}

返回3条件结果

5.4.5 按短语查询(相当于like %短语%)

按短语查询，不再利用分词技术，直接用短语在原始数据中匹配

GET movie_index/movie/_search
{
  "query":{
    "match_phrase": {"actorList.name":"zhang han yu"}
  }
}

返回2条结果，把演员名包含zhang han yu的查询出来

5.4.6 通过term精准搜索匹配（必须使用keyword类型）

GET movie_index/movie/_search
{
  "query":{
	"term":{
    "actorList.name.keyword":"zhang han yu"
}
  }
}

返回2条结果，把演员中完全匹配zhang han yu的查询出来

5.4.7 fuzzy查询（容错匹配）

校正匹配分词，当一个单词都无法准确匹配，ES通过一种算法对非常接近的单词也给与一定的评分，能够查询出来，但是消耗更多的性能，对中文来讲，实现不是特别好。

GET movie_index/movie/_search
{
    "query":{
      "fuzzy": {"name":"rad"}
    }
}

返回2个结果，会把incident red sea和operation red sea匹配上

5.4.8 过滤—先匹配，再过滤

GET movie_index/movie/_search
{
    "query":{
      "match": {"name":"red"}
    },
    "post_filter":{
      "term": {
        "actorList.id": 3
      }
    }
}

5.4.9 过滤—匹配和过滤同时（推荐使用）

GET movie_index/movie/_search
{
  "query": {
    "bool": {
       "must": [
        {"match": {
          "name": "red"
        }}
      ],
      "filter": [
        {"term": { "actorList.id": "1"}},
        {"term": {"actorList.id": "3"}}
      ]
    }
  }
}

5.4.10 过滤–按范围过滤

GET movie_index/movie/_search
{
  "query": {
    "range": {
      "doubanScore": {
        "gte": 6,
        "lte": 8.5
      }
    }
  }
}

关于范围操作符：

gt	大于
lt	小于
gte	大于等于 great than or equals
lte	小于等于 less than or equals

5.4.11 排序

GET movie_index/movie/_search
{
  "query":{
    "match": {"name":"red sea"}
  },
 "sort":
    {
      "doubanScore": {
        "order": "desc"
      }
    }
}

5.4.12 分页查询

from参数(基于0)指定从哪个文档序号开始，size参数指定返回多少个文档，这两个参数对于搜索结果分页非常有用。注意，如果没有指定from，则默认值为0。

GET movie_index/movie/_search
{
  "query": { "match_all": {} },
  "from": 1,
  "size": 1
}

5.4.13 指定查询的字段

GET movie_index/movie/_search
{
  "query": { "match_all": {} },
  "_source": ["name", "doubanScore"]
}

只显示name和doubanScore字段

5.4.14 高亮

对命中的词进行高亮显示

GET movie_index/movie/_search
{
    "query":{
      "match": {"name":"red sea"}
    },
    "highlight": {
      "fields": {"name":{} }
    }
}

5.4.15 聚合

聚合提供了对数据进行分组、统计的能力，类似于SQL中Group By和SQL聚合函数。在ElasticSearch中，可以同时返回搜索结果及其聚合计算结果，这是非常强大和高效的。

需求1：取出每个演员共参演了多少部电影

GET movie_index/movie/_search
{
  "aggs": {
    "myAGG": {
      "terms": {
        "field": "actorList.name.keyword"
      }
    }
  }
}

aggs:表示聚合

myAGG：给聚合取的名字，

trems：表示分组，相当于groupBy

field：指定分组字段

需求2：每个演员参演电影的平均分是多少，并按评分排序

GET movie_index/movie/_search
{ 
  "aggs": {
    "groupby_actor_id": {
      "terms": {
        "field": "actorList.name.keyword" ,
        "order": {
          "avg_score": "desc"
          }
      },
      "aggs": {
        "avg_score":{
          "avg": {
            "field": "doubanScore" 
          }
        }
       }
    } 
  }
}

思考：聚合时为何要加 .keyword后缀？

.keyword 是某个字符串字段，专门储存不分词格式的副本，在某些场景中只允许只用不分词的格式，比如过滤filter比如聚合aggs, 所以字段要加上.keyword的后缀。

5.5 分词

5.5.1 查看英文单词默认分词情况

GET _analyze
{
  "text":"hello world"
}

按照空格对单词进行切分

5.5.2 查看中文默认分词情况

GET _analyze
{
  "text":"小米手机"
}

按照每个汉字进行切分

5.5.3 中文分词器

通过上面的查询，我们可以看到ES本身自带的中文分词，就是单纯把中文一个字一个字的分开，根本没有词汇的概念。但是实际应用中，用户都是以词汇为条件，进行查询匹配的，如果能够把文章以词汇为单位切分开，那么与用户的查询条件能够更贴切的匹配上，查询速度也更加快速。

常见的一些开源分词器对比，我们使用IK分词器

分词器	优势	劣势
Smart Chinese Analysis	官方插件	中文分词效果惨不忍睹
IKAnalyzer	简单易用，支持自定义词典和远程词典	词库需要自行维护，不支持词性识别
结巴分词	新词识别功能	不支持词性识别
Ansj中文分词	分词精准度不错，支持词性识别	对标hanlp词库略少，学习成本高
Hanlp	目前词库最完善，支持的特性非常多	需要更优的分词效果，学习成本高

5.5.4 IK分词器的安装及使用

下载地址

https://github.com/medcl/elasticsearch-analysis-ik

将/2.资料/02-工具/elasticsearch相关上传到/opt/software
解压zip文件

[atguigu@hadoop105 software]$ unzip elasticsearch-analysis-ik-6.6.0.zip -d /opt/module/elasticsearch/plugins/ik

注意

使用unzip进行解压

-d指定解压后的目录

必须放到ES的plugins目录下，并在plugins目录下创建单独的目录

查看/opt/module/elasticsearch/plugins/ik/conf下的文件，分词就是将所有词汇分好放到文件中
分发

xsync /opt/module/elasticsearch/plugins/ik

重启ES

[atguigu@hadoop105 elasticsearch]$ es.sh stop

[atguigu@hadoop105 elasticsearch]$ es.sh start

测试使用
默认分词器

GET movie_index/_analyze
{  
  "text": "我是中国人"
}

ik_smart分词方式

GET movie_index/_analyze
{  
  "analyzer": "ik_smart", 
  "text": "我是中国人"
}

ik_max_word分词方式

GET movie_index/_analyze
{  
  "analyzer": "ik_max_word", 
  "text": "我是中国人"
}

5.5.5 自定义词库-本地指定

有的时候，词库提供的词并不包含项目中使用到的一些专业术语或者新兴网络用语，需要我们对词库进行补充。具体步骤

没有使用自定义词库前

GET movie_index/_analyze
{  
  "analyzer": "ik_smart", 
  "text": "蓝瘦香菇"
}

n 修改/opt/module/elasticsearch/plugins/ik/config/中的IKAnalyzer.cfg.xmlcd


DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
        <comment>IK Analyzer 扩展配置comment>
        
        <entry key="ext_dict">./myword.txtentry>
         
        <entry key="ext_stopwords">entry>
        
        
        
        
properties>

名词概念：停止词，是由英文单词:stopword翻译过来的，原来在英语里面会遇到很多a，the，or等使用频率很多的字或词，常为冠词、介词、副词或连词等。如果搜索引擎要将这些词都索引的话，那么几乎每个网站都会被索引，也就是说工作量巨大。可以毫不夸张的说句，只要是个英文网站都会用到a或者是the。那么这些英文的词跟我们中文有什么关系呢？在中文网站里面其实也存在大量的stopword，我们称它为停止词。比如，我们前面这句话，“在”、“里面”、“也”、“的”、“它”、“为”这些词都是停止词。这些词因为使用频率过高，几乎每个网页上都存在，所以搜索引擎开发人员都将这一类词语全部忽略掉。如果我们的网站上存在大量这样的词语，那么相当于浪费了很多资源。原本可以添加一个关键词，排名就可以上升一名的，为什么不留着添加为关键词呢？停止词对SEO的意义不是越多越好，而是尽量的减少为宜。

在/opt/module/elasticsearch/plugins/ik/config/当前目录下创建myword.txt

[atguigu@hadoop105 config]$ vim myword.txt
蓝瘦
蓝瘦香菇

分发配置文件以及myword.txt

xsync /opt/module/elasticsearch/plugins/ik/config/IKAnalyzer.cfg.xml
xsync /opt/module/elasticsearch/plugins/ik/config/myword.txt

重启ES服务

es.sh stop
es.sh start

测试分词效果

5.5.6 自定义词库-远程指定

远程配置一般是如下流程，我们这里简易通过nginx模拟

n 修改/opt/module/elasticsearch/plugins/ik/config/中的IKAnalyzer.cfg.xml


DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
        <comment>IK Analyzer 扩展配置comment>
        
        
         
        
        
        <entry key="remote_ext_dict">http://hadoop105/fenci/myword.txtentry>
        
        
properties>

注意：将本地配置注释掉

n 分发配置文件

xsync /opt/module/elasticsearch/plugins/ik/config/IKAnalyzer.cfg.xml

n 在nginx.conf文件中配置静态资源路径

[atguigu@hadoop105 conf]$ pwd
/opt/module/nginx/conf
[atguigu@hadoop105 conf]$ vim nginx.conf
location /fenci{
   root es;
}

在/opt/module/nginx/目录下创建es/fenci目录，并在es/fenci目录下创建myword.txt

[atguigu@hadoop105 fenci]$ pwd
/opt/module/nginx/es/fenci
[atguigu@hadoop105 es]$ vim myword.txt
蓝瘦
蓝瘦香菇

启动nginx

/opt/module/nginx/sbin/nginx

测试nginx是否能够访问

重启ES服务

es.sh stop
es.sh start

测试分词效果

更新完成后，ES只会对新增的数据用新词分词。历史数据是不会重新分词的。如果想要历史数据重新分词。需要执行：

POST movies_index_chn/_update_by_query?conflicts=proceed

5.6 关于mapping

之前说Type可以理解为关系型数据库的Table，那每个字段的数据类型是如何定义的呢？

实际上每个Type中的字段是什么数据类型，由mapping定义，如果我们在创建Index的时候，没有设定mapping，系统会自动根据一条数据的格式来推断出该数据对应的字段类型，具体推断类型如下：

true/false → boolean
1020 → long
20.1 → float
“2018-02-01” → date
“hello world” → text +keyword

默认只有text会进行分词，keyword是不会分词的字符串。mapping除了自动定义，还可以手动定义，但是只能对新加的、没有数据的字段进行定义，一旦有了数据就无法再做修改了。

5.6.1 基于中文分词搭建索引-自动定义mapping

直接创建Document

这个时候index不存在，建立文档的时候自动创建index，同时mapping会自动定义

查看自动定义的mapping

PUT /movie_chn_1/movie/1
{ "id":1,
  "name":"红海行动",
  "doubanScore":8.5,
  "actorList":[  
  {"id":1,"name":"张译"},
  {"id":2,"name":"海清"},
  {"id":3,"name":"张涵予"}
 ]
}
PUT /movie_chn_1/movie/2
{
  "id":2,
  "name":"湄公河行动",
  "doubanScore":8.0,
  "actorList":[  
{"id":3,"name":"张涵予"}
]
}

PUT /movie_chn_1/movie/3
{
  "id":3,
  "name":"红海事件",
  "doubanScore":5.0,
  "actorList":[  
{"id":4,"name":"张三丰"}
]
}

查询测试

GET /movie_chn_1/movie/_search
{
  "query": {
    "match": {
      "name": "海行"
    }
  }
}

分析结论

上面查询“海行”命中了三条记录，是因为我们在定义的Index的时候，没有指定分词器，使用的是默认的分词器，对中文是按照每个汉字进行分词的。

5.6.2 基于中文分词搭建索引-手动定义mapping

定义Index，指定mapping

PUT movie_chn_2
{
  "mappings": {
    "movie":{
      "properties": {
        "id":{
          "type": "long"
        },
        "name":{
          "type": "text", 
          "analyzer": "ik_smart"
        },
        "doubanScore":{
          "type": "double"
        },
        "actorList":{
          "properties": {
            "id":{
              "type":"long"
            },
            "name":{
              "type":"keyword"
            }
          }
        }
      }
    }
  }
}

向Index中放入Document

PUT /movie_chn_2/movie/1
{ "id":1,
  "name":"红海行动",
  "doubanScore":8.5,
  "actorList":[  
  {"id":1,"name":"张译"},
  {"id":2,"name":"海清"},
  {"id":3,"name":"张涵予"}
 ]
}
PUT /movie_chn_2/movie/2
{
  "id":2,
  "name":"湄公河行动",
  "doubanScore":8.0,
  "actorList":[  
{"id":3,"name":"张涵予"}
]
}

PUT /movie_chn_2/movie/3
{
  "id":3,
  "name":"红海事件",
  "doubanScore":5.0,
  "actorList":[  
{"id":4,"name":"张三丰"}
]
}

查看手动定义的mapping

查询测试

GET /movie_chn_2/movie/_search
{
 "query": {
  "match": {
   "name": "海行"
  }
 }
}

分析结论

上面查询没有命中任何记录，是因为我们在创建Index的时候，指定使用ik分词器进行分词

5.6.3 索引数据拷贝

ElasticSearch虽然强大，但是却不能动态修改mapping到时候我们有时候需要修改结构的时候不得不重新创建索引；

ElasticSearch为我们提供了一个reindex的命令，就是会将一个索引的快照数据copy到另一个索引，默认情况下存在相同的_id会进行覆盖（一般不会发生，除非是将两个索引的数据copy到一个索引中），可以使用POST _reindex命令将索引快照进行copy

POST _reindex
	{
	  "source": {
	    "index": "my_index_name"
	  },
	  "dest": {
	    "index": "my_index_name_new"
	  }
	}

5.7 索引别名 _aliases

索引别名就像一个快捷方式或软连接，可以指向一个或多个索引，也可以给任何一个需要索引名的API来使用。

5.7.1 创建索引别名

创建Index的时候声明

PUT 索引名
{  
	"aliases": {
      "索引别名": {}
  }
}

#创建索引的时候，手动mapping，并指定别名
PUT movie_chn_3
{
  "aliases": {
      "movie_chn_3_aliase": {}
  },
  "mappings": {
    "movie":{
      "properties": {
        "id":{
          "type": "long"
        },
        "name":{
          "type": "text", 
          "analyzer": "ik_smart"
        },
        "doubanScore":{
          "type": "double"
        },
        "actorList":{
          "properties": {
            "id":{
              "type":"long"
            },
            "name":{
              "type":"keyword"
            }
          }
        }
      }
    }
  }
}

为已存在的索引增加别名

POST  _aliases
{
    "actions": [
        { "add":{ "index": "索引名", "alias": "索引别名" }}
    ]
}	
#给movie_chn_3添加别名
POST  _aliases
{
    "actions": [
        { "add":{ "index": "movie_chn_3", "alias": "movie_chn_3_a2" }}
    ]
}

5.7.2 查询别名列表

GET _cat/aliases?v

5.7.3 使用索引别名查询

与使用普通索引没有区别

GET 索引别名/_search

5.7.4 删除某个索引的别名

POST  _aliases
{
    "actions": [
        { "remove":    { "index": "索引名", "alias": "索引别名" }}
    ]
}

5.7.5 使用场景

给多个索引分组 (例如， last_three_months)

POST  _aliases
{
    "actions": [
        { "add":    { "index": "movie_chn_1", "alias": "movie_chn_query" }},
        { "add":    { "index": "movie_chn_2", "alias": "movie_chn_query" }}
    ]
}
GET movie_chn_query/_search

给索引的一个子集创建视图

相当于给Index加了一些过滤条件，缩小查询范围

POST  _aliases
{
    "actions": [
        { 
          "add":    
          { 
            "index": "movie_chn_1", 
            "alias": "movie_chn_1_sub_query",
            "filter": {
                "term": {  "actorList.id": "4"}
            }
          }
        }
    ]
}

GET movie_chn_1_sub_query/_search

在运行的集群中可以无缝的从一个索引切换到另一个索引

POST /_aliases
{
    "actions": [
        { "remove": { "index": "movie_chn_1", "alias": "movie_chn_query" }},
        { "remove": { "index": "movie_chn_2", "alias": "movie_chn_query" }},
        { "add":    { "index": "movie_chn_3", "alias": "movie_chn_query" }}
    ]
}

整个操作都是原子的，不用担心数据丢失或者重复的问题

5.8 索引模板

索引模板（Index Template），顾名思义就是创建索引的模具，其中可以定义一系列规则来帮助我们构建符合特定业务需求的索引的mappings和settings，通过使用索引模板可以让我们的索引具备可预知的一致性。

5.8.1 创建索引模板

PUT _template/template_movie2020
{
  "index_patterns": ["movie_test*"],                  
  "settings": {                                               
    "number_of_shards": 1
  },
  "aliases" : { 
    "{index}-query": {},
    "movie_test-query":{}
  },
  "mappings": {                                          
    "_doc": {
      "properties": {
        "id": {
          "type": "keyword"
        },
        "movie_name": {
          "type": "text",
          "analyzer": "ik_smart"
        }
      }
    }
  }
}

其中 “index_patterns”: [“movie_test*”]的含义就是凡是往movie_test开头的索引写入数据时，如果索引不存在，那么ES会根据此模板自动建立索引。

在 “aliases” 中用{index}表示，获得真正的创建的索引名。aliases中会创建两个别名，一个是根据当前索引创建的，另一个是全局固定的别名。

5.8.2 测试

向索引中添加数据

POST movie_test_202011/_doc
{
  "id":"333",
  "name":"zhang3"
}

查询Index的mapping，就是使用我们的索引模板创建的

GET movie_test_202011-query/_mapping

根据模板中取的别名查询数据

GET movie_test-query/_search

5.8.3 查看系统中已有的模板清单

GET _cat/templates

5.8.4 查看某个模板详情

GET _template/template_movie2020

或者

GET _template/template_movie*

5.8.5 使用场景

分割索引

分割索引就是根据时间间隔把一个业务索引切分成多个索引。

比如把order_info 变成 order_info_20200101,order_info_20200102 ……

这样做的好处有两个：

结构变化的灵活性

因为ES不允许对数据结构进行修改。但是实际使用中索引的结构和配置难免变化，那么只要对下一个间隔的索引进行修改，原来的索引维持原状。这样就有了一定的灵活性。

要想实现这个效果，我们只需要在需要变化的索引那天将模板重新建立即可。

查询范围优化

因为一般情况并不会查询全部时间周期的数据，那么通过切分索引，物理上减少了扫描数据的范围，也是对性能的优化。

5.8.6 注意

使用索引模板，一般在向索引中插入第一条数据创建索引，如果ES中的Shard特别多，有可能创建索引会变慢，如果延迟不能接受，可以不使用模板，使用定时脚本在头一天提前建立第二天的索引。

第6章 Idea中操作ElasticSearch

6.1 在Idea中编写操作ES的工具类

(1) 在Idea中创建新的Mavan模块，gmall0421-realtime

(2) 添加Scala支持

(3) 选择操作ES的java客户端

目前市面上有两类客户端

一类是TransportClient 为代表的ES原生客户端，不能执行原生DSL语句必须使用它的Java api方法。
一类是以Rest ApI为主的client，最典型的就是jest。这种客户端可以直接使用DSL语句拼成的字符串，直接传给服务端，然后返回json字符串再解析。

两种方式各有优劣，但是最近ElasticSearch官网，宣布计划在7.0以后的版本中废除TransportClient，以RestClient为主。

所以在官方的RestClient 基础上，进行了简单包装的Jest客户端，就成了首选，而且该客户端也与SpringBoot完美集成。

(4) 导入Jest相关依赖

<dependencies>
    
    <dependency>
        <groupId>io.searchboxgroupId>
        <artifactId>jestartifactId>
        <version>5.3.3version>
    dependency>

    
    <dependency>
        <groupId>net.java.dev.jnagroupId>
        <artifactId>jnaartifactId>
        <version>4.5.2version>
    dependency>
    
    <dependency>
        <groupId>org.codehaus.janinogroupId>
        <artifactId>commons-compilerartifactId>
        <version>3.0.16version>
    dependency>

    
    <dependency>
        <groupId>org.elasticsearchgroupId>
        <artifactId>elasticsearchartifactId>
        <version>6.6.0version>
    dependency>
dependencies>

(5) 创建Scala伴生对象即工具类MyESUtil

package com.atguigu.gmall.realtime.utils

object MyESUtil {
}

6.2 编写建立程序到ES的连接的代码

object MyESUtil {


  //1 声明一个JestClientFactory客户端工厂
  private var factory: JestClientFactory = null;

  //3 创建获取factory的方法
  def getClient(): JestClient = {
    if (factory == null) {
      build()
    }
    //2 获取factory
    factory.getObject
  }

  //4 创建JestClientFactory
  def build(): Unit = {
    factory = new JestClientFactory
    factory.setHttpClientConfig(new HttpClientConfig
    .Builder("http://hadoop105:9200")
      .multiThreaded(true) //使用多线程
      .maxTotalConnection(20) //最大连接数
      .connTimeout(10000) //超时时间 毫秒
      .readTimeout(1000) //操作超时时间
      .build()
    )
  }

6.3 向ES中插入数据

//向ES中插入数据
def putIndex(): Unit ={
  //建立连接
  val jest: JestClient = getClient
  //Builder中的参数，底层会转换为Json格式字符串，所以我们这里封装Document为样例类
//当然也可以直接传递json
  val actorNameList = new util.ArrayList[String]()
  actorNameList.add("zhangsan")
  val index: Index = new Index.Builder(Movie("100","天龙八部",actorNameList))
                        .index("movie_index_5")
                        .`type`("movie")
                        .id("1")
                        .build()
  //execute的参数类型为Action，Action是接口类型，不同的操作有不同的实现类，添加的实现类为Index
  jest.execute(index)
  //关闭连接
  jest.close()
}
case class Movie(id:String ,movie_name:String, actorNameList: java.util.List[String] ){}
//测试查看效果
def main(args: Array[String]): Unit = {
  putIndex()
}

构造者设计模式参考：

6.4 从ES中查询数据

//从ES中查询数据
def queryIndex(): Unit ={
  //获取操作对象
  val jest: JestClient = getClient

  //查询常用有两个实现类 Get通过id获取单个Document，以及Search处理复杂查询
  val query =
    """
      |{
      |  "query": {
      |    "bool": {
      |       "must": [
      |        {"match": {
      |          "name": "red"
      |        }}
      |      ],
      |      "filter": [
      |        {"term": { "actorList.name.keyword": "zhang cuishan"}}
      |      ]
      |    }
      |  },
      |  "from": 0,
      |  "size": 20,
      |  "sort": [
      |    {
      |      "doubanScore": {
      |        "order": "desc"
      |      }
      |    }
      |  ],
      |  "highlight": {
      |    "fields": {
      |      "name": {}
      |    }
      |  }
      |}
    """.stripMargin
  val search: Search = new Search.Builder(query)
                      .addIndex("movie_index")
                      .build()
  //执行操作
  val result: SearchResult = jest.execute(search)
  //获取命中的结果  sourceType:对命中的数据进行封装，因为是Json，所以我们用map封装
  //注意：一定得是Java的Map类型
  val rsList: util.List[SearchResult#Hit[util.Map[String, Any], Void]] = result.getHits(classOf[util.Map[String,Any]])

  //将Java转换为Scala集合，方便操作
  import scala.collection.JavaConverters._
  //获取Hit中的source部分
  val list: List[util.Map[String, Any]] = rsList.asScala.map(_.source).toList
  println(list.mkString("\n"))
  //关闭连接
  jest.close()
}

以上拼接字符串的查询操作可以用下面语句代替

//通过SearchSourceBuilder构建查询语句
val sourceBuilder: SearchSourceBuilder = new SearchSourceBuilder
val boolQueryBuilder = new BoolQueryBuilder
boolQueryBuilder.must(new MatchQueryBuilder("name","red"))
boolQueryBuilder.filter(new TermQueryBuilder("actorList.name.keyword","zhang cuishan"))
sourceBuilder.query(boolQueryBuilder)
sourceBuilder.from(0)
sourceBuilder.size(20)
sourceBuilder.sort("doubanScore",SortOrder.DESC)
sourceBuilder.highlighter(new HighlightBuilder().field("name"))
val query2 = sourceBuilder.toString

如果报日志相关错误：

在pom.xml中添加下面依赖

<dependency>
    <groupId>org.apache.logging.log4jgroupId>
    <artifactId>log4j-to-slf4jartifactId>
    <version>2.11.0version>
dependency>

你可能感兴趣的:(实时数仓,大数据实时项目,elasticsearch,实时大数据,spark)

Android 扫码 - 集成 zxing-android-embedded 我命由我12345 Android -简化库编程 android java-ee java 安卓 android-studio android studio android jetpack
一、zxing-android-embedded1、ZXing概述ZXing是谷歌开源的让开发者更方便使用摄像头的库，而常用的扫码功能就是其中之一第三方ZXing库zxing-android-embedded，抽取其中的扫码功能单独使用2、基本使用（1）依赖与权限配置在项目级build.gradle中配置相关依赖implementation'com.journeyapps:zxing-androi
【Dive Into Stable Diffusion v3.5】1：开源项目正式发布——深入探索SDv3.5模型全参/LoRA/RLHF训练 Donvink 大模型 #AIGC stable diffusion AIGC 人工智能机器学习深度学习
目录1引言2项目简介3快速上手3.1下载代码3.2环境配置3.3项目结构3.4下载模型与数据集3.5运行指令3.6核心参数说明3.6.1通用参数3.6.2优化器/学习率3.6.3数据相关4结语1引言在人工智能和机器学习领域，生成模型的应用越来越广泛。StableDiffusion作为其中的佼佼者，因其强大的图像生成能力而备受关注。今天，我的开源项目DiveIntoStableDiffusionv3
常用的pdf技术有哪些？--笔记我不是彭于晏灬 pdf 笔记
常用的pdf技术有哪些？1.iTextPDF：iText是著名的开放项目，是用于生成PDF文档的一个java类库。通过iText不仅可以生成PDF或rtf的文档，而且可以将XML、Html文件转化为PDF文件。Openoffice：openoffice是开源软件且能在windows和linux平台下运行，可以灵活的将word或者Excel转化为PDF文档。JasperReport：是一个强大、灵活
项目经理面试全攻略：从底层能力拆解到高通过率话术
在竞争激烈的职场中，项目经理岗位的面试堪称“综合能力大考”——既要展现系统化的方法论，又要传递真实的领导力，还要让考官相信你能在复杂环境中推动结果落地。据PMI（美国项目管理协会）调查，82%的优秀项目经理在面试中能清晰呈现“业务价值-团队协作-风险控制”的三角能力模型。本文从能力拆解、面试准备、实战话术三个维度，揭秘项目经理面试通关法则。一、项目经理面试的四大核心能力雷达图面试官通过以下维度评估
项目经理的“汇报力”修炼：如何快速打造让领导、客户眼前一亮的方案？
在项目管理领域，流传着一句话：“干得好不如说得好，说得好不如呈现得好。”项目经理作为“资源整合者”和“信息枢纽”，70%以上的工作本质是沟通与汇报——向上争取资源，向下传递目标，向外管理客户预期。能否快速产出逻辑清晰、价值聚焦的汇报方案，直接决定了项目的推进效率与个人职业发展天花板。一、项目经理的工作本质：用汇报“撬动”资源项目经理的日常不是埋头写代码或画图纸，而是通过系统性表达解决三类核心问题：
软件研发项目管理软件有哪些？8Manage PM等5款产品深度对比 Sadie_d 软件研发
软件研发项目的复杂性往往让团队面临诸多挑战：需求变更频繁、进度难以把控、资源分配不均、团队协作效率低下……这些问题如果得不到有效管理，不仅会拖延项目周期，还可能导致成本超支甚至项目失败。为了应对这些挑战，软件研发项目管理系统应运而生。它通过集成化的工具和科学的方法论，帮助研发团队提升效率、优化流程、确保项目按时交付。本文将探讨项目管理系统对软件研发团队的具体好处，并介绍5款主流产品助您找到适合的解
项目复盘：卓越项目经理的炼金术——将经验转化为组织黄金的终极法则
一、项目复盘的时空坐标：生命周期的涅槃时刻在NASA的项目管理体系中，复盘被称为"经验汲取引擎"，位于项目生命周期末端却影响未来所有项目起点。真正的复盘不是终点悼词，而是组织进化的基因重组。阶段复盘：敏捷开发每2周举行迭代复盘，如特斯拉软件团队通过156次迭代复盘将自动驾驶误判率降低83%终局复盘：波音787项目历时7年的终局复盘形成《复合材料应用手册》，成为航空业标准跨期复盘：华为建立"五年战略
实现图片处理功能鸿蒙示例代码
本文原创发布在华为开发者社区。介绍本项目基于OpenHarmony三方库ImageKnife进行图片处理场景开发使用：支持不同类型的本地与网络图片展示。支持拉起相机拍照展示与图库照片选择展示。支持图片单一种变换效果。支持本地/在线图片格式：JPG、PNG、SVG、GIF、DPG、WEBP、BMP实现图片处理功能源码链接效果预览使用说明下载安装根目录下的oh-package.json5中depend
项目经理的情商革命：从流程管家到团队灵魂的进化之路
在硅谷某头部AI公司的项目复盘会上，技术总监突然摔掉手中的报告：“这种反人类的进度要求，你们PM除了会催进度还懂什么？”会议室陷入死寂时，项目经理Lisa平静起身：“我理解各位连续加班三周的疲惫，上周四发现Tom在工位睡着时，我就该叫停这个冲刺——这是我的失职。现在请大家一起重新评估优先级，我申请将上线日期延后两周。”这段对话后，团队自愿启动“996攻坚”，最终提前3天交付。这个真实案例揭示了一个
【硬核实战】ETCD+AI智能调度深度整合！从架构设计到调优避坑，手把手教你打造高可用调度系统！码农突围计划人工智能 etcd 大数据
一、核心架构设计：ETCD如何赋能AI调度？架构图：[AI调度引擎]←实时数据→[ETCD集群]↓决策指令[执行层（车辆/物流/交通设备）]核心角色：ETCD：存储调度策略、节点状态、任务队列、实时环境数据（如交通流量、天气）AI模型：基于ETCD数据动态决策（如路径规划、资源分配）调度执行层：接收ETCD下发的指令并执行（如车辆调度、信号灯控制）优势：强一致性：ETCD的Raft协议确保调度策略
一名成功的项目经理的20个项目管理经验
项目管理既是一门科学，也是一门艺术。成功的项目经理往往能在复杂多变的项目环境中，通过系统性方法和灵活应对策略，带领团队突破瓶颈、达成目标。以下是20条经过实战验证的项目管理经验，涵盖从需求管理到团队赋能的完整链条，助力项目经理从“合格”走向“卓越”。一、需求管理：从混沌到清晰绘制用户故事地图用可视化的用户旅程串联碎片化需求，确保每个功能点都能对应业务价值。工具实践：通过Miro或Figma构建动态
从代码到蓝图：开发者转型技术型项目经理的破局之路
一、开发者面临的转型临界点技术型职业瓶颈的四个维度案例：某大厂P7工程师年薪突破80万后陷入停滞，发现35岁后晋升通道收窄至3%技术天花板困境当技术深度达到可解决90%业务需求时，剩余10%的突破需要投入指数级增长的时间成本业务理解断层某金融系统开发者耗时3月重构代码，上线后才发现业务方早已变更需求方向沟通能力边际递减技术团队日均处理跨部门沟通耗时2.3小时，其中62%的时间消耗在需求理解错位上职
信创产品在政府采购中的五大优势程序员
信创产品在政府采购中扮演着越来越重要的角色，其优势逐渐凸显，为政府采购领域带来了诸多积极影响。随着信息技术的飞速发展和国家对自主创新的高度重视，信创产品凭借自身独特的特性，在政府采购市场中展现出强大的竞争力。以下将详细阐述信创产品在政府采购中的五大优势。安全性更高在数字化时代，信息安全至关重要，尤其是对于政府采购项目，涉及大量敏感信息和公共利益。信创产品在安全性方面具有显著优势。首先，信创产品的研
烧掉 700 亿学费后，中国企业终于懂了：换软件才是真正的省钱程序员安全数据库
2018年深圳宝安机场，76岁的中兴创始人侯为贵拖着行李箱赶赴美国的照片全网刷屏。芯片断供7天，这家通信巨头市值蒸发700亿；2022年某新能源车企因EDA软件禁用，耗资数十亿的研发项目直接停摆。中国企业终于意识到：躺在全球化温床上的时代，结束了。从芯片到数据库，从工业软件到办公系统，中国企业正把“进口零件”一个个抠下来——这不是赌气，而是被逼出来的生存智慧。一、当“卡脖子”变成商机2020年哈工
如何选择测试管理工具测试工具
选择测试管理工具的关键在于需求匹配、功能全面、易用高效。其中，需求匹配强调企业应明确自身测试流程和目标，选择工具时要确保其功能与实际需求高度契合；功能全面要求测试管理工具具备需求管理、缺陷跟踪、自动化测试集成、报告生成等多项核心功能；易用高效则要求工具操作简单、界面友好，并能与其他系统无缝对接，从而提升整体测试效率和团队协同能力。在软件开发和互联网项目中，测试管理工具扮演着关键角色。随着项目复杂度
深度解析Java中的代码分支策略规划：掌握GitFlow与GitHub Flow的艺术墨夶 Java学习资料2 java github 开发语言
在这个技术日新月异的时代，每一个开发者都在寻找提高效率、减少错误并优化团队协作的方法。而当涉及到代码管理时，选择正确的分支策略至关重要。今天，我们将深入探讨如何在Java项目中应用两种流行的分支策略——GitFlow和GitHubFlow，并通过详尽的示例代码来展示它们的实际运用。1.分支管理策略概览分支管理策略不仅帮助团队成员之间进行有效的沟通，还确保了代码库的健康状态。无论是小型创业公司还是大
Elasticsearch 介绍：分布式搜索与分析引擎吱屋猪_ elasticsearch
在如今大数据时代，企业和开发者面临着前所未有的数据量和实时性要求。为了能够高效地处理、存储和查询这些数据，Elasticsearch作为一种强大的分布式搜索引擎，已经成为了很多组织和开发者的首选解决方案。1.什么是Elasticsearch？Elasticsearch是一个开源的、基于ApacheLucene构建的全文搜索引擎。它提供了高效的搜索功能，并且非常适合处理大量数据，尤其是在需要快速搜索
【2025年全面解析】国内外10款经典项目管理软件工具
在当今快节奏的商业环境中，项目管理的效率和质量直接关系到企业的成败。无论是大型企业的复杂项目，还是小型团队的创新尝试，一款合适的项目管理工具都能起到事半功倍的效果。本文将为您全面解析2025年国内外10款经典项目管理软件工具，包括禅道、Trello、Asana、Jira、Redmine、ClickUp、Wrike、Freedcamp、Basecamp、Monday.com，帮助您找到最适合自己的项
如果企业数据仓库全部使用 Couchbase Analytics 服务，可能会面临哪些问题？ PersistDZ 数据存储数据仓库
如果企业数据仓库全部使用CouchbaseAnalytics服务，可能会面临哪些问题？一、概述CouchbaseAnalytics服务是一项强大的工具，旨在为NoSQL数据提供近实时的分析能力。然而，如果企业的数据仓库全部依赖于CouchbaseAnalytics服务，可能会遇到一些问题和挑战。以下将从多个角度详细分析这些可能的问题。二、可能的问题和挑战资源消耗和成本高资源需求：Couchbase
需求池膨胀时如何科学排序优先级需求分析
需求池膨胀时如何科学排序优先级主要依靠数据驱动、战略对齐、风险评估**。其中数据驱动是关键，通过收集历史数据、用户反馈与市场趋势，对各项需求进行量化评估，帮助企业在需求膨胀时做出精准排序和资源配置。实践表明，数据驱动的决策可使需求响应速度提升约30%，大大优化资源分配效果。一、需求池膨胀现象的背景与挑战、需求池指的是企业内部或市场上积累的各类需求、项目或功能请求。随着企业发展和市场环境变化，需求池
Flutter 适配HarmonyOS NEXT：调用原生功能实现相册选取与拍照
Flutter适配鸿蒙系统：调用原生功能实现相册选取与拍照项目背景我们的移动端项目基于Flutter开发，为控制开发周期与成本，采用了HarmonyOSNEXT（简称鸿蒙）的Flutter兼容库，并更新了部分三方库为鸿蒙的Flutter兼容库。在图片视频选择与拍摄功能上，我们之前调用的是Android和iOS的原生方法，现在需要为鸿蒙开发一套原生配合使用的方案。遇到的问题鸿蒙的Flutter兼容库
mysql 统计同一字段不同值的个数 liudachu Mysql数据库 mysql
在一个项目中,制作呃echart图表的时候，遇到一个需求，需要从后端接口获取数据----售票员的姓名和业绩所以需要在订单表中，获取不同售票员的订单数量。订单表解决方案汇总MySQL统计一个列中不同值的数量需求：MySQL统计一个列中不同值的数量，其中origin是用户来源，其中的值有iPhone、Android、Web三种，现在需要分别统计由这三种渠道注册的用户数量。方案1:SELECTcount
数仓建模—Data Warebase AI 时代数据平台应当的样子不二人生数仓建模人工智能数据仓库数仓建模
DataWarebaseAI时代数据平台应当的样子引言：在这个AI技术飞速发展的时代，我们有能力更深入地发掘数据潜在的价值，而数据处理不应当成为阻碍。云原生分布式DataWarebase将开启处理数据的新范式，它让数据的使用返璞归真，不论是存储还是查询，一个系统满足业务全方位数据需求。打破复杂数据架构的束缚，大大降低数据的使用门槛，释放数据潜能，让数据涌现智能。背景近二十年大数据发展史2002年我
pygmsh 项目常见问题解决方案葛雨禹
pygmsh项目常见问题解决方案pygmsh:spider_web:GmshforPython项目地址:https://gitcode.com/gh_mirrors/py/pygmsh1.项目基础介绍和主要编程语言项目名称:pygmsh项目简介:pygmsh是一个结合了Gmsh和Python的开源项目。它通过提供Gmsh的Python接口，简化了复杂几何体的创建过程。pygmsh提供了许多有用的抽
Flink 通过 Chunjun Oracle LogMiner 实时读取 Oracle 变更日志并写入 Doris 的方案 roman_日积跬步-终至千里 #flink 实战 flink oracle 大数据
文章目录一、技术背景二、关键技术1、OracleLogMiner2、Chunjun的LogMiner关键流程3、修复ChunjunOracleLogMiner问题一、技术背景在大数据实时同步场景中，需要将Oracle数据库的变更数据（CDC）采集并写入ApacheDoris，以支持数据分析、BI报表、实时数据仓库等应用。本方案基于Flink+Chunjun，通过OracleLogMiner解析Re
【第11章】亿级电商平台订单系统-海量数据架构设计 cherry5230 架构系统架构架构分布式
1-1本章导学课程导学课程定位：大型系统架构设计核心难点解析核心项目：BToB电商平台订单系统（年交易额200亿级）本章知识体系1.核心概念辨析海量数据vs大数据本质区别解析常见认知误区说明2.方法论框架海量数据处理核心思想分布式计算原理数据分片策略弹性扩展机制3.数据库架构设计方法论体系读写分离模式分库分表策略数据分区方案缓存层设计4.数据处理体系海量数据处理之道批处理与流处理数据压缩技术异步处
NET Core 大数据处理 Gene Z .Net C#c#
在.NETCore里处理10万条以上的大数据时，可采用以下几种方式，同时也适用于不同的应用场景。1.批量处理方式借助批量操作一次性处理大量数据，从而减少与数据库或外部系统的交互次数，提高性能。例如，在向数据库插入大量数据时，可使用批量插入操作。应用场景适用于数据导入、数据迁移等场景。比如将CSV文件中的大量数据批量导入到数据库中。2.并行处理方式运用并行编程技术（像Parallel.ForEach
火山云与腾讯云的优势对比苹果企业签名分发腾讯云云计算
首先，我需要确定用户的需求是什么。可能他们是在选择云服务提供商，或者在做市场调研。用户可能是企业的IT决策者，或者是开发人员，需要了解哪个平台更适合他们的项目。接下来，我得收集火山云和腾讯云的基本信息。火山云是字节跳动旗下的，虽然进入市场较晚，但可能有字节的技术支持，比如大数据和AI方面的优势。腾讯云作为老牌厂商，生态完善，产品线全，尤其在游戏、社交等领域有优势。需要对比的方面包括：背景与市场地位
Flume与Couchbase集成原理与实例 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Flume与Couchbase集成原理与实例作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着大数据时代的到来，企业对数据存储和处理的效率要求越来越高。在数据采集、存储、处理和分析的各个环节，都需要高效、可靠的技术支持。Flume和Couchbase正是这样两种优秀的工具，前者擅长于数据采集和传输，后者擅长于键值存储和文
《React开发实践：掌握Redux与Hooks应用》——开启你的前端进阶之旅 JJCTO袁龙前端 react.js 前端框架
文章标题《React开发实践：掌握Redux与Hooks应用》——开启你的前端进阶之旅在前端开发的浪潮中，React.js已经成为开发者们不可或缺的利器。它以其高效、灵活的特性，成为构建现代Web应用的首选框架之一。然而，随着项目复杂度的增加，如何更好地管理状态、优化性能、提升代码可维护性，成为每个开发者必须面对的挑战。幸运的是，我最近出版的《React开发实践：掌握Redux与Hooks应用》这
java责任链模式 3213213333332132 java 责任链模式村民告县长
责任链模式，通常就是一个请求从最低级开始往上层层的请求，当在某一层满足条件时，请求将被处理，当请求到最高层仍未满足时，则请求不会被处理。就是一个请求在这个链条的责任范围内，会被相应的处理，如果超出链条的责任范围外，请求不会被相应的处理。下面代码模拟这样的效果：创建一个政府抽象类,方便所有的具体政府部门继承它。 package 责任链模式; /** *
linux、mysql、nginx、tomcat 性能参数优化 ronin47
一、linux 系统内核参数 /etc/sysctl.conf文件常用参数 net.core.netdev_max_backlog = 32768 #允许送到队列的数据包的最大数目 net.core.rmem_max = 8388608 #SOCKET读缓存区大小 net.core.wmem_max = 8388608 #SOCKET写缓存区大
php命令行界面 dcj3sjt126com PHP cli
常用选项 php -v php -i PHP安装的有关信息 php -h 访问帮助文件 php -m 列出编译到当前PHP安装的所有模块执行一段代码 php -r 'echo "hello, world!";' php -r 'echo "Hello, World!\n";' php -r '$ts = filemtime("
Filter&Session 171815164 session
Filter HttpServletRequest requ = (HttpServletRequest) req; HttpSession session = requ.getSession(); if (session.getAttribute("admin") == null) { PrintWriter out = res.ge
连接池与Spring,Hibernate结合 g21121 Hibernate
前几篇关于Java连接池的介绍都是基于Java应用的，而我们常用的场景是与Spring和ORM框架结合，下面就利用实例学习一下这方面的配置。 1.下载相关内容： &nb
[简单]mybatis判断数字类型 53873039oycg mybatis
昨天同事反馈mybatis保存不了int类型的属性,一直报错，错误信息如下: Caused by: java.lang.NumberFormatException: For input string: "null" at sun.mis
项目启动时或者启动后ava.lang.OutOfMemoryError: PermGen space 程序员是怎么炼成的 eclipse jvm tomcat catalina.sh eclipse.ini
在启动比较大的项目时，因为存在大量的jsp页面，所以在编译的时候会生成很多的.class文件，.class文件是都会被加载到jvm的方法区中，如果要加载的class文件很多，就会出现方法区溢出异常 java.lang.OutOfMemoryError: PermGen space. 解决办法是点击eclipse里的tomcat，在
我的crm小结 aijuans crm
各种原因吧，crm今天才完了。主要是接触了几个新技术： Struts2、poi、ibatis这几个都是以前的项目中用过的。 Jsf、tapestry是这次新接触的，都是界面层的框架，用起来也不难。思路和struts不太一样，传说比较简单方便。不过个人感觉还是struts用着顺手啊，当然springmvc也很顺手，不知道是因为习惯还是什么。jsf和tapestry应用的时候需要知道他们的标签、主
spring里配置使用hibernate的二级缓存几步 antonyup_2006 java spring Hibernate xml cache
．在spring的配置文件中 applicationContent.xml，hibernate部分加入 xml 代码 <prop key="hibernate.cache.provider_class">org.hibernate.cache.EhCacheProvider</prop> <prop key="hi
JAVA基础面试题百合不是茶抽象实现接口 String类接口继承抽象类继承实体类自定义异常
/* * 栈（stack）：主要保存基本类型（或者叫内置类型）（char、byte、short、 *int、long、 float、double、boolean）和对象的引用，数据可以共享，速度仅次于 * 寄存器（register），快于堆。堆（heap）：用于存储对象。 */ &
让sqlmap文件 "继承" 起来 bijian1013 java ibatis sqlmap
多个项目中使用ibatis , 和数据库表对应的 sqlmap文件（增删改查等基本语句)，dao, pojo 都是由工具自动生成的, 现在将这些自动生成的文件放在一个单独的工程中，其它项目工程中通过jar包来引用，并通过"继承"为基础的sqlmap文件，dao,pojo 添加新的方法来满足项
精通Oracle10编程SQL(13)开发触发器 bijian1013 oracle 数据库 plsql
/* *开发触发器 */ --得到日期是周几 select to_char(sysdate+4,'DY','nls_date_language=AMERICAN') from dual; select to_char(sysdate,'DY','nls_date_language=AMERICAN') from dual; --建立BEFORE语句触发器 CREATE O
【EhCache三】EhCache查询 bit1129 ehcache
本文介绍EhCache查询缓存中数据，EhCache提供了类似Hibernate的查询API，可以按照给定的条件进行查询。要对EhCache进行查询，需要在ehcache.xml中设定要查询的属性数据准备 @Before public void setUp() { //加载EhCache配置文件 Inpu
CXF框架入门实例白糖_ spring Web 框架 webservice servlet
CXF是apache旗下的开源框架，由Celtix + XFire这两门经典的框架合成，是一套非常流行的web service框架。它提供了JAX-WS的全面支持，并且可以根据实际项目的需要，采用代码优先（Code First）或者 WSDL 优先（WSDL First）来轻松地实现 Web Services 的发布和使用，同时它能与spring进行完美结合。在apache cxf官网提供
angular.equals boyitech AngularJS AngularJS API AnguarJS 中文API angular.equals
angular.equals 描述: 比较两个值或者两个对象是不是相等。还支持值的类型，正则表达式和数组的比较。两个值或对象被认为是相等的前提条件是以下的情况至少能满足一项：两个值或者对象能通过=== （恒等）的比较两个值或者对象是同样类型，并且他们的属性都能通过angular
java-腾讯暑期实习生-输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A[0]*A[1]*...*A[i-1]*A[i+1] bylijinnan java
这道题的具体思路请参看何海涛的微博：http://weibo.com/zhedahht import java.math.BigInteger; import java.util.Arrays; public class CreateBFromATencent { /** * 题目：输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A
FastDFS 的安装和配置修订版 Chen.H linux fastDFS 分布式文件系统
FastDFS Home:http://code.google.com/p/fastdfs/ 1. 安装 http://code.google.com/p/fastdfs/wiki/Setup http://hi.baidu.com/leolance/blog/item/3c273327978ae55f93580703.html 安装libevent (对libevent的版本要求为1.4.
[强人工智能]拓扑扫描与自适应构造器 comsci 人工智能
当我们面对一个有限拓扑网络的时候,在对已知的拓扑结构进行分析之后,发现在连通点之后,还存在若干个子网络,且这些网络的结构是未知的,数据库中并未存在这些网络的拓扑结构数据....这个时候,我们该怎么办呢? 那么,现在我们必须设计新的模块和代码包来处理上面的问题
oracle merge into的用法 daizj oracle sql merget into
Oracle中merge into的使用 http://blog.csdn.net/yuzhic/article/details/1896878 http://blog.csdn.net/macle2010/article/details/5980965 该命令使用一条语句从一个或者多个数据源中完成对表的更新和插入数据. ORACLE 9i 中，使用此命令必须同时指定UPDATE 和INSE
不适合使用Hadoop的场景 datamachine hadoop
转自：http://dev.yesky.com/296/35381296.shtml。　　Hadoop通常被认定是能够帮助你解决所有问题的唯一方案。当人们提到“大数据”或是“数据分析”等相关问题的时候，会听到脱口而出的回答：Hadoop! 实际上Hadoop被设计和建造出来，是用来解决一系列特定问题的。对某些问题来说，Hadoop至多算是一个不好的选择，对另一些问题来说，选择Ha
YII findAll的用法 dcj3sjt126com yii
看文档比较糊涂，其实挺简单的： $predictions=Prediction::model()->findAll("uid=:uid",array(":uid"=>10)); 第一个参数是选择条件：”uid=10″。其中:uid是一个占位符，在后面的array(“:uid”=>10)对齐进行了赋值；更完善的查询需要
vim 常用 NERDTree 快捷键 dcj3sjt126com vim
下面给大家整理了一些vim NERDTree的常用快捷键了，这里几乎包括了所有的快捷键了，希望文章对各位会带来帮助。切换工作台和目录 ctrl + w + h 光标 focus 左侧树形目录ctrl + w + l 光标 focus 右侧文件显示窗口ctrl + w + w 光标自动在左右侧窗口切换ctrl + w + r 移动当前窗口的布局位置 o 在已有窗口中打开文件、目录或书签，并跳
Java把目录下的文件打印出来蕃薯耀列出目录下的文件文件夹下面的文件目录下的文件
Java把目录下的文件打印出来 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月11日 11:02:
linux远程桌面----VNCServer与rdesktop hanqunfeng Desktop
windows远程桌面到linux，需要在linux上安装vncserver，并开启vnc服务，同时需要在windows下使用vnc-viewer访问Linux。vncserver同时支持linux远程桌面到linux。 linux远程桌面到windows，需要在linux上安装rdesktop，同时开启windows的远程桌面访问。下面分别介绍，以windo
guava中的join和split功能 jackyrong java
guava库中，包含了很好的join和split的功能，例子如下： 1）将LIST转换为使用字符串连接的字符串 List<String> names = Lists.newArrayList("John", "Jane", "Adam", "Tom");
Web开发技术十年发展历程 lampcy android Web 浏览器 html5
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
架构师之mima-----------------mina的非NIO控制IOBuffer(说得比较好) nannan408 buffer
1.前言。如题。 2.代码。 IoService IoService是一个接口，有两种实现：IoAcceptor和IoConnector；其中IoAcceptor是针对Server端的实现，IoConnector是针对Client端的实现；IoService的职责包括： 1、监听器管理 2、IoHandler 3、IoSession
ORA-00054:resource busy and acquire with NOWAIT specified Everyday都不同 oracle session Lock
[Oracle] 今天对一个数据量很大的表进行操作时，出现如题所示的异常。此时表明数据库的事务处于“忙”的状态，而且被lock了，所以必须先关闭占用的session。 step1，查看被lock的session： select t2.username, t2.sid, t2.serial#, t2.logon_time from v$locked_obj
javascript学习笔记 tntxia JavaScript
javascript里面有6种基本类型的值:number、string、boolean、object、function和undefined。number：就是数字值，包括整数、小数、NaN、正负无穷。string:字符串类型、单双引号引起来的内容。boolean:true、false object:表示所有的javascript对象，不用多说function:我们熟悉的方法，也就是
Java enum的用法详解 xieke90 enum 枚举
Java中枚举实现的分析：示例： public static enum SEVERITY{ INFO,WARN,ERROR } enum很像特殊的class，实际上enum声明定义的类型就是一个类。而这些类都是类库中Enum类的子类 (java.l