咘雷扎克

大数据篇：ElasticSearch

ElasticSearch是什么

ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口。Elasticsearch是用Java语言开发的，并作为Apache许可条款下的开放源码发布，是一种流行的企业级搜索引擎。ElasticSearch用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。官方客户端在Java、.NET（C#）、PHP、Python、Apache Groovy、Ruby和许多其他语言中都是可用的。根据DB-Engines的排名显示，Elasticsearch是最受欢迎的企业搜索引擎，其次是Apache Solr，也是基于Lucene。

当然，Elasticsearch 不仅仅是 Lucene，并且也不仅仅只是一个全文搜索引擎。它可以被下面这样准确地形容:

一个分布式的实时文档存储，每个字段可以被索引与搜索；

一个分布式实时分析搜索引擎；

能胜任上百个服务节点的扩展，并支持 PB 级别的结构化或者非结构化数据；

主要用于全文搜索，结构化搜索，分析。

全文检索：将非结构化数据中的一部分信息提取出来，重新组织，使其变得具有一定的结构，然后对此有一定结构的数据进行搜索，从而达到搜索相对较快的目的。

结构化检索：传统SQL就是结构化检索。

由于Elasticsearch的功能强大和使用简单，维基百科、卫报、Stack Overflow、GitHub等都纷纷采用它来做搜索。现在，Elasticsearch已成为全文搜索领域的主流软件之一。

0 ElasticSearch 和 Mysql的对比

Mysql	ElasticSearch
database（数据库）	index(索引库)
table(表)	type（类型）
row（一行记录）	document(文档)
column(列)	field（字段）
schema(约束)	mapping(映射)

Index
索引包含一堆有相似结构的文档数据，比如商品索引，订单索引。可以理解为数据库，

一个index包含很多document。
Type
每个索引都可以有一个或者多个type，type是index中的一个逻辑数据分类，一个type下的document，都具有相同的field，可以理解为数据库中的表，比如一个商品index下有生鲜商品type，日用品type，这两个type就具有不同的字段。
Document
文档是es中的最小数据单元，一个document就是一条数据，可以理解为表里的一行数据。
Field
列是es中的最小单位，可以理解为表里的数据字段。
Mapping
数据如何存放到索引对象上，需要有一个映射配置，包括：数据类型、是否存储、是否分词等。
索引区域和数据区域
逻辑上在type中存在索引区域和数据区域。

数据在存入es时，先找到对应的index(数据库)，再找到对应的type(表)，将数据进行切词，词语对应document的id号放入索引区域，数据放入数据区域。

搜索时通过倒排索引，在索引区域找到对应词语的documentID，去数据区域拿取数据进行返回。

1 ElasticSearch 安装

下载地址：https://github.com/elastic/elasticsearch/releases
百度网盘下载地址：https://pan.baidu.com/s/1yCH-DX9z2U3smW0_73Yozg 提取码：qh4m
推荐使用7.4.2版本，下文使用7.3.1版本讲解安装
注意事项：
- 需要jdk环境11以上(使用12)
- 只允许普通用户操作，不允许root用户否则会抛出如下异常：
- org.elasticsearch.bootstrap.StartupException: java.lang.RuntimeException: can not run elasticsearch as root

安装准备

创建新用户el

#添加用户
useradd es
#修改密码
passwd es

修改环境
vim /etc/security/limits.conf

#添加如下内容
* soft nofile 65536
* hard nofile 131072
* soft nproc 4096
* hard nproc 4096
#没报内存问题暂时不需要
#* hard memlock unlimited
#* soft memlock unlimited

vim /etc/security/limits.d/20-nproc.conf

#修改如下内容
*          soft    nproc     4096

vim /etc/sysctl.conf

#在末尾添加
vm.max_map_count=655360

sysctl -p（输入该命令使配置生效）
vim /etc/systemd/system.conf

DefaultLimitNOFILE=65536

DefaultLimitNPROC=32000

DefaultLimitMEMLOCK=infinity

reboot重启系统

1.1 linux安装java

https://www.oracle.com/java/technologies/javase-downloads.html
百度网盘地址：https://pan.baidu.com/s/14Ew1cQwf0q72B_JsQ64wcw 提取码：ruqy

#1 修改配置文件，加入如下配置
vim /etc/profile

#jdk
export JAVA_HOME=/usr/local/src/jdk12/jdk-12.0.2
export PATH=$JAVA_HOME/bin:$PATH
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

#2 更新配置文件
source /etc/profile
#3 检查java版本
java -version

1.2 ES单机版安装

上传tar包到服务器

解压

tar -zxvf elasticsearch-7.3.1-linux-x86_64.tar.gz

修改解压后文件夹权限
```
chown -R es:es elasticsearch-7.3.1
```

进入conf文件夹，修改elasticsearch.yml文件

vim elasticsearch.yml
#如下是修改及添加内容
cluster.name: es-cluster  #设置集群的名称
node.name: master     #修改当前节点的hostname名称
path.data: /usr/local/src/elasticsearch/elasticsearch-7.3.1/data  #修改数据路径
path.logs: /usr/local/src/elasticsearch/elasticsearch-7.3.1/logs  #修改日志路径
bootstrap.memory_lock: false   #设置ES节点允许内存交换
network.host: 192.168.74.10    #设置当前主机IP
discovery.seed_hosts: ["master"]
#如下两个配置为es服务器允许别的插件服务访问
http.cors.enabled: true
http.cors.allow-origin: "*"

进入bin目录，切换之前建立的普通用户
```
su es
./elasticsearch
```

使用restful调用

curl -XGET http://192.168.192.11:9200

使用浏览器调用

1.3 ES集群版安装

上传tar包到集群服务器

解压

tar -zxvf elasticsearch-7.3.1-linux-x86_64.tar.gz

修改解压后文件夹权限
```
chown -R es:es elasticsearch-7.3.1
```

进入conf文件夹，修改elasticsearch.yml文件(vim 输入:set paste在粘贴)

主节点

#设置集群的名称
cluster.name: es-cluster  
#当前节点的hostname名称
node.name: master    
#设置是否能成为主节点，false是永远不可能成为主节点，true：表示有可能成为主节点，并不一定。跟指定的参 数cluster.initial_master_nodes 有关系。当所有node都可为主节点时，如果主节点宕机，其他节点会再次选举一个新的主节点.
node.master: true
#当前节点是否用于存储数据
node.data: true      
#修改索引存放路径
path.data: /usr/local/src/elasticsearch/elasticsearch-7.3.1/data  
 #修改日志存放路径
path.logs: /usr/local/src/elasticsearch/elasticsearch-7.3.1/logs 
#是否锁住ES节点内存交换
bootstrap.memory_lock: true   
#监听IP，用于访问ES
network.host: 192.168.192.10    
#ES对外提供的http监听端口
http.port: 9200       
 # TCP的默认监听端口，默认 9300
transport.tcp.port: 9300      
# 设置这个参数来保证集群中的节点可以知道其它N个有master资格的节点。默认为1，对于大的集群来说，可以设置大一点的值（2-4）
discovery.zen.minimum_master_nodes: 2  
#es7.x 之后新增的配置，写入候选主节点的设备地址，在开启服务后可以被选为主节点
discovery.seed_hosts: ["master:9300","slave1:9300","slave2:9300"]
discovery.zen.fd.ping_timeout: 1m
discovery.zen.fd.ping_retries: 5
# es7.x 之后新增的配置，初始化一个新的集群时需要此配置来选举master
cluster.initial_master_nodes: ["master","slave1","slave2"] #主节点配置
# 是否支持跨域，是：true，在使用head插件时需要此配置,“*” 表示支持所有域名
http.cors.enabled: true
http.cors.allow-origin: "*"
action.destructive_requires_name: true
action.auto_create_index: .security,.monitoring*,.watches,.triggered_watches,.watcher-history*
xpack.security.enabled: false
xpack.monitoring.enabled: true
xpack.graph.enabled: false
xpack.watcher.enabled: false
xpack.ml.enabled: false

从节点1

#设置集群的名称
cluster.name: es-cluster  
#修改当前节点的hostname名称
node.name: slave1
#设置是否能成为主节点，false是永远不可能成为主节点，true：表示有可能成为主节点，并不一定。跟指定的参 数cluster.initial_master_nodes 有关系。当所有node都可为主节点时，如果主节点宕机，其他节点会再次选举一个新的主节点.
node.master: true
#当前节点是否用于存储数据
node.data: true      
#修改索引存放路径
path.data: /usr/local/src/elasticsearch/elasticsearch-7.3.1/data  
 #修改日志存放路径
path.logs: /usr/local/src/elasticsearch/elasticsearch-7.3.1/logs 
#是否锁住ES节点内存交换
bootstrap.memory_lock: true   
#监听IP，用于访问ES
network.host: 192.168.192.11    
#ES对外提供的http监听端口
http.port: 9200       
 # TCP的默认监听端口，默认 9300
transport.tcp.port: 9300      
# 设置这个参数来保证集群中的节点可以知道其它N个有master资格的节点。默认为1，对于大的集群来说，可以设置大一点的值（2-4）
discovery.zen.minimum_master_nodes: 2  
#es7.x 之后新增的配置，写入候选主节点的设备地址，在开启服务后可以被选为主节点
discovery.seed_hosts: ["master:9300","slave1:9300","slave2:9300"]
discovery.zen.fd.ping_timeout: 1m
discovery.zen.fd.ping_retries: 5
# es7.x 之后新增的配置，初始化一个新的集群时需要此配置来选举master
cluster.initial_master_nodes: ["master","slave1","slave2"] #主节点配置
# 是否支持跨域，是：true，在使用head插件时需要此配置,“*” 表示支持所有域名
http.cors.enabled: true
http.cors.allow-origin: "*"
action.destructive_requires_name: true
action.auto_create_index: .security,.monitoring*,.watches,.triggered_watches,.watcher-history*
xpack.security.enabled: false
xpack.monitoring.enabled: true
xpack.graph.enabled: false
xpack.watcher.enabled: false
xpack.ml.enabled: false

从节点2

#设置集群的名称
cluster.name: es-cluster  
#修改当前节点的hostname名称
node.name: slave2
#设置是否能成为主节点，false是永远不可能成为主节点，true：表示有可能成为主节点，并不一定。跟指定的参 数cluster.initial_master_nodes 有关系。当所有node都可为主节点时，如果主节点宕机，其他节点会再次选举一个新的主节点.
node.master: true
#当前节点是否用于存储数据
node.data: true      
#修改索引存放路径
path.data: /usr/local/src/elasticsearch/elasticsearch-7.3.1/data  
 #修改日志存放路径
path.logs: /usr/local/src/elasticsearch/elasticsearch-7.3.1/logs 
#是否锁住ES节点内存交换
bootstrap.memory_lock: true   
#监听IP，用于访问ES
network.host: 192.168.192.12    
#ES对外提供的http监听端口
http.port: 9200       
 # TCP的默认监听端口，默认 9300
transport.tcp.port: 9300      
# 设置这个参数来保证集群中的节点可以知道其它N个有master资格的节点。默认为1，对于大的集群来说，可以设置大一点的值（2-4）
discovery.zen.minimum_master_nodes: 2  
#es7.x 之后新增的配置，写入候选主节点的设备地址，在开启服务后可以被选为主节点
discovery.seed_hosts: ["master:9300","slave1:9300","slave2:9300"]
discovery.zen.fd.ping_timeout: 1m
discovery.zen.fd.ping_retries: 5
# es7.x 之后新增的配置，初始化一个新的集群时需要此配置来选举master
cluster.initial_master_nodes: ["master","slave1","slave2"] #主节点配置
# 是否支持跨域，是：true，在使用head插件时需要此配置,“*” 表示支持所有域名
http.cors.enabled: true
http.cors.allow-origin: "*"
action.destructive_requires_name: true
action.auto_create_index: .security,.monitoring*,.watches,.triggered_watches,.watcher-history*
xpack.security.enabled: false
xpack.monitoring.enabled: true
xpack.graph.enabled: false
xpack.watcher.enabled: false
xpack.ml.enabled: false

集群所有节点进入bin目录，切换之前建立的普通用户
```
su es
./elasticsearch
```
成功如下

使用restful调用
```
curl -XGET http://192.168.192.10:9200
```

使用浏览器调用

1.4 ElasticSearch Chrome插件

BIgDesk插件用于监控es集群

kibana用于读取es中索引库的type信息，并使用可视化图表的方式展示出来。

cerebro漂亮的es查询工具

1.5 kibana 安装

下载地址：https://www.elastic.co/cn/downloads/kibana
百度网盘下载地址：https://pan.baidu.com/s/1YmFdSOysZ9QxlO15avZraA 提取码：9oio
下载解压

tar -zxvf kibana-7.3.1-linux-x86_64.tar.gz
#修改配置文件，添加如下内容
vim kibana-7.3.1-linux-x86_64/config/kibana.yml

server.host: "192.168.192.10"
elasticsearch.hosts: ["http://192.168.192.10:9200","http://192.168.192.11:9200","http://192.168.192.12:9200"]

启动(kibana不建议以root用户启动，如果用root启动，需要加--allow-root)
```
./bin/kibana --allow-root
```
访问5601端口

可以选择试试数据样本或者直接开始探索
这里选择Try our sample data，将数据导入ES中，方便后面学习使用。

可以选择添加仪表盘的各种视图，玩玩吧。

1.6 Open Distro For Elasticsearch

Open Distro for Elasticsearch使您可以使用熟悉的SQL查询语法从Elasticsearch中提取见解。使用聚合，分组依据和where子句来调查数据。以JSON文档或CSV表的形式读取数据，因此您可以灵活地使用最适合自己的格式，也就是抛弃DSL，多好啊！

1.6.1 Open Distro For Elasticsearch 搭建

https://github.com/opendistro-for-elasticsearch/sql/releases
注意查看对应es版本，由于这里采用es7.4.2，所以sql插件选择1.4.0.0
太慢可以点这里下载解压：https://files.cnblogs.com/files/ttzzyy/sql-1.4.0.0.tar.gz

tar -zxvf sql-1.4.0.0.tar.gz
cd sql-1.4.0.0

#1 修改build.gradle
vim build.gradle    

#将（有两个地方）
    repositories {
        mavenCentral()
    }
#修改为
    repositories {
        maven { url 'https://maven.aliyun.com/repository/central' }
        maven { url 'https://maven.aliyun.com/repository/apache-snapshots' }
        maven { url 'https://maven.aliyun.com/repository/gradle-plugin' }
        maven { url 'https://maven.aliyun.com/repository/google' }
        maven { url 'https://maven.aliyun.com/repository/jcenter' }
        maven { url 'https://maven.aliyun.com/repository/publics' }
        maven { url 'http://repo1.maven.org/maven2' }
        maven { url 'http://repo2.maven.org/maven2' }
        mavenCentral()
    }
    
#2 修改gradle.properties
vim gradle.properties

org.gradle.daemon=true  // 开启线程守护，第一次编译时开线程，之后就不会再开了
org.gradle.parallel=true  // 开启并行编译，相当于多条线程再走
org.gradle.configureondemand=true   启用新的孵化模式

#3 构建
./gradlew build

编译过后，sql-1.4.0.0/build/distributions/opendistro_sql-1.4.0.0.zip会有一个这个包
需要VPN，如果编译不了可以在这里下载
所有节点安装插件

/usr/local/src/elasticsearch/elasticsearch-7.4.2/bin/elasticsearch-plugin install file:///usr/local/src/sql-1.4.0.0/build/distributions/opendistro_sql-1.4.0.0.zip

重启ES集群

1.6.2 elasticsearch-sql 使用

参照https://github.com/opendistro-for-elasticsearch/sql

GET /_opendistro/_sql?sql=SELECT * FROM ecommerce WHERE order_id>'600000'

POST _opendistro/_sql
{
  "query": "SELECT sum(products.base_price) FROM ecommerce WHERE order_id>'600000'"
}

2 ElasticSearch 数据类型

2.1文本类型

2.1.1 text 文本数据类型

用于索引全文值的字段。使用文本数据类型的字段，它们会被分词，在索引之前将字符串转换为单个术语的列表(倒排索引)，分词过程允许ES搜索每个全文字段中的单个单词。文本字段不用于排序，很少用于聚合（重要的术语聚合是一个例外）。什么情况适合使用text datatype，只要不具备唯一性的字符串一般都可以使用text，例如：电子邮件正文，商品介绍，个人简介

①analyzer：指明该字段用于索引时和搜索时的分析字符串的分词器（使用search_analyzer可覆盖它）。默认为索引分析器或标准分词器

②fielddata：指明该字段是否可以使用内存中的fielddata进行排序，聚合或脚本编写？默认值为false，可取值true或false。（排序，分组需要指定为true）

③fields：text类型字段会被分词搜索，不能用于排序，而当字段既要能被搜索，又要能够排序，就要设置fields为keyword进行聚合排序。

④index：设置该字段是否可以用于搜索。默认为true，表示可以用于搜索。

⑤search_analyzer：设置在搜索时，用于分析该字段的分析器，默认是【analyzer】参数的值。

⑥search_quote_analyzer：设置在遇到短语搜索时，用于分析该字段的分析器，默认是【search_analyzer】参数的值。

PUT test_index
{
  "mappings": {
    "doc":{
      "properties": {
        "title":{
          "type": "text"
        }
      }       
    }
  }
}

PUT test_index
{
  "mappings": {
      "properties": {
        "title":{
          "type": "text",
          "analyzer": "standard",
          "fielddata": true,
          "fields": {
            "sort":{
              "type": "keyword"
            }
          },
          "index": true,
          "search_analyzer": "standard"
        }
      }       
    }
}

#插入两条数据，测试一下
PUT test_index/_doc/1
{
  "title": "York"
}

PUT test_index/_doc/2
{
  "title": "NEW York"
}

#查询测试
GET test_index/_search
{
  "query": {
    "match": {
      "title": "york" 
    }
  },
  "sort": {
    "title.sort": "asc" 
  }
}

2.1.2 keyword 关键字数据类型

keyword datatype，关键字数据类型，用于索引结构化内容的字段。使用keyword类型的字段，其不会被分析，给什么值就原封不动地按照这个值索引，所以关键字字段只能按其确切值进行搜索，通常用于过滤、排序和聚合。什么情况下使用keyword datatype，具有唯一性的字符串，例如：电子邮件地址、MAC地址、身份证号、状态代码...

①eager_global_ordinals：指明该字段是否加载全局序数？默认为false，不加载。对于经常用于术语聚合的字段，启用此功能是个好主意。

②fields：指明能以不同的方式索引该字段相同的字符串值，例如用于搜索的一个字段和用于排序和聚合的多字段

③ignore_above：不要索引长于此值的任何字符串。默认为2147483647，以便接受所有值

④index：指明该字段是否可以被搜索，默认为true，表示可以被搜索

⑤index_options：指定该字段应将哪些信息存储在索引中，以便用于评分。默认为docs，但也可以设置为freqs，这样可以在计算分数时考虑术语频率

⑥norms：在进行查询评分时，是否需要考虑字段长度，默认为false，不考虑

PUT test_index
{
  "mappings": {
      "properties": {
        "title":{
          "type": "keyword",
          "eager_global_ordinals": true,
          "fields": {
            "sort":{
              "type":"text"
            }
          },
          "ignore_above": 1024,
          "index": true,
          "index_options": "freqs",
          "norms": true
        }
      }       
    }
}

2.2 数字类型

数字类型，这类数据类型都是以确切值索引的，可以使用"term"查询精确匹配。

ES支持的数字类型有

long	带符号的64位整数，最小值-263，最大值263-1
integer	带符号的32位整数，最小值-231，最大值231-1
short	带符号的16位整数，最小值-32768，最大值32767
byte	带符号的8位整数，最小值-128，最小值127
double	双精度64位IEEE 754 浮点数
float	单精度32位IEEE 754 浮点数
half_float	半精度16位IEEE 754 浮点数
scaled_float	带有缩放因子的缩放类型浮点数

①coerce：是否尝试将字符串转换为整数并截断整数的分数，默认为true，是

②ignore_malformed：如果为true，则忽略格式错误的数字；如果为false则格式错误的数字会抛出异常并拒绝整个文档，默认false

③index：指明该字段是否被搜索。默认为true，表示可以被搜索

④null_value：指明一个与该字段相同类型的值去替换掉该字段中的null。默认为null，表示该字段被视为缺失

注意点
- double、float、half_float这3种浮点型数据类型，认为-0.0和0.0是不同的值。这意味着在-0.0上进行查询(match or term)匹配不到0.0，反之亦然；范围查询也是如此：如果上限为-0.0则0.0将不匹配，如果下限为0.0则-0.0将不匹配。
- 就整数类型（byte，short，integer和long）而言，要选择满足实际需求的最小类型，这有助于索引和搜索。但请注意：ES存储数据是根据存储的实际值进行优化的，因此选择一种类型而不是另一种类型，将不会影响存储要求。
- scaled_float类型需要格外注意：必须指定缩放因子scaling_factor。ES索引时，原始值会乘以该缩放因子并四舍五入得到新值，ES内部储存的是这个新值，但返回结果仍是原始值。例如：scale_factor为10的scaled_float字段将在内部存储2.34为23，查询时，ES都会将查询参数*10再四舍五入得到的值与23匹配，若能匹配到返回结果为2.34

PUT test_index
{
  "mappings": {
      "properties": {
        "number1":{
          "type": "long"
        },
        "number2":{
          "type": "integer"
        },
        "number3":{
          "type": "short"
        },
        "number4":{
          "type": "byte"
        },
        "number5":{
          "type": "double"
        },
        "number6":{
          "type": "float"
        },
        "number7":{
          "type": "half_float"
        },
        "number8":{
          "type": "scaled_float",
          "scaling_factor": 100
        }
      }       
    }
}

#添加两条数据
#21.2121*100四舍五入得到2121储存结果
#21.2155*100四舍五入得到2122储存结果
PUT test_index/_doc/1
{
  "number8": 21.2121
}

PUT test_index/_doc/2
{
  "number8": 21.2155
}

#查询测试
#21.2133*100四舍五入得到2121匹配上面插入的_id=1的数据
#21.2199*100四舍五入得到2122匹配上面插入的_id=2的数据
GET test_index/_search
{
  "query": {
    "match": {
      "number8": 21.2133
    }
  }
}

GET test_index/_search
{
  "query": {
    "match": {
      "number8": 21.2199
    }
  }
}

2.3 日期类型

日期数据类型。

由于JSON中没有表示日期的数据类型，所以ES中的日期可以表示为:
- 日期格式化后的字符串，如："2018-01-01"或"2018/01/01 11:11:11"
- long类型值表示自纪元以来的毫秒数
- integer类型值表示自纪元以来的秒数
如果指定了时区，ES将日期转换为UTC，然后再存储为自纪元以来的毫秒数(long类型)。
当字段被设置为date类型时，可以自定义日期格式，但如果未指定格式，则使用默认格式："strict_date_optional_time||epoch_millis"
若未指定自定义日期格式，在保存日期的时候容易出错。若未指定日期格式，ES采用默认日期格式：严格日期格式或者时间戳，例如:
- 2020-01-01 ---- yes
- 2020/01/01 ---- no
- 2020-01-1 ---- no
- 1577808000000 ---- yes
在使用date类型字段进行排序时，返回的排序值都是以毫秒为单位

①format：自定义的日期格式，默认：strict_date_optional_time || epoch_millis

②ignore_malformed：若为true，则忽略格式错误的数字；若为false，则格式错误的数字会抛出异常并拒绝整个文档。默认false

③index：指明该字段是否可以被搜索，true为可以，默认true

④null_value：接受其中一个配置格式的日期值作为替换任何显式空值的字段。默认为null，表示该字段被视为缺失

PUT test_index
{
  "mappings": {
      "properties": {
        "date1":{
          "type": "date"
        },
        "date2":{
          "type": "date",
          "format": "yyyy-MM-dd HH:mm:ss"
        },
        "date3":{
          "type": "date",
          "format": "yyyy-MM-dd HH:mm:ss||yyyy/MM/dd||epoch_millis"
        }
      }       
    }
}
#添加2条数据
PUT test_index/_doc/1
{
  "date1": 1577808000000,
  "date2": "2020-01-01 00:00:00",
  "date3": "2020/01/01"
}

PUT test_index/_doc/2
{
  "date1": 1577808000001,
  "date2": "2020-01-01 00:00:01",
  "date3": "2020/01/01"
}

#查询测试
GET test_index/_search
{
  "sort": [
    {
      "date2": {
        "order": "desc"
      }
    }
  ]
}

2.4 范围类型

范围数据类型。具有大小关系的一个值区间，所以会用到gt、gte、lt、lte..等逻辑表示符。

ES支持下面6种范围数据类型
- integer_range，带符号的32位整数区间，最小值-231，最大值231-1
- long_range，带符号的64位整数区间，最小值-263，最小值263-1
- float_range，单精度32位IEEE 754浮点数区间
- double_range，双精度64位IEEE 754浮点数区间
- date_range，日期值范围，表示为系统纪元以来经过的无符号64位整数毫秒
- ip_range，支持IPv4或IPv6（或混合）地址ip值范围

PUT test_index
{
  "mappings": {
      "properties": {
        "data1":{
          "type": "integer_range"
        },
        "data2":{
          "type": "float_range"
        },
        "data3":{
          "type": "date_range",
          "format": "yyyy-MM-dd HH:mm:ss"
        },
        "data4":{
          "type": "ip_range"
        }
      }       
    }
}

#添加数据
PUT test_index/_doc/1
{
  "date1": {
    "gte": 100,
    "lte": 200
  },
    "date2": {
    "gte": 21.21,
    "lte": 22.00
  },
    "date3": {
    "gte": "2020-01-01 00:00:00",
    "lte": "2020-01-02 00:00:00"
  },
    "date4": {
    "gte": "192.168.192.10",
    "lte": "192.168.192.11"
  }
}

#查询测试
GET test_index/_search

2.5 数组类型

数组类型。默认情况下，任何字段都可以包含零个或多个值，当包含多个值时，它就表示array datatype了。但是，数组中的所有值必须具有相同的数据类型(要么同为字符串，要么同为整型，不能数组中一些值为字符串，另一些值为整型)

当数组里面放的是对象(object datatype)，即对象数组时，要改为使用nested datatype。
在动态添加字段时，ES从数组中的第一个值确定字段类型，所有后续值必须具有相同的数据类型，或者必须至少可以将后续值强制转换为相同的数据类型。
使用array datatype，不需要预先配置，它们是开箱即用的。(不像整型，它需要手动定义type: "integer")
使用_mapping查看索引的映射类型时，array datatype不会被写出来，还是以数组的元素的基本类型来表示。

PUT test_index
{
  "mappings": {
      "properties": {
        "data1":{
          "type": "long"
        },
        "data2":{
          "type": "text"
        }
      }       
    }
}

#添加数据
PUT test_index/_doc/1
{
  "date1": [1,2,3],
  "date2": ["a","b","c"]
}

#查询测试
GET test_index/_search

2.6 对象类型

即对象类型。一个文档的一个属性可以是一个内部对象，而且，这个内部对象，可以再包含一个内部对象..(可以有多层嵌套)

整个外部文档是一个JSON对象
在ES内部，这种文档会被索引成一种简单平坦的键值对列表(平铺)

PUT test_index
{
  "mappings": {
    "properties": {
      "persion":{
        "type": "object"
      }
    }
  }
}


PUT test_index/_doc/1
{
  "persion": [
    {
      "first": "li",
      "last": "si"
    },
    {
      "first": "李",
      "last": "四"
    }
    ]
}

PUT test_index/_doc/2
{
  "persion": [
    {
      "first": "li",
      "last": "四"
    },
    {
      "first": "李",
      "last": "si"
    }
    ]
}

#查询测试1
GET test_index/_search

无法做到对象中数组独立索引和查询

#查询测试
GET test_index/_search
{
  "query": {
    "bool": {
      "must": [
        { "match": { "persion.first": "li" }},
        { "match": { "persion.last":  "si" }}
      ]
    }
  }
}

出现问题，不正确的匹配。使用nested嵌套对象类型解决
原因：对象类型里的数组类型会将字段平铺为多值字段，因此 li si 之间的关联关系会消失，会将上面的文档转换成如下格式:
{

persion.first:["li 李"]

persion.last:["四 si"]

}

2.7 嵌套对象类型

嵌套数据类型，是object datatype的专用版本，在文档属性是一个对象数组时使用，它允许对象数组彼此独立地编制索引和查询

PUT test_index
{
  "mappings": {
    "properties": {
      "persion":{
        "type": "nested"
      }
    }
  }
}

#添加数据
PUT test_index/_doc/1
{
  "persion": [
    {
      "first": "li",
      "last": "si"
    },
    {
      "first": "李",
      "last": "四"
    }
    ]
}

PUT test_index/_doc/2
{
  "persion": [
    {
      "first": "li",
      "last": "四"
    },
    {
      "first": "李",
      "last": "si"
    }
    ]
}

#查询测试
GET test_index/_search
{
  "query": {
    "nested": {
      "path": "persion",
      "query": {
        "bool": {
          "must": [
            { "match": { "persion.first": "li" }},
            { "match": { "persion.last":  "si" }}
          ]
        }
      }
    }
  }
}

2.8 地理类型

地址位置数据类型，可以用来表示经纬度。

PUT test_index
{
  "mappings": {
    "properties": {
      "add":{
        "type": "geo_point"
      }
    }
  }
}

地理点表示为一个对象，lat属性表示维度，lon属性表示经度

PUT test_index/_doc/1
{
  "add":{
    "lat": 22.22,
    "lon": -22.22
  }
}

地理点表示为一个字符串，格式为："lat，lon"

PUT test_index/_doc/2
{
  "add": "22.22,-22.22"
}

地理点表示为一个geohash字符串

PUT test_index/_doc/3
{
  "add": "eebnqm5bukpn"
}

地理点表示为一个数组，格式为[lon,lat]，注意经纬度顺序字符串标识相反

PUT test_index/_doc/4
{
  "add": [-22.22,22.22]
}

3 ElasticSearch 基础操作

注意：

索引库名称必须要全部小写，不能以下划线开头，也不能包括逗号。
如果没有明确指定索引数据的ID，那么es会自动生成一个随机的ID，需要使用POST参数
PUT和POST进行更新时，是全局更新（可以理解为删除旧的，然后建立一个ID相同的新document）
POST和PUT都可以进行添加和更新操作，但是PUT是幂等方法，POST不是，所以PUT用于更新，POST用于新增比较合适。（幂等：无论多少次操作，最终结果一致）

3.1 创建索引库

#创建索引库(只能使用put)
curl -XPUT 'http://192.168.192.10:9200/twitter?pretty'

插件创建索引

3.2 添加索引内容

curl -XPOST 'http://192.168.192.10:9200/twitter/_doc/1?pretty' -H 'Content-Type: application/json' -d '
{
    "user": "kimchy",
    "post_date": "2009-11-15T13:12:00",
    "message": "Trying out Elasticsearch, so far so good?"
}'

curl -XPUT 'http://192.168.192.10:9200/twitter/_doc/2?pretty' -H 'Content-Type: application/json' -d '
{
    "user": "kimchy",
    "post_date": "2009-11-15T14:12:12",
    "message": "Another tweet, will it be indexed?"
}'

#不指定唯一ID标识，会自动生成，但是必须使用POST添加
curl -XPOST 'http://192.168.192.10:9200/twitter/_doc?pretty' -H 'Content-Type: application/json' -d '
{
    "user": "kimchy",
    "post_date": "2009-11-15T14:12:12",
    "message": "Another tweet, will it be indexed?"
}'

插件添加索引内容

3.3 更新索引

3.3.1 全局更新

post更新

curl -XPOST 'http://192.168.192.10:9200/twitter/_doc/1?pretty' -H 'Content-Type: application/json' -d '
{
    "user": "kimchy-post"
}'

put更新

curl -XPUT 'http://192.168.192.10:9200/twitter/_doc/2?pretty' -H 'Content-Type: application/json' -d '
{
    "user": "kimchy-put"
}'

从上面的结果我们看出，不想被更新的字段也被删除了

3.3.2 局部更新

需要使用_update动作命令

#必须使用POST
curl -XPOST 'http://192.168.192.10:9200/twitter/_doc/fl4Te3ABJGbFfeWwGLCX/_update?pretty' -H 'Content-Type: application/json' -d '
{
   "doc":{
   "user": "kimchy-update"
   }
}'

从上面看出做到了局部更新

3.4 查询索引

根据ID查看

curl -XGET 'http://192.168.192.10:9200/twitter/_doc/1?pretty' -H 'Content-Type: application/json'

查询指定字段(_source)

curl -XGET 'http://192.168.192.10:9200/twitter/_doc/fl4Te3ABJGbFfeWwGLCX?_source=user,message&pretty' -H 'Content-Type: application/json'

只获取source数据

curl -XGET 'http://192.168.192.10:9200/twitter/_doc/fl4Te3ABJGbFfeWwGLCX/_source?pretty' -H 'Content-Type: application/json'

查询所有(_search)

curl -XGET 'http://192.168.192.10:9200/twitter/_doc/_search?pretty' -H 'Content-Type: application/json'

还有很多高级用法，请参考3.7的拓展

3.5 删除索引

curl -XDELETE 'http://192.168.192.10:9200/twitter/_doc/1?pretty' -H 'Content-Type: application/json'

3.6 批处理bulk

bulk 好处就是可以在一个文件里面执行 create update delete 等操作

如下面要进行什么操作，遵守什么格式就可以了。

3.6.1 新增案例

创建批处理文件test.json

{"index":{"_id":"3"}}
{"user":"kimchy3","post_date":"2009-11-15T13:12:00","message":"Trying out Elasticsearch, so far so good?"}
{"index":{"_id":"4"}}
{"user":"kimchy4","post_date":"2009-11-15T13:12:00","message":"Trying out Elasticsearch, so far so good?"}
{"index":{"_id":"5"}}
{"user":"kimchy5","post_date":"2009-11-15T13:12:00","message":"Trying out Elasticsearch, so far so good?"}

执行命令

curl -XPOST 'http://192.168.192.10:9200/twitter/_doc/_bulk?pretty' -H 'Content-Type: application/json' --data-binary '@/root/test/test.json'

3.6.2 删除操作

创建批处理文件test.json

{ "delete":{"_id" : 2}}
{ "delete":{"_id" : 3}}

执行命令

curl -XPOST 'http://192.168.192.10:9200/twitter/_doc/_bulk?pretty' -H 'Content-Type: application/json' --data-binary '@/root/test/test.json'

3.6.3 更新操作

创建批处理文件test.json

{"index":{"_id":"4"}}
{"user":"test4"}
{"index":{"_id":"5"}}
{"user":"test5"}

执行命令

curl -XPOST 'http://192.168.192.10:9200/twitter/_doc/_bulk/_update?pretty' -H 'Content-Type: application/json' --data-binary '@/root/test/test.json'

3.7 kibana插件使用拓展

3.7.1 CRUD基础操作

查看所有索引 GET _cat/indices

添加索引 PUT twitter

查询twitter内容 GET twitter/_search

新增索引内容

POST twitter/_doc/1
{
    "user": "kimchy",
    "post_date": "2009-11-15T13:12:00",
    "message": "Trying out Elasticsearch, so far so good?"
}

查看具体某条记录 GET twitter/_doc/1

批量操作

POST twitter/_bulk
{"index":{"_id":"3"}}
{"user":"kimchy3","post_date":"2009-11-15T13:12:00","message":"Trying out Elasticsearch, so far so good?"}
{"index":{"_id":"4"}}
{"user":"kimchy4","post_date":"2009-11-15T13:12:00","message":"Trying out Elasticsearch, so far so good?"}

更新操作

POST twitter/_update/1
{
   "doc":{
   "user": "kimchy-update01"
   }
}

3.7.2 URI查询操作拓展

3.7.2.1 泛查询

GET kibana_sample_data_ecommerce/_search?q=38

3.7.2.2 字段匹配查询

索引名字太长，新建别名

普通字段匹配查询 GET ecommerce/_search?q=customer_id:38

数组字段匹配查询 GET ecommerce/_search?q=category:Men's

数组对象字段匹配查询 GET ecommerce/_search?q=category:Men's

3.7.2.3 字段多条件匹配

查询分类中有 '男士' 或 '服装' 的结果(||)
- GET ecommerce/_search?q=category:Men's Clothing
- GET ecommerce/_search?q=category:（+Men's +Clothing）
- 推荐写法：GET ecommerce/_search?q=category:（Men's Clothing）

查询分类中有 '男士' 且没有 '服装' 的结果
- GET ecommerce/_search?q=category:（+Men's -Clothing）

查询分类中有 '男士' 且有 '服装' 的结果(&&)
- GET ecommerce/_search?q=category:（Men's AND Clothing）
- AND必须大写

查询商品价格在20.00到30.00之间的结果(范围查询)
- GET ecommerce/_search?q=products.base_price:(>=20.00 AND <=30.00)

3.7.2.4 分页查询

从索引为0处查询分类中有 '男士' 的结果，只显示一条（分页）
- GET ecommerce/_search?q=category:(Men's)&from=0&size=1

3.7.3 DSL查询

ES支持一种JSON格式的查询，叫做DSL，domain specific language。

3.7.3.1 match匹配查询

查询分类包含 "男性" 或 “服装” 的结果

GET ecommerce/_search
{
  "query":{
    "match":{
      "category":"Men's Clothing"
    }
  }
}

3.7.3.2 query_string匹配查询

查询分类包含 "男性服装” 的结果

#写法一
GET ecommerce/_search
{
  "query": {
    "query_string": {
      "default_field": "category",
      "query": "Men's AND Clothing"
    }
  }
}

#写法二(条件OR AND)
GET ecommerce/_search
{
  "query": {
    "query_string": {
      "default_field": "category",
      "query": "Men's Clothing",
      "default_operator": "AND"
    }
  }
}

3.7.3.3 match_phrase 强匹配查询

查询包含 “男性服装” 的整体结果

GET ecommerce/_search
{
  "query":{
    "match_phrase":{
      "category":"Men's Clothing"
    }
  }
}

3.7.3.4 range范围查询

查询包含 “订单>=584677 <=584678” 的整体结果("gt" "lt" "gte" "lte")

GET ecommerce/_search
{
  "query":{
    "range":{
      "order_id":{
        "gte":584677,
        "lte": 584678
      }
    }
  }
}

3.7.3.5 _source查询结果过滤

查询 “订单ID 和货币” 的结果

GET ecommerce/_search
{
  "_source": ["order_id","currency"]
}

3.7.3.6 sort排序

查询包含 “订单>=584677 <=584678” 的包含 “订单ID 和货币” 结果，并倒序排列

GET ecommerce/_search
{
  "_source": ["order_id","currency"],
  "query":{
    "range":{
      "order_id":{
        "gte":584677,
        "lte": 584678
      }
    }
  },
  "sort": [
    {
      "order_id": {
        "order": "desc"
      }
    }
  ]
}

3.7.3.7 multi_match多列匹配查询

type类型:

best_fields(默认)：在某一字段中匹配的越多，排名越靠前

most_fields：在多字段中匹配的越多，排名越靠前

cross_fields：查询越分散，排名越靠前

查询customer_first_name，customer_full_name中包含 “Eddie” 的结果

GET ecommerce/_search
{
  "_source": ["customer_first_name", "customer_full_name"],
  "query": {
    "multi_match": {
      "query": "Eddie",
      "fields": ["customer_first_name","customer_full_name"],
      "type": "best_fields"
    }
  }
}

3.7.3.8 bool多字段条件查询

必须 must

查询分类中包含“Men's” 或 "Clothing"，并且20<=customer_id<=50的结果

GET ecommerce/_search
{
  "query": {
    "bool": {
      "must": [
        {
          "match": {
            "category":"Men's Clothing"
          }
        },{
          "range": {
            "customer_id": {
              "gte": 20,
              "lte": 50
            }
          }
        }
      ]
    }
  }
}

必须不 must_not

查询分类中不包含“Men's” 或 "Clothing"，并且 40<=customer_id<=50 的结果

GET ecommerce/_search
{
  "query": {
    "bool": {
      "must_not": [
        {
          "match": {
            "category":"Men's Clothing"
          }
        }
      ],
      "must": [
        {
          "range": {
            "customer_id": {
              "gte": 40,
              "lte": 50
            }
          }
        }
      ]
    }
  }
}

或者 should

查询分类中包含“Men's” 或 "Clothing"，或者 20<=customer_id<=50的结果，按照customer_id倒序排列，从第0个索引位置展示10条，只显示category，customer_id字段

GET ecommerce/_search
{
  "_source": ["category","customer_id"], 
  "query": {
    "bool": {
      "should": [
        {
          "match": {
            "category":"Men's Clothing"
          }
        },{
          "range": {
            "customer_id": {
              "gte": 20,
              "lte": 50
            }
          }
        }
      ]
    }
  },
  "sort": [
    {
      "customer_id": {
        "order": "desc"
      }
    }
  ],
  "from": 0,
  "size": 10
}

精确查找 term

查询分类中包含“men's”的结果
注意不能大写，因为精确查找其实找的是索引库，在我们的document存放的时候会将大写转为小写。
- ```
GET ecommerce/_search
{
"query": {
  "term": {
    "category": {
      "value": "men's"
    }
  }
}
}
```

缓存查找 filter

查询分类中包含“men's”的结果
注意不能大写，因为精确查找其实找的是索引库，在我们的document存放的时候会将大写转为小写。
- ```
GET ecommerce/_search
{
"query": {
  "term": {
    "category": {
      "value": "men's"
    }
  }
}
}
```

5 ElasticSearch基本概念

cluster

代表一个集群，集群中有多个节点，其中有一个为主节点，这个主节点是可以通过选举产生的，主从节点是对于集群内部来说的。es的一个概念就是去中心化，字面上理解就是无中心节点，这是对于集群外部来说的，因为从外部来看es集群，在逻辑上是个整体，你与任何一个节点的通信和与整个es集群通信是等价的。

shards

代表索引分片，es可以把一个完整的索引分成多个分片，这样的好处是可以把一个大的索引拆分成多个，分布到不同的节点上。构成分布式搜索。分片的数量只能在索引创建前指定，并且索引创建后不能更改。

replicas

代表索引副本，es可以设置多个索引的副本，副本的作用一是提高系统的容错性，当某个节点某个分片损坏或丢失时可以从副本中恢复。二是提高es的查询效率，es会自动对搜索请求进行负载均衡。

recovery

代表数据恢复或叫数据重新分布，es在有节点加入或退出时会根据机器的负载对索引分片进行重新分配，挂掉的节点重新启动时也会进行数据恢复。

river

代表es的一个数据源，也是其它存储方式（如：数据库）同步数据到es的一个方法。它是以插件方式存在的一个es服务，通过读取river中的数据并把它索引到es中，官方的river有couchDB的，RabbitMQ的，Twitter的，Wikipedia的。

gateway

代表es索引快照的存储方式，es默认是先把索引存放到内存中，当内存满了时再持久化到本地硬盘。gateway对索引快照进行存储，当这个es集群关闭再重新启动时就会从gateway中读取索引备份数据。es支持多种类型的gateway，有本地文件系统（默认），分布式文件系统，Hadoop的HDFS和amazon的s3云存储服务。

discovery.zen

代表es的自动发现节点机制，es是一个基于p2p的系统，它先通过广播寻找存在的节点，再通过多播协议来进行节点之间的通信，同时也支持点对点的交互。

Transport

代表es内部节点或集群与客户端的交互方式，默认内部是使用tcp协议进行交互，同时它支持http协议（json格式）、thrift、servlet、memcached、zeroMQ等的传输协议（通过插件方式集成）。

6 分词器

6.1 分词介绍

新建索引库（中英文测试）

PUT /participles_en

添加查询所引

PUT /participles_en/_doc/1
{
  "msg":"Eating a banana day keeps!"
}

POST /participles_en/_search
{
  "query": {
    "match": {
      "msg": "eat"
    }
  }
}

如上图，es返回结果为0，并没有被分成我们想要的词语。

搜索引擎的核心是倒排索引，而倒排索引的基础就是分词。所谓分词可以简单理解为将一个完整的句子切割为一个个单词的过程。

读时分词发生在用户查询时，ES 会即时地对用户输入的关键词进行分词，分词结果只存在内存中，当查询结束时，分词结果也会随即消失。

写时分词发生在文档写入时，ES 会对文档进行分词后，将结果存入倒排索引，该部分最终会以文件的形式存储于磁盘上，不会因查询结束或者 ES 重启而丢失。

使用_analyze可以查询分词结果

ES 中处理分词的部分被称作分词器，英文是Analyzer，它决定了分词的规则。ES 自带了很多默认的分词器，比如

分词器名称 处理过程

Standard Analyzer(默认) 默认的分词器，按词切分，小写处理

Simple Analyzer 按照非字母切分(符号被过滤)，小写处理

Stop Analyzer 小写处理，停用词过滤(the, a, this)

Whitespace Analyzer 按照空格切分，不转小写

Keyword Analyzer 不分词，直接将输入当做输出

Pattern Analyzer 正则表达式，默认是\W+(非字符串分隔)

English Analyzer 英文单词切分

当我们在读时或者写时分词时可以指定要使用的分词器，如下图使用English Analyzer对

“Eating a banana day keeps!”进行分词

分词器名称	处理过程
Standard Analyzer(默认)	默认的分词器，按词切分，小写处理
Simple Analyzer	按照非字母切分(符号被过滤)，小写处理
Stop Analyzer	小写处理，停用词过滤(the, a, this)
Whitespace Analyzer	按照空格切分，不转小写
Keyword Analyzer	不分词，直接将输入当做输出
Pattern Analyzer	正则表达式，默认是\W+(非字符串分隔)
English Analyzer	英文单词切分

更多案例

#A. Standard Analyzer
GET _analyze { "analyzer": "standard", "text": "2 Running quick brown-foxes leap over lazy dog in the summer evening" }
#B. Simple Analyzer
GET _analyze { "analyzer": "simple", "text": "2 Running quick brown-foxes leap over lazy dog in the summer evening" }
#C. Stop Analyzer
GET _analyze { "analyzer": "stop", "text": "2 Running quick brown-foxes leap over lazy dog in the summer evening" }
#D. Whitespace Analyzer
GET _analyze { "analyzer": "whitespace", "text": "2 Running quick brown-foxes leap over lazy dog in the summer evening" }
#E. Keyword Analyzer
GET _analyze { "analyzer": "keyword", "text": "2 Running quick brown-foxes leap over lazy dog in the summer evening" }
#F. Pattern Analyzer
GET _analyze { "analyzer": "pattern", "text": "2 Running quick brown-foxes leap over lazy dog in the summer evening" }

6.2 写时分词器指定

写时分词器需要在 mappings 中指定，而且一经指定就不能再修改，若要修改必须新建索引。

构建索引指定分词器

PUT participles_en_english
{
"mappings": {
  "properties": {
    "msg_en":{
      "type": "text",
      "analyzer": "english"
    },
    "msg":{
      "type": "text"
    }
  }
}
}

查询索引分词设置

GET participles_en_english/_mapping

插入数据

PUT /participles_en_english/_doc/1
{
  "msg":"Eating a banana day keeps!",
  "msg_en":"Eating a banana day keeps!"
}

查询是否真的被分词

POST /participles_en_english/_search
{
  "query": {
    "match": {
      "msg": "eat"
    }
  }
}

POST /participles_en_english/_search
{
  "query": {
    "match": {
      "msg_en": "eat"
    }
  }
}

6.3 读时分词器指定

由于读时分词器默认与写时分词器默认保持一致，你搜索msg字段，那么读时分词器为Standard，搜索msg_en时分词器则为english。

查询需要插入字段分词结果

GET /participles_en_english/_analyze
{
  "field": "msg_en",
  "text": "Eating a banana day keeps!"
}

GET /participles_en_english/_analyze
{
  "field": "msg",
  "text": "Eating a banana day keeps!"
}

6.4 自定义分词器

添加索引my_analyze，设置自定义分词器

PUT /my_analyze
{
  "settings": {
    "analysis": {
      "char_filter": {
        "&_to_and":{
          "type":"mapping",
          "mappings":["&=> and"]
        }
      },
      "filter": {
        "my_stopwords":{
          "type":"stop",
          "stopwords":["a","the","is"]
        }  
      },
      "analyzer": {
        "my_analyzer":{
          "type":"custom",
          "char_filter":["html_strip","&_to_and"],
          "tokenizer":"standard",
          "filter":["lowercase","my_stopwords"]
        }
      }
    }
  }
}

查看分词效果

GET /my_analyze/_analyze
{
  "text": " Tom & Jerry is a good  & 
 Friends ",
  "analyzer": "my_analyzer"
}

6.5 IK分词器

IK Analyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始， IKAnalyzer已经推出了4个大版本。最初，它是以开源项目Luence为应用主体的，结合词典分词和文法分析算法的中文分词组件。从3.0版本开始，IK发展为面向Java的公用分词组件，独立于Lucene项目，同时提供了对Lucene的默认优化实现。在2012版本中，IK实现了简单的分词歧义排除算法，标志着IK分词器从单纯的词典分词向模拟语义分词衍化

由于es是7.4.2，故选择ik7.4.2

6.5.1安装

下载地址1
下载地址2
新建ik目录，上传服务器（如果是集群，需要安装所有节点）

使用es插件安装(需要file:///协议头)

/usr/local/src/elasticsearch/elasticsearch-7.4.2/bin/elasticsearch-plugin install file:///usr/local/src/ik/elasticsearch-analysis-ik-7.4.2.zip

重启es即可

6.5.2 使用

未使用IK分词器

使用ik_smart

POST _analyze
{  
    "analyzer": "ik_smart",
    "text": "南京市长江大桥"  
}

使用ik_max_word

POST _analyze
{  
    "analyzer": "ik_max_word",
    "text": "南京市长江大桥"  
}

比较两个分词器对同一句中文的分词结果，ik_max_word比ik_smart得到的中文词更多，但这样也带来一个问题，使用ik_max_word会占用更多的存储空间

6.5.3 ik自定义词典

k提供了自定义词典的功能，也就是用户可以自己定义一些词汇，这样ik就会把它们当作词典中的内容来处理。其实就是上面中文能分成那么多词是有一套别人写好的词典。

如上面例子中，“江大桥‘是个人，而且火了，我们现在先把江大桥也索引出来。

在elasticsearch-7.4.2/config/analysis-ik目录下新建 my.dic文件，写入”江大桥“

在elasticsearch-7.4.2/config/analysis-ik目录下修改 IKAnalyzer.cfg.xml文件

vim IKAnalyzer.cfg.xml

#修改如下内容，指定拓展文件
my.dic

重启es生效，发现针对ik_max_word生效

6.5.4 ik分词测试

创建索引

PUT participles_ik
{
"mappings": {
  "properties": {
    "msg_ch":{
      "type": "text",
      "analyzer": "ik_max_word",
      "search_analyzer": "ik_max_word"
    },
    "msg":{
      "type": "text",
      "analyzer": "ik_smart",
      "search_analyzer": "ik_smart"
    }
  }
}
}

插入数据

PUT /participles_ik/_doc/1
{
  "msg":"南京市长江大桥",
  "msg_ch":"南京市长江大桥"
}

获取数据

POST /participles_ik/_search
{
  "query": {
    "query_string": {
      "default_field": "msg",
      "query": "江大桥"
    }
  }
}

POST /participles_ik/_search
{
  "query": {
    "query_string": {
      "default_field": "msg_ch",
      "query": "江大桥"
    }
  }
}

7 索引设计

索引设计重要性
- 好的索引设计在整个集群规划中占据举足轻重的作用，索引的设计直接影响集群设计的好坏和复杂度。
- 好的索引设计应该是充分结合业务场景的时间维度和空间维度，结合业务场景充分考量增、删、改、查等全维度设计的。
- 好的索引设计是完全基于“设计先行，编码在后”的原则，前期会花很长时间，为的是后期工作更加顺畅，避免不必要的返工。

7.1 PB 级别的大索引如何设计？

7.1.1 存储大小限制维度

单个分片（Shard）实际是 Lucene 的索引，单分片能存储的最大文档数是：2,147,483,519 (= Integer.MAX_VALUE - 128)，可以使用'GET _cat/shards'命令查询全部索引的分隔分片的文档大小。

7.1.2 性能维度

索引很大的话，数据写入和查询性能都会变差。
而高效检索体现在：基于日期的检索可以直接检索对应日期的索引，无形中缩减了很大的数据规模。
比如一开始我们的订单索引设计为order，要检索某一天的数据会是在一个月甚至更大体量的索引中进行。
如果索引设计为“业务_yyyy-MM-dd”形式，现在直接检索"order_2020-02-28"的索引，效率提升好几倍。

7.1.3 风险维度

一旦一个大索引出现故障，相关的数据都会受到影响。而分成滚动索引的话，相当于做了物理隔离。

7.1.4 方案

方案一：rollover + curator + crontab(增量索引的管理模板)
方案二（推荐）：Index Lifecycle Management(6.6版本的新特性：索引生命周期管理）
目的：统一管理索引，相关索引字段完全一致。

7.1.4.1 方案一:Rollver 增量管理索引

场景：每天数据量很少，但是又需要保存很久的数据，或者每天数据量极大，每天一个索引已经不能容纳了，这个时候我们就需要考虑一个机制，将索引rollover。
按照日期、文档数、文档存储大小三个维度进行更新索引

#1 新建订单索引
PUT order

#2 对ordr建立别名
POST _aliases 
{
  "actions": [
    {
      "add": {
        "index": "order",
        "alias": "test_order",
        "is_write_index" : true
      }
    }
  ]
}

#3 手动Rollover
# 结合alias，我们可以实现客户端写alias，在需要时将alias指向一个新的索引，就可以自由地控制数据的写入了
# 创建一个新索引order1
PUT order1

#4 再将alias指向新的索引并移除旧的alias
POST _aliases 
{
  "actions": [
    {
      "remove": {
        "index": "order",
        "alias": "test_order"
      }
    },
    {
      "add": {
        "index": "order1",
        "alias": "test_order",
        "is_write_index" : true
      }
    }
  ]
}

# 4.1 自动Rollover
#我们手动Rollover了一个索引，在运行过程中，我们需要不断的获取ES中索引的情况，然后判断是否进行Rollover。这里，我们可以用ES自带的Rollover接口替代，
#已经存在一个order索引, 和一个test_order别名指向order，测试是否可以_rollover
POST test_order/_rollover/order2
{
  "conditions": {
    "max_age":   "7d",
    "max_docs":  1,
    "max_size":  "5gb"
  }
}

#4.2 写入一个document
PUT test_order/_doc/1
{
  "msg":"value1"
}
#4.3 执行4.1的操作
POST test_order/_rollover/order2
{
  "conditions": {
    "max_age":   "7d",
    "max_docs":  1,
    "max_size":  "5gb"
  }
}

索引更新的时机是：当原始索引满足设置条件的三个中的一个的时候，就会更新为新的索引。为保证业务的全索引检索，一般采用别名机制。

在索引模板设计阶段，模板定义一个全局别名：用途是全局检索，如图所示的别名：indexall。每次更新到新的索引后，新索引指向一个用于实时新数据写入的别名，如图所示的别名：indexlatest。同时将旧索引的别名 index_latest 移除。

7.1.4.2 方案一:使用 curator 高效清理历史数据

目的：按照日期定期删除、归档历史数据。
解决问题：
- 一个大索引的数据删除方式只能使用 delete_by_query，由于 ES 中使用更新版本机制。删除索引后，由于没有物理删除，磁盘存储信息会不减反增。有同学就反馈 500GB+ 的索引 delete_by_query 导致负载增高的情况
- 如果没有基于时间创建索引，单一索引借助delete_by_query结合时间戳，会越删磁盘空间越紧张，以至于对自己都产生了怀疑？
- 是否还在通过复杂的脚本管理索引？
  - 1个增量rollover动态更新脚本，
  - 1个定期delete脚本，
  - 1个定期force_merge脚本，
  - 1个定期shrink脚本，
  - 1个定期快照脚本。
  - 索引多了或者集群规模大了，脚本的维护是一笔不菲的开销。
而按照日期划分索引后，不需要的历史数据可以做如下的处理。
- 删除——对应 delete 索引操作。
- 压缩——对应 shrink 操作。
- 段合并——对应 force_merge 操作。
而这一切，可以借助：curator 工具通过简单的配置文件结合定义任务 crontab 一键实现。

curator最早被称为clearESindices.py。它的唯一功能是删除索引，
而后重命名：logstash_index_cleaner.py。它在logstash存储库下作用：过期日志清理。
此后不久，原作者加入Elastic，它成为了Elasticsearch Curator，
Git地址：https://github.com/elastic/curator

文档地址：https://curator.readthedocs.io/en/latest/

7.1.4.3 方案二:使用 ILM索引生命周期管理

index lifecycle management

只需要在kibana内简单配置,就可以管理以前我们不得不设置cronjob去删除index的工作.

ES索引生命周期管理分为4个阶段：hot、warm、cold、delete，其中hot主要负责对索引进行rollover操作，warm、cold、delete分别对rollover后的数据进一步处理（前提是配置了hot）。

phases desc

hot 主要处理时序数据的实时写入

warm 可以用来查询，但是不再写入

cold 索引不再有更新操作，并且查询也会很少

delete 数据将被删除

phases	desc
hot	主要处理时序数据的实时写入
warm	可以用来查询，但是不再写入
cold	索引不再有更新操作，并且查询也会很少
delete	数据将被删除

案例

建立简单的ILM策略

使用命令创建policy，其意思如下：
- 如果一个index的大小超过50GB，那么自动rollover
- 如果一个index日期已在30天前创建索引后，那么自动rollover
- 如果一个index的文档数超过2，那么也会自动rollover
- 当一个index创建的时间超过90天，那么也自动删除

PUT _ilm/policy/datastream_policy
{
  "policy": {
    "phases": {
      "hot": {
        "min_age": "0ms",
        "actions": {
          "rollover": {
            "max_age": "30d",
            "max_size": "50gb",
            "max_docs": 2
          },
          "set_priority": {
            "priority": 100
          }
        }
      },
      "delete": {
        "min_age": "90d",
        "actions": {
          "delete": {}
        }
      }
    }
  }
}

或者使用kibana创建

定义 Index 模板，使用策略

意思如下：
- index_patterns所有以logs开头的index都需要遵循这个规律。
- rollover_alias别名为“logs”。

PUT _template/datastream_template
{
  "index_patterns": ["logs-*"],       
  "order" : 0,
  "settings": {
    "number_of_shards": 1,
    "number_of_replicas": 1,
    "index.lifecycle.name": "datastream_policy", 
    "index.lifecycle.rollover_alias": "logs"    
  }
}

或者使用kibana创建

定义 Index 别名

意思如下：
- 在这里定义了一个别名叫做logs，它指向logs-00001索引。
- is_write_index为true。如果有rollover发生时，这个alias会自动指向最新rollover的index

PUT logs-000001
{
  "aliases": {
    "logs": {
      "is_write_index": true
    }
  }
}

添加数据前后查看索引策略

GET logs-*/_ilm/explain

生产数据，查看效果

PUT logs/_doc/1
{
  "msg":"value1"
}

PUT logs/_doc/2
{
  "msg":"value2"
}

PUT logs/_doc/3
{
  "msg":"value3"
}

补充索引创建日期滚动方式

#PUT / with URI encoding: 效果 logs-2020.03.10-000001
# 特殊字符都应进行 URI 编码
PUT /%3Clogs-%7Bnow%2Fd%7D-000001%3E 
{
  "aliases": {
    "logs": {
      "is_write_index": true
    }
  }
}

如上面操作后效果

转码表

<	%3C
>	%3E
/	%2F
{	%7B
}	%7D
\|	%7C
+	%2B
:	%3A
,(逗号)	%2C

例子(以2020年3月10日为例)

需要形式	格式	转码表
logs-2020.03.10		%3Clogs-%7Bnow%2Fd%7D%3E
logs-2020.03.01		%3Clogs-%7Bnow%2FM%7D%3E
logs-2020.03		%3Clogs-%7Bnow%2FM%7BYYYY.MM%7D%7D%3E
logs-2020.02		%3Clogs-%7Bnow%2FM-1M%7BYYYY.MM%7D%7D%3E

7.2 分片数和副本数如何设计？

7.2.1 分片/副本认知

分片：分片本身都是一个功能齐全且独立的“索引”，可以托管在集群中的任何节点上。
- 数据切分分片的主要目的：
  - （1）水平分割/缩放内容量。
  - （2）跨分片（可能在多个节点上）分布和并行化操作，提高性能/吞吐量。
- 注意：分片一旦创建，不可以修改大小。
副本：它在分片/节点出现故障时提供高可用性。
- 副本的好处：因为可以在所有副本上并行执行搜索——因此扩展了搜索量/吞吐量。
- 注意：副本分片与主分片存储在集群中不同的节点。副本的大小可以通过：number_of_replicas动态修改。
分片副本例子

#使用模板控制kibana_开头的索引为2个分片0个副本
PUT _template/shards_and_replicas_template
{
  "index_patterns": ["kibana_*"],       
  "order" : 0,
  "settings": {
    "number_of_shards": 2,
    "number_of_replicas": 0
  }
}

#创建kibana_logs索引
PUT kibana_logs

插入一组数据

#数据导入_reindex(3个并行且执行刷新)，下图中可以看出是分了3组数据一起插入
POST /_reindex?slices=3&refresh
{
  "source": {
    "index": "kibana_sample_data_logs"
  }, 
  "dest": {
    "index": "kibana_logs"
  }
}

#查询2个分片的数据
GET kibana_logs/_search?preference=_shards:0
GET kibana_logs/_search?preference=_shards:1

分片数据移动例子

从上图中可以看出索引kibana_logs的分片0在slave2上，分片1在master上，现在要将分片1的数据全部移动到slave1上。

POST _cluster/reroute
{
  "commands": [
    {
      "move": {
        "index": "kibana_logs",
        "shard": 1,
        "from_node": "master",
        "to_node": "slave1"
      }
    }
  ]
}

7.2.2 分片和副本设计

索引设置多少分片？

Shard 大小官方推荐值为 20-40GB, 具体原理呢？Elasticsearch 员工 Medcl 曾经讨论如下：

Lucene 底层没有这个大小的限制，20-40GB 的这个区间范围本身就比较大，经验值有时候就是拍脑袋，不一定都好使。

Elasticsearch 对数据的隔离和迁移是以分片为单位进行的，分片太大，会加大迁移成本。

一个分片就是一个 Lucene 的库，一个 Lucene 目录里面包含很多 Segment，每个 Segment 有文档数的上限，Segment 内部的文档 ID 目前使用的是 Java 的整型，也就是 2 的 31 次方，所以能够表示的总的文档数为Integer.MAXVALUE - 128 = 2^31 - 128 = 2147483647 - 1 = 2,147,483,519，也就是21.4亿条。

同样，如果你不 forcemerge 成一个 Segment，单个 shard 的文档数能超过这个数。

单个 Lucene 越大，索引会越大，查询的操作成本自然要越高，IO 压力越大，自然会影响查询体验。

具体一个分片多少数据合适，还是需要结合实际的业务数据和实际的查询来进行测试以进行评估

综合实战+网上各种经验分享，梳理如下：
- 第一步：预估一下数据量的规模。一共要存储多久的数据，每天新增多少数据？两者的乘积就是总数据量。
- 第二步：预估分多少个索引存储。索引的划分可以根据业务需要。
- 第三步：考虑和衡量可扩展性，预估需要搭建几台机器的集群。存储主要看磁盘空间，假设每台机器2TB，可用：2TB*0.85(磁盘实际利用率）0.85(ES 警戒水位线）。
- 第四步：单分片的大小建议最大设置为 30GB。此处如果是增量索引，可以结合大索引的设计部分的实现一起规划。
前三步能得出一个索引的大小。分片数考虑维度：
- 1）分片数 = 索引大小/分片大小经验值 30GB 。
- 2）分片数建议和节点数一致。
设计的时候1）、2）两者权衡考虑+rollover 动态更新索引结合。
每个 shard 大小是按照经验值 30G 到 50G，因为在这个范围内查询和写入性能较好。

索引设置多少副本？

对于集群数据节点 >=2 的场景：建议副本至少设置为 1。
对于集群数据节点 >=3 的场景：建议副本至少设置为 2。
多副本带来的就是多落地磁盘，也就会慢。
单节点的机器设置了副本也不会生效的。
对于数据安全性要求非常高的业务场景，建议做好：增强备份（结合 ES 官方备份方案）。

8 JAVA API

项目地址：https://github.com/70416450/Bigdata-Util

修改配置文件中的信息即可使用，看效果吧。

你可能感兴趣的:(大数据篇：ElasticSearch)

那个抄袭的大张伟猫小努
最近一直在追《即刻电音》这个综艺，除了觉得出场节目的音乐制作人有意思之外，也觉得有两个导师挺有趣的（另外一个就忽略了吧）。孙艺兴在上一篇文章里面已经说过了，那么这篇就说说我们的大老师，大张伟吧。其实在节目刚开始大张伟出来的时候，我以为他是属于导师里面来活跃气氛负责搞笑的，毕竟孙艺兴属于卖萌卖傻卖老实的，尚雯婕一般负责装逼耍狠的，而大张伟一贯以来上综艺的形象基本上都是蹦蹦跳跳带动气氛的。谁知道，两期
18-115 一切思考不能有效转化为行动，都TM是扯淡！成长时间线
7月25号写了一篇关于为什么会断更如此严重的反思，然而，之后日更仅仅维持了一周，又出现了这次更严重的现象。从8月2号到昨天8月6号，5天！又是5天没有更文！虽然这次断更时间和上次一样，那为什么说这次更严重？因为上次之后就分析了问题的原因，以及应该如何解决，按理说应该会好转，然而，没过几天严重断更的现象再次出现，想想，经过反思，问题依然没有解决与改变，这让我有些担忧。到底是哪里出了问题，难道我就真的
直返最高等级与直返APP：无需邀请码的返利新体验古楼
随着互联网的普及和电商的兴起，直返模式逐渐成为一种流行的商业模式。在这种模式下，消费者通过购买产品或服务，获得一定的返利，并可以分享给更多的人。其中，直返最高等级和直返APP是直返模式中的重要概念和工具。本文将详细介绍直返最高等级的概念、直返APP的使用以及与邀请码的关系。【高省】APP（高佣金领导者）是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，运行三年，稳定可靠。高省APP，
高端密码学院笔记285 柚子_b4b4
高端幸福密码学院（高级班）幸福使者：李华第（598）期《幸福》之回归内在深层生命原动力基础篇——揭秘“激励”成长的喜悦心理案例分析主讲：刘莉一，知识扩充:成功=艰苦劳动+正确方法+少说空话。贪图省力的船夫，目标永远下游。智者的梦再美，也不如愚人实干的脚印。幸福早课堂2020.10.16星期五一笔记:1，重视和珍惜的前提是知道它的价值非常重要，当你珍惜了，你就真正定下来，真正的学到身上。2，大家需要
想明白这个问题，你才能写下去文自拾
春节放假的时候，又有一天梦见她，第二天她冒着漫天大雪，傻傻地跑来见我。她说，见见傻傻的我，天很冷，心很暖。她回去后，我写了一篇文章，题目叫——从此梦中只有你。我们没在一起的很长一段时间里，她都在我的心底，一次次出现在我的梦里。我对她说，在一起之前，是胆小且闷骚，在一起之后，我变得不要脸了。不要脸的——去爱你。那文章没写完，火车上，给她看了。我有点小失望，花了好几个小时写，她分分钟就看完，很希望她逐
2022现在哪个打车软件比较好用又便宜实惠的打车软件合集高省APP珊珊
这是一个信息高速传播的社会。信息可以通过手机，微信，自媒体，抖音等方式进行传播。但同时这也是一个交通四通发达的社会。高省APP，是2022年推出的平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，也期待你的加入。珊珊导师，高省邀请码777777，注册送2皇冠会员，送万元推广大礼包，教你如何1年做到百万团队。高
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
Redis系列：Geo 类型赋能亿级地图位置计算 Ly768768 redis bootstrap 数据库
1前言我们在篇深刻理解高性能Redis的本质的时候就介绍过Redis的几种基本数据结构，它是基于不同业务场景而设计的：动态字符串(REDIS_STRING)：整数(REDIS_ENCODING_INT)、字符串(REDIS_ENCODING_RAW)双端列表(REDIS_ENCODING_LINKEDLIST)压缩列表(REDIS_ENCODING_ZIPLIST)跳跃表(REDIS_ENCODI
2019-11-04复盘——飞来山上千寻塔，闻说鸡鸣见日升。那一叶秋
1、大盘篇先上老图，看习惯了，也就知道走势了图1上证指数日线图还是那张老图，自己可以在自己的相关软件上画出来，快变盘了。2、个股篇未加仓、未减仓。分析量能的时候，突然发现这么一个东西：“放量突破年线，缩量回调。”合众科技日线图其实，最近的N只个股，在技术分析上，都到了变盘的临界时候。结合这么久的走势，特别是ZJH不断放开IPO的申请，本质上说是融资难度变大，或者说是为企业的融资开创便利。但现在市场
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
【六】阿伟开始搭建Kafka学习环境能源恒观中间件学习 kafka spring
阿伟开始搭建Kafka学习环境概述上一篇文章阿伟学习了Kafka的核心概念，并且把市面上流行的消息中间件特性进行了梳理和对比，方便大家在学习过程中进行对比学习，最后梳理了一些Kafka使用中经常遇到的Kafka难题以及解决思路，经过上一篇的学习我相信大家对Kafka有了初步的认识，本篇将继续学习Kafka。一、安装和配置学习一项技术首先要搭建一套服务，而Kafka的运行主要需要部署jdk、zook
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
戴先华2021.4.18《我的第129篇幸运作业》 39f4298779c4
2021.4.18今天小宝和大表姐出去玩，我和婆婆在烧饭，突然小宝冲了进来，告诉奶奶说：“奶奶，奶奶姐姐在亭子里倒了”我一下子看出小宝的紧张，马上跑了出去，发现大外甥女又患了病，看起来心疼极了，整个人面朝地下的倒下了，在地上不停的抽搐，额头摔了一个大泡，整张脸都是紫色的，眼睛边上都出血了，真的是非常紧张，这么多年姐姐两夫妻就这样看着自己的孩子一次次晕倒，姐夫这么多年，年年都拿不出钱回家，使得家一次
我与《红楼梦》‖纪念曹雪芹出生307周年！归海逸舟是周成功子阳佳乐归海逸舟是周成功子阳佳乐
【今日作家推荐】中国古典小说之首《红楼梦》，其作者曹雪芹是文坛泰斗。约1715年5月28日，曹雪芹出生。所以，今天推荐的是中国人众所周知的作家——曹雪芹。曹雪芹在世界读者心目中也影响广大，可以与西方世界引以为豪的莎士比亚、歌德等媲美。1、我与《红楼梦》我一直想写一篇和《红楼梦》相关的文章，现在机会终于来了！《红楼梦》作为我国家喻户晓的文学名著，其影响是空前的。还在我很小的时候，姥姥经常讲《红楼梦》
白骑士的Java教学基础篇 2.5 控制流语句白骑士所长 Java 教学 java 开发语言
欢迎继续学习Java编程的基础篇！在前面的章节中，我们了解了Java的变量、数据类型和运算符。接下来，我们将探讨Java中的控制流语句。控制流语句用于控制程序的执行顺序，使我们能够根据特定条件执行不同的代码块，或重复执行某段代码。这是编写复杂程序的基础。通过学习这一节内容，你将掌握如何使用条件语句和循环语句来编写更加灵活和高效的代码。条件语句条件语句用于根据条件的真假来执行不同的代码块。if语句‘
系统架构设计师需求分析篇二 AmHardy 软件架构设计师系统架构需求分析面向对象分析分析模型 UML和SysML
面向对象分析方法1.用例模型构建用例模型一般需要经历4个阶段：识别参与者：识别与系统交互的所有事物。合并需求获得用例：将需求分配给予其相关的参与者。细化用例描述：详细描述每个用例的功能。调整用例模型：优化用例之间的关系和结构，前三个阶段是必需的。2.用例图的三元素参与者：使用系统的用户或其他外部系统和设备。用例：系统所提供的服务。通信关联：参与者和用例之间的关系，或用例与用例之间的关系。3.识别参
手机上有什么兼职可以做？网上兼职一单一结手机就可以做？优惠券高省
建议上班族和全职宝妈把空闲时间拿出来一点做做副业，什么也不耽搁还能多一笔收入！推荐大家一定要试一试！！！只要有手机就可以做，下面小编就为大家推荐用手机就可以做的三类网上兼职工作。一，高省APP高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，也期待你的加入。万方导师高省邀请码005500，注册送双皇冠会员，送万元推广大礼包，教你如
2023-06-19【感恩日记】第246篇 o泡沫o
思想日记：坚持下去，相信自己一定可以的【感恩日记】第246篇1.我真是太幸福啦！感恩孩子早起阅读，放学到学生之家完成作业，平安度过美好的一天。感恩！感恩！感恩！❤️2.我真是太幸福啦！感恩自己早起给孩子煮早餐，完成计划的工作，晚上学习。感恩！感恩！感恩！❤️3.我真是太幸福啦！感恩为我设计效果图的老师。感恩！感恩！感恩！❤️4.我真是太幸福啦！感恩父母养育了我，有妈的孩子真幸福。感恩！感恩！感恩！
摄影小白，怎么才能拍出高大上产品图片？是波妞唉
很多人以为文案只要会码字，会排版就OK了！说实话，没接触到这一行的时候，我的想法更简单，以为只要会写字就行！可是真做了文案才发现，码字只是入门级的基本功。一篇文章离不开排版、配图，说起来很简单！从头做到尾你就会发现，写文章用两个小时，找合适的配图居然要花掉半天的时间，甚至更久！图片能找到合适的就不怕，还有找不到的，比如产品图，只能亲自拍。拿着摆弄了半天，就是拍不出想要的效果，光线不好、搭出来丑破天
【创客文案社】第三期写手招募筱瑶123
创客文案社第三期写手招募开始了。要求：1：注册一个月以上2：本身热爱写作3：有时间参与接单投稿参与方式：可以关注公众号：写作灵感；也可以通过其他转发文章的文友帮忙拉入群；也可以简信我。参与之后的文友，会先进入新人班，进行基本的试稿与培训，先接一些比较简单的单子；在这里可以一边赚钱，一边学习。不知不觉，来三四个月了，也发现了很多很有意思的现象。1：在上写一篇文章，基本都是几毛钱，多的也不过几块钱的收
[故旧之事]外婆记事(28) 石里夜人
二十七．破四旧本来是庆祝儿童节的日子，因为报纸的一篇文章，让很多家庭陷入了惶恐之中。为了响应这项旨在“破除旧思想、旧文化、旧风俗、旧习惯”的群众运动，街道里的干部给大家开了会，做了总动员，要求大家首先自省，从身边的人开始，自纠自查。院里的街坊们回到家，转悠了一圈，发现并没有什么可做的。这几条街家家都很穷。有的人翻了家里的书，除了把孩子的课本留着，找到仅有的几本旧书，一把火塞进了炉膛里。有的人检查了
ESP32-C3入门教程网络篇⑩——基于esp_https_ota和MQTT实现开机主动升级和被动触发升级的OTA功能小康师兄 ESP32-C3入门教程 https 服务器 esp32 OTA MQTT
文章目录一、前言二、软件流程三、部分源码四、运行演示一、前言本文基于VSCodeIDE进行编程、编译、下载、运行等操作基础入门章节请查阅：ESP32-C3入门教程基础篇①——基于VSCode构建HelloWorld教程目录大纲请查阅：ESP32-C3入门教程——导读ESP32-C3入门教程网络篇⑨——基于esp_https_ota实现史上最简单的ESP32OTA远程固件升级功能二、软件流程
阅读笔记：阅读方法中的逻辑和转念施吉涛
聊聊一些阅读的方法论吧，别人家的读书方法刚开始想写，然后就不知道写什么了，因为作者写的非常的“精致”我有一种乡巴佬进城的感觉，看到精美的摆盘，精致的食材不知道该如何下口也就是《阅读的方法》，我们姑且来试一下强劲的大脑篇，第一节：逻辑通俗的来讲，也就是表达的排列和顺序，再进一步就是因果关系和关联实际上书已经看了大概一遍，但直到打算写一下笔记的时候，才发现作者讲的推理更多的是阅读的对象中呈现出的逻辑也
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
每天赚50零花钱的方法，日赚50元左右的5个正规渠道一起高省
每个人都希望拥有一笔自己的零花钱，但是很多人可能没有太多的时间去赚钱，或者没有太多的机会去赚取收入。但是，你可以通过一些简单的方法来赚取每天50元的零花钱。下面分享一些能每天赚50元的方法门路，总有一个适合你！①电商——高省高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，也期待你的加入。拂晓导师高省邀请码989898，注册送双皇
阿里云服务器4核8G配置购买及价格类文章汇总（10篇）阿里云最新优惠和活动汇总
阿里云服务器4核8G配置如何购买？价格是多少？4核8G配置的阿里云服务器可以通过云服务器产品页购买也可以通过阿里云活动去下单购买，一般通过活动购买的用户比较多，但是不同实例规格的阿里云服务器价格不一样，带宽不同价格也不一样，本文为大家汇总了10篇关于阿里云服务器4核8G配置购买教程文章和价格类文章，分为购买类文章和价格类文章，以供大家参考如何购买阿里云服务器4核8G配置和最新优惠价格是多少。阿里云
拼多多返现要输入身份证号码安全吗?拼单返现是什么? 优惠券高省
当我们谈到拼多多返现金活动时，很多朋友会担心提供身份证信息的安全性以及返现金额的真实性。今天，我就来为大家揭开这些疑虑的面纱，为大家提供一个清晰的答案。【高省】APP（高佣金领导者）是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，运行三年，稳定可靠。高省APP，是2021年推出的平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。高省是公认的返利最高的软件。古楼导师
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
自动写论文的网站推荐这5款实用类工具小猪包333 写论文人工智能深度学习计算机视觉 AI写作
在当今学术研究和写作领域，AI论文写作工具的出现极大地提高了写作效率和质量。这些工具不仅能够帮助研究人员快速生成论文草稿，还能进行内容优化、查重和排版等操作。以下是五款实用类工具推荐，特别是千笔-AIPassPaper。1.千笔-AIPassPaper千笔-AIPassPaper是一款功能强大且全面的AI论文写作助手，用户只需输入基本的研究需求和关键词，便能迅速生成一篇完整的论文。该工具利用先进的
酒店床装车出货臧冰
一百多套的酒店床、圆床，床垫终于出货了，可惜还没装完，明天将继续出货，辛苦了各位小伙伴们！图片发自App图片发自App图片发自App图片发自App图片发自App图片发自App图片发自App图片发自App我是两个孩子的宝妈，经营着一间软体家具厂，“伊力威斯”是我们的品牌。这是我的第178篇原创日记。栽一棵树最好的时间是十年前跟今天，写日记亦是如此，抓住今天，我们将收获更精彩的人生！
eclipse maven IXHONG eclipse
eclipse中使用maven插件的时候，运行run as maven build的时候报错 -Dmaven.multiModuleProjectDirectory system propery is not set. Check $M2_HOME environment variable and mvn script match. 可以设一个环境变量M2_HOME指
timer cancel方法的一个小实例 alleni123 多线程 timer
package com.lj.timer; import java.util.Date; import java.util.Timer; import java.util.TimerTask; public class MyTimer extends TimerTask { private int a; private Timer timer; pub
MySQL数据库在Linux下的安装 ducklsl mysql
1.建好一个专门放置MySQL的目录 /mysql/db数据库目录 /mysql/data数据库数据文件目录 2.配置用户，添加专门的MySQL管理用户 >groupadd mysql ----添加用户组 >useradd -g mysql mysql ----在mysql用户组中添加一个mysql用户 3.配置，生成并安装MySQL >cmake -D
spring------>>cvc-elt.1: Cannot find the declaration of element Array_06 spring bean
将-------- <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3
maven发布第三方jar的一些问题 cugfy maven
maven中发布第三方jar到nexus仓库使用的是 deploy:deploy-file命令有许多参数，具体可查看 http://maven.apache.org/plugins/maven-deploy-plugin/deploy-file-mojo.html 以下是一个例子： mvn deploy:deploy-file -DgroupId=xpp3
MYSQL下载及安装 357029540 mysql
好久没有去安装过MYSQL，今天自己在安装完MYSQL过后用navicat for mysql去厕测试链接的时候出现了10061的问题，因为的的MYSQL是最新版本为5.6.24，所以下载的文件夹里没有my.ini文件，所以在网上找了很多方法还是没有找到怎么解决问题，最后看到了一篇百度经验里有这个的介绍，按照其步骤也完成了安装，在这里给大家分享下这个链接的地址
ios TableView cell的布局张亚雄 tableview
cell.imageView.image = [UIImage imageNamed:[imageArray objectAtIndex:[indexPath row]]]; CGSize itemSize = CGSizeMake(60, 50); &nbs
Java编码转义 adminjun java 编码转义
import java.io.UnsupportedEncodingException; /** * 转换字符串的编码 */ public class ChangeCharset { /** 7位ASCII字符，也叫作ISO646-US、Unicode字符集的基本拉丁块 */ public static final Strin
Tomcat 配置和spring aijuans spring
简介 Tomcat启动时，先找系统变量CATALINA_BASE，如果没有，则找CATALINA_HOME。然后找这个变量所指的目录下的conf文件夹，从中读取配置文件。最重要的配置文件：server.xml 。要配置tomcat，基本上了解server.xml，context.xml和web.xml。 Server.xml -- tomcat主
Java打印当前目录下的所有子目录和文件 ayaoxinchao 递归 File
其实这个没啥技术含量，大湿们不要操笑哦，只是做一个简单的记录，简单用了一下递归算法。 import java.io.File; /** * @author Perlin * @date 2014-6-30 */ public class PrintDirectory { public static void printDirectory(File f
linux安装mysql出现libs报冲突解决 BigBird2012 linux
linux安装mysql出现libs报冲突解决安装mysql出现 file /usr/share/mysql/ukrainian/errmsg.sys from install of MySQL-server-5.5.33-1.linux2.6.i386 conflicts with file from package mysql-libs-5.1.61-4.el6.i686
jedis连接池使用实例 bijian1013 redis jedis连接池 jedis
实例代码： package com.bijian.study; import java.util.ArrayList; import java.util.List; import redis.clients.jedis.Jedis; import redis.clients.jedis.JedisPool; import redis.clients.jedis.JedisPoo
关于朋友 bingyingao 朋友兴趣爱好维持
成为朋友的必要条件：志相同，道不合，可以成为朋友。譬如马云、周星驰一个是商人，一个是影星，可谓道不同，但都很有梦想，都要在各自领域里做到最好，当他们遇到一起，互相欣赏，可以畅谈两个小时。志不同，道相合，也可以成为朋友。譬如有时候看到两个一个成绩很好每次考试争做第一，一个成绩很差的同学是好朋友。他们志向不相同，但他
【Spark七十九】Spark RDD API一 bit1129 spark
aggregate package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} //测试RDD的aggregate方法 object AggregateTest { def main(args: Array[String]) { val conf = new Spar
ktap 0.1 released bookjovi kernel tracing
Dear, I'm pleased to announce that ktap release v0.1, this is the first official release of ktap project, it is expected that this release is not fully functional or very stable and we welcome bu
能保存Properties文件注释的Properties工具类 BrokenDreams properties
今天遇到一个小需求：由于java.util.Properties读取属性文件时会忽略注释，当写回去的时候，注释都没了。恰好一个项目中的配置文件会在部署后被某个Java程序修改一下，但修改了之后注释全没了，可能会给以后的参数调整带来困难。所以要解决这个问题。 &nb
读《研磨设计模式》-代码笔记-外观模式-Facade bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 百度百科的定义： * Facade（外观）模式为子系统中的各类（或结构与方法）提供一个简明一致的界面， * 隐藏子系统的复杂性，使子系统更加容易使用。他是为子系统中的一组接口所提供的一个一致的界面 * * 可简单地
After Effects教程收集 cherishLC After Effects
1、中文入门 http://study.163.com/course/courseMain.htm?courseId=730009 2、videocopilot英文入门教程（中文字幕） http://www.youku.com/playlist_show/id_17893193.html 英文原址： http://www.videocopilot.net/basic/ 素
Linux Apache 安装过程 crabdave apache
Linux Apache 安装过程下载新版本： apr-1.4.2.tar.gz（下载网站：http://apr.apache.org/download.cgi） apr-util-1.3.9.tar.gz（下载网站：http://apr.apache.org/download.cgi） httpd-2.2.15.tar.gz（下载网站：http://httpd.apac
Shell学习之变量赋值和引用 daizj shell 变量引用赋值
本文转自：http://www.cnblogs.com/papam/articles/1548679.html Shell编程中，使用变量无需事先声明，同时变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）中间不能有空格，可以使用下划线（_）不能使用标点符号不能使用bash里的关键字（可用help命令查看保留关键字）需要给变量赋值时，可以这么写：
Java SE 第一讲（Java SE入门、JDK的下载与安装、第一个Java程序、Java程序的编译与执行） dcj3sjt126com java jdk
Java SE 第一讲： Java SE：Java Standard Edition Java ME: Java Mobile Edition Java EE：Java Enterprise Edition Java是由Sun公司推出的（今年初被Oracle公司收购）。收购价格：74亿美金 J2SE、J2ME、J2EE JDK：Java Development
YII给用户登录加上验证码 dcj3sjt126com yii
1、在SiteController中添加如下代码： /** * Declares class-based actions. */ public function actions() { return array( // captcha action renders the CAPTCHA image displ
Lucene使用说明 dyy_gusi Lucene search 分词器
Lucene使用说明 1、lucene简介 1.1、什么是lucene Lucene是一个全文搜索框架，而不是应用产品。因此它并不像baidu或者googleDesktop那种拿来就能用，它只是提供了一种工具让你能实现这些产品和功能。 1.2、lucene能做什么要回答这个问题，先要了解lucene的本质。实际
学习编程并不难,做到以下几点即可! gcq511120594 数据结构编程算法
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
Java面试十问之三：Java与C++内存回收机制的差别 HNUlanwei java C++finalize()堆栈内存回收
大家知道， Java 除了那 8 种基本类型以外，其他都是对象类型（又称为引用类型）的数据。 JVM 会把程序创建的对象存放在堆空间中，那什么又是堆空间呢？其实，堆（ Heap）是一个运行时的数据存储区，从它可以分配大小各异的空间。一般，运行时的数据存储区有堆（ Heap）和堆栈（ Stack），所以要先看它们里面可以分配哪些类型的对象实体，然后才知道如何均衡使用这两种存储区。一般来说，栈中存放的
第二章 Nginx+Lua开发入门 jinnianshilongnian nginx lua
Nginx入门本文目的是学习Nginx+Lua开发，对于Nginx基本知识可以参考如下文章： nginx启动、关闭、重启 http://www.cnblogs.com/derekchen/archive/2011/02/17/1957209.html agentzh 的 Nginx 教程 http://openresty.org/download/agentzh-nginx-tutor
MongoDB windows安装基本命令 liyonghui160com
windows安装安装目录： D:\MongoDB\ 新建目录 D:\MongoDB\data\db 4.启动进城： cd D:\MongoDB\bin mongod -dbpath D:\MongoDB\data\db &n
Linux下通过源码编译安装程序 pda158 linux
一、程序的组成部分　　Linux下程序大都是由以下几部分组成：　　二进制文件：也就是可以运行的程序文件　　库文件：就是通常我们见到的lib目录下的文件　　配置文件：这个不必多说，都知道　　帮助文档：通常是我们在linux下用man命令查看的命令的文档　　二、linux下程序的存放目录　　linux程序的存放目录大致有三个地方：　　/etc, /b
WEB开发编程的职业生涯４个阶段 shw3588 编程 Web 工作生活
觉得自己什么都会 2007年从学校毕业，凭借自己原创的ASP毕业设计，以为自己很厉害似的，信心满满去东莞找工作，找面试成功率确实很高，只是工资不高，但依旧无法磨灭那过分的自信，那时候什么考勤系统、什么OA系统、什么ERP，什么都觉得有信心，这样的生涯大概持续了约一年。根本不是自己想的那样 2008年开始接触很多工作相关的东西，发现太多东西自己根本不会，都需要去学，不管是asp还是js，
遭遇jsonp同域下变作post请求的坑 vb2005xu jsonp 同域post
今天迁移一个站点时遇到一个坑爹问题,同一个jsonp接口在跨域时都能调用成功,但是在同域下调用虽然成功,但是数据却有问题. 此处贴出我的后端代码片段 $mi_id = htmlspecialchars(trim($_GET['mi_id '])); $mi_cv = htmlspecialchars(trim($_GET['mi_cv '])); 贴出我前端代码片段: $.aj