程序没有缘

“Elasticsearch + Kibana + ik分词器“介绍与使用

Elasticsearch 介绍

Elasticsearch 是一个分布式、RESTful 风格的搜索和数据分析引擎，能够解决不断涌现出的各种用例。作为 Elastic Stack 的核心，它集中存储您的数据，帮助您发现意料之中以及意料之外的情况。

Elasticsearch 官方介绍

参考网址：

官方文档

官方中文

社区中文1
社区中文2

一、基本概念

1、Index （索引）

2、Type（类型）

3、Document（文档）

4、倒排索引机制

将整句拆分单词、相关性得分等

二、Docker安装

安装 elasticsearch

1、下载镜像文件 docker镜像库搜索es最新版本

# 指定安装 elasticsearch:7.17.1 
$ docker pull elasticsearch:7.17.1

# 或者默认安装 elasticsearch 最新版本
$ docker pull elasticsearch

# 安装 kibana:7.17.1
# kibana 是可视化工具，作用类似于 Mysql的查看工具
$ docker pull kibana:7.17.1

# 查看docker已安装的容器列表
$ docker images                 

# 查看可用内存大小,-m 以单位M展示
$ free -m

2、创建实例

#  创建实例完整命令，注意，如果执行没有权限，请 sudo su ,切到root账户权限， 或者所有命令前加 sudo
$ mkdir -p /mydata/elasticsearch/config 		# mkdir 创建指定目录层级
$ mkdir -p /mydata/elasticsearch/data 			# mkdir 创建指定目录层级
$ echo "http.host: 0.0.0.0" >> /mydata/elasticsearch/config/elasticsearch.yml  # 写入内容到指定xx.yml配置文件

$ docker run --name elasticsearch -p 9200:9200 -p 9300:9300 \
-e "discovery.type=single-node" \
-e ES_JAVA_OPTS="-Xms64m -Xmx512m" \
-v /mydata/elasticsearch/config/elasticsearch.yml:/usr/share/elasticsearch/config/elasticsearch.yml \
-v /mydata/elasticsearch/data:/usr/share/elasticsearch/data \
-v /mydata/elasticsearch/plugins:/usr/share/elasticsearch/plugins \
-d elasticsearch:7.17.1

# docker参数详解
--name elasticsearch  	# 为docker容器创建 名为“elasticsearch”的容器
-p 9200:9200			# 将 容器内的 9200 端口 映射为 容器外的 9200 端口（9200 是 REST-API的服务端口）
-p 9300:9300			# 将 容器内的 9300 端口 映射为 容器外的 9300 端口（9300 是 Es集群之间的通信端口）
-e "discovery.type=single-node" 	# -e 设置。 设置 “单节点运行模式”
-e ES_JAVA_OPTS="-Xms64m -Xmx512m"	# -e 设置。 设置 “JAVA虚拟器占用的内存大小，-Xms64m：初始64M;-Xmx512m:最大占用512M”，如果不设置就启动，默认会占用整个服务器内存，如果是本地搭建的虚拟机，容易卡死，建议根据实际情况设置大小。
-v #-v 设置挂载路径
-v /mydata/elasticsearch/config/elasticsearch.yml:/usr/share/elasticsearch/config/elasticsearch.yml # 将容器外部的 /mydata/elasticsearch/config/elasticsearch.yml 文件挂载为 容器内部的 /usr/share/elasticsearch/config/elasticsearch.yml 文件，以后修改容器外部的elasticsearch.yml配置文件相当于修改了容器内部的 elasticsearch.yml 文件。
-v /mydata/elasticsearch/data:/usr/share/elasticsearch/data 		# 同上，挂载data数据目录
-v /mydata/elasticsearch/plugins:/usr/share/elasticsearch/plugins	# 同上，挂载plugins插件目录
-d elasticsearch:7.17.1# -d 是docker容器后台启动命令。这里指定后台启动，使用”elasticsearch:7.17.1“这个镜像

3、测试是否安装成功

# 查看运行中的容器，是否有 elasticsearch
$ docker ps 

# 浏览器访问 http://ip:9200（ip为服务器地址），能访问成功，就是正常。
# 如果访问失败，可能是 安装目录权限不足 或者 配置文件有问题

正常访问 es，会返回 es的版本JSON信息，如下图：

4、Docker安装 Kibana docker镜像库搜索kibana最新版本

Kibana 是一个开源分析和可视化平台，旨在与 Elasticsearch 一起使用。您可以使用 Kibana 搜索、查看存储在 Elasticsearch 索引中的数据并与之交互。您可以轻松地执行高级数据分析并在各种图表、表格和地图中可视化您的数据。

# docker 容器 安裝 kibana 命令，注意 kibana 的版本必须 与 ES 的版本保持一直，这里是安装 7.17.1版本
$ docker run --name kibana -e ELASTICSEARCH_HOSTS=http://192.168.56.10:9200  -p 5601:5601 \
-d kibana:7.17.1

# docker参数详解
--name kibana  			# 为docker容器创建 名为“kibana”的容器
-p 5601:5601			# 将 容器内的 5601 端口 映射为 容器外的 5601 端口（5601 是 kibana的可视化访问默认端口 ）
-v /mydata/kibana/config/kibana.yml:/usr/share/kibana/config/kibana.yml # 挂载配置文件
-e ELASTICSEARCH_HOSTS=http://192.168.56.10:9200	# -e 设置。 设置 “ELASTICSEARCH_URL”，设置安装es服务器的ip地址。注意：这里的ip是我本地服务器的ip地址，应该改为你自己的服务器ip地址
-d kibana:7.17.1		# -d 是docker容器后台启动命令。这里指定后台启动，使用”kibana:7.17.1“这个镜像

# 查看运行中的容器，是否有 kibana
$ docker ps 

# 进入某容器内部，以kibana为例：
$ docker exec -it kibana /bin/bash    # kibana配置文件路径为： /usr/share/kibana/config/kibana.yml

# 浏览器访问 http://ip:5601/  ip为服务器地址），能访问成功，就是正常。
# 如果访问失败，可能是 elsasticesarch 服务没找到，需要修改 kibana.yml 配置文件的host路径，重启kibana。

Kibana 官方使用说明文档（各种版本）

Kibana 运行在Docker容器的说明文档

5、docker设置自启动

# 设置Docker容器启动，自动启动 
$ sudo docker update elasticsearch --restart=always
$ sudo docker update kibana --restart=always

6、Kibana Dev Tools 在线调试窗口的使用

浏览器访问： http://ip:5601/ ，进去Kibana主界面。（5601 是 kibana默认端口，如果设置其他，则使对应的端口）
左边侧边栏选择 Dev Tools
后续操作，均在Dev Tools 窗口执行学习。

End 、FYQ 供参考

1、安装时可能会遇到，某个执行目录没有“执行”权限，导致服务启动失败的问题

# 查看 docker 容器  xx 服务的运行日志
$ docker logs  xxx
# 查看 docker 容器中，elasticsearch服务的启动日志	
$ docker logs elasticsearch
$ docker logs [CONTAINER ID]

# 赋予 最大权限 777 读写执行
$ chmod -R 777 /mydata/elasticsearch/

# docker容器启动 指定 [CONTAINER ID] 的服务
$ docker start elasticsearch
$ docker start [CONTAINER ID]

2、测试环境下，安装时没有设置 ES 的JVM初始内存和最大内存，导致默认 ES 启动占用内存过大，导致启动不了ES。

解决办法：安装时，设置参数”-e ES_JAVA_OPTS="-Xms64m -Xmx128m"”，详解看上面的参数详解。

3、 Kibana 启动后，docker logs 日志提示 “Unable to retrieve version information from Elasticsearch nodes. getaddrinfo ENOTFOUND elasticsearch”

解决办法：卸载安装的kibana ,修改”ELASTICSEARCH_HOSTS=http://192.168.56.10:9200“ ip地址为es的服务器地址，重新安装kibana容器，启动后成功访问。

4、第一次启动 elasticsearch 8.2.0 初始化时，提示“UnknownHostException: geoip.elastic.co”

原因是：geoip.elastic.co 地址无法访问，暂时无法解决，等过段时间试试。或者变更 elasticsearch 版本。

pe": "server", "timestamp": "2022-05-31T17:52:24,462Z", "level": "ERROR", "component": "o.e.i.g.GeoIpDownloader", "cluster.name": "elasticsearch", "node.name": "def72f49dcae", "message": "exception during geoip databases update", "cluster.uuid": "4k9KkOwMTP-Qf7HG5F2_Og", "node.id": "6w1mM9DSQsaW3G6otMQivA" ,
"stacktrace": ["java.net.UnknownHostException: geoip.elastic.co",
"at sun.nio.ch.NioSocketImpl.connect(NioSocketImpl.java:564) ~[?:?]",
"at java.net.SocksSocketImpl.connect(SocksSocketImpl.java:327) ~[?:?]",
"at java.net.Socket.connect(Socket.java:633) ~[?:?]",
"at sun.security.ssl.SSLSocketImpl.connect(SSLSocketImpl.java:299) ~[?:?]",
"at sun.net.NetworkClient.doConnect(NetworkClient.java:178) ~[?:?]",
"at sun.net.www.http.HttpClient.openServer(HttpClient.java:498) ~[?:?]",
"at sun.net.www.http.HttpClient.openServer(HttpClient.java:603) ~[?:?]",
"at sun.net.www.protocol.https.HttpsClient.(HttpsClient.java:264) ~[?:?]",
"at sun.net.www.protocol.https.HttpsClient.New(HttpsClient.java:378) ~[?:?]",
"at sun.net.www.protocol.https.AbstractDelegateHttpsURLConnection.getNewHttpClient(AbstractD

5、安装 ik分词插件后，elasticsearch 重启提示“org.elasticsearch.action.search.SearchPhaseExecutionException: all shards failed”

{"type": "server", "timestamp": "2022-06-01T06:50:20,171Z", "level": "WARN", "component": "r.suppressed", "cluster.name": "elasticsearch", "node.name": "c2a7f608e410", "message": "path: /.kibana_task_manager/_search, params: {ignore_unavailable=true, index=.kibana_task_manager, track_total_hits=true}", "cluster.uuid": "_bgipz4aT6iwCbr86r6DBA", "node.id": "IC_VxrpJRWaffQngBN2HdQ" ,
"stacktrace": ["org.elasticsearch.action.search.SearchPhaseExecutionException: all shards failed",
"at org.elasticsearch.action.search.AbstractSearchAsyncAction.onPhaseFailure(AbstractSearchAsyncAction.java:713) [elasticsearch-7.17.1.jar:7.17.1]",
"at org.elasticsearch.action.search.AbstractSearchAsyncAction.executeNextPhase(AbstractSearchAsyncAction.java:400) [elasticsearch-7.17.1.jar:7.17.1]",
"at org.elasticsearch.action.search.AbstractSearchAsyncAction.onPhaseDone(AbstractSearchAsyncAction.java:745) [elasticsearch-7.17.1.jar:7.17.1]",
"at org.elasticsearch.action.search.AbstractSearchAsyncAction.onShardFailure(AbstractSearchAsyncAction.java:497) [elasticsearch-7.17.1.jar:7.17.1]",
"at org.elasticsearch.action.search.AbstractSearchAsyncAction.performPhaseOnShard(AbstractSearchAsyncAction.java:308) [elasticsearch-7.17.1.jar:7.17.1]",
"at org.elasticsearch.action.search.AbstractSearchAsyncAction.run(AbstractSearchAsyncAction.java:244) [elasticsearch-7.17.1.jar:7.17.1]",
"at org.elasticsearch.action.search.AbstractSearchAsyncAction.executePhase(AbstractSearchAsyncAction.java:454) [elasticsearch-7.17.1.jar:7.17.1]",
"at org.elasticsearch.action.search.AbstractSearchAsyncAction.start(AbstractSearchAsyncAction.java:199) [elasticsearch-7.17.1.jar:7.17.1]",
"at org.elasticsearch.action.search.TransportSearchAction.executeSearch(TransportSearchAction.java:1048) [elasticsearch-7.17.1.jar:7.17.1]",
"at org.elasticsearch.action.search.TransportSearchAction.executeLocalSearch(TransportSearchAction.java:763) [ela

三、初步检索

1、_cat 语法

# 查看所有节点
GET /_cat/nodes

# 查看 es 健康状态
GET /_cat/health

# 查看主节点
GET /_cat/master

# 查看所有索引  类似于 mysql 的 show databases;
GET /_cat/indices

2、索引一个文档(保存)

保存一个数据，保存在哪个索引的哪个类型下，指定用哪个唯一标识

PUT/POST customer/external/I；在customer索引下的external类型下保存1号数据

（PUT 和 POST 都可以）

POST 新增。如果不指定id，会自动生成id。指定id就会修改这个数据，并新增版本号

PUT 新增 OR 修改。可以新增也可以修改。

PUT 必须指定id；由于PUT需要指定id，我们一般都用来做修改操作，不指定id会报错。

// PUT customer/external/1
{
 	"name" : "John Doe"
}

3、查询文档

3.1 获取某个索引下的参数`GET customer/external/1`

(更新携带 ?if_seq_no=0&if_primary_term=1)

GET customer/external/1?if_seq_no=0&if_primary_term=1

结果：

{
    "index"："customer"，//在哪个索引
    "_type"："external"， //在哪个类型
    "id"："1"			//记录id
    "_version"：2，		//版本号
    "seq_no"：1，			//并发控制字段，每次更新就会+1，用来做乐观锁
    "primary_term"：1， 	//同上，主分片重新分配，如重启，就会变化
    "found"：true，
    "source"：{
        "name"："John Doe"
	}
}

3.1、获取某个索引的详情 `GET /xx/_mapping`

4、更新文档

//    POST customer/external/1/_update
{
    "doc": {
        "name": "John Doew"
    }
}
//或者 POST customer/external/1

{
    "name"："John Doe2"
}

//或者 PUT customer/external/1

【不同】：

POST 操作会对比源文档数据，如果相同不会有什么操作，文档 version 不增加

PUT 操作总会将数据重新保存并增加 version 版本：

带 _update 对比元数据，如果一样就不进行任何操作。

看场景：

对于大并发更新，不带update；

对于大并发查询偶尔更新，带update，对比更新，重新计算分配规侧。

● 更新同时增加属性 POST customer/external/1/_update

{
    "doc": {
        "name": "John Doew",
        "age": 20
    }
}

5、删除文档&索引

DELETE customer/external/1
DELETE customer

6、 bulk批量API

POST customer/external/bulk
{"index":{"_id":"1"}
{"name":"John Doe"}
{"index":{"_id":"2"}
{"name":"Jane Doe"}

【语法格式】：
{action:{metadata} \n 
{request body} \n

{action：{metadata}} \n 
{request body} \n

【复杂实例】：
POST/_bulk
{"delete"：{"_index"："website""type"："blog"，"_id"："123"}}
{"create"：{"_index"："website"，"type"："blog"，"_id"："123"}}
{"title"：{"My first blog post"}
{"index"：{"_index"："website"，"type"："blog"}}
{"title"："My second blog post"}
{"update":{"_index"："website"，"type"："blog"，"id"："123"，"retry_on_conflict"：3}}{"doc"：{"title"："My updated blog post"}}

# bulk AP1以此按顺序执行所有的action（动作）。如果一个单个的动作因任何原因而失败，它将继续处理它后面剩余的动作。当 bulk AP I返回时，它将提供每个动作的状态（与发送的顺序相同），所以您可以检查是否一个指定的动作是不是失败了。

7、样本测试数据 —— 导入测试数据

测试数据存入：

POST bank/account/_bulk

四、进阶检索

1、SearchAPI

ES支持两种基本方式检索：

一个是通过使用 REST request URI发送搜索参数（uri + 检索参数）

另一个是通过使用 REST request body来发送它们（uri + 请求体）

1）、检索信息

uri + 检索参数（一切检索从search开始）

GET bank/search 检索bank下所有信息，包括type和docs
GET bank/_search?q=*&sort=account_numger:asc 请求参数方式检索

响应结果解释：

took-Elasticsearch 执行搜索的时间（毫秒）
time_out - 告诉我们搜索是否超时
_shards -告诉我们多少个分片被搜索了，以及统计了成功/失败的搜索分片
hits -搜索结果
hits.total -搜索结果
hits.hits -实际的搜索结果数组（默认为前10的文档）
sort -结果的排序key（键）（没有则按score排序）
score和max_score -相关性得分和最高得分（全文检索用）

uri + 请求体进行检索

GET bank/_search

{
    "query":{
        "match_all":{}
    },
    "sort":[
        {
            "account_number":{
                 "order":"desc"
            }
        }
    ]
   
}

HTTP客户端工具（POSTMAN），get请求不能携带请求体，我们变为post也是一样的

我们 POST 一个 JSON 风格的查询请求体到 _search API。
需要了解，一旦搜索的结果被返回，Elasticsearch就完成了这次请求，并且不会维护任何服务器的资源或者结果的 cursor （游标）

2、Query DSL，详见官方

1)、基本语法格式

Elasticsearch 提供了一个可以执行查询的 Json风格的 DSL（domain-specific language 领域特定语言）。这个被称为Query DSL。该查询语言非常全面，并且刚开始的时候感觉有点复杂，真正学好它的方法是从一些基础的示例开始的。

一个查询语句的典型结构

GET bank/_search
{
  "query": {
    "match_all": {}
  },
  "sort": [
    {
      "balance": {
        "order": "desc"
      }
    }
  ],
  "from": 0,
  "size": 2,
  "_source": [
    "age",
    "balance"
  ]
}

// match_all 查询所有
// sort : 排序，指定根据 某个字段 aes 或者 desc 排序
// from 和 size ： 指定分页查询，从 0开始查询，每页size=2
// _source : 指定只展示哪个字段，相当于 MySQL 的 select

2)、返回部分字段关键字 `_source`

3)、`match` ，模糊匹配

GET bank/_search
{
  "query": {
    "match": {
      "address": "Mill"
    }
  }
}
// Match 匹配某个字段，如果该字段type是 text，会自动分词模糊匹配，_source 是分数，越高分匹配度越高

4)、`match _phrase` 短语匹配

GET bank/_search
{
  "query": {
    "match_phrase": {
      "address": "Mill Road"
    }
  }
}

GET bank/_search
{
  "query": {
    "match": {
      "address.keyword": "Mill Road"
    }
  }
}

// match_phrase 与 xx.keyword 效果不一样。前者是“分词短语匹配”，后者是“精确匹配”

5)、`multi_match` 多字段匹配

GET bank/_search
{
  "query": {
    "multi_match": {
      "query": "mill movico",
      "fields": ["address","city"]
    }
  }
}
// fields ：指定字段，这里指定的两个字段，只要有个其中一直模糊匹配到 query 的分词，都会被查到，_source 是相关性得分，越大值匹配度越高。

6)、`bool` 复合查询

bool 用来做复合查询：
复合语句可以合并任何其它查询语句，包括复合语句，了解这一点是很重要的。这就意味着，复合语句之间可以互相嵌套，可以表达非常复杂的逻辑。

must : 必须达到 must 列举的所有条件才匹配
must_not: 必须不匹配的才会被查到
should：可以匹配，也可以不匹配

GET bank/_search
{
  "query": {
    "bool": {
      "must": [
        {"match": {
          "gender": "M"
        }},
        {
          "match": {
            "address": "mill"
          }
        }
      ],
      "must_not": [
        {"match": {
          "age": "28"
        }}
      ],
      "should": [
        {"match": {
          "lastname": "wallace"
        }}
      ]
    }
  }
}

7)、`filter` 结果过滤

并不是所有的查询都需要产生分数，特别是那些仅用于"filtering”（过滤）的文档。为了不中计算分数Elasticsearch会自动检查场景并且优化查询的执行。这种场景，适合使用 filter 关键字过滤

GET bank/_search
{
  "query": {
    "bool": {
      "must": [
        { "range": {
          "age": {
            "gte": 10,
            "lte": 20
          }
        }}
      ]
    }
  }
}

GET bank/_search
{
  "query": {
    "bool": {
      "filter": [
        {
          "range": {
            "age": {
              "gte": 10,
              "lte": 20
            }
          }
        }
      ]
    }
  }
}
// filter : 查到的"max_score" =0.0
// must-range: 查到的数据 "max_score" = 1.0

8)、 `term` 非text字段匹配

和match一样。匹配某个属性的值。全文检索字段用match，其他非text字段匹配用term。比如 type 类似是 Long 、Integer 数字类型的字段，必须用 term 匹配，否则会导致 es查询报错。

9)、`aggregations` 聚合查询

聚合提供了从数据中分组和提取数据的能力。最简单的聚合方法大致等于SQL GROUP BY和 SQL聚合函数。在Elasticsearch中，您有执行搜索返回hits（命中结果），并且同时返回聚合结果，把一个响应中的所有hits（命中结果）分隔开的能力。这是非常强大且有效的，您可以执行查询和多个聚合，并且在一次使用中得到各自的（任何一个的）返回结果，使用一次简洁和简化的API来避免网络往返。

// aggs 聚合格式
GET bank/_search
{
  "query": {
    "match_all": {}
  },
  "aggs": {
    "NAME": {
      "AGG_TYPE": {}
    }
  }
}


//搜索 address 中包含 mill 的所有人的年龄分布以及平均年龄，但不显示这些人的详情。

GET bank/_search
{
  "query": {
    "match": {
      "address": "mill"
    }
  },
  "aggs": {
    "@ageAgg": {
      "terms": {
        "field": "age",
        "size": 10
      }
    },
    "@ageAvg":{
      "avg": {
        "field": "age"
      }
    }
  }
}

//"aggs": 聚合关键字缩写
//"@ageAgg" 和“@ageAvg" 是自定义的别名，随便起
//"terms":非text类型字段匹配
//"avg":求平均值的聚合关键字

# 按照年龄聚合，并且这些年龄段中M的平均薪资和F的平均薪资；以及这个年龄段的总体平均薪资
GET bank/_search
{
  "query": {
    "match_all": {}
  },
  "aggs": {
    "@ageagg": {
      "terms": {
        "field": "age",
        "size": 100
      },
      "aggs": {
        "@genderAgg": {
          "terms": {
            "field": "gender.keyword",
            "size": 10
          },
          "aggs": {
            "@balanceAvg": {
              "avg": {
                "field": "balance"
              }
            }
          }
        }
      }
    }
    
    
  }
  
}

3、mapper 映射

1)、字段类型 `type`

略 ,详情见官方

2)、映射 `_mapping` ,详情见官方

示例：

// 获取 bank 的字段映射
GET /bank/_mapping


//查询结果如下：

#! Elasticsearch built-in security features are not enabled. Without authentication, your cluster could be accessible to anyone. See https://www.elastic.co/guide/en/elasticsearch/reference/7.17/security-minimal-setup.html to enable security.
{
  "bank" : {
    "mappings" : {
      "properties" : {
        "account_number" : {
          "type" : "long"
        },
        "address" : {
          "type" : "text",
          "fields" : {
            "keyword" : {
              "type" : "keyword",
              "ignore_above" : 256
            }
          }
        },
        "age" : {
          "type" : "long"
        },
        "balance" : {
          "type" : "long"
        },
        "city" : {
          "type" : "text",
          "fields" : {
            "keyword" : {
              "type" : "keyword",
              "ignore_above" : 256
            }
          }
        },
        "email" : {
          "type" : "text",
          "fields" : {
            "keyword" : {
              "type" : "keyword",
              "ignore_above" : 256
            }
          }
        },
        "employer" : {
          "type" : "text",
          "fields" : {
            "keyword" : {
              "type" : "keyword",
              "ignore_above" : 256
            }
          }
        },
        "firstname" : {
          "type" : "text",
          "fields" : {
            "keyword" : {
              "type" : "keyword",
              "ignore_above" : 256
            }
          }
        },
        "gender" : {
          "type" : "text",
          "fields" : {
            "keyword" : {
              "type" : "keyword",
              "ignore_above" : 256
            }
          }
        },
        "lastname" : {
          "type" : "text",
          "fields" : {
            "keyword" : {
              "type" : "keyword",
              "ignore_above" : 256
            }
          }
        },
        "state" : {
          "type" : "text",
          "fields" : {
            "keyword" : {
              "type" : "keyword",
              "ignore_above" : 256
            }
          }
        }
      }
    }
  }
}

3)、新版本改动

Es7及以上移除了type的概念。

关系型数据库中两个数据表示是独立的，即使他们里面有相同名称的列也不影响使用，但ES中不是这样的。elasticsearch是基于Lucene开发的搜索引擎，而ES中不同type下名称相同的fled最终在Lucene中的处理方式是一样的。

两个不同type下的两个user_name，在ES同一个索引下其实被认为是同一个filed，你必须在两个不同的type中定义相同的fled映射。否则，不同type中的相同字段名称就会在处理中出现冲突的情况，导致Lucene处理效率下降。

去掉type就是为了提高S处理数据的效率。

Elasticsearch 7.x

URL中的type参数为可选。比如，索引一个文档不再要求提供文档类型。

Elasticsearch 8.x

不再支持URL中的type参数。

【解决】：

1）、将索引从多类型迁移到单类型，每种类型文档一个独立索引

2）、将已存在的索引下的类型数据，全部迁移到指定位置即可。详见数据迁移

1、创建索引并指定映射

PUT /my_index/
{
  "mappings": {
    "properties": {
      "age": {
        "type": "integer"
      },
      "email": {
        "type": "keyword"
      },
      "name": {
        "type": "text"
      }
    }
  }
}

//执行结果
{
  "acknowledged" : true,
  "shards_acknowledged" : true,
  "index" : "my_index"
}

2、已存在的索引，添加新的字段映射

// 这里假设 “/my_index”索引已经存在，还可以执行如下语句
// 语法 ： PUT /my_index/_mapping  
{
  "properties":{
    "字段名":{
      "type":"keyword",
      "index": false
    }
  }
}

// "type":"keyword"    作用是：指定当前字段类型是“关键字”类型
// "index": false      作用是：指定当前不作为全文索引字段，默认index 为true


PUT /my_index/_mapping
{
  "properties":{
    "balance":{
      "type":"long"
    }
  }
}

//执行结果，而更新已经存在的 “age”映射字段，会报错
{
  "acknowledged" : true
}

3、更新映射

注意：对于已经存在的映射字段，es是不能直接更新的。更新会报错提示，因为已存在的映射，可能已经正在使用，如果es允许自己更新已存在的映射字段，映射关系可能会错乱导致其他错误。

如果一定要更新，只能通过创建新的索引，进行数据迁移，将旧映射的数据迁移到星的行的映射。

4、数据迁移

先创建出 new_xxx 的正确映射。

# 新建索引
PUT /new_bank
{
  "mappings": {
    "properties": {
      "account_number": {
        "type": "long"
      },
      "address": {
        "type": "keyword"
      },
      "age": {
        "type": "integer"
      },
      "balance": {
        "type": "long"
      },
      "city": {
        "type": "keyword"
      },
      "email": {
        "type": "keyword"
      },
      "employer": {
        "type": "keyword"
      },
      "firstname": {
        "type": "text"
      },
      "gender": {
        "type": "keyword"
      },
      "lastname": {
        "type": "text",
        "fields": {
          "keyword": {
            "type": "keyword",
            "ignore_above": 256
          }
        }
      },
      "state": {
        "type": "keyword"
      }
    }
  }
}

然后使用如下方式进行数据迁移：

// 查询新旧索引映射字段规则
GET /bank/_mapping
GET /new_bank/_mapping

//新版本 es 7.x+ 写法：
POST _reindex
{
  "source": {
    "index": "bank"
  },
  "dest": {
    "index": "new_bank"
  }
}
// 旧版本 es 6.x 写法：
POST _reindex
{
  "source": {
    "index": "bank",
    "type": "account"
  },
  "dest": {
    "index": "new_bank"
  }
}

// 执行结果
{
  "took" : 223,
  "timed_out" : false,
  "total" : 1000,
  "updated" : 0,
  "created" : 1000,
  "deleted" : 0,
  "batches" : 1,
  "version_conflicts" : 0,
  "noops" : 0,
  "retries" : {
    "bulk" : 0,
    "search" : 0
  },
  "throttled_millis" : 0,
  "requests_per_second" : -1.0,
  "throttled_until_millis" : 0,
  "failures" : [ ]
}

// 查询数据,旧的数据 "_type" : "account"
GET /bank/_search

// 查询数据 ，查到  "_type" : "_doc" 。新版本都是默认为 “_doc”
GET /new_bank/_search

4、分词，详见官方“分词器”章节

一个tokenizer（分词器）接收一个字符流，将之分割为独立的tokens（词元，通常是独立的单词），然后输出tokens流。
例如，whitespace tokenizer遇到空白字符时分割文本。它会将文本"Quick brown fox！"分割为[Quick,brown,fox!]。

该tokenizer（分词器）还负责记录各个term（词条）的顺序或position位置（用于phrase短语和word proximity词近邻查询），以及term（词条）所代表的原始word（单词）的start（起始）和end（结束）的character offsets（字符偏移量）（用于高亮显示搜索的内容） Elasticsearch提供了很多内置的分词器，可以用来构建custom analyzers（自定义分词器）。

1）、安装 ik 分词器

注意：不能用默认 elasticsearch-plugin install xxx.zip 进行自动安装

因为版本对不上的话，elasticsearch会启动报错，无法启动。

ik分词器GitHub地址（选择对应es版本安装）

# 进入 es 容器内部 plugins 目录安装
$ docker exec -it [容器id或者容器名]  /bin/bash

# 如果 docker 容器有挂载路径 也可以在，docker容器挂载的plugins目录安装
$ cd /mydata/elasticsearch/plugins
# 创建 ik目录
$ mkdir ik
$  cd ik
# 服务器内下载 ，也可以本地下载好后，移动到对应的安装目录
$ wget https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.17.1/elasticsearch-analysis-ik-7.17.1.zip

# zip 解压命令
$ unzip elasticsearch-analysis-ik-7.17.1.zip

# 删除 压缩包
$ rm -rf  *.zip

# 授权
$ chmod -R 777 /mydata/elasticsearch/plugins/ik

# 进入 elasticsearch 容器内部
$ docker exec -it elasticsearch /bin/bash
# 可以确认是否安装好了分词器
cd ../bin 
elasticsearch plugin list # 即可列出系统的分词器

# 重启 elasticsearch 容器
$ docker restart elasticsearch

2）、测试分词

GET bank/_analyze
{
  "text": "我是中国人"
}

# 请观察结果中使用分词器 ik_smart
GET bank/_analyze
{
  "analyzer": "ik_smart",
  "text": "我是中国人"
}
# 请观察结果另外一个分词器ik_max_word
GET bank/_analyze
{
  "analyzer": "ik_max_word",
  "text": "我是中国人"
}

3）、自定义词库

比如：将自定义分词字段文件放到 nginx 上，es 通过配置取 Nginx上的字典数据

# docker 安装好Nginx，并启动
# 创建自定义分词字段文件
echo "哈利波特" >> /mydata/nginx/html/fenci/my_fenci.txt

# 验证：浏览器访问  http://192.168.56.10/fenci/my_fenci.txt。能正常读取

# 修改 修改`/usr/share/elasticsearch/plugins/ik/config/`中的 `iKAnalyzer.cfg-xml`

# 重启 elasticsearch 即可
$ docker restart elasticsearch

/usr/share/elasticsearch/plugins/ik/config


DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
        <comment>IK Analyzer 扩展配置comment>
        
        <entry key="ext_dict">entry>
         
        <entry key="ext_stopwords">entry>
        
        <entry key="remote_ext_dict">http://192.168.56.10/fenci/my_fenci.txtentry> 
        
        
properties>

五、 Elasticsearch-Rest-Client

1）、9300 端口： TCP

     
		
		<dependency>
			<groupId>org.springframework.bootgroupId>
			<artifactId>spring-boot-starter-data-elasticsearchartifactId>
		dependency>

   
 
	<dependency>
      <groupId>org.springframework.datagroupId>
      <artifactId>spring-data-elasticsearchartifactId>
      <version>3.1.17.RELEASEversion>
      <scope>compilescope>
      <exclusions>
        <exclusion>
          <artifactId>jcl-over-slf4jartifactId>
          <groupId>org.slf4jgroupId>
        exclusion>
        <exclusion>
          <artifactId>log4j-coreartifactId>
          <groupId>org.apache.logging.log4jgroupId>
        exclusion>
      exclusions>
    dependency>

2）、9200端口：HTTP

JestClient：非官方，更新慢
RestTemplate：模拟发HTTP请求，ES很多操作需要自己封装，麻烦。
HttpClient: 理由同上
Java REST Client （Java High Level REST Client）: 官方早期提供的 RestClient，在 7.15.0 版本中已弃用，现最新版8.x官方推荐使用 “Java API Client”的方式。如果原来旧项目中使用“Java REST Client”这种方式，想要升级改造使用最新的 Java API Client 的，官方也给出了解决方案，详见从高级 Rest 客户端迁移
Java REST 客户端官方说明文档 (7.17)：Elasticsearch Java API Client(最新8.2) 7.15.0版本后使用这个，8.x普及。强烈推荐使用！！！

Springboot 整合 Elasticsearch ，详见 Elasticsearch Java API Client(7.17)

1、引入依赖 Maven Repository

<project>
    <properties>
        <elasticsearch.version>7.17.1elasticsearch.version>
        <jackson.version>2.12.3jackson.version>
    properties>
    
  <dependencies>
    
      <dependency>
          <groupId>co.elastic.clientsgroupId>
          <artifactId>elasticsearch-javaartifactId>
          <version>${elasticsearch.version}version>
      dependency>

    <dependency>
      <groupId>com.fasterxml.jackson.coregroupId>
      <artifactId>jackson-databindartifactId>
      <version>2.12.3version>
    dependency>
      <dependency>
          <groupId>com.fasterxml.jackson.coregroupId>
          <artifactId>jackson-coreartifactId>
          <version>${jackson.version}version>
      dependency>
      <dependency>
          <groupId>com.fasterxml.jackson.coregroupId>
          <artifactId>jackson-annotationsartifactId>
          <version>${jackson.version}version>
      dependency>
  dependencies>
project>

2、简单使用示例

3、es 中数组存入的 nested数据类型场景说明

数组存入 es中，默认是被“扁平化”处理存储的。按照我们数组的定义结构，要想不匹配到错误的数据，应该设置为 nested 类型。

4、 bulk的写法参考官方文档

5 、无法`toString()`输出的问题

目前最新版elasticsearch-java( 8.2.2 ) 版本的问题：

就是所有的 DSL构造器xxxBuilder，均没有重写 toString()。导致想在开发自测中输出DSL 语句到 Kibana Dev Tools 中自测都不行了。目前想 xxxBuilder序列化成JSON输出，好得自己实现 serialize(JsonGenerator generator, JsonpMapper mapper) 这个方法，麻烦…

然后比较滑稽的是，官方建议抛弃使用的elasticsearch-rest-high-level-client 都有重写 toString()方法。

查了下github，发现该问题已有人提出，5月份还在优化中，暂时还没有最新的发布版本，我预测，可能会在 8.3版本被会修复吧。

GitHub问题描述与修复的地址：
如何打印一个可执行的DSL语句问题描述
添加 toString() 实现中…

你可能感兴趣的:(elasticsearch,java,docker)

Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
PHP环境搭建详细教程好看资源平台前端 php
PHP是一个流行的服务器端脚本语言，广泛用于Web开发。为了使PHP能够在本地或服务器上运行，我们需要搭建一个合适的PHP环境。本教程将结合最新资料，介绍在不同操作系统上搭建PHP开发环境的多种方法，包括Windows、macOS和Linux系统的安装步骤，以及本地和Docker环境的配置。1.PHP环境搭建概述PHP环境的搭建主要分为以下几类：集成开发环境：例如XAMPP、WAMP、MAMP，这
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
【华为OD机试真题2023B卷 JAVA&JS】We Are A Team 若博豆 java 算法华为 javascript
华为OD2023（B卷）机试题库全覆盖，刷题指南点这里WeAreATeam时间限制：1秒|内存限制：32768K|语言限制：不限题目描述：总共有n个人在机房，每个人有一个标号（1<=标号<=n），他们分成了多个团队，需要你根据收到的m条消息判定指定的两个人是否在一个团队中，具体的：1、消息构成为：abc，整数a、b分别代
关于城市旅游的HTML网页设计——(旅游风景云南 5页)HTML+CSS+JavaScript 二挡起步 web前端期末大作业 javascript html css 旅游风景
⛵源码获取文末联系✈Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业|游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作|HTML期末大学生网页设计作业，Web大学生网页HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScrip
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
docker igotyback eureka 云原生
Docker容器的文件系统是隔离的，但是可以通过挂载卷（Volumes）或绑定挂载（BindMounts）将宿主机的文件系统目录映射到容器内部。要查看Docker容器的映射路径，可以使用以下方法：查看容器配置：使用dockerinspect命令可以查看容器的详细配置信息，包括挂载的卷。例如：bashdockerinspect在输出的JSON格式中，查找"Mounts"部分，这里会列出所有的挂载信息
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
Java 重写(Override)与重载(Overload) 叨唧唧的
Java重写(Override)与重载(Overload)重写(Override)重写是子类对父类的允许访问的方法的实现过程进行重新编写,返回值和形参都不能改变。即外壳不变，核心重写！重写的好处在于子类可以根据需要，定义特定于自己的行为。也就是说子类能够根据需要实现父类的方法。重写方法不能抛出新的检查异常或者比被重写方法申明更加宽泛的异常。例如：父类的一个方法申明了一个检查异常IOExceptio
简单了解 JVM 记得开心一点啊 jvm
目录♫什么是JVM♫JVM的运行流程♫JVM运行时数据区♪虚拟机栈♪本地方法栈♪堆♪程序计数器♪方法区/元数据区♫类加载的过程♫双亲委派模型♫垃圾回收机制♫什么是JVMJVM是JavaVirtualMachine的简称，意为Java虚拟机。虚拟机是指通过软件模拟的具有完整硬件功能的、运行在一个完全隔离的环境中的完整计算机系统（如：JVM、VMwave、VirtualBox）。JVM和其他两个虚拟机
1分钟解决 -bash: mvn: command not found，在Centos 7中安装Maven Energet!c 开发语言
1分钟解决-bash:mvn:commandnotfound，在Centos7中安装Maven检查Java环境1下载Maven2解压Maven3配置环境变量4验证安装5常见问题与注意事项6总结检查Java环境Maven依赖Java环境，请确保系统已经安装了Java并配置了环境变量。可以通过以下命令检查：java-version如果未安装，请先安装Java。1下载Maven从官网下载：前往Apach
Java企业面试题3 马龙强_ java
1.break和continue的作用(智*图)break：用于完全退出一个循环（如for,while）或一个switch语句。当在循环体内遇到break语句时，程序会立即跳出当前循环体，继续执行循环之后的代码。continue：用于跳过当前循环体中剩余的部分，并开始下一次循环。如果是在for循环中使用continue，则会直接进行条件判断以决定是否执行下一轮循环。2.if分支语句和switch分
JVM、JRE和 JDK：理解Java开发的三大核心组件 Y雨何时停T Java java
Java是一门跨平台的编程语言，它的成功离不开背后强大的运行环境与开发工具的支持。在Java的生态中，JVM（Java虚拟机）、JRE（Java运行时环境）和JDK（Java开发工具包）是三个至关重要的核心组件。本文将探讨JVM、JDK和JRE的区别，帮助你更好地理解Java的运行机制。1.JVM：Java虚拟机（JavaVirtualMachine）什么是JVM？JVM，即Java虚拟机，是Ja
Java面试题精选：消息队列(二) 芒果不是芒 Java面试题精选 java kafka
一、Kafka的特性1.消息持久化：消息存储在磁盘，所以消息不会丢失2.高吞吐量：可以轻松实现单机百万级别的并发3.扩展性：扩展性强，还是动态扩展4.多客户端支持：支持多种语言（Java、C、C++、GO、）5.KafkaStreams（一个天生的流处理）:在双十一或者销售大屏就会用到这种流处理。使用KafkaStreams可以快速的把销售额统计出来6.安全机制：Kafka进行生产或者消费的时候会
白骑士的Java教学基础篇 2.5 控制流语句白骑士所长 Java 教学 java 开发语言
欢迎继续学习Java编程的基础篇！在前面的章节中，我们了解了Java的变量、数据类型和运算符。接下来，我们将探讨Java中的控制流语句。控制流语句用于控制程序的执行顺序，使我们能够根据特定条件执行不同的代码块，或重复执行某段代码。这是编写复杂程序的基础。通过学习这一节内容，你将掌握如何使用条件语句和循环语句来编写更加灵活和高效的代码。条件语句条件语句用于根据条件的真假来执行不同的代码块。if语句‘
python语法——三目运算符 HappyRocking python python 三目运算符
在java中，有三目运算符，如：intc=(a>b)?a:b表示c取两者中的较大值。但是在python，不能直接这样使用，估计是因为冒号在python有分行的关键作用。那么在python中，如何实现类似功能呢？可以使用ifelse语句，也是一行可以完成，格式为：aifbelsec表示如果b为True，则表达式等于a，否则等于c。如：c=(aif(a>b)elseb)同样是完成了取最大值的功能。
ArrayList 源码解析程序猿进阶 Java基础 ArrayList List java 面试性能优化架构设计 idea
ArrayList是Java集合框架中的一个动态数组实现，提供了可变大小的数组功能。它继承自AbstractList并实现了List接口，是顺序容器，即元素存放的数据与放进去的顺序相同，允许放入null元素，底层通过数组实现。除该类未实现同步外，其余跟Vector大致相同。每个ArrayList都有一个容量capacity，表示底层数组的实际大小，容器内存储元素的个数不能多于当前容量。当向容器中添
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
python怎么将png转为tif_png转tif weixin_39977276
发国外的文章要求图片是tif，cmyk色彩空间的。大小尺寸还有要求。比如网上大神多，找到了一段代码，感谢！https://www.jianshu.com/p/ec2af4311f56https://github.com/KevinZc007/image2Tifimportjava.awt.image.BufferedImage;importjava.io.File;importjava.io.Fi
JavaScript 中，深拷贝（Deep Copy）和浅拷贝（Shallow Copy）跳房子的前端前端面试 javascript 开发语言 ecmascript
在JavaScript中，深拷贝（DeepCopy）和浅拷贝（ShallowCopy）是用于复制对象或数组的两种不同方法。了解它们的区别和应用场景对于避免潜在的bugs和高效地处理数据非常重要。以下是对深拷贝和浅拷贝的详细解释，包括它们的概念、用途、优缺点以及实现方式。1.浅拷贝（ShallowCopy）概念定义：浅拷贝是指创建一个新的对象或数组，其中包含了原对象或数组的基本数据类型的值和对引用数
06选课支付模块之基于消息队列发送支付通知消息 echo 云清学成在线 java rabbitmq 消息队列支付通知学成在线
消息队列发送支付通知消息需求分析订单服务作为通用服务，在订单支付成功后需要将支付结果异步通知给其他对接的微服务，微服务收到支付结果根据订单的类型去更新自己的业务数据技术方案使用消息队列进行异步通知需要保证消息的可靠性即生产端将消息成功通知到服务端：消息发送到交换机-->由交换机发送到队列-->消费者监听队列，收到消息进行处理，参考文章02-使用Docker安装RabbitMQ-CSDN博客生产者确
JAVA·一个简单的登录窗口 MortalTom java 开发语言学习
文章目录概要整体架构流程技术名词解释技术细节资源概要JavaSwing是Java基础类库的一部分，主要用于开发图形用户界面（GUI）程序整体架构流程新建项目，导入sql.jar包（链接放在了文末），编译项目并运行技术名词解释一、特点丰富的组件提供了多种可视化组件，如按钮（JButton）、文本框（JTextField）、标签（JLabel）、下拉列表（JComboBox）等，可以满足不同的界面设计
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
博客网站制作教程 2401_85194651 java maven
首先就是技术框架：后端：Java+SpringBoot数据库：MySQL前端：Vue.js数据库连接：JPA(JavaPersistenceAPI)1.项目结构blog-app/├──backend/│├──src/main/java/com/example/blogapp/││├──BlogApplication.java││├──config/│││└──DatabaseConfig.java
00. 这里整理了最全的爬虫框架（Java + Python）有一只柴犬爬虫系列爬虫 java python
目录1、前言2、什么是网络爬虫3、常见的爬虫框架3.1、java框架3.1.1、WebMagic3.1.2、Jsoup3.1.3、HttpClient3.1.4、Crawler4j3.1.5、HtmlUnit3.1.6、Selenium3.2、Python框架3.2.1、Scrapy3.2.2、BeautifulSoup+Requests3.2.3、Selenium3.2.4、PyQuery3.2
JAVA学习笔记之23种设计模式学习 victorfreedom Java技术设计模式 android java 常用设计模式
博主最近买了《设计模式》这本书来学习，无奈这本书是以C++语言为基础进行说明，整个学习流程下来效率不是很高，虽然有的设计模式通俗易懂，但感觉还是没有充分的掌握了所有的设计模式。于是博主百度了一番，发现有大神写过了这方面的问题，于是博主迅速拿来学习。一、设计模式的分类总体来说设计模式分为三大类：创建型模式，共五种：工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式。结构型模式，共七种：适配器
设计模式介绍 tntxia 设计模式
设计模式来源于土木工程师克里斯托弗亚历山大（http://en.wikipedia.org/wiki/Christopher_Alexander）的早期作品。他经常发表一些作品，内容是总结他在解决设计问题方面的经验，以及这些知识与城市和建筑模式之间有何关联。有一天，亚历山大突然发现，重复使用这些模式可以让某些设计构造取得我们期望的最佳效果。亚历山大与萨拉-石川佳纯和穆雷西乐弗斯坦合作
android高级组件使用(一) 百合不是茶 android RatingBar Spinner
1、自动完成文本框（AutoCompleteTextView） AutoCompleteTextView从EditText派生出来，实际上也是一个文本编辑框，但它比普通编辑框多一个功能：当用户输入一个字符后，自动完成文本框会显示一个下拉菜单，供用户从中选择，当用户选择某个菜单项之后，AutoCompleteTextView按用户选择自动填写该文本框。使用AutoCompleteTex
[网络与通讯]路由器市场大有潜力可挖掘 comsci 网络
如果国内的电子厂商和计算机设备厂商觉得手机市场已经有点饱和了,那么可以考虑一下交换机和路由器市场的进入问题..... 这方面的技术和知识,目前处在一个开放型的状态,有利于各类小型电子企业进入 &nbs
自写简单Redis内存统计shell 商人shang Linux shell 统计Redis内存
#!/bin/bash address="192.168.150.128:6666,192.168.150.128:6666" hosts=(${address//,/ }) sfile="staticts.log" for hostitem in ${hosts[@]} do ipport=(${hostitem
单例模式(饿汉 vs懒汉) oloz 单例模式
package 单例模式; /* * 应用场景:保证在整个应用之中某个对象的实例只有一个 * 单例模式种的《懒汉模式》 * */ public class Singleton { //01 将构造方法私有化，外界就无法用new Singleton()的方式获得实例 private Singleton(){}; //02 申明类得唯一实例 priva
springMvc json支持杨白白 json springmvc
1.Spring mvc处理json需要使用jackson的类库，因此需要先引入jackson包 2在spring mvc中解析输入为json格式的数据:使用@RequestBody来设置输入 @RequestMapping("helloJson") public @ResponseBody JsonTest helloJson() {
android播放，掃描添加本地音頻文件小桔子
最近幾乎沒有什麽事情，繼續鼓搗我的小東西。想在項目中加入一個簡易的音樂播放器功能，就像華為p6桌面上那麼大小的音樂播放器。用過天天動聽或者QQ音樂播放器的人都知道，可已通過本地掃描添加歌曲。不知道他們是怎麼實現的，我覺得應該掃描設備上的所有文件，過濾出音頻文件，每個文件實例化為一個實體，記錄文件名、路徑、歌手、類型、大小等信息。具體算法思想，
oracle常用命令 aichenglong oracle dba 常用命令
1 创建临时表空间 create temporary tablespace user_temp tempfile 'D:\oracle\oradata\Oracle9i\user_temp.dbf' size 50m autoextend on next 50m maxsize 20480m extent management local
25个Eclipse插件 AILIKES eclipse插件
提高代码质量的插件1. FindBugsFindBugs可以帮你找到Java代码中的bug，它使用Lesser GNU Public License的自由软件许可。2. CheckstyleCheckstyle插件可以集成到Eclipse IDE中去，能确保Java代码遵循标准代码样式。3. ECLemmaECLemma是一款拥有Eclipse Public License许可的免费工具，它提供了
Spring MVC拦截器+注解方式实现防止表单重复提交 baalwolf spring mvc
原理：在新建页面中Session保存token随机码，当保存时验证，通过后删除，当再次点击保存时由于服务器端的Session中已经不存在了，所有无法验证通过。 1.新建注解： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
《Javascript高级程序设计(第3版)》闭包理解 bijian1013 JavaScript
“闭包是指有权访问另一个函数作用域中的变量的函数。”--《Javascript高级程序设计(第3版)》看以下代码： <script type="text/javascript"> function outer() { var i = 10; return f
AngularJS Module类的方法 bijian1013 JavaScript AngularJS Module
AngularJS中的Module类负责定义应用如何启动，它还可以通过声明的方式定义应用中的各个片段。我们来看看它是如何实现这些功能的。一.Main方法在哪里如果你是从Java或者Python编程语言转过来的，那么你可能很想知道AngularJS里面的main方法在哪里？这个把所
[Maven学习笔记七]Maven插件和目标 bit1129 maven插件
插件(plugin)和目标(goal) Maven，就其本质而言，是一个插件执行框架，Maven的每个目标的执行逻辑都是由插件来完成的，一个插件可以有1个或者几个目标，比如maven-compiler-plugin插件包含compile和testCompile，即maven-compiler-plugin提供了源代码编译和测试源代码编译的两个目标使用插件和目标使得我们可以干预
【Hadoop八】Yarn的资源调度策略 bit1129 hadoop
1. Hadoop的三种调度策略 Hadoop提供了3中作业调用的策略， FIFO Scheduler Fair Scheduler Capacity Scheduler 以上三种调度算法，在Hadoop MR1中就引入了，在Yarn中对它们进行了改进和完善.Fair和Capacity Scheduler用于多用户共享的资源调度 2. 多用户资源共享的调度
Nginx使用Linux内存加速静态文件访问 ronin47
Nginx是一个非常出色的静态资源web服务器。如果你嫌它还不够快，可以把放在磁盘中的文件，映射到内存中，减少高并发下的磁盘IO。先做几个假设。nginx.conf中所配置站点的路径是/home/wwwroot/res，站点所对应文件原始存储路径：/opt/web/res shell脚本非常简单，思路就是拷贝资源文件到内存中，然后在把网站的静态文件链接指向到内存中即可。具体如下：
关于Unity3D中的Shader的知识 brotherlamp unity unity资料 unity教程 unity视频 unity自学
首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，然后我们来看下Unity3D自带的60多个S
CopyOnWriteArrayList vs ArrayList bylijinnan java
package com.ljn.base; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.concurrent.CopyOnWriteArrayList; /** * 总述： * 1.ArrayListi不是线程安全的，CopyO
内存中栈和堆的区别 chicony 内存
1、内存分配方面：堆：一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式是类似于链表。可能用到的关键字如下：new、malloc、delete、free等等。栈：由编译器(Compiler)自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中
回答一位网友对Scala的提问 chenchao051 scala map
本来准备在私信里直接回复了，但是发现不太方便，就简要回答在这里。问题写道对于scala的简洁十分佩服，但又觉得比较晦涩，例如一例，Map("a" -> List(11,111)).flatMap(_._2)，可否说下最后那个函数做了什么，真正在开发的时候也会如此简洁？谢谢先回答一点，在实际使用中，Scala毫无疑问就是这么简单。
mysql 取每组前几条记录 daizj mysql 分组最大值最小值每组三条记录
一、对分组的记录取前N条记录：例如：取每组的前3条最大的记录 1.用子查询： SELECT * FROM tableName a WHERE 3> (SELECT COUNT(*) FROM tableName b WHERE b.id=a.id AND b.cnt>a. cnt) ORDER BY a.id,a.account DE
HTTP深入浅出 http请求 dcj3sjt126com http
HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP，使HTTP客户（如Web浏览器）能够从HTTP服务器(Web服务器)请求信息和服务，HTTP目前协议的版本是1.1.HTTP是一种无状态的协议，无状态是指Web浏览器和Web服务器之间不需要建立持久的连接，这意味着当一个客户端向服务器端发出请求，然后We
判断MySQL记录是否存在方法比较 dcj3sjt126com mysql
把数据写入到数据库的时，常常会碰到先要检测要插入的记录是否存在，然后决定是否要写入。　　我这里总结了判断记录是否存在的常用方法：　　sql语句： select count ( * ) from tablename; 　　然后读取count(*)的值判断记录是否存在。对于这种方法性能上有些浪费，我们只是想判断记录记录是否存在，没有必要全部都查出来。
对HTML XML的一点认识 e200702084 html xml
感谢http://www.w3school.com.cn提供的资料 HTML 文档中的每个成分都是一个节点。节点根据 DOM，HTML 文档中的每个成分都是一个节点。 DOM 是这样规定的：整个文档是一个文档节点每个 HTML 标签是一个元素节点包含在 HTML 元素中的文本是文本节点每一个 HTML 属性是一个属性节点注释属于注释节点 Node 层次
jquery分页插件 genaiwei jquery Web 前端分页插件
//jquery页码控件// 创建一个闭包 (function($) { // 插件的定义 $.fn.pageTool = function(options) { var totalPa
Mybatis与Ibatis对照入门于学习 Josh_Persistence mybatis ibatis 区别联系
一、为什么使用IBatis/Mybatis 对于从事 Java EE 的开发人员来说，iBatis 是一个再熟悉不过的持久层框架了，在 Hibernate、JPA 这样的一站式对象 / 关系映射（O/R Mapping）解决方案盛行之前，iBaits 基本是持久层框架的不二选择。即使在持久层框架层出不穷的今天，iBatis 凭借着易学易用、
C中怎样合理决定使用那种整数类型？秋风扫落叶 c 数据类型
如果需要大数值(大于32767或小于32767), 使用long 型。否则, 如果空间很重要 (如有大数组或很多结构), 使用 short 型。除此之外, 就使用 int 型。如果严格定义的溢出特征很重要而负值无关紧要, 或者你希望在操作二进制位和字节时避免符号扩展的问题, 请使用对应的无符号类型。但是, 要注意在表达式中混用有符号和无符号值的情况。 &nbs
maven问题 zhb8015 maven问题
问题1： Eclipse 中新建maven项目无法添加src/main/java 问题 eclipse创建maevn web项目，在选择maven_archetype_web原型后，默认只有src/main/resources这个Source Floder。按照maven目录结构，添加src/main/ja
(二)androidpn-server tomcat版源码解析之--push消息处理 spjich java androdipn 推送
在 (一)androidpn-server tomcat版源码解析之--项目启动这篇中，已经描述了整个推送服务器的启动过程，并且把握到了消息的入口即XmppIoHandler这个类，今天我将继续往下分析下面的核心代码，主要分为3大块，链接创建，消息的发送，链接关闭。先贴一段XmppIoHandler的部分代码 /** * Invoked from an I/O proc
用js中的formData类型解决ajax提交表单时文件不能被serialize方法序列化的问题中华好儿孙 JavaScript Ajax Web 上传文件 FormData
var formData = new FormData($("#inputFileForm")[0]); $.ajax({ type:'post', url:webRoot+"/electronicContractUrl/webapp/uploadfile", data:formData, async: false, ca
mybatis常用jdbcType数据类型 ysj5125094 mybatis mapper jdbcType
MyBatis 通过包含的jdbcType 类型 BIT FLOAT CHAR