醉梦依依惜（互粉互赞）

44.ES

一、ES。

（1）es概念。

（1.1）什么是es。

（1.2）es的发展。

（1.3）总结。

（2）倒排索引。

（3）es与mysql的概念对比。

（4）部署es、kibana、IK分词器。

（4.1）部署单点es。

（4.1.1）创建网络。

（4.1.2）加载镜像。

（4.1.3）运行es容器。

（4.2）部署bibana。

（4.2.1）运行docker命令，部署kibana。

（4.2.2）DevTools。

（4.3）安装IK分词器。

（4.3.1）在线安装ik插件（较慢）。

（4.3.2）离线安装ik插件（推荐）。

（4.3.2.1）查看数据卷目录。

（4.3.2.2）解压缩分词器安装包。

（4.3.2.3）上传到es容器的插件数据卷中。

（4.3.2.4）重启容器。

（4.3.2.5）测试。

（4.3.3.6）扩展词词典。

（4.3.3.7）停用词词典。

（5）索引库操作（即表操作）。

（5.1）mapping映射属性。

（5.2）索引库的CRUD。

（5.2.1）创建索引库。

（5.2.2）查看、删除索引库。

（5.2.3）修改索引库。

（5.2.4）索引库操作有哪些？

（6）文档操作。

（6.1）新增文档。

（6.2）查询、删除文档。

（6.3）修改文档。

（6.4）文档操作总结。

（7）RestClient操作索引库。

（7.1）初始化JavaRestClient、创建索引库。

（7.2）删除索引库、判断索引库是否存在。

（7.3）总结。

（8）RestClient操作文档。

（8.1）新增文档。

（8.2）查询文档。

（8.3）修改文档。

（8.4）删除文档。

（8.5）批量导入文档。

（8.6）总结。

（9）DSL查询文档。

（9.1）DSL查询分类。

（9.2）查询所有。

（9.3）全文检索查询。

（9.4）精准查询。

（9.5）地理坐标查询。

（9.6）组合查询。

（9.6.1）Function Score Query。

（9.6.2）Boolean Query。

（10）搜索结果处理。

（10.1）排序。

（10.2）分页。

（10.3）高亮。

（11）RestClient查询文档。

（11.1）快速入门（包含获取文档内容处理）。

（11.2）match查询。

（11.3）精确查询。

（11.4）复合查询。

（11.5）排序、分页。

（11.6）高亮。

（11.7）根据经纬度排序。

（11.8）代码展示。

（12）数据聚合。

（12.1）聚合的种类。

（12.2）DSL实现聚合。

（12.2.1） Bucket聚合。

（12.2.2）Metrics 聚合。

（12.3）RestAPI实现聚合。

（12.3.1）数据聚合—按字段分组聚合。

（12.3.2）数据聚合—多条件聚合。

（12.3.3）数据聚合—带过滤条件的聚合。

（13）自动补全。

（13.1）拼音分词器。

（13.2）自定义分词器。

（13.3）自动补全查询。

（13.4）实现酒店搜索框自动补全。

（14）数据同步。

（14.1）数据同步思路分析。

（14.2）实现elasticsearch与数据库数据同步。

（15）elasticsearch集群。

（15.1）搭建ES集群。

（15.1.1）es的集群。

（15.1.2）cerebro（集群状态监控）。

（15.1.3）创建索引库。（分片）

（15.2）ES集群的节点角色。

（15.3）集群脑裂问题。

（15.4）集群分布式存储。

（15.5）集群分布式查询。

（15.6）集群故障转移。

（16）ES的动态映射，静态映射。

（16.1）动态映射。

（16.2）静态映射。

一、ES。

注意：下面的两种id是完全不一样的id，一个是只用于es搜索的唯一标识（_id），一个是对应数据库的字段（_source里面的id字段）。

在 Elasticsearch 中，一个文档（Document）有两个 ID 相关的概念：_id 和 _source。

1._id 是文档的唯一标识符，由 Elasticsearch 自动分配或者用户显式指定。该字段在创建文档时生成，用于唯一标识每个文档。例如，在索引文档时可以指定 _id 值：

json
POST /my_index/_doc/1
{
  "title": "Example",
  "content": "This is an example document."
}
2._source 是文档的实际内容。它是一个存储了文档原始 JSON 内容的字段。默认情况下，当你检索文档时，会返回该文档的完整内容（即 _source 字段）。例如，以下请求会返回具有指定 ID 的文档的全部内容：

json
GET /my_index/_doc/1
返回结果如下所示：

json
{
  "_index": "my_index",
  "_type": "_doc",
  "_id": "1",
  "_version": 1,
  "_seq_no": 0,
  "_primary_term": 1,
  "found": true,
  "_source": {
    "title": "Example",
    "content": "This is an example document."
  }
}

（1）es概念。

（1.1）什么是es。

（1.2）es的发展。

es是基于lucene写的。

（1.3）总结。

es是基于lucene写的。

（2）倒排索引。

（3）es与mysql的概念对比。

索引：对应数据表。

文档：对应数据表记录。

词条：一条数据表记录有若干词条。

（4）部署es、kibana、IK分词器。

（4.1）部署单点es。

（4.1.1）创建网络。

因为我们还需要部署kibana容器，因此需要让es和kibana容器互联。这里先创建一个网络：

docker network create es-net

（4.1.2）加载镜像。

这里我们采用elasticsearch的7.12.1版本的镜像，这个镜像体积非常大，接近1G。不建议大家自己pull。

大家将其上传到虚拟机中，然后运行命令加载即可：

docker load -i es.tar

同理还有kibana的tar包也需要这样做。

（4.1.3）运行es容器。

运行docker命令，部署单点es：

docker run -d \
--name es \
-e "ES_JAVA_OPTS=-Xms512m -Xmx512m" \
-e "discovery.type=single-node" \
-v es-data:/usr/share/elasticsearch/data \
-v es-plugins:/usr/share/elasticsearch/plugins \
--privileged \
--network es-net \
-p 9200:9200 \
-p 9300:9300 \
elasticsearch:7.12.1

数据卷挂载提示：docker run -v <宿主机路径>:<容器路径> <镜像名称>

命令解释：

--e "cluster.name=es-docker-cluster"：设置集群名称
-e "http.host=0.0.0.0"：监听的地址，可以外网访问
-e "ES_JAVA_OPTS=-Xms512m -Xmx512m"：内存大小
-e "discovery.type=single-node"：非集群模式
-v es-data:/usr/share/elasticsearch/data：挂载逻辑卷，绑定es的数据目录
-v es-logs:/usr/share/elasticsearch/logs：挂载逻辑卷，绑定es的日志目录
-v es-plugins:/usr/share/elasticsearch/plugins：挂载逻辑卷，绑定es的插件目录
--privileged：授予逻辑卷访问权
--network es-net ：加入一个名为es-net的网络中
-p 9200:9200：端口映射配置

在浏览器中输入：

http://192.168.150.101:9200

即可看到elasticsearch的响应结果。

（4.2）部署bibana。

（4.2.1）运行docker命令，部署kibana。

docker run -d \
--name kibana \
-e ELASTICSEARCH_HOSTS=http://es:9200 \
--network=es-net \
-p 5601:5601 \
kibana:7.12.1

命令解释：

--network es-net ：加入一个名为es-net的网络中，与elasticsearch在同一个网络中
-e ELASTICSEARCH_HOSTS=http://es:9200"：设置elasticsearch的地址，因为kibana已经与elasticsearch在一个网络，因此可以用容器名直接访问elasticsearch
-p 5601:5601：端口映射配置

kibana启动一般比较慢，需要多等待一会，可以通过命令：

docker logs -f kibana

查看运行日志，当查看到下面的日志，说明成功：

此时，在浏览器输入地址访问（注意该IP地址）：

http://192.168.150.101:5601

即可看到结果

（4.2.2）DevTools。

点击Dev tools

kibana中提供了一个DevTools界面：

这个界面中可以编写DSL来操作elasticsearch。并且对DSL语句有自动补全功能。

（4.3）安装IK分词器。

（4.3.1）在线安装ik插件（较慢）。

# 进入容器内部
docker exec -it elasticsearch /bin/bash

# 在线下载并安装
./bin/elasticsearch-plugin  install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.12.1/elasticsearch-analysis-ik-7.12.1.zip

#退出
exit
#重启容器
docker restart elasticsearch

（4.3.2）离线安装ik插件（推荐）。

（4.3.2.1）查看数据卷目录。

安装插件需要知道elasticsearch的plugins目录位置，而我们用了数据卷挂载，因此需要查看elasticsearch的数据卷目录，通过下面命令查看:

docker volume inspect es-plugins

提示：只要将ik分词器放到挂载到容器的主机挂载目录下就行，当时运行容器的时候挂载了：

-v es-plugins:/usr/share/elasticsearch/plugins

显示结果：

[
    {
        "CreatedAt": "2022-05-06T10:06:34+08:00",
        "Driver": "local",
        "Labels": null,
        "Mountpoint": "/var/lib/docker/volumes/es-plugins/_data",
        "Name": "es-plugins",
        "Options": null,
        "Scope": "local"
    }
]

说明plugins目录被挂载到了：/var/lib/docker/volumes/es-plugins/_data 这个目录中。

（4.3.2.2）解压缩分词器安装包。

下面我们需要把课前资料中的ik分词器解压缩，重命名为ik

（4.3.2.3）上传到es容器的插件数据卷中。

也就是/var/lib/docker/volumes/es-plugins/_data ：

（4.3.2.4）重启容器。

# 4、重启容器
docker restart es

# 查看es日志
docker logs -f es

（4.3.2.5）测试。

IK分词器包含两种模式：

ik_smart：最少切分
ik_max_word：最细切分

GET /_analyze
{
  "analyzer": "ik_max_word",
  "text": "黑马程序员学习java太棒了"
}

结果：

{
  "tokens" : [
    {
      "token" : "黑马",
      "start_offset" : 0,
      "end_offset" : 2,
      "type" : "CN_WORD",
      "position" : 0
    },
    {
      "token" : "程序员",
      "start_offset" : 2,
      "end_offset" : 5,
      "type" : "CN_WORD",
      "position" : 1
    },
    {
      "token" : "程序",
      "start_offset" : 2,
      "end_offset" : 4,
      "type" : "CN_WORD",
      "position" : 2
    },
    {
      "token" : "员",
      "start_offset" : 4,
      "end_offset" : 5,
      "type" : "CN_CHAR",
      "position" : 3
    },
    {
      "token" : "学习",
      "start_offset" : 5,
      "end_offset" : 7,
      "type" : "CN_WORD",
      "position" : 4
    },
    {
      "token" : "java",
      "start_offset" : 7,
      "end_offset" : 11,
      "type" : "ENGLISH",
      "position" : 5
    },
    {
      "token" : "太棒了",
      "start_offset" : 11,
      "end_offset" : 14,
      "type" : "CN_WORD",
      "position" : 6
    },
    {
      "token" : "太棒",
      "start_offset" : 11,
      "end_offset" : 13,
      "type" : "CN_WORD",
      "position" : 7
    },
    {
      "token" : "了",
      "start_offset" : 13,
      "end_offset" : 14,
      "type" : "CN_CHAR",
      "position" : 8
    }
  ]
}

（4.3.3.6）扩展词词典。

随着互联网的发展，“造词运动”也越发的频繁。出现了很多新的词语，在原有的词汇列表中并不存在。比如：“奥力给”，“传智播客” 等。

所以我们的词汇也需要不断的更新，IK分词器提供了扩展词汇的功能。

1）打开IK分词器config目录：

2）在IKAnalyzer.cfg.xml配置文件内容添加：




        IK Analyzer 扩展配置
        
        ext.dic

3）新建一个 ext.dic，可以参考config目录下复制一个配置文件进行修改

传智播客
奥力给

4）重启elasticsearch

docker restart es

# 查看 日志
docker logs -f elasticsearch

日志中已经成功加载ext.dic配置文件

5）测试效果：

GET /_analyze
{
  "analyzer": "ik_max_word",
  "text": "传智播客Java就业超过90%,奥力给！"
}

注意当前文件的编码必须是 UTF-8 格式，严禁使用Windows记事本编辑

（4.3.3.7）停用词词典。

在互联网项目中，在网络间传输的速度很快，所以很多语言是不允许在网络上传递的，如：关于宗教、政治等敏感词语，那么我们在搜索时也应该忽略当前词汇。

IK分词器也提供了强大的停用词功能，让我们在索引时就直接忽略当前的停用词汇表中的内容。

1）IKAnalyzer.cfg.xml配置文件内容添加：




        IK Analyzer 扩展配置
        
        ext.dic
         
        stopword.dic

3）在 stopword.dic 添加停用词

黑马

4）重启elasticsearch

# 重启服务
docker restart elasticsearch
docker restart kibana

# 查看 日志
docker logs -f elasticsearch

日志中已经成功加载stopword.dic配置文件

5）测试效果：

GET /_analyze
{
  "analyzer": "ik_max_word",
  "text": "传智播客Java就业率超过95%,奥力给！"
}

注意当前文件的编码必须是 UTF-8 格式，严禁使用Windows记事本编辑

（5）索引库操作（即表操作）。

（5.1）mapping映射属性。

（5.2）索引库的CRUD。

（5.2.1）创建索引库。

分词器只对text类型的数据分词。（不分词代表整个内容就是一个词条，分词就是整个内容可能超过一个词条）。

index约束如果为真，则参与倒排索引，否则不参与倒排索引（即不成为词条）。

PUT /itheima
{
  "mappings": {
    "properties": {
      "info": {
        "type": "text",
        "analyzer": "ik_smart"
      },
      "email": {
        "type": "keyword",
        "index": false
      },
      "name": {
        "type": "object",
        "properties": {
          "firstName": {
            "type": "keyword"
          },
          "lastName": {
            "type": "keyword"
          }
        }
      }
    }
  }
}

（5.2.2）查看、删除索引库。

（5.2.3）修改索引库。

（5.2.4）索引库操作有哪些？

（6）文档操作。

（6.1）新增文档。

（6.2）查询、删除文档。

（6.3）修改文档。

注意：测试了一下，这也是全量修改。

POST /itheima/_doc/1
{
  "info": "1黑马程序员java讲师",
  "email": "zy@itcast.cn",
  "name": {
    "firstName": "云",
    "lastName": "赵"
  }
}

（6.4）文档操作总结。

（7）RestClient操作索引库。

（7.1）初始化JavaRestClient、创建索引库。

（7.2）删除索引库、判断索引库是否存在。

（7.3）总结。

（8）RestClient操作文档。

（8.1）新增文档。

案例的mapping：

# 酒店的mapping
PUT /hotel
{
  "mappings": {
    "properties": {
      "id": {
        "type": "keyword"
      },
      "name": {
        "type": "text",
        "analyzer": "ik_max_word"
      },
      "address": {
        "type": "keyword",
        "index": false
      },
      "price": {
        "type": "integer"
      },
      "score": {
        "type": "integer"
      },
      "brand": {
        "type": "keyword"
      },
      "city": {
        "type": "keyword"
      },
      "starName": {
        "type": "keyword"
      },
      "business": {
        "type": "keyword"
      },
      "location": {
        "type": "geo_point"
      },
      "pic": {
        "type": "binary",
        "index": false
      }
    }
  }
}

（8.2）查询文档。

（8.3）修改文档。

（8.4）删除文档。

（8.5）批量导入文档。

（8.6）总结。

（9）DSL查询文档。

（9.1）DSL查询分类。

（9.2）查询所有。

GET /hotel/_search
{
  "query": {
    "match_all": {}
  }
}

（9.3）全文检索查询。

GET /hotel/_search
{
  "query": {
    "match": {
      "business": "交大/闵行经济开发区"
    }
  }
}

GET /hotel/_search
{
  "query": {
    "multi_match": {
      "query": "上海滩",
      "fields": ["name","city","brand"]
    }
  }
}

（9.4）精准查询。

# term查询
GET /hotel/_search
{
  "query": {
    "term": {
      "city": {
        "value": "上海"
      }
    }
  }
}

# range查询
GET /hotel/_search
{
  "query": {
    "range": {
      "price": {
        "gte": 100,
        "lte": 2000
      }
    }
  }
}

（9.5）地理坐标查询。

# 地理查询
GET /hotel/_search
{
  "query": {
    "geo_distance": {
      "distance": "150km",
      "location": "31.21,122.6"
    }
  }
}

（9.6）组合查询。

（9.6.1）Function Score Query。

# filter中 虽然指的是过滤，却是过滤出需要的数据（如下面，除了万怡，其他都不要）
GET /hotel/_search
{
  "query": {
    "function_score": {
      "query": {
        "match": {
          "name": "紫竹"
        }
      },
      "functions": [
        {
          "filter": {
            "term": {
              "brand": "万怡" 
            }
          },
          "weight": 100
        }
      ],
      "boost_mode": "sum"
    }
  }
}

（9.6.2）Boolean Query。

GET /hotel/_search
{
  "query": {
    "bool": {
      "must": [
        {
          "match": {
            "name": "万怡"
          }
        }
      ],
      "must_not": [
        {
          "range": {
            "price": {
              "gt": 700
            }
          }
        }
      ],
      "filter": [
        {
          "geo_distance": {
            "distance": "10km"
            , "location": {
              "lat": 31.02,
              "lon": 121.46
            }
          }
        }
      ]
    }
  }
}

（10）搜索结果处理。

（10.1）排序。

GET /hotel/_search
{
  "query": {
    "match_all": {}
  },
  "sort": [
    {
      "score": "desc"
    },
    {
      "price": "asc"
    }
  ]
}

GET /hotel/_search
{
  "query": {
    "match_all": {}
  },
  "sort": [
    {
      "_geo_distance": {
        "location": "31.02118, 121.465185",
        "order": "asc",
        "unit": "km"
      }
    }
  ]
}

（10.2）分页。

（10.3）高亮。

注意：高亮的字段必须是query查询语句中出现过的字段（如下面只有name能高亮，其他字段不会高亮，也就是说highlight里面的字段只能写name，写其他字段是没作用的）。

GET /hotel/_search
{
  "query": {
    "match": {
      "name": "万怡"
    }
  },
  "highlight": {
    "fields": {
      "name": {
        "require_field_match": "false"
      }
    }
  }
}

（11）RestClient查询文档。

要构建查询条件，只要记住一个类：QueryBuilders。

（11.1）快速入门（包含获取文档内容处理）。

@Test
    void testMatchAll() throws IOException {
        //1.准备request
        SearchRequest request = new SearchRequest("hotel");
        //2.准备DSL
        request.source().query(QueryBuilders.matchAllQuery());
        //3.发送请求
        SearchResponse response = client.search(request, RequestOptions.DEFAULT);
        //4.解析结果
        SearchHits searchHits = response.getHits();
        //4.1查询总条数
        long total = searchHits.getTotalHits().value;
        //4.2查询结果数组
        SearchHit[] hits = searchHits.getHits();
        for (SearchHit hit : hits) {
            //4.3获取source
            String json = hit.getSourceAsString();
            //4.4反序列化
            HotelDoc hotelDoc = JSON.parseObject(json, HotelDoc.class);
            System.out.println(hotelDoc);
        }
    }

（11.2）match查询。

（11.3）精确查询。

（11.4）复合查询。

（11.5）排序、分页。

（11.6）高亮。

注意：高亮字段在文档里面（索引库包含文档，文档包含高亮字段，每个文档都有记录它的高亮内容），即要从文档里面获取高亮字段内容显示。

GET /hotel/_search
{
  "query": {
    "bool": {
      "should": [
        {
          "term": {
            "brand": {
              "value": "万怡"
            }
          }
        },
        {
          "match": {
            "name": "上海"
          }
        }
      ]
    }
  },
  "highlight": {
    "fields": {
      "name": {
        "require_field_match": "false"
      },
      "brand": {
        "require_field_match": "false"
      }
    }
  }
}

    @Test
    void testHighLighter() throws IOException {
        //1.准备request
        SearchRequest request = new SearchRequest("hotel");
        //2.准备DSL
        //2.1 query
        request.source().query(QueryBuilders.matchQuery("name", "万怡"));
        //2.2 高亮
        request.source().highlighter(new HighlightBuilder().field("name").requireFieldMatch(false));
        //3.发送请求
        SearchResponse response = client.search(request, RequestOptions.DEFAULT);
        //4.解析结果
        SearchHits searchHits = response.getHits();
        //4.1查询总条数
        long total = searchHits.getTotalHits().value;
        //4.2查询结果数组
        SearchHit[] hits = searchHits.getHits();
        for (SearchHit hit : hits) {
            //4.3获取source
            String json = hit.getSourceAsString();
            //4.4反序列化
            HotelDoc hotelDoc = JSON.parseObject(json, HotelDoc.class);
            //获取高亮结果
            Map highlightFields = hit.getHighlightFields();
            if (!CollectionUtils.isEmpty(highlightFields)){
                //根据字段名获取高亮结果
                HighlightField highlightField = highlightFields.get("name");
                if (highlightField != null){
                    //获取高亮值
                    String name = highlightField.getFragments()[0].string();
                    //覆盖非高亮结果
                    hotelDoc.setName(name);
                }
            }
            System.out.println(hotelDoc);
        }
    }

（11.7）根据经纬度排序。

（11.8）代码展示。

@Service
public class HotelService extends ServiceImpl implements IHotelService {
    @Autowired
    private RestHighLevelClient client;

    @Override
    public PageResult search(RequestParams params){
        try {
            //1.准备request
            SearchRequest request = new SearchRequest("hotel");
            //2.准备DSL
            //2.1 query
            //构建BooleanQuery
            BoolQueryBuilder boolQuery = QueryBuilders.boolQuery();
            //关键字搜索
            String key = params.getKey();
            if (key == null && "".equals(key)){
                boolQuery.must(QueryBuilders.matchAllQuery());
            }else {
                boolQuery.must(QueryBuilders.matchQuery("name",key));
            }
            //城市条件
            if (params.getCity() != null  && !"".equals(params.getCity())){
                boolQuery.filter(QueryBuilders.termQuery("city",params.getCity()));
            }
            //品牌条件
            if (params.getBrand() != null  && !"".equals(params.getBrand())){
                boolQuery.filter(QueryBuilders.termQuery("brand",params.getBrand()));
            }
            //品牌条件
            if (params.getStarName() != null  && !"".equals(params.getStarName())){
                boolQuery.filter(QueryBuilders.termQuery("starName",params.getStarName()));
            }
            //价格
            if (params.getMinPrice() != null && params.getMaxPrice() != null){
                boolQuery.filter(QueryBuilders
                        .rangeQuery("price").gte(params.getMinPrice()).lte(params.getMaxPrice()));
            }

            //算分控制
            FunctionScoreQueryBuilder functionScoreQuery = QueryBuilders.functionScoreQuery(
                    //原始查询
                    boolQuery,
                    //function score的数组
                    new FunctionScoreQueryBuilder.FilterFunctionBuilder[]{
                            //其中的一个function score元素
                            new FunctionScoreQueryBuilder.FilterFunctionBuilder(
                                    //过滤条件
                                    QueryBuilders.termQuery("isAD",true),
                                    //算分函数
                                    ScoreFunctionBuilders.weightFactorFunction(10)
                            )
                    });

            request.source().query(functionScoreQuery);
            //2.2 分页
            Integer page = params.getPage();
            Integer size = params.getSize();
            request.source().from((page - 1) * size).size(size);
            //2.3排序
            String location = params.getLocation();
            if (location != null && !"".equals(location)){
                request.source().sort(SortBuilders.geoDistanceSort("location",new GeoPoint(location))
                        .order(SortOrder.ASC).unit(DistanceUnit.KILOMETERS));
            }

            //3.发送请求，得到响应
            SearchResponse response = client.search(request, RequestOptions.DEFAULT);
            //4.解析响应
            handleResponse(response);
            return null;
        } catch (IOException e) {
            throw new RuntimeException(e);
        }
    }

    private PageResult handleResponse(SearchResponse response) {
        //4.解析结果
        SearchHits searchHits = response.getHits();
        //4.1查询总条数
        long total = searchHits.getTotalHits().value;
        //4.2查询结果数组
        SearchHit[] hits = searchHits.getHits();
        //4.3遍历
        List hotels = new ArrayList<>();
        for (SearchHit hit : hits) {
            //获取source
            String json = hit.getSourceAsString();
            //反序列化
            HotelDoc hotelDoc = JSON.parseObject(json, HotelDoc.class);
            //获取排序值
            Object[] sortValues = hit.getSortValues();
            if (sortValues.length > 0){
                Object sortValue = sortValues[0];
                hotelDoc.setDistance(sortValue);
            }
            hotels.add(hotelDoc);
        }
        //4.4封装返回
        return new PageResult(total,hotels);
    }
}

（12）数据聚合。

（12.1）聚合的种类。

（12.2）DSL实现聚合。

（12.2.1） Bucket聚合。

（12.2.2）Metrics 聚合。

（12.3）RestAPI实现聚合。

（12.3.1）数据聚合—按字段分组聚合。

@Test
    void testAggregation() throws IOException {
        // 1.准备request
        SearchRequest request = new SearchRequest("hotel");
        // 2.准备DSL
        // 2.1设置size
        request.source().size(0);
        // 2.2聚合
        request.source().aggregation(AggregationBuilders.terms("brandAgg").field("brand").size(20));
        // 3.发送请求
        SearchResponse response = client.search(request, RequestOptions.DEFAULT);
        // 4.解析结果
        Aggregations aggregations = response.getAggregations();
        // 4.1根据聚合名称获取聚合结果
        Terms brandTerms = aggregations.get("brandAgg");
        // 4.2获取buckets
        List buckets = brandTerms.getBuckets();
        // 4.3遍历
        for (Terms.Bucket bucket : buckets) {
            // 4.4获取key
            String key = bucket.getKeyAsString();
            long docCount = bucket.getDocCount();
            System.out.println(key);
        }
    }

（12.3.2）数据聚合—多条件聚合。

@Override
    public Map> filter() {
        try {
            // 1.准备request
            SearchRequest request = new SearchRequest("hotel");
            // 2.准备DSL
            // 2.1设置size
            request.source().size(0);
            // 2.2聚合
            buildAggregation(request);
            // 3.发送请求
            SearchResponse response = null;
            response = client.search(request, RequestOptions.DEFAULT);
            // 4.解析结果
            Map> result = new HashMap<>();
            Aggregations aggregations = response.getAggregations();
            //根据品牌名称，获取品牌结果
            List brandList = getAggByName(aggregations,"brandAgg");
            result.put("品牌",brandList);
            List cityList = getAggByName(aggregations,"cityAgg");
            result.put("城市",cityList);
            List starList = getAggByName(aggregations,"starAgg");
            result.put("星级",starList);
            return result;
        } catch (IOException e) {
            throw new RuntimeException(e);
        }
    }

    private List getAggByName(Aggregations aggregations,String aggName) {
        // 4.1根据聚合名称获取聚合结果
        Terms brandTerms = aggregations.get(aggName);
        // 4.2获取buckets
        List buckets = brandTerms.getBuckets();
        // 4.3遍历
        List brandList = new ArrayList<>();
        for (Terms.Bucket bucket : buckets) {
            // 4.4获取key
            String key = bucket.getKeyAsString();
            brandList.add(key);
        }
        return brandList;
    }

    private void buildAggregation(SearchRequest request) {
        request.source().aggregation(AggregationBuilders.terms("brandAgg").field("brand").size(20));
        request.source().aggregation(AggregationBuilders.terms("cityAgg").field("city").size(20));
        request.source().aggregation(AggregationBuilders.terms("starAgg").field("starName").size(20));
    }

（12.3.3）数据聚合—带过滤条件的聚合。

@Override
    public Map> filter(RequestParams params) {
        try {
            // 1.准备request
            SearchRequest request = new SearchRequest("hotel");
            // 2.准备DSL
            //query
            request.source().query(QueryBuilders.matchQuery("city",params.getCity()));
            // 2.1设置size
            request.source().size(0);
            // 2.2聚合
            buildAggregation(request);
            // 3.发送请求
            SearchResponse response = client.search(request, RequestOptions.DEFAULT);
            // 4.解析结果
            Map> result = new HashMap<>();
            Aggregations aggregations = response.getAggregations();
            //根据品牌名称，获取品牌结果
            List brandList = getAggByName(aggregations,"brandAgg");
            result.put("品牌",brandList);
            List cityList = getAggByName(aggregations,"cityAgg");
            result.put("城市",cityList);
            List starList = getAggByName(aggregations,"starAgg");
            result.put("星级",starList);
            return result;
        } catch (IOException e) {
            throw new RuntimeException(e);
        }
    }

    private List getAggByName(Aggregations aggregations,String aggName) {
        // 4.1根据聚合名称获取聚合结果
        Terms brandTerms = aggregations.get(aggName);
        // 4.2获取buckets
        List buckets = brandTerms.getBuckets();
        // 4.3遍历
        List brandList = new ArrayList<>();
        for (Terms.Bucket bucket : buckets) {
            // 4.4获取key
            String key = bucket.getKeyAsString();
            brandList.add(key);
        }
        return brandList;
    }

    private void buildAggregation(SearchRequest request) {
        request.source().aggregation(AggregationBuilders.terms("brandAgg").field("brand").size(20));
        request.source().aggregation(AggregationBuilders.terms("cityAgg").field("city").size(20));
        request.source().aggregation(AggregationBuilders.terms("starAgg").field("starName").size(20));
    }

（13）自动补全。

（13.1）拼音分词器。

与ik分词器同级目录。

（13.2）自定义分词器。

DELETE /test

// 自定义拼音分词器
PUT /test
{
  "settings": {
    "analysis": {
      "analyzer": { 
        "my_analyzer": { 
          "tokenizer": "ik_max_word",
          "filter": "py"
        }
      },
      "filter": {
        "py": { 
          "type": "pinyin",
          "keep_full_pinyin": false,
          "keep_joined_full_pinyin": true,
          "keep_original": true,
          "limit_first_letter_length": 16,
          "remove_duplicated_term": true,
          "none_chinese_pinyin_tokenize": false
        }
      }
    }
  },
  "mappings": {
    "properties": {
      "name": {
        "type": "text",
        "analyzer": "my_analyzer",
        "search_analyzer": "ik_smart"
      }
    }
  }
}

POST /test/_doc/1
{
  "id": 1,
  "name": "狮子"
}
POST /test/_doc/2
{
  "id": 2,
  "name": "虱子"
}

POST /test/_doc/222
{
  "name": "耗子"
}

POST /test/_doc
{
  "id": 3,
  "name": "老鼠"
}

GET /test/_search
{
  "query": {
    "match": {
      "name": "掉入狮子笼咋办"
    }
  }
}

（13.3）自动补全查询。

// 自动补全的索引库
PUT test2
{
  "mappings": {
    "properties": {
      "title":{
        "type": "completion"
      }
    }
  }
}
// 示例数据
POST test2/_doc
{
  "title": ["Sony", "WH-1000XM3"]
}
POST test2/_doc
{
  "title": ["SK-II", "PITERA"]
}
POST test2/_doc
{
  "title": ["Nintendo", "switch"]
}

// 自动补全查询
POST /test2/_search
{
  "suggest": {
    "title_suggest": {
      "text": "s", // 关键字，补全前缀为s的title内容变成text字段
      "completion": {
        "field": "title", // 补全字段
        "skip_duplicates": true, // 跳过重复的
        "size": 10 // 获取前10条结果
      }
    }
  }
}

（13.4）实现酒店搜索框自动补全。

DELETE /hotel

GET /hotel/_mapping

// 酒店数据索引库
PUT /hotel
{
  "settings": {
    "analysis": {
      "analyzer": {
        "text_anlyzer": {
          "tokenizer": "ik_max_word",
          "filter": "py"
        },
        "completion_analyzer": {
          "tokenizer": "keyword",
          "filter": "py"
        }
      },
      "filter": {
        "py": {
          "type": "pinyin",
          "keep_full_pinyin": false,
          "keep_joined_full_pinyin": true,
          "keep_original": true,
          "limit_first_letter_length": 16,
          "remove_duplicated_term": true,
          "none_chinese_pinyin_tokenize": false
        }
      }
    }
  },
  "mappings": {
    "properties": {
      "id":{
        "type": "keyword"
      },
      "name":{
        "type": "text",
        "analyzer": "text_anlyzer",
        "search_analyzer": "ik_smart",
        "copy_to": "all"//all字段三个属性值必须和上面三个属性值一样，name字段才能复制到all字段
      },
      "address":{
        "type": "keyword",
        "index": false
      },
      "price":{
        "type": "integer"
      },
      "score":{
        "type": "integer"
      },
      "brand":{
        "type": "keyword",
        "copy_to": "all"
      },
      "city":{
        "type": "keyword"
      },
      "starName":{
        "type": "keyword"
      },
      "business":{
        "type": "keyword",
        "copy_to": "all"
      },
      "location":{
        "type": "geo_point"
      },
      "pic":{
        "type": "keyword",
        "index": false
      },
      "all":{
        "type": "text",
        "analyzer": "text_anlyzer",
        "search_analyzer": "ik_smart"
      },
      "suggestion":{//该字段是自动补全的字段
          "type": "completion",//该类型是自动补全需要的类型
          "analyzer": "completion_analyzer"//对该字段的值使用这个自定义分词器分词
      }
    }
  }
}

GET /hotel/_search
{
  "suggest": {
    "suggestions": {
      "text": "sh",
      "completion": {
        "field": "suggestion",//注意：FIELD要改成小写，不然报错
        "skip_duplicates":true,
        "size": 10
      }
    }
  }
}

@Test
    void testSuggest() throws IOException {
        //1.准备Request
        SearchRequest request = new SearchRequest("hotel");
        //2.准备DSL
        request.source().suggest(new SuggestBuilder().addSuggestion(
                "suggestions",
                SuggestBuilders.completionSuggestion("suggestion")
                        .prefix("h")
                        .skipDuplicates(true)
                        .size(10)));
        //3.发起请求
        SearchResponse response = client.search(request, RequestOptions.DEFAULT);
        //4.解析结果
        Suggest suggest = response.getSuggest();
        //4.1根据补全查询名称，获取补全结果
        CompletionSuggestion suggestions = suggest.getSuggestion("suggestions");
        //4.2获取options并遍历
        for (CompletionSuggestion.Entry.Option option : suggestions.getOptions()) {
            String text = option.getText().toString();
            System.out.println(text);
        }
    }

（14）数据同步。

（14.1）数据同步思路分析。

（14.2）实现elasticsearch与数据库数据同步。

下面是部分代码：

spring:
  datasource:
    url: jdbc:mysql://localhost:3306/test?useSSL=false
    username: root
    password: tan
    driver-class-name: com.mysql.cj.jdbc.Driver
  rabbitmq:
    host: 192.168.0.101
    port: 5672
    username: itcast
    password: 123321
    virtual-host: / #每个虚拟主机都有自己的队列、交换机、绑定和权限控制等配置。
    #假设有一个消息中间件服务器，其中运行着多个应用程序，每个应用程序都需要使用消息队列来进行异步通信。
    #如果所有应用程序都共享同一个消息队列空间，那么它们之间的消息可能会相互干扰，导致消息丢失或处理错误。
    #而如果为每个应用程序创建一个独立的虚拟主机，那么它们之间的消息就可以得到有效的隔离和保护，避免了潜在的冲突和错误。


@Configuration
public class MqConfig {
    @Bean
    public TopicExchange topicExchange(){
        return new TopicExchange(MqConstants.HOTEL_EXCHANGE,true,false);
    }
    @Bean
    public Queue insertQueue(){
        return new Queue(MqConstants.HOTEL_INSERT_QUEUE,true);
    }
    @Bean
    public Queue deleteQueue(){
        return new Queue(MqConstants.HOTEL_DELETE_QUEUE,true);
    }
    @Bean
    public Binding insertQueueBinding(){
        return BindingBuilder.bind(insertQueue()).to(topicExchange()).with(MqConstants.HOTEL_INSERT_KEY);
    }
    @Bean
    public Binding deleteQueueBinding(){
        return BindingBuilder.bind(deleteQueue()).to(topicExchange()).with(MqConstants.HOTEL_DELETE_KEY);
    }
}

    @PostMapping
    public void saveHotel(@RequestBody Hotel hotel){
        hotelService.save(hotel);
        amqpTemplate.convertAndSend(MqConstants.HOTEL_EXCHANGE,MqConstants.HOTEL_INSERT_KEY,hotel.getId());
    }

    @PutMapping()
    public void updateById(@RequestBody Hotel hotel){
        if (hotel.getId() == null) {
            throw new InvalidParameterException("id不能为空");
        }
        hotelService.updateById(hotel);
        amqpTemplate.convertAndSend(MqConstants.HOTEL_EXCHANGE,MqConstants.HOTEL_INSERT_KEY,hotel.getId());
    }

    @DeleteMapping("/{id}")
    public void deleteById(@PathVariable("id") Long id) {
        hotelService.removeById(id);
        amqpTemplate.convertAndSend(MqConstants.HOTEL_EXCHANGE,MqConstants.HOTEL_DELETE_KEY,id);
    }

@Component
public class HotelListener {
    @Autowired
    private IHotelService hotelService;
    /**
     * 监听酒店新增或修改的业务
     */
    @RabbitListener(queues = MqConstants.HOTEL_INSERT_QUEUE)
    public void listenerHotelInsertOrUpdate(Long id){
        hotelService.insertById(id);
    }
    /**
     * 监听酒店删除的业务
     */
    @RabbitListener(queues = MqConstants.HOTEL_DELETE_QUEUE)
    public void listenerHotelDelete(Long id){
        hotelService.deleteById(id);
    }
}

@Override
    public void insertById(Long id) {
        try {
            //0.根据id查询酒店数据
            Hotel hotel = getById(id);
            //转换为文档类型
            HotelDoc hotelDoc = new HotelDoc(hotel);
            //1.准备Request
            IndexRequest request = new IndexRequest("hotel").id(hotel.getId().toString());
            //2.准备DSL
            request.source(JSON.toJSONString(hotelDoc),XContentType.JSON);
            //3.发送请求
            client.index(request,RequestOptions.DEFAULT);
        } catch (IOException e) {
            throw new RuntimeException(e);
        }
    }

    @Override
    public void deleteById(Long id) {
        try {
            //1.准备Request
            DeleteRequest request = new DeleteRequest("hotel",id.toString());
            //2.准备发送请求
            client.delete(request,RequestOptions.DEFAULT);
        } catch (IOException e) {
            throw new RuntimeException(e);
        }
    }

（15）elasticsearch集群。

（15.1）搭建ES集群。

（15.1.1）es的集群。

首先编写一个docker-compose.yml文件，内容如下：

version: '2.2'  # Docker Compose 版本号

services:  # 定义服务
  es01:  # Elasticsearch 服务1
    image: elasticsearch:7.12.1  # 使用 elasticsearch:7.12.1 镜像
    container_name: es01  # 容器名称为 es01
    environment:  # 设置环境变量
      - node.name=es01  # 节点名称为 es01
      - cluster.name=es-docker-cluster  # 集群名称为 es-docker-cluster
      - discovery.seed_hosts=es02,es03  # 发现种子主机为 es02 和 es03
      - cluster.initial_master_nodes=es01,es02,es03  # 集群初始主节点为 es01、es02 和 es03
      - "ES_JAVA_OPTS=-Xms512m -Xmx512m"  # 设置 JVM 内存
    volumes:  # 挂载数据卷
      - data01:/usr/share/elasticsearch/data  # 将 data01 挂载到 /usr/share/elasticsearch/data 目录下
    ports:  # 端口映射
      - 9200:9200  # 将主机的 9200 端口映射到容器的 9200 端口
    networks:  # 指定使用的网络
      - elastic  # 使用 elastic 网络

  es02:  # Elasticsearch 服务2
    image: elasticsearch:7.12.1
    container_name: es02
    environment:
      - node.name=es02
      - cluster.name=es-docker-cluster
      - discovery.seed_hosts=es01,es03  # 发现种子主机为 es01 和 es03
      - cluster.initial_master_nodes=es01,es02,es03
      - "ES_JAVA_OPTS=-Xms512m -Xmx512m"
    volumes:
      - data02:/usr/share/elasticsearch/data
    ports:
      - 9201:9200  # 将主机的 9201 端口映射到容器的 9200 端口
    networks:
      - elastic

  es03:  # Elasticsearch 服务3
    image: elasticsearch:7.12.1
    container_name: es03
    environment:
      - node.name=es03
      - cluster.name=es-docker-cluster
      - discovery.seed_hosts=es01,es02  # 发现种子主机为 es01 和 es02
      - cluster.initial_master_nodes=es01,es02,es03
      - "ES_JAVA_OPTS=-Xms512m -Xmx512m"
    volumes:
      - data03:/usr/share/elasticsearch/data
    ports:
      - 9202:9200  # 将主机的 9202 端口映射到容器的 9200 端口
    networks:
      - elastic

volumes:  # 定义数据卷
  data01:
    driver: local  # 使用本地驱动
  data02:
    driver: local
  data03:
    driver: local

networks:  # 定义网络
  elastic:
    driver: bridge  # 使用 bridge 网络模式

es运行需要修改一些linux系统权限，修改`/etc/sysctl.conf`文件：

vi /etc/sysctl.conf

添加下面的内容：

vm.max_map_count=262144是一条Linux系统内核参数的配置命令，用于设置系统中单个进程最大允许的内存区域数量。其作用是控制一个进程可以拥有多少个内存映射区域，以及每个内存映射区域能够映射的最大虚拟内存大小。

vm.max_map_count=262144

然后执行命令，让配置生效：

sysctl -p

通过docker-compose启动集群：

docker-compose up -d

（15.1.2）cerebro（集群状态监控）。

（15.1.3）创建索引库。（分片）

（15.2）ES集群的节点角色。

默认情况下，每个节点同时具备这四种功能，但实际开发中一般不这样做，因为每种功能需要的硬件不一样。（比如data节点，处理这些数据需要内存大，硬盘大，性能好等等）。

（15.3）集群脑裂问题。

（15.4）集群分布式存储。

（15.5）集群分布式查询。

（15.6）集群故障转移。

（16）ES的动态映射，静态映射。

（16.1）动态映射。

底层会自动的根据存入的数据判断数据类型，这种自动分析就叫动态映射。

即添加新字段时（mapping中没有定义的字段），自动帮你加上映射。

dynamic 属性有三种取值：

true：默认即此。自动添加新字段。
false：忽略新字段。
strict：严格模式，发现新字段会抛出异常。

（16.2）静态映射。

创建索引库时指定mapping映射。

你可能感兴趣的:(web技术,elasticsearch,大数据,搜索引擎)

掌握 ElasticSearch 精准查询：Term Query 与 Filter 详解全端工程师 elasticsearch elasticsearch 大数据搜索引擎
掌握ElasticSearch精准查询：TermQuery与Filter详解一、引言(Introduction)二、准备工作：创建索引和添加示例数据三、TermQuery：精准匹配3.1`term`查询：单个值的精准匹配3.2`terms`查询：多个值的精准匹配3.3`term`vs.`match_phrase`四、Filter：高效过滤4.1什么是Filter？4.2Queryvs.Filter
实战：用Spring Boot构建电商系统中的API接口 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介1998年，在经历了无数的创新革命之后，互联网成为科技界最重要的分支之一。随着时间的推移，互联网已经成为人类信息化革命的源头。如今的电子商务网站数量达到数百亿，这些网站都具有大规模的用户群体、丰富的内容、高频的交易、海量数据等特征。电商行业近几年有了很多变革，比如大数据分析、物流管理、供应链管理、订单评价、信用卡支付等等。其中API接口开发对于电商系统而言尤其重
Linux云计算运维有前景吗? 老男孩IT教育 linux 服务器
伴随着云计算技术的发展，越来越多的企业和组织开始使用云服务来部署和运行他们的应用程序和服务，因此对云计算技术人才的需求量也持续增长，那么Linux云计算运维有前景吗?这应该是很多人关心的问题，我们来探讨一下。综合情况来讲，Linux云计算运维的前景非常广阔。随着云计算和大数据技术的快速发展，Linux作为云计算领域的主流操作系统，其重要性日益凸显，越来越多的企业和组织将其IT基础设施迁移上云，以提
【软考高项】【英语知识】- 21 - 单词积累 oo寻梦in记软考高项（信息系统项目管理师）软考
目录一、常见计算机技术词汇二、项目管理词汇2.1十大知识域2.2五大过程组2.349个子过程2.4工具和技术汇总2.5输入和输出汇总一、常见计算机技术词汇序号中文英文1云计算Cloudcomputing2云存储Cloudstorage3云服务Cloudservice4软件即服务SaaS5平台即服务PaaS6基础设施即服务laaS7虚拟资源Virtualresources8大数据bigdata9大数
Linux在云计算和大数据的应用有哪些 coder_wwwdy Linux linux 云计算大数据
Linux在云计算和大数据领域的应用非常广泛，主要体现在以下几个方面：1.**云计算基础设施**：-Linux操作系统因其开源、稳定和高度可定制的特性，成为云计算平台的首选操作系统。例如，AmazonWebServices(AWS)、GoogleCloudPlatform(GCP)和MicrosoftAzure等主要云服务提供商都使用Linux作为其云基础设施的基础。-Linux提供了多种发行版，
电商搜索API的Elasticsearch优化策略 API_technology 开发后端 elasticsearch 大数据搜索引擎
在构建电商搜索API时，对Elasticsearch进行优化可以显著提升搜索性能和用户体验。以下是一些常见的优化策略：索引优化1.合理设计索引结构字段映射：根据数据类型和使用场景，为每个字段选择合适的映射类型。例如，对于需要精确匹配的字段（如商品ID），使用keyword类型；对于需要全文搜索的字段（如商品名称、描述），使用text类型。{"mappings":{"properties":{"pr
Linux 在云计算中的应用有哪些？我们的五年游戏实现 linux 云计算运维
目录Linux在云计算中的应用1.云计算基础设施的核心2.虚拟化技术的基础3.容器化与微服务4.大数据与人工智能5.开源生态与社区支持6.在GoogleCloud上运行Linux的优势7.边缘计算与物联网总结Linux在云计算中的应用Linux作为开源操作系统的代表，在云计算领域扮演着至关重要的角色。其灵活性、稳定性和强大的社区支持使其成为云计算基础设施的理想选择。以下是Linux在云计算中的主要
普通Java项目集成ElasticSearch全文搜索引擎 z_金粽子微服务技术栈储备搜索引擎 java elasticsearch
文章目录全文搜索概述文本数据集成ElasticSearch全文搜索引擎Java普通项目集成步骤依赖包ESClientUtil工具类文档CRUD添加文档获取文档更新文档批量操作练习自定义用户表查询需求：name包含：我在学Java需求：age在1~12之间需求：age=1需求：name包含：我在学Java和age在1~12之间三种不同类型的查询matchQueryrangeQuerytermQuer
Java集成ElasticSearch cjewioivsxoewll java elasticsearch 开发语言搜索引擎
Java集成ElasticSearch，包含：ES客户端依赖的引入，创建客户端，ES索引管理，ES管道管理，ES新增、修改、删除、查询数据。1、引入依赖org.elasticsearch.clientelasticsearch-rest-high-level-client7.16.32、创建客户端2.1工具类importorg.apache.http.HttpHost;importorg.apac
【Elasticsearch】java 集成es 日月星宿～ elk elasticsearch
选择很多人在Springboot项目中都已经习惯采用Spring家族封装的spring-data-elasticsearch来操作elasticsearch，而官方更推荐采用rest-client。今天给大家介绍下在springboot中如何整合rest-client操作elasticsearch。我们知道Elasticsearch是一款RestfulAPI风格的分布式搜索引擎。ESClient有
Ubuntu 22.04 安装Elasticsearch 8.7.1 LingRannn elasticsearch ubuntu linux
前言：在安装Elasticsearch前最好设置一下静态IP，本教程为es单节点启动。下载ES压缩包wgethttps://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-8.7.1-linux-x86_64.tar.gz解压到指定目录在根目录创建一个文件夹用于放ES文件mkdirelastic解压到/elastic/tar-x
Python+Spark地铁客流数据分析与预测系统地铁大数据地铁流量预测 qq_79856539 javaweb 大数据 python spark
本系统基于大数据设计并实现成都地铁客流量分析系统，使用网络爬虫爬取并收集成都地铁客流量数据，运用机器学习和时间序列分析等方法，对客流量数据进行预处理和特征选择，构建客流量预测模型，利用历史数据对模型进行训练和优化，实现客流量预测模型的部署和应用，通过系统界面展示预测结果。对预测模型进行评估和验证，并提出改进方案。设计步骤使用Python语言编写爬虫程序采集数据，并对原始数据集进行预处理；使用Pyt
JAVA集成ElasticSearch、Java集成es maguangkun java elasticsearch 全文检索
注：ES和Maven引用的版本尽量一致使用Maven的情况下org.elasticsearch.clientelasticsearch-rest-high-level-client7.12.0org.elasticsearchelasticsearch7.12.0这两个就够用了如果没使用Maven项目管理集成Es的话https://download.csdn.net/download/gaolen
2025最新网站怎么引蜘蛛？引蜘蛛全攻略 OG站长工具箱 RTHHIMY 百度搜索引擎
网站引蜘蛛全攻略：提升收录与排名的关键技巧在竞争激烈的互联网世界中，网站若想获得更多的流量和曝光，被搜索引擎蜘蛛频繁抓取是关键。下面为大家详细介绍网站引蜘蛛的多种有效方法。优化网站结构创建清晰的目录结构：采用扁平式目录结构，尽量减少页面层级，让搜索引擎蜘蛛能够轻松地遍历网站的各个页面。例如，将重要内容放置在网站根目录或仅一级子目录下，方便蜘蛛快速定位。合理设置内部链接：内部链接就像网站的“高速公路
PHP爬虫实战：如何抓取网页表格数据数据小爬虫.网站开发-Brad php 爬虫开发语言
随着互联网和大数据时代的到来，越来越多的数据可以被收集和利用。而在众多从网页上获取数据的方法中，爬虫技术可以说是最为强大和高效的一种。在实际的应用场景中，我们经常需要从网页中抓取特定的数据，尤其是网页中的表格数据。因此，本文将介绍如何使用PHP爬虫技术来获取并解析网页中的表格数据。1、安装和配置PHP爬虫库在开始编写爬虫代码之前，我们需要先安装和配置一个PHP爬虫库。这里我们选择使用PHPSimp
JAVA 集成 ElasticSearch RealmElysia 谷粒商城 ElasticSearch java elasticsearch 开发语言
目录ElasticSearchClientJavaRESTClientDependenciesInitializationRequestOptions测试ElasticSearchClient9300端口：TCP协议，性能较高，ES集群内部节点之间通过9300进行通讯。JavaTransportClient（7.x已废弃）SpringDataElasticsearch9200端口：HTTP协议，通
研发IT规划与实施监理咨询_IPD研发项目体系管理咨询深圳科新咨询经验分享
咨询内容概览：从PDM到PLMPLM是一种技术辅助策略，它把跨越业务流程和不同用户群体的那些单点应用集成起来➢PDM（产品数据管理）➢CPD（协同产品设计）➢PPM（产品组合管理）➢CNM（客户需求管理）IT规划参考模型比较看点01引言伴随社会信息化进程加快、社会化媒体涌现、大数据时代来临及IT技术进步，各类组织逐步意识到IT技术及信息资源重要性并将其作为核心竞争力和重要资产，纷纷加大信息化投资并
网站SEO优化：提升网站流量与可见性的关键策略 sdfsdd88 搜索引擎全文检索
在当今数字化时代，互联网已成为企业与用户沟通、交易和传播信息的主要平台。对于任何拥有网站的企业或个人来说，搜索引擎优化（SEO）是不可或缺的。SEO不仅可以提高网站在搜索引擎结果页面（SERP）中的排名，还能增加流量、提升品牌知名度并最终实现商业目标。本文将深入探讨网站SEO优化的重要性和实施策略。##一、SEO优化的重要性###（一）提升网站可见性在互联网的海量信息中，用户通常依赖搜索引擎来查找
多线程处理大数据量数据码代码的小仙女 java知识
最近公司需要一个新的需求，需要一个接口去跑数据。数据量还蛮大的，大约50-60万数据（一条一条执行），其中还涉及到与其他接口的交互，因此这些数据跑下来要耗时很久，因此设计了一个方案，使用多线程的方式进行处理。方案1每次重数据库表中取一定量的数据（自己按实际情况定义）放在线程池缓存队列里，启动10个线程去线程池里去取数据。（相当于生产者和消费者的关系），这里需要有一个触发点，当我缓存里没有数据时，需
Python的那些事第三十篇：并行计算库在大数据分析中的应用Dask 暮雨哀尘 Python的那些事 python 数据分析开发语言运维服务器数据挖掘
Dask：并行计算库在大数据分析中的应用摘要随着数据量的爆炸性增长，传统的数据分析工具（如Pandas和NumPy）在处理大规模数据集时面临内存限制和计算效率低下的问题。Dask作为一种开源的并行计算库，通过动态任务调度和分布式计算，能够高效处理超出内存容量的大数据集，并与Python生态系统中的Pandas、NumPy和scikit-learn等库无缝集成。本文将详细介绍Dask的架构、功能、优
革新之力：数字科技——重塑未来的超越想象之旅不会写代码的女程序猿科技
在21世纪的科技浪潮中，数字科技如同一股不可阻挡的洪流，正以前所未有的速度和广度改变着我们的生活、工作乃至整个社会的结构。它不仅是技术的简单迭代，更是对人类社会认知边界的拓宽，对经济模式、社会治理、文化形态等多方面的深刻重塑。本文旨在探讨数字科技的重要性，揭示其超越我们日常想象的深远影响。一、数字科技：新时代的驱动力1.数字经济引领全球增长数字科技是数字经济的核心引擎。通过大数据、云计算、人工智能
基于Hadoop的天气数据分析系统的设计与实现-计算机毕业设计源码+LW文档 qq_375279829 hadoop 课程设计 eclipse 毕业设计毕设
摘要随着全球气候变化的日益严峻，精准的天气数据分析和预测变得至关重要。Hadoop作为大数据处理领域的领军技术，其分布式计算框架和海量数据存储能力为天气数据分析提供了强大的支持。该系统能够收集、整合并分析来自全球各地的气象数据，通过挖掘数据中的潜在规律，提高天气预报的准确性和时效性。此外，该系统还有助于发现气候变化的趋势，为政府决策、农业生产、交通运输等领域提供科学依据。因此，基于Hadoop的天
不同类型的网站选择不同的服务器，那么应该怎么选择服务器呢？咕噜分发企业签名-APP加固-彭于晏服务器运维
制作网站。但做一个盈利的网站并不是那么简单。服务器的选择与网站的性质密切相关。不同类型的网站选择不同的服务器。那么什么样的服务器更适合网站呢？1、站群现在，有很多站长都是站长，因为站长是一种可以在短时间内显著提高搜索引擎优化效果的方法。一个站点集群的特点之一是需要多个独立的ip，独立的服务器可以满足这一要求。特别是对于站群的独立服务器，大部分独立IP将达到数百个。2、对外贸易各外贸网站规模大、流量
傻傻分不清？云存储、云计算与分布式存储、分布式计算是一回事吗？ IPFS星际无限 IPFS星际无限分布式分布式计算
随着互联网的蓬勃兴起，大数据、人工智能、物联网、云计算与云存储等这些专业词汇在大众视野内出现的频率越来越高，再加上近几年分布式技术异军突起，更使得分布式存储、分布式计算等成为热词。然而，很多人对这些名词都一知半解，所以本文将主要和大家聊一聊，云存储、云计算与分布式存储、分布式计算的联系与区别。一、云存储与云计算1、云存储云存储（CloudStorage）是一种网上在线存储的模式，也就是把数据存放在
数据分析与挖掘方向毕业设计选题推荐：大数据 Python 微光DeepLearning 毕设选题大数据 python 数据挖掘
亲爱的同学们，转眼间我们已经迎来了大四，这一年充满了挑战与机遇。大家忙着备考研究生、公务员、教师资格证，或是寻找实习机会，同时还要面对毕业设计的重任。对于毕业设计，很多同学可能会感到陌生，不知道从何下手，也不确定自己适合哪些方向的课题。为此，我整理了一个毕业设计选题专栏，希望能为大家提供一些灵感和建议。无论你对毕业设计有任何疑问，欢迎随时来问我哦！对毕设有任何疑问都可以问学长哦!前言在计算机专业的
2.ELK之Elasticsearch常用DSL语句(kibana语句) 焱齿 elk elasticsearch
目录什么是DSL？零、ES基本操作1、查看索引/mapping2、查看集群健康状态3、查询ES中所有的index4、删除索引5、查看索引的分片情况6、根据docid查询文档7、常规查找——在/index/type中查找8、限制查找条数9、ES的基本CURD一、ES高级查询DSL0、ESmapping中的数据类型2、queryDSL——查询所有(match_all)3、queryDSL——关键词查询
开发环境搭建荔枝寄 harmonyos
鸿蒙操作系统（HarmonyOS）是华为公司自主研发的分布式操作系统，旨在为不同的设备提供统一的操作平台。在鸿蒙的应用开发中，Web组件开发是一项重要的技能，它允许开发者利用Web技术栈来构建高性能、跨平台的应用程序。本文将深入探讨鸿蒙系统中Web组件开发的相关知识，包括其特点、优势、以及如何使用HTML、CSS和JavaScript等Web技术来创建鸿蒙应用。鸿蒙Web组件的特点鸿蒙系统的Web
【ELK】【Elasticsearch 】DSL 和 DQL 日月星宿～ elk elk
1.DSL查询（QueryDSL）全称：DomainSpecificLanguage（领域特定语言）。定义：Elasticsearch提供的一种基于JSON的查询语言，用于构建复杂的查询逻辑。特点：支持多种查询类型（如match、term、range、bool等）。可以组合多个查询条件。支持聚合、排序、分页等功能。适用场景：复杂的查询需求。需要精确控制查询逻辑的场景。示例：json复制GET/in
大数据MaxCompute教程（阿里云离线数仓项目）学习笔记20231127 多刷亿点题⑧ 云原生数据仓库
1数据仓库概念数据仓库定义（DataWarehouse），是为企业所有决策制定过程，提供所有系统数据支持的战略集合。AI：数据仓库是一个大型、集中、主题导向的数据库系统，用于支持企业决策制定、分析和报告的需要。它统一了来自不同数据源的数据，并将其在一个可查询的数据模型中进行了整合和转换，以便于分析和报告。数据仓库还包括数据清洗、抽取、转换和加载（ETL）的过程，以保证数据的准确性、一致性和完整性。
基于 JavaWeb 的 SSM+Maven 微信小程序快递柜管理系统设计和实现(源码+文档+部署讲解）秋野酱 java 课程设计前端 maven 微信小程序 java 课程设计
技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计、开题报告、任务书、中期检查PPT、系统功能实现、代码编写、论文编写和辅导、论文降重、长期答辩答疑辅导、腾讯会议一对一专业讲解辅导答辩、模拟答辩演练、和理解代码逻辑思路。文末获取源码联系文末获取源码联
mysql主从数据同步林鹤霄 mysql主从数据同步
配置mysql5.5主从服务器(转) 教程开始：一、安装MySQL 说明：在两台MySQL服务器192.168.21.169和192.168.21.168上分别进行如下操作，安装MySQL 5.5.22 二、配置MySQL主服务器（192.168.21.169）mysql -uroot -p &nb
oracle学习笔记 caoyong oracle
1、ORACLE的安装 a>、ORACLE的版本 8i,9i : i是internet 10g,11g : grid (网格) 12c : cloud (云计算) b>、10g不支持win7 &
数据库，SQL零基础入门天子之骄 sql 数据库入门基本术语
数据库，SQL零基础入门做网站肯定离不开数据库，本人之前没怎么具体接触SQL，这几天起早贪黑得各种入门，恶补脑洞。一些具体的知识点，可以让小白不再迷茫的术语，拿来与大家分享。数据库，永久数据的一个或多个大型结构化集合，通常与更新和查询数据的软件相关
pom.xml 一炮送你回车库 pom.xml
1、一级元素dependencies是可以被子项目继承的 2、一级元素dependencyManagement是定义该项目群里jar包版本号的，通常和一级元素properties一起使用，既然有继承，也肯定有一级元素modules来定义子元素 3、父项目里的一级元素<modules> <module>lcas-admin-war</module> <
sql查地区省市县 3213213333332132 sql mysql
-- db_yhm_city SELECT * FROM db_yhm_city WHERE class_parent_id = 1 -- 海南 class_id = 9 港、奥、台 class_id = 33、34、35 SELECT * FROM db_yhm_city WHERE class_parent_id =169 SELECT d1.cla
关于监听器那些让人头疼的事宝剑锋梅花香画图板监听器鼠标监听器
本人初学JAVA，对于界面开发我只能说有点蛋疼，用JAVA来做界面的话确实需要一定的耐心（不使用插件，就算使用插件的话也没好多少）既然Java提供了界面开发，老师又要求做，只能硬着头皮上啦。但是监听器还真是个难懂的地方，我是上了几次课才略微搞懂了些。
JAVA的遍历MAP darkranger map
Java Map遍历方式的选择 1. 阐述　　对于Java中Map的遍历方式，很多文章都推荐使用entrySet，认为其比keySet的效率高很多。理由是：entrySet方法一次拿到所有key和value的集合；而keySet拿到的只是key的集合，针对每个key，都要去Map中额外查找一次value，从而降低了总体效率。那么实际情况如何呢？　　为了解遍历性能的真实差距，包括在遍历ke
POJ 2312 Battle City 优先多列+bfs aijuans 搜索
来源：http://poj.org/problem?id=2312 题意：题目背景就是小时候玩的坦克大战，求从起点到终点最少需要多少步。已知S和R是不能走得，E是空的，可以走，B是砖，只有打掉后才可以通过。思路：很容易看出来这是一道广搜的题目，但是因为走E和走B所需要的时间不一样，因此不能用普通的队列存点。因为对于走B来说，要先打掉砖才能通过，所以我们可以理解为走B需要两步，而走E是指需要1
Hibernate与Jpa的关系，终于弄懂 avords java Hibernate 数据库 jpa
我知道Jpa是一种规范，而Hibernate是它的一种实现。除了Hibernate，还有EclipseLink(曾经的toplink)，OpenJPA等可供选择，所以使用Jpa的一个好处是，可以更换实现而不必改动太多代码。在play中定义Model时，使用的是jpa的annotations，比如javax.persistence.Entity, Table, Column, OneToMany
酸爽的console.log bee1314 console
在前端的开发中，console.log那是开发必备啊，简直直观。通过写小函数，组合大功能。更容易测试。但是在打版本时，就要删除console.log，打完版本进入开发状态又要添加，真不够爽。重复劳动太多。所以可以做些简单地封装，方便开发和上线。 /** * log.js hufeng * The safe wrapper for `console.xxx` functions *
哈佛教授：穷人和过于忙碌的人有一个共同思维特质 bijian1013 时间管理励志人生穷人过于忙碌
一个跨学科团队今年完成了一项对资源稀缺状况下人的思维方式的研究，结论是：穷人和过于忙碌的人有一个共同思维特质，即注意力被稀缺资源过分占据，引起认知和判断力的全面下降。这项研究是心理学、行为经济学和政策研究学者协作的典范。　　这个研究源于穆来纳森对自己拖延症的憎恨。他7岁从印度移民美国，很快就如鱼得水，哈佛毕业
other operate 征客丶 OS osx
一、Mac Finder 设置排序方式，预览栏在显示－》查看显示选项中二、有时预览显示时，卡死在那，有可能是一些临时文件夹被删除了，如：/private/tmp[有待验证] -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一
【Scala五】分析Spark源代码总结的Scala语法三 bit1129 scala
1. If语句作为表达式 val properties = if (jobIdToActiveJob.contains(jobId)) { jobIdToActiveJob(stage.jobId).properties } else { // this stage will be assigned to "default" po
ZooKeeper 入门 BlueSkator 中间件 zk
ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍，本文将结合作者身边的项目例子，系统地对ZK的应用场景进行一个分门归类的介绍。值得注意的是，ZK并非天生就是为这些应用场景设计的，都是后来众多开发者根据其框架的特性，利
MySQL取得当前时间的函数是什么格式化日期的函数是什么 BreakingBad mysql Date
取得当前时间用 now() 就行。在数据库中格式化时间用DATE_FORMA T(date, format) . 根据格式串format 格式化日期或日期和时间值date，返回结果串。可用DATE_FORMAT( ) 来格式化DATE 或DATETIME 值，以便得到所希望的格式。根据format字符串格式化date值: %S, %s 两位数字形式的秒（ 00,01,
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
4_JAVA+Oracle面试题(有答案) chenke oracle
基础测试题卷面上不能出现任何的涂写文字，所有的答案要求写在答题纸上，考卷不得带走。选择题 1、 What will happen when you attempt to compile and run the following code? （3） public class Static { static { int x = 5; // 在static内有效 } st
新一代工作流系统设计目标 comsci 工作算法脚本
用户只需要给工作流系统制定若干个需求，流程系统根据需求，并结合事先输入的组织机构和权限结构，调用若干算法，在流程展示版面上面显示出系统自动生成的流程图，然后由用户根据实际情况对该流程图进行微调，直到满意为止，流程在运行过程中，系统和用户可以根据情况对流程进行实时的调整，包括拓扑结构的调整，权限的调整，内置脚本的调整。。。。。在这个设计中，最难的地方是系统根据什么来生成流
oracle 行链接与行迁移 daizj oracle 行迁移
表里的一行对于一个数据块太大的情况有二种(一行在一个数据块里放不下) 第一种情况: INSERT的时候，INSERT时候行的大小就超一个块的大小。Oracle把这行的数据存储在一连串的数据块里(Oracle Stores the data for the row in a chain of data blocks)，这种情况称为行链接(Row Chain)，一般不可避免(除非使用更大的数据
[JShop]开源电子商务系统jshop的系统缓存实现 dinguangx jshop 电子商务
前言 jeeshop中通过SystemManager管理了大量的缓存数据，来提升系统的性能，但这些缓存数据全部都是存放于内存中的，无法满足特定场景的数据更新（如集群环境）。JShop对jeeshop的缓存机制进行了扩展，提供CacheProvider来辅助SystemManager管理这些缓存数据，通过CacheProvider,可以把缓存存放在内存,ehcache,redis，memcache
初三全学年难记忆单词 dcj3sjt126com english word
several 儿子；若干 shelf 架子 knowledge 知识；学问 librarian 图书管理员 abroad 到国外，在国外 surf 冲浪 wave 浪；波浪 twice 两次；两倍 describe 描写；叙述 especially 特别；尤其 attract 吸引 prize 奖品；奖赏 competition 比赛；竞争 event 大事；事件 O
sphinx实践 dcj3sjt126com sphinx
安装参考地址:http://briansnelson.com/How_to_install_Sphinx_on_Centos_Server yum install sphinx 如果失败的话使用下面的方式安装 wget http://sphinxsearch.com/files/sphinx-2.2.9-1.rhel6.x86_64.rpm yum loca
JPA之JPQL（三） frank1234 orm jpa JPQL
1 什么是JPQL JPQL是Java Persistence Query Language的简称，可以看成是JPA中的HQL， JPQL支持各种复杂查询。 2 检索单个对象 @Test public void querySingleObject1() { Query query = em.createQuery("sele
Remove Duplicates from Sorted Array II hcx2013 remove
Follow up for "Remove Duplicates":What if duplicates are allowed at most twice? For example,Given sorted array nums = [1,1,1,2,2,3], Your function should return length
Spring4新特性——Groovy Bean定义DSL jinnianshilongnian spring 4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装Mysql5.5 liuxingguome centos
CentOS下以RPM方式安装MySQL5.5 首先卸载系统自带Mysql： yum remove mysql mysql-server mysql-libs compat-mysql51 rm -rf /var/lib/mysql rm /etc/my.cnf 查看是否还有mysql软件： rpm -qa|grep mysql 去http://dev.mysql.c
第14章工具函数（下） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
POJ 1050 SaraWon 二维数组子矩阵最大和
POJ ACM第1050题的详细描述，请参照 http://acm.pku.edu.cn/JudgeOnline/problem?id=1050 题目意思：给定包含有正负整型的二维数组，找出所有子矩阵的和的最大值。如二维数组 0 -2 -7 0 9 2 -6 2 -4 1 -4 1 -1 8 0 -2 中和最大的子矩阵是 9 2 -4 1 -1 8 且最大和是15
Java8全新打造，英语学习supertool yangshangchuan java superword 闭包 java8 函数式编程
superword是一个Java实现的英文单词分析软件，主要研究英语单词音近形似转化规律、前缀后缀规律、词之间的相似性规律等等。Clean code、Fluent style、Java8 feature: Lambdas, Streams and Functional-style Programming。升学考试、工作求职、充电提高，都少不了英语的身影，英语对我们来说实在太重要