es入门（中）

6.Java api 实现es中的文档管理（增删改）

6.1 java 客户端简单获取数据

6.2结合spring-boot测试文档查询

配置环境

配置类

测试代码结构

简单的查询

对查询的请求设置参数

异步查询

6.4 结合spring-boot测试文档新增

6.5结合spring-boot测试文档局部修改

6.6结合spring-boot测试文档删除

6.7结合spring-boot测试文档bulk（批量操作）

7.文档存储机制

7.1数据路由

7.1.1文档存储如何路由到相应分片?

7.1.2路由算法

7.1.3手动指定 routing number

7.1.4主分片数量不可变

7.2文档的增删改内部机制

7.3文档的查询内部机制

7.4bulk api奇特的json格式

8.Mapping映射入门（重点）

8.1什么是mapping映射

8.2精确匹配与全文搜索的对比分析

8.2.1 exact value 精确匹配

8.2.2 full text 全文检索（关键词检索）

8.3全文检索下倒排索引核心原理快速揭秘

8.4分词器 analyzer(了解)

8.4.1什么是分词器 analyzer

8.4.2es内置分词器的介绍

8.5query string根据字段分词策略

8.5.1query string分词

8.5.2测试分词器_analyze

8.6 mapping回顾总结

8.7 mapping的核心数据类型以及dynamic mapping

8.7.1 核心的数据类型

8.7.2 动态映射推测规则

8.7.3 查看mapping

8.8 手动管理mapping

8.8.1查询所有索引的映射

8.8.2 创建映射（重点）：包含keyword，text，date，数值类型

8.8.3修改映射

8.8.4删除映射

6.Java api 实现es中的文档管理（增删改）

6.1 java 客户端简单获取数据

java api 文档：Overview | Java REST Client [7.10] | Elastichttps://www.elastic.co/guide/en/elasticsearch/client/java-rest/7.10/java-rest-overview.html

low ：偏向底层。

high：高级封装。足够。 一般这个封装后的就可以满足我们的需求。

1、导包：


    org.elasticsearch.client
    elasticsearch-rest-high-level-client
    7.3.0
    
        
            org.elasticsearch
            elasticsearch
        
    


    org.elasticsearch
    elasticsearch
    7.3.0

如果出现下面的图片的这种情况：原因可能是

网络问题导致下载的依赖是残缺的，就是在本地仓库中的文件中可以看见这个依赖包的文件，但是没有具体的jar包，需要把这些文件给删除，然后重新下载依赖。注意maven的镜像环境是否配置。

2、代码步骤

使用java操作es的步骤：

①获取连接客户端

②构建请求

③执行

④获取结果

/**
 * @author LJM
 * @create 2022/12/8
 */
public class TestES {
    public static void main(String[] args) throws IOException {
        //获取连接客户端  获取连接参数还可以使用另外两种方式:在配置文件中获取,或者是在数据库中配置然后读取数据库中的配置
        RestHighLevelClient client = new RestHighLevelClient(
                RestClient.builder(
                        new HttpHost("localhost", 9200, "http")));
        //构建请求 这个请求是建立在 book索引存在的情况下  这里可以自己用代码进行一次判断,没有book索引那么我们就先创建book索引
        GetRequest getRequest = new GetRequest("book", "1");
        // 执行  获取返回的结果
        GetResponse getResponse = client.get(getRequest, RequestOptions.DEFAULT);
        // 获取结果
        if (getResponse.isExists()) {
            long version = getResponse.getVersion();
            String sourceAsString = getResponse.getSourceAsString();//检索文档(String形式)
            System.out.println(sourceAsString);
        }
    }
}

控制台的输出结果：

6.2结合spring-boot测试文档查询

配置环境

把创建连接交由spring容器，避免每次请求的网络开销。

1、导包

        
            org.springframework.boot
            spring-boot-starter
            2.0.6.RELEASE
        
        
            org.springframework.boot
            spring-boot-starter-test
            test
            2.0.6.RELEASE

2、配置 application.yml

spring:
  application:
    name: service-search
heima:
  elasticsearch:
    hostlist: 127.0.0.1:9200 #多个结点中间用逗号分隔

3、主类代码

@SpringBootApplication
public class SearchApplication {
    public static void main(String[] args) {
        SpringApplication.run(SearchApplication.class,args);
    }
}

配置类

配置类:下面这种写法是考虑到可能会配置多个节点，如果配置文件只是配了一个节点，那么可以不用这么复杂。

package com.learn.es.cofig;

import org.apache.http.HttpHost;
import org.elasticsearch.client.RestClient;
import org.elasticsearch.client.RestHighLevelClient;
import org.springframework.beans.factory.annotation.Value;
import org.springframework.context.annotation.Bean;
import org.springframework.context.annotation.Configuration;

/**
 * @author LJM
 * @create 2022/12/10
 */
@Configuration
public class ElasticSearchConfig {
    
    @Value("${heima.elasticsearch.hostlist}")
    private String hostList;
    
    @Bean(destroyMethod = "close") //表示连接使用完成后需要关闭
    public RestHighLevelClient restHighLevelClient(){
        String[] split = hostList.split(",");
        //这种写法是考虑到可能会配置多个es节点
        HttpHost[] httpHosts = new HttpHost[split.length];
        for (int i = 0; i < split.length; i++) {
            String item = split[i];
            httpHosts[i] = new HttpHost(item.split(":")[0],Integer.parseInt(item.split(":")[1]),"http");
        }

        return new RestHighLevelClient(RestClient.builder(httpHosts));
    }
    
}

测试代码结构

简单的查询

package com.learn.es;

import org.elasticsearch.action.get.GetRequest;
import org.elasticsearch.action.get.GetResponse;
import org.elasticsearch.client.RequestOptions;
import org.elasticsearch.client.RestHighLevelClient;
import org.junit.Test;
import org.junit.runner.RunWith;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.boot.test.context.SpringBootTest;
import org.springframework.test.context.junit4.SpringRunner;

import java.io.IOException;

/**
 * @author LJM
 * @create 2022/12/10
 */
//如果这里不指定启动类,那么这个测试类的位置必须要在主启动类对应的包的子包下(测试类的包结构要与java中的包结构一致)
@SpringBootTest(classes = SearchApplication.class)
@RunWith(SpringRunner.class)
public class TestDocument {

    @Autowired
    RestHighLevelClient client;

    @Test
    public  void testGetData() throws IOException {
        //1 构建请求
        GetRequest getRequest = new GetRequest("book","1");

        //2 执行请求
        GetResponse response = client.get(getRequest, RequestOptions.DEFAULT);

        //3 获取结构
        System.out.println(response.getId());
        System.out.println(response.getVersion());
        System.out.println(response.getSourceAsString());

    }
}

对查询的请求设置参数

/**
 * @author LJM
 * @create 2022/12/10
 */
//如果这里不指定启动类,那么这个测试类的位置必须要在主启动类对应的包的子包下(测试类的包结构要与java中的包结构一致)
@SpringBootTest(classes = SearchApplication.class)
@RunWith(SpringRunner.class)
public class TestDocument {

    @Autowired
    RestHighLevelClient client;

    @Test
    public  void testGetData() throws IOException {
        //1 构建请求
        GetRequest getRequest = new GetRequest("book","1");

        //可以对构建请求的时候 设置一些可选参数
        String[] includes = new String[]{"name", "price"}; //想要的字段
        String[] excludes = Strings.EMPTY_ARRAY; //不想要的字段 这里是表示不要空的字段
        //FetchSourceContext获取我们想要的字段  不查询source的全部字段
        FetchSourceContext fetchSourceContext = new FetchSourceContext(true, includes, excludes);
        getRequest.fetchSourceContext(fetchSourceContext);

        //2 执行请求  这个是同步查询
        GetResponse response = client.get(getRequest, RequestOptions.DEFAULT);

        //3 获取结构
        if (response.isExists()){
            System.out.println(response.getId());
            System.out.println(response.getVersion());
            Map source = response.getSourceAsMap();
            System.out.println(source.get("name"));
            System.out.println(source.get("price"));
        }else {
            System.out.println("没有数据存在");
        }
    }
}

异步查询

    //异步获取数据
    @Test
    public  void testSynchronousGetData() throws IOException {
        //1 构建请求
        GetRequest getRequest = new GetRequest("book","1");

        //可以对构建请求的时候 设置一些可选参数
        String[] includes = new String[]{"name", "price"}; //想要的字段
        String[] excludes = Strings.EMPTY_ARRAY; //不想要的字段
        //FetchSourceContext获取我们想要的字段  不查询source的全部字段
        FetchSourceContext fetchSourceContext = new FetchSourceContext(true, includes, excludes);
        getRequest.fetchSourceContext(fetchSourceContext);

        //2 异步执行请求
        //异步查询
        ActionListener listener = new ActionListener() {
            //查询成功时的立马执行的方法
            @Override
            public void onResponse(GetResponse response) {
                //3 获取结构
                if (response.isExists()){
                    System.out.println(response.getId());
                    System.out.println(response.getVersion());
                    Map source = response.getSourceAsMap();
                    System.out.println(source.get("name"));
                    System.out.println(source.get("price"));
                }else {
                    System.out.println("没有数据存在");
                }
            }

            //查询失败时的立马执行的方法
            @Override
            public void onFailure(Exception e) {
                e.printStackTrace();
            }
        };
        client.getAsync(getRequest, RequestOptions.DEFAULT, listener);

        //这里使用多线程进行睡眠  是因为我们测试的客户端连接是执行完就会关闭的 我们让它睡5秒之后再关闭
        try {
            Thread.sleep(5000);
        } catch (InterruptedException e) {
            e.printStackTrace();
        }

    }

6.4 结合spring-boot测试文档新增

rest api：

PUT test_post/_doc/2
{
  "user":"tomas",
  "postDate":"2019-07-18",
  "message":"trying out es1"
}

代码：

//测试新增
@Test
public void testAdd() throws IOException {
    //1构建请求
    IndexRequest request = new IndexRequest("test_posts");
    request.id("3");
    //构建请求体
    //=======================构建文档数据============================
    //构建方法1  使用JSON串的方式来进行构建
    //        String jsonString="{\n" +
    //                "  \"user\":\"tomas J\",\n" +
    //                "  \"postDate\":\"2019-07-18\",\n" +
    //                "  \"message\":\"trying out es3\"\n" +
    //                "}";
    //        request.source(jsonString, XContentType.JSON);

    
    //        构建方法2  使用map构建 (推荐这个方法)
    Map jsonMap=new HashMap<>();
    jsonMap.put("user", "tomas");
    jsonMap.put("postDate", "2019-07-18");
    jsonMap.put("message", "trying out es2");
    request.source(jsonMap);

    //        构建方法3
    //        XContentBuilder builder= XContentFactory.jsonBuilder();
    //        builder.startObject();
    //        {
    //            builder.field("user", "tomas");
    //            builder.timeField("postDate", new Date());
    //            builder.field("message", "trying out es2");
    //        }
    //        builder.endObject();
    //        request.source(builder);


    //========================可选参数===================================
    //设置超时时间
    request.timeout(TimeValue.timeValueSeconds(1));
    //request.timeout("1s");

    //自己维护版本号  不能与es中的版本冲突 否则会报错
    //request.version(2);
    //request.versionType(VersionType.EXTERNAL);



    //2执行
    //同步执行
    IndexResponse indexResponse = client.index(request, RequestOptions.DEFAULT);
    //异步执行
    //        ActionListener listener=new ActionListener() {
    //            @Override
    //            public void onResponse(IndexResponse indexResponse) {
    //
    //            }
    //
    //            @Override
    //            public void onFailure(Exception e) {
    //
    //            }
    //        };
    //        client.indexAsync(request,RequestOptions.DEFAULT, listener );
    //        try {
    //            Thread.sleep(5000);
    //        } catch (InterruptedException e) {
    //            e.printStackTrace();
    //        }


    //3获取结果
    System.out.println(indexResponse.getIndex());
    System.out.println(indexResponse.getId());

    //获取插入的类型
    if(indexResponse.getResult()== DocWriteResponse.Result.CREATED){
        DocWriteResponse.Result result=indexResponse.getResult();
        System.out.println("CREATED:"+result);
    }else if(indexResponse.getResult()== DocWriteResponse.Result.UPDATED){
        DocWriteResponse.Result result=indexResponse.getResult();
        System.out.println("UPDATED:"+result);
    }

    ReplicationResponse.ShardInfo shardInfo = indexResponse.getShardInfo();
    if(shardInfo.getTotal()!=shardInfo.getSuccessful()){
        System.out.println("处理成功的分片数少于总分片！");
    }
    if(shardInfo.getFailed()>0){
        for (ReplicationResponse.ShardInfo.Failure failure:shardInfo.getFailures()) {
            String reason = failure.reason();//处理潜在的失败原因
            System.out.println(reason);
        }
    }
}

6.5结合spring-boot测试文档局部修改

rest api：

先查询一下  GET /book/_doc/3

post book/_doc/3/_update 
{
   "doc": {
    "name":"测试修改1"
   }
}

通过java代码实现：

//测试修改
@Test
public void testUpdate() throws IOException {
    //1构建更新请求
    UpdateRequest request = new UpdateRequest("book", "3");
    Map jsonMap = new HashMap<>();
    jsonMap.put("name", "tomas JJ");
    request.doc(jsonMap);

    //===============================可选参数==========================================
    request.timeout(TimeValue.timeValueSeconds(1)); //设置超时时间

    //重试次数
    request.retryOnConflict(3);

    //设置在继续更新之前，必须激活的分片数
    //request.waitForActiveShards(2);
    //所有分片都是active状态，才更新
    //request.waitForActiveShards(ActiveShardCount.ALL);

    //2执行请求
    //同步执行
    UpdateResponse updateResponse = client.update(request, RequestOptions.DEFAULT);
    //或者是异步执行

    //3获取结果数据
    updateResponse.getId();
    updateResponse.getIndex();

    //判断结果
    if (updateResponse.getResult() == DocWriteResponse.Result.CREATED) {
        DocWriteResponse.Result result = updateResponse.getResult();
        System.out.println("CREATED:" + result);
    } else if (updateResponse.getResult() == DocWriteResponse.Result.UPDATED) {
        DocWriteResponse.Result result = updateResponse.getResult();
        System.out.println("UPDATED:" + result);
    }else if(updateResponse.getResult() == DocWriteResponse.Result.DELETED){
        DocWriteResponse.Result result = updateResponse.getResult();
        System.out.println("DELETED:" + result);
    }else if (updateResponse.getResult() == DocWriteResponse.Result.NOOP){
        //没有操作
        DocWriteResponse.Result result = updateResponse.getResult();
        System.out.println("NOOP:" + result);
    }
}

6.6结合spring-boot测试文档删除

rest api：

DELETE /test_posts/_doc/3

代码：

 @Test
public void testDelete() throws IOException {
    //1构建请求
    DeleteRequest request =new DeleteRequest("book","3");
    //可选参数

    //2执行
    DeleteResponse deleteResponse = client.delete(request, RequestOptions.DEFAULT);

    //3获取数据
    deleteResponse.getId();
    deleteResponse.getIndex();

    //获取的执行结果
    DocWriteResponse.Result result = deleteResponse.getResult();
    System.out.println(result);
}

6.7结合spring-boot测试文档bulk（批量操作）

rest api：

POST /_bulk
{"action": {"metadata"}}
{"data"}

代码：

//批量测试
@Test
public void testBulk() throws IOException {
    //1创建请求
    BulkRequest request = new BulkRequest();
    //request.add(new IndexRequest("book").id("1").source(XContentType.JSON, "field", "1"));
    //request.add(new IndexRequest("book").id("2").source(XContentType.JSON, "field", "2"));

    request.add(new UpdateRequest("book","5").doc(XContentType.JSON, "field", "3"));
    request.add(new DeleteRequest("book").id("3"));

    //2执行
    BulkResponse bulkResponse = client.bulk(request, RequestOptions.DEFAULT);

    for (BulkItemResponse itemResponse : bulkResponse) {
        DocWriteResponse itemResponseResponse = itemResponse.getResponse();

        switch (itemResponse.getOpType()) {
            case INDEX:
            case CREATE:
                IndexResponse indexResponse = (IndexResponse) itemResponseResponse;
                indexResponse.getId();
                System.out.println(indexResponse.getResult());
                break;
            case UPDATE:
                UpdateResponse updateResponse = (UpdateResponse) itemResponseResponse;
                updateResponse.getIndex();
                System.out.println(updateResponse.getResult());
                break;
            case DELETE:
                DeleteResponse deleteResponse = (DeleteResponse) itemResponseResponse;
                System.out.println(deleteResponse.getResult());
                break;
        }
    }
}

封装的批量操作的方法： 注意每次批量操作的数据不要太大，否则会占用过多的网络资源，一般是几千条就行了，最多是10兆的数据。

批量新增文档数据：

@Autowired
RestHighLevelClient client; //在配置类中配置好的连接对象
private void createIndex(List> list){
    try {
        if (list.size() > 0){
            BulkRequest request = new BulkRequest();
            //把标准目录卡片中的数据导入es中
            for (int i = 0;i map = list.get(i);
                //这里不能直接对获取到的map对象进行修改,必须要创建一个新的map对象来把数据存储进去  否则会报集合修改错误
                HashMap res = new HashMap<>();    
                //这个文档有什么字段就在这里把字段存到map中 ... 
                res.put("id",map.get("id").toString());
                res.put("name",map.get("name").toString())==null?"":map.get("name").toString());
                request.timeout(TimeValue.timeValueMinutes(5)).add(new IndexRequest("索引名称").id(res.get("id").toString()).source(res));
            }

            BulkResponse bulkResponse = client.bulk(request, RequestOptions.DEFAULT);
        }
    }catch (Exception e){
        e.printStackTrace();
    }finally {
        //可以执行一下释放资源的操作
    }
}

批量更新文档信息：

@Autowired
RestHighLevelClient client; //在配置类中配置好的连接对象
private void updateIndex(List> list){
    try {
        if (list.size() > 0){
            BulkRequest request = new BulkRequest();
            //把标准目录卡片中的数据导入es中
            for (int i = 0;i map = list.get(i);
                //这里不能直接对获取到的map对象进行修改,必须要创建一个新的map对象来把数据存储进去  否则会报集合修改错误
                HashMap res = new HashMap<>();    
                //要更新的数据字段  并且把新数据存储进来 
                res.put("id",map.get("id").toString());
                res.put("name",map.get("name").toString())==null?"":map.get("name").toString());
                request.timeout(TimeValue.timeValueMinutes(5)).add(new UpdateRequest("索引名称",res.get("id").toString()).doc(res));
            }

            BulkResponse bulkResponse = client.bulk(request, RequestOptions.DEFAULT);
        }
    }catch (Exception e){
        e.printStackTrace();
    }finally {
        //可以执行一下释放资源的操作
    }
}

批量删除文档信息：

@Autowired
RestHighLevelClient client; //在配置类中配置好的连接对象
/**
     * 删除es中指定的数据
     * @param ids 文档的id标识集合
     */
public void deleteIndexDoc(List ids){
    if(ids.size()>0){
        BulkRequest request = new BulkRequest();
        //删除
        for(String id:ids){
            request.timeout(TimeValue.timeValueMinutes(5)).add(new DeleteRequest("索引名称",id));
        }
        try {
            client.bulk(request, RequestOptions.DEFAULT);
        } catch (Exception e) {
            e.printStackTrace();
        }finally {
            //可以执行一下释放资源的操作
        }
    }
}

7.文档存储机制

7.1数据路由

7.1.1文档存储如何路由到相应分片?

一个文档，最终会落在主分片的一个分片上，那么数据到底应该在哪一个分片呢？这个过程就是【数据路由】。

7.1.2路由算法

shard = hash(routing) % number_of_primary_shards

哈希值对主分片数取模。

举例：

对一个文档经行crud时，都会带一个路由值 routing number。默认为文档_id（可能是手动指定，也可能是自动生成）。

假设存储一个文档，经过哈希计算，假设计算出来的哈希值为2，此索引有3个主分片，那么计算2%3=2，就算出此文档在P2分片上。

决定一个document在哪个shard上，最重要的一个值就是routing值，默认是_id，也可以手动指定，相同的routing值，每次过来，从hash函数中，产出的hash值一定是相同的

无论hash值是几，无论是什么数字，对number_of_primary_shards求余数，结果一定是在0~number_of_primary_shards-1之间这个范围内的。

7.1.3手动指定 routing number

PUT /test_index/_doc/15?routing=num
{
  "num": 0,
  "tags": []
}

场景：在程序中，架构师可以手动指定已有数据的一个属性为路由值，好处是可以定制一类文档数据存储到一个分片中。缺点是设计不好，会造成数据倾斜。

所以，不建议手动指定 routing number否则容易导致数据倾斜。不同文档尽量放到不同的索引中，剩下的事情交给es集群自己处理。

7.1.4主分片数量不可变

因为涉及到以往数据的查询搜索，如果此时主分片数发生变化，会导致数据路由的时候找不到我们想要的数据，从而间接的导致数据丢失，所以一旦建立索引，主分片数不可变。

与路由算法有关系：shard = hash(routing) % number_of_primary_shards

7.2文档的增删改内部机制

增删改可以看做update,都是对数据的改动。一个改动请求发送到es集群，经历以下四个步骤：

（1）客户端选择一个node发送请求过去，这个node就是coordinating node（协调节点）

（2）coordinating node，对document进行路由，将请求转发给对应的node（有primary shard）

（3）实际的node上的primary shard处理请求，然后将数据同步到replica node。

（4）coordinating node，如果发现primary node和所有replica node都搞定之后，才会返回响应结果给客户端。

7.3文档的查询内部机制

1、客户端发送请求到任意一个node，成为coordinate node（协调节点）

2、coordinate node对document进行路由，将请求转发到对应的node，此时会使用round-robin随机轮询算法，在primary shard以及其所有replica中随机选择一个，让读请求负载均衡（轮询的方式可以减轻主分片的压力，因为主分片增删改查都可以，但是副分片只能查询，所以把后续的查询请求分发到副分片是可以减轻主分片的压力的）

3、接收请求的node返回document给coordinate node（协调节点）

4、coordinate node（协调节点）返回document给客户端

5、特殊情况：document如果还在建立索引过程中，可能只有primary shard有，任何一个replica shard都没有，此时可能会导致无法读取到document，但是document完成索引建立之后，primary shard和replica shard就都有了。（这种概率非常小）

7.4bulk api奇特的json格式

POST /_bulk
{"action": {"meta"}}\n
{"data"}\n
{"action": {"meta"}}\n
{"data"}\n

[
    {
        "action":{
            "method":"create"
        },
        "data":{
            "id":1,
            "field1":"java",
            "field1":"spring",
        }
    },
      {
        "action":{
            "method":"create"
        },
        "data":{
            "id":2,
            "field1":"java",
            "field1":"spring",
        }
    }       
]

1、bulk中的每个操作都可能要转发到不同的node的shard去执行

2、如果采用比较良好的json数组格式

允许任意的换行，整个可读性非常棒，读起来很爽，es拿到那种标准格式的json串以后，要按照下述流程去进行处理

（1）将json数组解析为JSONArray对象，这个时候，整个数据，就会在内存中出现一份一模一样的拷贝，一份数据是json文本，一份数据是JSONArray对象

（2）解析json数组里的每个json，对每个请求中的document进行路由

（3）为路由到同一个shard上的多个请求，创建一个请求数组。100请求中有10个是到P1.

（4）将这个请求数组序列化

（5）将序列化后的请求数组发送到对应的节点上去

3、耗费更多内存，更多的jvm gc开销

我们之前提到过bulk size最佳大小的那个问题，一般建议说在几千条那样，然后大小在10MB左右，所以说，可怕的事情来了。假设说现在100个bulk请求发送到了一个节点上去，然后每个请求是10MB，100个请求，就是1000MB = 1GB，然后每个请求的json都copy一份为jsonarray对象，此时内存中的占用就会翻倍，就会占用2GB的内存，甚至还不止。因为弄成jsonarray之后，还可能会多搞一些其他的数据结构，2GB+的内存占用。

占用更多的内存可能就会积压其他请求的内存使用量，比如说最重要的搜索请求，分析请求，等等，此时就可能会导致其他请求的性能急速下降。

另外的话，占用内存更多，就会导致java虚拟机的垃圾回收次数更多，跟频繁，每次要回收的垃圾对象更多，耗费的时间更多，导致es的java虚拟机停止工作线程的时间更多。

4、现在的奇特格式

POST /_bulk
{ "delete": { "_index": "test_index",  "_id": "5" }} \n
{ "create": { "_index": "test_index",  "_id": "14" }}\n
{ "test_field": "test14" }\n
{ "update": { "_index": "test_index",  "_id": "2"} }\n
{ "doc" : {"test_field" : "bulk test"} }\n

（1）不用将其转换为json对象，不会出现内存中的相同数据的拷贝，直接按照换行符切割json

（2）对每两个一组的json，读取meta，进行document路由

（3）直接将对应的json发送到node上去

5、最大的优势在于，不需要将json数组解析为一个JSONArray对象，形成一份大数据的拷贝，浪费内存空间，尽可能地保证性能。

8.Mapping映射入门（重点）

8.1什么是mapping映射

概念：自动或手动为index中的_doc建立的一种数据结构和相关配置，简称为mapping映射。

插入几条数据，让es自动为我们建立一个索引：

PUT /website/_doc/1
{
  "post_date": "2019-01-01",
  "title": "my first article",
  "content": "this is my first article in this website",
  "author_id": 11400
}

PUT /website/_doc/2
{
  "post_date": "2019-01-02",
  "title": "my second article",
  "content": "this is my second article in this website",
  "author_id": 11400
}
 
PUT /website/_doc/3
{
  "post_date": "2019-01-03",
  "title": "my third article",
  "content": "this is my third article in this website",
  "author_id": 11400
}

对比数据库建表语句：我们可以发现在数据库中创建表的时候是需要为表中的字段指定其数据格式的，这个为字段指定具体的数据格式就是一个映射的创建过程。

create table website(
     post_date date,
     title varchar(50),     
     content varchar(100),
     author_id int(11) 
 );

动态映射：dynamic mapping，自动为我们建立index，以及对应的mapping，mapping中包含了每个field对应的数据类型，以及如何分词等设置。

查询文档中字段的映射关系  type为字段类型
GET  /website/_mapping/    
{
  "website" : {
    "mappings" : {
      "properties" : {
        "author_id" : {
          "type" : "long"
        },
        "content" : {
          "type" : "text",
          "fields" : {
            "keyword" : {
              "type" : "keyword",
              "ignore_above" : 256
            }
          }
        },
        "post_date" : {
          "type" : "date"
        },
        "title" : {
          "type" : "text",
          "fields" : {
            "keyword" : {
              "  " : "keyword",
              "ignore_above" : 256
            }
          }
        }
      }
    }
  }
}

尝试各种搜索：

GET /website/_search 
GET /website/_search?q=2019        0条结果     q表示的是query的意思     在所有的字段中进行搜索     
GET /website/_search?q=2019-01-01           1条结果  在所有的字段中进行搜索     
GET /website/_search?q=post_date:2019-01-01     1条结果  在指定的字段进行搜索
GET /website/_search?q=post_date:2019          0 条结果  在指定的字段进行搜索

搜索结果为什么不一致，因为es自动建立mapping的时候，设置了不同的field不同的data type。不同的data type的分词、搜索等行为是不一样的。所以出现了_all field和post_date field的搜索表现完全不一样。

8.2精确匹配与全文搜索的对比分析

8.2.1 exact value 精确匹配

2019-01-01，exact value，搜索的时候，必须输入2019-01-01，才能搜索出来必须输入这个字段的完整值才能把数据查询出来（相当于SQL语句中的 = 符号）

如果你输入一个01，是搜索不出来的

select * from book where name = 'java'

8.2.2 full text 全文检索（关键词检索）

搜“笔记电脑”，笔记本电脑词条会不会出现。

select * from book where name like '%java%'

（1）缩写 vs. 全称：cn vs. china

（2）格式转化：like liked likes

（3）大小写：Tom vs tom

（4）同义词：like vs love

2019-01-01，2019 01 01，搜索2019，或者01，都可以搜索出来

china，搜索cn，也可以将china搜索出来

likes，搜索like，也可以将likes搜索出来

Tom，搜索tom，也可以将Tom搜索出来

like，搜索love，同义词，也可以将like搜索出来

就不是说单纯的只是匹配完整的一个值，而是可以对值进行拆分词语后（分词）进行匹配，也可以通过缩写、时态、大小写、同义词等进行匹配。深入 NPL,自然语义处理。

8.3全文检索下倒排索引核心原理快速揭秘

doc1：I really liked my small dogs, and I think my mom also liked them.

doc2：He never liked any dogs, so I hope that my mom will not expect me to liked him.

分词，初步的倒排索引的建立：

term	doc1	doc2
I	*	*
really	*
liked	*	*
my	*	*
small	*
dogs	*
and	*
think	*
mom	*	*
also	*
them	*
He		*
never		*
any		*
so		*
hope		*
that		*
will		*
not		*
expect		*
me		*
to		*
him		*

演示了一下倒排索引最简单的建立的一个过程：

搜索

搜索 mother like little dog，不可能有任何结果，因为我们的分词表中没有下面的分词数据，但是分词表中有 lieked，dogs，mom。所以我们是希望可以查询出数据来的，因为在我们人类看来，like和liked是一样的，dog和dogs也是一样的，mom和mother也是一样的。

mother like little dog分词后：

mother

little

dog

这不是我们想要的结果。同义词mom\mother在我们人类看来是一样。所以我们想要对其进行标准化操作。

理解重建倒排索引

normalization正规化，建立倒排索引的时候，会执行一个操作，会对拆分出的各个单词进行相应的处理，以提升后面搜索的时候能够搜索到相关联的文档的概率，比如

时态的转换，单复数的转换，同义词的转换，大小写的转换等处理

mom ―> mother

liked ―> like

small ―> little

dogs ―> dog

重新建立倒排索引，加入normalization，再次用mother liked little dog搜索，就可以搜索到了

word	doc1	doc2	normalization
I	*	*
really	*
like	*	*	liked ―> like
my	*	*
little	*		small ―> little
dog	*		dogs ―> dog
and	*
think	*
mother	*	*	mom ―> mother
also	*
them	*
He		*
never		*
any		*
so		*
hope		*
that		*
will		*
not		*
expect		*
me		*
to		*
him		*

重新搜索

搜索：mother liked little dog

对搜索条件经行分词 normalization

mother

liked -》like

little

dog

所以最后doc1和doc2都会被搜索出来。

8.4分词器 analyzer(了解)

8.4.1什么是分词器 analyzer

作用：切分词语，normalization（提升recall召回率）

给你一段句子，然后将这段句子拆分成一个一个的单个的单词，同时对每个单词进行normalization（时态转换，单复数转换）

recall，召回率：搜索的时候，增加能够搜索到的结果的数量

analyzer 组成部分：

1、character filter：在一段文本进行分词之前，先进行预处理，比如说最常见的就是，过滤html标签（hello --> hello），& --> and（I&you --> I and you）

2、tokenizer：分词，hello you and me --> hello, you, and, me

3、token filter（标准化转化：大小写，单复数，语义话转换，时态等）：lowercase，stop word，synonymom，dogs --> dog，liked --> like，Tom --> tom，a/the/an --> 干掉，mother --> mom，small --> little

stop word 停用词（去掉停用词，因为这些词对我们搜索的结果没有影响）：了的呢。

一个分词器将一段文本进行各种处理，最后处理好的结果才会被拿去建立倒排索引。

8.4.2es内置分词器的介绍

例句：Set the shape to semi-transparent by calling set_trans(5)

standard analyzer标准分词器：set, the, shape, to, semi, transparent, by, calling, set_trans, 5（默认的是standard）

simple analyzer简单分词器：set, the, shape, to, semi, transparent, by, calling, set, trans

whitespace analyzer：Set, the, shape, to, semi-transparent, by, calling, set_trans(5)

language analyzer（特定的语言的分词器，比如说，english，英语分词器）：set, shape, semi, transpar, call, set_tran, 5

官方文档：

Analyzers | Elasticsearch Guide [7.4] | Elastichttps://www.elastic.co/guide/en/elasticsearch/reference/7.4/analysis-analyzers.html

8.5query string根据字段分词策略

8.5.1query string分词

query string必须以和index建立时相同的analyzer进行分词

query string对不同的映射采用不同的检索方式；

如： date：exact value 精确匹配

text: full text 全文检索

8.5.2测试分词器_analyze

GET /_analyze
{
  "analyzer": "standard",
  "text": "Text to analyze 80"
}

返回值：

{
  "tokens" : [
    {
      "token" : "text",
      "start_offset" : 0,
      "end_offset" : 4,
      "type" : "",
      "position" : 0
    },
    {
      "token" : "to",
      "start_offset" : 5,
      "end_offset" : 7,
      "type" : "",
      "position" : 1
    },
    {
      "token" : "analyze",
      "start_offset" : 8,
      "end_offset" : 15,
      "type" : "",
      "position" : 2
    },
    {
      "token" : "80",
      "start_offset" : 16,
      "end_offset" : 18,
      "type" : "",
      "position" : 3
    }
  ]
}

token 实际存储的term 关键字；

position 在此词条在原文本中的位置；

start_offset/end_offset字符在原始字符串中的位置；

8.6 mapping回顾总结

（1）往es里面直接插入数据，es会自动建立索引，同时建立对应的mapping。(dynamic mapping)

（2）mapping中就自动定义了每个field的数据类型

（3）不同的数据类型（比如说text和date），可能有的是exact value（精确匹配），有的是full text（全文检索）

（4）exact value，在建立倒排索引的时候，分词的时候，是将整个值一起作为一个关键词建立到倒排索引中的；full text，会经历各种各样的处理，分词，normaliztion（时态转换，同义词转换，大小写转换），才会建立到倒排索引中。

（5）同时，是exact value或者是full text类型的检索，在创建field（字段）的映射就决定好了，在一个搜索过来的时候，对exact value field或者是full text field进行搜索的行为也是不一样的，会跟建立倒排索引的行为保持一致；比如说exact value搜索的时候，就是直接按照整个值进行匹配，full text query string，也会进行分词和normalization再去倒排索引中去搜索

（6）可以用es的dynamic mapping，让其自动建立mapping，包括自动设置数据类型；也可以提前手动创建index和tmapping，自己对各个field进行设置，包括数据类型，包括索引行为，包括分词器，等。

8.7 mapping的核心数据类型以及dynamic mapping

8.7.1 核心的数据类型

string :text and keyword

byte，short，integer，long，float，double

boolean

date

详情见官网：Field datatypes | Elasticsearch Guide [7.3] | Elastichttps://www.elastic.co/guide/en/elasticsearch/reference/7.3/mapping-types.html

8.7.2 动态映射推测规则

true or false --> boolean

123 --> long

123.45 --> double

2019-01-01 --> date

"hello world" --> text/keywod

8.7.3 查看mapping

查看指定索引下中各个字段的映射规则：

GET /index/_mapping/

8.8 手动管理mapping

8.8.1查询所有索引的映射

GET /_mapping 获取es集群下所有字段的的映射规则。

查看指定索引下中各个字段的映射规则： GET /index/_mapping/

8.8.2 创建映射（重点）：包含keyword，text，date，数值类型

创建索引后，应该立即手动创建映射

PUT book/_mapping
{
	"properties": {
           "name": {
                  "type": "text"
            },
           "description": {
              "type": "text",
              "analyzer":"english",
              "search_analyzer":"english"
           },
           "pic":{
             "type":"text",
             "index":false
           },
           "studymodel":{
             "type":"text"
           }
    }
}

Text文本类型可以设置一些参数

(1）analyzer

通过analyzer属性指定分词器。

上边指定了analyzer是指在索引和搜索都使用english，如果单独想定义搜索时使用的分词器则可以通过search_analyzer属性。

(2）index

index属性指定是否索引。

默认为index=true，即要进行索引，只有进行索引才可以从索引库搜索到。

但是也有一些内容不需要索引，比如：商品图片地址只被用来展示图片，不进行搜索图片，此时可以将index设置为false。

删除索引，重新创建映射，将pic的index设置为false，尝试根据pic去搜索，结果搜索不到数据。

(3）store

是否在source之外存储，每个文档索引后会在 ES中保存一份原始文档，存放在"source"中，一般情况下不需要设置store为true，因为在source中已经有一份原始文档了。

测试：

PUT book/_mapping
{
		"properties": {
           "name": {
                  "type": "text"
            },
           "description": {
              "type": "text",
              "analyzer":"english",
              "search_analyzer":"english"
           },
           "pic":{
             "type":"text",
             "index":false
           },
           "studymodel":{
             "type":"text"
           }
    }
}

插入测试文档：

PUT /book/_doc/1
{
  "name":"Bootstrap开发框架",
  "description":"Bootstrap是由Twitter推出的一个前台页面开发框架，在行业之中使用较为广泛。此开发框架包含了大量的CSS、JS程序代码，可以帮助开发者（尤其是不擅长页面开发的程序人员）轻松的实现一个不受浏览器限制的精美界面效果。",
  "pic":"group1/M00/00/01/wKhlQFqO4MmAOP53AAAcwDwm6SU490.jpg",
  "studymodel":"201002"
}

Get /book/_search?q=name:开发（可以搜索到）

Get /book/_search?q=description:开发（可以搜索到）

Get /book/_search?q=pic:group1/M00/00/01/wKhlQFqO4MmAOP53AAAcwDwm6SU490.jpg （搜索不到）

Get /book/_search?q=studymodel:201002 （可以搜索到）

通过测试发现：name和description都支持全文检索，pic不可作为查询条件。

keyword关键字字段

目前已经取代了"index": false（keyword字段不进行分词搜索）。

上边介绍的text文本字段在映射时要设置分词器，keyword字段为关键字字段，通常搜索keyword是按照【整体搜索】，所以创建keyword字段的索引时是不进行分词的，比如：邮政编码、手机号码、身份证等。

keyword字段通常用于过虑、排序、聚合等。

date日期类型

日期类型不用设置分词器。

通常日期类型的字段用于排序。

format：通过format设置日期格式

例子：

下边的设置允许date字段存储年月日时分秒、年月日及毫秒三种格式。

{
   "properties": {
         "timestamp": {
         "type":   "date",
         "format": "yyyy-MM-dd HH:mm:ss||yyyy-MM-dd"
        }
      }
}

插入测试文档：

Post book/doc/3 

{

"name": "spring开发基础",

"description": "spring 在java领域非常流行，java程序员都在用。",

"studymodel": "201001",

 "pic":"group1/M00/00/01/wKhlQFqO4MmAOP53AAAcwDwm6SU490.jpg",

 "timestamp":"2018-07-04 18:28:58"

}

数值类型

1、尽量选择范围小的类型，提高搜索效率

2、对于浮点数尽量用比例因子，比如一个价格字段，单位为元，我们将比例因子设置为100这在ES中会按分存储，映射如下：

"price": {
        "type": "scaled_float",
        "scaling_factor": 100
  },

由于比例因子为100，如果我们输入的价格是23.45 则ES中会将23.45乘以100存储在ES中。

如果输入的价格是23.456，ES会将23.456乘以100再取一个接近原始值的数，得出2346。

使用比例因子的好处是整型比浮点型更易压缩，节省磁盘空间。

如果比例因子不适合，则从下表选择范围小的去用：

更新已有映射，并插入文档：插入成功后再get这个数据看一下

PUT book/doc/3
{
"name": "spring开发基础",
"description": "spring 在java领域非常流行，java程序员都在用。",
"studymodel": "201001",
 "pic":"group1/M00/00/01/wKhlQFqO4MmAOP53AAAcwDwm6SU490.jpg",
 "timestamp":"2018-07-04 18:28:58",
 "price":38.6
}

8.8.3修改映射

只能创建index时手动建立mapping，或者新增field mapping，但是【不能update field mapping】。

因为已有数据按照映射早已分词存储好。如果修改，那这些存量数据怎么办？

所以如果修改mapping，es是会报错的。

8.8.4删除映射

通过删除索引来删除映射。

delete index

你可能感兴趣的:(elasticsearch,elasticsearch,java,大数据)

动态规划算法之背包问题详细解读（附带Java代码解读）南城花随雪。算法分析算法动态规划
动态规划中的背包问题（KnapsackProblem）是经典问题之一，通常用来解决选择一组物品放入背包使得背包的价值最大化的问题。根据问题条件的不同，背包问题有很多种变体，如0-1背包问题、完全背包问题、多重背包问题等。这里，我们详细介绍最经典的0-1背包问题，并提供代码的详细解读。1.0-1背包问题简介在0-1背包问题中，有一个容量为C的背包和n件物品。每件物品有两个属性：重量w[i]和价值v[
2-JavaObjectOriented Goinhn
Java面向对象设计类与对象、封装、构造方法类：是一组相关属性和行为的集合。可以看成是一类事物的模板，使用事物的属性特征和行为特征来描述该类事物。属性：就是该事物的状态信息。行为：就是该事物能够做什么。对象：是一类事物的具体体现。对象是类的一个实例，必然具备该类事物的属性和行为。类与对象的关系：类是对一类事物的描述，是抽象的。对象是一类事物的实例，是具体的。类是对象的模板，对象是类的实体。类的定义
python实验过程心得体会_web实训心得体会 weixin_39814378 python实验过程心得体会
篇一：JAVAWEB实训心得体会jsp+servlet+mysql论坛项目实训总结实训人：程路峰学号：11103303通过为期10天的实训，我学习了很多关于javaweb的知识。在老师的正确指导下，顺利的完成了我的实训内容。在此，也有同学的帮助，在他们的帮助下我也受益匪浅。最终，能顺利完成实训的任务也很高兴。在实训生活中，我了解开发项目的需求、设计、实现、确认以及维护等活动整个过程，让自己开始懂得
Android 利用OkHttp进行文件下载操作淼森007 Android基础
上回我的博客中讲了如何使用OkHttp封装一套自己的网路请求框架，这次说说文件下载。其实我们APP中还是很多地方会用到文件下载的。比如版本更新的时候，比如图片本地缓存的时候，都会用到文件下载，那么我们如何使用这个功能呢?首先我们要引入框架implementation'com.squareup.okhttp3:okhttp:3.6.0'接着创建类DownloadUtil.java，内容如下publi
Javaweb项目-调用接口-如何在服务器端跳转网页后显示并弹出对话框代码海海不掉头发 Java面试习题 Java基础 java
Webapp项目中在java包下新建一个服务端类使用JOptionPane框架组件调用showMessageDialog的方法实现四个参数null,"这是一个信息对话框","信息",JOptionPane.INFORMATION_MESSAGE还有确认对话框的代码showConfirmDialogpackageservlet;importjavafx.scene.control.Alert;imp
WebKit 简介及工作流程深度解析不知名靓仔 webkit chrome safari edge
WebKit是一个开源的浏览器引擎，最初由苹果公司为Safari浏览器开发，后来被多个浏览器和应用采纳，如早期的Chrome和众多移动平台上的浏览器。WebKit不仅仅是一个渲染引擎，它集成了HTML、CSS、JavaScript的解析与渲染能力，以及网络资源加载、图形处理、排版布局等功能，为用户提供丰富的网页浏览体验。本文将深入探讨WebKit的核心组件以及其复杂的工作流程。WebKit核心架构
Redis的incr命令引发的反序列化异常和ERR value is not an integer or out of range异常臣妾写不来啊 Java编码技巧 redis 数据库缓存
在Java中使用inc命令的时候发现redis中的值被反序列化后居然不是数字,检查后发现可能是序列化器没对,在redis配置的地方将序列化器设置为Jackson2JsonRedisSerializer后使用整成,贴上代码@Bean(name="RedisTemplate")@SuppressWarnings("all")publicRedisTemplateredisTemplate(RedisC
惊喜！万博智云亮相2024数博会和第三届828 B2B企业节万博智云OneProCloud 新闻资讯公司新闻华为云 HyperBDR云容灾数博会
摘要万博智云作为2024828B2B企业节铂金合作伙伴，在2024中国国际大数据产业博览会的828B2B企业节开幕式上亮相，并参加了本次828企业节的一系列活动，包括在华为展台现场开展的“‘云上大咖团’直面数博会现场”的直播上发表了主题分享。8月28日，由国家数据局主办、贵州省人民政府承办的2024中国国际大数据产业博览会（简称“2024数博会”）在贵州省贵阳市开幕。本届数博会以“数智共生：开创数
020 现代数据中心的路由与交换架构 Network_Engineer RS 网络网络安全计算机网络网络协议网络安全
引言现代数据中心的设计必须兼顾高性能、高可用性和灵活性，以满足云计算、大数据、人工智能等应用的需求。在这样的背景下，数据中心的路由与交换架构设计显得尤为重要。Spine-Leaf架构、BGP路由优化以及高密度虚拟化环境中的交换技术，成为了现代数据中心的关键组成部分。本篇博文将探讨这些技术的实际应用，并提供华为设备的配置示例。1.Spine-Leaf架构的设计与实施Spine-Leaf架构是一种扁平
Ubuntu 16.04安装Java JDK 一杯茶一本书
JavaJDK有两个版本，一个开源版本Openjdk，还有一个oracle官方版本jdk。下面记录在Ubuntu16.04上安装JavaJDK的步骤。安装openjdk的步骤更新软件包列表：sudoapt-getupdate安装openjdk-8-jdk：sudoapt-getinstallopenjdk-8-jdk查看java版本：java-version安装oracleJavaJDK首先，安装
非理工科院校怎么打好数学建模比赛 | 南川笔记南川笔记
Proposition1非理工科院校最好不要打数学建模比赛。虽说“一次建模，终身受益”，但毕竟数学建模既要数学理论的支撑（不仅仅是大学里的微积分、线性代数和概率论与统计，更多的是基于微积分的常偏微分方程、基于线性代数的运筹学和基于概率论与统计的统计分析内容），还要编程的支撑（不是常规的C语言或者Java程序，也不是这几年很火的Python编程，而是基于数值运算的Matlab和基于统计的R），这在一
javase笔记3----正则表达式芝奥小婷笔记
正则表达式简介正则表达式（RegularExpressions），是一个特殊的字符串，可以对普通的字符串进行校验检测等工作，校验一个字符串是否满足预设的规则。基本语法字符集合[]:表示匹配括号里的任意一个字符。[abc]:匹配a或者b或者c[^abc]:匹配任意一个字符，只要不是a,或b,或c就表示匹配成功[a-z]:表示匹配所有的小写字母的任意一个。[A-Za-z]:表示匹配所有的小写字母和大写
JavaScript对象 yeyang111
1.varfram={framer:'小明',dogs:["小兔","小猫"],field:[2,3,4]}六角学院截图.png2.向对象里边增加varfram={framer1:'小明',dogs:["小兔","小猫"],field:[2,3,4]}fram.framer2='小蕴'可以在控制台发现增加了一个0X7M8BN7.png3.像对象里边增加函数（方法）varfram={framer1:
Java中的分布式计算：如何在多节点环境中实现高效计算省赚客app开发者 java 开发语言
Java中的分布式计算：如何在多节点环境中实现高效计算大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！在现代计算中，分布式计算已成为处理大量数据和复杂计算任务的标准解决方案。通过将计算任务分散到多个节点上，可以显著提升计算性能和系统的可扩展性。本文将探讨如何在Java环境中实现高效的分布式计算，涵盖从基本概念到具体的技术实现和最佳实践。一、分布式计算基础分布式计算指的
标题：深入理解 JavaScript 中的定时器小刘| javascript 前端开发语言
目录一、定时器的基本概念1.setInterval2.setTimeout二、代码示例分析一、定时器的基本概念在JavaScript中，定时器是一种用于在特定时间间隔后执行代码或者重复执行代码的机制。主要包含两种类型的定时器：setInterval和setTimeout。1.setIntervalsetInterval()是一个周期函数，它会在指定的时间间隔后，重复执行指定的函数。例如：vari=
js函数eval() 温暖前端 javascript 前端开发语言
1.eval()函数简介eval()是JavaScript中的一个全局函数，它可以将传入的字符串当作JavaScript代码来执行。eval()函数的基本语法如下：eval(string)其中，string是要执行的JavaScript代码字符串。eval()函数会返回最后一个表达式的结果。2.eval()的工作原理当调用eval()函数时，JavaScript解释器会执行以下步骤：a.解析传入的
JavaScript之OOP基础概念学习总结一：scopes gaoshu883
这个系列的文章是去年在搭架完静态博客后撰写的（博客已经不再维护啦，哦还能访问）↓最近在探究JavaScript中的scopes概念。经过一番研究，我觉得要从Interpreter的角度，才能更好地理解这个概念。毕竟程序员主要是编写指令，而Interpreter则是把程序员编写的代码一行一行读下去并翻译出来（执行出来），最终结果就会直接反映在Web浏览器的页面上。不过还要注意的是，并不是所有的sco
Springboot 项目中引入WebSocket后，单元测试出现错误，前端开发揭秘杭州湾Java仔 2024年前端程序员 spring boot websocket 单元测试
java.lang.IllegalStateException:FailedtoloadApplicationContextatorg.springframework.test.context.cache.DefaultCacheAwareContextLoaderDelegate.loadContext(DefaultCacheAwareContextLoaderDelegate.java:12
Puppeteer Heap Snapshot: 探索JavaScript内存世界的利器金畏战Goddard
PuppeteerHeapSnapshot:探索JavaScript内存世界的利器puppeteer-heap-snapshotadriancooney/puppeteer-heap-snapshot:puppeteer-heap-snapshot是一个Node.js包，提供了通过Puppeteer获取浏览器内存堆快照的功能，以辅助JavaScript应用的内存泄漏检测和性能优化工作。项目地址:h
Puppeteer-Sign：自动化网页签名解决方案杭臣磊Sibley
Puppeteer-Sign：自动化网页签名解决方案项目简介是一个基于谷歌的Puppeteer库开发的工具，用于自动化处理网页表单的签名过程。它模拟了真实用户的交互行为，可以用于需要电子签名的各种场景，比如在线合同签署、文档审批等。项目以JavaScript编写，易于集成到Web应用或者CI/CD流程中。技术分析Puppeteer库Puppeteer是由GoogleChrome团队维护的一个Nod
Java开发常用类库白与微光
Java开发常用类库参考https://cloud.tencent.com/developer/article/1522665https://segmentfault.com/a/1190000039359549一、日志相关类库Log4j/Log4j2：Apache的一个开源项目，高度可配置Logback：开源日志组件JUL：JDK自带日志库，也就是java.util.loggingJCL：Jak
大厂Java面试题：MyBatis是如何进行分页的？分页插件的实现原理是什么？技术范王有志大厂Java面试题 mybatis java 面试后端
大家好，我是王有志。今天给大家带来的是一道来自京东的关于MyBatis实现分页功能的面试题：MyBatis是如何进行分页的？分页插件的实现原理是什么？通常，分页的方式可以分为两种：逻辑（内存）分页物理分页逻辑（内存）分页指的是数据库返回全部符合条件的数据，然后再通过程序代码对数据结果进行分页处理；物理分页指的是通过SQL语句查询，由数据库返回分页后的查询结果。逻辑（内存）分页和物理分页各有优缺点，
Java 上传读取Excel文件 Ben_1043556915 Java进阶 java servlet 开发语言
Web中導入Excel文件ExtJs前端代碼://=========上傳Excel=============================uploadPanel=newExt.form.FormPanel({fileUpload:true,id:'fileUploadForm',frame:true,labelAlign:'right',buttonAlign:'center',labelWid
调查了 12,000 名女性开发者发现，女性比男性更懂 Java！ Java架构学习者
华为的中国芯将何庭波这位神秘低调的程序媛推入公众视野。在华为地位堪比任正非的她在谈及“工程师”这一身份时表示，“我觉得工程师本身就是一个很不了的职业，这也是我一生的荣耀和自豪”。理工科行业的性别鄙视链由来已久，“女子本弱”论和对于有色人种的偏见一样扎根于各文化背景下。而放眼当下，年轻一代女性已经为进入科技行业做好了准备。“精英统治下，技能即一切”——程序媛arecoming！近日，HackerRa
java multipartfile读取文件 Picky酱 java 开发语言
使用JavaMultipartFile读取文件在Java中，我们经常需要处理文件上传和下载的操作。而Spring框架提供了MultipartFile接口来处理文件上传，通过这个接口我们可以方便地读取上传的文件内容。MultipartFile概述MultipartFile接口是Spring框架中用于处理文件上传的接口，它提供了一些方法来获取文件的信息和内容。通过MultipartFile接口，我们可
Java封装大华SDK，实现门禁一体机的常用功能香蕉i java 物联网
Java封装大华SDK，实现门禁人脸一体机的常用功能大华sdk的相关资料在网上很少，刚接触比较难上手，这里将本人近期的研究成果进行分享。从大华官网下载相应环境下的sdk：自定义开发的工具类，这里主要实现的功能有：//1、远程开门//openDoor();//2、开门记录//findAccessRecords();//3、指定数量查询人员信息//findUserInfos();//4、通过ID查询人
java中IO流详解一路向上的桃子学习资料 java
java中IO流详解转载：https://www.cnblogs.com/biehongli/p/6074713.html
Java Springboot MultipartFile 进行Excel文件解析，并返回list map 对象 - 工具类 VinfolHu java java spring boot excel
JavaSpringbootMultipartFile进行Excel文件解析，并返回listmap对象主要实现代码如下：importlombok.extern.slf4j.Slf4j;importorg.apache.poi.hssf.usermodel.HSSFWorkbook;importorg.apache.poi.ss.usermodel.CellType;importorg.apache
大语言模型为什么这么强？关键步骤是…… 青花科技语言模型人工智能自然语言处理
作者主页：青花锁简介：Java领域优质创作者、Java微服务架构公号作者简历模板、学习资料、面试题库、技术互助文末获取联系方式目录前言什么是大模型1.1、具备涌现能力1.2、多模态能力增强2、预训练往期热门专栏回顾前言研究人员发现，随着语言模型参数量的不断增加，模型完成各个任务的效果也得到不同程度的提升。什么是大模型大语言模型是指模型参数量超过一定规模的语言模型，相比参数量较小的预训练模型（如BE
Java-实现双向环形链表 Bro_cat 数据结构与算法链表数据结构 java 双向环形链表
双向链表是一种常用的数据结构，其特点是每个节点不仅包含数据，还持有指向前一个节点和后一个节点的指针。与普通双向链表不同的是，它的哨兵节点的prev指向最后一个元素，而最后一个元素的next指向哨兵。具体双向普通链表可以参考我的上篇文章，这里是传送门。什么是双向环形链表？双向环形链表不仅支持双向遍历，还形成一个闭合环，即最后一个节点的next指针指向链表的头部，第一个节点的prev指针指向链表的尾部
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n
【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析 bit1129 Stream
以如下代码为例（SocketInputDStream）： Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据
spark master web ui 端口8080被占用解决方法 daizj 8080 端口占用 spark master web ui
spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1，但为了可以控制到指定的端口，我们可以自行设置，修改方法： 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分
oracle_执行计划_谓词信息和数据获取周凡杨 oracle 执行计划
oracle_执行计划_谓词信息和数据获取(上) 一：简要说明在查看执行计划的信息中，经常会看到两个谓词filter和access，它们的区别是什么，理解了这两个词对我们解读Oracle的执行计划信息会有所帮助。简单说，执行计划如果显示是access，就表示这个谓词条件的值将会影响数据的访问路径（表还是索引），而filter表示谓词条件的值并不会影响数据访问路径，只起到
spring中datasource配置 g21121 dataSource
datasource配置有很多种，我介绍的一种是采用c3p0的，它的百科地址是： http://baike.baidu.com/view/920062.htm  <bean name="propertiesConfig" class="org.springframework.b
web报表工具FineReport使用中遇到的常见报错及解决办法（三）老A不折腾 finereport FAQ 报表软件
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、repeated column width is largerthan paper width：这个看这段话应该是很好理解的。比如做的模板页面宽度只能放
mysql 用户管理墙头上一根草 linux mysql user
1.新建用户 //登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’));//刷新系统权限表mysql>flush privileges;这样就创建了一个名为：
关于使用Spring导致c3p0数据库死锁问题 aijuans spring Spring 入门 Spring 实例 Spring3 Spring 教程
这个问题我实在是为整个 springsource 的员工蒙羞如果大家使用 spring 控制事务，使用 Open Session In View 模式， com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.
百度词库联想 annan211 百度
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title&g
int数据与byte之间的相互转换实现代码百合不是茶位移 int转byte byte转int 基本数据类型的实现
在BMP文件和文件压缩时需要用到的int与byte转换,现将理解的贴出来; 主要是要理解;位移等概念 http://baihe747.iteye.com/blog/2078029 int转byte; byte转int; /** * 字节转成int,int转成字节 * @author Administrator *
简单模拟实现数据库连接池 bijian1013 java thread java多线程简单模拟实现数据库连接池
简单模拟实现数据库连接池实例1： package com.bijian.thread; public class DB { //private static final int MAX_COUNT = 10; private static final DB instance = new DB(); private int count = 0; private i
一种基于Weblogic容器的鉴权设计 bijian1013 java weblogic
服务器对请求的鉴权可以在请求头中加Authorization之类的key，将用户名、密码保存到此key对应的value中，当然对于用户名、密码这种高机密的信息，应该对其进行加砂加密等，最简单的方法如下： String vuser_id = "weblogic"; String vuse
【RPC框架Hessian二】Hessian 对象序列化和反序列化 bit1129 hessian
任何一个对象从一个JVM传输到另一个JVM，都要经过序列化为二进制数据(或者字符串等其他格式，比如JSON)，然后在反序列化为Java对象，这最后都是通过二进制的数据在不同的JVM之间传输(一般是通过Socket和二进制的数据传输)，本文定义一个比较符合工作中。 1. 定义三个POJO Person类 package com.tom.hes
【Hadoop十四】Hadoop提供的脚本的功能 bit1129 hadoop
1. hadoop-daemon.sh 1.1 启动HDFS ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode 通过这种逐步启动的方式，比start-all.sh方式少了一个SecondaryNameNode进程，这不影响Hadoop的使用，其实在 Hadoop2.0中，SecondaryNa
中国互联网走在“灰度”上 ronin47 管理灰度
中国互联网走在“灰度”上（转）文/孕峰第一次听说灰度这个词，是任正非说新型管理者所需要的素质。第二次听说是来自马化腾。似乎其他人包括马云也用不同的语言说过类似的意思。灰度这个词所包含的意义和视野是广远的。要理解这个词，可能同样要用“灰度”的心态。灰度的反面，是规规矩矩，清清楚楚，泾渭分明，严谨条理，是决不妥协，不转弯，认死理。黑白分明不是灰度，像彩虹那样
java-51-输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。 bylijinnan java
public class PrintMatrixClockwisely { /** * Q51.输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。例如：如果输入如下矩阵： 1 2 3 4 5 6 7 8 9
mongoDB 用户管理开窍的石头 mongoDB用户管理
1:添加用户第一次设置用户需要进入admin数据库下设置超级用户（use admin） db.addUsr({user:'useName',pwd:'111111',roles:[readWrite,dbAdmin]}); 第一个参数用户的名字第二个参数
[游戏与生活]玩暗黑破坏神3的一些问题 comsci 生活
暗黑破坏神3是有史以来最让人激动的游戏。。。。但是有几个问题需要我们注意玩这个游戏的时间，每天不要超过一个小时，且每次玩游戏最好在白天结束游戏之后，最好在太阳下面来晒一下身上的暗黑气息，让自己恢复人的生气 &nb
java 二维数组如何存入数据库 cuiyadll java
using System; using System.Linq; using System.Text; using System.Windows.Forms; using System.Xml; using System.Xml.Serialization; using System.IO; namespace WindowsFormsApplication1 {
本地事务和全局事务Local Transaction and Global Transaction(JTA) darrenzhu java spring local global transaction
Configuring Spring and JTA without full Java EE http://spring.io/blog/2011/08/15/configuring-spring-and-jta-without-full-java-ee/ Spring doc -Transaction Management http://docs.spring.io/spri
Linux命令之alias - 设置命令的别名，让 Linux 命令更简练 dcj3sjt126com linux alias
用途说明设置命令的别名。在linux系统中如果命令太长又不符合用户的习惯，那么我们可以为它指定一个别名。虽然可以为命令建立“链接”解决长文件名的问题，但对于带命令行参数的命令，链接就无能为力了。而指定别名则可以解决此类所有问题【1】。常用别名来简化ssh登录【见示例三】，使长命令变短，使常用的长命令行变短，强制执行命令时询问等。常用参数格式：alias 格式：ali
yii2 restful web服务[格式响应] dcj3sjt126com PHP yii2
响应格式当处理一个 RESTful API 请求时，一个应用程序通常需要如下步骤来处理响应格式：确定可能影响响应格式的各种因素，例如媒介类型，语言，版本，等等。这个过程也被称为 content negotiation。资源对象转换为数组，如在 Resources 部分中所描述的。通过 [[yii\rest\Serializer]]
MongoDB索引调优（2）——[十] eksliang mongodb MongoDB索引优化
转载请出自出处：http://eksliang.iteye.com/blog/2178555 一、概述上一篇文档中也说明了，MongoDB的索引几乎与关系型数据库的索引一模一样，优化关系型数据库的技巧通用适合MongoDB，所有这里只讲MongoDB需要注意的地方二、索引内嵌文档可以在嵌套文档的键上建立索引，方式与正常
当滑动到顶部和底部时，实现Item的分离效果的ListView gundumw100 android
拉动ListView，Item之间的间距会变大，释放后恢复原样； package cn.tangdada.tangbang.widget; import android.annotation.TargetApi; import android.content.Context; import android.content.res.TypedArray; import andr
程序员用HTML5制作的爱心树表白动画 ini JavaScript jquery Web html5 css
体验效果：http://keleyi.com/keleyi/phtml/html5/31.htmHTML代码如下： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"><head><meta charset="UTF-8" > <ti
预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版 kakajw ThinkPad 预装改装 windows 7 windows 8
该教程具有普遍参考性，特别适用于联想的机器，其他品牌机器的处理过程也大同小异。该教程是个人多次尝试和总结的结果，实用性强，推荐给需要的人！缘由小弟最近入手笔记本ThinkPad T440，但是特别不能习惯笔记本出厂预装的Windows 8系统，而且厂商自作聪明地预装了一堆没用的应用软件，消耗不少的系统资源（本本的内存为4G，系统启动完成时，物理内存占用比
Nginx学习笔记 mcj8089 nginx
一、安装nginx 1、在nginx官方网站下载一个包，下载地址是： http://nginx.org/download/nginx-1.4.2.tar.gz 2、WinSCP(ftp上传工
mongodb 聚合查询每天论坛链接点击次数 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 18 */ { "_id" : ObjectId("5596414cbe4d73a327e50274"), "msgType" : "text", "sendTime" : ISODate("2015-07-03T08:01:16.000Z"
java术语（PO/POJO/VO/BO/DAO/DTO） Luob. DAO POJO DTO po VO BO
PO(persistant object) 持久对象在o/r 映射的时候出现的概念,如果没有o/r映射,就没有这个概念存在了.通常对应数据模型(数据库),本身还有部分业务逻辑的处理.可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合.PO中应该不包含任何对数据库的操作. VO(value object) 值对象通
算法复杂度 Wuaner Algorithm
Time Complexity & Big-O： http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o http://bigocheatsheet.com/ http://www.sitepoint.com/time-complexity-algorithms/