Lichee20

ElasticSearch基础-ES存储查询原理、倒排索引、脚本操作ES、分词器、ES JavaAPI

基础篇

1 初识ElasticSearch

先来认识一下ES的作用

应用案例：

1、课程管理服务将数据写到MySQL数据库
2、使用Logstash将MySQL数据库中的数据写到ES的索引库。
3、用户在前端搜索课程信息，请求到搜索服务。
4、搜索服务请求ES搜索课程信息。

1.1 基于数据库查询的问题

索引：就是数据的一个定位关系，用于快速查找相应的数据

1，在插入数据后添加索引

2，数据的维护会增强索引的维护工作量

3，索引不适合太多，查找索引本身也需要时间

4，索引本身也占存储空间

5，针对哪些列建索引：搜索时常作为查询条件的

1.2 倒排索引

倒排索引：将文档进行分词，形成词条和id的对应关系即为反向索引。

以唐诗为例，所处包含“前”的诗句

正向索引：由《静夜思》–>窗前明月光—>“前”字

反向索引：“前”字–>窗前明月光–>《静夜思》

反向索引的实现就是对诗句进行分词，分成单个的词，由词推据，即为反向索引

1.3 ES存储和查询的原理

index（索引）：相当于mysql的库

映射：相当于mysql 的表结构

document(文档)：相当于mysql的表中的数据

数据库查询存在的问题：

性能低：使用模糊查询，左边有通配符，不会走索引，会全表扫描，性能低
功能弱：如果以”华为手机“作为条件，查询不出来数据

1.4 ES概念详解

•ElasticSearch是一个基于Lucene的搜索服务器

•是一个分布式、高扩展、高实时的搜索与数据分析引擎

•基于RESTful web接口

•Elasticsearch是用Java语言开发的，并作为Apache许可条款下的开放源码发布，是一种流行的企业级搜索引擎

•官网：https://www.elastic.co/

应用场景

•搜索：海量数据的查询

•日志数据分析

•实时数据分析

* Lucene是apache软件基金会4 jakarta项目组的一个子项目，是一个开放源代码的全文检索引擎工具包，但它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，部分文本分析引擎（英文与德文两种西方语言）。Lucene的目的是为软件开发人员提供一个简单易用的工具包，以方便的在目标系统中实现全文检索的功能，或者是以此为基础建立起完整的全文检索引擎。Lucene是一套用于全文检索和搜寻的开源程式库，由Apache软件基金会支持和提供。Lucene提供了一个简单却强大的应用程式接口，能够做全文索引和搜寻

ElasticSearch和Mysql的区别

•MySQL有事务性,而ElasticSearch没有事务性,所以你删了的数据是无法恢复的。

•ElasticSearch没有物理外键这个特性,如果你的数据强一致性要求比较高,还是建议慎用

ElasticSearch和MySql分工不同，MySQL负责存储数据，ElasticSearch负责搜索数据。

2 安装ElasticSearch

2.1 ES安装

参见ElasticSearch安装：https://blog.csdn.net/weixin_45195665/article/details/110347173

进入ES目录启动：

cd /opt/elasticsearch-7.4.0/bin
nohup ./elasticsearch &

注：

nohup  保证在退出SSH客户端后程序能一直执行
& 表示后台执行

查看elastic是否启动

ps -ef|grep elastic

http://192.168.52.128:9200/

注：本人使用的是自己安装es虚拟机，固定IP为 192.168.52.128 虚拟机为centos7的64位系统。

服务其它相关操作命令： kibana服务同

1.查找ES进程
ps -ef | grep elastic

2.杀掉ES进程
kill -9 2382（进程号）

3.重启ES
sh elasticsearch -d

可以使用jps命令查看运行的进程，看看服务是否启动。

2.2 ES辅助工具安装

参见ElasticSearch辅助工具安装：https://blog.csdn.net/weixin_45195665/article/details/110347173

进入目录后台启动kibana

cd /opt/kibana-7.4.0-linux-x86_64/bin
nohup ./kibana --allow-root &

访问kibana： http://192.168.52.128:5601/

补充：

因为kibana是使用node.js写的，所以进程在node中。但是查找到的node进程不一定就是kibana的，所以还需要根据端口进一步确认，直接查看5601端口的占用情况，确定下进程ID，然后在查看下node进程的ID,如果一致，就可以确定该node进程就是kiban的进程了.

netstat -tunlp|grep 5601 查看端口占用情况
ps aux | grep node 查看node进程

3 ElasticSearch核心概念

索引（index）

ElasticSearch存储数据的地方，可以理解成关系型数据库中的数据库概念。

映射（mapping）

mapping定义了每个字段的类型、字段所使用的分词器等。相当于关系型数据库中的表结构。

文档（document）

Elasticsearch中的最小数据单元，常以json格式显示。一个document相当于关系型数据库中的一行数据。

倒排索引

一个倒排索引由文档中所有不重复词的列表构成，对于其中每个词，对应一个包含它的文档id列表。

类型（type）

一种type就像一类表。如用户表、角色表等。在Elasticsearch7.X默认type为_doc

 \- ES 5.x中一个index可以有多种type。
 
 \- ES 6.x中一个index只能有一种type。

 \- ES 7.x以后，将逐步移除type这个概念，现在的操作已经不再使用，默认_doc

4 脚本操作ES

4.1 RESTful风格介绍

1.REST（Representational State Transfer），表述性状态转移，是一组架构约束条件和原则。满足这些约束条件和原则的应用程序或设计就是RESTful。就是一种定义接口的规范。

2.基于HTTP。

3.使用XML格式定义或JSON格式定义。

4.每一个URI代表1种资源。

5.客户端使用GET、POST、PUT、DELETE 4个表示操作方式的动词对服务端资源进行操作：

GET：用来获取资源

POST：用来新建资源（也可以用于更新资源）

PUT：用来更新资源

DELETE：用来删除资源

4.2 操作索引

打开PostMan测试工具，使用restful风格的请求来进行相应的操作：

PUT

http://192.168.52.128:9200/索引名称

查询

GET http://192.168.52.128:9200/索引名称  # 查询单个索引信息
GET http://192.168.52.128:9200/索引名称1,索引名称2...  # 查询多个索引信息
GET http://192.168.52.128:9200/_all  # 查询所有索引信息

•删除索引

DELETE http://192.168.52.128:9200/索引名称

•关闭、打开索引

POST http://192.168.52.128:9200/索引名称/_close  
索引关闭后可以查看索引数据，但不能再往索引里添加数据

POST http://192.168.52.128:9200/索引名称/_open

4.3 ES数据类型

简单数据类型

字符串

聚合：相当于mysql 中的sum（求和）

text：会分词，不支持聚合  
keyword：不会分词，将全部内容作为一个词条，支持聚合

数值：long、integer、short、byte、double、float、half_float、scaled_float
布尔：boolean
二进制：binary
范围类型

integer_range, float_range, long_range, double_range, date_range

日期:date

复杂数据类型

•数组：[ ] Nested: nested (for arrays of JSON objects 数组类型的JSON对象)

•对象：{ } Object: object(for single JSON objects 单个JSON对象)

范围类型的应用案例：

# 映射定义
PUT example
PUT example/_mapping
{
  "properties": {
    "expectedAttendees":{
      "type": "integer_range"
    },
    "time": {
      "type": "date_range",
      "format": "yyyy-MM-dd HH:mm:ss||yyyy-MM-dd||epoch_millis"
    }
  }
}
# 数据新增
PUT example/112313213?refresh
{
    "expectedAttendees": {
        "gte": 10,
        "lte": 20
    },
    "time": {
        "gte": "2019-12-01 12:00:00",
        "lte": "2019-12-02 17:00:00"
    }
}
# 查询数据
GET example/_search
{
    "query": {
        "term": {
            "expectedAttendees": {
                "value": 12
            }
        }
    }
}

4.4 操作映射

使用kibana来进行操作演示：http://192.168.52.128:5601/

进入操作界面：

#创建索引 
PUT person
#查询索引
GET person
#添加映射  此时是根据己有的索引创建映射 ：前提是person必须已经创建，否则提示索引不存在
PUT /person/_mapping
{
    "properties":{
        "name":{
            "type":"text"
        },
        "age":{
            "type":"integer"
        }
    }
}

#创建索引并添加映射

#创建索引并添加映射 不能重复操作：提示索引己存在
PUT /person1
{
    "mappings": {
        "properties": {
            "name": {
                "type": "text"
            },
            "age": {
                "type": "integer"
            },
            "address":{
                "type": "text"
            }
        }
    }
}
#查询person1索引库的映射结构
GET person1/_mapping

添加字段

#添加字段
PUT /person1/_mapping
{
    "properties": {
        "name": {
            "type": "text"
        },
        "age": {
            "type": "integer"
        }
    }
}

注意：映射一旦创建，可以新增字段，不能去除己有字段，只能删除索引后重建

4.5 操作文档

•添加文档，指定id

POST /person1/_doc/2
{
    "name":"张三",
    "age":18,
    "address":"北京"
}

GET /person1/_doc/1

•添加文档，不指定id

#添加文档，不指定id  会自动分配一个唯的ID
POST /person1/_doc/
{
    "name":"张三",
    "age":18,
    "address":"北京"
}

#查询所有文档
GET /person1/_search

#删除指定id文档
DELETE /person1/_doc/1

5 分词器

5.1分词器-介绍

分词器（Analyzer）：将一段文本，按照一定逻辑，分析成多个词语的一种工具

如：华为手机 — > 华为、手、手机

ElasticSearch 内置分词器

•Standard Analyzer - 默认分词器，按词切分，小写处理

•Simple Analyzer - 按照非字母切分(符号被过滤), 小写处理

•Stop Analyzer - 小写处理，停用词过滤(the,a,is)

•Whitespace Analyzer - 按照空格切分，不转小写

•Keyword Analyzer - 不分词，直接将输入当作输出

•Patter Analyzer - 正则表达式，默认\W+(非字符分割)

•Language - 提供了30多种常见语言的分词器

IK分词器介绍：

•IKAnalyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包

•是一个基于Maven构建的项目

•具有60万字/秒的高速处理能力

•支持用户词典扩展定义

•下载地址：https://github.com/medcl/elasticsearch-analysis-ik/archive/v7.4.0.zip

5.2 ik分词器安装

参见 ik分词器安装：https://blog.csdn.net/weixin_45195665/article/details/110347321

5.3 ik分词器使用

IK分词器有两种分词模式：ik_max_word和ik_smart模式。

1、ik_max_word

会将文本做最细粒度的拆分，比如会将“乒乓球明年总冠军”拆分为“乒乓球、乒乓、球、明年、总冠军、冠军。

#方式一ik_max_word
GET /_analyze
{
    "analyzer": "ik_max_word",
    "text": "乒乓球明年总冠军"
}

ik_max_word分词器执行如下：

{
    "tokens" : [
        {
            "token" : "乒乓球",
            "start_offset" : 0,
            "end_offset" : 3,
            "type" : "CN_WORD",
            "position" : 0
        },
        {
            "token" : "乒乓",
            "start_offset" : 0,
            "end_offset" : 2,
            "type" : "CN_WORD",
            "position" : 1
        },
        {
            "token" : "球",
            "start_offset" : 2,
            "end_offset" : 3,
            "type" : "CN_CHAR",
            "position" : 2
        },
        {
            "token" : "明年",
            "start_offset" : 3,
            "end_offset" : 5,
            "type" : "CN_WORD",
            "position" : 3
        },
        {
            "token" : "总冠军",
            "start_offset" : 5,
            "end_offset" : 8,
            "type" : "CN_WORD",
            "position" : 4
        },
        {
            "token" : "冠军",
            "start_offset" : 6,
            "end_offset" : 8,
            "type" : "CN_WORD",
            "position" : 5
        }
    ]
}

2、ik_smart
会做最粗粒度的拆分，比如会将“乒乓球明年总冠军”拆分为乒乓球、明年、总冠军。

#方式二ik_smart
GET /_analyze
{
    "analyzer": "ik_smart",
    "text": "乒乓球明年总冠军"
}

ik_smart分词器执行如下：

{
    "tokens" : [
        {
            "token" : "乒乓球",
            "start_offset" : 0,
            "end_offset" : 3,
            "type" : "CN_WORD",
            "position" : 0
        },
        {
            "token" : "明年",
            "start_offset" : 3,
            "end_offset" : 5,
            "type" : "CN_WORD",
            "position" : 1
        },
        {
            "token" : "总冠军",
            "start_offset" : 5,
            "end_offset" : 8,
            "type" : "CN_WORD",
            "position" : 2
        }
    ]
}

由此可见使用ik_smart可以将文本"text": "乒乓球明年总冠军"分成了【乒乓球】【明年】【总冠军】

这样看的话，这样的分词效果达到了我们的要求。

小结：

ik_max_word：细粒度的分词
应用：在插入ES文档时，一般建议采用细粒度的分词，可以更容易被搜索到

ik_smart：粗粒度的分词
应用：对搜索的关键字进行分词时，建议采用粗粒度的分词，这样搜索的精确度更高

5.4 使用IK分词器-查询文档

•词条查询：term

词条查询不会分析查询条件，只有当词条和查询字符串完全匹配时才匹配搜索

•全文查询：match

全文查询会分析查询条件，先将查询条件进行分词，然后查询，求并集

1.创建索引，添加映射，并指定分词器为ik分词器

PUT person2
{
    "mappings": {
        "properties": {
            "name": {
                "type": "keyword"
            },
            "address": {
                "type": "text",
                "analyzer": "ik_max_word"
            }
        }
    }
}

2.添加文档

POST /person2/_doc/1
{
    "name":"张三",
    "age":18,
    "address":"北京海淀区"
}

POST /person2/_doc/2
{
    "name":"李四",
    "age":18,
    "address":"北京朝阳区"
}

POST /person2/_doc/3
{
    "name":"王五",
    "age":18,
    "address":"北京昌平区"
}

3.查询映射

GET person2

4.查看分词效果

GET _analyze
{
    "analyzer": "ik_max_word",
    "text": "北京海淀"
}

5.词条查询：term

查询person2中匹配到"北京"两字的词条：term 查询不会对查询条件进行分词，而作为一个整体来进行匹配

GET /person2/_search
{
    "query": {
        "term": {
            "address": {
                "value": "北京昌平"
            }
        }
    }
}

6.全文查询：match

全文查询会分析查询条件，先将查询条件进行分词，然后查询，求并集

GET /person2/_search
{
    "query": {
        "match": {
            "address":"北京昌平"
        }
    }
}

6 ElasticSearch JavaApi

6.1 SpringBoot整合ES

①搭建SpringBoot工程

②引入ElasticSearch相关坐标


<dependency>
    <groupId>org.elasticsearch.clientgroupId>
    <artifactId>elasticsearch-rest-high-level-clientartifactId>
    <version>7.4.0version>
dependency>
<dependency>
    <groupId>org.elasticsearch.clientgroupId>
    <artifactId>elasticsearch-rest-clientartifactId>
    <version>7.4.0version>
dependency>
<dependency>
    <groupId>org.elasticsearchgroupId>
    <artifactId>elasticsearchartifactId>
    <version>7.4.0version>
dependency>

③测试

ElasticSearchConfig

@Configuration
@ConfigurationProperties(prefix="elasticsearch")
public class ElasticSearchConfig {
    private String host;
    private int port;

    public String getHost() {
        return host;
    }

    public void setHost(String host) {
        this.host = host;
    }

    public int getPort() {
        return port;
    }

    public void setPort(int port) {
        this.port = port;
    }
    
    @Bean
    public RestHighLevelClient client(){
        return new RestHighLevelClient(RestClient.builder(
                new HttpHost(host,port,"http")
        ));
    }
}

ElasticsearchDay01ApplicationTests

注意：使用@Autowired注入RestHighLevelClient 如果报红线，则是因为配置类所在的包和测试类所在的包，包名不一致造成的，并不影响运行

@SpringBootTest
class ElasticsearchDay01ApplicationTests {
    @Autowired
    RestHighLevelClient client;

    /**
     * 测试
     */
    @Test
    void contextLoads() {
        System.out.println(client);
    }
}

6.2 创建索引

1.添加索引

   /**
    * 添加索引
    * @throws IOException
    */
   @Test
   public void addIndex() throws IOException {
       //1.使用client获取操作索引对象
       IndicesClient indices = client.indices();
       //2.具体操作获取返回值
       //2.1 设置索引名称
       CreateIndexRequest createIndexRequest=new CreateIndexRequest("lichee");

       CreateIndexResponse createIndexResponse = indices.create(createIndexRequest, RequestOptions.DEFAULT);
       //3.根据返回值判断结果
       System.out.println(createIndexResponse.isAcknowledged());
   }

2.添加索引，并添加映射

    /**
     * 添加索引，并添加映射
     */
    @Test
    public void addIndexAndMapping() throws IOException {
        //1.使用client获取操作索引对象
        IndicesClient indices = client.indices();
        //2.具体操作获取返回值
        //2.具体操作，获取返回值
        CreateIndexRequest createIndexRequest = new CreateIndexRequest("test");
        //2.1 设置mappings
        String mapping = "{\n" +
                "      \"properties\" : {\n" +
                "        \"address\" : {\n" +
                "          \"type\" : \"text\",\n" +
                "          \"analyzer\" : \"ik_max_word\"\n" +
                "        },\n" +
                "        \"age\" : {\n" +
                "          \"type\" : \"long\"\n" +
                "        },\n" +
                "        \"name\" : {\n" +
                "          \"type\" : \"keyword\"\n" +
                "        }\n" +
                "      }\n" +
                "    }";
        createIndexRequest.mapping(mapping,XContentType.JSON);

        CreateIndexResponse createIndexResponse = indices.create(createIndexRequest, RequestOptions.DEFAULT);
        //3.根据返回值判断结果
        System.out.println(createIndexResponse.isAcknowledged());
    }

RequestOptions说明：

RequestOptions：ES6.7.0增加了RequestOptions选项。可以通过它对请求进行更多自定义的配置，且不影响正常的Elasticsearch请求。RequestOptions.DEFAULT表示默认的基本配置。
例如：
private static final RequestOptions COMMON_OPTIONS;

static {
    RequestOptions.Builder builder = RequestOptions.DEFAULT.toBuilder();
    // 默认缓存限制为100MB，此处修改为30MB。
    builder.setHttpAsyncResponseConsumerFactory(
            new HttpAsyncResponseConsumerFactory
                    .HeapBufferedResponseConsumerFactory(30 * 1024 * 1024));
    COMMON_OPTIONS = builder.build();
}
//创建索引时引用上面构建的RequestOptions对象即可
CreateIndexResponse response = indicesClient.create(createRequest, COMMON_OPTIONS);

6.3 查询、删除、判断索引

查询索引

    /**
     * 查询索引
     */
    @Test
    public void queryIndex() throws IOException {
        IndicesClient indices = client.indices();
        GetIndexRequest getRequest=new GetIndexRequest("test");
        GetIndexResponse response = indices.get(getRequest, RequestOptions.DEFAULT);
        Map<String, MappingMetaData> mappings = response.getMappings();
        //iter 提示foreach
        for (String key : mappings.keySet()) {
            System.out.println(key+"==="+mappings.get(key).getSourceAsMap());
        }
    }

删除索引

	/**
     * 删除索引
     */
    @Test
    public void deleteIndex() throws IOException {
        IndicesClient indices = client.indices();
        DeleteIndexRequest deleteRequest=new DeleteIndexRequest("lichee");
        AcknowledgedResponse delete = indices.delete(deleteRequest, RequestOptions.DEFAULT);
        System.out.println(delete.isAcknowledged());
    }

索引是否存在

	/**
     * 索引是否存在
     */
    @Test
    public void existIndex() throws IOException {
        IndicesClient indices = client.indices();
        GetIndexRequest getIndexRequest=new GetIndexRequest("lichee");
        boolean exists = indices.exists(getIndexRequest, RequestOptions.DEFAULT);
        System.out.println(exists);
    }

6.4 添加文档

1.添加文档,使用map作为数据

@Test
public void addDoc1() throws IOException {
    Map<String, Object> map=new HashMap<>();
    map.put("name","张三");
    map.put("age","18");
    map.put("address","北京二环");
    IndexRequest request=new IndexRequest("test").id("1").source(map);
    IndexResponse response = client.index(request, RequestOptions.DEFAULT);
    System.out.println(response.getId());
}

2.添加文档,使用对象作为数据

@Test
public void addDoc2() throws IOException {
    Person person=new Person();
    person.setId("2");
    person.setName("李四");
    person.setAge(20);
    person.setAddress("北京三环");
    String data = JSON.toJSONString(person);
    IndexRequest request=new IndexRequest("test").id(person.getId()).source(data,XContentType.JSON);
    IndexResponse response = client.index(request, RequestOptions.DEFAULT);
    System.out.println(response.getId());
}

6.5 修改、查询、删除文档

1.修改文档：添加文档时，如果id存在则修改，id不存在则添加

    /**
     * 修改文档：添加文档时，如果id存在则修改，id不存在则添加
     */
    @Test
    public void UpdateDoc() throws IOException {
        Person person=new Person();
        person.setId("2");
        person.setName("李四");
        person.setAge(20);
        person.setAddress("北京三环车王");
        String data = JSON.toJSONString(person);

        IndexRequest request=new IndexRequest("test").id(person.getId()).source(data,XContentType.JSON);
        IndexResponse response = client.index(request, RequestOptions.DEFAULT);
        System.out.println(response.getId());
    }

2.根据id查询文档

    /**
     * 根据id查询文档
     */
    @Test
    public void getDoc() throws IOException {
        //设置查询的索引、文档
        GetRequest indexRequest=new GetRequest("test","2");
        GetResponse response = client.get(indexRequest, RequestOptions.DEFAULT);
        System.out.println(response.getSourceAsString());
    }

3.根据id删除文档

	/**
     * 根据id删除文档
     */
    @Test
    public void delDoc() throws IOException {
        //设置要删除的索引、文档
        DeleteRequest deleteRequest=new DeleteRequest("test","1");
        DeleteResponse response = client.delete(deleteRequest, RequestOptions.DEFAULT);
        System.out.println(response.getId());
    }

你可能感兴趣的:(ElasticSearch,elasticsearch,大数据,经验分享,程序人生)

DolphinScheduler × Jiron：打造高效智能的数据调度新生态 jiron开源平台开发 flink 大数据 hadoop hive sqoop spring cloud sentinel
JironGitHub地址https://github.com/642933588/jiron-cloudhttps://gitee.com/642933588/jiron-cloudDolphinScheduler×Jiron：打造高效智能的数据调度新生态DolphinScheduler是一个开源的分布式任务调度平台，专为大数据场景下的工作流调度和数据治理而设计。将DolphinSchedule
一种时序数据模式演化的跟踪与查询方法米朵儿技术屋智能科学与技术专栏分类学习数据挖掘
摘要在物联网与大数据应用蓬勃发展的背景下，各类感知设备产生海量的时序数据，设备管理软件版本的快速迭代导致时序数据的模式演化问题日益凸显.模式演化要求对数据模式进行版本管理，使数据进行模式变更时不产生信息损失，且支持对数据跨模式版本进行读写操作.结合流行的时序数据库管理系统，调研总结了各类数据库管理系统对模式演化的支持情况，对时序数据及其模式进行了形式化表述，对其模式演化的过程进行了分析，设计了一种
FPGA在高速数据采集系统中的应用！！！ FPGA资料库 fpga开发 fpga verilog 物联网 stm32
FPGA（现场可编程门阵列）在高速数据采集系统中的应用非常广泛，主要得益于其并行处理能力、可编程性和高速接口特性。以下是FPGA在高速数据采集系统中的详细应用，以及一些具体例子：1.应用背景高速数据采集系统通常用于需要高采样率和大数据量处理的场合，如雷达信号处理、医疗成像、高速通信等。FPGA因其独特的硬件架构，能够有效处理高速数据流，因此在这些系统中扮演着关键角色。2.应用内容2.1数据采集接口
Mysql数据库和Sql语句 Jessica小戴数据库 mysql sql
数据库管理：sql语句：数据库用来增删改查的语句（重要）备份：数据库的数据进行备份主从复制、读写分离、高可用（重要）Mysql数据库和Sql语句一、Mysql数据库1、数据库：组织、存储、管理数据的仓库2、数据库的管理系统（DBMS）：实现对数据有效组织、管理和存取的系统软件3、数据库软件：mysql、oracle（大数据系统一般使用、大企业使用）、sql-server、MariaDB也是mysq
洞见数据未来，StarRocks Summit Asia 2024 即将启幕！人工智能data
在AI时代，我们需要怎样的数据基础软件？数据量和数据类型的需求飞速上涨，我们不仅需要将历史上各种基础设施中的数据进行分析使用，还要关注性能、灵活性、性价比，以及确保单一可信数据源。这一切构成了当前大数据领域的核心难题。今年12月，StarRocksSummitAsia重磅启动！作为年度数据盛会，我们将从用户、平台方、业务领袖和技术极客等不同视角展开交流，携手共建未来的数据解决方案。本届峰会，我们将
国产海光CPU平台兼容性指南-基础软件分册-20231013（附各系统下载链接）技术瘾君子1573 服务器&存储服务器兼容列表海光 CPU 云计算大数据操作系统
目录声明一、操作系统二、虚拟化和云2.1虚拟化和云2.2虚拟机上的操作系统2.2.1VMwarevSphere上的虚拟机操作系统2.2.2KVM上的虚拟机操作系统2.2.3WindowsHyper-V上的虚拟机操作系统2.2.4VirtualBox上的虚拟机操作系统三、分布式存储四、数据库五、中间件六、大数据七、平台组件7.1云平台7.2大数据平台7.3人工智能平台7.4科学与工程计算平台八、其它
【Elasticsearch 实战应用】 wenshao.du elasticsearch
Elasticsearch实战应用在现代企业技术架构中，Elasticsearch因其出色的性能、可扩展性和易用性，成为了处理大规模数据和构建搜索引擎的首选工具。本文将通过一个实际案例，详细讲解如何在SpringBoot项目中集成Elasticsearch，进行数据索引、搜索、聚合分析等操作。1.Elasticsearch简介Elasticsearch是一个基于ApacheLucene构建的开源分
数据驱动销售预测的未来：ScriptEcho赋能高效决策前端
在瞬息万变的商业环境中，准确的销售预测是企业制定有效销售策略、实现业绩增长的基石。传统的销售预测方法往往依赖于人工分析和复杂的电子表格，效率低下，难以应对市场变化的快速冲击。然而，随着大数据的兴起和人工智能技术的飞速发展，数据驱动决策正成为现代企业提升竞争力的关键。本文将探讨销售预测面临的挑战与机遇，并重点介绍ScriptEcho如何通过AI赋能，提升销售预测的准确性和效率，助力企业实现数据驱动增
在Linux中修改vm.max_map_count参数的步骤行路见知 linux 运维
使用docker安装es时报错，Elasticsearch需要更多的虚拟内存区域ERROR:[1]bootstrapchecksfailed.Youmustaddressthepointsdescribedinthefollowing[1]linesbeforestartingElasticsearch.bootstrapcheckfailure[1]of[1]:maxvirtualmemorya
【Elasticsearch集群】轻松部署 Elasticsearch：8.0 集群库洛王子 Elasticsearch elasticsearch jenkins 大数据
概要一文教你轻松掌握Elasticsearch：8.0+集群部署，JDK17+环境准备准备3台centos服务器:192.168.0.10、192.168.0.11、192.168.0.121、更新系统yumupdate2、安装jdkElasticsearch8.x要求JDK17。JDK17是当前的LTS版本，建议使用它来运行Elasticsearch8.x以获得最佳性能和安全支持。(步骤略)4、
minio免费文件管理器（windows版本），若依RuoYi-Vue-Plus框架使用，有需要的可以下载，因为官网下载特别慢程序员WANG 工具 windows vue.js 容器
MinIO是一款开源的对象存储系统，它提供类似AmazonS3的云存储服务，适用于各种规模的企业。MinIO设计为高性能、安全且易于使用，适合存储大量的非结构化数据，如图片、文档、视频以及大数据分析中的日志文件等。在本案例中，我们关注的是Windows版本的MinIO，它被集成到了若依RuoYi-Vue-Plus框架中，以实现文件管理功能。若依RuoYi-Vue-Plus是一个基于Vue.js的现
分布式系统理论基础二-CAP 王知无(import_bigdata)
GitHub：https://github.com/wangzhiwubigdata/God-Of-BigData关注公众号,内推,面试,资源下载,关注更多大数据技术~大数据成神之路~预计更新500+篇文章，已经更新50+篇~引言CAP是分布式系统、特别是分布式存储领域中被讨论最多的理论，“什么是CAP定理？”在Quora分布式系统分类下排名FAQ的No.1。CAP在程序员中也有较广的普及，它不仅
大数据湖仓一体架构未来思考王知无(import_bigdata) 架构
湖仓一体架构是最近1-2年时间开始频繁出现在数据开发领域的新名词。也是各大公司竞相投入的对象。网络上关于湖仓一体架构的实践文章很多，看得也很眼花缭乱。我们今天站在一个「接地气」的角度，来说一说湖仓一体架构中未来需要关注的核心框架有哪些。文章内容也没有经过仔细的斟酌，完全是一点不成熟的想法，而且站的角度不是高屋建瓴的而是从下往上的。一个基本判断是湖仓一体架构在形式上不止一种大家可以从网上看到很多关于
Elasticsearch 中的节点（比如共 20 个），其中的10 个选了一个 master，另外 10 个选了另一个 master，怎么办？思维导图代码示例（java 架构) 用心去追梦 elasticsearch java 架构
在Elasticsearch中，如果出现集群分裂（Split-brain）的情况，即一部分节点选举了一个Master节点，而另一部分节点选举了另一个Master节点，这会导致数据不一致和集群不可用。Elasticsearch通过配置discovery.seed_hosts和cluster.initial_master_nodes参数来避免这种情况，并确保有足够的节点参与选举以达成共识。为了防止Sp
大数据是什么？用浅显的语言揭开神秘面纱 Echo_Wish 大数据大数据单例模式
大数据是什么？用浅显的语言揭开神秘面纱在我们生活的时代，“大数据”已经从一个技术术语，成为了街头巷尾时常听到的词汇。然而，究竟什么是大数据？它离我们有多远？我们该如何理解这个复杂又常用的概念？作为一名深耕大数据领域的创作者，我希望用通俗易懂的语言，结合生活实例和代码，为大家揭开大数据的神秘面纱。一、大数据的定义：比“大”更重要的是“复杂性”从广义上讲，大数据指的是无法通过传统手段高效处理的数据集合
在 Python 中使用 Ollama API 一路追寻大模型 Python Ollama LLM linux python
在Python中使用OllamaAPI在本文中，我们将简单介绍如何在Python中使用OllamaAPI。无论你是想进行简单的聊天对话、使用流式响应处理大数据、还是希望在本地进行模型的创建、复制、删除等操作，本文都可以为你提供指导。此外，我们还展示了如何使用自定义客户端和异步编程来优化你的应用程序性能，环境准备在开始使用Python与OllamaAPI交互之前，请确保您的开发环境满足以下条件：Py
AI与API的融合：构建智能互联技术世界的基石 IT数据V+I7809804594 人工智能数据分析 python 爬虫大数据
在当今科技飞速发展的时代，人工智能（AI）与应用程序接口（API）的融合正在开启智能应用的新纪元。AI以其强大的数据处理和分析能力，正在改变各行各业的工作方式，而API则作为连接技术与应用的桥梁，为AI技术的普及和应用提供了无限可能。本文将深入探讨AI与API的融合如何推动智能应用的创新和发展，以及其在各个领域的应用和前景。一、AI与API融合的背景随着大数据、云计算、物联网等技术的快速发展，人工
ElasticSearch索引别名的应用 elasticsearch
个人博客：无奈何杨（wnhyang）个人语雀：wnhyang共享语雀：在线知识共享Github：wnhyang-OverviewElasticsearch索引别名是一种极为灵活且强大的功能，它允许用户为一个或多个索引创建逻辑上的别名。这些别名用途广泛，涵盖查询、索引操作以及索引管理等多个方面。以下为一些常见的索引别名应用场景：简化查询通过创建别名，用户能够以更简洁的名称访问一个或多个索引。例如，若
Hadoop 和 Spark 的内存管理机制分析王子良. 经验分享 hadoop spark 大数据
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
2025最新大数据毕业设计选题汇总：创新课题推荐 HaiLang_IT 毕业设计选题大数据毕业设计 python
目录前言毕设选题开题指导建议更多精选选题选题帮助最后前言大家好,这里是海浪学长毕设专题!大四是整个大学期间最忙碌的时光，一边要忙着准备考研、考公、考教资或者实习为毕业后面临的升学就业做准备,一边要为毕业设计耗费大量精力。学长给大家整理了大数据专业最新精选选题，如遇选题困难或选题有任何疑问，都可以问学长哦(见文末)!对毕设有任何疑问都可以问学长哦!更多选题指导:最新最全计算机专业毕设选题精选推荐汇总
PL/SQL语言的文件操作云端架构师包罗万象 golang 开发语言后端
PL/SQL语言的文件操作引言PL/SQL（ProceduralLanguage/SQL）是Oracle数据库提供的一种过程化编程语言，它结合了SQL的强大数据处理能力和过程性编程的灵活性。PL/SQL不仅可以用于数据库的操作和处理用户输入的数据，还可以进行丰富的文件操作。随着数据量的增加和信息处理需求的提高，掌握PL/SQL中的文件操作技术，对于数据库管理员和开发人员而言，显得尤为重要。本文将对
试试 Elasticsearch 的 unsigned_long（qbit） elasticsearch整数
前言本文在Elasticsearch7.17下测试Elasticsearch自7.10引入了64位无符号整数unsigned_long，之前只有long已知long的数据范围[-2^63,2^63-1]即[-9223372036854775808,9223372036854775807]已知unsigned_long的数据范围[0,2^64-1]即[0,18446744073709551615]试
Elasticsearch 8.x 重要变化（qbit）
前言本文记录的重要变化重要与否为qbit个人判断官方Releasenotes：https://www.elastic.co/guide/en/elasticsearch/reference/curre...收费功能查看：ElasticStacksubscriptions回顾：向量搜索创新的时间线8.0(2022-02-11)What’snewin8.0默认启用安全特性（Securityfeatur
大数据学习（五）：如何使用 Livy提交spark批量任务--转载 zuoseve01 livy
Livy是一个开源的REST接口，用于与Spark进行交互，它同时支持提交执行代码段和完整的程序。Livy封装了spark-submit并支持远端执行。启动服务器执行以下命令，启动livy服务器。./bin/livy-server这里假设spark使用yarn模式，所以所有文件路径都默认位于HDFS中。如果是本地开发模式的话，直接使用本地文件即可（注意必须配置livy.conf文件，设置livy.
Spark Livy 指南及livy部署访问实践 house.zhang 大数据-Spark 大数据
背景：ApacheSpark是一个比较流行的大数据框架、广泛运用于数据处理、数据分析、机器学习中，它提供了两种方式进行数据处理，一是交互式处理：比如用户使用spark-shell，编写交互式代码编译成spark作业提交到集群上去执行；二是批处理，通过spark-submit提交打包好的spark应用jar到集群中进行执行。这两种运行方式都需要安装spark客户端配置好yarn集群信息，并打通集群网
大数据学习（四）：Livy的安装配置及pyspark的会话执行猪笨是念来过倒大数据 pyspark
一个基于Spark的开源REST服务，它能够通过REST的方式将代码片段或是序列化的二进制代码提交到Spark集群中去执行。它提供了以下这些基本功能：提交Scala、Python或是R代码片段到远端的Spark集群上执行；提交Java、Scala、Python所编写的Spark作业到远端的Spark集群上执行；提交批处理应用在集群中运行。从Livy所提供的基本功能可以看到Livy涵盖了原生Spar
学英语学技术：Elasticsearch 线程池学会了没 elasticsearch 大数据搜索引擎
单词汉语意思音标allocate分配/ˈæləˌkeɪt/coordination协调/koʊˌɔːrdɪˈneɪʃn/deprecated废弃的/ˈdɛprəˌkeɪtɪd/elasticsearch弹性搜索（专有名词）/ˌɛlɪkˈsɜːrtʃ/execute执行/ˈɛksɪˌkjuːt/generic通用的/dʒəˈnɛrɪk/initial初始的/ɪˈnɪʃəl/metadata元数据/ˈ
网络爬虫——分布式爬虫架构好看资源分享网络爬虫 Python 爬虫分布式架构
分布式爬虫在现代大数据采集中是不可或缺的一部分。随着互联网信息量的爆炸性增长，单机爬虫在性能、效率和稳定性上都面临巨大的挑战。分布式爬虫通过任务分发、多节点协作以及结果整合，成为解决大规模数据抓取任务的核心手段。本节将从Scrapy框架的基本使用、Scrapy-Redis的分布式实现、分布式爬虫的优化策略等多个方面展开，结合实际案例，帮助开发者掌握分布式爬虫的设计与实现。1.Scrapy框架的核心
后端开发面试自我介绍_后端开发面试经验 - 共93条真实后端开发面试经验分享 - 职业圈... weixin_39815329 后端开发面试自我介绍
面试过程：1面试首先问你对技术的理解是怎样的谈谈价值观方面的问题，比较抽象，我理解这种问题就跟你说让你做个自我介绍，问你你平时读什么书，有什么爱好这种问题类似，一方面热热场，打开话匣子，另一方面看你谈些什么技术，如果你用的技术跟公司的相似那么就就着这个问题往下问，如果你聊的不沾边，后面基本上可以不问了。总之一方面聊一些积极向上的内容，另外聊一些跟公司技术贴边的技术。2谈谈你的项目我就把我以前参与的
Python-玩转数据-数据分析之分析思维人猿宇宙数据分析 python big data
一、说明当下时代的社会生产发展，人们都开始习惯于用数据来说明某个观点和反映事物的内在规律或享用自动化和人工智能带来的便利。但这些轻松快捷的方便背后，都是相关工作者的专业流程作为源源不断的支撑。二、大数据思维自从几年前大数据开始兴起，大数据思维已经逐渐被更动的人接受，随着其进一步发展，产生了巨大的生产效果。三、数据驱动的生产力作为一个数据工程师，仅仅知道跑数据是不够的，还需要通过数据发现生产环节出现
多线程编程之理财周凡杨 java 多线程生产者消费者理财
现实生活中，我们一边工作，一边消费，正常情况下会把多余的钱存起来，比如存到余额宝，还可以多挣点钱，现在就有这个情况：我每月可以发工资20000万元（暂定每月的1号），每月消费5000（租房+生活费）元（暂定每月的1号），其中租金是大头占90%，交房租的方式可以选择（一月一交，两月一交、三月一交），理财：1万元存余额宝一天可以赚1元钱，
[Zookeeper学习笔记之三]Zookeeper会话超时机制 bit1129 zookeeper
首先，会话超时是由Zookeeper服务端通知客户端会话已经超时，客户端不能自行决定会话已经超时，不过客户端可以通过调用Zookeeper.close()主动的发起会话结束请求，如下的代码输出内容 Created /zoo-739160015 CONNECTEDCONNECTED .............CONNECTEDCONNECTED CONNECTEDCLOSEDCLOSED
SecureCRT快捷键 daizj secureCRT 快捷键
ctrl + a : 移动光标到行首ctrl + e ：移动光标到行尾crtl + b: 光标前移1个字符crtl + f: 光标后移1个字符crtl + h : 删除光标之前的一个字符ctrl + d ：删除光标之后的一个字符crtl + k ：删除光标到行尾所有字符crtl + u : 删除光标至行首所有字符crtl + w: 删除光标至行首
Java 子类与父类这间的转换周凡杨 java 父类与子类的转换
最近同事调的一个服务报错，查看后是日期之间转换出的问题。代码里是把 java.sql.Date 类型的对象强制转换为 java.sql.Timestamp 类型的对象。报java.lang.ClassCastException。代码：
可视化swing界面编辑朱辉辉33 eclipse swing
今天发现了一个WindowBuilder插件，功能好强大，啊哈哈，从此告别手动编辑swing界面代码，直接像VB那样编辑界面，代码会自动生成。首先在Eclipse中点击help，选择Install New Software,然后在Work with中输入WindowBui
web报表工具FineReport常用函数的用法总结（文本函数）老A不折腾 finereport web报表工具报表软件 java报表
文本函数 CHAR CHAR(number):根据指定数字返回对应的字符。CHAR函数可将计算机其他类型的数字代码转换为字符。 Number:用于指定字符的数字，介于1Number:用于指定字符的数字，介于165535之间（包括1和65535）。示例: CHAR(88)等于“X”。 CHAR(45)等于“-”。 CODE CODE(text):计算文本串中第一个字
mysql安装出错林鹤霄 mysql安装
[root@localhost ~]# rpm -ivh MySQL-server-5.5.24-1.linux2.6.x86_64.rpm Preparing... #####################
linux下编译libuv aigo libuv
下载最新版本的libuv源码，解压后执行： ./autogen.sh 这时会提醒找不到automake命令，通过一下命令执行安装（redhat系用yum，Debian系用apt-get）： # yum -y install automake # yum -y install libtool 如果提示错误：make: *** No targe
中国行政区数据及三级联动菜单 alxw4616
近期做项目需要三级联动菜单,上网查了半天竟然没有发现一个能直接用的! 呵呵,都要自己填数据....我了个去这东西麻烦就麻烦的数据上. 哎,自己没办法动手写吧. 现将这些数据共享出了,以方便大家.嗯,代码也可以直接使用文件说明 lib\area.sql -- 县及县以上行政区划分代码（截止2013年8月31日)来源：国家统计局发布时间：2014-01-17 15:0
哈夫曼加密文件百合不是茶哈夫曼压缩哈夫曼加密二叉树
在上一篇介绍过哈夫曼编码的基础知识,下面就直接介绍使用哈夫曼编码怎么来做文件加密或者压缩与解压的软件,对于新手来是有点难度的,主要还是要理清楚步骤; 加密步骤: 1,统计文件中字节出现的次数,作为权值 2,创建节点和哈夫曼树 3,得到每个子节点01串 4,使用哈夫曼编码表示每个字节
JDK1.5 Cyclicbarrier实例 bijian1013 java thread java多线程 Cyclicbarrier
CyclicBarrier类一个同步辅助类，它允许一组线程互相等待，直到到达某个公共屏障点 (common barrier point)。在涉及一组固定大小的线程的程序中，这些线程必须不时地互相等待，此时 CyclicBarrier 很有用。因为该 barrier 在释放等待线程后可以重用，所以称它为循环的 barrier。 CyclicBarrier支持一个可选的 Runnable 命令，
九项重要的职业规划 bijian1013 工作学习
一. 学习的步伐不停止古人说，活到老，学到老。终身学习应该是您的座右铭。世界在不断变化，每个人都在寻找各自的事业途径。您只有保证了足够的技能储
【Java范型四】范型方法 bit1129 java
范型参数不仅仅可以用于类型的声明上，例如 package com.tom.lang.generics; import java.util.List; public class Generics<T> { private T value; public Generics(T value) { this.value =
【Hadoop十三】HDFS Java API基本操作 bit1129 hadoop
package com.examples.hadoop; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FileStatus; import org.apache.hadoo
ua实现split字符串分隔 ronin47 lua split
LUA并不象其它许多"大而全"的语言那样，包括很多功能，比如网络通讯、图形界面等。但是LUA可以很容易地被扩展：由宿主语言(通常是C或 C++)提供这些功能，LUA可以使用它们，就像是本来就内置的功能一样。LUA只包括一个精简的核心和最基本的库。这使得LUA体积小、启动速度快，从而适合嵌入在别的程序里。因此在lua中并没有其他语言那样多的系统函数。习惯了其他语言的字符串分割函
java-从先序遍历和中序遍历重建二叉树 bylijinnan java
public class BuildTreePreOrderInOrder { /** * Build Binary Tree from PreOrder and InOrder * _______7______ / \ __10__ ___2 / \ / 4
openfire开发指南《连接和登陆》开窍的石头 openfire 开发指南 smack
第一步官网下载smack.jar包下载地址：http://www.igniterealtime.org/downloads/index.jsp#smack 第二步把smack里边的jar导入你新建的java项目中开始编写smack连接openfire代码 p
[移动通讯]手机后盖应该按需要能够随时开启 comsci 移动
看到新的手机，很多由金属材质做的外壳，内存和闪存容量越来越大，CPU速度越来越快，对于这些改进，我们非常高兴，也非常欢迎但是，对于手机的新设计，有几点我们也要注意第一：手机的后盖应该能够被用户自行取下来，手机的电池的可更换性应该是必须保留的设计,
20款国外知名的php开源cms系统 cuiyadll cms
内容管理系统，简称CMS，是一种简易的发布和管理新闻的程序。用户可以在后端管理系统中发布，编辑和删除文章，即使您不需要懂得HTML和其他脚本语言，这就是CMS的优点。在这里我决定介绍20款目前国外市面上最流行的开源的PHP内容管理系统，以便没有PHP知识的读者也可以通过国外内容管理系统建立自己的网站。 1. Wordpress WordPress的是一个功能强大且易于使用的内容管
Java生成全局唯一标识符 darrenzhu java uuid unique identifier id
How to generate a globally unique identifier in Java http://stackoverflow.com/questions/21536572/generate-unique-id-in-java-to-label-groups-of-related-entries-in-a-log http://stackoverflow
php安装模块检测是否已安装过, 使用的SQL语句 dcj3sjt126com sql
SHOW [FULL] TABLES [FROM db_name] [LIKE 'pattern'] SHOW TABLES列举了给定数据库中的非TEMPORARY表。您也可以使用mysqlshow db_name命令得到此清单。本命令也列举数据库中的其它视图。支持FULL修改符，这样SHOW FULL TABLES就可以显示第二个输出列。对于一个表，第二列的值为BASE T
5天学会一种 web 开发框架 dcj3sjt126com Web 框架 framework
web framework层出不穷，特别是ruby/python,各有10+个,php/java也是一大堆根据我自己的经验写了一个to do list,按照这个清单，一条一条的学习，事半功倍，很快就能掌握一共25条，即便很磨蹭，2小时也能搞定一条，25*2=50。只需要50小时就能掌握任意一种web框架各类web框架大同小异:现代web开发框架的6大元素，把握主线，就不会迷路建议把本文
Gson使用三(Map集合的处理,一对多处理) eksliang json gson Gson map Gson 集合处理
转载请出自出处：http://eksliang.iteye.com/blog/2175532 一、概述 Map保存的是键值对的形式，Json的格式也是键值对的，所以正常情况下，map跟json之间的转换应当是理所当然的事情。二、Map参考实例 package com.ickes.json; import java.lang.refl
cordova实现“再点击一次退出”效果 gundumw100 android
基本的写法如下： document.addEventListener("deviceready", onDeviceReady, false); function onDeviceReady() { //navigator.splashscreen.hide(); document.addEventListener("b
openldap configuration leaning note iwindyforest configuration
hostname // to display the computer name hostname <changed name> // to change go to: /etc/sysconfig/network, add/modify HOSTNAME=NEWNAME to change permenately dont forget to change /etc/hosts
Nullability and Objective-C 啸笑天 Objective-C
https://developer.apple.com/swift/blog/?id=25 http://www.cocoachina.com/ios/20150601/11989.html http://blog.csdn.net/zhangao0086/article/details/44409913 http://blog.sunnyxx
jsp中实现参数隐藏的两种方法 macroli JavaScript jsp
在一个JSP页面有一个链接，//确定是一个链接?点击弹出一个页面，需要传给这个页面一些参数。//正常的方法是设置弹出页面的src="***.do?p1=aaa&p2=bbb&p3=ccc"//确定目标URL是Action来处理?但是这样会在页面上看到传过来的参数，可能会不安全。要求实现src="***.do"，参数通过其他方法传！//////
Bootstrap A标签关闭modal并打开新的链接解决方案 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
Bootstrap里面的js modal控件使用起来很方便，关闭也很简单。只需添加标签 data-dismiss="modal" 即可。可是偏偏有时候需要a标签既要关闭modal，有要打开新的链接，尝试多种方法未果。只好使用原始js来控制。 <a href="#/group-buy" class="btn bt
二维数组在Java和C中的区别流淚的芥末 java c 二维数组数组
Java代码： public class test03 { public static void main(String[] args) { int[][] a = {{1},{2,3},{4,5,6}}; System.out.println(a[0][1]); } } 运行结果： Exception in thread "mai
systemctl命令用法 wmlJava linux systemctl
对比表，以 apache / httpd 为例任务旧指令新指令使某服务自动启动 chkconfig --level 3 httpd on systemctl enable httpd.service 使某服务不自动启动 chkconfig --level 3 httpd off systemctl disable httpd.service 检查服务状态 service h