爱做梦的锤子

Elasticsearch基础——概念和基本API操作

Elasticsearch 版本为 7.1.0 ，本文的讲解都是基于该版本
文章中Elasticsearch将使用简称ES代替

一、基本概念

文档——Document

ES是面向文档的搜索，文档是ES所有可搜索数据的最小单元。在ES中文档会被序列化成json格式进行保存，每个文档都会有一个Unique ID，这个ID可以有用户在创建文档的时候指定，在用户未指定时则由ES自己生成。

在ES中一个文档所包含的元数据如下：

_index：文档所属索引名称
_type：文档所属类型名
_id：文档唯一ID
_version：文档的版本信息
_seq_no：Shard级别严格递增的顺序号，保证后写入文档的_seq_no大于先写入文档的_seq_no
_primary_term：主分片发生重分配时递增1，主要用来恢复数据时处理当多个文档的_seq_no一样时的冲突
_score：相关性评分，在进行文档搜索时，根据该结果与搜索关键词的相关性进行评分
_source：文档的原始JSON数据

ES中一个文档的栗子如下：


{
  "_index" : "user",
  "_type" : "_doc",
  "_id" : "2",
  "_version" : 1,
  "_seq_no" : 3,
  "_primary_term" : 1,
  "found" : true,
  "_source" : {
    "username" : "dream-hammer",
    "message" : "爱做梦的锤子13",
    "test" : "测试"
  }
}

上面举栗子的文档是直接使用文档id获取的，所有没有相关性评分。
从ES 7.0 版本开始一个索引只能设置一个Type，ES官方说明是：最开始设计和使用类型的初衷是在与 Lucene 不兼容的单个索引中提供多租户，但是在实际使用中，事实证明，使用类型带来的问题比解决的问题还多，所以从7.0开始弃用了接受类型的 API，引入了新的无类型 API，并移除了对 default 映射的支持，从8.0开始将移除接受类型的 API。具体的说明可以参照官方说明《告别类型。迎接无类型》(点击打开)

索引——Index

索引这个词可以有两个理解名词和动词。当作名词使用时，就是指存在的实体，体现的是一种逻辑空间概念。当动词使用时通常代表一种动作，也可以理解为“建立索引”这个动作的简略说法。

在ES中索引（名词）是一类文档的集合，是文档的容器，通常索引是由两部分构成：Mapping和Setting。Mapping
定义该索引包含的文档的数据结构的信息；Setting定义了该索引的数据分布信息

节点——Node

在ES服务中，一个ES实例，本质上是一个Java进程，每个ES实例可以承担不同的工作内容，ES的实例我们可以称之为节点，当一个节点承担某项工作内容时，就可以称这个节点为xxx节点。ES中一个节点可以承担多种功能，每个节点都有一个名字和一个UID，节点名称可以通过配置文件指定，或者在启动ES实例时使用命令参数的方式：-E node.name='节点名'来指定，节点的UID是保存在实例的data目录下。

在一个ES的集群中包含着多个ES的节点，往往每个节点所扮演的角色也不尽相同，ES的节点类型主要包含以下几类：

Master-eligible Node

每个节点启动后，默认是一个 Master-eligible 节点，Master-eligible的节点可参加选主流程，成为Master节点，通过配置项 node.master:falase 可以禁用节点的Master-eligible职责，禁止后当前节点就不会参加选主流程

Master Node

ES集群中虽然每个节点都保存了集群状态，但是只有Master节点才有修改集群状态的权限，集群状态包括：集群中节点信息、所有索引和其相关的Mapping和Setting信息、分片的路由信息。在集群启动时，第一个启动的Master-eligible节点会将自己选举为主节点。

Data Node

保存数据的节点，负责保存分片数据，对数据扩展有重要作用

Coordinating Node

负责接受Client请求，将请求分发到合适的节点获取响应后，将结果最终汇集在一起，每个节点默认都有Coordinating节点的职责

Machine Learning Node

负责运行机器学习的Job，用来做异常检测

Ingest Node

数据预处理的节点，支持Pipeline管道设置，可以使用Ingest对数据进行过滤、转换等操作

每个ES节点可以承担多个职责，具体配置如下：

Master-eligible节点配置：node.master，默认值是true
Data节点配置：node.data，默认值是true
Ingest节点配置：node.ingest 默认值是true
Machine Learning节点配置：node.ml 在enable X-pack的前提下默认是true
Coordinating节点配置：无需配置每个节点都是Coordinating节点

分片——Shard

由于单台机器的存储能力是有限的，所以为了解决数据水平扩展问题ES使用了分片的设计。在这个设计中定义了两种分片类型：主分片（Primary Shard）和副本分片（Replica Shard），主要功能如下

主分片 Primary Shard

主分片用于解决数据水平拓展问题，在ES中可以将一个索引中的数据切分为多个分片，分布在多台服务器上存储,这样单个索引数据的拓展就不会受到单机存储容量的限制。
同时让搜索和分析等操作分布到多台服务器上去执行，吞吐量和性能也得到提升。
每个主分片都是一个lucene实例，是一个最小工作单元，它承载部分数据，具有建立索引和处理请求的能力。主分片数在创建索引的时候就需要指定，后续不可再修改，在ES 7.0版本之前一个索引的默认主分片是5，从ES 7.0 开始索引的默认主分片数量改为了1

副本分片 Replica Shard

副本分片用于保证数据服务的高可用。一个索引的多个分片分布在不同的机器上存储，当一个服务器宕机后，就会造成该索引分片数据丢失，因此ES也设计了分片的副本机制。
一个分片可以创建多个副本，副本分片的数量也可以动态调整，副本分片可以在主分片故障时提供备用服务，保证数据安全，同时设置合理个数的副本分片还可以提升搜索的吞吐量和性能。

分片设定的问题

主分片数设置过小

后续无法通过增加节点实现水平拓展

单个分片数据量太大，数据重分配慢

主分片数设置过大

影响搜索的准确性

单个节点上分片过多，浪费资源和性能

二、文档基本操作

Create

1.POST {index_name}/_doc {data}

index_name：指定索引名称
data：要存储的数据

创建文档时自动生成文档id，若指定的索引不存在，则创建索引

示例：


POST user/_doc
{
  "username" : "dream-hammer",
  "message" : "爱做梦的锤子"
}

2.PUT {index_name}/_doc/{id}?op_type=create {data}

index_name：指定索引名称
id：指定文档id
data：要存储的数据

创建新文档使用指定的文档id，若id已存在，则报错，若指定的索引不存在，则创建索引

示例：


PUT user/_doc/1?op_type=create
{
  "username" : "dream-hammer",
  "message" : "爱做梦的锤子"
}

3.PUT {index_name}/_create/{id} {data}

index_name：指定索引名称
id：指定文档id
data：要存储的数据

创建新文档使用指定的文档id，若id已存在，则报错，若指定的索引不存在，则创建索引


PUT user/_create/1
{
  "username" : "dream-hammer",
  "message" : "爱做梦的锤子"
}

Read

1.GET {index_name}/_doc/{id}

index_name：指定索引名称
id：指定文档id

获取指定索引下的指定id的文档

示例：


GET user/_doc/1

Update

1.PUT {index_name}/_doc/{id} {data}

index_name：指定索引名称
id：指定文档id
data：要更新的数据

先删除指定id的文档数据，再将当前数据写入，指定id文档不存在时，则插入当前数据，与创建文档的第二种方式对比，当有op_type=create时，就是创建文档

示例：


PUT user/_create/1
{
  "username-new" : "dream-hammer"
}

2.POST {index_name}/_update/{id} {data}

index_name：指定索引名称
id：指定文档id
data：要更新的数据

将更新数据与指定id的文档原始数据进行合并更新，若指定id文档不存在，则报错

示例：


POST user/_update/1
{
  "doc":{
    "message" : "爱做梦的锤子update",
    "test":"测试"
  }
}

Delete

1.DELETE {index_name}/_doc/{id}

index_name：指定索引名称
id：指定文档id

删除指定id的文档

示例：


DELETE user/_doc/3

批量操作

_buik

请求格式如下：


POST _bulk
{operation:{"_index":"{index_name}","_id":"10"}}
{ data}
{operation:{"_index":"{index_name}","_id":"10"}}
{ data}
... ...

operation：操作类型
index_name：指定索引名称
id：指定文档id
data：操作数据，当操作没有不需要数据时，可以不写

一次请求可以指定多个索引进行多种操作，每个操作都有自己的返回码，各个操作之间的成功与否不相互影响

示例：


POST _bulk
{ "index" : { "_index" : "user", "_id" : "1" } }
{ "username" : "爱做梦的锤子1" }
{ "delete" : { "_index" : "user", "_id" : "1" } }
{ "create" : { "_index" : "user", "_id" : "2" } }
{ "username" : "爱做梦的锤子2" }
{ "update" : {"_index" : "user"，"_id" : "1"} }
{ "doc" : {"username" : "爱做梦的锤子update"} }

_mget

方式一

请求格式如下：


GET /_mget
{
    "docs" : [
        {
            "_index" : {index_name},
            "_id" : {id}
        },
        {
            "_index" : {index_name},
            "_id" : {id}
        },
        ... ...
    ]
}

index_name：指定索引名称
id：指定文档id

一次请求get到指定的多个索引的多个id的文档


GET _mget
{
  "docs":[
    {
      "_index":"user",
      "_id":"1"
    },
        {
      "_index":"movies",
      "_id":"1163"
    }
  ]
}

方式二

请求格式如下：


GET {index_name}/_mget
{
    "docs" : [
        {
            "_id" : {id}
        },
        {
            "_id" : {id}
        },
        ... ...
    ]
}

index_name：指定索引名称
id：指定文档id

一次请求get到一个指定索引下的多个id的文档

示例：


GET user/_mget
{
  "docs":[
    {
      "_id":"1"
    },
    {
      "_id":"2"
    }
  ]
}

_msearch

方式一

请求格式如下：


POST _msearch
{"index":{index_name}}
{搜索表达式}
{"index":{index_name}}
{搜索表达式}
... ...

index_name：指定索引

一次性请求对多个索引进行查询操作

示例：


POST _msearch
{"index":"user"}
{"query" : {"match_all" : {}},"size":1}
{"index":"movies"}
{"query" : {"match_all" : {}},"size":2}

方式二

请求格式如下：


POST {index_name1}/_msearch
{}
{搜索表达式}
{"index":{index_name2}}
{搜索表达式}
... ...

index_name1：指定的默认索引
index_name2：指定的特定索引

一次性请求对多个索引进行查询操作，在请求的Url中包含了一个默认索引，在请求体中如果不指定索引名称，则就使用搜索表达式搜索默认索引

示例：


POST user/_msearch
{}
{"query" : {"match_all" : {}},"size":1}
{"index":"movies"}
{"query" : {"match_all" : {}},"size":2}
{}
{"query" : {"match_all" : {}},"size":1}

**总结：**读完本文，对ES的基本概念，就会有个基本认识，同时也可以尝试自己去操作一下ES，掌握ES的基础API

个人公众号【爱做梦的锤子】，全网同id，个站 http://te-amo.site，欢迎关注，里面会分享更多有用知识，还有我的私密照片

觉得不错就点个赞叭QAQ

你可能感兴趣的:(Elasticsearch,大数据)

es6.7.1分词器ik插件安装-和head插件连接es特殊配置运维实战课程 jenkins 运维
es6.7.1分词器ik插件安装-和head插件连接es特殊配置如果对运维课程感兴趣，可以在b站上、A站或csdn上搜索我的账号：运维实战课程，可以关注我，学习更多免费的运维实战技术视频1.查看es6.7.1和es-head安装位置和es插件路径[root@verify-10-100-4-4data]#dockerps|grepes4f0fe4db0ca9elasticsearch-head:6.
大数据开发的底层逻辑是什么？瑰茵大数据
大数据开发的底层逻辑主要围绕数据的生命周期进行，包括数据的采集、存储、处理、分析和可视化等环节。以下是大数据开发的一些关键底层逻辑：数据采集：目的：从不同的数据源（如日志文件、数据库、传感器等）收集数据。方法：使用数据采集工具（如ApacheFlume、ApacheKafka、ApacheSqoop）来捕获和传输数据。数据存储：目的：将收集到的数据存储在可靠且可扩展的存储系统中。方法：使用分布式文
AI智能获客工具的意义是什么雪叶雨林 AI 行业资讯人工智能
在当今竞争激烈的市场环境中，企业需要高效、精准的获客策略来维持增长和竞争力。AI智能获客工具的出现，为企业提供了一种全新的解决方案，通过自动化和智能化手段提高获客效率和质量。一、AI智能获客工具的核心价值1.1提高获客效率AI智能获客工具通过自动化流程，如自动筛选潜在客户、自动发送营销信息等，大幅减少了人力投入和时间成本，从而提高了获客效率。1.2精准定位潜在客户利用机器学习和大数据分析技术，AI
大数据和智能数据应用架构系列教程之：大数据与人工智能 AI天才研究院 AI实战大数据AI人工智能 Python实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术1.背景介绍概述“大数据”是指海量、高维、多样化的数据集合。随着人类对数据处理和管理的需求越来越复杂，越来越依赖机器学习、人工智能等新兴技术。在过去的一段时间里，越来越多的人开始关注到“大数据”这一颗龙头。如今，“大数据”已经成为一个新的名词，它既包含了大量的数据，也带来了巨大的价值。因此，研究、开发、应用“大数据”技术也逐渐成为各行各业的专业人才需求。在这个快速发展的
Scala在大数据和分布式计算领域的应用与优势夜色呦 scala 大数据开发语言
大数据和分布式计算是当今信息技术领域的热点话题，它们处理着海量数据并需要高效的计算能力。Scala，作为一种多范式编程语言，因其在并发编程和函数式编程方面的优势，成为大数据和分布式计算领域的理想选择。本文将探讨Scala在这些领域的应用，并分析其带来的优势。1.大数据和分布式计算的挑战在大数据时代，数据量呈指数级增长，传统的数据处理方法已经无法满足需求。分布式计算提供了一种解决方案，通过在多个物理
图文详解 MapReduce on YARN Shockang 大数据技术体系大数据 mapreduce yarn
前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系正文权威版本——《Hadoop权威指南第3版》1.作业提交MRrunJob从RM获取新的作业ID作业客户端检査作业的输出说明，计算输入分片并将作业资源(包括作业JAR、配置和分片信息)复制到HDFS。通过调用R
360大数据面试题及参考答案大模型大数据攻城狮大数据数据治理 jvm内存 CAS 数据开发指标开发数据分析
数据清理有哪些方法？数据清理是指发现并纠正数据文件中可识别的错误，包括检查数据一致性，处理无效值和缺失值等。常见的数据清理方法有以下几种：去重处理：数据中可能存在重复的记录，这不仅会占用存储空间，还可能影响分析结果。通过对比每条记录的关键属性，若所有关键属性值都相同，则判定为重复记录，可保留其中一条，删除其余重复项。例如在客户信息表中，若有两条记录客户姓名、联系方式、地址等关键信息都一样，就可进行
【Elasticsearch】_rollover API详解 risc123456 Elasticsearch elasticsearch
解释POSTlogs-foo-bar/_rollover在Elasticsearch中，POSTlogs-foo-bar/_rollover是一个API调用，用于触发索引的滚动操作。滚动操作允许您在索引达到一定大小或时间限制时，自动将写入操作切换到一个新的索引，同时保留旧索引的数据。这个操作通常用于管理时间序列数据，例如日志数据，以避免单个索引变得过大。滚动操作的工作原理创建索引模板：首先，您需要
【elasticsearch】如何更新许可证（License） risc123456 Elasticsearch elasticsearch jenkins 大数据
在Elasticsearch中，**许可证（License）**用于控制集群的功能和权限。Elasticsearch提供了多种许可证类型，包括**Basic（免费）**、**Trial（试用）**和**订阅许可证（如Gold、Platinum、Enterprise）**。如果你需要更新或更改许可证，可以按照以下步骤操作。---##1.**查看当前许可证**在更新许可证之前，可以先查看当前集群的许可
大数据小白系列——YARN(1) weixin_44386638 大数据大数据人工智能机器学习数据挖掘数据分析
这是大数据小白系列，YARN的第一篇，准确的说是介绍YARN的“前身”，即MapReduce第一版(下称MRv1)中的资源管理系统。之前准备忽略这部分的内容，毕竟MRv1已经过时了，但为方便后续介绍YARN，这里还是(并不深入地)讲一讲。Q:为什么需要一个资源管理系统？A:在一个具有成百上千节点的集群上(这很常见)，资源管理十分重要，一个好的资源管理系统可以充分发挥各节点的能力，避免一些节点忙碌，
【Elasticsearch】中数据流需要配置索引模板吗？ risc123456 Elasticsearch elasticsearch jenkins 大数据
是的，数据流需要配置索引模板。在Elasticsearch中，数据流（DataStreams）是一种用于处理时间序列数据的高级结构，它背后由多个隐藏的索引组成，这些索引被称为后备索引（BackingIndices）。索引模板（IndexTemplates）用于定义这些后备索引的结构和设置。为什么数据流需要配置索引模板？自动管理后备索引：数据流会自动创建和管理多个后备索引，每个后备索引存储数据流的一
TaskManager的JVM OOM退出配置艾丽丝的爱情 jvm 大数据
在大数据领域中，TaskManager是执行并行任务的关键组件之一。它负责管理任务的执行和资源分配。在处理大规模数据时，内存管理是一个重要的考虑因素。当TaskManager的Java虚拟机（JVM）遇到内存不足的情况时，可以通过配置相应的参数来控制其行为。本文将介绍如何配置TaskManager的JVM，以便在OOM（内存溢出）发生时退出。OOM（OutofMemory）是指在程序运行过程中，J
JVM垃圾回收器的原理和调优详解！喵手零基础学Java jvm
全文目录：开篇语前言摘要概述垃圾回收器分类及原理1.Serial垃圾回收器2.Parallel垃圾回收器3.CMS垃圾回收器4.G1垃圾回收器源码解析示例代码使用案例分享案例1：Web服务的GC调优案例2：大数据任务的GC优化应用场景案例垃圾回收调优策略优缺点分析优点缺点核心类方法介绍测试用例小结总结文末开篇语哈喽，各位小伙伴们，你们好呀，我是喵手。运营社区：C站/掘金/腾讯云/阿里云/华为云/5
EmEditort v24.5.3世界上最快的文本编辑器 jiamianAA 经验分享电脑
下载：https://pan.quark.cn/s/16d827576a06EmEditor–支持大文件和Unicode的最佳Windows文本编辑器。号称世界上最快的文本编辑器！EmEditor是一款快速，轻巧，可扩展，使用方便的Windows代码编辑器。支持宏，Unicode，代码段插件，还能处理大数据以及CSV文件，无需Excel，堪称最强CSV编辑器。软件自带简体中文，支持32位和64位版
Crawl4AI：用几行代码打造强大的网页爬虫海豹工匠爬虫
Crawl4AI：用几行代码打造强大的网页爬虫在人工智能和大数据时代，数据的获取和处理变得尤为重要。尤其是在大型语言模型（LLM）的研究和应用中，如何高效地抓取和整理网络数据成为了一个关键的挑战。为了解决这一问题，一个名为Crawl4AI的开源网页爬虫工具应运而生，它专为LLM优化，提供了一种简单易用且功能强大的数据抓取解决方案。什么是Crawl4AI？Crawl4AI是一个基于LLM的开源网页爬
【Elasticsearch】index:false risc123456 Elasticsearch elasticsearch
在Elasticsearch中，`index`参数用于控制是否对某个字段建立索引。当设置`index:false`时，意味着该字段不会被编入倒排索引中，因此不能直接用于搜索查询。然而，这并不意味着该字段完全不可访问或没有其他用途。以下是关于`index:false`的详细解释：###含义-**不建立倒排索引**：将`index`设置为`false`表示不对这个字段的内容建立倒排索引。这意味着你不能
ELK日志分析系统 AWAKE-HU 服务器 elk 日志分布式
什么是ELK:Elasticsearch:基于lucene的开源分布式搜索服务器(类似于solr)特点:分布式,零配置,分片索引,restful风格,多数据源logStash收集日志,过滤分析,并存储Kibana用于展示日志和分析结果ELK原理多个服务器的情况下,各个服务器都会产生不同服务器下不同路径的log文件如果每一台服务器都有一个filebeat把路径下的日志传输给统一的logstash日志
大数据技术之MapReduce wespten Hadoop Hive Spark 大数据安全大数据 mapreduce hadoop
一、MapReduce概述1、MapReduce简介MapReduce是一个分布式运算程序的编程框架，是基于Hadoop的数据分析计算的核心框架。MapReduce处理过程分为两个阶段：Map和Reduce。Map负责把一个任务分解成多个任务，Reduce负责把分解后多任务处理的结果汇总。2、MapReduce优缺点MapReduce优点：MapReduce易于编程：它简单的实现一些接口，就可以完
非凸科技荣登脉脉2024“年度职得去雇主”榜单招聘
近日，2024脉脉MAX年度职场力量盛典暨年度“职得去”公司颁奖典礼在深圳举行，非凸科技受邀出席盛会并荣登脉脉2024“年度职得去雇主”榜单。本届评选依据脉脉独有的“雇主指数”以及专家评审意见综合评选而出，综合考量了企业在脉脉社区广场、同事圈、行业圈等多个频道口碑，并基于职场大数据训练的专属大模型，客观反映企业在职场人心中的口碑。非凸科技获此殊荣，也意味着在发展前景、工作氛围、薪酬福利等方面极具竞
2024第五届全球数字经济产业大会：前沿技术引领未来 javascript
随着数字化浪潮的不断推进，全球数字经济产业大会已成为展示最新技术成果和探讨未来发展趋势的重要平台。2024年8月，第五届全球数字经济产业大会在深圳会展中心盛大召开，汇聚了全球顶尖的科技企业和行业领袖，共同探讨和展示数字经济领域的最新技术成果与发展趋势。云计算与大数据云计算和大数据技术作为数字经济的基石，一直是大会的焦点。本届大会上，众多企业展示了他们在云计算平台的创新和大数据应用方面的最新进展。通
anaconda中pyspark_自学大数据——9 Anaconda安装与使用pyspark 步六孤陆
首先从Anaconda官网上下载Anaconda。一、解压安装包sudobashAnaconda3-2020.07-Linux-x86_64.shchown-Rhadoop:hadoop/opt/anaconda/vi/etc/profileexportANACONDA_HOME=/opt/anacondaexportPATH=$PATH:$ANACONDA_HOME/bin:source/etc
2022-02-09大数据学习日志——PySpark——Spark快速入门&Standalone集群王络不稳定 spark big data 大数据
第一部分Spark快速入门01_Spark快速入门【Anaconda软件安装】[掌握]使用Python编写Spark代码，首先需要安装Python语言包，此时安装Anaconda科学数据分析包。Anaconda指的是一个开源的Python发行版本，其包含了conda、Python等180多个科学包及其依赖项。Anaconda是跨平台的，有Windows、MacOS、Linux版本。#下载地址：ht
搜索中间件 KIBANA 思维导图-java架构代码示例用心去追梦中间件 java 架构
Kibana是一个开源的数据可视化和探索工具，主要用于在Elasticsearch中存储的数据上进行图形化展示、数据探索、日志分析等。它与Elasticsearch紧密集成，是ElasticStack（ELKStack）的一部分，通常与Logstash和Beats一起使用来构建完整的日志和数据分析管道。思维导图概览Kibana简介定义与作用优势与应用场景架构设计核心组件（Discover,Visu
大数据之Spark运行流程「已注销」 Spark 大数据 spark hadoop
文章目录前言（一）SparkOnYarn集群的Client模式运行流程（二）SparkOnYarn集群的Cluster模式运行流程总结前言上篇文章有讨论到SparkOnYarn的两种部署模式，如果有不清楚的地方，可以再看看，附上对应文章的链接：Spark的部署模式，本篇文章主要讨论SparkOnYarn两种部署模式的运行流程。（一）SparkOnYarn集群的Client模式运行流程该模式的Dri
R语言学习笔记6-数据框 Colin♛ r语言学习笔记开发语言信息可视化
R语言学习笔记6-数据框数据框(DataFrame)介绍数据框用途创建数据框从矩阵创建数据框索引和切片添加和修改列数据框的预处理数据框的排序数据框的筛选处理缺失值应用函数处理数据重塑数据框使用dplyr进行数据框的管道操作数据框的时间序列操作大数据框的处理数据框的绘图数据框的文本处理数据框的连接与关联按行或列连接数据框按键值关联数据框数据框的条件处理与逻辑操作条件筛选逻辑操作数据框的汇总与统计分析
华为OD机试C卷-- 精准核酸检测（Java & JS & Python & C）飞码创造者华为OD机试题库华为od c语言 java javascript python
获取题库不需要订阅专栏，可直接私信我进入CSDN领军人物top1博主的华为OD交流圈观看完整题库、最新面试实况、考试报告等内容以及大佬一对一答疑。题目描述为了达到新冠疫情精准防控的需要，为了避免全员核酸检测带来的浪费，需要精准圈定可能被感染的人群。现在根据传染病流调以及大数据分析，得到了每个人之间在时间、空间上是否存在轨迹交叉。现在给定一组确诊人员编号（X1,X2,X3,…,Xn），在所有人当中，
matlab大数据计算技巧（持续更新中） tina_lulu_21 matlab matlab string 存储
在matlab中，当数据比较大时，运算起来就困难了，有时候还会outofmemory（例如4000*4000的矩阵，要算矩阵乘法都比较吃力）。此文会记录我学到的一些解决办法：1.将数据的存储类型从double转换成single在matlab中double数据类型占8个字节，single类型占4个字节。把数据类型从double类型转换成single类型可以节省一半的空间。单精度浮点数single的取
Matlab：读取和处理大数据表格文本文件追逐程序梦想者 matlab 大数据开发语言
Matlab：读取和处理大数据表格文本文件在实际的数据分析应用中，往往需要处理海量数据。针对大型数据文件，Matlab提供了快速高效的读取和处理工具，可以便捷地完成数据处理任务。本文将介绍如何使用Matlab读取和处理大型表格文本文件。第一步：读取数据文件Matlab内置了readtable函数，可以便捷地读取各种格式的表格数据文件。对于大型数据文件，我们可以采取分块读取的方式，提高运行效率。下面
赛事 Q＆A × 培训预告：2024 年（第 17 届）中国大学生计算机设计大赛大数据主题赛正式开赛！ ModelWhale 中国大学生计算机设计大赛大数据人工智能编程竞赛
中国大学生计算机设计大赛（下简称“大赛”）是由教育部认证、我国面向高校本科生最早的赛事之一，自2008年开赛起，至今已是第十七届。大赛属于全国普通高校大学生竞赛排行榜榜单赛事，始终贯彻“以赛促学、以赛促教、以赛促创”，为国家培养全面发展的创新型、复合型、应用型人才。大赛下设不同领域的十一个大类，和鲸科技自2021年起，连续四年作为大数据应用大类中大数据主题赛的协办方倾力配合大赛组委会与各承办单位，
大数据StarRocks(六) ：Catalog_starroccks支持oracle外部表了吗(1) 2401_84181975 程序员大数据 oracle 数据库
StarRocks自2.3版本起支持Catalog（数据目录）功能，实现在一套系统内同时维护内、外部数据，方便您轻松访问并查询存储在各类外部源的数据。1.基本概念内部数据：指保存在StarRocks中的数据。外部数据：指保存在外部数据源（如ApacheHive™、ApacheIceberg、ApacheHudi、DeltaLake、JDBC）中的数据。2.Catalog当前StarRocks提供两
SAX解析xml文件小猪猪08 xml
1.创建SAXParserFactory实例 2.通过SAXParserFactory对象获取SAXParser实例 3.创建一个类SAXParserHander继续DefaultHandler，并且实例化这个类 4.SAXParser实例的parse来获取文件 public static void main(String[] args) { //
为什么mysql里的ibdata1文件不断的增长？ brotherlamp linux linux运维 linux资料 linux视频 linux运维自学
我们在 Percona 支持栏目经常收到关于 MySQL 的 ibdata1 文件的这个问题。当监控服务器发送一个关于 MySQL 服务器存储的报警时，恐慌就开始了 —— 就是说磁盘快要满了。一番调查后你意识到大多数地盘空间被 InnoDB 的共享表空间 ibdata1 使用。而你已经启用了 innodbfileper_table，所以问题是： ibdata1存了什么？当你启用了 i
Quartz-quartz.properties配置 eksliang quartz
其实Quartz JAR文件的org.quartz包下就包含了一个quartz.properties属性配置文件并提供了默认设置。如果需要调整默认配置，可以在类路径下建立一个新的quartz.properties，它将自动被Quartz加载并覆盖默认的设置。下面是这些默认值的解释 #-----集群的配置 org.quartz.scheduler.instanceName =
informatica session的使用 18289753290 workflow session log Informatica
如果希望workflow存储最近20次的log，在session里的Config Object设置，log options做配置，save session log :sessions run ;savesessio log for these runs:20 session下面的source 里面有个tracing
Scrapy抓取网页时出现CRC check failed 0x471e6e9a != 0x7c07b839L的错误酷的飞上天空 scrapy
Scrapy版本0.14.4 出现问题现象： ERROR: Error downloading <GET http://xxxxx CRC check failed 解决方法 1.设置网络请求时的header中的属性'Accept-Encoding': '*;q=0' 明确表示不支持任何形式的压缩格式，避免程序的解压
java Swing小集锦永夜-极光 java swing
1.关闭窗体弹出确认对话框 1.1 this.setDefaultCloseOperation (JFrame.DO_NOTHING_ON_CLOSE); 1.2 this.addWindowListener ( new WindowAdapter () { public void windo
强制删除.svn文件夹随便小屋 java
在windows上，从别处复制的项目中可能带有.svn文件夹，手动删除太麻烦，并且每个文件夹下都有。所以写了个程序进行删除。因为.svn文件夹在windows上是只读的，所以用File中的delete()和deleteOnExist()方法都不能将其删除，所以只能采用windows命令方式进行删除
GET和POST有什么区别？及为什么网上的多数答案都是错的。 aijuans get post
如果有人问你，GET和POST，有什么区别？你会如何回答？我的经历前几天有人问我这个问题。我说GET是用于获取数据的，POST，一般用于将数据发给服务器之用。这个答案好像并不是他想要的。于是他继续追问有没有别的区别？我说这就是个名字而已，如果服务器支持，他完全可以把G
谈谈新浪微博背后的那些算法 aoyouzi 谈谈新浪微博背后的那些算法
本文对微博中常见的问题的对应算法进行了简单的介绍，在实际应用中的算法比介绍的要复杂的多。当然，本文覆盖的主题并不全，比如好友推荐、热点跟踪等就没有涉及到。但古人云“窥一斑而见全豹”，希望本文的介绍能帮助大家更好的理解微博这样的社交网络应用。微博是一个很多人都在用的社交应用。天天刷微博的人每天都会进行着这样几个操作：原创、转发、回复、阅读、关注、@等。其中，前四个是针对短博文，最后的关注和@则针
Connection reset 连接被重置的解决方法百合不是茶 java 字符流连接被重置
流是java的核心部分,,昨天在做android服务器连接服务器的时候出了问题,就将代码放到java中执行,结果还是一样连接被重置被重置的代码如下; 客户端代码; package 通信软件服务器; import java.io.BufferedWriter; import java.io.OutputStream; import java.io.O
web.xml配置详解之filter bijian1013 java web.xml filter
一.定义 <filter> <filter-name>encodingfilter</filter-name> <filter-class>com.my.app.EncodingFilter</filter-class> <init-param> <param-name>encoding<
Heritrix Bill_chen 多线程 xml 算法制造配置管理
作为纯Java语言开发的、功能强大的网络爬虫Heritrix，其功能极其强大，且扩展性良好，深受热爱搜索技术的盆友们的喜爱，但它配置较为复杂，且源码不好理解，最近又使劲看了下，结合自己的学习和理解，跟大家分享Heritrix的点点滴滴。 Heritrix的下载（http://sourceforge.net/projects/archive-crawler/）安装、配置，就不罗嗦了，可以自己找找资
【Zookeeper】FAQ bit1129 zookeeper
1.脱离IDE，运行简单的Java客户端程序 #ZkClient是简单的Zookeeper~$ java -cp "./:zookeeper-3.4.6.jar:./lib/*" ZKClient 1. Zookeeper是的Watcher回调是同步操作，需要添加异步处理的代码 2. 如果Zookeeper集群跨越多个机房，那么Leader/
The user specified as a definer ('aaa'@'localhost') does not exist 白糖_ localhost
今天遇到一个客户BUG，当前的jdbc连接用户是root，然后部分删除操作都会报下面这个错误：The user specified as a definer ('aaa'@'localhost') does not exist 最后找原因发现删除操作做了触发器，而触发器里面有这样一句 /*!50017 DEFINER = ''aaa@'localhost' */ 原来最初
javascript中showModelDialog刷新父页面 bozch JavaScript 刷新父页面 showModalDialog
在页面中使用showModalDialog打开模式子页面窗口的时候，如果想在子页面中操作父页面中的某个节点，可以通过如下的进行： window.showModalDialog('url',self,‘status...’); // 首先中间参数使用self 在子页面使用w
编程之美-买书折扣 bylijinnan 编程之美
import java.util.Arrays; public class BookDiscount { /**编程之美买书折扣书上的贪心算法的分析很有意思，我看了半天看不懂，结果作者说，贪心算法在这个问题上是不适用的。。下面用动态规划实现。哈利波特这本书一共有五卷，每卷都是8欧元，如果读者一次购买不同的两卷可扣除5%的折扣，三卷10%，四卷20%，五卷
关于struts2.3.4项目跨站执行脚本以及远程执行漏洞修复概要 chenbowen00 struts WEB安全
因为近期负责的几个银行系统软件，需要交付客户，因此客户专门请了安全公司对系统进行了安全评测，结果发现了诸如跨站执行脚本，远程执行漏洞以及弱口令等问题。下面记录下本次解决的过程以便后续 1、首先从最简单的开始处理，服务器的弱口令问题，首先根据安全工具提供的测试描述中发现应用服务器中存在一个匿名用户，默认是不需要密码的，经过分析发现服务器使用了FTP协议，而使用ftp协议默认会产生一个匿名用
[电力与暖气]煤炭燃烧与电力加温 comsci
在宇宙中,用贝塔射线观测地球某个部分,看上去,好像一个个马蜂窝,又像珊瑚礁一样,原来是某个国家的采煤区..... 不过,这个采煤区的煤炭看来是要用完了.....那么依赖将起燃烧并取暖的城市,在极度严寒的季节中...该怎么办呢? &nbs
oracle O7_DICTIONARY_ACCESSIBILITY参数 daizj oracle
O7_DICTIONARY_ACCESSIBILITY参数控制对数据字典的访问.设置为true,如果用户被授予了如select any table等any table权限,用户即使不是dba或sysdba用户也可以访问数据字典.在9i及以上版本默认为false,8i及以前版本默认为true.如果设置为true就可能会带来安全上的一些问题.这也就为什么O7_DICTIONARY_ACCESSIBIL
比较全面的MySQL优化参考 dengkane mysql
本文整理了一些MySQL的通用优化方法，做个简单的总结分享，旨在帮助那些没有专职MySQL DBA的企业做好基本的优化工作，至于具体的SQL优化，大部分通过加适当的索引即可达到效果，更复杂的就需要具体分析了，可以参考本站的一些优化案例或者联系我，下方有我的联系方式。这是上篇。 1、硬件层相关优化 1.1、CPU相关在服务器的BIOS设置中，可
C语言homework2，有一个逆序打印数字的小算法 dcj3sjt126com c
#h1# 0、完成课堂例子 1、将一个四位数逆序打印 1234 ==> 4321 实现方法一： # include <stdio.h> int main(void) { int i = 1234; int one = i%10; int two = i / 10 % 10; int three = i / 100 % 10;
apacheBench对网站进行压力测试 dcj3sjt126com apachebench
ab 的全称是 ApacheBench ，是 Apache 附带的一个小工具，专门用于 HTTP Server 的 benchmark testing ，可以同时模拟多个并发请求。前段时间看到公司的开发人员也在用它作一些测试，看起来也不错，很简单，也很容易使用，所以今天花一点时间看了一下。通过下面的一个简单的例子和注释，相信大家可以更容易理解这个工具的使用。
2种办法让HashMap线程安全 flyfoxs java jdk jni
多线程之--2种办法让HashMap线程安全多线程之--synchronized 和reentrantlock的优缺点多线程之--2种JAVA乐观锁的比较( NonfairSync VS. FairSync) HashMap不是线程安全的,往往在写程序时需要通过一些方法来回避.其实JDK原生的提供了2种方法让HashMap支持线程安全.
Spring Security（04）——认证简介 234390216 Spring Security 认证过程
认证简介目录 1.1 认证过程 1.2 Web应用的认证过程 1.2.1 ExceptionTranslationFilter 1.2.2 在request之间共享SecurityContext 1
Java 位运算 Javahuhui java 位运算
// 左移( << ) 低位补0 // 0000 0000 0000 0000 0000 0000 0000 0110 然后左移2位后，低位补0： // 0000 0000 0000 0000 0000 0000 0001 1000 System.out.println(6 << 2);// 运行结果是24 // 右移( >> ) 高位补"
mysql免安装版配置 ldzyz007 mysql
1、my-small.ini是为了小型数据库而设计的。不应该把这个模型用于含有一些常用项目的数据库。 2、my-medium.ini是为中等规模的数据库而设计的。如果你正在企业中使用RHEL,可能会比这个操作系统的最小RAM需求(256MB)明显多得多的物理内存。由此可见，如果有那么多RAM内存可以使用，自然可以在同一台机器上运行其它服务。 3、my-large.ini是为专用于一个SQL数据
MFC和ado数据库使用时遇到的问题你不认识的休道人 sql C++mfc
=================================================================== 第一个 =================================================================== try{ CString sql; sql.Format("select * from p
表单重复提交Double Submits rensanning double
可能发生的场景： *多次点击提交按钮 *刷新页面 *点击浏览器回退按钮 *直接访问收藏夹中的地址 *重复发送HTTP请求（Ajax）（1）点击按钮后disable该按钮一会儿，这样能避免急躁的用户频繁点击按钮。这种方法确实有些粗暴，友好一点的可以把按钮的文字变一下做个提示，比如Bootstrap的做法： http://getbootstrap.co
Java String 十大常见问题 tomcat_oracle java 正则表达式
　1.字符串比较，使用“==”还是equals()? 　　"=="判断两个引用的是不是同一个内存地址(同一个物理对象)。　　equals()判断两个字符串的值是否相等。　　除非你想判断两个string引用是否同一个对象，否则应该总是使用equals()方法。　　如果你了解字符串的驻留(String Interning)则会更好地理解这个问题。　　
SpringMVC 登陆拦截器实现登陆控制 xp9802 springMVC
思路，先登陆后，将登陆信息存储在session中，然后通过拦截器，对系统中的页面和资源进行访问拦截，同时对于登陆本身相关的页面和资源不拦截。实现方法： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他