大叶子不小

ES系列十二、ES的scroll Api及分页实例

1.官方api

1.Scroll概念

Version：6.1

英文原文地址：Scroll

当一个搜索请求返回单页结果时，可以使用 scroll API 检索体积大量（甚至全部）结果，这和在传统数据库中使用游标的方式非常相似。

不要把 scroll 用于实时请求，它主要用于大数据量的场景。例如：将一个索引的内容索引到另一个不同配置的新索引中。

2.Client support for scrolling and reindexing（滚动搜索和索引之间的文档重索引）

一些官方支持的客户端提供了一些辅助类，可以协助滚动搜索和索引之间的文档重索引：

Perl

参阅 Search::Elasticsearch::Client::5_0::Bulk 和 Search::Elasticsearch::Client::5_0::Scroll

Python

参阅 elasticsearch.helpers.*

NOTE：从 scroll 请求返回的结果反映了初始搜素请求生成时的索引状态，就像时间快照一样。对文档的更改（索引、更新或者删除）只会影响以后的搜索请求。

回到顶部

3.基本用法

为了使用 scroll ，初始的搜索请求应该在查询字符串中指定 scroll 参数，这个参数会告诉 Elasticsearch 将 “search context” 保存多久。例如：?scroll=1m

POST /twitter/_search?scroll=1m
{
    "size": 100,
    "query": {
        "match" : {
            "title" : "elasticsearch"
        }
    }
}

上面的请求返回的结果里会包含一个 _scroll_id ，我们需要把这个值传递给 scroll API ，用来取回下一批结果。

　　

POST  /_search/scroll 
{
    "scroll" : "1m", 
    "scroll_id" : "DXF1ZXJ5QW5kRmV0Y2gBAAAAAAAAAD4WYm9laVYtZndUQlNsdDcwakFMNjU1QQ==" 
}

(1) GET 或者 POST 都可以

(2) URL 不能包含 index 和 type 名称，原始请求中已经指定了

(3) scroll 参数告诉 Elasticsearch 把搜索上下文再保持一分钟

(4) scroll_id 的值就是上一个请求中返回的 _scroll_id 的值

size 参数允许我们配置每批结果返回的最大命中数。每次调用 scroll API 都会返回下一批结果，直到不再有可以返回的结果，即命中数组为空。

IMPORTANT：初始的搜索请求和每个 scroll 请求都会返回一个新的 _scroll_id ，只有最近的 _scroll_id 是可用的

NOTE：如果请求指定了过滤，就只有初始搜索的响应中包含聚合结果。

NOTE：Scroll 请求对 _doc 排序做了优化。如果要遍历所有的文档，而且不考虑顺序，_doc 是最高效的选项。

GET /_search?scroll=1m
{
  "sort": [
    "_doc"
  ]
}

1.Keeping the search context alive

scroll 参数告诉了 Elasticsearch 应当保持搜索上下文多久。它的值不需要长到能够处理完所有的数据，只要足够处理前一批结果就行了。每个 scroll 请求都会设置一个新的过期时间。

通常，为了优化索引，后台合并进程会把较小的段合并在一起创建出新的更大的段，此时会删除较小的段。这个过程在 scrolling 期间会继续进行，但是一个打开状态的索引上下文可以防止旧段在仍需要使用时被删除。这就解释了 Elasticsearch 为什么能够不考虑对文档的后续修改，而返回初始搜索请求的结果。

TIP：使旧段保持活动状态意味着需要更多的文件句柄。请确保你已将节点配置为拥有足够的可用的文件句柄。详情参阅 File Descriptors

你可以使用 nodes stats API 查看有多少搜索上下文处于开启状态

GET /_nodes/stats/indices/search
GET /_nodes/stats/indices/search

2.Clear scroll API

当超出了 scroll timeout 时，搜索上下文会被自动删除。但是，保持 scrolls 打开是有成本的，当不再使用 scroll 时应当使用 clear-scroll API 进行显式清除。

DELETE /_search/scroll
{
    "scroll_id" : "DXF1ZXJ5QW5kRmV0Y2gBAAAAAAAAAD4WYm9laVYtZndUQlNsdDcwakFMNjU1QQ=="
}

可以使用数组传递多个 scroll ID

DELETE /_search/scroll
{
    "scroll_id" : [
      "DXF1ZXJ5QW5kRmV0Y2gBAAAAAAAAAD4WYm9laVYtZndUQlNsdDcwakFMNjU1QQ==",
      "DnF1ZXJ5VGhlbkZldGNoBQAAAAAAAAABFmtSWWRRWUJrU2o2ZExpSGJCVmQxYUEAAAAAAAAAAxZrUllkUVlCa1NqNmRMaUhiQlZkMWFBAAAAAAAAAAIWa1JZZFFZQmtTajZkTGlIYkJWZDFhQQAAAAAAAAAFFmtSWWRRWUJrU2o2ZExpSGJCVmQxYUEAAAAAAAAABBZrUllkUVlCa1NqNmRMaUhiQlZkMWFB"
    ]
}

使用 _all 参数清除所有的搜索上下文

DELETE /_search/scroll/_all
DELETE /_search/scroll/_all

也可以使用 query string 参数传递 scroll_id ，多个值使用英文逗号分割

DELETE /_search/scroll/DXF1ZXJ5QW5kRmV0Y2gBAAAAAAAAAD4WYm9laVYtZndUQlNsdDcwakFMNjU1QQ==,DnF1ZXJ5VGhlbkZldGNoBQAAAAAAAAABFmtSWWRRWUJrU2o2ZExpSGJCVmQxYUEAAAAAAAAAAxZrUllkUVlCa1NqNmRMaUhiQlZkMWFBAAAAAAAAAAIWa1JZZFFZQmtTajZkTGlIYkJWZDFhQQAAAAAAAAAFFmtSWWRRWUJrU2o2ZExpSGJCVmQxYUEAAAAAAAAABBZrUllkUVlCa1NqNmRMaUhiQlZkMWFB
DELETE /_search/scroll/DXF1ZXJ5QW5kRmV0Y2gBAAAAAAAAAD4WYm9laVYtZndUQlNsdDcwakFMNjU1QQ==,DnF1ZXJ5VGhlbkZldGNoBQAAAAAAAAABFmtSWWRRWUJrU2o2ZExpSGJCVmQxYUEAAAAAAAAAAxZrUllkUVlCa1NqNmRMaUhiQlZkMWFBAAAAAAAAAAIWa1JZZFFZQmtTajZkTGlIYkJWZDFhQQAAAAAAAAAFFmtSWWRRWUJrU2o2ZExpSGJCVmQxYUEAAAAAAAAABBZrUllkUVlCa1NqNmRMaUhiQlZkMWFB

3.Sliced Scroll

如果 scroll 查询返回的文档数量过多，可以把它们拆分成多个切片以便独立使用

GET /twitter/_search?scroll=1m
{
    "slice": {
        "id": 0, 
        "max": 2 
    },
    "query": {
        "match" : {
            "title" : "elasticsearch"
        }
    }
}
GET /twitter/_search?scroll=1m
{
    "slice": {
        "id": 1,
        "max": 2
    },
    "query": {
        "match" : {
            "title" : "elasticsearch"
        }
    }
}

(1) 切片的 id

(2) 最大切片数量

上面的栗子，第一个请求返回的是第一个切片（id : 0）的文档，第二个请求返回的是第二个切片的文档。因为我们设置了最大切片数量是 2 ，所以两个请求的结果等价于一次不切片的 scroll 查询结果。默认情况下，先在第一个分片（shard）上做切分，然后使用以下公式：slice(doc) = floorMod(hashCode(doc._uid), max) 在每个 shard 上执行切分。例如，如果 shard 的数量是 2 ，并且用户请求 4 slices ，那么 id 为 0 和 2 的 slice 会被分配给第一个 shard ，id 为 1 和 3 的 slice 会被分配给第二个 shard 。

每个 scroll 是独立的，可以像任何 scroll 请求一样进行并行处理。

NOTE：如果 slices 的数量比 shards 的数量大，第一次调用时，slice filter 的速度会非常慢。它的复杂度时 O(n) ，内存开销等于每个 slice N 位，其中 N 时 shard 中的文档总数。经过几次调用后，筛选器会被缓存，后续的调用会更快。但是仍需要限制并行执行的 sliced 查询的数量，以免内存激增。

为了完全避免此成本，可以使用另一个字段的 doc_values 来进行切片，但用户必须确保该字段具有以下属性：

该字段是数字类型
该字段启用了 doc_values
每个文档应当包含单个值。如果一份文档有指定字段的多个值，则使用第一个值
每个文档的值在创建文档时设置了之后不再更新，这可以确保每个切片获得确定的结果
字段的基数应当很高，这可以确保每个切片获得的文档数量大致相同

GET /twitter/_search?scroll=1m
{
    "slice": {
        "field": "date",
        "id": 0,
        "max": 10
    },
    "query": {
        "match" : {
            "title" : "elasticsearch"
        }
    }
}

NOTE：默认情况下，每个 scroll 允许的最大切片数量时 1024。你可以更新索引设置中的 index.max_slices_per_scroll 来绕过此限制。

回到顶部

3.实现分页案例

1.实现分页，每页20条数据，第一次请求返回第一页数据

POST /book1/_search?scroll=10m

{
    "size":20
}

{
    "_scroll_id": "DnF1ZXJ5VGhlbkZldGNoBQAAAAAAAAL6FlI4dDZSMjBYUXJpdEpCXzVRVlFzdmcAAAAAAAAC_hZSOHQ2UjIwWFFyaXRKQl81UVZRc3ZnAAAAAAAAAvsWUjh0NlIyMFhRcml0SkJfNVFWUXN2ZwAAAAAAAAL8FlI4dDZSMjBYUXJpdEpCXzVRVlFzdmcAAAAAAAAC_RZSOHQ2UjIwWFFyaXRKQl81UVZRc3Zn",
    "took": 1,
    "timed_out": false,
    "_shards": {
        "total": 5,
        "successful": 5,
        "skipped": 0,
        "failed": 0
    },
    "hits": {
        "total": 41,
        "max_score": 1,
        "hits": [
            {
                "_index": "book1",
                "_type": "english",
                "_id": "_update",
                "_score": 1,
                "_source": {
                    "scripted_upsert": true,
                    "script": {
                        "id": "my_web_session_summariser",
                        "params": {
                            "pageViewEvent": {
                                "url": "foo.com/bar",
                                "response": 404,
                                "time": "2014-01-01 12:32"
                            }
                        }
                    },
                    "upsert": {}
                }
            },
            {
                "_index": "book1",
                "_type": "english",
                "_id": "79",
                "_score": 1,
                "_source": {
                    "name": "new_name"
                }
            }
。。。。
}

2.使用scroll_id请求后面的几页的数据，每次返回一页

POST /_search/scroll
{
    "scroll":"10m",
    "scroll_id" : "DnF1ZXJ5VGhlbkZldGNoBQAAAAAAAAL6FlI4dDZSMjBYUXJpdEpCXzVRVlFzdmcAAAAAAAAC_hZSOHQ2UjIwWFFyaXRKQl81UVZRc3ZnAAAAAAAAAvsWUjh0NlIyMFhRcml0SkJfNVFWUXN2ZwAAAAAAAAL8FlI4dDZSMjBYUXJpdEpCXzVRVlFzdmcAAAAAAAAC_RZSOHQ2UjIwWFFyaXRKQl81UVZRc3Zn" 
}

最后一页只有一条：

{
    "_scroll_id": "DnF1ZXJ5VGhlbkZldGNoBQAAAAAAAAL6FlI4dDZSMjBYUXJpdEpCXzVRVlFzdmcAAAAAAAAC_hZSOHQ2UjIwWFFyaXRKQl81UVZRc3ZnAAAAAAAAAvsWUjh0NlIyMFhRcml0SkJfNVFWUXN2ZwAAAAAAAAL8FlI4dDZSMjBYUXJpdEpCXzVRVlFzdmcAAAAAAAAC_RZSOHQ2UjIwWFFyaXRKQl81UVZRc3Zn",
    "took": 1,
    "timed_out": false,
    "_shards": {
        "total": 5,
        "successful": 5,
        "skipped": 0,
        "failed": 0
    },
    "hits": {
        "total": 41,
        "max_score": 1,
        "hits": [
            {
                "_index": "book1",
                "_type": "english",
                "_id": "oAmI_mQBbhSmAk-TGrMQ",
                "_score": 1,
                "_source": {
                    "name": "否sdfdsfds",
                    "age": 13,
                    "class": "dsfdsf",
                    "addr": "中国"
                }
            }
        ]
    }
}

继续执行返回空：

{
    "_scroll_id": "DnF1ZXJ5VGhlbkZldGNoBQAAAAAAAAL6FlI4dDZSMjBYUXJpdEpCXzVRVlFzdmcAAAAAAAAC_hZSOHQ2UjIwWFFyaXRKQl81UVZRc3ZnAAAAAAAAAvsWUjh0NlIyMFhRcml0SkJfNVFWUXN2ZwAAAAAAAAL8FlI4dDZSMjBYUXJpdEpCXzVRVlFzdmcAAAAAAAAC_RZSOHQ2UjIwWFFyaXRKQl81UVZRc3Zn",
    "took": 1,
    "timed_out": false,
    "_shards": {
        "total": 5,
        "successful": 5,
        "skipped": 0,
        "failed": 0
    },
    "hits": {
        "total": 41,
        "max_score": 1,
        "hits": []
    }
}

3.异常：earchContextMissingException

SearchContextMissingException[No search context found for id [721283]]; 原因：scroll设置的时间过短了。

你可能感兴趣的:(elasticsearch,大数据)

深度学习-图像数据标注工具使用（LabelImg和BBox） AI研习图书馆方法教程 LabelImg BBox 图像标注工具
文章与视频资源多平台更新微信公众号|知乎|B站|头条：AI研习图书馆深度学习、大数据、IT编程知识与资源分享，欢迎关注，共同进步~图像数据标注工具的使用教程1.LabelImgLabelImg下载地址：https://github.com/tzutalin/labelImg（下载源码，需要编译）Windows和Linux系统可运行软件：http://tzutalin.github.io/label
elasticsearch文档 Compound queries songtaiwu elasticsearch 大数据搜索引擎
Booleanquery|ElasticsearchGuide[8.15]|ElasticBooleanquery布尔查询是用于匹配出和组合中的其他查询匹配的文档。bool查询映射到LuceneBooleanQuery。它由一个或更多的布尔子句组成，每个子句是一个类型化的事件。事件如下：must子句（查询）必须出现在匹配的文档中，并将有助于得分。filter子句（查询）必须出现在匹配的文档中。但和
ElasticSearch view 稚辉君.MCA_P8_Java CentOS7.6 Kubernetes Cluster 高可用Kubernetes集群 elasticsearch linux 全文检索搜索引擎大数据
基础知识类elasticsearch和数据库之间区别？elasticsearch：面向文档，数据以文档的形式存储，即JSON格式的对象。更强调数据的搜索、索引和分析。数据库：更侧重于事务处理、数据的严格结构化和完整性，适用于关系复杂、数据一致性要求高的业务场景。elasticsearch和核心组件包含哪些？节点（Node）：elasticsearch集群中一个服务器实例，负责存储数据、处理请求等，
Spark 任务与 Spark Streaming 任务的差异详解 goTsHgo spark-streaming 分布式大数据 spark streaming 大数据分布式
Spark任务与SparkStreaming任务的主要差异源自于两者的应用场景不同：Spark主要处理静态的大数据集，而SparkStreaming处理的是实时流数据。这些差异体现在任务的调度、执行、容错、数据处理模式等方面。接下来，我们将从底层原理和源代码的角度详细解析Spark任务和SparkStreaming任务的差别。1.任务调度模型差异1.1Spark任务的调度模型Spark的任务调度基
Python大数据之PySpark(三)使用Python语言开发Spark程序代码_windows spark python 2401_84181704 程序员大数据 python spark
算子：rdd的api的操作，就是算子，flatMap扁平化算子，map转换算子Transformation算子Action算子步骤：1-首先创建SparkContext上下文环境2-从外部文件数据源读取数据3-执行flatmap执行扁平化操作4-执行map转化操作，得到(word,1)5-reduceByKey将相同Key的Value数据累加操作6-将结果输出到文件系统或打印代码：#-*-codi
《大数据时代“快刀”：Flink实时数据处理框架优势全解析》程序猿阿伟大数据 flink
在数字化浪潮中，数据呈爆发式增长，实时数据处理的重要性愈发凸显。从金融交易的实时风险监控，到电商平台的用户行为分析，各行业都急需能快速处理海量数据的工具。Flink作为一款开源的分布式流处理框架，在这一领域崭露头角，备受瞩目。一、真正实时，毫秒级响应与部分将流处理模拟为微批处理的框架不同，Flink是专为实时流处理打造的“原生”引擎。它直接处理持续不断的事件流，无需将数据攒成批次再处理，这种设计赋
园区智能化系统实现管理与服务的智能化转型与创新进阶快鲸智慧楼宇管理系统其他
内容概要园区智能化系统的出现，标志着管理与服务向智能化转型的重要一步。这一系统不仅仅是一个技术解决方案，更是一个全面提升园区运营效率与安全性的独特工具。通过集成大数据分析、物联网和人工智能，园区智能化系统能够为各类园区如工业园、产业园、物流园、写字楼与公寓等提供切实可行的解决方案。“智能化管理不仅是未来的发展趋势，更是提升竞争力的必要手段。”在资产管理方面，智能化系统能够实时监控并优化资源的配置，
CDH_6.3.2的搭建我的K8409 Flink linux 大数据分布式
一站式搭建大数据的应用1、前提条件和准备工作hostnamectlset-hostnamecdh01hostnamectlset-hostnamecdh02hostnamectlset-hostnamecdh032、修改IP和Host映射关系（所有节点）在window中也配置一下vim/etc/hosts192.168.92.201cdh01192.168.92.202cdh02192.168.9
大数据笔记之 Flink1.17 算子凡许真大数据 flink1.17 算子
文章目录前言一、Partition分区（物理分区）1.1随机分区shuffle1.2轮询分区rebalance1.3重缩放分区rescale1.4广播分区broadcast1.5全局分区global1.6keyby1.7自定义分区Custom二、transform2.1flatMap2.2filter2.3RichFunction2.4map三、Aggregate聚合3.1keyBy()3.2ma
01.双Android容器解决方案高桐@BILL 容器 Android
目录写在前面一，容器1.1容器的原理1.1.1Namespace1.1.2Cgroups（ControlGroups）1.1.3联合文件系统（UnionFileSystem）1.2容器的应用1.2.1微服务架构1.2.2持续集成和持续部署（CI/CD）1.2.3多租户环境1.2.4混合云和多云环境1.2.5大数据和机器学习1.2.6android应用场景1.3容器方案选型1.3.1Docker1.
监控易：智慧高校一体化综合运维解决方案 MXsoft618 运维信息安全物联网监控类
新冠疫情发生以来，线上线下教育模式的初探，促使学校、家长和社会对于教育信息化认识产生巨大的转变。伴随着云计算和物联网的发展，教育已经开启了一个全新的时代。自“十三五”规划中明确提出“支持各级各类学校建设智慧校园，综合利用互联网、大数据、人工智能和虚拟现实技术探索未来教育教学新模式”以来，政策春风也不断加码教育信息化进程，《教育信息化2.0行动计划》以及《智慧校园总体框架》的相继发布，全国各地都在积
学技术学英语：elasticsearch 文档ID生成算法学会了没 elasticsearch 全文检索文档生成算法
Auto-GeneratedDocumentIDsinElasticsearchWhenyouindexadocumentwithoutspecifyinganID,ElasticsearchautomaticallygeneratesauniqueIDforthatdocument.ThisIDisaBase64-encodedUUID,whichiscomposedofseveralparts
TDengine 做为 FLINK 数据源技术参考手册 TDengine （老段） tdengine flink 大数据涛思数据时序数据库数据库
ApacheFlink是一款由Apache软件基金会支持的开源分布式流批一体化处理框架，可用于流处理、批处理、复杂事件处理、实时数据仓库构建及为机器学习提供实时数据支持等诸多大数据处理场景。与此同时，Flink拥有丰富的连接器与各类工具，可对接众多不同类型的数据源实现数据的读取与写入。在数据处理的过程中，Flink还提供了一系列可靠的容错机制，有力保障任务即便遭遇意外状况，依然能稳定、持续运行。借
Hadoop HA 架构 weixin_30569033 shell 大数据
为什么要用集群?企业里面,多台机器伪分布式每一个角色都是一个进程HDFS:NNSNNDNYARN:RMNM大数据所有组件,都是主从架构master-slaveHDFS读写请求都是先到NN节点,但是,HBase读写请求不是经过master,建表和删除表是需要经过masterNN节点挂了,就不能提供对外服务(-put,-get)需要配置两个NN节点(实时的,任何时刻只有一台active对外,另外一台是
守护每一比特的安全——探索基于差分隐私的MySQL数据脱敏之道墨夶数据库学习资料2 安全 mysql 数据库
在当今数字化时代，随着互联网和大数据技术的发展，数据的价值愈发凸显。然而，随之而来的个人隐私泄露风险也日益增加，成为社会广泛关注的问题之一。特别是在医疗、金融等领域，如何既能充分利用海量数据资源推动行业发展，又能有效保护用户隐私不被侵犯，成为了亟待解决的重要课题。本文将深入探讨一种创新的数据安全共享方案——基于差分隐私（DifferentialPrivacy,DP）的MySQL数据库实现方法，旨在
学技术学英文：elasticsearch部署架构-容错设计学会了没 elasticsearch 架构全文检索容错
Unlessyou'rerunningElasticsearchonasinglenode,preparetodesignforfailure.Designingforfailuremeansrunningyourclusterinmultiplelocationsandbereadytoloseawholedatacenterwithoutserviceinterruption.It'snott
基于elk的springboot web日志收集存储方案 Albertliuc java springboot elk spring boot 前端
目录WEB日志分类处理方案ELK安装Elasticsearch安装Logstash安装kibana导入依赖AOP做接口日志输出日志entity类AOPAspect类logback-spring.xml配置YML配置WEB日志分类处理方案web系统的日志按照价值排序分类controller层的接口访问日志（debug日志）自定义包下的其他日志（debug日志）全局日志①全局错误日志②部分组件的deb
12.udp 就很对 udp 网络协议网络
12.udp**1.UDP特性****2.UDP编程框架（C/S模式）****3.UDP发送接收函数****4.UDP编程练习**1.UDP特性连接特性：无链接，通信前无需像TCP那样建立连接。可靠性：不可靠，不保证数据按序到达、不保证数据无丢失或重复。数据传输：适合传输大数据，但实际传输受网络MTU等因素限制。2.UDP编程框架（C/S模式）服务器端流程：创建套接字：调用socket()函数，参
【Elasticsearch】 Compound Queries risc123456 Elasticsearch elasticsearch 大数据搜索引擎
ElasticsearchCompoundQueriesElasticsearch的CompoundQueries是一种强大的工具，用于组合多个查询子句，以实现更复杂的搜索逻辑。这些查询子句可以是叶查询（LeafQueries）或复合查询（CompoundQueries），并且可以用于组合结果和分数、改变行为或从查询上下文切换到过滤上下文。主要的复合查询类型bool查询：用于组合多个叶查询或复合查
【Elasticsearch】 es 索引内置字段 _source 九师兄 elasticsearch 索引内置 _source
1.概述该字段属于索引的元数据，其中存储了文档原始的JSON内容，会被存储但不会被索引，用于执行fetch请求时返回原始数据。当我们不需要获得任何原始数据，只需要对数据进行排序，聚合等计算，或者写入时文档id是手动指定的，通过搜索取到文档id来进一步处理，可以将"_source"设为false来节约大量的磁盘空间。注意，禁用"_source"后会导致无法使用update，update_by_que
ElasticSearch第十六讲 ES 索引模板Index Template与Dynamic Template 程序员路同学 ElasticSearch elasticsearch java 大数据
IndexTemplateIndexTemplates可以帮助你设定Mappings和Settings，并按照一定的规则，自动匹配到新创建的索引之上。模版仅在一个索引被新创建时，才会产生作用。修改模版不会影响已创建的索引，你可以设定多个索引模版，这些设置会被“merge”在一起，你可以指定“order”的数值，控制“merging”的过程索引模板中的内容settings:指定index的配置信息,
【大数据入门核心技术-Hive】（十一）HiveSQL数据分区 forest_long 大数据技术入门到21天通关大数据 hive hadoop 数据仓库 hdfs
目录一、分区的概念二、创建分区1）静态分区1、单分区测试2、多分区测试2)动态分区3、动态分区和静态分区混合使用三、分区的其它操作1、恢复分区2、归档分区3、交换分区四、分区数据查询1、单分区数据查询2、多分区数据查询方法1：通过union方法2：通过or一、分区的概念数据分区的概念以及存在很久了，通常使用分区来水平分散压力，将数据从物理上移到和使用最频繁的用户更近的地方，以及实现其目的。hive
【Elasticsearch】索引模板 ignore_missing_component_templates risc123456 Elasticsearch elasticsearch jenkins 大数据
解释ignore_missing_component_templates配置在Elasticsearch中，ignore_missing_component_templates是一个配置选项，用于处理索引模板中引用的组件模板可能不存在的情况。当您创建一个索引模板时，可以指定一个或多个组件模板，这些组件模板将用于构建最终的索引配置。如果某个组件模板不存在，Elasticsearch通常会报错。但是，
毕设开源 python大数据旅游数据分析可视化系统(源码分享) bee_dc 毕业设计毕设大数据
文章目录0前言1课题背景2数据处理3数据可视化工具3.1django框架介绍3.2ECharts4Django使用echarts进行可视化展示（mysql数据库）4.1修改setting.py连接mysql数据库4.2导入数据4.3使用echarts可视化展示5实现效果5.1前端展示5.2后端展示6最后0前言这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到
大数据“超能力”：数据安全和隐私该如何保障？大数据在线云静思园大数据数据安全数据隐私英特尔
一人人都喜欢超级英雄。不论是超人还是钢铁侠，又或者是小蜘蛛和绿巨人，几乎每一个超级英雄漫画及电影的粉丝，都曾为其不公遭遇打抱不平：“他们明明是在用超能力做好事，拯救人类的，为什么电影里的政府和平民会这么蠢，总对他们缺乏信任，满是提防。”这就是所谓的“叶公好龙”了，因为当你身边真出现了个能把卡车当皮球一样抛来抛去的人时，你的反应恐怕也好不到哪儿去，可能也巴不得有政府出面，逼他接受《超级英雄注册法案》
再见，Elasticsearch ！码农code之路 elasticsearch 大数据搜索引擎全文检索
新一代搜索引擎，是ES的15倍，号称干翻ES！ManticoreSearch是一个使用C++开发的高性能搜索引擎，创建于2017年，其前身是SphinxSearch。ManticoreSearch充分利用了Sphinx，显着改进了它的功能，修复了数百个错误，几乎完全重写了代码并保持开源。这一切使ManticoreSearch成为一个现代，快速，轻量级和功能齐全的数据库，具有出色的全文搜索功能。Ma
Python爬虫基础知识：从零开始的抓取艺术 egzosn python 爬虫开发语言
在大数据时代，网络数据成为宝贵的资源，而Python爬虫则是获取这些数据的重要工具。本文旨在为初学者提供一份Python爬虫的入门指南，涵盖基础知识、常用库介绍、实战案例以及注意事项，帮助你快速上手，成为一名合格的“网络矿工”。一、Python爬虫概述1.1什么是爬虫？爬虫，也称为网络爬虫或蜘蛛，是一种自动抓取互联网信息的程序。它通过模拟人类浏览网页的行为，自动地遍历和抓取网络上的数据，常用于数据
探索Oracle数据库的多租户特性：架构、优势与实践 2401_85812026 数据库 oracle 架构
在云计算和大数据时代，多租户架构成为数据库设计中的一个重要趋势。Oracle数据库的多租户选项（Multitenant）允许单个数据库实例支持多个独立数据库（称为容器数据库和可插拔数据库），每个数据库都有自己的数据、配置和资源。这种设计提高了资源利用率、简化了数据库管理，并增强了安全性。本文将深入探讨Oracle多租户选项的架构、优势以及如何在实际环境中部署和使用。1.多租户选项概述Oracle多
「大数据」Kappa架构吴维炜 AIGC架构设计师大数据架构 kappa AIGC
Kappa架构是一种处理大数据的架构，它作为Lambda架构的替代方案出现。Kappa架构的核心思想是简化数据处理流程，通过使用单一的流处理层来同时处理实时和批量数据，从而避免了Lambda架构中需要维护两套系统（批处理层和速度层）的复杂性。核心功能：单一处理层：Kappa架构使用单一的流处理层来处理所有数据，无论是实时数据还是批量数据。数据重放：通过重放历史数据，Kappa架构能够重新计算出与批
新零售社交电商系统小程序功能开发详细解析 v.15889726201 零售小程序
现在的购物方式是越来越有趣了，新零售社交电商系统是互联网、大数据、人工智能的技术和咱们熟悉的传统零售深度结合后产生的。它整合线上线下渠道及数据，带来全方位、多渠道、个性化购物体验。借助实时库存管理、智能推荐和无缝购物体验等功能，打破传统电商与实体店界限，其具备以下显著特点：一、系统主要功能分销管理独家推广代码机制：在这个新零售社交电商系统里，每个经销商都有一个只属于自己的推广代码。把这个代码分享给
二分查找排序算法周凡杨 java 二分查找排序算法折半
一：概念二分查找又称折半查找（折半搜索/ 二分搜索），优点是比较次数少，查找速度快，平均性能好；其缺点是要求待查表为有序表，且插入删除困难。因此，折半查找方法适用于不经常变动而查找频繁的有序列表。首先，假设表中元素是按升序排列，将表中间位置记录的关键字与查找关键字比较，如果两者相等，则查找成功；否则利用中间位置记录将表分成前、后两个子表，如果中间位置记录的关键字大于查找关键字，则进一步
java中的BigDecimal bijian1013 java BigDecimal
在项目开发过程中出现精度丢失问题，查资料用BigDecimal解决，并发现如下这篇BigDecimal的解决问题的思路和方法很值得学习，特转载。原文地址：http://blog.csdn.net/ugg/article/de
Shell echo命令详解 daizj echo shell
Shell echo命令 Shell 的 echo 指令与 PHP 的 echo 指令类似，都是用于字符串的输出。命令格式： echo string 您可以使用echo实现更复杂的输出格式控制。 1.显示普通字符串: echo "It is a test" 这里的双引号完全可以省略，以下命令与上面实例效果一致： echo Itis a test 2.显示转义
Oracle DBA 简单操作周凡杨 oracle dba sql
--执行次数多的SQL select sql_text,executions from ( select sql_text,executions from v$sqlarea order by executions desc ) where rownum<81; &nb
画图重绘朱辉辉33 游戏
我第一次接触重绘是编写五子棋小游戏的时候，因为游戏里的棋盘是用线绘制的，而这些东西并不在系统自带的重绘里，所以在移动窗体时，棋盘并不会重绘出来。所以我们要重写系统的重绘方法。在重写系统重绘方法时，我们要注意一定要调用父类的重绘方法，即加上super.paint(g)，因为如果不调用父类的重绘方式，重写后会把父类的重绘覆盖掉，而父类的重绘方法是绘制画布，这样就导致我们
线程之初体验西蜀石兰线程
一直觉得多线程是学Java的一个分水岭，懂多线程才算入门。之前看《编程思想》的多线程章节，看的云里雾里，知道线程类有哪几个方法，却依旧不知道线程到底是什么？书上都写线程是进程的模块，共享线程的资源，可是这跟多线程编程有毛线的关系，呜呜。。。线程其实也是用户自定义的任务，不要过多的强调线程的属性，而忽略了线程最基本的属性。你可以在线程类的run()方法中定义自己的任务，就跟正常的Ja
linux集群互相免登陆配置林鹤霄 linux
配置ssh免登陆 1、生成秘钥和公钥 ssh-keygen -t rsa 2、提示让你输入，什么都不输，三次回车之后会在~下面的.ssh文件夹中多出两个文件id_rsa 和 id_rsa.pub 其中id_rsa为秘钥，id_rsa.pub为公钥，使用公钥加密的数据只有私钥才能对这些数据解密 c
mysql : Lock wait timeout exceeded; try restarting transaction aigo mysql
原文：http://www.cnblogs.com/freeliver54/archive/2010/09/30/1839042.html 原因是你使用的InnoDB 表类型的时候, 默认参数:innodb_lock_wait_timeout设置锁等待的时间是50s, 因为有的锁等待超过了这个时间,所以抱错. 你可以把这个时间加长,或者优化存储
Socket编程基本的聊天实现。 alleni123 socket
public class Server { //用来存储所有连接上来的客户 private List<ServerThread> clients; public static void main(String[] args) { Server s = new Server(); s.startServer(9988); } publi
多线程监听器事件模式(一个简单的例子) 百合不是茶线程监听模式
多线程的事件监听器模式监听器时间模式经常与多线程使用,在多线程中如何知道我的线程正在执行那什么内容,可以通过时间监听器模式得到创建多线程的事件监听器模式思路: 1, 创建线程并启动,在创建线程的位置设置一个标记 2,创建队
spring InitializingBean接口 bijian1013 java spring
spring的事务的TransactionTemplate，其源码如下： public class TransactionTemplate extends DefaultTransactionDefinition implements TransactionOperations, InitializingBean{ ... } TransactionTemplate继承了DefaultT
Oracle中询表的权限被授予给了哪些用户 bijian1013 oracle 数据库权限
Oracle查询表将权限赋给了哪些用户的SQL，以备查用。 select t.table_name as "表名", t.grantee as "被授权的属组", t.owner as "对象所在的属组"
【Struts2五】Struts2 参数传值 bit1129 struts2
Struts2中参数传值的3种情况 1.请求参数绑定到Action的实例字段上 2.Action将值传递到转发的视图上 3.Action将值传递到重定向的视图上一、请求参数绑定到Action的实例字段上以及Action将值传递到转发的视图上 Struts可以自动将请求URL中的请求参数或者表单提交的参数绑定到Action定义的实例字段上，绑定的规则使用ognl表达式语言
【Kafka十四】关于auto.offset.reset[Q/A] bit1129 kafka
I got serveral questions about auto.offset.reset. This configuration parameter governs how consumer read the message from Kafka when there is no initial offset in ZooKeeper or
nginx gzip压缩配置 ronin47 nginx gzip 压缩范例
nginx gzip压缩配置更多 0 nginx gzip 配置随着nginx的发展，越来越多的网站使用nginx，因此nginx的优化变得越来越重要，今天我们来看看nginx的gzip压缩到底是怎么压缩的呢？ gzip(GNU-ZIP)是一种压缩技术。经过gzip压缩后页面大小可以变为原来的30%甚至更小，这样，用
java-13.输入一个单向链表，输出该链表中倒数第 k 个节点 bylijinnan java
two cursors. Make the first cursor go K steps first. /* * 第 13 题：题目：输入一个单向链表，输出该链表中倒数第 k 个节点 */ public void displayKthItemsBackWard(ListNode head,int k){ ListNode p1=head,p2=head;
Spring源码学习-JdbcTemplate queryForObject bylijinnan java spring
JdbcTemplate中有两个可能会混淆的queryForObject方法： 1. Object queryForObject(String sql, Object[] args, Class requiredType) 2. Object queryForObject(String sql, Object[] args, RowMapper rowMapper) 第1个方法是只查
[冰川时代]在冰川时代,我们需要什么样的技术? comsci 技术
看美国那边的气候情况....我有个感觉...是不是要进入小冰期了? 那么在小冰期里面...我们的户外活动肯定会出现很多问题...在室内呆着的情况会非常多...怎么在室内呆着而不发闷...怎么用最低的电力保证室内的温度.....这都需要技术手段... &nb
js 获取浏览器型号 cuityang js 浏览器
根据浏览器获取iphone和apk的下载地址 <!DOCTYPE html> <html> <head> <meta charset="utf-8" content="text/html"/> <meta name=
C# socks5详解转 dalan_123 socket C#
http://www.cnblogs.com/zhujiechang/archive/2008/10/21/1316308.html 这里主要讲的是用.NET实现基于Socket5下面的代理协议进行客户端的通讯，Socket4的实现是类似的，注意的事，这里不是讲用C#实现一个代理服务器，因为实现一个代理服务器需要实现很多协议，头大，而且现在市面上有很多现成的代理服务器用，性能又好，
运维 Centos问题汇总 dcj3sjt126com 云主机
一、sh 脚本不执行的原因 sh脚本不执行的原因只有2个 1.权限不够 2.sh脚本里路径没写完整。二、解决You have new mail in /var/spool/mail/root 修改/usr/share/logwatch/default.conf/logwatch.conf配置文件 MailTo = MailFrom 三、查询连接数
Yii防注入攻击笔记 dcj3sjt126com sql WEB安全 yii
网站表单有注入漏洞须对所有用户输入的内容进行个过滤和检查，可以使用正则表达式或者直接输入字符判断，大部分是只允许输入字母和数字的，其它字符度不允许；对于内容复杂表单的内容，应该对html和script的符号进行转义替换：尤其是<,>,',"",&这几个符号这里有个转义对照表： http://blog.csdn.net/xinzhu1990/articl
MongoDB简介[一] eksliang mongodb MongoDB简介
MongoDB简介转载请出自出处：http://eksliang.iteye.com/blog/2173288 1.1易于使用 MongoDB是一个面向文档的数据库，而不是关系型数据库。与关系型数据库相比，面向文档的数据库不再有行的概念，取而代之的是更为灵活的“文档”模型。另外，不
zookeeper windows 入门安装和测试 greemranqq zookeeper 安装分布式
一、序言以下是我对zookeeper 的一些理解： zookeeper 作为一个服务注册信息存储的管理工具，好吧，这样说得很抽象，我们举个“栗子”。栗子1号：假设我是一家KTV的老板，我同时拥有5家KTV，我肯定得时刻监视
Spring之使用事务缘由(2-注解实现) ihuning spring
Spring事务注解实现 1. 依赖包： 1.1 spring包： spring-beans-4.0.0.RELEASE.jar spring-context-4.0.0.
iOS App Launch Option 啸笑天 option
iOS 程序启动时总会调用application:didFinishLaunchingWithOptions:，其中第二个参数launchOptions为NSDictionary类型的对象，里面存储有此程序启动的原因。 launchOptions中的可能键值见UIApplication Class Reference的Launch Options Keys节。 1、若用户直接
jdk与jre的区别（_） macroli java jvm jdk
简单的说JDK是面向开发人员使用的SDK，它提供了Java的开发环境和运行环境。SDK是Software Development Kit 一般指软件开发包，可以包括函数库、编译程序等。 JDK就是Java Development Kit JRE是Java Runtime Enviroment是指Java的运行环境，是面向Java程序的使用者，而不是开发者。如果安装了JDK，会发同你
Updates were rejected because the tip of your current branch is behind qiaolevip 学习永无止境每天进步一点点众观千象 git
$ git push joe prod-2295-1 To [email protected]:joe.le/dr-frontend.git ! [rejected] prod-2295-1 -> prod-2295-1 (non-fast-forward) error: failed to push some refs to '[email protected]
[一起学Hive]之十四-Hive的元数据表结构详解 superlxw1234 hive hive元数据结构
关键字：Hive元数据、Hive元数据表结构之前在 “[一起学Hive]之一–Hive概述，Hive是什么”中介绍过，Hive自己维护了一套元数据，用户通过HQL查询时候，Hive首先需要结合元数据，将HQL翻译成MapReduce去执行。本文介绍一下Hive元数据中重要的一些表结构及用途，以Hive0.13为例。文章最后面，会以一个示例来全面了解一下，
Spring 3.2.14，4.1.7，4.2.RC2发布 wiselyman Spring 3
Spring 3.2.14、4.1.7及4.2.RC2于6月30日发布。其中Spring 3.2.1是一个维护版本(维护周期到2016-12-31截止)，后续会继续根据需求和bug发布维护版本。此时，Spring官方强烈建议升级Spring框架至4.1.7 或者将要发布的4.2 。其中Spring 4.1.7主要包含这些更新内容。

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他