(partition) 第11页

聚类分析-K-means、层次聚类、DBSCAN、簇评估

聚类类型划分聚类（PartitionalClustering）层次聚类（HierarchicalCl

norah2·2024-01-05 18:06

kafka消息队列安装以及整合springboot使用

一路向北⁢·2024-01-05 17:24

RocksDB系列十四:Partitioned Index Filters

随着DB/mem使用越来越多，filter/indexblock的内存空间变得不可忽视。虽然cache_index_and_filter_blocks配置只允许filter/indexblock数据的一部分cache在blockcache中，但是还是会因为数据量的庞大影响RocksDB的性能。占据了过多的blockcache空间，这些空间本来可以用于缓存data当访问cachemiss时需要l

薛少佳·2024-01-05 17:48

sql面试题连续签到领金币（连续登录问题）

牛客面试题问题：计算每个用户2021年7月以来每月获得的金币数问题一：连续登录问题selectuid,date(in_time)asdt,row_number()over(partitionbyuidorderbydate

麻辣清汤·2024-01-05 17:09

统计sql中连续出现的次数

)的次数SQL语句selecta.uid,a.success,count(uid)astimesfrom(selectrecord_time,uid,success,row_number()over(partitionbyuid

与光同尘~追光者·2024-01-05 17:08

Kafka高级应用：如何配置处理MQ百万级消息队列？

本文，已收录于，我的技术网站ddkk.com，有大厂完整面经，工作技术，架构师成长之路，等经验分享1、合理配置分区//自定义分区策略publicclassCustomPartitionerimplementsPartitioner

架构师专栏·2024-01-05 13:59

Spark调优解析-spark数据倾斜优化2（七）

数据倾斜指的是，并行处理的数据集中，某一部分（如Spark或Kafka的一个Partition）的数据显著多于其它部分，从而使得该部分的处理速度成为整个数据集处理的瓶颈。

有语忆语·2024-01-05 12:53

分布式图文详解！

CAP原则又称CAP定理，指的是在一个分布式系统中，Consistency（一致性）、Availability（可用性）、Partitiontolerance（分区容错性）这3个基本需求，最多只能同时满足其中的

1b（￣▽￣）d　·2024-01-05 12:42

SparkCore基础解析（二）

1.2RDD的属性1)一组分区（Partition），即数据集的基本组成单位;2)一个计算每个分区的函数;3)RDD之间的依赖关系;4)一个Partitioner，即RDD的分片函

有语忆语·2024-01-05 10:58

分布式系统之CAP理论之详解

原本是一个猜想，2000年PODC大会的时候大牛Brewer提出的，他认为在设计一个大规模可扩放的网络服务时候会遇到三个特性：一致性（consistency）、可用性（Availability）、分区容错（partition-tolerance

weixin_33724659·2024-01-05 09:01

大数据开发者应该知道的分布式系统 CAP 理论

CAP理论概述CAP理论：一个分布式系统最多只能同时满足一致性（Consistency）、可用性（Availability）和分区容错性（Partitiontolerance）这三项中的两项。

Hadoop技术博文·2024-01-05 09:51

分布式系统的CAP理论详解

介绍CP系统是指在CAP理论中偏向于一致性（Consistency）和分区容错性（Partitiontolerance），牺牲了可用性（Availability）。

Memory_2020·2024-01-05 08:18

【Spark精讲】性能优化：并行度

Reduce端并行度RDD：参数：spark.default.parallelism手动：groupByKey(10)，10即为并行度SparkSQL：参数：spark.sql.shuffle.partitionsHiveonSpark

话数Science·2024-01-05 07:58

[算法笔记]NPC问题证明sample

前言一些概念一些例子Reductionto3-ColoringNPBasicsreducevertexcovertodominatingset另一个解法：reducesetcovertodominatingsetpartition

Cplus_ruler·2024-01-05 03:18

Leetcode|中等|区间贪心|763. 划分字母区间（双指针+哈希表助力合并重叠区间）

大方向双指针思路是对的，不过没有优化，所以复杂度较高，但能ACclassSolution{public:vectorpartitionLabels(stringS){if(S.empty())r

SL_World·2024-01-05 00:06

Hive基本使用（2）

hiveDML数据操作一、数据导入1.向表中装载数据（Load）语法：hive>loaddata[local]inpath‘数据的path’[overwrite]intotablestudent[partition

DIY……·2024-01-04 22:42

CentOS7部署Kafka

、代码集成pom.xmlapplication.propertiesKafkaConfiguration.javaKafkaConsumer.javaKafkaProducer.javaVehiclePartitioner

技术宅老谢·2024-01-04 18:14

（十一）数据分片(Sharding)和数据分区(PARTITIONing)简述

即便是MariaDB，也有一个想要处理大数据的心。虽然可能跟其它的例如HBase、Hive之类的比有些差异和不足，但并不影响壮志。简单列举两个要处理大量数据的例子：1、IoTSensorNetworks存取特性:很少大量写入，但多大量读取事务需求:少资料量:累积数量庞大2、AIMachineLearning领域搜集大量数据进行分析使用MariaDB处理大量数据，先来了解一下这两点。DATAShar

紫狐挽诗·2024-01-04 14:36

Spark---RDD算子(单值类型Value)

文章目录1.RDD算子介绍2.转换算子2.1Value类型2.1.1map2.1.2mapPartitions2.1.3mapPartitionsWithIndex2.1.4flatMap2.1.5glom2.1.6groupBy2.1.7filter2.1.8sample2.1.9distinct2.1.10coalesce2.1.11repartition2.1.12sortBy1

肥大毛·2024-01-04 11:16

oracle 子查询和窗口函数

selectid,name,subject,gradefrom(selectid,name,subject,grade,row_number()over(partitionbyid,nameor

赵 XiaoQin·2024-01-04 08:12

【hive】报错累积

6.1创建新表错误1：FAILED:SemanticException[Error10006]:Line1:63Partitionnotfound'"20210919"'场景：在创建例行表时，报错。

零壹贰伍·2024-01-04 08:59

基于rockpi4b启动流程(1)

rockchip-bsp最终编译出两个镜像，rk3399_loader_v1.12.112.bin和system.img烧录之后开机进入uboot命令行，看下partlist=>partlistmmc0PartitionMa

持续成长，保持快乐·2024-01-04 07:17

Kafka消息发送和消费的简化流程

image.png1、Producer，根据指定的partition方法（round-robin、hash等），将消息发布到指定Topic的Partition里面。

向梦而来·2024-01-04 07:39

消息队列核心-消息模型

目前消息队列有很多种，如kafaka、rocketMq、rabbitMq，所有消息队列的模型都比较类似，基本都包括像队列（Queue）、主题（Topic）或是分区（Partition）等概念。

ajajaj·2024-01-04 06:21

【Kafka每日一问】Kfaka拉取消息的请求体是什么样的，以及返回的消息结构是什么样的？

partitions:要拉取的分区列表，每个分区包含以下字段：partition:要拉取的分区号。fetch_offset:要拉取消息的偏移量。max_bytes:可选，表示要拉取的消息的最大字节

jianjun_fei·2024-01-04 01:58

增量预训练经验积累（2）

1、并行策略选择1.1并行方式验证和调优这个和集群很相关例如我目前在16台A800集群（每台机器8张80G显卡）上测的最佳3D并行策略的具体partition配置就和L40s集群不一样（和集群有关，和具体的模型也有关

GUANYX~·2024-01-03 22:24

3分钟看懂如何给开源项目发起提案

背景前段时间在使用Pulsar的adminAPI时，发现其中的一个接口响应非常慢：admin.topics().getPartitionedStats(topic);使用curl拿到的响应结果非常大，同时也非常耗时

白日梦批发商·2024-01-03 21:18

Kafka集群部署

在Kafka集群(Cluster)中，一个Kafka节点就是一个Broker，消息由Topic来承载，可以存储在1个或多个Partition中。

Minority·2024-01-03 21:18

【Spark精讲】RDD缓存源码分析

以HadoopRDD为例overridedefcompute(split:Partition,context:TaskC

话数Science·2024-01-03 18:08

Spark分区器HashPartitioner和RangePartitioner/全局排序

在Spark中，存在两类分区函数：HashPartitioner和RangePartitioner，它们都是继承自Partitioner，主要提供了每个

K. Bob·2024-01-03 18:34

【大数据面试知识点】分区器Partitioner：HashPartitioner、RangePartitioner

HashPartitioner分区的原理很简单，对于给定的key，计算其hashCode，并除于分区的个数取余，如果余数小于0，则用余数+分区的个数，最后返回的值就是这个key所属的分区ID；弊端是数据不均匀

话数Science·2024-01-03 18:02

分布式「走进分布式一致性协议」从2PC、3PC、Paxos 到 ZAB

设计一个分布式系统必定会遇到一个问题——因为分区容忍性（partitiontolerance）的存在，就必定要求我们需要在系统可用性（availability）和数据一致性（consistency）中做出权衡

sober_me·2024-01-03 17:03

sql——窗口范围之partition by 与 order by

partitionby关键字partitionby在开窗函数中，常用于表示某个分区，规则了数据的范围orderby关键字orderby常用于对分区内的数据进行排序，常见的情况下，orderby还能规定sql

劝学-大数据·2024-01-03 17:20

云应用系统开发技术考点（面试题相关）

小枫学IT·2024-01-03 14:18

统信UOS_麒麟KYLINOS上创建GPT分区

今天我要给大家带来的是在统信UOS及麒麟KYLINOS操作系统上创建GPT（GUIDPartitionTable）分区的教程。

鹏大圣运维·2024-01-03 14:59

698. 划分为k个相等的子集

698.划分为k个相等的子集状态压缩dpclassSolution{public:boolcanPartitionKSubsets(vector&nums,intk){intn=nums.size();

来到了没有知识的荒原·2024-01-03 10:58

CAP理论

CAP分别表示一致性（Consistency）、可用性（Availability）、分区容错性（Partitiontolerance）。

数据驱动生活·2024-01-03 10:41

Spark之Adaptive Query Execution

文章目录AdaptiveQueryExecutionCoalescingPostShufflePartitionsSplitingskewedshufflepartitionsConvertingsort-mergejointobroadcastjoinConvertingsort-mergejointoshuffledhashjoinOptimizingSkewJoin

zincooo·2024-01-03 09:16

kafka处理大量消息积压tips —— 筑梦之路

一、consumer导致kafka积压了大量消息场景：1.如果是Kafka消费能力不足，则可以考虑增加topic的partition的个数，同时提升消费者组的消费者数量，消费数=分区数（二者缺一不可）2

筑梦之路·2024-01-03 06:27

分区表创建及插入数据的操作

1、分区参数介绍hive.exec.dynamic.partition:是否启动动态分区。默认false。

孤城暮雨@·2024-01-03 04:18

1101 Quick Sort (排序)

1101QuickSort（25分）Thereisaclassicalprocessnamedpartitioninthefamousquicksortalgorithm.Inthisprocesswetypicallychooseoneelementasthepivot.Thentheelementslessthanthepivotaremovedtoitsleftandthoselargert

virgilshi·2024-01-03 02:25

Shuffle Read Time调优

shuffle发生在宽依赖，如repartition、groupBy、reduceByKey等宽依赖算子操作中，在这些操作中会对Dataset数据

初心江湖路·2024-01-03 02:59

SparkSQL Shuffle分区数目

运行程序时，查看WEBUI监控页面发现，某个Stage中有200个Task任务，也就是说RDD中200分区Partition可以设置在：配置文件：conf/spark-defaults.conf:spark.sql.shuffle.partitions100

飞Link·2024-01-03 02:29

698. 划分为k个相等的子集(中等)

https://leetcode.cn/problems/partition-to-k-equal-sum-subsets/给定一个整数数组nums和一个正整数k，找出是否有可能把这个数组分成k个非空子集

Rock在学习·2024-01-02 22:51

设计图分割算法的总结

2简介图划分（GraphPartitioning）是图论中的一个重要问题，旨在将一个图分割成多个部分或子图，使得划分后的子图之间的连接尽可能稀疏，而划分内部的连接尽可能稠密，这样能够实现分布式的应用。

黄芍药·2024-01-02 18:20

图分割算法之贪心算法

1贪心算法的思想LinearDeterministicGreedypartitioning(LDG)考虑在分割的时候将邻居结点放置在一起，以减少切割边。

黄芍药·2024-01-02 18:48

kotlin 过滤集合中的特定的元素

kotlin提供了过滤集合很方便过滤集合中特定的元素1如果是同一种类型的操作，建议使用filter或者是partition例如过滤出字符长度大于3的元素使用partitionvalnumbers=listOf

胡小牧·2024-01-02 14:37

88、Spark Streaming之输入DStream之Kafka数据源实战（基于Direct的方式）

替代掉使用Receiver来接收数据后，这种方式会周期性地查询Kafka，来获得每个topic+partition的最新的offset，从而定义每个batch的offset的范围。

ZFH__ZJ·2024-01-02 13:25

Linux操作系统（文件系统管理fdisk）

且传统的BIOS无法识别GPT（GUIDPartitionTable）分区表，只能识别MBR（MasterBootRecord）分区表。

艾特NND·2024-01-02 12:55

Spark内容分享(二十)：网易基于 Kyuubi + Spark 内核优化以及实践

目录ApacheSpark-AdaptiveQueryExecution/AQE1.AQE–History2.AQE–Shuffle3.AQE-SmallReducePartition4.AQE–SkewedReducePartition5

之乎者也··2024-01-02 10:21

推荐频道

(partition)