spark集群第11页

Kafka 如何保证数据不丢失？不重复

缺点：这样保证了高可用，但是这会导致集群的吞吐量不是很高，因为数据发送到broker之后，leader要将数据同步到fllower上，如果网

优秀后端工程师·2024-09-06 15:23

MySQL 高可用--PXC

1.PXC(PerconaXtradbCluster)Percona：基于MySQL数据库已二次开发的数据库产品xtradb：存储引擎Cluster：集群1.1概念：PXC是属于一套比较完美的MySQL

行走的猫儿·2024-09-06 15:52

每天一个数据分析题（五百一十四）- 决策树算法

D.叶结点（leafnode）数据分析认证考试介绍：点击进入题目来源于CDA模拟题库点击此处获取答案数据分析专项练习题库内容涵盖Python，SQL，统计学，数据分析理论，深度学习，可视化，机器学习，Spark

跟着紫枫学姐学CDA·2024-09-06 15:20

【Spark高级应用】使用Spark进行高级数据处理与分析

Spark高级应用使用Spark进行高级数据处理与分析引言在大数据时代，快速处理和分析海量数据是每个企业面临的重大挑战。

爱技术的小伙子·2024-09-06 10:47

spark读取csv文件

测试spark读取本地和hdfs文件frompyspark.sqlimportSparkSessionspark=SparkSession.builder\.appName("ExamplePySparkScript

静听山水·2024-09-06 10:44

SparkStreaming业务逻辑处理的一些高级算子

packagecom.sparkscala.streamingimportorg.apache.log4j.{Level,Logger}impor

看见我的小熊没·2024-09-06 09:43

Spark一些个人总结

文章目录前言一、Spark是什么二、Spark用来做什么三、Spark的优势是什么四、为什么用Spark五、Spark解决了什么问题总结前言随着大数据技术的发展，一些更加优秀的组件被提了出来，比如现在最常用的

易逑实战数据·2024-09-06 09:39

spark任务优化参数整理

以下参数中有sql字眼的一般只有spark-sql模块生效，例外的时候会另行说明，此外由于总结这些参数是在不同时间段，当时使用的spark版本也不一样，因此要注意是否有效，如果本博主已经试过的会直接说明

尘世壹俗人·2024-09-06 09:08

Kafka-设计原理

ControllerLeader-PartitionRebalance消息发布机制HW与LEO日志分段ControllerKafka核心总控制器Controller：在Kafka集群中会有一个或者多个broker

姜希成·2024-09-06 07:59

Spark与Kafka进行连接

在Java中使用Spark与Kafka进行连接，你可以使用SparkStreaming来处理实时流数据。以下是一个简单的示例，展示了如何使用SparkStreaming从Kafka读取数据并进行处理。

傲雪凌霜，松柏长青·2024-09-06 07:27

芯擎SEC1000支持摄像头和屏幕的数量根据分辨率和帧率详细计算

1.CPU集群4×Cortex-A76和4×Cortex-A55:Cor

空间机器人·2024-09-06 06:53

Spark入门：KMeans聚类算法

聚类（Clustering）是机器学习中一类重要的方法。其主要思想使用样本的不同特征属性，根据某一给定的相似度度量方式（如欧式距离）找到相似的样本，并根据距离将样本划分成不同的组。聚类属于典型的无监督学习（UnsupervisedLearning）方法。与监督学习（如分类器）相比1，无监督学习的训练集没有人为标注的结果。在非监督式学习中，数据并不被特别标识，学习模型是为了推断出数据的一些内在结构。

17111_Chaochao1984a·2024-09-06 05:46

Spark MLlib模型训练—聚类算法 K-means

SparkMLlib模型训练—聚类算法K-meansK-means是一种经典的聚类算法，广泛应用于数据挖掘、图像处理、推荐系统等领域。

不二人生·2024-09-06 04:14

Spark MLlib模型训练—聚类算法 Bisecting K-means

SparkMLlib模型训练—聚类算法BisectingK-means由于传统的KMeans算法的聚类结果易受到初始聚类中心点选择的影响，因此在传统的KMeans算法的基础上进行算法改进，对初始中心点选取比较严格

不二人生·2024-09-06 04:14

k8s pod container内存指标说明

一、问题描述我司平台研发的devops平台底层采用k8s实现，k8s自带cadvisor进行集群指标收集，根据官网，我们选用了container_memory_working_set_bytes（容器的工作集使用量

yifeiliu338·2024-09-06 04:43

DAG (directed acyclic graph) 作为大数据执行引擎的优点

TL;DR-ConceptuallyDAGmodelisastrictgeneralizationofMapReducemodel.DAG-basedsystemslikeSparkandTezthatareawareofthewholeDAGofoperationscandobetterglobaloptimizationsthansystemslikeHadoopMapReducewhicha

joeywen·2024-09-06 04:43

Spark的Web界面

http://localhost:4040/jobs/在顶部导航栏上，可以点击以下选项来查看不同类型的Spark应用信息：Jobs-此视图将列出所有已提交的作业，并提供每个作业的详细信息，如作业ID、名称

静听山水·2024-09-06 04:40

python分布式集群ray_GitHub - Leesire-Python/jd_spider: 两只蠢萌京东的分布式爬虫.

实现scrapy-redis对进行url的去重以及调度，利用redis的高效和易于扩展能够轻松实现高效率下载：当redis存储或者访问速度遇到瓶颈时，可以通过增大redis集群数和爬虫集群数量改善版本支持现在支持

weixin_39781930·2024-09-06 00:17

云计算之云数据库

云数据库：架构在云端数据库集群上，通过云服务的方式让关系型数据库的可靠性更高，免去繁琐的维护工作，节约硬件成本，其具备以下特点：云数据库特点：1：管理方便：可以自动备份、弹性扩展。

weixin_34320724·2024-09-06 00:17

最全金融数据_PySpark-3(2)，大数据开发学习的三个终极问题及学习路线规划

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新需要这份系统化资料的朋友，可以戳这里获取frompyspark.ml.evaluationimportBinaryClassificationEv

2401_84185145·2024-09-05 23:38

文章汇总 | 2018

12月RIA便签学习法10月财富最好的定义Spark分布式原理及碰到的三个坑在不断解决问题(矛盾)的过程进步9月《韭菜的自我修养》-股票交易是零和游戏吗?

学习之术·2024-09-05 22:27

Ingest Pipeline & Painless Script

包含3个字段，tags用逗号间隔PUTtech_blogs/_doc/1{"title":"Introducingbigdata......","tags":"hadoop,elasticsearch,spark

折纸虚桐·2024-09-05 22:03

Spark作业提交

一.作业提交1.1作业提交模式spark作业提交使用spark-submit命令，作业提交模式有cluster和client两种。

Tom无敌宇宙猫·2024-09-05 22:26

Spark基础

一.基础1.RDD机制 1.rdd分布式弹性数据集，简单的理解成⼀种数据结构，是spark框架上的通⽤货币。所有算⼦都是基于rdd来执⾏的，不同的场景会有不同的rdd实现类，但是都可以进⾏互相转换。

Tom无敌宇宙猫·2024-09-05 22:26

字节跳动10万节点HDFS集群多机房架构演进之路(1)

如何高效运维如此超大规模的集群要回答这些问题需要HDFS从多个方向迭代优化，例如DanceNN的上线、运维平台的建设等，本文不会介绍字节跳动HDFS所有的演进方案，而是聚焦在HDFS多机房架构的演进策略上

2401_84122782·2024-09-05 21:23

GBase 8c 分布式核心技术—CDC数据同步

作为一款分布式数据库，GBase8c可轻松实现例如两地三中心架构的集群异地灾备。GBase8c异地灾备集群间的不同节点采用各自对应的高可用部署方式，两地间采用同步或者异步复制的备份方式。

manhuai2022·2024-09-05 19:11

TiDB备份与恢复简介

本文档介绍如何对Kubernetes上的TiDB集群进行数据备份和数据恢复。备份与恢复中所使用的工具有Dumpling、TiDBLightning和BR。

每天读点书学堂·2024-09-05 18:31

腾讯，干掉 Redis 项目，正式开源、太牛逼啦

集群架构Tendis使用去中心化集群架构，每个数据节点都拥有全部的路由信息，用户可以访问集

六月·飞雪·2024-09-05 17:53

Apache Spark简介

ApacheSpark是一个快速而通用的数据处理引擎，用于大规模数据处理和分析。它是由加州大学伯克利分校研究实验室开发的开源项目。

不知名的小Q·2024-09-05 17:52

腾讯云数据库（Redis）监控最佳指南

云数据库Redis服务兼容Redis2.8、Redis4.0、Redis5.0版本协议，提供标准和集群两大架构版本。

Tencent_Monitor·2024-09-05 16:21

K8s介绍及离线安装

Kubernetes是Google开源的容器集群管理系统，使用Golang开发，其提供应用部署、维护、扩展机制等功能，利用Kubernetes能方便地管理跨机器运行容器化的应用，其主要功能如下：使用Docker

wang5798·2024-09-05 16:51

spark streaming优点和缺点

优点：sparkstreaming会被转化为spark作业执行，由于spark作业依赖DAGScheduler和RDD，所以是粗粒度方式而不是细粒度方式，可以快速处理小批量数据，获得准实时的特性；以spark

scott_alpha·2024-09-05 15:42

1+X云计算运维与开发(中级)实战案例——Kafka集群部署

前言Kafka是一种开源的流处理平台和消息系统，被设计用于构建实时数据管道和流式应用程序，可以处理大规模的实时数据流，并提供高吞吐量、持久性存储和分布式处理能力。在实时数据处理、日志聚合、指标监控、事件驱动架构等场景下，Kafka有着广泛的应用。它的高性能、可扩展性以及丰富的功能使其成为了大数据领域中的重要工具之一。Kafka中发布订阅的对象是topic。用户可以为每类数据创建一个topic，把向

kuuuugua·2024-09-05 15:41

ORACLE之RAC集群常用命令

ORACLE之RAC集群常用命令RAC的守护进程/etc/init.d/init.ohasdRAC的日常管理命令1）节点层2）网络层3）集群层4）应用层节点层olsnodes-n-p-i--这个命令用来显示集群点列表检查集群节点

XiaoHG_CSDN·2024-09-05 13:01

Spark

Spark是一个快速的、通用的集群计算系统，主要用于大规模数据处理。它最早由加州大学伯克利分校的AMPLab开发，并于2010年开源，后来由Apache软件基金会管理。

傲雪凌霜，松柏长青·2024-09-05 11:20

Windows系统下的Spark环境配置

一：Spark的介绍ApacheSpark是一个开源的分布式大数据处理引擎，它提供了一整套开发API，包括流计算和机器学习。

eeee~~·2024-09-05 11:19

Hadoop-MapReduce机制原理

Reduce阶段步骤：7、MapReduce阶段图1、MapReduce概述 HadoopMapReduce是一个分布式计算框架，用于轻松编写分布式应用程序，这些应用程序以可靠，容错的方式并行处理大型硬件集群

H.S.T不想卷·2024-09-05 11:46

kafka消费者重复消费同一个topic

场景是sparkstreaming消费kafka数据在这里sparkstream和kafka都是单节点的集群模式。同时起两个不同的groupid的应用，发现会发生后起来的应用消费不到数据。

小琳ai·2024-09-05 10:06

k8s访问外部mysql_Kubernetes连接外部数据源

Kubernetes架构下比较核心的问题是数据如何persistance,虽然提供了Persistentvolumn的方式，但是对于像数据库之类的产品在kubernetes集群环境中运行和管理还是很有难度的

健玮·2024-09-05 08:24

负载均衡的详细说明

当一台服务器的性能达到极限时，我们可以使用服务器集群来提高网站的整体性能。那么，在服务器集群中，需要有一台服务器充当调度者的角色，用户的

submarineas·2024-09-05 08:23

2、mysql-canal-zk-kafka-es数据同步

方案总体介绍：通过zookeeper管理canal和kafka集群,zk本身也做集群配置；通过canal作为mysql的从库实时读取binlog，然后将数据以json格式发送到kafka平台，会有一个专门消费

kobe0429·2024-09-05 08:01

k8s调度器Scheduler

k8s调度器SchedulerKubernetesScheduler（简称k8sScheduler）是Kubernetes集群中的一个核心组件，它负责将Pod调度到合适的Node上运行，以实现集群资源的优化分配和负载均衡

条纹布鲁斯·2024-09-05 07:51

大数据生态圈里的一致性算法

Paxos选举算法Paxos是最先解决拜占庭将军问题的算法，利用过半选举的机制，保证了集群数据副本的一致性（微服务中服务注册与发

宇宙湾·2024-09-05 07:35

学习笔记：服务器的负载均衡

服务器集群•处理业务的服务器组成服务器集群，对外体现为一台逻辑上的服务器，由FW决定如何分配流量给各个服务器。服务器负载均衡技术的一

TKE_yinian·2024-09-05 07:50

centos安装k8s集群（kubeadm方式）

目录前言生产环境部署k8s集群的两种方式服务器初始化、环境准备使用kubeadm安装k8s（本篇讲解使用kubeadm安装k8s）后记-k8s使用外部etcd集群前言环境：centos7.9docker-ce

MssGuo·2024-09-05 07:20

Hbase BulkLoad用法

要导入大量数据，Hbase的BulkLoad是必不可少的，在导入历史数据的时候，我们一般会选择使用BulkLoad方式，我们还可以借助Spark的计算能力将数据快速地导入。

kikiki2·2024-09-05 07:29

Kubernetes学习指南：保姆级实操手册05——配置集群HA负载均衡

五、Kubernetes学习指南：保姆级实操手册05——配置集群HA负载均衡简介：Keepalived提供VRRP实现，并允许您配置Linux机器使负载均衡，预防单点故障。

小黑_深呼吸·2024-09-05 07:17

mysql的主从复制延迟问题

mysql的主从复制延迟问题https://blog.csdn.net/qq_41683000/article/details/125436839一主一从，双主双从的mysql集群搭建，在单机应用的时候看起来没有问题

wowocpp·2024-09-05 00:06

EMR组件部署指南

本文将详细介绍如何部署EMR的主要组件,包括:JDK1.8ElasticsearchKafkaFlinkZookeeperHBaseHadoopPhoenixScalaSparkHive准备工作所有操作都在

ivwdcwso·2024-09-05 00:05

9.2 spark内存管理之 UnifiedMemoryManager

图片来源https://www.ibm.com/developerworks/cn/analytics/library/ba-cn-apache-spark-memory-management/index.html1

GongMeng·2024-09-04 20:46

推荐频道

spark集群