Spark安装部署第38页

米哈游大数据云原生实践

以Spark为例，在云上运行Spark可以充分享有公共云的弹性资源、运维管控和存储服务等，并且业界也涌现了不少SparkonKubernetes的优秀实践。

阿里云云原生·2023-12-27 06:31

[spark] DataFrame 的 checkpoint

在ApacheSpark中，DataFrame的checkpoint方法用于强制执行一个物理计划并将结果缓存到分布式文件系统，以防止在计算过程中临时数据丢失。

言之。·2023-12-27 06:29

[spark] dataframe的cache方法

在ApacheSpark中，DataFrame的cache方法用于将DataFrame的计算结果缓存到内存中，以便在后续的操作中能够更快地访问这些数据。

言之。·2023-12-27 06:59

doris基本操作，03-导入数据-Broker Load

因为Doris表里的数据是有序的，所以Brokerload在导入数据的时是要利用doris集群资源对数据进行排序，相对于Sparkload来完成海量历史数据迁移，对Doris的集群资源占用要比较大，这种方式是在用户没有

车前猛跑·2023-12-27 05:46

【大数据HA】HAProxy实现thrift协议HMS服务的高可用-附Chatgpt协助截图

背景之前安装了HMS(Hivemetastoreservice)，独立于hive运行，安装部署过程见我下面列出的另一篇文章，需要为它建立HA高可用功能。防止在访问时出现单点故障问题。

秦拿希·2023-12-27 05:08

MongoDB ReplicaSet 部署

1.环境准备单机MongoDB安装部署，可参考MongoDB单机部署文档。IPHostnameRole172.16.104

Bing@DBA·2023-12-27 04:21

orc小文件合并趣谈

这里增量数据采用SparkSQL以动态分区增量写入的方

艾伦_alan·2023-12-27 01:02

分布式系统面试连环炮

他们有共同的一个问题，就是都没怎么搞过分布式系统，现在互联网公司，一般都是做分布式的系统，大家都不是做底层的分布式系统、分布式存储系统hadoophdfs、分布式计算系统hadoopmapreduce/spark

Java机械师·2023-12-26 23:13

为什么Spark比MapReduce快？

MapReduce慢是因为模型很呆板,频繁的Io操作Spark快的话不仅是因为它是内存迭代计算吧？具体什么是内存迭代计算？

tracy_668·2023-12-26 23:00

Linux（Centos7）下安装部署clickhouse（详细版）

1.clickhouse简介ClickHouse是俄罗斯的Yandex于2016年开源的列式存储数据库（DBMS），使用C++语言编写，主要用于在线分析处理查询（OLAP），能够使用SQL查询实时生成分析数据报告。2.ClickHouse的安装2.1确定防火墙处于关闭状态2.2CentOS取消打开文件数限制在/etc/security/limits.conf文件的末尾加入以下内容vim/etc/s

不爱吃香菜23.0·2023-12-26 22:16

DolphinScheduler 2.0.5详解

DolphinScheduler1.2DolphinScheduler特性1.3配置建议1.3.1Linux操作系统版本要求1.3.2服务器建议配置1.3.3生产环境1.3.4网络要求1.3.5客户端Web浏览器要求第二章DolphinScheduler安装部署

大数据东哥(Aidon)·2023-12-26 22:05

阿里云ECS安装部署nginx，前端在linux服务器安装使用nginx

记录一下阿里云ECS部署nginx，以及一些小小的坑。对于本篇文章大家有不理解的可以留言或私信，大家一起探讨共同进步！肯定是要先买个服务器了，我只是想玩玩，就买最便宜的就好了，够用。注意：买完需要重置一下密码，连接服务器需要输入密码；使用Xshell和Xftp或者MobaXterm连接服务器。服务器的系统我选择的是centOS，这里我是用的是MobaXterm，注意ip地址一定是公网ip，端口一般

大王在路上·2023-12-26 17:49

【Spark-HDFS小文件合并】使用 Spark 实现 HDFS 小文件合并

【Spark-HDFS小文件合并】使用Spark实现HDFS小文件合并1）导入依赖2）代码实现2.1.HDFSUtils2.2.MergeFilesApplication需求描述：1、使用Spark做小文件合并压缩处理

bmyyyyyy·2023-12-26 17:15

datasophon组件安装时踩坑记录

identifiedby'xxxx';1.安装hdfs后有一个namenode进程未启动解决：在那个未启动的节点上执行hdfsnamenode-bootstrapStandby之后在web页面重启hdfs2.hiveonspark

州周·2023-12-26 17:56

主流级显卡的新选择，Sparkle（撼与科技）Intel Arc A750兽人体验分享

如果要在ArcA系列当中选一个性能不俗，能够满足生产力与游戏需求，价格方面又不会太高的显卡，那么我手上的这张Sparkle（撼与科技）的IntelArcA750兽人OC显卡就是一个不错的选择。

资讯看点·2023-12-26 14:48

kafka安装部署

1、Kafka概述1.1.Kafka简介ApacheKafka是一个开源消息系统、一个开源分布式流平台，由Scala写成。是由Apache软件基金会开发的一个开源消息系统项目。Kafka最初是由LinkedIn开发，并于2011年初开源。2012年10月从ApacheIncubator毕业。该项目设计目标是为处理实时数据提供一个统一、高吞吐量、低等待的平台。Kafka是一个分布式消息队列：生产者、

Guff_hys·2023-12-26 14:00

Hive01_安装部署

Hive的安装上传安装包解压tarzxvfapache-hive-3.1.2-bin.tar.gzmvapache-hive-3.1.2-binhive解决Hive与Hadoop之间guava版本差异cd/export/software/hive/rm-rflib/guava-19.0.jarcpcp/export/software/hadoop/hadoop-3.3.0/share/hadoop

程序喵猴·2023-12-26 12:47

Windows搭建HDFS 2.6.0(附加搭建Hadoop)

Windows7JDK版本:1.8.0_221Hadoop版本:2.6.02.下载Hadoop官网下载image.pngimage.png3.前期准备3.1.配置JAVA环境变量image.pngimage.png4.安装部署

夹胡碰·2023-12-26 11:20

六：Spark集群安装和部署

ubuntu16.04系统；(2)Master节点：内存分配2g；Slave1节点：内存分配512MB；Slave2节点：内存分配512MB；2.安装路径：(1)Hadoop2.6.5：/usr/local/；(2)Spark2.6.0

玉成226·2023-12-26 10:21

MySQL 5.6 ,5.7 ,8.0在安装部署的异同

5.6.44二进制包安装部署解压到以下目录[root@oldboy~]#ll/usr/local/mysql56/drwxr-xr-x.2rootroot4096Jun311:20bin-rw-r--r

hanyist·2023-12-26 10:57

大数据Spark实战高手之路职业学习路线图

从零起步，分阶段无任何障碍逐步掌握大数据统一计算平台Spark，从Spark框架编写和开发语言Scala开始，到Spark企业级开发，再到Spark框架源码解析、Spark与Hadoop的融合、商业案例和企业面试

smileyboy2009·2023-12-26 10:56

hadoop3.0x 后要比spark快10倍！

smileyboy2009·2023-12-26 10:56

Java SparkSql 2.4.0 ArrayIndexOutOfBoundsException error

在spark2.4中报ArrayIndexOutOfBoundsException原因是Spark2.4.0中引用的paranamer版本是2.7导致问题。

smileyboy2009·2023-12-26 10:56

Iceberg1.4.2 java 表管理（DDL和DML）操作

既然是一种开放的表管理格式，那就不应该依赖hadoop，hive，spark，flink

smileyboy2009·2023-12-26 10:26

spark和flink对比

最近网上和各大公司在对比spark和flink,也有一部分人，演讲时不分析代码原理，不根据事实，直接吹嘘flink比spark好，flink能干掉spark的话，今天就跟大家从技术，应用和未来发展角度对两个产品进行对比

smileyboy2009·2023-12-26 10:25

iceberg1.4.2+spark3.4.2+minio

在idea里面编写iceberg的数据写入和创建表动作，虽然简单，但是官网没有给出完整例子，包括jar包的依赖。最大的坑就是版本不兼容。通过下面完整例子，编写Iceberg的完整代码。pom.xml文件需要引入的包org.scala-langscala-library${scala.version}junitjunit4.4testorg.specsspecs1.2.5testorg.apache

smileyboy2009·2023-12-26 10:25

idea开发delta.io数据湖

通过idea的spark操作delta.ideamaven的pom.xmlio.miniominio8.5.7org.apache.sparkspark-core_2.123.5.0o

smileyboy2009·2023-12-26 10:52

pycharm连接虚拟机

前言：我们默认用户已经在虚拟机上安装好了spark等相关集群和生态，是可以在虚拟机中运行相关的操作，比如mapper，reducer操作，rdd，dataframe等等杂七杂八的东西的(主要我也没太明白

俺会hello我的·2023-12-26 07:22

CentOS环境下Nacos2.3集成PostgreSQL

PostgreSQLdate:2023-12-2119:15:00categories:Nacosdescription:CentOS环境下Nacos2.3集成PostgreSQL1.目录1.目录2.简介3.安装部署

王老邪·2023-12-26 07:05

spark：RDD编程（Python版）

RDD运行原理RDD设计背景许多选代目前的MapReduce框架都是把中间结果写入到稳定存储(比如磁盘)中带来了大量的数据复制、磁盘IO和序列化开销RDD就是为了满足这种需求而出现的，它提供了一个抽象的数据架构，我们不必担心底层数据的分布式特性，只需将具体的应用逻辑表达为一系列转换处理，不同RDD之间的转换操作形成依赖关系，可以实现管道化，避免中间数据存储。RDD概念一个RDD就是一个分布式对象集

Mineba·2023-12-26 07:43

SpringBoot 2 集成Spark 3

在奋斗的大道·2023-12-26 06:12

iceberg1.4.2 +minio通过spark创建表，插入数据

下层支持hadoop，s3,对象存储，上层支持hive，spark，flink等应用。实现在中间把两部分隔离开来，实现一种对接和数据管理的标准。有这个标准，不管是谁建的表，都可以操作和访问。

smileyboy2009·2023-12-26 06:39

count distinct在spark中的运行机制

(*),SUM(items),COUNT(DISTINCTproduct),COUNT(DISTINCTcategory)FROMorders;假设源数据分布在两个1核的结点上，数据就8行Expandspark

SLUMBER_PARTY_·2023-12-26 06:08

【Linux系统基础】（6）在Linux上大数据NoSQL数据库HBase集群部署、分布式内存计算Spark环境及Flink环境部署详细教程

大数据NoSQL数据库HBase集群部署简介HBase是一种分布式、可扩展、支持海量数据存储的NoSQL数据库。和Redis一样，HBase是一款KeyValue型存储的数据库。不过和Redis设计方向不同Redis设计为少量数据，超快检索HBase设计为海量数据，快速检索HBase在大数据领域应用十分广泛，现在我们来在node1、node2、node3上部署HBase集群。安装HBase依赖Zo

老牛源码·2023-12-26 06:13

SparkCore

一、RDD详解1.1什么是RDDRDD（ResilientDistributedDataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，代表一个不可变、可分区、里面的元素可并行计算的集合。

weixin_50458070·2023-12-26 06:40

Hadoop——分布式计算

分布式计算常见的2种工作模式分散->汇总（MapReduce就是这种模式）将数据分片，多台服务器各自负责一部分数据处理然后将各自的结果，进行汇总处理最终得到想要的计算结果中心调度->步骤执行（大数据体系的Spark

weixin_50458070·2023-12-26 06:38

【Linux系统基础】（3）在Linux上部署运维监控Zabbix和Grafana

ZabbixServer、前端、Agentc.初始化Mysql数据库d.为ZabbixServer配置数据库e.配置Zabbix的PHP前端配置zabbix前端（WEBUI）运维监控Grafana部署简介安装部署形式安装配置说明配置文件注释配置文件路径使

老牛源码·2023-12-26 03:53

spark运行时异常：org.apache.spark.SparkException: Could not find CoarseGrainedScheduler.

org.apache.spark.SparkException:CouldnotfindCoarseGrainedScheduler.atorg.apache.spark.rpc.netty.Dispatcher.postMessage

安安DE爸爸·2023-12-25 23:00

spark启动程序命令

/spark-submit--masterspark://hive01:7077--deploy-modeclient--classorg.apache.spark.examples.SparkPi..

安安DE爸爸·2023-12-25 23:00

黑猴子的家：Spark RDD 之 Hadoop 输入输出（数据读取与保存的主要方式之一）

1、hadoopRDD和newHadoopRDDSpark的整个生态系统与Hadoop是完全兼容的,所以对于Hadoop所支持的文件类型或者数据库类型,Spark也同样支持.另外,由于Hadoop的API

黑猴子的家·2023-12-25 23:05

Docker部署开源分布式任务调度平台DolphinScheduler并实现远程访问办公

文章目录前言1.安装部署DolphinScheduler1.1启动服务2.登录DolphinScheduler界面3.安装内网穿透工具4.配置DolphinScheduler公网地址5.固定DolphinScheduler

手插口袋谁也不爱♡·2023-12-25 22:43

WinSCP本地安装部署并结合内网穿透实现远程连接服务器

文章目录1.简介2.软件下载安装：3.SSH链接服务器4.WinSCP使用公网TCP地址链接本地服务器5.WinSCP使用固定公网TCP地址访问服务器正文开始前给大家推荐个网站，前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站。1.简介Winscp是一个支持SSH(SecureSHell)的可视化SCP(SecureCopy)文件传输软件，它的主要功

不是笨小孩i·2023-12-25 21:29

计算机毕业设计之Spark+SpringBoot+Vue.js数字迎新系统小程序App 新生报到系统小程序App 新生缴费系统小程序App 大数据毕业设计

开发技术前端：vue.jsecharts后端：springboot+mybatis数据分析：Spark数据库：mysql配套资料配置教程、说明书、操作手册、源代码手册配套资料完整源码资料完整资料创新点Excel

计算机毕业设计大神·2023-12-25 21:35

Spark数据倾斜解决方案四：使用随机Key进行双重聚合

在使用reduceByKey，groupByKey算子时，都是针对PairRDD进行操作，那么，我们就可以PairRDD的每个元素的Key加上一个随机数前缀，这样的话，之前存在的大量相同而导致数据倾斜问题的Key就会被重新打散，从而避免数据倾斜。在进行第一轮聚合之前，先把原先的Key加上一个随机数前缀（10以内的就可以），然后对随机的Key进行聚合操作，这是可以看到，之前相同的Key都会被分到一个

hipeer·2023-12-25 20:55

Hadoop学习笔记[6]-MapReduce与Yarn安装部署流程

Hadoop学习笔记[6]-MapReduce与Yarn安装部署流程前面的文章已经对MR和Yarn做了基本介绍，本文主要介绍MR和Yarn的安装部署流程1、角色划分 NodeManager和DataNode

kinglinch·2023-12-25 19:09

【早安心语】

【2021-4-6】早安春夏秋冬Everyonehastimeswhentheyfeelthattheyarenotgoodenoughandwhentheyadmirethesparklesofothers

壹典心理咨询·2023-12-25 19:26

Spark - 动态注册UDF

昨天有位大哥问小弟一个Spark问题，他们想在不停Spark程序的情况下动态更新UDF的逻辑，他一问我这个问题的时候，本猪心里一惊，Spark**还能这么玩?

kikiki2·2023-12-25 16:04

2023_Spark_实验三十三：配置Standalone模式Spark3.4.2集群

实验目的：掌握SparkStandalone部署模式实验方法：基于centos7部署Sparkstandalone模式集群实验步骤：一、下载spark软件下载的时候下载与自己idea里对应版本的sparkNews

pblh123·2023-12-25 15:42

云计算与大数据之间的羁绊（期末不挂科版）：云计算 | 大数据 | Hadoop | HDFS | MapReduce | Hive | Spark

文章目录前言：一、云计算1.1云计算的基本思想1.2云计算概述——什么是云计算？1.3云计算的基本特征1.4云计算的部署模式1.5云服务1.6云计算的关键技术——虚拟化技术1.6.1虚拟化的好处1.6.2虚拟化技术的应用——12306使用阿里云避免了高峰期的崩溃1.6.3虚拟化的关键特征1.6.4虚拟化的HA指的是什么？1.6.5服务器虚拟化1.6.6虚拟机迁移1.6.6.1虚拟机实时迁移对云计算

春人.·2023-12-25 14:59

推荐频道

Spark安装部署

米哈游大数据云原生实践

[spark] DataFrame 的 checkpoint

[spark] dataframe的cache方法

doris基本操作，03-导入数据-Broker Load

【大数据HA】HAProxy实现thrift协议HMS服务的高可用-附Chatgpt协助截图

MongoDB ReplicaSet 部署

orc小文件合并趣谈

分布式系统面试连环炮

为什么Spark比MapReduce快？

Linux（Centos7）下安装部署clickhouse（详细版）

DolphinScheduler 2.0.5详解

阿里云ECS安装部署nginx，前端在linux服务器安装使用nginx

【Spark-HDFS小文件合并】使用 Spark 实现 HDFS 小文件合并

datasophon组件安装时踩坑记录

主流级显卡的新选择，Sparkle（撼与科技）Intel Arc A750兽人体验分享

kafka安装部署

Hive01_安装部署

Windows搭建HDFS 2.6.0(附加搭建Hadoop)

六：Spark集群安装和部署

MySQL 5.6 ,5.7 ,8.0在安装部署的异同

大数据Spark实战高手之路职业学习路线图

hadoop3.0x 后要比spark快10倍！

Java SparkSql 2.4.0 ArrayIndexOutOfBoundsException error

Iceberg1.4.2 java 表管理（DDL和DML）操作

spark和flink对比

iceberg1.4.2+spark3.4.2+minio

idea开发delta.io数据湖

pycharm连接虚拟机

CentOS环境下Nacos2.3集成PostgreSQL

spark：RDD编程（Python版）

SpringBoot 2 集成Spark 3

iceberg1.4.2 +minio通过spark创建表，插入数据

count distinct在spark中的运行机制

【Linux系统基础】（6）在Linux上大数据NoSQL数据库HBase集群部署、分布式内存计算Spark环境及Flink环境部署详细教程

SparkCore

Hadoop——分布式计算

最新ChatGPT商业运营网站程序源码，支持Midjourney绘画，GPT语音对话+DALL-E3文生图+文档对话总结

【Linux系统基础】（3）在Linux上部署运维监控Zabbix和Grafana

spark运行时异常：org.apache.spark.SparkException: Could not find CoarseGrainedScheduler.

spark启动程序命令

黑猴子的家：Spark RDD 之 Hadoop 输入输出（数据读取与保存的主要方式之一）

Docker部署开源分布式任务调度平台DolphinScheduler并实现远程访问办公

WinSCP本地安装部署并结合内网穿透实现远程连接服务器

计算机毕业设计之Spark+SpringBoot+Vue.js数字迎新系统小程序App 新生报到系统小程序App 新生缴费系统小程序App 大数据毕业设计

Spark数据倾斜解决方案四：使用随机Key进行双重聚合

Hadoop学习笔记[6]-MapReduce与Yarn安装部署流程

【早安心语】

Spark - 动态注册UDF

2023_Spark_实验三十三：配置Standalone模式Spark3.4.2集群

云计算与大数据之间的羁绊（期末不挂科版）：云计算 | 大数据 | Hadoop | HDFS | MapReduce | Hive | Spark