Spark知识笔记第2页

RDD 行动算子

在ApacheSpark中，RDD（弹性分布式数据集）是核心数据结构之一。行动算子会触发实际的计算并返回结果或执行某些操作。

阿强77·2025-03-12 03:02

讲一下Spark的shuffle过程

首先Spark的shuffle是Spark分布式集群计算的核心。Spark的shuffle可以从shuffle的阶段划分，shuffle数据存储，shuffle的数据拉取三个方面进行讲解。

冰火同学·2025-03-11 20:29

Spark常见面试题目（1）

Spark有哪几种部署的方式，谈谈方式都有哪些特点第一种是local本地部署,通常就是一台机器用于测试。

冰火同学·2025-03-11 20:58

Spark数据倾斜的问题

Spark数据倾斜业务背景Spark数据倾斜表现Spark的数据倾斜，包括SparkStreaming和SparkSQL，表现主要有下面几种：1、Excutorlost，OOM，Shuffle过程出错2

冰火同学·2025-03-11 20:58

PySpark实现导出两个包含多个Parquet数据文件的S3目录里的对应值的差异值分析

编写PySpark代码实现从一个包含多个Parquet数据文件的AmazonS3目录的dataframe数据里取两个维度字段，一个度量字段的数据，根据这两个维度字段的数据分组统计，计算度量字段的数据的分组总计值

weixin_30777913·2025-03-11 19:55

Hadoop、Spark和 Hive 的详细关系

Hadoop、Spark和Hive的详细关系1.ApacheHadoopHadoop是一个开源框架，用于分布式存储和处理大规模数据集。

夜行容忍·2025-03-11 18:46

大数据技术生态圈：Hadoop、Hive、Spark的区别和关系

大数据技术生态圈：Hadoop、Hive、Spark的区别和关系在大数据领域中，Hadoop、Hive和Spark是三个常用的开源技术，它们在大数据处理和分析方面发挥着重要作用。

雨中徜徉的思绪漫溢·2025-03-11 17:07

大数据面试之路 (一) 数据倾斜

Spark/MapReduce作业卡在某个阶段（如reduce阶段），日志显示少数Task处理大量数据。资源利用率不均衡（如CPU、内存集中在某些节点）。

愿与狸花过一生·2025-03-11 17:34

scala针对复杂数据源导入与分隔符乱码处理

和如何导入各种数据源文件一、非标准分隔符处理当数据源的分隔符混乱或不统一时（如,、|、\t混合使用），可采用以下方法：1.1动态检测分隔符//示例：自动检测前100行的常用分隔符valsampleLines=spark.read.text

Tometor·2025-03-11 11:45

C++算法竞赛常用STL知识笔记

最后更新于2024-11-15下标访问vector,deque,map可以用下标访问vectorstd::vectorv={1,2,3,4,5};intelement=v[2];//访问下标为2的元素，这里将得到3。dequestd::dequedq={21,22,23,24,25};intitem=dq[1];//访问下标为1的元素，这里将得到22。map特殊：1：如果下标对应的键已经存在于ma

a东方青·2025-03-10 18:37

Spark-TTS：基于大模型的文本语音合成工具

GitHub：https://github.com/SparkAudio/Spark-TTSSpark-TTS是一个先进的文本到语音系统，它利用大型语言模型（LLM）的强大功能进行高度准确和自然的语音合成

CITY_OF_MO_GY·2025-03-10 13:35

数据湖架构与实时数仓实践：Hudi、Iceberg、Kafka + Flink + Spark

1.引言：数据湖与数据仓库的融合趋势在大数据时代，传统的数据仓库（DataWarehouse,DW）因其强一致性和高效查询能力，一直是企业数据分析的核心。然而，随着数据量和数据类型的爆炸式增长，传统数据仓库的存储成本和数据管理难度逐渐增加。为了解决这些问题，数据湖（DataLake）概念应运而生。数据湖能够存储原始数据，支持半结构化和非结构化数据，提供更灵活的计算框架，但其缺乏事务管理和数据一致性

晴天彩虹雨·2025-03-10 03:22

大数据实战：Spark + Hive 逐笔计算用户盈亏

简介本文将通过使用Spark+Hive实现逐笔计算区块链上用户交易数据的盈亏需求。

WuJiWeb3·2025-03-10 00:56

分布式计算入门（PySpark处理NASA服务器日志）

目录分布式计算入门（PySpark处理NASA服务器日志）1.引言2.分布式计算概述2.1分布式计算的基本概念2.2ApacheSpark与PySpark3.NASA服务器日志数据集介绍3.1数据背景3.2

闲人编程·2025-03-09 19:16

Apache Spark: 大数据处理的利器对比与应用实例

本文已收录于《Python超入门指南全册》本专栏专门针对零基础和需要进阶提升的同学所准备的一套完整教学，从基础到精通不断进阶深入，后续还有实战项目，轻松应对面试，专栏订阅地址：https://blog.csdn.net/mrdeam/category_12647587.html优点：订阅限时19.9付费专栏，私信博主还可进入全栈VIP答疑群，作者优先解答机会（代码指导、远程服务），群里大佬众多可以

步入烟尘·2025-03-09 19:45

spark yum配置

yum配置Yum是一个linux工具，用来从网络上下载安装软件到CentOS操作系统中。先要确保虚拟机的网络是通畅的。（1）查看源yum中的源是指它从哪里去下载软件。把yum想象成你自己开的一家商场，那么yum的源就是你的供货商。通过yumrepolist命令可以去查看当前的供货商信息。（如果显示源信息是mirrorlist.centos.org（默认源），那就不能使用了。这个源已经失效了，就是你

Amu_Yalo·2025-03-09 19:42

Hadoop、Spark、Flink Shuffle对比

一、Hadoop的shuffle前置知识：Map任务的数量由Hadoop框架自动计算，等于分片数量，等于输入文件总大小/分片大小，分片大小为HDFS默认值128M，可调Reduce任务数由用户在作业提交时通过Job.setNumReduceTasks(int)设置数据分配到Reduce任务的时间点，在Map任务执行期间，通过Partitioner（分区器）确定每个键值对的目标Reduce分区。默认

逆袭的小学生·2025-03-09 10:55

Scala_Spark_RDD_parttwo

只做记录不展示结果(部分结果放在了代码的注释中)：packagespark_rddimportorg.apache.spark.sql.SparkSessionobjectrdd_fiveextendsApp

Gadaite·2025-03-09 07:53

Spark scala api（一）RDD编程

基础初始化sparkvalconf=newSparkConf().setAppName("wordcount")valsc=newSparkContext(conf)转化操作和行动操作的区别在于spark

weixin_42521881·2025-03-09 07:50

Scala 中生成一个RDD的方法

在Scala中，生成RDD（弹性分布式数据集）的主要方法是通过SparkContext（或SparkSession）提供的API。

闯闯桑·2025-03-09 06:35

大数据Flink（六十四）：Flink运行时架构介绍_flink中涉及到的大数据组件

从以Greenplum为代表的MPP（MassivelyParallelProcessing，大规模并行处理）架构，到Hadoop、Spark为代表的批处理架构，再到Storm、Flink为代表的流处理架构

2401_84181942·2025-03-09 03:39

大数据运维实战指南：零基础入门与核心技术解析（第一篇）

）系列文章目录第一篇：大数据运维概述与核心技能体系第二篇：Hadoop生态体系与集群部署实战第三篇：分布式存储系统运维与优化第四篇：资源调度框架YARN/K8s深度解析第五篇：实时计算框架Flink/Spark

emmm形成中·2025-03-09 01:19

spark集群，kafka集群和zookeeper的docker集群快速搭建

准备操作安装docker(宿主机)yuminstalldocker(宿主机时centos用yum管理包)systemctldaemon-reload(重加载deamon服务，是docker的核心)systemctlrestartdocker.service(重启docker服务)docker常用命令dockerps-a查看所有容器dockersearchUbuntu寻找Ubuntu的镜像docke

醉与浮·2025-03-08 15:05

大数据计算框架深入：Spark SQL、DataFrame、RDD 性能优化

1.引言ApacheSpark是当前最流行的大数据计算框架之一，其中SparkSQL、DataFrame和RDD（ResilientDistributedDataset）是数据处理的三大核心API。

晴天彩虹雨·2025-03-08 10:48

Spark单机伪分布式环境搭建、完全分布式环境搭建、Spark-on-yarn模式搭建

搭建Spark需要先配置好scala环境。三种Spark环境搭建互不关联，都是从零开始搭建。如果将文章中的配置文件修改内容复制粘贴的话，所有配置文件添加的内容后面的注释记得删除，可能会报错。

遇安.YuAn·2025-03-06 17:06

（一）spark是什么？

1.spark是什么？spark是一个用来实现快速，通用的集群计算平台spark适用于各种各样原先需要多种不同的分布式平台的场景，包括批处理，迭代算法，交互式查询，流处理。

一智哇·2025-03-05 11:21

spark hdfs 常用命令

目录lsrmgettext以下按照使用频率和使用先后顺序排序（纯个人习惯）ls列出hdfs文件系统路径下的目录和文件hdfsdfs-ls列出hdfs文件系统路径下所有的目录和文件hdfsdfs-ls-Rrmhadoopfs-rm...hadoopfs-rm-r...每次可以删除多个文件或目录getlocalfile不能和hdfsfile名字不能相同，否则会提示文件已存在，没有重名的文件会复制到本地

毛球饲养员·2025-03-05 11:19

常用spark命令

--spark启动localhost$spark-sql--masteryarn启动主节点yarn模式--查看hdfs文件hdfsdfs-ls/spark/myDatabase.db查看我们建的表其实是是建立在

会拉小提琴的左脚·2025-03-05 11:19

Spark详解二

八、Spark部署模式1、Local本地模式：运行于本地spark-shell--masterlocal[2]（local[2]是说，执行Application需要用到CPU的2个核）2、Standalone

卢子墨·2025-03-05 11:13

Spark基本命令

一、spark所在目录cdusr/local/spark二、启动spark/usr/local/spark/sbin/start-all.sh启动Hadoop以及Spark：bash.

chenworeng5605·2025-03-05 10:42

spark vi基本使用

打开文件与创建文件是Linux的内置命令，以命令的方式来运行。命令格式：vi/路径/文件名注意以下两种情况：1.如果这个文件不存在，此时就是新建文件，编辑器的左下角会提示：newfile2.如果文件已存在，此时就打开这个文件，进入命令模式。把文本内容添加到一个全新的文件的快捷方式：echo1>>1.txt三种模式vi编辑器有三种工作模式，分别为：命令模式，输入模式，底线模式。命令模式：所敲按键编辑

忧伤火锅麻辣烫·2025-03-05 10:09

Spark是什么？可以用来做什么？

ApacheSpark是一个开源的分布式计算框架，专为处理大规模数据而设计。它最初由加州大学伯克利分校开发，现已成为大数据处理领域的核心工具之一。

Bugkillers·2025-03-05 10:37

spark 常见操作命令

配置虚拟机配置即让自己的虚拟机可以联网，和别的虚拟机通讯一、配置vm虚拟机网段。具体设置为：虚拟机左上角点击编辑→虚拟网络编辑器选择VMnet8，要改动两个地方（注意：它会需要管理员权限）：1.子网IP改成192.168.10.02.NAT设置→192.168.10.2让所有的VM配置的虚拟机使用NAT时，它们的网段都是一致的。注意:这里的第三个部分的10并不是固定的，我们自己可以约定，但是

小冻梨！！！·2025-03-05 10:07

PySpark实现获取S3上Parquet文件的数据结构，并自动在Snowflake里建表和生成对应的建表和导入数据的SQL

PySpark实现S3上解析存储Parquet文件的多个路径，获取其中的数据Schema，再根据这些Schema，参考以下文本，得到创建S3路径Stage的SQL语句和上传数据到Snowflake数据库的

weixin_30777913·2025-03-05 08:25

37.索引生命周期管理—kibana 索引配置

37.1背景引入索引生命周期管理的一个最重要的目的就是对大量时序数据在es读写操作的性能优化如通过sparkstreaming读取Kafka中的日志实时写入es，这些日志高峰期每天10亿+，每分钟接近100w

大勇任卷舒·2025-03-04 23:42

通过spark-redshift工具包读取redshift上的表

spark数据源API在spark1.2以后，开始提供插件诗的机制，并与各种结构化数据源整合。

stark_summer·2025-03-04 22:02

大数据面试临阵磨枪不知看什么？看这份心理就有底了-大数据常用技术栈常见面试100道题

4Spark和HadoopMapReduce的区别是什么？5如何在Spark中实现数据的持久化？6SparkStreaming的工作原理是什么？7如何优化Spark作业的性能？

大模型大数据攻城狮·2025-03-04 21:59

Spark复习八：简述Spark运行流程以及Spark分区以及简述SparkContext

1.简述Spark运行流程：1.构建SparkApplication的运行环境,启动SparkContext2.SparkContext向资源管理器(可以是Standalone,Mesos,Yarm)申请运行

IT change the world·2025-03-04 21:28

Spark使用Parqute存储方式有什么好处

列式存储：压缩效率和查询效率谓词下推存储层：查询数据块生态兼容性高：Spark，hadoop等都兼容

冰火同学·2025-03-04 21:27

初学者如何用 Python 写第一个爬虫？

大数据技术：涵盖Hadoop（HDFS）、Hive、Spark

ADFVBM·2025-03-04 16:19

Spark架构都有那些组件

Spark组件架构主要采用主从结构，分别是driver驱动器，Excutor执行器,和clusterManager集群管理器这个三个架构组件其中driver驱动器主要负责spark执行Excutor的任务分配

冰火同学·2025-03-04 11:37

react核心知识笔记

react核心知识笔记10.6更新1、对象的不可变性：原理Object.freeze()不可扩展不可删除不可修改17+的版本扩展：Object.seal()不可扩展不可删除可以修改注意点：Object.freeze

wingchiehpih·2025-03-04 04:47

hive-staging文件问题——DataX同步数据重复

所以会在相应目录下生成hive-staging文件；2.Hive-sql任务执行过程中出现异常，导致hive-staging文件未删除，未出现异常时，hive会自行删除hive-staging文件；3.使用spark-sqlonyarn

Aldebaran α·2025-03-03 23:38

避免Hive和Spark生成HDFS小文件

Hive和spark-sql是两个在常用的大数据计算分析引擎，用户直接以SQL进行大数据操作，底层的数据存储则多由HDFS提供。

穷目楼·2025-03-03 22:36

机器学习_PySpark-3.0.3随机森林回归(RandomForestRegressor)实例

机器学习_PySpark-3.0.3随机森林回归(RandomForestRegressor)实例随机森林回归(RandomForestRegression):任务类型:随机森林回归主要用于回归任务。

Mostcow·2025-03-03 18:01

强者联盟——Python语言结合Spark框架

引言：Spark由AMPLab实验室开发，其本质是基于内存的快速迭代框架，“迭代”是机器学习最大的特点，因此非常适合做机器学习。

博文视点·2025-03-03 12:15

Spark技术系列（三）：Spark算子全解析——从基础使用到高阶优化

Spark技术系列（三）：Spark算子全解析——从基础使用到高阶优化1.算子核心概念与分类体系1.1算子本质解析延迟执行机制：转换算子构建DAG，行动算子触发Job执行任务并行度：由RDD分区数决定（

数据大包哥·2025-03-03 12:11

大数据经典技术解析：Hadoop+Spark大数据分析原理与实践

ApacheHadoop和ApacheSpark是目前主流开源大数据框架。由于其易于部署、高容错性、并行计算能力强、适应数据量大、可编程、社区支持广泛等特点，大大提升了大数据应用的效率和效果。

AI天才研究院·2025-03-03 10:27

Spark核心之06：知识点梳理

spark知识点梳理spark_〇一1、spark是什么spark是针对于大规模数据处理的统一分析引擎，它是基于内存计算框架，计算速度非常之快，但是它仅仅只是涉及到计算，并没有涉及到数据的存储，后期需要使用

小技工丨·2025-03-03 07:03

Airflow和PySPARK实现带多组参数和标签的Amazon Redshift数据仓库批量数据导出程序

设计一个基于多个带标签SQL模板作为配置文件和多组参数的PySPARK代码程序，实现根据不同的输入参数，用Airflow进行调度，自动批量地将AmazonRedshift数据仓库的数据导出为Parquet

weixin_30777913·2025-03-02 17:45

推荐频道

Spark知识笔记