---SparkCore

如何使用Spark Streaming

一、什么叫SparkStreaming基于SparkCore，大规模、高吞吐量、容错的实时数据流的处理二、SparkStreaming依赖org.apache.sparkspark-streaming_

会探索的小学生·2025-02-02 00:46

4 Spark Streaming

TTXS123456789ABC·2025-02-01 23:43

Windows系统下的Spark环境配置

Spark提供了多个核心组件，包括：SparkCore：提供内存计算的能力

eeee~~·2024-09-05 11:19

入门篇 - Spark简介

Spark核心模块image.pngSparkCore:提供了Spark最基础与最核心的功能，Spark其他的功能如:SparkSQL，SparkStreaming，GraphX,MLlib都是在SparkCore

君子何为·2024-02-12 10:22

深入理解Spark的前世今生

Spark包含了大数据领域常见的各种计算框架：比如SparkCore用

闲云野鹤~~~·2024-02-08 14:01

Spark Chapter 8 Spark SQL

【参考以慕课网日志分析为例进入大数据Sparksql】0导读SQL：MySQL，Oracle，DB2，SQLServer在大数据平台上实现大数据计算：Hive/SparkSQL/SparkCore直接使用

深海suke·2024-02-07 01:34

Spark简介

我用到的主要是SparkCore,SparkSQL,SparkStreaming。Spark以Rdd作为基础，Rdd是一个分布式的容器，类似于java中的String数组，但是它是分布式的。

麦克阿瑟99·2024-02-06 18:07

大数据组件笔记 -- Spark 入门

Spark框架Spark内置模块SparkCore：实现了Spark的基本功能

L小Ray想有腮·2024-02-03 15:53

2019-03-16 Spark基本架构及运行原理

SparkCore:包含Spark的基本功能，包含任务调度，内存管理，容错机制等，内部定义了RDDs(弹性分布式数据集)，提供了很多APIs来创建和操作这些RDDs。为其他组件提供底层的服务。

做一只乐观的小猴子·2024-02-03 02:04

大数据 - Spark系列《一》- 从Hadoop到Spark：大数据计算引擎的演进

目录1.1Hadoop回顾1.2spark简介1.3Spark特性1.通用性2.简洁灵活3.多语言1.4SparkCore编程体验1.4.1spark开发工程搭建1.开发语言选择：2.依赖管理工具：1.4.2Spark

王哪跑nn·2024-02-01 07:43

SparkCore之RDD---弹性分布式数据集

目录：RDD的设计与运行原理一、RDD设计背景二、RDD概念1.什么是RDD？2.RDD的属性三、RDD特点1.可分区2.不可变3.依赖关系4.缓存（cache）5.检测点（CheckPoint）四、RDD的创建1.通过并行化的方式创建RDD2.读取文件生成RDD3.通过其他RDD转换五、RDD运行过程RDD的设计与运行原理Spark的核心是建立在统一的抽象RDD上的，使得Spark的各个组件可以

孤独の√ 3·2024-01-30 15:09

Spark 的架构与组件

Spark的核心组件包括SparkCore、SparkSQL、SparkStreaming和MLlib等。本文将详细介绍Spark的架构和组件，并分析其优势和挑战。

OpenChat·2024-01-29 21:24

Spark-core

什么是SparkSpark是基于内存的快速，通用，可扩展的大数据分析引擎Spark的内置模块SparkCore是Spark可以离线处理的部分，实现了spark的基本功能，包含任务调度，错误恢复，与存储系统交互等模块

luckboy0000·2024-01-27 23:12

Pyspark

文章目录一、SparkCore1.SparkContext:2.SparkSession3.RDD4.Broadcast、Accumulator:5.Sparkconf6.SparkFiles7.StorageLevel

李明朔·2024-01-23 12:24

(转)Spark Streaming遇到问题分析

github.com/lw-lin/Coo...2、Spark的Job与Streaming的Job有区别及StreamingJob并发控制：先看看SparkStreaming的JobSet,Job，与SparkCore

达微·2024-01-22 20:06

Spark面试题

1.sparkcore1.简述hadoop和spark的不同点（为什么spark更快）♥♥♥ shuffle都是需要落盘的，因为在宽依赖中需要将上一个阶段的所有分区数据都准备好，才能进入下一个阶段，那么如果一直将数据放在内存中

韩顺平的小迷弟·2024-01-21 06:53

Spark详解

核心架构SparkCore包含Spark的基本功能；尤其是定义RDD的API、操作以及这两者上的动作。

武昌库里写JAVA·2024-01-16 21:15

Spark-之自定义wordCount累加器

Spark-之自定义wordCount累加器SparkCore中的3种数据类型：累加器（只写）RDD广播变量（只读）累加器在多个action算子触发的job中重复累加，且需要action算子才能触发累加器操作

稳哥的哥·2024-01-14 09:01

71、Spark SQL之JDBC数据源复杂综合案例实战

读取的数据，依然由DataFrame表示，可以很方便地使用SparkCore提供的各种算子进行处理。实际上用SparkSQL处理JDBC中的数据是非常有用的。

ZFH__ZJ·2024-01-12 18:37

SparkCore阶段练习

阶段练习查看数据集格式明确需求明确步骤读取文件抽取需要的列以年月为基础，进行reduceByKey统计Dongsi地区的PM排序获取结果编码拷贝数据集data.rar（已上传资源——SparkCore阶段练习数据集

我像影子一样·2024-01-10 16:44

2024.1.8 Day04_SparkCore_homeWork

目录1.简述Spark持久化中缓存和checkpoint检查点的区别2.如何使用缓存和检查点?3.代码题浏览器Nginx案例先进行数据清洗,做后续需求用1、需求一：点击最多的前10个网站域名2、需求二：用户最喜欢点击的页面排序TOP103、需求三：统计每分钟用户搜索次数学生系统案例4.RDD依赖的分类5.简述DAG与Stage形成过程DAG:Stage:1.简述Spark持久化中缓存和checkp

白白的wj·2024-01-09 07:37

Spark SQL（六）：JDBC数据源

读取的数据，依然由DataFrame表示，可以很方便地使用SparkCore提供的各种算子进行处理。实际上使用SparkSQL处理JDBC中的数据是非常有用的。

雪飘千里·2024-01-05 11:12

Spark基础解析（一）

1、Spark概述1.1什么是Spark1.2Spark内置模块SparkCore：实现了Spark的基本功能，包含任务调度、内存管理、错误恢复、与存储系统交互等模块。

有语忆语·2024-01-05 10:04

SparkCore基础解析（二）

1、RDD概述1.1什么是RDDRDD（ResilientDistributedDataset）叫做分布式数据集，是Spark中最基本的数据抽象。代码中是一个抽象类，它代表一个不可变、可分区、里面的元素可并行计算的集合。1.2RDD的属性1)一组分区（Partition），即数据集的基本组成单位;2)一个计算每个分区的函数;3)RDD之间的依赖关系;4)一个Partitioner，即RDD的分片函

有语忆语·2024-01-05 10:58

Spark与PySpark(1.概述、框架、模块)

目录1.Spark概念2.Hadoop和Spark的对比3.Spark特点3.1运行速度快3.2简单易用3.3通用性强3.4可以允许运行在很多地方4.Spark框架模块4.1SparkCore4.2SparkSQL4.3SparkStreaming4.4MLlib4.5GraphX5

还是那个同伟伟·2023-12-27 18:06

SparkCore

一、RDD详解1.1什么是RDDRDD（ResilientDistributedDataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，代表一个不可变、可分区、里面的元素可并行计算的集合。Dataset：一个数据集合，用于存放数据的。Distributed：RDD中的数据是分布式存储的，可用于分布式计算。Resilient：RDD中的数据可以存储在内存中或者磁盘中。1.2RDD的五大

weixin_50458070·2023-12-26 06:40

Spark Core

SparkCore介绍SparkCore是Spark的核心计算引擎。它有着速度快和通用的特点，并且实现了Spark的基本功能，包含任务调度，内存管理，错误恢复，与存储交互等模块。

hipeer·2023-12-23 15:35

###好好好######Spark GraphX处理图数据

我们已经了解了如何将ApacheSpark应用于处理批数据（SparkCore）以及处理实时数据（SparkStreaming）。有时候，所需处理的数据是很自然地联系在一起的。

mishidemudong·2023-12-21 11:03

大数据之Spark（4）- SparkCore(下)

1RDD编程1.1Action算子1.1.1reduce(func)作用：通过func函数聚集RDD中的所有元素，先聚合分区内数据，再聚合分区间数据。需求：创建一个RDD，将所有元素聚合得到结果。（1）创建一个RDD[Int]scala>valrdd1=sc.makeRDD(1to10,2)rdd1:org.apache.spark.rdd.RDD[Int]=ParallelCollectionR

jackyan163·2023-12-21 02:23

sparksql介绍

1.1SparkSQL介绍SparkSQL，顾名思义，就是Spark生态体系中的构建在SparkCore基础之上的一个基于SQL的计算模块。

Guff_hys·2023-12-20 16:25

Spark---SparkCore(五)

五、SparkShuffle文件寻址1、Shuffle文件寻址1）、MapOutputTrackerMapOutputTracker是Spark架构中的一个模块，是一个主从架构。管理磁盘小文件的地址。MapOutputTrackerMaster是主对象，存在于Driver中。MapOutputTrackerWorker是从对象，存在于Excutor中。2）、BlockManagerBlockMan

30岁老阿姨·2023-11-30 13:52

Spark---SparkCore（四）

三、SparkMasterHA1、Master的高可用原理Standalone集群只有一个Master，如果Master挂了就无法提交应用程序，需要给Master进行高可用配置，Master的高可用可以使用fileSystem(文件系统)和zookeeper（分布式协调服务）。fileSystem只有存储功能，可以存储Master的元数据信息，用fileSystem搭建的Master高可用，在Ma

30岁老阿姨·2023-11-30 12:32

Spark---SparkCore（三）

一、Spark广播变量和累加器1、广播变量1）、广播变量理解图2）、广播变量使用valconf=newSparkConf()conf.setMaster("local").setAppName("brocast")valsc=newSparkContext(conf)valbroadCast=sc.broadcast(list)vallineRDD=sc.textFile("./words.txt

30岁老阿姨·2023-11-29 07:08

Spark---SparkCore（二）

四、补充算子1、transformations类算子mapPartitionWithIndex类似于mapPartitions,除此之外还会携带分区的索引值。repartition增加或减少分区。会产生shuffle。（多个分区分到一个分区不会产生shuffle）coalescecoalesce常用来减少分区，第二个参数是减少分区的过程中是否产生shuffle。true为产生shuffle，fal

30岁老阿姨·2023-11-29 07:08

Spark Streaming【数据流处理原理分析】

SparkStreaming底层是SparkCore。SparkStreaming流处理框架SparkStreaming原理首先SparkStreaming前面也说到了是对数据流的处理。

Smile to everyday·2023-11-29 07:29

Spark面试题集锦

包含Sparkcore、Sparksql、Sparkstreaming、SparkMLlib、sparkGraphX五个核心组件。2、Spark的核心组件是什么？

猿界零零七·2023-11-28 09:53

Spark Core源码精读计划#18：与RDD的重逢

抽象类概述构造方法与成员属性需要RDD子类实现的方法RDD的五要素RDD继承体系与算子概述RDD的子类转换算子动作算子总结前言在前面的17篇文章中，我们对以SparkContext和SparkEnv为中心展开的SparkCore

LittleMagic·2023-11-27 07:33

Spark---SparkCore（一）

一、术语与宽窄依赖1、术语解释1、Master(standalone):资源管理的主节点（进程）2、ClusterManager:在集群上获取资源的外部服务(例如：standalone,Mesos,Yarn)3、WorkerNode(standalone):资源管理的从节点(进程)或者说管理本机资源的进程4、DriverProgram:用于连接工作进程(Worker)的程序5、Executor:是

30岁老阿姨·2023-11-25 01:20

Spark设计理念与基本架构

易于使用支持查询支持流式计算可用性高丰富的数据源支持模块：SparkCore+SparkSQL+S

whynotybb·2023-11-24 02:29

Spark（三）【SparkCore】- Spark 转换算子、行动算子、持久化算子、代码流程

1.Transformations转换算子1.1概念：Transformations类算子是一类算子（函数）叫做转换算子，如map,flatMap,reduceByKey等。Transformations算子是延迟执行，也叫懒加载执行。1.2Transformation类算子：filter过滤符合条件的记录数，true保留，false过滤掉。map将一个RDD中的每个数据项，通过map中的函数映射

plenilune-望月·2023-11-23 11:59

2011-2022年高职大数据竞赛-赛题内容

离线数据统计第五部分赛题模拟实现-数据采集与实时计算第六部分赛题模拟实现-数据可视化第一部分竞赛内容赛项以大数据技术与应用为核心内容和工作基础，重点考查参赛选手基于Spark、Flink平台环境下，充分利用SparkCore

xlw2003·2023-11-19 21:54

大数据Spark学习笔记—sparkcore

目录Spark概述核心模块Spark编程配置IDEA配置scala环境WordCount案例Spark-Standalone运行环境Local配置步骤集群分工解压文件修改配置启动集群配置历史服务器Spark-Yarn运行环境配置步骤配置历史服务器Windows运行环境配置步骤常用端口号Spark架构核心组件DriverExecutorMaster&WorkerApplicationMasterHa

Int mian[]·2023-11-15 03:12

20210127_spark学习笔记

SparkCore是spark平台的基础通用执行引擎，所有其他功能都是基于。它在外部存储系统中提供内存计算和引用数据集。

yehaver·2023-11-15 03:42

大数据之Spark调优：Explain 查看执行计划

SparkSQL取代SparkCore，成为新一代的引擎内核，所有其他子框架如Mllib、Streaming和Graph，都可以共享SparkSQL的性能优化，都能从Spark社区对于SparkSQL的投入中受益

浊酒南街·2023-11-14 06:17

Spark的执行计划

SparkSQL取代SparkCore，成为新一代的引擎内核，所有其他子框架如Mllib、Streaming和Graph，都可以共享SparkSQL的性能优化，都能从Spark社区对于SparkSQL的投入中受益

shangjg3·2023-11-12 05:52

SparkCore和SparkSql读取与保存hdfs文件的方法

第一种SparkCorevalconf=newSparkConf().setAppName(“File”).setMaster(“spark://IP地址:7077”)//这里你可以写local，我这样写是可以看做是在用spark-on-yarnvalsc=newSparkContext(conf);valdata=sc.textFile(“hdfs://IP地址:9000/文件路径”)//读取，

尘世壹俗人·2023-11-09 14:24

Spark Core

SparkCore本文来自B站黑马程序员-Spark教程：原地址第一章RDD详解1.1为什么需要RDD分布式计算需要分区控制shuffle控制数据存储、序列化、发送数据计算API等一系列功能这些功能，不能简单的通过

Am98·2023-11-07 16:54

Spark知识点总结大全

sparkcore:Spark的核心实现了Spark的基本功能，包含任务调度、内存管理、错误恢复、与存储系统交互等模块。

好好丁先森·2023-11-07 05:11

Spark Core解析 2：Scheduler 调度体系

SparkCore解析2：Scheduler调度体系Overview调度系统，是贯穿整个Spark应用的主心骨，从调度系统开始入手了解SparkCore，比较容易理清头绪。

Liam666·2023-11-05 03:37

Spark SQL

一.SparkSqlSparkSQL可以简化RDD的开发，提高开发效率.提供了2个编程抽象，类似SparkCore中的RDD➢DataFrame➢DataSet1.SparkSQL特点➢易整合无缝的整合了

ytzhyp·2023-11-04 04:23

推荐频道

---SparkCore

如何使用Spark Streaming

4 Spark Streaming

Windows系统下的Spark环境配置

入门篇 - Spark简介

深入理解Spark的前世今生

Spark Chapter 8 Spark SQL

Spark简介

大数据组件笔记 -- Spark 入门

2019-03-16 Spark基本架构及运行原理

大数据 - Spark系列《一》- 从Hadoop到Spark：大数据计算引擎的演进

SparkCore之RDD---弹性分布式数据集

Spark 的架构与组件

Spark-core

Pyspark

(转)Spark Streaming遇到问题分析

Spark面试题

Spark详解

Spark-之自定义wordCount累加器

71、Spark SQL之JDBC数据源复杂综合案例实战

SparkCore阶段练习

2024.1.8 Day04_SparkCore_homeWork

Spark SQL（六）：JDBC数据源

Spark基础解析（一）

SparkCore基础解析（二）

Spark与PySpark(1.概述、框架、模块)

SparkCore

Spark Core

###好好好######Spark GraphX处理图数据

大数据之Spark（4）- SparkCore(下)

sparksql介绍

Spark---SparkCore(五)

Spark---SparkCore（四）

Spark---SparkCore（三）

Spark---SparkCore（二）

Spark Streaming【数据流处理原理分析】

Spark面试题集锦

Spark Core源码精读计划#18：与RDD的重逢

Spark---SparkCore（一）

Spark设计理念与基本架构

Spark（三）【SparkCore】- Spark 转换算子、行动算子、持久化算子、代码流程

2011-2022年高职大数据竞赛-赛题内容

大数据Spark学习笔记—sparkcore

20210127_spark学习笔记

大数据之Spark调优：Explain 查看执行计划

Spark的执行计划

SparkCore和SparkSql读取与保存hdfs文件的方法

Spark Core

Spark知识点总结大全

Spark Core解析 2：Scheduler 调度体系

Spark SQL