E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
---SparkCore
Windows系统下的Spark环境配置
Spark提供了多个核心组件,包括:
SparkCore
:提供内存计算的能力
eeee~~
·
2024-09-05 11:19
3:大数据技术
实用教程
spark
大数据
分布式
入门篇 - Spark简介
Spark核心模块image.pngSparkCore:提供了Spark最基础与最核心的功能,Spark其他的功能如:SparkSQL,SparkStreaming,GraphX,MLlib都是在
SparkCore
君子何为
·
2024-02-12 10:22
深入理解Spark的前世今生
Spark包含了大数据领域常见的各种计算框架:比如
SparkCore
用
闲云野鹤~~~
·
2024-02-08 14:01
Spark
Spark Chapter 8 Spark SQL
【参考以慕课网日志分析为例进入大数据Sparksql】0导读SQL:MySQL,Oracle,DB2,SQLServer在大数据平台上实现大数据计算:Hive/SparkSQL/
SparkCore
直接使用
深海suke
·
2024-02-07 01:34
Spark简介
我用到的主要是
SparkCore
,SparkSQL,SparkStreaming。Spark以Rdd作为基础,Rdd是一个分布式的容器,类似于java中的String数组,但是它是分布式的。
麦克阿瑟99
·
2024-02-06 18:07
大数据组件笔记 -- Spark 入门
Spark框架Spark内置模块
SparkCore
:实现了Spark的基本功能
L小Ray想有腮
·
2024-02-03 15:53
BigData
2019-03-16 Spark基本架构及运行原理
SparkCore
:包含Spark的基本功能,包含任务调度,内存管理,容错机制等,内部定义了RDDs(弹性分布式数据集),提供了很多APIs来创建和操作这些RDDs。为其他组件提供底层的服务。
做一只乐观的小猴子
·
2024-02-03 02:04
大数据 - Spark系列《一》- 从Hadoop到Spark:大数据计算引擎的演进
目录1.1Hadoop回顾1.2spark简介1.3Spark特性1.通用性2.简洁灵活3.多语言1.4
SparkCore
编程体验1.4.1spark开发工程搭建1.开发语言选择:2.依赖管理工具:1.4.2Spark
王哪跑nn
·
2024-02-01 07:43
spark
大数据
spark
hadoop
SparkCore
之RDD---弹性分布式数据集
目录:RDD的设计与运行原理一、RDD设计背景二、RDD概念1.什么是RDD?2.RDD的属性三、RDD特点1.可分区2.不可变3.依赖关系4.缓存(cache)5.检测点(CheckPoint)四、RDD的创建1.通过并行化的方式创建RDD2.读取文件生成RDD3.通过其他RDD转换五、RDD运行过程RDD的设计与运行原理Spark的核心是建立在统一的抽象RDD上的,使得Spark的各个组件可以
孤独の√ 3
·
2024-01-30 15:09
大数据
#
spark
分布式
Spark 的架构与组件
Spark的核心组件包括
SparkCore
、SparkSQL、SparkStreaming和MLlib等。本文将详细介绍Spark的架构和组件,并分析其优势和挑战。
OpenChat
·
2024-01-29 21:24
spark
架构
大数据
分布式
Spark-core
什么是SparkSpark是基于内存的快速,通用,可扩展的大数据分析引擎Spark的内置模块
SparkCore
是Spark可以离线处理的部分,实现了spark的基本功能,包含任务调度,错误恢复,与存储系统交互等模块
luckboy0000
·
2024-01-27 23:12
学习笔记
Pyspark
文章目录一、
SparkCore
1.SparkContext:2.SparkSession3.RDD4.Broadcast、Accumulator:5.Sparkconf6.SparkFiles7.StorageLevel
李明朔
·
2024-01-23 12:24
机器学习
spark-ml
(转)Spark Streaming遇到问题分析
github.com/lw-lin/Coo...2、Spark的Job与Streaming的Job有区别及StreamingJob并发控制:先看看SparkStreaming的JobSet,Job,与
SparkCore
达微
·
2024-01-22 20:06
Spark面试题
1.
sparkcore
1.简述hadoop和spark的不同点(为什么spark更快)♥♥♥ shuffle都是需要落盘的,因为在宽依赖中需要将上一个阶段的所有分区数据都准备好,才能进入下一个阶段,那么如果一直将数据放在内存中
韩顺平的小迷弟
·
2024-01-21 06:53
大数据面试题
spark
大数据
分布式
Spark详解
核心架构
SparkCore
包含Spark的基本功能;尤其是定义RDD的API、操作以及这两者上的动作。
武昌库里写JAVA
·
2024-01-16 21:15
高手面试
spark
大数据
分布式
Spark-之自定义wordCount累加器
Spark-之自定义wordCount累加器
SparkCore
中的3种数据类型:累加器(只写)RDD广播变量(只读)累加器在多个action算子触发的job中重复累加,且需要action算子才能触发累加器操作
稳哥的哥
·
2024-01-14 09:01
Spark
spark
scala
big
data
71、Spark SQL之JDBC数据源复杂综合案例实战
读取的数据,依然由DataFrame表示,可以很方便地使用
SparkCore
提供的各种算子进行处理。实际上用SparkSQL处理JDBC中的数据是非常有用的。
ZFH__ZJ
·
2024-01-12 18:37
SparkCore
阶段练习
阶段练习查看数据集格式明确需求明确步骤读取文件抽取需要的列以年月为基础,进行reduceByKey统计Dongsi地区的PM排序获取结果编码拷贝数据集data.rar(已上传资源——
SparkCore
阶段练习数据集
我像影子一样
·
2024-01-10 16:44
Spark
大数据
spark
大数据
2024.1.8 Day04_
SparkCore
_homeWork
目录1.简述Spark持久化中缓存和checkpoint检查点的区别2.如何使用缓存和检查点?3.代码题浏览器Nginx案例先进行数据清洗,做后续需求用1、需求一:点击最多的前10个网站域名2、需求二:用户最喜欢点击的页面排序TOP103、需求三:统计每分钟用户搜索次数学生系统案例4.RDD依赖的分类5.简述DAG与Stage形成过程DAG:Stage:1.简述Spark持久化中缓存和checkp
白白的wj
·
2024-01-09 07:37
spark
大数据
分布式
python
hadoop
big
data
Spark SQL(六):JDBC数据源
读取的数据,依然由DataFrame表示,可以很方便地使用
SparkCore
提供的各种算子进行处理。实际上使用SparkSQL处理JDBC中的数据是非常有用的。
雪飘千里
·
2024-01-05 11:12
Spark基础解析(一)
1、Spark概述1.1什么是Spark1.2Spark内置模块
SparkCore
:实现了Spark的基本功能,包含任务调度、内存管理、错误恢复、与存储系统交互等模块。
有语忆语
·
2024-01-05 10:04
大数据之Spark
spark
大数据
分布式
SparkCore
基础解析(二)
1、RDD概述1.1什么是RDDRDD(ResilientDistributedDataset)叫做分布式数据集,是Spark中最基本的数据抽象。代码中是一个抽象类,它代表一个不可变、可分区、里面的元素可并行计算的集合。1.2RDD的属性1)一组分区(Partition),即数据集的基本组成单位;2)一个计算每个分区的函数;3)RDD之间的依赖关系;4)一个Partitioner,即RDD的分片函
有语忆语
·
2024-01-05 10:58
大数据之Spark
spark
Sparkcore
RDD
Spark与PySpark(1.概述、框架、模块)
目录1.Spark概念2.Hadoop和Spark的对比3.Spark特点3.1运行速度快3.2简单易用3.3通用性强3.4可以允许运行在很多地方4.Spark框架模块4.1
SparkCore
4.2SparkSQL4.3SparkStreaming4.4MLlib4.5GraphX5
还是那个同伟伟
·
2023-12-27 18:06
Spark
spark
大数据
分布式
python
SparkCore
一、RDD详解1.1什么是RDDRDD(ResilientDistributedDataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,代表一个不可变、可分区、里面的元素可并行计算的集合。Dataset:一个数据集合,用于存放数据的。Distributed:RDD中的数据是分布式存储的,可用于分布式计算。Resilient:RDD中的数据可以存储在内存中或者磁盘中。1.2RDD的五大
weixin_50458070
·
2023-12-26 06:40
大数据
大数据
Spark Core
SparkCore
介绍
SparkCore
是Spark的核心计算引擎。它有着速度快和通用的特点,并且实现了Spark的基本功能,包含任务调度,内存管理,错误恢复,与存储交互等模块。
hipeer
·
2023-12-23 15:35
###好好好######Spark GraphX处理图数据
我们已经了解了如何将ApacheSpark应用于处理批数据(
SparkCore
)以及处理实时数据(SparkStreaming)。有时候,所需处理的数据是很自然地联系在一起的。
mishidemudong
·
2023-12-21 11:03
SPARK
大数据之Spark(4)-
SparkCore
(下)
1RDD编程1.1Action算子1.1.1reduce(func)作用:通过func函数聚集RDD中的所有元素,先聚合分区内数据,再聚合分区间数据。需求:创建一个RDD,将所有元素聚合得到结果。(1)创建一个RDD[Int]scala>valrdd1=sc.makeRDD(1to10,2)rdd1:org.apache.spark.rdd.RDD[Int]=ParallelCollectionR
jackyan163
·
2023-12-21 02:23
sparksql介绍
1.1SparkSQL介绍SparkSQL,顾名思义,就是Spark生态体系中的构建在
SparkCore
基础之上的一个基于SQL的计算模块。
Guff_hys
·
2023-12-20 16:25
spark
sql
大数据
系统架构
mapreduce
eclipse
程序人生
Spark---
SparkCore
(五)
五、SparkShuffle文件寻址1、Shuffle文件寻址1)、MapOutputTrackerMapOutputTracker是Spark架构中的一个模块,是一个主从架构。管理磁盘小文件的地址。MapOutputTrackerMaster是主对象,存在于Driver中。MapOutputTrackerWorker是从对象,存在于Excutor中。2)、BlockManagerBlockMan
30岁老阿姨
·
2023-11-30 13:52
Spark
spark
大数据
分布式
Spark---
SparkCore
(四)
三、SparkMasterHA1、Master的高可用原理Standalone集群只有一个Master,如果Master挂了就无法提交应用程序,需要给Master进行高可用配置,Master的高可用可以使用fileSystem(文件系统)和zookeeper(分布式协调服务)。fileSystem只有存储功能,可以存储Master的元数据信息,用fileSystem搭建的Master高可用,在Ma
30岁老阿姨
·
2023-11-30 12:32
Spark
spark
大数据
分布式
Spark---
SparkCore
(三)
一、Spark广播变量和累加器1、广播变量1)、广播变量理解图2)、广播变量使用valconf=newSparkConf()conf.setMaster("local").setAppName("brocast")valsc=newSparkContext(conf)valbroadCast=sc.broadcast(list)vallineRDD=sc.textFile("./words.txt
30岁老阿姨
·
2023-11-29 07:08
Spark
java
javascript
服务器
Spark---
SparkCore
(二)
四、补充算子1、transformations类算子mapPartitionWithIndex类似于mapPartitions,除此之外还会携带分区的索引值。repartition增加或减少分区。会产生shuffle。(多个分区分到一个分区不会产生shuffle)coalescecoalesce常用来减少分区,第二个参数是减少分区的过程中是否产生shuffle。true为产生shuffle,fal
30岁老阿姨
·
2023-11-29 07:08
Spark
spark
大数据
分布式
Spark Streaming【数据流处理原理分析】
SparkStreaming底层是
SparkCore
。SparkStreaming流处理框架SparkStreaming原理首先SparkStreaming前面也说到了是对数据流的处理。
Smile to everyday
·
2023-11-29 07:29
spark
大数据
分布式
apache
spark
Spark面试题集锦
包含
Sparkcore
、Sparksql、Sparkstreaming、SparkMLlib、sparkGraphX五个核心组件。2、Spark的核心组件是什么?
猿界零零七
·
2023-11-28 09:53
知识总结
spark
大数据
Spark Core源码精读计划#18:与RDD的重逢
抽象类概述构造方法与成员属性需要RDD子类实现的方法RDD的五要素RDD继承体系与算子概述RDD的子类转换算子动作算子总结前言在前面的17篇文章中,我们对以SparkContext和SparkEnv为中心展开的
SparkCore
LittleMagic
·
2023-11-27 07:33
Spark---
SparkCore
(一)
一、术语与宽窄依赖1、术语解释1、Master(standalone):资源管理的主节点(进程)2、ClusterManager:在集群上获取资源的外部服务(例如:standalone,Mesos,Yarn)3、WorkerNode(standalone):资源管理的从节点(进程)或者说管理本机资源的进程4、DriverProgram:用于连接工作进程(Worker)的程序5、Executor:是
30岁老阿姨
·
2023-11-25 01:20
Spark
spark
大数据
分布式
Spark设计理念与基本架构
易于使用支持查询支持流式计算可用性高丰富的数据源支持模块:
SparkCore
+SparkSQL+S
whynotybb
·
2023-11-24 02:29
Spark(三)【
SparkCore
】- Spark 转换算子、行动算子、持久化算子、代码流程
1.Transformations转换算子1.1概念:Transformations类算子是一类算子(函数)叫做转换算子,如map,flatMap,reduceByKey等。Transformations算子是延迟执行,也叫懒加载执行。1.2Transformation类算子:filter过滤符合条件的记录数,true保留,false过滤掉。map将一个RDD中的每个数据项,通过map中的函数映射
plenilune-望月
·
2023-11-23 11:59
Spark分布式计算框架
2011-2022年高职大数据竞赛-赛题内容
离线数据统计第五部分赛题模拟实现-数据采集与实时计算第六部分赛题模拟实现-数据可视化第一部分竞赛内容赛项以大数据技术与应用为核心内容和工作基础,重点考查参赛选手基于Spark、Flink平台环境下,充分利用
SparkCore
xlw2003
·
2023-11-19 21:54
大数据
Spark
hadoop
flink
高职大数据竞赛
大数据Spark学习笔记—
sparkcore
目录Spark概述核心模块Spark编程配置IDEA配置scala环境WordCount案例Spark-Standalone运行环境Local配置步骤集群分工解压文件修改配置启动集群配置历史服务器Spark-Yarn运行环境配置步骤配置历史服务器Windows运行环境配置步骤常用端口号Spark架构核心组件DriverExecutorMaster&WorkerApplicationMasterHa
Int mian[]
·
2023-11-15 03:12
大数据
大数据
spark
hadoop
scala
分布式
20210127_spark学习笔记
SparkCore
是spark平台的基础通用执行引擎,所有其他功能都是基于。它在外部存储系统中提供内存计算和引用数据集。
yehaver
·
2023-11-15 03:42
spark
大数据之Spark调优:Explain 查看执行计划
SparkSQL取代
SparkCore
,成为新一代的引擎内核,所有其他子框架如Mllib、Streaming和Graph,都可以共享SparkSQL的性能优化,都能从Spark社区对于SparkSQL的投入中受益
浊酒南街
·
2023-11-14 06:17
Spark调优
大数据
spark
分布式
Spark的执行计划
SparkSQL取代
SparkCore
,成为新一代的引擎内核,所有其他子框架如Mllib、Streaming和Graph,都可以共享SparkSQL的性能优化,都能从Spark社区对于SparkSQL的投入中受益
shangjg3
·
2023-11-12 05:52
Spark
spark
大数据
分布式
SparkCore
和SparkSql读取与保存hdfs文件的方法
第一种SparkCorevalconf=newSparkConf().setAppName(“File”).setMaster(“spark://IP地址:7077”)//这里你可以写local,我这样写是可以看做是在用spark-on-yarnvalsc=newSparkContext(conf);valdata=sc.textFile(“hdfs://IP地址:9000/文件路径”)//读取,
尘世壹俗人
·
2023-11-09 14:24
大数据Spark技术
spark
大数据
Spark Core
SparkCore
本文来自B站黑马程序员-Spark教程:原地址第一章RDD详解1.1为什么需要RDD分布式计算需要分区控制shuffle控制数据存储、序列化、发送数据计算API等一系列功能这些功能,不能简单的通过
Am98
·
2023-11-07 16:54
spark
wpf
大数据
Spark知识点总结大全
sparkcore
:Spark的核心实现了Spark的基本功能,包含任务调度、内存管理、错误恢复、与存储系统交互等模块。
好好丁先森
·
2023-11-07 05:11
spark
大数据
分布式
Spark Core解析 2:Scheduler 调度体系
SparkCore
解析2:Scheduler调度体系Overview调度系统,是贯穿整个Spark应用的主心骨,从调度系统开始入手了解
SparkCore
,比较容易理清头绪。
Liam666
·
2023-11-05 03:37
Spark SQL
一.SparkSqlSparkSQL可以简化RDD的开发,提高开发效率.提供了2个编程抽象,类似
SparkCore
中的RDD➢DataFrame➢DataSet1.SparkSQL特点➢易整合无缝的整合了
ytzhyp
·
2023-11-04 04:23
spark
sql
大数据
Spark core通过textFile读取Hdfs文件blockSize如何设置?
一、概述其实
Sparkcore
无论是读取hdfs还是读取本地文件都会以hadoopfile的形式进行读取,不同点在于读取本地文件时可以通过在resources文件中放入hdfs-site.xml文件设置
客舟听雨2
·
2023-10-30 10:52
spark
hdfs
大数据
真实大数据简历模版(一)【大数据-4年经验】在线教育
抗压能力强,能自我激励,善于沟通与团队协作3.具备扎实的Java相关知识,熟练使用Java和Scala语言编程4.掌握Spark及其组件
SparkCore
、SparkSQL、SparkStreaming
大模型Maynor
·
2023-10-30 03:25
#
大数据面试辅导
大数据
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他