E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
SparkCore
Spark入门秘籍
2.1电商行业:洞察用户,精准营销2.2金融行业:防范风险,智慧决策2.3科研领域:加速研究,探索未知三、Spark核心组件揭秘3.1
SparkCore
3.2SparkSQL3.3SparkStreaming3.4SparkMLlib3.5SparkGrap
£菜鸟也有梦
·
2025-05-22 11:35
大数据基础
spark
大数据
分布式
spark运行架构及核心组件介绍
目录1.Spark的运行架构1.1Driver1.2Executor1.3ClusterManager1.4工作流程2.Spark的核心组件2.1
SparkCore
2.2SparkSQL2.3SparkStreaming2.4MLlib2.5GraphX3
大数据知识搬运工
·
2025-05-13 07:06
spark学习
spark
架构
大数据
Spark-SQL
SparkSQL为了简化RDD的开发,提高开发效率,提供了2个编程抽象,类似
SparkCore
中的RDD➢DataFrame➢Data
海金沙33
·
2025-05-11 01:14
spark
大数据
分布式
如何在idea中写spark程序
比如,添加
SparkCore
和SparkSQL依赖:xmlorg.apache.sparkspark-c
晴空下小雨.
·
2025-05-05 01:51
ide
spark和Hadoop之间的对比和联系
以下是它们的对比和联系:1.核心组件对比特性HadoopSpark诞生时间2006年(Apache)2014年(Apache)核心组件HDFS(存储)+MapReduce(计算)
SparkCore
(内存计算
财神爷的心尖宠55
·
2025-04-28 12:50
spark
hadoop
大数据
SparkCore
一、SparkCorespark架构二、RDD1、RDD概念1.1、RDD是spark的核心概念,它是一个容错、可以并行执行的分布式数据集1.2、RDD包含5个特征:一个分区的列表对于每一个分区都有一个计算函数存在对其他RDDs的依赖(宽依赖、窄依赖)的列表对于key-value的RDD有一个分区器有一个位置优先的函数2、RDD特点1.3、RDD的特点:分区只读RDD不可变依赖宽依赖和窄依赖(窄依
山大古巨基
·
2025-04-15 04:17
大数据
spark
spark
大数据
Spark详解(二、
SparkCore
)
SparkCore
是Spark计算引擎的基础,后面的sparksql以及sparkstreaming等,都是基于
SparkCore
的。这里笔者就开始详细的介绍
SparkCore
。
杨老七
·
2025-04-13 05:38
SparkNode
spark
大数据
big
data
Spark Core个人总结
1、
sparkcore
核心概念:RDD理解为一个元数据即可。(1)依赖(2)分区(3)本地性(4)计算函数,按照分区为单位进行计算(5)不可变RDD的分区和block一一对应。
小可0306
·
2025-04-12 19:37
spark
spark
大数据
分布式
人工智能图像识别Spark Core3
SparkCore
3Spark-Core编程(三)1.key-value类型:23)sortByKey函数签名defsortByKey(ascending:Boolean=true,numPartitions
戈云 1106
·
2025-04-12 11:46
人工智能
scala
spark
SparkCore
编程
1.
sparkCore
实现wordCount(Idea+scala)importorg.apache.spark.
曼路
·
2025-04-12 03:48
hadoop
Spark Core编程
一文读懂
SparkCore
编程核心要点最近在学习大数据处理框架Spark,今天来给大家分享一下
SparkCore
编程中非常重要的内容,包括RDD算子、累加器和广播变量,希望能帮助大家更好地理解和掌握Spark
美味的大香蕉
·
2025-04-12 03:16
笔记
spark
第二章
SparkCore
第四节RDD相关概念Spark计算框架为了能够进行高并发和高吞吐的数据处理,封装了三大数据结构,用于处理不同的应用场景。
sho_re
·
2025-04-10 22:08
spark
spark core
SparkCore
一、Spark-Core编程(二)1、RDD转换算子RDD根据数据处理方式的不同将算子整体上分为Value类型、双Value类型和Key-Value类型。
北屿升:
·
2025-04-10 17:07
新浪微博
微信
facebook
微信公众平台
百度
Spark Core编程
在大数据处理领域,
SparkCore
是极为重要的框架,而其中的算子则是数据处理的核心武器。今天就来给大家讲讲
SparkCore
编程中的各类算子。Value类型算子是基础。
不要天天开心
·
2025-04-10 12:05
scala
算法
机器学习
Spark
以
Sparkcore
为核心,提供了SparkSQL、SparkStreaming、MLlib几大功能组件中文文档:https://spark.apachecn.org/#/github地址:https:
upupfeng
·
2025-04-08 11:14
Spark
spark
如何使用Spark Streaming
一、什么叫SparkStreaming基于
SparkCore
,大规模、高吞吐量、容错的实时数据流的处理二、SparkStreaming依赖org.apache.sparkspark-streaming_
会探索的小学生
·
2025-02-02 00:46
spark
大数据
分布式
4 Spark Streaming
相关操作4.SparkStreaming完成实时需求1)WordCount2)updateStateByKey3)reduceByKeyAndWindow一级目录SparkStreaming是一个基于
SparkCore
TTXS123456789ABC
·
2025-02-01 23:43
#
Spark
spark
ajax
大数据
Windows系统下的Spark环境配置
Spark提供了多个核心组件,包括:
SparkCore
:提供内存计算的能力
eeee~~
·
2024-09-05 11:19
3:大数据技术
实用教程
spark
大数据
分布式
入门篇 - Spark简介
Spark核心模块image.pngSparkCore:提供了Spark最基础与最核心的功能,Spark其他的功能如:SparkSQL,SparkStreaming,GraphX,MLlib都是在
SparkCore
君子何为
·
2024-02-12 10:22
深入理解Spark的前世今生
Spark包含了大数据领域常见的各种计算框架:比如
SparkCore
用
闲云野鹤~~~
·
2024-02-08 14:01
Spark
Spark Chapter 8 Spark SQL
【参考以慕课网日志分析为例进入大数据Sparksql】0导读SQL:MySQL,Oracle,DB2,SQLServer在大数据平台上实现大数据计算:Hive/SparkSQL/
SparkCore
直接使用
深海suke
·
2024-02-07 01:34
Spark简介
我用到的主要是
SparkCore
,SparkSQL,SparkStreaming。Spark以Rdd作为基础,Rdd是一个分布式的容器,类似于java中的String数组,但是它是分布式的。
麦克阿瑟99
·
2024-02-06 18:07
大数据组件笔记 -- Spark 入门
Spark框架Spark内置模块
SparkCore
:实现了Spark的基本功能
L小Ray想有腮
·
2024-02-03 15:53
BigData
2019-03-16 Spark基本架构及运行原理
SparkCore
:包含Spark的基本功能,包含任务调度,内存管理,容错机制等,内部定义了RDDs(弹性分布式数据集),提供了很多APIs来创建和操作这些RDDs。为其他组件提供底层的服务。
做一只乐观的小猴子
·
2024-02-03 02:04
大数据 - Spark系列《一》- 从Hadoop到Spark:大数据计算引擎的演进
目录1.1Hadoop回顾1.2spark简介1.3Spark特性1.通用性2.简洁灵活3.多语言1.4
SparkCore
编程体验1.4.1spark开发工程搭建1.开发语言选择:2.依赖管理工具:1.4.2Spark
王哪跑nn
·
2024-02-01 07:43
spark
大数据
spark
hadoop
SparkCore
之RDD---弹性分布式数据集
目录:RDD的设计与运行原理一、RDD设计背景二、RDD概念1.什么是RDD?2.RDD的属性三、RDD特点1.可分区2.不可变3.依赖关系4.缓存(cache)5.检测点(CheckPoint)四、RDD的创建1.通过并行化的方式创建RDD2.读取文件生成RDD3.通过其他RDD转换五、RDD运行过程RDD的设计与运行原理Spark的核心是建立在统一的抽象RDD上的,使得Spark的各个组件可以
孤独の√ 3
·
2024-01-30 15:09
大数据
#
spark
分布式
Spark 的架构与组件
Spark的核心组件包括
SparkCore
、SparkSQL、SparkStreaming和MLlib等。本文将详细介绍Spark的架构和组件,并分析其优势和挑战。
OpenChat
·
2024-01-29 21:24
spark
架构
大数据
分布式
Spark-core
什么是SparkSpark是基于内存的快速,通用,可扩展的大数据分析引擎Spark的内置模块
SparkCore
是Spark可以离线处理的部分,实现了spark的基本功能,包含任务调度,错误恢复,与存储系统交互等模块
luckboy0000
·
2024-01-27 23:12
学习笔记
Pyspark
文章目录一、
SparkCore
1.SparkContext:2.SparkSession3.RDD4.Broadcast、Accumulator:5.Sparkconf6.SparkFiles7.StorageLevel
李明朔
·
2024-01-23 12:24
机器学习
spark-ml
(转)Spark Streaming遇到问题分析
github.com/lw-lin/Coo...2、Spark的Job与Streaming的Job有区别及StreamingJob并发控制:先看看SparkStreaming的JobSet,Job,与
SparkCore
达微
·
2024-01-22 20:06
Spark面试题
1.
sparkcore
1.简述hadoop和spark的不同点(为什么spark更快)♥♥♥ shuffle都是需要落盘的,因为在宽依赖中需要将上一个阶段的所有分区数据都准备好,才能进入下一个阶段,那么如果一直将数据放在内存中
韩顺平的小迷弟
·
2024-01-21 06:53
大数据面试题
spark
大数据
分布式
Spark详解
核心架构
SparkCore
包含Spark的基本功能;尤其是定义RDD的API、操作以及这两者上的动作。
武昌库里写JAVA
·
2024-01-16 21:15
高手面试
spark
大数据
分布式
Spark-之自定义wordCount累加器
Spark-之自定义wordCount累加器
SparkCore
中的3种数据类型:累加器(只写)RDD广播变量(只读)累加器在多个action算子触发的job中重复累加,且需要action算子才能触发累加器操作
稳哥的哥
·
2024-01-14 09:01
Spark
spark
scala
big
data
71、Spark SQL之JDBC数据源复杂综合案例实战
读取的数据,依然由DataFrame表示,可以很方便地使用
SparkCore
提供的各种算子进行处理。实际上用SparkSQL处理JDBC中的数据是非常有用的。
ZFH__ZJ
·
2024-01-12 18:37
SparkCore
阶段练习
阶段练习查看数据集格式明确需求明确步骤读取文件抽取需要的列以年月为基础,进行reduceByKey统计Dongsi地区的PM排序获取结果编码拷贝数据集data.rar(已上传资源——
SparkCore
阶段练习数据集
我像影子一样
·
2024-01-10 16:44
Spark
大数据
spark
大数据
2024.1.8 Day04_
SparkCore
_homeWork
目录1.简述Spark持久化中缓存和checkpoint检查点的区别2.如何使用缓存和检查点?3.代码题浏览器Nginx案例先进行数据清洗,做后续需求用1、需求一:点击最多的前10个网站域名2、需求二:用户最喜欢点击的页面排序TOP103、需求三:统计每分钟用户搜索次数学生系统案例4.RDD依赖的分类5.简述DAG与Stage形成过程DAG:Stage:1.简述Spark持久化中缓存和checkp
白白的wj
·
2024-01-09 07:37
spark
大数据
分布式
python
hadoop
big
data
Spark SQL(六):JDBC数据源
读取的数据,依然由DataFrame表示,可以很方便地使用
SparkCore
提供的各种算子进行处理。实际上使用SparkSQL处理JDBC中的数据是非常有用的。
雪飘千里
·
2024-01-05 11:12
Spark基础解析(一)
1、Spark概述1.1什么是Spark1.2Spark内置模块
SparkCore
:实现了Spark的基本功能,包含任务调度、内存管理、错误恢复、与存储系统交互等模块。
有语忆语
·
2024-01-05 10:04
大数据之Spark
spark
大数据
分布式
SparkCore
基础解析(二)
1、RDD概述1.1什么是RDDRDD(ResilientDistributedDataset)叫做分布式数据集,是Spark中最基本的数据抽象。代码中是一个抽象类,它代表一个不可变、可分区、里面的元素可并行计算的集合。1.2RDD的属性1)一组分区(Partition),即数据集的基本组成单位;2)一个计算每个分区的函数;3)RDD之间的依赖关系;4)一个Partitioner,即RDD的分片函
有语忆语
·
2024-01-05 10:58
大数据之Spark
spark
Sparkcore
RDD
Spark与PySpark(1.概述、框架、模块)
目录1.Spark概念2.Hadoop和Spark的对比3.Spark特点3.1运行速度快3.2简单易用3.3通用性强3.4可以允许运行在很多地方4.Spark框架模块4.1
SparkCore
4.2SparkSQL4.3SparkStreaming4.4MLlib4.5GraphX5
还是那个同伟伟
·
2023-12-27 18:06
Spark
spark
大数据
分布式
python
SparkCore
一、RDD详解1.1什么是RDDRDD(ResilientDistributedDataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,代表一个不可变、可分区、里面的元素可并行计算的集合。Dataset:一个数据集合,用于存放数据的。Distributed:RDD中的数据是分布式存储的,可用于分布式计算。Resilient:RDD中的数据可以存储在内存中或者磁盘中。1.2RDD的五大
weixin_50458070
·
2023-12-26 06:40
大数据
大数据
Spark Core
SparkCore
介绍
SparkCore
是Spark的核心计算引擎。它有着速度快和通用的特点,并且实现了Spark的基本功能,包含任务调度,内存管理,错误恢复,与存储交互等模块。
hipeer
·
2023-12-23 15:35
###好好好######Spark GraphX处理图数据
我们已经了解了如何将ApacheSpark应用于处理批数据(
SparkCore
)以及处理实时数据(SparkStreaming)。有时候,所需处理的数据是很自然地联系在一起的。
mishidemudong
·
2023-12-21 11:03
SPARK
大数据之Spark(4)-
SparkCore
(下)
1RDD编程1.1Action算子1.1.1reduce(func)作用:通过func函数聚集RDD中的所有元素,先聚合分区内数据,再聚合分区间数据。需求:创建一个RDD,将所有元素聚合得到结果。(1)创建一个RDD[Int]scala>valrdd1=sc.makeRDD(1to10,2)rdd1:org.apache.spark.rdd.RDD[Int]=ParallelCollectionR
jackyan163
·
2023-12-21 02:23
sparksql介绍
1.1SparkSQL介绍SparkSQL,顾名思义,就是Spark生态体系中的构建在
SparkCore
基础之上的一个基于SQL的计算模块。
Guff_hys
·
2023-12-20 16:25
spark
sql
大数据
系统架构
mapreduce
eclipse
程序人生
Spark---
SparkCore
(五)
五、SparkShuffle文件寻址1、Shuffle文件寻址1)、MapOutputTrackerMapOutputTracker是Spark架构中的一个模块,是一个主从架构。管理磁盘小文件的地址。MapOutputTrackerMaster是主对象,存在于Driver中。MapOutputTrackerWorker是从对象,存在于Excutor中。2)、BlockManagerBlockMan
30岁老阿姨
·
2023-11-30 13:52
Spark
spark
大数据
分布式
Spark---
SparkCore
(四)
三、SparkMasterHA1、Master的高可用原理Standalone集群只有一个Master,如果Master挂了就无法提交应用程序,需要给Master进行高可用配置,Master的高可用可以使用fileSystem(文件系统)和zookeeper(分布式协调服务)。fileSystem只有存储功能,可以存储Master的元数据信息,用fileSystem搭建的Master高可用,在Ma
30岁老阿姨
·
2023-11-30 12:32
Spark
spark
大数据
分布式
Spark---
SparkCore
(三)
一、Spark广播变量和累加器1、广播变量1)、广播变量理解图2)、广播变量使用valconf=newSparkConf()conf.setMaster("local").setAppName("brocast")valsc=newSparkContext(conf)valbroadCast=sc.broadcast(list)vallineRDD=sc.textFile("./words.txt
30岁老阿姨
·
2023-11-29 07:08
Spark
java
javascript
服务器
Spark---
SparkCore
(二)
四、补充算子1、transformations类算子mapPartitionWithIndex类似于mapPartitions,除此之外还会携带分区的索引值。repartition增加或减少分区。会产生shuffle。(多个分区分到一个分区不会产生shuffle)coalescecoalesce常用来减少分区,第二个参数是减少分区的过程中是否产生shuffle。true为产生shuffle,fal
30岁老阿姨
·
2023-11-29 07:08
Spark
spark
大数据
分布式
Spark Streaming【数据流处理原理分析】
SparkStreaming底层是
SparkCore
。SparkStreaming流处理框架SparkStreaming原理首先SparkStreaming前面也说到了是对数据流的处理。
Smile to everyday
·
2023-11-29 07:29
spark
大数据
分布式
apache
spark
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他