E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
SparkContext
Spark分布式计算原理
{SparkConf,
SparkContext
}objectWordCount{defmain(a
NightFall丶
·
2024-09-07 20:40
#
Spark
apache
spark
spark
PySpark数据分析基础:PySpark基础功能及DataFrame操作基础语法详解_pyspark rdd(1)
dfDataFrame[a:bigint,b:double,c:string,d:date,e:timestamp]####通过由元组列表组成的RDD创建rdd=spark.
sparkContext
.parallelize
2401_84181368
·
2024-09-07 08:46
程序员
数据分析
数据挖掘
Spark-第三周
1.
sparkcontext
初始化源码分析Spark源码(7)-
SparkContext
初始化源码分析_太与旅spark源码-CSDN博客Spark源码学习(一):
SparkContext
初始化源码分析
fightingD&W
·
2024-08-27 12:13
Spark
spark
大数据
分布式
航班数据预测与分析
数据清洗:数据存储到HDFS:使用pyspark对数据进行分析://数据导入frompysparkimportSparkContextfrompyspark.sqlimportSQLContextsc=
SparkContext
林坰
·
2024-02-20 16:15
大数据
spark
航班数据分析
杜艳辉
Spark 作业执行
SparkApplication由主控节点Master、集群资源管理节点ClusterManager、执行任务节点Worker和执行单元Executor、负责提交作业的Client、负责作业控制的Driver组成的
SparkContext
Alex90
·
2024-02-12 05:04
spark键值对的链接
frompysparkimportSparkContextif__name__=="__main__":master="local"iflen(sys.argv)==2:master=sys.argv[1]try:sc.stop()except:passsc=
SparkContext
yanghedada
·
2024-02-10 09:27
RDD任务切分之Stage任务划分(图解和源码)
RDD任务切分中间分为:Application、Job、Stage和Task(1)Application:初始化一个
SparkContext
即生成一个Application;(2)Job:一个Action
大数据左右手
·
2024-02-07 09:34
大数据
大数据
spark
stage切分
任务划分
RDD 依赖关系
{SparkConf,
SparkContext
}objectSpark01_RDD_Dep{defmain(args:A
zmx_messi
·
2024-02-06 09:08
大数据
spark
转换算子小案例
{SparkConf,
SparkContext
}
zmx_messi
·
2024-02-06 09:37
spark
大数据
SparkException: A master URL必须在配置中设置
MasterURL是指定Spark集群的主节点地址,它对于初始化
SparkContext
是必需的。解决方案1.通过代码设置MasterURL在你的Spark应
小湘西
·
2024-02-04 06:07
Spark
spark
大数据
分布式
Spark提交任务到yarn 报错提示虚拟内存不足解决办法
sparkcontext
初始化失败ERRORspark.
SparkContext
:ErrorinitializingSparkContext.java.lang.IllegalStateException
动若脱兔--
·
2024-02-04 05:11
Spark
spark
大数据
scala
spark WordCount
{SparkConf,
SparkContext
}objectSparkWC{defmain(args:Array[String]):Unit={//配置信息类valconf:SparkConf=newSparkConf
lehuai
·
2024-02-03 16:27
Scala 与spark 7.23
例如:@transientvalsparkContext:
SparkContext
,Scala多行字符串之stripMargin方法https://www.jianshu.com/
qq_34872215
·
2024-02-02 13:09
spark
pyspark学习-自定义udf
frompyspark.sqlimportSparkSession,Rowif__name__=='__main__':spark=SparkSession.builder.getOrCreate()num=spark.
sparkContext
.parallelize
heiqizero
·
2024-02-01 09:07
spark
spark
大数据 - Spark系列《一》- 从Hadoop到Spark:大数据计算引擎的演进
1.2spark简介1.3Spark特性1.通用性2.简洁灵活3.多语言1.4SparkCore编程体验1.4.1spark开发工程搭建1.开发语言选择:2.依赖管理工具:1.4.2Spark编程流程1.获取
sparkcontext
王哪跑nn
·
2024-02-01 07:43
spark
大数据
spark
hadoop
理解Spark中RDD(Resilient Distributed Dataset)
文章目录1RDD基础1.1分区1.2不可变1.3并行执行2RDD结构2.1
SparkContext
、SparkConf2.2Partitioner2.3Dependencies2.4Checkpoint
小何才露尖尖角
·
2024-01-30 15:45
Spark
spark
RDD
弹性分布式数据集
依赖关系
RDD结构
spark作业调度原理
概述spark有多种方式调度各个计算所需的资源.首先,每个application(即
sparkContext
实例)有一组独立的Executor进程。
Deegue
·
2024-01-28 23:14
spark
spark
原理&机制
参数调优
极简pyspark
PySpark架构PySpark的架构主要包含以下几个部分:
SparkContext
:这是Spark的入口点,它负责创建RDD和Dat
吉小雨
·
2024-01-28 18:13
python
pyspark学习_wordcount
100frompysparkimportSparkConf,SparkContextconf=SparkConf().setAppName("RddwordCount").setMaster("local[*]")sc=
SparkContext
heiqizero
·
2024-01-26 02:09
spark
spark
python
pyspark学习_RDD转为DataFrame
people.txtTom12Jack13Janny14frompyspark.sqlimportSparkSession,Rowspark=SparkSession.builder.getOrCreate()lines=spark.
sparkContext
.textFile
heiqizero
·
2024-01-26 02:09
spark
spark
python
spark 关联外部数据
{SparkConf,
SparkContext
}importscala.collection.mutable.ListBufferobjectlesson04_rdd_partitions{defmain
新鲜氧气
·
2024-01-25 19:54
#
spark
#
scala
大数据
spark
大数据
分布式
spark广播变量
-1-24广播变量特点BroadcastVariable会将使用到的变量,只会为每个节点拷贝一份,不会为每个task进行拷贝,能够优化性能(在task数量比较大体现更明显),减少网络传输及内存消耗通过
SparkContext
新鲜氧气
·
2024-01-25 07:37
spark
大数据
分布式
大数据开发之Spark(累加器、广播变量、Top10热门品类实战)
1、累加器使用1)累加器定义(
sparkcontext
.accumulator(in
Key-Key
·
2024-01-25 00:25
大数据
spark
分布式
学习Spark遇到的问题
【报错】AttributeError:‘
SparkContext
’objecthasnoattribute‘setcheckpointDir’本人传参:conf=SparkConf().setAppName
黄黄黄黄黄莹
·
2024-01-24 07:20
spark
Apache Spark中的广播变量分发机制
这可以通过调用
SparkContext
的broadcast
{BOOLEAN}
·
2024-01-24 07:18
spark
大数据
分布式
Pyspark
文章目录一、SparkCore1.
SparkContext
:2.SparkSession3.RDD4.Broadcast、Accumulator:5.Sparkconf6.SparkFiles7.StorageLevel
李明朔
·
2024-01-23 12:24
机器学习
spark-ml
Spark解析JSON文件,写入hdfs
一、用
Sparkcontext
读入文件,map逐行用Gson解析,输出转成一个caseclass类,填充各字段,输出。解析JSON这里没有什么问题。
gegeyanxin
·
2024-01-23 09:42
spark
json
hdfs
Gson
rdd转Dataframe
用graphx实现Bronkerbosch计算极大团
{SparkConf,
SparkContext
}importscala.collection.i
不加班程序员
·
2024-01-23 06:25
spark
算法
Hadoop相关
graphx
Bron_Kerbosch
cliques
完全图
大数据之Spark架构设计与工作流程
Spark的架构主要包括以下几个核心组件:DriverProgram(驱动器)驱动器程序负责执行用户的主函数,创建
SparkContext
对象。
转身成为了码农
·
2024-01-21 07:41
大数据
spark
分布式
Python进阶知识:整理1 -> pySpark入门
1编写执行入口#1.导包frompysparkimportSparkConf,
SparkContext
#2.创建SparkConf类对象conf=SparkConf().setMaster("local
是小蟹呀^
·
2024-01-18 07:57
Python
python
spark
深入理解 Spark(一)spark 运行模式简介与启动流程源码分析
spark的运行模式standalone模式以standalone-client为例,运行过程如下:
SparkContext
连接到Master,向Master注册并申请资源(CPUCore和Memory
我很ruo
·
2024-01-14 10:56
大数据
spark
大数据
分布式
pyspark
pysparkversion输出spark的版本print("pysparkversion"+str(sc.version))mapsc=
sparkcontext
,parallelizecreatesanRDDfromthepassedobjectx
Tim在路上
·
2024-01-14 10:43
spark--累加器-★★★
{SparkConf,
SparkContext
}/***Authorhanjiaxiaozhi*Date2020/7
韩家小志
·
2024-01-14 09:01
Spark
spark
Spark算子(RDD)超细致讲解
groupBykey,Mapvalues,filter,distinct,sortBy,groupBy共10个转换算子(一)转换算子1、mapfrompysparkimportSparkContext#创建
SparkContext
中长跑路上crush
·
2024-01-14 04:57
Spark阶段
spark
大数据
分布式
Spark中Rdd算子和Action算子--学习笔记
算子filter"""rdd.filter(f):根据f函数中的判断条件对rdd追踪的数据进行过滤保留条件为True对应的rdd数据"""frompysparkimportSparkContextsc=
SparkContext
祈愿lucky
·
2024-01-12 23:24
大数据
spark
学习
笔记
Spark六:Spark 底层执行原理
SparkContext
、DAG、TaskScheduler
Spark底层执行原理学习Spark运行流程学习链接:https://mp.weixin.qq.com/s/caCk3mM5iXy0FaXCLkDwYQ一、Spark运行流程流程:
SparkContext
eight_Jessen
·
2024-01-12 07:19
scala
spark
spark
大数据
Spark streaming架构中的Driver和Executor
Driver在Driver中,有StreamContext作为SparkStreaming的入口,SparkStreaming的最终处理实际还是交给
SparkContext
。
她雅_b28e
·
2024-01-09 05:43
RDD入门——RDD 代码
创建RDD程序入口SparkContextvalconf=newSparkConf().setMaster("local[2]").setAppName(spark_context")valsc:
SparkContext
我像影子一样
·
2024-01-07 23:50
Spark
大数据
spark
大数据
2024.1.6 Spark_Core 分词处理,RDD持久化,内核调度
checkpoint检查点:3.缓存和checkpoint的区别:三.Spark内核调度1.RDD依赖2.DAG和Stage3.shuffle阶段4.JOB调度流程5.SparkRDD并行度一.分词处理1.创建
SparkContext
白白的wj
·
2024-01-06 23:04
spark
大数据
分布式
etl
hdfs
python
Python_PySpark实战
pipinstall-ihttps://pypi.tuna.tsinghua.edu.cn/simplepyspark2.构建PySpark执行环境入口对象"""演示获取PySpark的执行环境入库对象并通过
SparkContext
Hooray11
·
2024-01-05 05:48
python自学
python
开发语言
aaaaaa
SimpleApp.scala代码文件中输入以下代码:/*SimpleApp.scala*/importorg.apache.spark.SparkContextimportorg.apache.spark.
SparkContext
SunsPlanter
·
2024-01-04 15:24
java
Spark源码分析之:Shuffle
其实ShuffleDependency从
SparkContext
初始化就已经被DAGScheduler划分好了,本文主要探讨在Task运行过程中的ShufleWrite和ShuffleRead。
你说个der
·
2024-01-03 02:30
Spark
spark
大数据
33、Spark内核源码深度剖析之
SparkContext
原理剖析与源码分析
原理剖析
SparkContext
原理剖析.png源码解读本系列文章spark版本为1.3.0入口org.apache.spark.SparkContextSparkContext要点TaskScheduler
ZFH__ZJ
·
2023-12-31 10:38
Spark的这些事(二)——几个概念
1、
SparkContext
[经常简称为sc]sparkapp的起点和入口,一般用来加载数据集,生成第一个rdd。2、定义一个spark应用程序所需要的三大步骤的逻辑:加载数据集,处理数据,结果展示。
数据社
·
2023-12-30 18:28
阻断血缘关系以及checkpoint文件清理
spark-sql读写同一张表,报错Cannotoverwriteapaththatisalsobeingreadfrom1.增加checkpoint,设置检查点阻断血缘关系sparkSession.
sparkContext
.setCheckpointDir
Keep hunger
·
2023-12-25 04:21
Spark
spark
Broadcast Variable
可以通过调用
SparkContext
的broadcast()方法,来针对某个变量创建广播变量。然后在算子的函数内,使用到广播变
一个人一匹马
·
2023-12-25 02:04
spark在standalone模式下提交任务流程
2、在driver里面首先干的第一件事就是构造
sparkcontext
,构造的时候会初始化DAGScheduler和TaskScheduler,构造完TaskScheduler后
程序媛啊
·
2023-12-16 23:22
spark的键值对的行动操作
frompysparkimportSparkContextif__name__=="__main__":master="local"iflen(sys.argv)==2:master=sys.argv[1]try:sc.stop()except:passsc=
SparkContext
yanghedada
·
2023-12-16 10:03
生产环境_Spark处理轨迹中跨越本初子午线的经度列
{SparkConf,
SparkContext
}importorg.apache.spark.sql.
Matrix70
·
2023-12-16 05:26
数据分析与处理
Spark
spark
大数据
分布式
【Spark精讲】Spark作业执行原理
目录基本流程主要组件Driver端Executor端Job提交执行流程Task提交Task执行基本流程用户编写的Spark应用程序最开始都要初始化
SparkContext
。
话数Science
·
2023-12-15 07:58
Spark精讲
Spark
大数据
spark
大数据
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他