E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
rdd
Spark
RDD
cache persist checkpoint用法及区别
cache/persist持久化cache设置
RDD
缓存级别为只在内存中存储;其实内部调用的就是persist()方法persist可以灵活的设置
RDD
缓存级别(方式);具体pyspark中如下;具体选用哪种
rgc_520_zyl
·
2023-04-07 05:44
PySpark
PySpark
cache
persist
checkpoint
RDD
缓存机制及持久化技术
文章目录
RDD
缓存
RDD
缓存API介绍
RDD
缓存代码演示示例
RDD
缓存执行原理
RDD
CheckPointCheckPoint代码演示示例CheckPoint与Cache对比
RDD
缓存
RDD
之间进行Transformation
蜜桃上的小叮当
·
2023-04-07 05:44
Spark
缓存
java
数据库
Spark中的
RDD
Checkpoint 检查点机制(附案例)
RDD
数据可以持久化缓存,比如cache()、persist(),虽然快速但也是最不可靠的,比如内存损坏、磁盘损坏。
奇迹虎虎
·
2023-04-07 05:43
#
Spark
hdfs
缓存
spark
big
data
大数据
Spark-
RDD
操作
Spark-
RDD
操作什么是
RDD
怎么理解
RDD
创建
RDD
的3种方式读取数据并产生
RDD
读取普通文本数据读取json格式的数据读取CSV,TSV格式的数据读取sequenceFile格式的数据读取object
星瀚光晨
·
2023-04-07 05:43
spark系列
spark
scala
big
data
RDD
缓存、广播变量、累加器知识点笔记
文章目录1.
RDD
数据是过程的2.
RDD
缓存3.checkpoint技术4.广播变量5.累加器6.广播变量和累加器综合案例1.
RDD
数据是过程的2.
RDD
缓存在流程图中可以看到有个绿色的点,就是代表缓存的地方
小鱼编程
·
2023-04-07 05:13
PySpark
缓存
python
big
data
day04 PySpark
day04PySpark课程笔记今日内容:1-
RDD
的综合案例2-
RDD
的持久化:缓存和checkpoint3-
RDD
的共享变量:广播变量和累加器4-
RDD
内核调度原理0-如何在pycharm中设置python
两面三刀流
·
2023-04-07 05:13
python
pycharm
开发语言
pyspark 对
RDD
的相关api
1、aggregate,可以用来求平均值如下示例
rdd
2=spark.sparkContext.parallelize([1,2,3,4,5,6,7,8,9,10])seqop=(lambdax,y:(
maketubu7
·
2023-04-07 05:10
spark
python
[Spark] persist和checkpoint
persistpersist可以将数据(
RDD
)缓存到内存或持久化到磁盘的方法。虽然是惰性计算,但严格来说,persist既不是转换算子,也不是行动算子,只是标记了当前
RDD
要进行缓存。
手撕机
·
2023-04-07 05:39
Spark
pyspark
RDD
的分区、依赖关系、机制
目录一.
RDD
的分区二.
RDD
的依赖关系三.
RDD
机制1、使用persist()方法对
RDD
进行持久化编辑2、使用cache()方法对
RDD
进行持久化编辑三、容错机制一.
RDD
的分区
RDD
的分区原则是分区的个数尽量等于集群中的
发量不足
·
2023-04-07 05:39
Linux
hadoop
spark
spark
大数据
分布式
数据库
linux
RDD
Checkpoint
一、
RDD
Checkpoint介绍
RDD
数据可以持久化,但是持久化/缓存可以把数据放在内存中,虽然是快速的,但是也是最不可靠的;也可以把数据放在磁盘上,也不是完全可靠的!
飞Link
·
2023-04-07 05:38
大数据
大数据
数据仓库
PySparkSpark
RDD
的cheikpoint
一、Checkpoint案例frompysparkimportSparkContext,SparkConfimportosos.environ['SPARK_HOME']='/export/server/spark'SPARK_PYTHON='/root/anaconda3/envs/pyspark_env/bin/python'os.environ['PYSPARK_PYTHON']=SPARK
飞Link
·
2023-04-07 05:38
Spark计算引擎
spark
hdfs
big
data
PySpark
RDD
的缓存和Checkpoint
文章目录1.前言2.
RDD
的缓存3.
RDD
的CheckPoint1.前言
RDD
之间进行相互迭代计算(Transformation的转换),当执行开启后,新
RDD
的生成,代表老
RDD
的消息,
RDD
的数据只在处理的过程中存在
不忘初欣丶
·
2023-04-07 05:37
spark
缓存
大数据
spark
spark的执行
task组成)2)跟踪Executor的运行状况3)为执行器节点调度任务:分配数据4)UI展示应用运行状况:把运行内容通过网页展示出来2.Executor为执行任务而产生1)执行任务,返回结果2)储存
RDD
舟舟洋
·
2023-04-07 04:16
【Python机器学习】——标准差
标准差(Standa
rdD
eviation,又常称均方差)是一个数字,描述值的离散程度。低标准偏差表示大多数数字接近均值(平均值)。高标准偏差表示这些值分布在更宽的范围内。
玄链教育
·
2023-04-07 02:40
#
python语言基础
python
机器学习
numpy
linux gpt磁盘管理,CentOS 8 磁盘管理详解(含GPT分区)
1、概述硬盘(Ha
rdD
iskDrive,简称HDD)是计算机经常使用的存储设备之一,本文将整体介绍它的基本知识,主要介绍在linux中怎么使用和管理它。
Choo Chunlang
·
2023-04-06 20:13
linux
gpt磁盘管理
Spark
RDD
宽窄依赖——顿悟篇
1.宽窄依赖●两种依赖关系类型
RDD
和它依赖的父
RDD
的关系有两种不同的类型,即·宽依赖(widedependency/shuffledependency)·窄依赖(narrowdependency)●
华山论键
·
2023-04-06 19:16
spark
spark
spark血统--宽窄依赖(史上最简单的解释)
WideDependencies(宽依赖):是指子
RDD
的分区依赖于父
RDD
的多个分区或所有分区(子
rdd
和父
rdd
的关系是一对多的关系)NarrowDependencies(窄依赖):是指父
RDD
的每一个分区最多被一个子
一只考考拉
·
2023-04-06 19:43
spark
Spark
RDD
特征与宽窄依赖
RDD
有如下特征:(1)有一个分片列表,就是能被切分,和hadoop一样,能够切分的数据才能并行计算。(2)由一个函数计算每一个分片。
zhuhailong
·
2023-04-06 19:11
Spark
spark
RDD
宽窄依赖
spark shuffle和宽窄依赖的关系
前言stage作为是Spark应用程序的调度任务划分模块,对它的理解有助你提高编写Spark代码的编写,说到底想要玩好Spark,就要玩好
RDD
。
哥伦布112
·
2023-04-06 19:11
spark
Spark
RDD
的五大属性+宽窄依赖+执行过程+常见算子
分区列表作用函数分区函数依赖关系位置策略宽窄依赖执行过程:
RDD
的操作之transformation和action
大数据架构师Pony
·
2023-04-06 19:40
大数据之Spark
大数据-spark-宽窄依赖-原理图解+浅谈
宽依赖:发生shuffle时,一定会产生宽依赖,宽依赖是一个
RDD
中的一个Partition被多个子Partition所依赖(一个父亲多有儿子),也就是说每一个父
RDD
的Partition中的数据,都可能传输一部分到下一个
进阶的橙汁糖
·
2023-04-06 19:36
Spark
大数据
spark中的宽窄依赖
NarrowDependency:Baseclassfordependencieswhereeachpartitionofthechild
RDD
dependsonasmallnumberofpartitionsoftheparent
RDD
.Narrowdependenciesallowforpipelinedexecution
韩运畅
·
2023-04-06 19:35
#
Spark
spark 宽窄依赖
宽依赖与窄依赖窄依赖是指父
RDD
的每个分区只被子
RDD
的一个分区所使用,子
RDD
分区通常对应常数个父
RDD
分区(O(1),与数据规模无关)ShuffleDependency和HadoopMapReduce
leofionn
·
2023-04-06 19:05
Spark宽窄依赖之间的案例
conf.setAppName("day03")conf.setMaster("local")valsc=newSparkContext(conf)sc.setLogLevel("error");val
rdd
1
smile@Sky
·
2023-04-06 19:32
Spark的宽窄依赖
rdd
的依赖关系是指上一个算子形成的
rdd
跟下一个算子形成的
rdd
分区之间的对应关系,分为宽依赖和窄依赖。
凌寒独自开
·
2023-04-06 19:00
大数据
spark
big
data
大数据
Spark 宽窄依赖 源码分析
1、最顶级类-org.apache.spark.Dependency抽象类Dependency,继承了序列化类,定义了
rdd
方法。
long-king
·
2023-04-06 19:55
大数据
Spark
宽窄依赖
源码分析
Spark为什么要设计宽窄依赖?
窄依赖:父
RDD
的一个分区只会被子
RDD
的一个分区依赖对于窄依赖#1:Spark可以并行计算#2:如果有一个分区数据丢失,只需要从父
RDD
的对应1个分区重新计算即可,不需要重新计算整个任务,提高容错。
chenyanlong_v
·
2023-04-06 19:55
使用 Pandas 分析亿行数据
此处的国内航班指的是美国国内航班数据我们使用了来自Harva
rdD
ataverse的DataExpo2009:Airlineontimedata数据集。
WongSSH
·
2023-04-06 19:20
Python高性能
pandas
python
数据分析
【Spark篇】--Spark中的宽窄依赖和Stage的划分
一、前述
RDD
之间有一系列的依赖关系,依赖关系又分为窄依赖和宽依赖。Spark中的Stage其实就是一组并行的任务,任务是一个个的task。
L先生AI课堂
·
2023-04-06 19:19
Spark汇总
Spark宽窄依赖的划分规则
窄依赖父
RDD
一个分区中的数据,交给子
RDD
一个分区来处理。宽依赖父
RDD
一个分区中的数据,交给子
RDD
多个分区来处理。如何辨别宽依赖和窄依赖?一般来说,发生shuffle的操作都属于宽依赖。
永不落后于人
·
2023-04-06 19:19
spark
spark
宽依赖
Spark的宽窄依赖
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、
RDD
依赖二、宽窄依赖1.窄依赖(NarrowDependency)2.宽依赖(Shuffle依赖)(WideDependency
Buutoorr
·
2023-04-06 19:15
python
机器学习
pandas
分布式
spark
Spark------------宽窄依赖
窄依赖窄依赖(NarrowDependency)官方解释:“Baseclassfordependncieswhereeachpartitionofthechild
RDD
dependsonasmallnumberofpartitionsoftheparent
RDD
.Narrowdependenciesallowforpipelinedexecution
十八画_生
·
2023-04-06 19:43
分布式
spark
大数据
hadoop
架构
Spark--Spark
RDD
的cache和persist缓存及区别
RDD
缓存方式
RDD
通过persist方法或cache方法可以将前面的计算结果缓存,但是并不是这两个方法被调用时立即缓存,而是触发后面的action时,该
RDD
将会被缓存在计算节点的内存中,并供后面重用
李小李的路
·
2023-04-06 17:56
2019蓝桥杯JAVA B部分题目
对于上面的迷宫,从入口开始,可以按DRRUR
RDD
DR的顺序通过迷宫,一共10步。其中D、U、L、R分别表示向下、向上、向
馒头公子
·
2023-04-06 15:22
spark中
RDD
与DF的关系
底层是Spark-core核心模块,Spark每个模块都有一个核心抽象,Spark-core的核心抽象是
RDD
,SparkSQL等都基于
RDD
封装了自己的抽象,在SparkSQL中是DataFrame/
boyzwz
·
2023-04-06 14:38
spark
大数据
pandas
spark基础之
RDD
详解
一什么是
RDD
,有什么特点?
RDD
:ResilientDistributedDataset,弹性分布式数据集。
莫言静好、
·
2023-04-06 14:07
大数据/spark
spark
RDD
弹性分布式数据集
PySpark基础之算子
分布式集合对象(
RDD
)的API称为算子,本地对象的API,叫做方法或函数;但是分布式对象的API就
不忘初欣丶
·
2023-04-06 14:29
spark
python
spark
transformer
PySpark基础之
RDD
的创建
文章目录1.并行化创建2.读取文件创建Spark
RDD
编程的程序入口对象是SparkContext对象(不论何种编程语言),只有构建出SparkContext,基于它才能执行后续的API调用和计算。
不忘初欣丶
·
2023-04-06 14:59
spark
大数据
spark
hadoop
Spark基础【
RDD
KV类型转换算子】
文章目录一
RDD
Key-Value类型转换算子1groupByKey(1)groupByKey和groupBy的区别(2)groupByKey和reduceByKey的区别2aggregateByKey3foldByKey4combineByKey
OneTenTwo76
·
2023-04-06 14:57
Spark
spark
大数据
python
spark输出
rdd
数据_大数据基础---Spark_
RDD
一、
RDD
简介
RDD
全称为ResilientDistributedDatasets,是Spark最基本的数据抽象,它是只读的、分区记录的集合,支持并行操作,可以由外部数据集或其他
RDD
转换而来,它具有以下特性
光影帽子
·
2023-04-06 14:22
spark输出rdd数据
spark java
rdd
_Spark基础教程——基本
RDD
1、
RDD
概念
RDD
的全称是弹性分布式数据集(ResilientDistributedDataset),它是Spark对数据的核心抽象。
Esri北京研发中心
·
2023-04-06 14:51
spark
java
rdd
Java-Spark系列3-
RDD
介绍
文章目录一.
RDD
概念1.1
RDD
的特点1.2
RDD
的核心属性二.
RDD
概述2.1准备工作2.2初始化spark2.3
RDD
数据集2.3.1并行集合2.3.2外部数据集三.操作
RDD
3.1基础知识3.2
只是甲
·
2023-04-06 14:49
#
Spark
大数据和数据仓库
spark
java
RDD介绍
Spark编程
Spark
RDD
常用算子使用总结
文章目录概述Transformation(转换算子)1.map2.flatMap3.filter4.mapPartitions5.mapPartitionsWithIndex6.sample7.mapValues8.union(并集)9.substract(差集)10.reduceByKey11.groupByKey12.combineByKey13.foldByKey14.aggregateBy
一片枯黄的枫叶
·
2023-04-06 14:48
spark
SparkCore
RDD
【Spark】
RDD
详细介绍
Spark-
RDD
1.
RDD
概述
RDD
是Spark的基石,是实现Spark数据处理的核心抽象。那么
RDD
为什么会产生呢?
BIG*BOSS
·
2023-04-06 14:44
Spark
Spark
Spark的
RDD
介绍
1、
RDD
为什么会产生
RDD
是Spark的基石,是实现Spark数据处理的核心抽象。
蓦然_
·
2023-04-06 14:13
Spark
Spark
RDD
弹性分布式数据集
Spark基础学习笔记:Spark
RDD
案例分析
文章目录一、案例分析:Spark
RDD
实现单词计数(一)案例概述(二)实现步骤1、新建Maven管理的Spark项目2、添加Scala和Spark依赖3、创建WordCount对象4、上传Spark应用程序到
潘潘.tel
·
2023-04-06 14:37
spark
学习
Spark基础学习笔记:创建
RDD
目录一、
RDD
为何物(一)
RDD
概念(二)
RDD
示例(三)
RDD
主要特征二、做好准备工作(一)准备文件1、准备本地系统文件2、启动HDFS服务3、上传文件到HDFS(二)启动SparkShell1、启动
tooolik
·
2023-04-06 14:05
spark
学习
big
data
Spark
RDD
讲解
目录前置介绍:
RDD
简介
RDD
创建方式
RDD
操作
RDD
操作分为转化和行动的目的和原因(重点理解):Spark应用大致运行机制概图Spark统一运行流程概述
RDD
转化操作
RDD
行动操作前置介绍:本文的代码示例全部使用
程序消消乐
·
2023-04-06 14:02
大数据
spark
scala
big
data
Spark 基础
RDD
介绍
文章目录1.什么是
RDD
?
不忘初欣丶
·
2023-04-06 14:48
spark
spark
大数据
分布式
RDD
操作—— 行动(Action)操作
行动操作是真正触发计算的地方。Spark程序执行到行动操作时,才会执行真正的计算,从文件中加载数据,完成一次又一次转换操作,最终,完成行动操作得到结果。操作说明count()返回数据集中的元素个数collect()以数组的形式返回数据集中的所有元素first()返回数据集中的第一个元素take(n)以数组的形式返回数据集中的前n个元素reduce(func)通过函数func(输入两个参数并返回一个
_羊羽_
·
2023-04-06 12:20
上一页
43
44
45
46
47
48
49
50
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他