E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
HadoopRDD
【Spark精讲】RDD缓存源码分析
以
HadoopRDD
为例overridedefcompute(split:Partition,context:TaskC
话数Science
·
2024-01-03 18:08
Spark
Spark精讲
大数据
spark
大数据
黑猴子的家:Spark RDD 之 Hadoop 输入输出(数据读取与保存的主要方式之一)
1、
hadoopRDD
和newHadoopRDDSpark的整个生态系统与Hadoop是完全兼容的,所以对于Hadoop所支持的文件类型或者数据库类型,Spark也同样支持.另外,由于Hadoop的API
黑猴子的家
·
2023-12-25 23:05
【Spark精讲】RDD特性之数据本地化
通过RDD的首选运行位置可以让RDD的某个分区的计算任务直接在指定的主机上运行,从而实现了移动计算而不是移动数据的目的,减少了网络传输的开销,如Spark中
HadoopRDD
能够
话数Science
·
2023-12-15 07:58
Spark精讲
Spark
大数据
spark
大数据
【Spark】Job触发流程原理
1.通过例子分析下:vallines=sc.textFile()首先,hadoopFile()方法的调用,会创建一个
HadoopRDD
,其中的元素是(key,value)pair,key是HDFS或文本文件的每一行的
果果小姚
·
2023-09-30 01:22
Spark源码-spark算子-1-构建RDD的算子
RDD2.1.1.parallelize方式创建RDD2.2.根据外部存储系统中的数据集创建RDD2.2.1.textFile-根据本地文本文件创建RDD2.2.1.1.hadoopFile-根据文件创建
hadoopRDD
2.2.2
zdaiqing
·
2023-02-03 12:26
源码
Spark
大数据
spark
大数据
scala
spark源码----Spark任务划分、调度、执行
从RDD的创建开始讲起把它当做入口,然后点进去主要关注hadoopFile,进去会发现new了一个
HadoopRDD
以上其实就是一个RDD的构建过程又比如我们看flatMap,它一样会去构建一个新的RDD
没有合适的昵称
·
2022-02-28 11:08
spark
Spark系列(九)DAGScheduler工作原理
4valconf=newSparkConf()5conf.setAppName("wordcount").setMaster("local")67valsc=newSparkContext(conf)8//产生
HadoopRDD
weixin_30345577
·
2020-09-14 02:26
Spark学习(四) -- Spark作业提交
line.split("")).map(word=>(word,1)).reduceByKey(_+_)步骤一:valrawFile=sc.textFile("README.rd")texyFile先生成
HadoopRDD
weixin_30702413
·
2020-08-22 19:35
Spark【学习笔记】 textfile读取 HDFS 文件分区 [压缩与非压缩]
分区大小又是多少文件的压缩格式文件的大小及HDFS块大小textfile将会创建一个
HadoopRDD
,这个RDD的使用了TextInputFormat类来判断如何分区的对于
赵大龙
·
2020-08-22 15:38
大数据
SparkCore之文件系统类数据读取与保存
所支持的文件类型或者数据库类型,Spark也同样支持.另外,由于Hadoop的API有新旧两个版本,所以Spark为了能够兼容Hadoop所有的版本,也提供了两套创建操作接口.对于外部存储创建操作而言,
hadoopRDD
大数据小同学
·
2020-08-18 12:20
#
SparkCore
SPARK 源码分析技术分享(带视频)
本站点正在持续更新中......】SPARK1.6.0-cdh5.15.0Hadoop2.6.0-cdh5.15.0spark-scala-maven微信(技术交流):thinktothingsYoutub视频
HadoopRdd
thinktotings
·
2020-07-28 12:20
Spark
Spark:DAGScheduler原理剖析与源码分析
,来分析SparkJob的触发流程代码:varlinesRDD=sc.textFile('hdfs://')SparkContext中textFile方法/***hadoopFile方法调用会创建一个
HadoopRDD
焦焦^_^
·
2020-07-14 12:37
Spark
Caused by: java.lang.NoSuchMethodError: org.apache.hadoop.mapred.ReduceTask. 解决方案
(Lorg/apache/hadoop/mapreduce/JobID;Lorg/apache/hadoop/mapreduce/TaskType;I)Vatorg.apache.spark.rdd.
HadoopRDD
.addLocalConfiguration
回忆19930207
·
2020-07-07 22:39
SparkSQL 性能调优参数
1,spark.
hadoopRDD
.ignoreEmptySplits默认是false,如果是true,则会忽略那些空的splits,减小task的数量。
stone-zhu
·
2020-07-01 15:30
BigData
spark
spark
sql
Spark
HadoopRDD
读取HDFS文件
SparkHadoopRDD读取HDFS文件更多资源SPARK源码分析技术分享(bilibilid视频汇总套装视频):https://www.bilibili.com/video/av37442139/github:https://github.com/opensourceteams/spark-scala-mavencsdn(汇总视频在线看):https://blog.csdn.net/thin
thinktothings
·
2020-07-01 04:10
Spark
Spark
Spark
HadoopRDD
源码分析
Spark基本架构及原理
目标:Spark概述Spark基本概念Spark四大运行模式、运行流程spark与
hadoopRDD
运行流程Spark三大类算子SparkStreamingSpark概述:ApacheSpark是专为大规模数据处理而设计的快速通用的计算引擎
zjh_746140129
·
2020-06-30 18:50
Spark
hadoop
==Spark系列(九)DAGScheduler工作原理
E5%88%97%E4%B9%8BDAGScheduler%E5%B7%A5%E4%BD%9C%E5%8E%9F%E7%90%86.html1、textFile方法的实现内部先通过hadoopFile创建
HadoopRDD
葡萄喃喃呓语
·
2019-12-01 12:55
大数据学习day19-----spark02-------0 零碎知识点(创建rdd的两种形式,分区和分区器的区别) 1. RDD的使用 2.Spark中的一些重要概念
0.零碎概念(1)(2)此处就算地址写错了也不会报错,因为此操作只是读取数据的操作(元数据),表示从此地址读取数据但并没有进行读取数据的操作(3)分区(有时间看
HaDoopRDD
这个方法的源码,用来计算分区数量的
一y样
·
2019-12-01 11:00
java.lang.NoSuchMethodError: org.apache.hadoop.mapred.TaskID.
(Lorg/apache/hadoop/mapreduce/JobID;Lorg/apache/hadoop/mapreduce/TaskType;I)Vatorg.apache.spark.rdd.
HadoopRDD
.addLocalConfiguration
阿文awen
·
2019-01-24 10:53
bugbug
Spark
HadoopRDD
读取HDFS文件
前置条件Hadoop版本:Hadoop2.6.0-cdh5.15.0Spark版本:SPARK1.6.0-cdh5.15.0概述源码分析SparkHadoopRDD是如何读取HDFS上的文件分析
HadoopRDD
首席数据师
·
2018-12-10 16:22
Spark
HadoopRdd
partition的开始位置计算
原文链接:https://my.oschina.net/u/723009/blog/2985982SparkHadoopRddpartition的开始位置计算HadoopRDDpartition数据范围计算更多资源SPARK源码分析技术分享(bilibilid视频汇总套装视频):https://www.bilibili.com/video/av37442139/github:https://git
chongqueluo2709
·
2018-12-09 23:00
大数据之Spark(三)--- Spark核心API,Spark术语,Spark三级调度流程源码分析
[
HadoopRDD
]extendsRDD读取hadoophdfs上的数据,hbase的数据,s3的数据[MapPartitionsRDD]分区RDD:针对父RDD的每个分区,提供了函数,生成的新类型RDD
葛红富
·
2018-11-06 17:59
大数据
Spark
Spark(三)————作业提交流程
不可变的数据分区集合.基本操作(mapfilter,persist)分区列表//数据应用给每个切片的计算函数//行为到其他RDD的依赖列表//依赖关系(可选)针对kv类型RDD的分区类(可选)首选位置列表[
HadoopRDD
Jorocco
·
2018-07-05 13:33
大数据
Spark
RDD简介
然后具体的像jdbcRDD,
HadoopRDD
,ShuffleRDD等都继承自RDD并有份自己的实现。RDD的主要属性有以下部分组成:一组分
fushengxu
·
2016-07-25 19:00
RDD
Spark
WordCount过程详解
1.HDFS中存储(分布式)数据helloSpark.txt2.从HDFS上读取分布式文件并且以数据分片的方式,存在于集群之中
HadoopRDD
:多台机器上图转自地址图转自地址
sundujing
·
2016-05-09 15:00
分布式
hdfs
Spark1.4.0和hadoop联合部署的坑
主要的业务场景是:20G的
HadoopRDD
和20G的
hadoopRDD
进行数据的碰撞分析。 单次job大约耗时60s左右,测试了多次,差不多都是这个数值,感觉非常慢。因为
wl044090432
·
2016-02-02 14:00
性能
spark
hdfs
s通过案例彻底详解spark中DAG的逻辑视图的产生机制和过程 -- (视频笔记)(重点)
hadoopRDD
把hdfs的block转换为split的逻辑映射mapPartitionedRDD从split中转换,与
hadoopRDD
一一映射 textFileflatMap也是mapPartitionedRDD
逸新
·
2015-12-29 15:00
spark RDD系列------2.
HadoopRDD
分区的创建以及计算
这种从hdfs读取文件生成的RDD就是
HadoopRDD
。那么
HadoopRDD
的分区是怎么计算出来的?如果从hdfs读取的文件非常大,如何高效的从hdfs加载文件生成
HadoopRDD
呢?
u012684933
·
2015-11-26 14:00
Spark API编程动手实战-05-spark文件操作和debug
executor的内存为1g大小,启动成功后参看web页面:从hdfs上读取文件:在命令行中返回的MappedRDD,使用toDebugString,可以查看其lineage的关系:可以看出MappedRDD是从
HadoopRDD
stark_summer
·
2015-02-02 20:00
FlatMappedRDD
MappedRDD
executor-memory
HadoopRDD
ShuffledRDD
Spark API编程动手实战-05-spark文件操作和debug
的内存为1g大小,启动成功后参看web页面: 从hdfs上读取文件: 在命令行中返回的MappedRDD,使用toDebugString,可以查看其lineage的关系:可以看出MappedRDD是从
HadoopRDD
Stark_Summer
·
2015-02-02 20:00
executor-memory
HadoopRDD
MappedRDD
FlatMappedRDD
ShuffledRDD
Spark API编程动手实战-05-spark文件操作和debug
的内存为1g大小,启动成功后参看web页面: 从hdfs上读取文件: 在命令行中返回的MappedRDD,使用toDebugString,可以查看其lineage的关系:可以看出MappedRDD是从
HadoopRDD
Stark_Summer
·
2015-02-02 20:00
executor-memory
HadoopRDD
MappedRDD
FlatMappedRDD
ShuffledRDD
Spark API编程动手实战-05-spark文件操作和debug
executor的内存为1g大小,启动成功后参看web页面:从hdfs上读取文件:在命令行中返回的MappedRDD,使用toDebugString,可以查看其lineage的关系:可以看出MappedRDD是从
HadoopRDD
stark_summer
·
2015-01-27 15:00
executor-memory
FlatMappedRDD
HadoopRDD
MappedRDD
ShuffledRDD
spark内核揭秘-10-RDD源码分析
RDD的核心方法:首先看一下getPartitions方法的源码:getPartitions返回的是一系列partitions的集合,即一个Partition类型的数组我们就想进入
HadoopRDD
实现
Stark_Summer
·
2015-01-21 18:00
RDD
compute
getPartitions
getDependencies
spark内核揭秘-10-RDD源码分析
RDD的核心方法:首先看一下getPartitions方法的源码:getPartitions返回的是一系列partitions的集合,即一个Partition类型的数组我们就想进入
HadoopRDD
实现
stark_summer
·
2015-01-21 15:00
RDD
compute
getPartitions
getDependencies
spark内核揭秘-10-RDD源码分析
RDD的核心方法:首先看一下getPartitions方法的源码:getPartitions返回的是一系列partitions的集合,即一个Partition类型的数组我们就想进入
HadoopRDD
实现
Stark_Summer
·
2015-01-21 15:00
RDD
compute
getPartitions
getDependencies
spark内核揭秘-10-RDD源码分析
RDD的核心方法:首先看一下getPartitions方法的源码:getPartitions返回的是一系列partitions的集合,即一个Partition类型的数组我们就想进入
HadoopRDD
实现
stark_summer
·
2015-01-21 15:00
RDD
compute
getPartitions
getDependencies
上一页
1
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他