E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
SparkRDD
Spark RDD的实操教程(二)
transformations算子)3.行动算子(actions算子)0x02RDD算子实操1.创建RDD2.转化算子3.行动算子0xFF总结0x00教程内容RDD的算子操作介绍RDD算子实操上一篇教程:
SparkRDD
邵奈一
·
2020-07-14 22:24
spark
大数据
spark
大数据
某《Spark机器学习班》最新
第一阶段Spark基础入门第1课Spark系统概述与编程接口知识点1:Spark系统概述知识点2:
SparkRDD
分区及依赖关系知识点3:RDDAPI-transformation、action实战项目
ξς
·
2020-07-14 06:58
Spark之Spark SQL、DataFrame和Dataset
不同于基础的
SparkRDD
的API,SparkSQL提供的接口为Spark提供了更多关
IT142546355
·
2020-07-14 04:44
Hadoop专栏
大数据
spark
dataframe
dataset
spark
sql
葵花宝典--
sparkRDD
一、RDD概述RDD是弹性分布式数据集,是spark中数据的抽象。在代码中是一个抽象类,他代表一个抽象类不可变、可分区、元素可并行计算的集合。弹性:存储(内存和磁盘相互切换)、容错(数据丢失可自动恢复)、计算(计算出错重试)、分片(可根据需求重新分片)分布式:数据存储在hdfs上数据集:RDD只保存计算逻辑,不保存数据数据抽象:RDD是一个抽象类,需要具体实现不可变:RDD封装了计算逻辑,是不可变
张薄薄
·
2020-07-11 17:30
葵花宝典--
sparkRDD
(一)
一、Transformation(转换算子)1、value类型1)、map:映射,将RDD的数据进行转换,比如对数据乘2、把数据转换为元组2)、mapPartition:对分区内数据进行map,入参是可迭代的集合,对入参进行map操作3)、mapPartitionWithIndex:带分区号的map操作,入参是分区号和可迭代的集合map和mapPartition的区别:map每次处理一条数据map
张薄薄
·
2020-07-11 17:30
spark
SparkRDD
函数详解
1、RDD操作详解启动spark-shellspark-shell--masterspark://node-1:70771.1基本转换1)mapmap是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。任何原RDD中的元素在新RDD中都有且只有一个元素与之对应。举例:scala>vala=sc.parallelize(1to9,3)scala>valb=a.map(x=>x*2)sca
NicholasEcho
·
2020-07-10 10:57
GraphX构建图的源码详解
属性图扩展了
SparkRDD
的抽象,有Table和Graph两种视图,但是只需要一份物理存储。两种视图都有自己独有的操作符,从而使我们同时获得了操作的灵活性和执行的高效率。
llllqb
·
2020-07-10 03:30
记一次 spark rdd 写数据到 hbase 报 NPE 的问题排查
但是在升级后发现之前
sparkrdd
写hbase正常的任务报错了,花费一番功夫才解决,所以写篇文章记录下。
甄情
·
2020-07-10 02:43
异常修复
Spark为什么只有在调用action时才会触发任务执行呢(附算子优化和使用示例)?
还记得之前的文章《
SparkRDD
详解》中提到,
SparkRDD
的缓存和checkpoint是懒加载操作,只有action触发的时候才会真正执行,其实不仅是
SparkRDD
,在Spark其他组件如SparkStreaming
大数据学习与分享
·
2020-07-10 00:56
Spark
大数据
大数据
Spark RDD操作之Map系算子
本篇博客将介绍
SparkRDD
的Map系算子的基本用法。1、mapmap将RDD的元素一个个传入call方法,经过call方法的计算之后,逐个返回,生成新的RDD,计算之后,记录数不会缩减。
dong_lxkm
·
2020-07-09 15:51
Spark Shuffle原理、Shuffle操作问题解决和参数调优
1.1.1maptask端操作1.1.2reducetask端操作1.2spark现在的SortShuffleManager2Shuffle操作问题解决2.1数据倾斜原理2.2数据倾斜问题发现与解决2.3数据倾斜解决方案3
sparkRDD
weixin_30800987
·
2020-07-08 14:32
深入理解Spark RDD抽象模型
深入理解
SparkRDD
抽象模型和编写RDD函数Sparkrevolvesaroundtheconceptofaresilientdistributeddataset(RDD),whichisanimmutable
壹禅
·
2020-07-05 10:49
spark
秋名山老司机从上车到翻车的悲痛经历,带你深刻了解什么是 Spark on Hive!| 原力计划...
上车前需知Sparkonhive与hiveonspark的区别1.Sparkonhive是spark通过Spark-SQL使用hive语句,操作hive,底层运行的还是
sparkrdd
。
CSDN资讯
·
2020-07-01 02:51
spark自定义redisson rdd
其通过scan的方式遍历亿级键值时,在足够资源的情况下,无法满足一分钟内拉完亿级数据的需求,因此需要对REDIS的存储结构进行设计,并结合当前业务流行的、性能极高的与REDIS组件Redisson自定义
sparkrdd
yuqu123
·
2020-06-30 10:20
流式数据采集和计算(十四):Spark基础学习笔记
基础学习笔记..1Spark基础..4Spark特性..4Spark部署(onYarn)5Spark启动和验证..6常见问题..7Spark基本原理..8Spark概念/架构设计..8Spark运行流程..10
SparkRDD
有腹肌的小蝌蚪_
·
2020-06-30 07:50
Spark/Flink的流处理
Apache-Flink
Flink是构建在数据流之上地有状态计算地流计算框架通常被人们理解为是第三代大数据分析方案第一代-Hadoop的MapReduce(计算)Storm流计算(2014.9)两套独立计算引擎使用难度大第二代-
SparkRDD
每天都超级可爱
·
2020-06-29 15:15
spark底层核心 RDD详解
2、一个计算每个分区的函数
sparkRDD
计算是以分区为单位的,每个RDD都
এ゛孙先生_。
·
2020-06-29 12:34
努力吧少年
Spark DStreams
SparkDStreamsDStreams是什么DStreams是构建在
SparkRDD
之上的一款流处理工具,意即SparkDStreams并不是一个严格意义上的流处理,底层通过将RDD在时间轴上分解成多个小的
LJiaWang
·
2020-06-28 22:53
spark
Spark SQL
SparkSQLSparkSQL是构建在
SparkRDD
之上一款ETL(ExtractTransformationLoad)工具(类似Hive-1.x-构建在MapReduce之上)。
LJiaWang
·
2020-06-28 22:22
spark
Spark DAG概述
Spark中使用DAG对RDD的关系进行建模,描述了RDD的依赖关系,这种关系也被称之为lineage,RDD的依赖关系使用Dependency维护,参考
SparkRDD
之Dependency,DAG在
Mr_JieLQ
·
2020-06-27 01:20
spark-core源码
spark
Spark2.X 分布式弹性数据集
1.三大弹性数据集介绍1)概念2)优缺点对比2.
SparkRDD
概述与创建方式1)概述在集群背后,有一个非常重要的分布式数据架构,即弹性分布式数据集(resilientdistributeddataset
xl.zhang
·
2020-06-27 00:10
【大数据的学路历程】
SparkSQL+RDD计算句子相似性!
Spark版本:2.1Python版本:2.7.12之前想做一个检索式的智能对话,其实只用
SparkRDD
是完全可以的,但是想实用一下SparkSQL,所以有点强搬硬套的感觉,不过没关系,干货就是干货,
文哥的学习日记
·
2020-06-26 13:56
spark-RDD(弹性分布式数据集)
读取外部数据集):testFile把程序中一个已有的集合传给parallelize,不常用,占内存:sc.parallelize(List(“a”,”c”))RDD的持久化也称为缓存(persist):
SparkRDD
成功路上的慢跑鞋
·
2020-06-25 07:24
spark
Spark数据操作—RDD操作
SparkRDD
操作RDD(ResilientDistributedDataset),弹性分布式数据集是一个容错的,并行的数据结构,可以显式地将数据存储到磁盘和内存中,并能控制数据的分区。
深思海数_willschang
·
2020-06-25 02:23
Spark Shuffle原理、Shuffle操作问题解决和参数调优
1.1.1maptask端操作1.1.2reducetask端操作1.2spark现在的SortShuffleManager2Shuffle操作问题解决2.1数据倾斜原理2.2数据倾斜问题发现与解决2.3数据倾斜解决方案3
sparkRDD
qq_26091271
·
2020-06-25 02:24
Spark
Spark-GraphX
在更高的层面上,GraphX通过引入一种新的图抽象—一个顶点和边均附有属性的有向多图—对
SparkRDD
进行了扩展。为支持图计算,GraphX提供了一系列基本操作和一个优化的PregelAPI变体。
johnvonlzf
·
2020-06-24 23:15
[Spark RDD转换操作运算子]
SparkRDD
转换操作RDD,即弹性分布式数据集,全称为ResilientDistributedDataset,是一个容错的,并行的数据结构,可以让用户显式地将数据存储到磁盘和内存中,并能控制数据的分区
fazhi-bb
·
2020-06-24 09:12
RDD
Spark
scala
大数据
Spark进阶专栏
深入探究linq原理——如何在自己的语言里实现linq
在
sparkRDD
和DataFrame上直接用岂不是美滋滋。用过几次c#,linq还是非常直观的,很喜欢这个设计。不过现在都忘的差不多了,再来回顾一下linq到底是个什么东西。
pcz
·
2020-06-24 06:29
第二章 spark2.3 mllib机器学习-数据操作
”,均以最新spark2.3.0版本为蓝本进行编写,参考书籍>黄美灵版,转载请注明出处GitHub地址:https://github.com/future-fu/learnsparkmllib目录部分
sparkrdd
数字支配万物的流转
·
2020-06-23 09:22
spark2
sparkmllib
凭借这份pdf,我成功拿下了阿里、腾讯、美团等大厂offer(大数据岗)
Hadoop概念HDFSMapReduceHadoopMapReduce作业的生命周期Spark概念核心架构核心组件SPARK编程模型SPARK计算模型SPARK运行流程
SPARKRDD
流程
SPARKRDD
程序员托尼
·
2020-06-23 02:13
程序员
mapreduce 和hive 的区别
有些场景是不能用hive来实现,就需要mapreduce或者
sparkrdd
编程来实现。2.结构复杂的日志文件,首先要经过ETL处理(使用mapreduce),得到的数据再有hive处理比较合适。
summer2381
·
2020-06-22 05:55
hive
Hadoop
mapreduce 和hive 的区别
有些场景是不能用hive来实现,就需要mapreduce或者
sparkrdd
编程来实现。2.结构复杂的日志文件,首先要经过ETL处理(使用mapreduce),得到的数据再有hive处理比较合适。
zengxianglei
·
2020-06-21 15:31
Mapreduce
hive
新闻实时分析系统 Spark2.X分布式弹性数据集
1.三大弹性数据集介绍1)概念2)优缺点对比2.
SparkRDD
概述与创建方式1)概述在集群背后,有一个非常重要的分布式数据架构,即弹性分布式数据集(resilientdistributeddataset
weixin_30730151
·
2020-06-21 10:12
spark算子使用总结
在日常工作中使用
sparkRDD
算子总是心里会泛起疑惑,仔细思考后发觉是对各算子的理解不够透彻,对各算子的输入输出的记忆不够深刻,对各算子的底层源码缺乏理解。
Alukar
·
2020-04-14 06:47
==[案例]Spark RDD数据关联过滤案例
SparkRDD
数据关联过滤案例-http://www.jianshu.com/p/f77cb1c93793前言最近在专注Spark开发,记录下自己的工作和学习路程,希望能跟大家互相交流成长QQ:86608625
葡萄喃喃呓语
·
2020-04-10 13:18
Spark内核流程概要
在这之前我也写过一篇文章
SparkRDD
核心详解,这篇文章也详细介绍了Spark的核心,因此本篇文章主要是更细粒度来剖析其架构原理,对之前的文章的全面概述与总结。
liuzx32
·
2020-04-08 07:34
Spark Streaming 容错机制
一Spark中的一致性1
SparkRDD
的基本容错语义RDD是不可变的,确定的,可以被重新计算的分布式数据集。每个RDD都记录了已经确定的操作先后关系。
raindaywhu
·
2020-03-30 07:45
Spark on Hive-derby数据库-thriftserver-多客户端使用
--sparkonhive:是spark通过spark-sql使用hive语句操作hive,底层运行的还是
sparkrdd
。
铁虫_bcde
·
2020-03-26 10:05
大数据技术Spark技术栈图书列表排序不分质量优劣
张安站出版社:机械工业出版社副标题:深入解析Spark内核架构设计与实现原理出版年:2015-9-1页数:201装帧:平装丛书:大数据技术丛书ISBN:9787111509646image.png第三章
SparkRDD
Albert陈凯
·
2020-03-22 07:23
SparkRDD
的键值对操作
pairRDDSpark为包含键值对类型的RDD提供了一些专有的操作。这些RDD被称为pairRDD1。PairRDD是很多程序的构成要素,因为它们提供了并行操作各个键或跨节点重新进行数据分组的操作接口。创建方法使用map创建pairs=lines.map(lambdax:(x.split("")[0],x))pairRDD的转化操作PairRDD可以使用所有标准RDD上的可用的转化操作下面的转化
Spike_3154
·
2020-03-18 03:59
学习汇总
假设检验(很全):python假设检验统计功能包:scipy统计模型包:statsmodels画图包:bokehseabornplot.ly算法包:sklearnSpark:先熟悉spark基本原理,以及
sparkRDD
SummerTan
·
2020-03-16 10:33
Scala 输出CSV
sparkRDD
去括号+输出为单个CSVrating是Dataframe,转为RDDvalavgs=rating.rdd.map(t=>(t(0),t(1)).toString().replaceAll
Reflection_
·
2020-03-11 02:41
Spark-Steaming 文档之容错机制
背景知识为了能够更好地理解SparkStreaming的容错机制,我们先来看下
SparkRDD
的基本容错机制。任何一个RDD都是一个不可变的,可重计算的,分布式的数据集。
bb6b382a3536
·
2020-03-08 11:07
Apache Flink DataStream 编程全集
第一代-Hadoop的MapReduce计算(静态)、Storm流计算(2014.9);两套独立计算引擎,使用难度大第二代-
SparkRDD
静态批处理(2014.2)、DStream|StructuredStreaming
麦田里的守望者·
·
2020-03-04 17:20
Flink实时计算
剖析Spark数据分区之Spark streaming & TiSpark
系列一:剖析Spark数据分区之Hadoop分片系列二:剖析Spark数据分区之
SparkRDD
分区系列三:剖析Spark数据分区之Sparkstreaming&TiSpark分区1.Kafka+SparkStreamingSparkStreamin
OPPO互联网技术
·
2020-03-03 13:17
spark
数据
Spark--Spark RDD知识点总结
SparkRDD
五大属性1)Alistofpartitions:有很多分区(Partitions),数据集的基本组成单位。对于RDD来说,每个分区都会被一个计算任务处理,并决定并行计算的粒度。
李小李的路
·
2020-02-28 06:17
Spark 核心 RDD 剖析(上)
本文将通过描述
SparkRDD
的五大核心要素来描述RDD,若希望更全面了解RDD的知识,请移步RDD论文:RDD:基于内存的集群计算容错抽象Spark的五大核心要素包括:partitionpartitionercomputefuncdependencypreferredLocation
牛肉圆粉不加葱
·
2020-02-27 22:12
Spark DAG 概述 及 Submit Job
Spark中使用DAG对RDD的关系进行建模,描述了RDD的依赖关系,这种关系也被称之为lineage,RDD的依赖关系使用Dependency维护,参考
SparkRDD
之Dependency,DAG在
博弈史密斯
·
2020-02-27 14:29
3.0Spark RDD实现详解
Spark技术内幕:深入解析Spark内核架构设计与实现原理第三章
SparkRDD
实现详解RDD是Spark最基本也是最根本的数据抽象,它具备像MapReduce等数据流模型的容错性,并且允许开发人员在大型集群上执行基于内存的计算
Albert陈凯
·
2020-02-27 07:25
spark之RDD练习
及去重后的结果练习四:对List列表中的kv对进行join与union操作练习五:cogroup与groupByKey的区别练习六:reduce聚合操作练习七:对List的kv对进行合并后聚合及排序二、
SparkRDD
落花桂
·
2020-02-23 16:00
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他