SparkRDD 第5页

Spark RDD的实操教程（二）

transformations算子）3.行动算子（actions算子）0x02RDD算子实操1.创建RDD2.转化算子3.行动算子0xFF总结0x00教程内容RDD的算子操作介绍RDD算子实操上一篇教程：SparkRDD

邵奈一·2020-07-14 22:24

ξς·2020-07-14 06:58

Spark之Spark SQL、DataFrame和Dataset

不同于基础的SparkRDD的API，SparkSQL提供的接口为Spark提供了更多关

IT142546355·2020-07-14 04:44

葵花宝典--sparkRDD

一、RDD概述RDD是弹性分布式数据集，是spark中数据的抽象。在代码中是一个抽象类，他代表一个抽象类不可变、可分区、元素可并行计算的集合。弹性：存储（内存和磁盘相互切换）、容错（数据丢失可自动恢复）、计算（计算出错重试）、分片（可根据需求重新分片）分布式：数据存储在hdfs上数据集：RDD只保存计算逻辑，不保存数据数据抽象：RDD是一个抽象类，需要具体实现不可变：RDD封装了计算逻辑，是不可变

张薄薄·2020-07-11 17:30

葵花宝典--sparkRDD（一）

一、Transformation（转换算子）1、value类型1)、map：映射，将RDD的数据进行转换，比如对数据乘2、把数据转换为元组2)、mapPartition：对分区内数据进行map，入参是可迭代的集合，对入参进行map操作3)、mapPartitionWithIndex：带分区号的map操作，入参是分区号和可迭代的集合map和mapPartition的区别：map每次处理一条数据map

张薄薄·2020-07-11 17:30

SparkRDD函数详解

1、RDD操作详解启动spark-shellspark-shell--masterspark://node-1:70771.1基本转换1)mapmap是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。任何原RDD中的元素在新RDD中都有且只有一个元素与之对应。举例：scala>vala=sc.parallelize(1to9,3)scala>valb=a.map(x=>x*2)sca

NicholasEcho·2020-07-10 10:57

GraphX构建图的源码详解

属性图扩展了SparkRDD的抽象，有Table和Graph两种视图，但是只需要一份物理存储。两种视图都有自己独有的操作符，从而使我们同时获得了操作的灵活性和执行的高效率。

llllqb·2020-07-10 03:30

记一次 spark rdd 写数据到 hbase 报 NPE 的问题排查

但是在升级后发现之前sparkrdd写hbase正常的任务报错了，花费一番功夫才解决，所以写篇文章记录下。

甄情·2020-07-10 02:43

Spark为什么只有在调用action时才会触发任务执行呢（附算子优化和使用示例）？

还记得之前的文章《SparkRDD详解》中提到，SparkRDD的缓存和checkpoint是懒加载操作，只有action触发的时候才会真正执行，其实不仅是SparkRDD，在Spark其他组件如SparkStreaming

大数据学习与分享·2020-07-10 00:56

Spark RDD操作之Map系算子

本篇博客将介绍SparkRDD的Map系算子的基本用法。1、mapmap将RDD的元素一个个传入call方法，经过call方法的计算之后，逐个返回，生成新的RDD，计算之后，记录数不会缩减。

dong_lxkm·2020-07-09 15:51

Spark Shuffle原理、Shuffle操作问题解决和参数调优

1.1.1maptask端操作1.1.2reducetask端操作1.2spark现在的SortShuffleManager2Shuffle操作问题解决2.1数据倾斜原理2.2数据倾斜问题发现与解决2.3数据倾斜解决方案3sparkRDD

weixin_30800987·2020-07-08 14:32

深入理解Spark RDD抽象模型

深入理解SparkRDD抽象模型和编写RDD函数Sparkrevolvesaroundtheconceptofaresilientdistributeddataset(RDD),whichisanimmutable

壹禅·2020-07-05 10:49

秋名山老司机从上车到翻车的悲痛经历，带你深刻了解什么是 Spark on Hive！| 原力计划...

上车前需知Sparkonhive与hiveonspark的区别1.Sparkonhive是spark通过Spark-SQL使用hive语句，操作hive,底层运行的还是sparkrdd。

CSDN资讯·2020-07-01 02:51

spark自定义redisson rdd

其通过scan的方式遍历亿级键值时，在足够资源的情况下，无法满足一分钟内拉完亿级数据的需求，因此需要对REDIS的存储结构进行设计，并结合当前业务流行的、性能极高的与REDIS组件Redisson自定义sparkrdd

yuqu123·2020-06-30 10:20

流式数据采集和计算（十四）：Spark基础学习笔记

基础学习笔记..1Spark基础..4Spark特性..4Spark部署(onYarn)5Spark启动和验证..6常见问题..7Spark基本原理..8Spark概念/架构设计..8Spark运行流程..10SparkRDD

有腹肌的小蝌蚪_·2020-06-30 07:50

Apache-Flink

Flink是构建在数据流之上地有状态计算地流计算框架通常被人们理解为是第三代大数据分析方案第一代-Hadoop的MapReduce(计算)Storm流计算(2014.9)两套独立计算引擎使用难度大第二代-SparkRDD

每天都超级可爱·2020-06-29 15:15

spark底层核心 RDD详解

2、一个计算每个分区的函数sparkRDD计算是以分区为单位的，每个RDD都

এ゛孙先生_。·2020-06-29 12:34

Spark DStreams

SparkDStreamsDStreams是什么DStreams是构建在SparkRDD之上的一款流处理工具，意即SparkDStreams并不是一个严格意义上的流处理，底层通过将RDD在时间轴上分解成多个小的

LJiaWang·2020-06-28 22:53

Spark SQL

SparkSQLSparkSQL是构建在SparkRDD之上一款ETL（ExtractTransformationLoad）工具（类似Hive-1.x-构建在MapReduce之上）。

LJiaWang·2020-06-28 22:22

Spark DAG概述

Spark中使用DAG对RDD的关系进行建模，描述了RDD的依赖关系，这种关系也被称之为lineage，RDD的依赖关系使用Dependency维护，参考SparkRDD之Dependency，DAG在

Mr_JieLQ·2020-06-27 01:20

Spark2.X 分布式弹性数据集

1.三大弹性数据集介绍1）概念2）优缺点对比2.SparkRDD概述与创建方式1）概述在集群背后，有一个非常重要的分布式数据架构，即弹性分布式数据集（resilientdistributeddataset

xl.zhang·2020-06-27 00:10

SparkSQL+RDD计算句子相似性！

Spark版本:2.1Python版本：2.7.12之前想做一个检索式的智能对话，其实只用SparkRDD是完全可以的，但是想实用一下SparkSQL，所以有点强搬硬套的感觉，不过没关系，干货就是干货，

文哥的学习日记·2020-06-26 13:56

spark-RDD(弹性分布式数据集)

读取外部数据集):testFile把程序中一个已有的集合传给parallelize，不常用，占内存:sc.parallelize(List(“a”,”c”))RDD的持久化也称为缓存(persist):SparkRDD

成功路上的慢跑鞋·2020-06-25 07:24

Spark数据操作—RDD操作

SparkRDD操作RDD（ResilientDistributedDataset），弹性分布式数据集是一个容错的，并行的数据结构，可以显式地将数据存储到磁盘和内存中，并能控制数据的分区。

深思海数_willschang·2020-06-25 02:23

Spark Shuffle原理、Shuffle操作问题解决和参数调优

1.1.1maptask端操作1.1.2reducetask端操作1.2spark现在的SortShuffleManager2Shuffle操作问题解决2.1数据倾斜原理2.2数据倾斜问题发现与解决2.3数据倾斜解决方案3sparkRDD

qq_26091271·2020-06-25 02:24

Spark-GraphX

在更高的层面上，GraphX通过引入一种新的图抽象—一个顶点和边均附有属性的有向多图—对SparkRDD进行了扩展。为支持图计算，GraphX提供了一系列基本操作和一个优化的PregelAPI变体。

johnvonlzf·2020-06-24 23:15

[Spark RDD转换操作运算子]

SparkRDD转换操作RDD,即弹性分布式数据集，全称为ResilientDistributedDataset,是一个容错的，并行的数据结构，可以让用户显式地将数据存储到磁盘和内存中，并能控制数据的分区

fazhi-bb·2020-06-24 09:12

深入探究linq原理——如何在自己的语言里实现linq

在sparkRDD和DataFrame上直接用岂不是美滋滋。用过几次c#，linq还是非常直观的，很喜欢这个设计。不过现在都忘的差不多了，再来回顾一下linq到底是个什么东西。

pcz·2020-06-24 06:29

第二章 spark2.3 mllib机器学习-数据操作

数字支配万物的流转·2020-06-23 09:22

凭借这份pdf，我成功拿下了阿里、腾讯、美团等大厂offer（大数据岗）

Hadoop概念HDFSMapReduceHadoopMapReduce作业的生命周期Spark概念核心架构核心组件SPARK编程模型SPARK计算模型SPARK运行流程SPARKRDD流程SPARKRDD

程序员托尼·2020-06-23 02:13

mapreduce 和hive 的区别

有些场景是不能用hive来实现，就需要mapreduce或者sparkrdd编程来实现。2.结构复杂的日志文件，首先要经过ETL处理（使用mapreduce），得到的数据再有hive处理比较合适。

summer2381·2020-06-22 05:55

mapreduce 和hive 的区别

有些场景是不能用hive来实现，就需要mapreduce或者sparkrdd编程来实现。2.结构复杂的日志文件，首先要经过ETL处理（使用mapreduce），得到的数据再有hive处理比较合适。

zengxianglei·2020-06-21 15:31

新闻实时分析系统 Spark2.X分布式弹性数据集

1.三大弹性数据集介绍1）概念2）优缺点对比2.SparkRDD概述与创建方式1）概述在集群背后，有一个非常重要的分布式数据架构，即弹性分布式数据集（resilientdistributeddataset

weixin_30730151·2020-06-21 10:12

spark算子使用总结

在日常工作中使用sparkRDD算子总是心里会泛起疑惑，仔细思考后发觉是对各算子的理解不够透彻，对各算子的输入输出的记忆不够深刻，对各算子的底层源码缺乏理解。

Alukar·2020-04-14 06:47

==[案例]Spark RDD数据关联过滤案例

SparkRDD数据关联过滤案例-http://www.jianshu.com/p/f77cb1c93793前言最近在专注Spark开发，记录下自己的工作和学习路程，希望能跟大家互相交流成长QQ:86608625

葡萄喃喃呓语·2020-04-10 13:18

Spark内核流程概要

在这之前我也写过一篇文章SparkRDD核心详解，这篇文章也详细介绍了Spark的核心，因此本篇文章主要是更细粒度来剖析其架构原理，对之前的文章的全面概述与总结。

liuzx32·2020-04-08 07:34

Spark Streaming 容错机制

一Spark中的一致性1SparkRDD的基本容错语义RDD是不可变的，确定的，可以被重新计算的分布式数据集。每个RDD都记录了已经确定的操作先后关系。

raindaywhu·2020-03-30 07:45

Spark on Hive-derby数据库-thriftserver-多客户端使用

--sparkonhive：是spark通过spark-sql使用hive语句操作hive，底层运行的还是sparkrdd。

铁虫_bcde·2020-03-26 10:05

大数据技术Spark技术栈图书列表排序不分质量优劣

张安站出版社:机械工业出版社副标题:深入解析Spark内核架构设计与实现原理出版年:2015-9-1页数:201装帧:平装丛书:大数据技术丛书ISBN:9787111509646image.png第三章SparkRDD

Albert陈凯·2020-03-22 07:23

SparkRDD的键值对操作

pairRDDSpark为包含键值对类型的RDD提供了一些专有的操作。这些RDD被称为pairRDD1。PairRDD是很多程序的构成要素，因为它们提供了并行操作各个键或跨节点重新进行数据分组的操作接口。创建方法使用map创建pairs=lines.map(lambdax:(x.split("")[0],x))pairRDD的转化操作PairRDD可以使用所有标准RDD上的可用的转化操作下面的转化

Spike_3154·2020-03-18 03:59

学习汇总

假设检验(很全)：python假设检验统计功能包：scipy统计模型包：statsmodels画图包：bokehseabornplot.ly算法包：sklearnSpark:先熟悉spark基本原理，以及sparkRDD

SummerTan·2020-03-16 10:33

Scala 输出CSV

sparkRDD去括号+输出为单个CSVrating是Dataframe，转为RDDvalavgs=rating.rdd.map(t=>(t(0),t(1)).toString().replaceAll

Reflection_·2020-03-11 02:41

Spark-Steaming 文档之容错机制

背景知识为了能够更好地理解SparkStreaming的容错机制，我们先来看下SparkRDD的基本容错机制。任何一个RDD都是一个不可变的，可重计算的，分布式的数据集。

bb6b382a3536·2020-03-08 11:07

Apache Flink DataStream 编程全集

第一代-Hadoop的MapReduce计算（静态）、Storm流计算（2014.9）；两套独立计算引擎，使用难度大第二代-SparkRDD静态批处理(2014.2)、DStream|StructuredStreaming

麦田里的守望者··2020-03-04 17:20

剖析Spark数据分区之Spark streaming & TiSpark

系列一：剖析Spark数据分区之Hadoop分片系列二：剖析Spark数据分区之SparkRDD分区系列三：剖析Spark数据分区之Sparkstreaming&TiSpark分区1.Kafka+SparkStreamingSparkStreamin

OPPO互联网技术·2020-03-03 13:17

Spark--Spark RDD知识点总结

SparkRDD五大属性1）Alistofpartitions：有很多分区（Partitions），数据集的基本组成单位。对于RDD来说，每个分区都会被一个计算任务处理，并决定并行计算的粒度。

李小李的路·2020-02-28 06:17

Spark 核心 RDD 剖析（上）

本文将通过描述SparkRDD的五大核心要素来描述RDD，若希望更全面了解RDD的知识，请移步RDD论文：RDD：基于内存的集群计算容错抽象Spark的五大核心要素包括：partitionpartitionercomputefuncdependencypreferredLocation

牛肉圆粉不加葱·2020-02-27 22:12

Spark DAG 概述及 Submit Job

Spark中使用DAG对RDD的关系进行建模，描述了RDD的依赖关系，这种关系也被称之为lineage，RDD的依赖关系使用Dependency维护，参考SparkRDD之Dependency，DAG在

博弈史密斯·2020-02-27 14:29

3.0Spark RDD实现详解

Spark技术内幕：深入解析Spark内核架构设计与实现原理第三章SparkRDD实现详解RDD是Spark最基本也是最根本的数据抽象，它具备像MapReduce等数据流模型的容错性，并且允许开发人员在大型集群上执行基于内存的计算

Albert陈凯·2020-02-27 07:25

spark之RDD练习

及去重后的结果练习四：对List列表中的kv对进行join与union操作练习五：cogroup与groupByKey的区别练习六：reduce聚合操作练习七：对List的kv对进行合并后聚合及排序二、SparkRDD

落花桂·2020-02-23 16:00

推荐频道

SparkRDD

Spark RDD的实操教程（二）

某《Spark机器学习班》最新

Spark之Spark SQL、DataFrame和Dataset

葵花宝典--sparkRDD

葵花宝典--sparkRDD（一）

SparkRDD函数详解

GraphX构建图的源码详解

记一次 spark rdd 写数据到 hbase 报 NPE 的问题排查

Spark为什么只有在调用action时才会触发任务执行呢（附算子优化和使用示例）？

Spark RDD操作之Map系算子

Spark Shuffle原理、Shuffle操作问题解决和参数调优

深入理解Spark RDD抽象模型

秋名山老司机从上车到翻车的悲痛经历，带你深刻了解什么是 Spark on Hive！| 原力计划...

spark自定义redisson rdd

流式数据采集和计算（十四）：Spark基础学习笔记

Apache-Flink

spark底层核心 RDD详解

Spark DStreams

Spark SQL

Spark DAG概述

Spark2.X 分布式弹性数据集

SparkSQL+RDD计算句子相似性！

spark-RDD(弹性分布式数据集)

Spark数据操作—RDD操作

Spark Shuffle原理、Shuffle操作问题解决和参数调优

Spark-GraphX

[Spark RDD转换操作运算子]

深入探究linq原理——如何在自己的语言里实现linq

第二章 spark2.3 mllib机器学习-数据操作

凭借这份pdf，我成功拿下了阿里、腾讯、美团等大厂offer（大数据岗）

mapreduce 和hive 的区别

mapreduce 和hive 的区别

新闻实时分析系统 Spark2.X分布式弹性数据集

spark算子使用总结

==[案例]Spark RDD数据关联过滤案例

Spark内核流程概要

Spark Streaming 容错机制

Spark on Hive-derby数据库-thriftserver-多客户端使用

大数据技术Spark技术栈图书列表排序不分质量优劣

SparkRDD的键值对操作

学习汇总

Scala 输出CSV

Spark-Steaming 文档之容错机制

Apache Flink DataStream 编程全集

剖析Spark数据分区之Spark streaming & TiSpark

Spark--Spark RDD知识点总结

Spark 核心 RDD 剖析（上）

Spark DAG 概述 及 Submit Job

3.0Spark RDD实现详解

spark之RDD练习

Spark DAG 概述及 Submit Job