SparkRDD 第6页

Spark--Spark RDD与Dataframe/Datasets对比学习

RDD知识点总结五大特性，宽窄依赖等详见连接：https://www.jianshu.com/p/592b985c443cSpark--SparkRDD知识点总结总结来说：•RDD是一个懒执行的不可变的可以支持

李小李的路·2020-02-22 07:23

司小幽·2020-02-19 04:13

一生逍遥一生·2020-02-13 14:27

任务中如何确定spark分区数、task数目、core个数、worker节点个数、excutor数量

1、任务中如何确定sparkRDD分区数、task数目、core个数、worker节点个数、excutor数量（1）hdfs上的文件的存储形式是以Block的形式存储的，每个File文件都包含了很多块，

大数据up·2020-02-12 15:00

Spark RDD的处理过程

闲来无事，研究一下SparkRdd的处理过程。

lsnl8480·2020-02-05 11:38

Spark Shuffle原理、Shuffle操作问题解决和参数调优

端操作1.1.2reducetask端操作1.2spark现在的SortShuffleManager2.Shuffle操作问题解决2.1数据倾斜原理2.2数据倾斜问题发现与解决2.3数据倾斜解决方案3.sparkRDD

尼小摩·2020-01-06 10:07

Spark--Spark求分组TopN(RDD及SQL方式)面试必问

SparkRDD方式求topN详见代码：测试数据：aa49bb11cc34aa22bb67cc29aa36bb33cc30aa11bb44cc49SparkRDD代码packagecn.ted.secondarySortimportorg.apache.spark.SparkContextimportorg.apache.spark.rdd.RDDimportorg.apache.spark.sq

李小李的路·2019-12-30 18:38

22list[听风居士]14.spark RDD解密 -

www.cnblogs.com/zhouyf/p/5424158.html16.RDD实战-听风居士-博客园http://www.cnblogs.com/zhouyf/p/5424783.html14.sparkRDD

葡萄喃喃呓语·2019-12-21 23:39

Spark中shuffle原理及参数调优

1.1.1maptask端操作1.1.2reducetask端操作1.2spark现在的SortShuffleManager2Shuffle操作问题解决2.1数据倾斜原理2.2数据倾斜问题发现与解决2.3数据倾斜解决方案3sparkRDD

liuzx32·2019-12-20 01:30

剖析Spark数据分区之Spark RDD分区

本文来自OPPO互联网技术团队，是《剖析Spark数据分区》系列文章的第二篇，将重点分析SparkRDD的数据分区。该系列共分3篇文章，欢迎持续关注。

OPPO互联网技术·2019-12-16 21:27

DL4J中文文档/DataVec/运算

加载数据到Spark如果你正在使用ApacheSpark,函数将迭代数据集并加载它到一个SparkRDD里并把原始数据转换为一个Writable。

hello风一样的男子·2019-12-15 17:00

大数据常见面试题目

每天在在技术群里沉水,搜刮些面试题目,留作备用~1.简述对大数据组件：Yarn，Spark，Hbase，Hive的理解2.hdf文件系统中Namenode和DataNode区别和联系3.请描述SparkRDD

嘿嘿海海·2019-12-15 13:41

[译]Spark Streaming编程指南（三）

DStream支持很多SparkRDD上的转换。常用的转换如下。转换含义map(func)将源DStream中的每个元素传给函数func，返回新的DStream。

steanxy·2019-12-12 07:30

Spark盖中盖（一篇顶五篇）-2 RDD算子详解

真正使RDD完成计算优化的，就是今天我们要讲到的sparkRDD的另一个重要组成部分RDD算子。一、RDD算子的定义我给RDD算子的定义是：用来生成或处理RDD的方法叫做RDD算子。

HxLiang·2019-11-30 22:04

PySpark读取Mysql数据到DataFrame！

Spark版本:2.1Python版本：2.7.12了解了SparkRDD之后，小编今天有体验了一把SparkSQL，使用SparkSQL时，最主要的两个组件就是DataFrame和SQLContext

文哥的学习日记·2019-10-31 13:02

Flink的基本概念与架构

第二代大数据处理方案：SparkRDD静态批处理、SparkStreaming（DStream）实时流计算（实时性差），统一的计算引擎难度小。第三代大数据处理方案：ApacheFlinkDat

fql123455·2019-10-14 18:33

MongoDB Spark Connector 实战指南

高性能，官方号称100xfaster，因为可以全内存运行，性能提升肯定是很明显的简单易用，支持Java、Python、Scala、SQL等多种语言，使得构建分析应用非常简单统一构建，支持多种数据源，通过SparkRDD

wefeng·2019-10-03 05:00

JavaIO模型--装饰者模式

JavaIO体现出装饰者的设计模式今天在学SparkRDD之前，听了一堂复习JavaIO的课，觉得讲得不错Java的IO一直让我觉得一层一层的很麻烦，刚接触的时候，理不太清楚只知道要分解为输入输出流和处理流

mussessein·2019-10-01 17:00

SparkRDD之弹性分布式数据集RDD

2.RDD概述2.1什么是RDDRDD（ResilientDistributedDataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将数据缓存在内存中，后续的查询能够重用这些数据，这极大地提升了查询速度。Dataset：一个数据

qq5d3e5bae55f08·2019-09-19 09:02

SparkRDD操作经验

关于“_”的用法可以指代集合中的每一个元素//筛选出可以被2整除的数a.filter(_%2==0).map(2*_)注：在reduceByKey中指代的是键值对中的值参考：https://blog.csdn.net/a627082796/article/details/87880558cache()方法将某些经过了复杂计算得到的RDD存入缓存中，避免下次调用时重复计算//将userInfomat

Levy_Y·2019-07-19 09:31

SparkRDD操作经验

关于“_”的用法可以指代集合中的每一个元素//筛选出可以被2整除的数a.filter(_%2==0).map(2*_)注：在reduceByKey中指代的是键值对中的值参考：https://blog.csdn.net/a627082796/article/details/87880558cache()方法将某些经过了复杂计算得到的RDD存入缓存中，避免下次调用时重复计算//将userInfomat

Levy_Y·2019-07-19 09:31

sparkRDD

-ApacheSpark背景介绍Spark是一个快如闪电的统一分析引擎（计算框架）用于大规模数据集的处理。Spark在做数据的批处理计算，计算性能大约是HadoopMapReduce的10~100倍，因为Spark使用比较先进的基于DAG任务调度，可以将一个任务拆分成若干个阶段，然后将这些阶段分批次交给集群计算节点处理。MapReduceVSSparkMapReduce作为第一代大数据处理框架，在

婲落ヽ紅顏誶·2019-07-05 09:45

Spark之RDD容错原理及四大核心要点

一、SparkRDD容错原理RDD不同的依赖关系导致Spark对不同的依赖关系有不同的处理方式。

|旧市拾荒|·2019-06-22 21:00

Spark常见算子

这里，从源码的角度总结一下SparkRDD算子的用法。

Icesuns·2019-06-10 00:05

Spark每日半小时（5）——持久化（缓存）

如前所述，SparkRDD是惰性求值的，而有时我们希望能多次使用同一个RDD。如果简单地对RDD调用行动操作，Spark每次都会重算RDD以及它的所有依赖。

DK_ing·2019-06-03 10:52

Spark每日半小时（5）——持久化（缓存）

如前所述，SparkRDD是惰性求值的，而有时我们希望能多次使用同一个RDD。如果简单地对RDD调用行动操作，Spark每次都会重算RDD以及它的所有依赖。

DK_ing·2019-06-03 10:52

3.4.1 Spark RDD - 概念与简单理解

SparkRDD是Spark中的核心理念。

Orange_Spotty_Cat·2019-04-09 14:16

Spark RDD详解

SparkRDD在Spark中RDD具有5个主要的属性：AlistofpartitionsAfunction(compute)tocomputingeachsplit(partation)AlistofdependenciesonotherRDDsOptionally

由木人_番茄·2019-03-24 16:26

Spark RDD计算机制剖析

对SparkRDD来说莫不如此，下面让我们来看看它在物理层的另一面。首先，我们来回顾下RDD在逻辑层的表象，无非这几点，了解Spa

天外有菌·2019-03-17 15:48

Spark on Hive 和 Hive on Spark的区别

这里可以理解为Spark通过SparkSQL使用Hive语句操作Hive表,底层运行的还是SparkRDD。

henrrywan·2019-03-08 09:43

7.Spark Core 应用解析之RDD检查点机制

SparkRDD检查点机制Spark中对于数据的保存除了持久化操作之外，还提供了一种检查点的机制，类似于快照，就是将DAG中比较重要的中间数据做一个检查点将结果存储到一个高可用的地方(通常这个地方就是HDFS

HG_Harvey·2019-02-28 20:53

将string类型的数据类型转换为spark rdd时报错的解决方法

在将string类型的数据类型转换为sparkrdd时，一直报这个错，StructTypecannotacceptobject%rintype%s”%(obj,type(obj)))...s=str(tree

gavenyeah·2019-02-18 09:57

Spark SQL Dataset 常用API 一

TransformationUntypedAPI首先啰嗦一句，SparkSQLDataset中主要分为Transformation和Action两种API(这个特性沿用了SparkRDD的特性，其中的Transformation

Brad_Q1·2019-02-17 10:55

SparkRDD函数详解(二)--RDD动作操作函数

相对于转换，动作（Action）操作用于向驱动（Driver）程序返回值或者将值写入到文件当中。reduce(func):通过func函数聚集RDD中的所有元素，这个功能必须是可交换且可并联的valrdd1=sc.makeRDD(1to10,2)rdd1.reduce(_+_)valrdd2=sc.makeRDD(Array(("a",1),("a",3),("c",3),("d",5)))r

KevinWDong·2019-01-19 22:06

SparkRDD函数详解（一）--RDD转换函数

1.什么是RDD RDD(ResilientDistributedDataset),弹性分布式数据集，Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。在Spark中，对数据的所有操作不外乎创建RDD、转化已有RDD以及调用RDD操作进行求值。每个RDD都被分为多个分区，这些分区运行在集群中的不同节点上。RDD可以包含Python、Java、Scala中任意类型

KevinWDong·2019-01-17 21:37

spark中job、stage、task、partition、executor概念理解以及分区数深入探究

概念1.job定义：我们都知道，在sparkrdd中，有action、transform操作，当真正触发action时，才真正执行计算，此时产生一个job任务。

spark大数据玩家·2018-12-21 00:07

Spark写数据到kafka

sparkRDD只能通过原生API去写。不是sparkstreaming哦。导maven包：这一步不能复制粘贴，要看看你机器的kafka版本是多少。

qq_33872191·2018-12-12 19:01

sparkRDD函数详解

1.RDD操作详解启动spark-shellspark-shell--masterspark://node-1:70771.1基本转换1)mapmap是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。任何原RDD中的元素在新RDD中都有且只有一个元素与之对应。举例：scala>vala=sc.parallelize(1to9,3)scala>valb=a.map(x=>x*2)sca

CoderBoom·2018-12-02 22:17

sparkRDD函数详解

1.RDD操作详解启动spark-shellspark-shell--masterspark://node-1:70771.1基本转换1)mapmap是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。任何原RDD中的元素在新RDD中都有且只有一个元素与之对应。举例：scala>vala=sc.parallelize(1to9,3)scala>valb=a.map(x=>x*2)sca

CoderBoom·2018-12-02 22:17

Spark学习笔记——1

一、Spark简介1、Spark：完全基于Hadoop的一种计算框架2、计算框架——》适用场景：SparkRDD——》离线批处理SparkCore——》流式计算SparkSQL——》交互式查询（基于Hive

Mr_Effiya·2018-11-21 10:24

spark 分区提交调优

转自：https://blog.csdn.net/u014384314/article/details/80797385一sparkRDD分区原则在Spark的Rdd中，Rdd默认是分区的。

jin6872115·2018-10-11 17:28

Spark笔记整理（十三）：RDD持久化性能测试（图文并茂）

[TOC]1前言其实在之前的文章《Spark笔记整理（五）：SparkRDD持久化、广播变量和累加器》中也有类似的测试，不过当时做的测试仅仅是在本地跑代码，并以Java/Scala代码通过设置开始时间和结束时间的方式来进行统计测试

xpleaf·2018-10-01 15:07

SparkJavaAPI:join的使用

publicclassSparkRDDDemo{publicstaticvoidmain(String[]args){SparkConfconf=newSparkConf().setAppName("SparkRDD

hellozhxy·2018-08-31 17:42

Spark简介以及Spark standalone的搭建

.速度：在迭代循环的计算模型下，spark比Hadoop快100倍； b.易用性：spark提供多种语言的API，如Java、Python、Scala、R、SQL等 c.扩展性：在sparkRDD

Aime_Perfect·2018-08-27 14:41

Spark GraphX图计算框架原理概述

转发请标明原文地址：原文地址概述GraphX是Spark中用于图和图计算的组件，GraphX通过扩展SparkRDD引入了一个新的图抽象数据结构，一个将有效信息放入顶点和边的有向多重图。

不清不慎·2018-08-24 13:59

Apache Spark 2.2.0 中文文档 - Spark RDD（Resilient Distributed Datasets）

SparkRDD（ResilientDistributedDatasets）论文概要1:介绍2:ResilientDistributedDatasets（RDDs）2.1RDD抽象2.2Spark编程接口

GameOverTryAgain·2018-08-19 12:48

Spark RDD和DataSet与DataFrame转换成RDD

SparkRDD和DataSet与DataFrame转换成RDD一、什么是RDDRDD是弹性分布式数据集（resilientdistributeddataset）的简称，是一个可以参与并行操作并且可容错的元素集合

leboop·2018-08-10 15:18

Spark RDD和DataSet与DataFrame转换成RDD

SparkRDD和DataSet与DataFrame转换成RDD一、什么是RDDRDD是弹性分布式数据集（resilientdistributeddataset）的简称，是一个可以参与并行操作并且可容错的元素集合

leboop·2018-08-10 15:18

sparkRDD

SparkRDD：RDD(弹性分布式数据集)RDD是spark提供的核心抽象，在抽象的意义上来说是一种元素集合，包含了数据。他是被分区的，分为多个分区。

她的吉他·2018-07-27 15:54

Spark RDD操作总结

SparkRDD操作可以分为2种：1.转换（transformation)通过原有RDD生成一个新的RDD，转换不会立即执行，直到下一次action具体有以下函数：map(func)：对调用RDD种的每个元素使用

脉脉此情·2018-05-13 22:05

推荐频道

SparkRDD

Spark--Spark RDD与Dataframe/Datasets对比学习

Spark相关文章索引（2）

Spark SQL 相关

任务中如何确定spark分区数、task数目、core个数、worker节点个数、excutor数量

Spark RDD的处理过程

Spark Shuffle原理、Shuffle操作问题解决和参数调优

Spark--Spark求分组TopN(RDD及SQL方式)面试必问

22list[听风居士]14.spark RDD解密 -

Spark中shuffle原理及参数调优

剖析Spark数据分区之Spark RDD分区

DL4J中文文档/DataVec/运算

大数据常见面试题目

[译]Spark Streaming编程指南（三）

Spark盖中盖（一篇顶五篇）-2 RDD算子详解

PySpark读取Mysql数据到DataFrame！

Flink的基本概念与架构

MongoDB Spark Connector 实战指南

JavaIO模型--装饰者模式

SparkRDD之弹性分布式数据集RDD

SparkRDD操作经验

SparkRDD操作经验

sparkRDD

Spark之RDD容错原理及四大核心要点

Spark常见算子

Spark每日半小时（5）——持久化（缓存）

Spark每日半小时（5）——持久化（缓存）

3.4.1 Spark RDD - 概念与简单理解

Spark RDD详解

Spark RDD计算机制剖析

Spark on Hive 和 Hive on Spark的区别

7.Spark Core 应用解析之RDD检查点机制

将string类型的数据类型转换为spark rdd时报错的解决方法

Spark SQL Dataset 常用API 一

SparkRDD函数详解(二)--RDD动作操作函数

SparkRDD函数详解（一）--RDD转换函数

spark中job、stage、task、partition、executor概念理解以及分区数深入探究

Spark写数据到kafka

sparkRDD函数详解

sparkRDD函数详解

Spark学习笔记——1

spark 分区 提交 调优

Spark笔记整理（十三）：RDD持久化性能测试（图文并茂）

SparkJavaAPI:join的使用

Spark简介以及Spark standalone的搭建

Spark GraphX图计算框架原理概述

Apache Spark 2.2.0 中文文档 - Spark RDD（Resilient Distributed Datasets）

Spark RDD和DataSet与DataFrame转换成RDD

Spark RDD和DataSet与DataFrame转换成RDD

sparkRDD

Spark RDD操作总结

spark 分区提交调优