SparkRDD 第3页

spark 基础二：RDD操作和持久化

SparkRDD操作Spark支持两种RDD操作，transformation和action。

张凯_9908·2022-02-08 14:49

Scala 通过读取HDFS上的文件创建SparkRDD出现的问题

一、Couldnotlocateexecutablenull\bin\winutils.exeintheHadoopbinaries.如果本机操作系统是Windows，如果在程序中使用了Hadoop相关的东西，比如写入文件到HDFS，则会遇到该异常出现这个问题的原因，并不是程序的错误，而是用到了hadoop相关的服务，解决办法：1、在本机上解压对应版本的hadoop压缩包不太清楚别的版本压缩包行不

我在燕京有把刀·2021-11-19 15:57

什么是 Spark RDD ?

RDD示意图:RDD的五个主要特性分区列表SparkRDD是被分区的，每一个分区都会被一个计算任务(Task)处理，分区数决定了并行计算的数量，RDD的并行度默认从父RDD传给子RDD。默认情

光剑书架上的书·2021-09-18 01:43

Spark GraphX图计算框架原理概述

【转载】原文地址：原文地址概述 GraphX是Spark中用于图和图计算的组件，GraphX通过扩展SparkRDD引入了一个新的图抽象数据结构，一个将有效信息放入顶点和边的有向多重图。

木亦汐·2021-06-25 19:52

02_Spark_RDD

SparkRDD1）什么是RDDRDD（ResilientDistributedDataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合

百忍成金的虚竹·2021-06-20 00:32

Spark RDD在Spark中的地位和作用如何？

SparkRDD的核心原理1、Spark的核心概念是RDD(resilientdistributeddataset)，指的是一个只读的，可分区的分布式数据集，这个数据集的全部或部分可以缓存在内存中，在多次计算间重用

·2021-06-18 22:57

RDD(Resilient Distributed Datasets)

SparkRDD:fault-tolerantcollectionofelementsthatcanbeoperatedoninparallel.twotypes:parallelizedcollections

朱小虎XiaohuZhu·2021-06-14 07:35

通过JDBC方式将Spark RDD/DataFrame分布式写入Phoenix

背景在实际应用场景，出于安全等方面考虑，有时候大数据平台不暴露对Phoenix的zookeeperurl连接方式，本文提供一种基于jdbc的方式实现spark将SparkRDD/DataFrame分布式批量写入

EchelonX·2021-06-08 13:52

Spark案例库V1.0版

Spark案例库案例一：使用SparkRDD实现词频统计pom.xml文件aliyunhttp://maven.aliyun.com/nexus/content/groups/public/clouderahttps

ChinaManor·2021-05-24 22:32

RDD的容错机制

RDD的容错机制总结：RDD的容错机制原文：SparkRDD概念学习系列之RDD的容错机制（十七）RDD实现了基于Lineage的容错机制。

小小少年Boy·2021-04-30 03:28

Spark RDD编程初级实践

SparkRDD编程初级实践湖工大永远滴神茂林！！！提交异常问题解决第一关数据去重第二个整合排序第三关求平均值湖工大永远滴神茂林！！！

登峰造極，永往无前。·2021-04-17 16:51

Spark RDD编程

SparkRDD编程概述从高层次上来看，每一个Spark应用都包含一个驱动程序，用于执行用户的main函数以及在集群上运行各种并行操作。

LuciferTM·2021-03-10 23:20

Spark rdd转Dataframe的三种方法

Sparkrdd转Dataframe的三种方法数据准备RDD转Dataframe的三种方式通过RDD推断创建dataframe通过StructType创建dataframe通过定义schema类创建dataframe

test-abc·2020-09-17 07:02

SparkRDD从6大方面详解

转自:https://blog.csdn.net/erfucun/article/details/51972225一：RDD粗粒度与细粒度粗粒度：在程序启动前就已经分配好资源（特别适用于资源特别多而且要进行资源复用）细粒度：计算需要资源是才分配资源，细粒度没有资源浪费问题。二：RDD的解密：1，分布式（擅长迭代式是spark的精髓之所在）基于内存（有些时候也会基于硬盘）特别适合于计算的计算框架2，

风是外衣衣衣·2020-09-16 13:15

Flink

第一代：MapReduce2006年批磁盘M->R矢量|2014.9Storm诞生流延迟低/吞吐小第二代：SparkRDD2014.2批内存DAG（若干Stage）|使用micro-batch模拟流处理

HuiGe94v587·2020-09-16 12:23

Spark中的RDD是什么，有哪些特性?

partition组成的2.RDD之间具有依赖关系3.RDD作用在partition是上4.partition作用在具有（k,v）格式的数据集5.partition对外提供最佳计算位置，利于数据本地化的处理3).SparkRDD

有风微冷·2020-09-16 12:20

spark: rdd的应用(scala api)

wordcount:统计词频，排序历年温度最值：max,min,avgpart1:sparkrdd之wordcountspark-shell//word.txtvarfile="/home/wang/txt

根哥的博客·2020-09-16 11:27

Spark 分区(Partition)的认识、理解和应用

SparkRDD是一种分布式的数据集，由于数据量很大，因此要它被切分并存储在各个结点的分区当中。从而当我们对RDD进行操作时，实际上是对每个分区中的数据并行操作。

XK&RM·2020-09-16 06:25

Spark RDD常见的转化操作和行动操作

SparkRDD常见的转化操作和行动操作IDEA创建scalaspark的Mvn项目：https://blog.csdn.net/u014646662/article/details/84618032spark

周天祥·2020-09-16 04:55

Spark算子：RDD行动Action操作(1)–first、count、reduce、collect

Spark算子：RDD行动Action操作(1)–first、count、reduce、collect关键字：Spark算子、SparkRDD行动Action、first、count、reduce、collectfirstdeffirst

羽翼天宇·2020-09-16 03:27

Spark中RDD、DataFrame和DataSet的区别

RDD、DataFrame和DataSet的定义在开始SparkRDD与DataFrame与Dataset之间的比较之前，先让我们看一下Spark中的RDD，DataFrame和Datasets的定义：

`冬虫夏草`·2020-09-15 11:15

spark之rdd partition

概要SparkRDD主要由Dependency、Partition、Partitioner组成，Partition是其中之一。

明喆_sama·2020-09-15 03:59

[Spark进阶]-- rdd详解及开发优化

sparkrdd详解及开发优化文章英文来源：http://spark.apache.org/docs/latest/programming-guide.html一、SparkRDD详解1、RDD是什么？

highfei2011·2020-09-15 02:27

SparkSql

#SparkSql##设计目的：支持sparkRdd和外部数据的关系处理高性能的关系数据操作易于扩展数据源，如半结构化数据，外部数据可以被其他高级算法使用如graph,machinelearning##

github_28583061·2020-09-15 02:49

Spark SQL介绍

官方介绍：SparkSQL是Spark处理数据的一个模块，跟基本的SparkRDD的API不同，SparkSQL中提供的接口将会提供给Spark更多关于结构化数据和计算的信息。

banana`·2020-09-15 02:27

Spark SQL介绍和特点

一：SparkSQL的简介SparkSQL是Spark处理数据的一个模块，跟基本的SparkRDD的API不同，SparkSQL中提供的接口将会提供给Spark更多关于结构化数据和计算的信息。

亮大兵·2020-09-15 02:24

【Spark】SparkRDD-JavaAPI开发手册（函数式编程）

文章目录GithubNote遇到的大坑！装备Core总结Github地址：https://github.com/ithuhui/hui-base-java模块：【hui-base-spark】分支：master位置：com.hui.base.spark.rddNote老实说,相比那些抄袭来抄袭去的blog,这篇RDD的JavaAPI…我是每个常用API都结合实例解释并且用了Java函数式编程写的…

java劝退师·2020-09-15 02:37

Spark RDD编程指南(初学)

SparkRDD编程指南1.总览2.与Spark链接3.初始化Spark4.弹性分布式数据集（RDDs）4.1并行化集合4.2外部数据集4.3RDD算子4.3.1基础4.3.2将函数传给Spark4.3.3

Zhouxk96·2020-09-14 02:03

spark学习（二）RDD和DAG

一、sparkRDD概念RDD（ResilientDistributedDataset）叫做弹性分布式数据集,是spark中最基本也是最重要的概念之一。

沼泽鱼97·2020-09-14 02:30

Spark Shuffle原理和Shuffle的问题解决和优化

1.1.1maptask端操作1.1.2reducetask端操作1.2spark现在的SortShuffleManager2Shuffle操作问题解决2.1数据倾斜原理2.2数据倾斜问题发现与解决2.3数据倾斜解决方案3sparkRDD

水墨风漾·2020-09-13 06:23

Spark RDD常见的转化操作和行动操作

SparkRDD常见的转化操作和行动操作IDEA创建scalaspark的Mvn项目：https://blog.csdn.net/u014646662/article/details/84618032spark

XY_Noire·2020-09-13 01:31

Hadoop与Spark基本原理

HadoopSparkSpark和Hadoop区别和联系Hadoop的HDFSHadoop的MapReduceSpark宽依赖和窄依赖SparkRDD运行过程SparkRDD阶段划分HadoopHadoop

宁缺100·2020-09-12 09:44

Spark流编程指引（五）-----------------------------DStreams上的转换操作

DStreams支持许多在通常SparkRDD上的转换操作。

self-motivation·2020-09-11 21:02

DStream之转换操作（Transformation）

DStreams支持许多在普通SparkRDD上可用的转换算子。一些常见的转换操作定义如下：map(func)通过函数func传递源DStream的每个元素来返回一个新的DStream。

天ヾ道℡酬勤·2020-09-11 21:28

Spark RDD 笛卡尔积

SparkRDD笛卡尔积valleft=sc.parallelize(List(1,2,3))valright=sc.parallelize(List(3,4,5,6))valout=leftunionright

大数据的未来·2020-09-11 10:27

spark RDD ，wordcount案例解析

sparkRDD，wordcount案例解析sparkRDD内存计算模型数据来源:可以从HDFS文件，Hive表，Hbase，本地磁盘，MQspark集群，RDD中的数据都是存放在worker，都分区的

张章章Sam·2020-09-11 07:31

Spark SQL部分简单使用详解

SparkSQL简介SparkSQL是Spark处理数据的一个模块，跟基本的SparkRDD的API不同，SparkSQL中提供的接口将会提供给Spark更多关于结构化数据和计算的信息。

万事于足下·2020-09-11 05:48

Flink学习笔记

第一代：MapReduce2006年批磁盘M->R矢量|2014.9Storm诞生流延迟低/吞吐小第二代：SparkRDD2014.2批内存DAG（若干Stage）|使用micro-batch模拟流处理

骚白~·2020-09-11 03:39

Spark RDD

SparkRDD一、概述Atahighlevel,everySparkapplicationconsistsofadriverprogramthatrunstheuser’smainfunctionandexecutesvariousparalleloperationsonacluster.ThemainabstractionSparkprovidesisaresilientdistributed

龙龙灵·2020-09-11 03:55

SparkStreaming整合Redis

需求：希望在SparkRDD算子中访问Redis。思路：通过Broadcast变量将Redis配置信息广播到所有计算节点；通过lazy关键字实现Redis连接的延迟创建。

xianyuxiaoqiang·2020-08-26 09:13

SparkRDD之combineByKey

java示例:packagecom.cb.spark.sparkrdd;importjava.util.ArrayList;importjava.util.Arrays;

大雄没有叮当猫·2020-08-23 03:00

sparkRDD高级算子 combineByKey函数详解

spark中高级算子：combineByKey函数详解combineByKey函数源码如下：defcombineByKey[C](createCombiner:V=>C, //当前值作为参数，可被认为初始化操作mergeValue:(C,V)=>C, //在分区中操作，把当前的元素V合并到上次结果的C中mergeCombiners:(C,C)=>C):RDD[(K,C)]

chak_16·2020-08-23 02:21

spark RDD依赖类型

sparkRDD依赖RDD的最重要的特性之一就是血缘关系，血缘关系描述了一个RDD是如何从父RDD计算得来的。

qq_19006739·2020-08-23 02:35

SparkRDD之countByKey和countByValue

packagecom.cb.spark.sparkrdd;importjava.util.Arrays;importjava.util.function.BiConsumer;importorg.apache.spark.SparkConf

大雄没有叮当猫·2020-08-22 18:39

翻译一下spark sql and dataframes

[size=large][b]概述[/b][/size]sparksql是一个结构化执行的数据模块，它并不像基本的sparkrdd操作，sparksql可以提供更多的基于数据操作的接口，而且有更多的优化操作

snwz5588668·2020-08-22 18:21

Spark GraphX

在一个高水平，GraphX通过引进一个新的图抽象扩展了sparkRDD：带有顶点和边属性的有向多重图。

mach_learn·2020-08-22 13:03

DStream

是构建在SparkRDD之上的一款流处理工具。言外之意SparkDStream并不是严格意义的流处理。

LvJinYang·2020-08-21 03:03

ERROR Executor: Exception in task 0.0 in stage 91.0

遇到下面这种Executor报错的情况，多半是sparkRDD或者DataFrame定义的时候出了问题，因为sparkSql程序执行的机制是：transformation端不是真正的执行，只有action

gamedev˚·2020-08-21 02:18

sparkRDD

RDDRDD弹性分布式数据集，spark最基本的数据抽象，代表一个不可变，可分区，里面元素可并行计算的集合。具有数据流模型的特点：自动容错，位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时，显示地将工作集缓存在内存中，后续的查询能重用工作集，这极大提高查询速度特点：一系列的分区，每一个函数作用于每个分区，RDD之间是一系列依赖，如果是k-v类型的RDD，会有一个分区器，分区器就是决定把数据

metooman·2020-08-20 17:15

GraphX简介及GraphFrames测试

目录概观架构存储图的构造GraphFrames安装测试参考概观GraphX是Spark中用于图和图计算的组件，GraphX通过扩展SparkRDD引入了一个新的图抽象数据结构，一个将有效信息放入顶点和边的有向多重图

ssyshenn·2020-08-18 11:36

推荐频道

SparkRDD

spark 基础二：RDD操作和持久化

Scala 通过读取HDFS上的文件创建SparkRDD出现的问题

什么是 Spark RDD ?

Spark GraphX图计算框架原理概述

02_Spark_RDD

Spark RDD在Spark中的地位和作用如何？

RDD(Resilient Distributed Datasets)

通过JDBC方式将Spark RDD/DataFrame分布式写入Phoenix

Spark案例库V1.0版

RDD的容错机制

Spark RDD编程初级实践

Spark RDD编程

Spark rdd转Dataframe的三种方法

SparkRDD从6大方面详解

Flink

Spark中的RDD是什么，有哪些特性?

spark: rdd的应用(scala api)

Spark 分区(Partition)的认识、理解和应用

Spark RDD常见的转化操作和行动操作

Spark算子：RDD行动Action操作(1)–first、count、reduce、collect

Spark中RDD、DataFrame和DataSet的区别

spark之rdd partition

[Spark进阶]-- rdd详解及开发优化

SparkSql

Spark SQL介绍

Spark SQL介绍和特点

【Spark】SparkRDD-JavaAPI开发手册（函数式编程）

Spark RDD编程指南(初学)

spark学习（二）RDD和DAG

Spark Shuffle原理和Shuffle的问题解决和优化

Spark RDD常见的转化操作和行动操作

Hadoop与Spark基本原理

Spark流编程指引（五）-----------------------------DStreams上的转换操作

DStream之转换操作（Transformation）

Spark RDD 笛卡尔积

spark RDD ，wordcount案例解析

Spark SQL部分简单使用详解

Flink学习笔记

Spark RDD

SparkStreaming整合Redis

SparkRDD之combineByKey

sparkRDD高级算子 combineByKey函数详解

spark RDD依赖类型

SparkRDD之countByKey和countByValue

翻译一下spark sql and dataframes

Spark GraphX

DStream

ERROR Executor: Exception in task 0.0 in stage 91.0

sparkRDD

GraphX简介及GraphFrames测试