sparkrdd 第3页

Spark SQL详解

spark系列Spark核心原理及运行架构SparkRDD详解Spark常用算子大全SparkSQL详解SparkSQLspark系列前言SparkSQL简介什么是SparkSQL?

BigData_Hubert·2022-04-22 08:07

Spark交通数据分析案例：大型活动大规模人群的检测与疏散

接下来介绍如何使用sparkRDD进行数据分析。之后分享spark与大数据分析的关系，以及spark在大数据分析中所起到的作用。

weixin_34292402·2022-03-25 07:53

spark输出rdd数据_剖析Spark数据分区之Spark RDD分区

本文来自OPPO互联网技术团队，是《剖析Spark数据分区》系列文章的第二篇，将重点分析SparkRDD的数据分区。该系列共分3篇文章，欢迎持续关注。

weixin_39525933·2022-02-28 10:04

spark rdd分区与任务的关系

sparkrdd分区与任务关系rdd是弹性分布式数据集，分区是对rdd数据的划分。分区之后，job并行度增大。一个分区对应一个任务。什么是任务，任务是job的执行逻辑单元。

程序猿不加班·2022-02-28 10:27

SparkRdd官档翻译(Python)

RDD程序开发指南概述从较高的层面来看，每一个Spark应用都包含运行用户main方法和执行各种并行操作的Driver程序。Spark最主要的抽象概念是分布式数据集，它是可以执行并行操作且跨集群节点的分区的元素集合。RDD可以从Hadoop文件系统中创建（其他任何Hadoop支持的文件系统），或者一个当前存在于Driver程序中的Scala集合，及其通过转换来创建一个RDD。我们也可以请求Spar

与大米一起成长·2022-02-11 07:18

司小幽·2022-02-10 21:31

大数据Spark算子

SparkRdd的创建方式基于spark

铜锣湾寿司·2022-02-10 01:05

spark常见RDD算法演示

1.sparkRDD大致总体上可以分成两个bufe一个是Value类型和Key-Value类型1.1Value型1.1.1map((func)函数作用:返回一个新的RDD，该RDD由每一个输入元素经过func

pkingdog·2022-02-09 04:57

spark 基础二：RDD操作和持久化

SparkRDD操作Spark支持两种RDD操作，transformation和action。

张凯_9908·2022-02-08 14:49

Scala 通过读取HDFS上的文件创建SparkRDD出现的问题

一、Couldnotlocateexecutablenull\bin\winutils.exeintheHadoopbinaries.如果本机操作系统是Windows，如果在程序中使用了Hadoop相关的东西，比如写入文件到HDFS，则会遇到该异常出现这个问题的原因，并不是程序的错误，而是用到了hadoop相关的服务，解决办法：1、在本机上解压对应版本的hadoop压缩包不太清楚别的版本压缩包行不

我在燕京有把刀·2021-11-19 15:57

什么是 Spark RDD ?

RDD示意图:RDD的五个主要特性分区列表SparkRDD是被分区的，每一个分区都会被一个计算任务(Task)处理，分区数决定了并行计算的数量，RDD的并行度默认从父RDD传给子RDD。默认情

光剑书架上的书·2021-09-18 01:43

Spark GraphX图计算框架原理概述

【转载】原文地址：原文地址概述 GraphX是Spark中用于图和图计算的组件，GraphX通过扩展SparkRDD引入了一个新的图抽象数据结构，一个将有效信息放入顶点和边的有向多重图。

木亦汐·2021-06-25 19:52

02_Spark_RDD

SparkRDD1）什么是RDDRDD（ResilientDistributedDataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合

百忍成金的虚竹·2021-06-20 00:32

Spark RDD在Spark中的地位和作用如何？

SparkRDD的核心原理1、Spark的核心概念是RDD(resilientdistributeddataset)，指的是一个只读的，可分区的分布式数据集，这个数据集的全部或部分可以缓存在内存中，在多次计算间重用

·2021-06-18 22:57

RDD(Resilient Distributed Datasets)

SparkRDD:fault-tolerantcollectionofelementsthatcanbeoperatedoninparallel.twotypes:parallelizedcollections

朱小虎XiaohuZhu·2021-06-14 07:35

通过JDBC方式将Spark RDD/DataFrame分布式写入Phoenix

背景在实际应用场景，出于安全等方面考虑，有时候大数据平台不暴露对Phoenix的zookeeperurl连接方式，本文提供一种基于jdbc的方式实现spark将SparkRDD/DataFrame分布式批量写入

EchelonX·2021-06-08 13:52

Spark案例库V1.0版

Spark案例库案例一：使用SparkRDD实现词频统计pom.xml文件aliyunhttp://maven.aliyun.com/nexus/content/groups/public/clouderahttps

ChinaManor·2021-05-24 22:32

RDD的容错机制

RDD的容错机制总结：RDD的容错机制原文：SparkRDD概念学习系列之RDD的容错机制（十七）RDD实现了基于Lineage的容错机制。

小小少年Boy·2021-04-30 03:28

Spark RDD编程初级实践

SparkRDD编程初级实践湖工大永远滴神茂林！！！提交异常问题解决第一关数据去重第二个整合排序第三关求平均值湖工大永远滴神茂林！！！

登峰造極，永往无前。·2021-04-17 16:51

Spark RDD编程

SparkRDD编程概述从高层次上来看，每一个Spark应用都包含一个驱动程序，用于执行用户的main函数以及在集群上运行各种并行操作。

LuciferTM·2021-03-10 23:20

Spark rdd转Dataframe的三种方法

Sparkrdd转Dataframe的三种方法数据准备RDD转Dataframe的三种方式通过RDD推断创建dataframe通过StructType创建dataframe通过定义schema类创建dataframe

test-abc·2020-09-17 07:02

SparkRDD从6大方面详解

转自:https://blog.csdn.net/erfucun/article/details/51972225一：RDD粗粒度与细粒度粗粒度：在程序启动前就已经分配好资源（特别适用于资源特别多而且要进行资源复用）细粒度：计算需要资源是才分配资源，细粒度没有资源浪费问题。二：RDD的解密：1，分布式（擅长迭代式是spark的精髓之所在）基于内存（有些时候也会基于硬盘）特别适合于计算的计算框架2，

风是外衣衣衣·2020-09-16 13:15

Flink

第一代：MapReduce2006年批磁盘M->R矢量|2014.9Storm诞生流延迟低/吞吐小第二代：SparkRDD2014.2批内存DAG（若干Stage）|使用micro-batch模拟流处理

HuiGe94v587·2020-09-16 12:23

Spark中的RDD是什么，有哪些特性?

partition组成的2.RDD之间具有依赖关系3.RDD作用在partition是上4.partition作用在具有（k,v）格式的数据集5.partition对外提供最佳计算位置，利于数据本地化的处理3).SparkRDD

有风微冷·2020-09-16 12:20

spark: rdd的应用(scala api)

wordcount:统计词频，排序历年温度最值：max,min,avgpart1:sparkrdd之wordcountspark-shell//word.txtvarfile="/home/wang/txt

根哥的博客·2020-09-16 11:27

Spark 分区(Partition)的认识、理解和应用

SparkRDD是一种分布式的数据集，由于数据量很大，因此要它被切分并存储在各个结点的分区当中。从而当我们对RDD进行操作时，实际上是对每个分区中的数据并行操作。

XK&RM·2020-09-16 06:25

Spark RDD常见的转化操作和行动操作

SparkRDD常见的转化操作和行动操作IDEA创建scalaspark的Mvn项目：https://blog.csdn.net/u014646662/article/details/84618032spark

周天祥·2020-09-16 04:55

Spark算子：RDD行动Action操作(1)–first、count、reduce、collect

Spark算子：RDD行动Action操作(1)–first、count、reduce、collect关键字：Spark算子、SparkRDD行动Action、first、count、reduce、collectfirstdeffirst

羽翼天宇·2020-09-16 03:27

Spark中RDD、DataFrame和DataSet的区别

RDD、DataFrame和DataSet的定义在开始SparkRDD与DataFrame与Dataset之间的比较之前，先让我们看一下Spark中的RDD，DataFrame和Datasets的定义：

`冬虫夏草`·2020-09-15 11:15

spark之rdd partition

概要SparkRDD主要由Dependency、Partition、Partitioner组成，Partition是其中之一。

明喆_sama·2020-09-15 03:59

[Spark进阶]-- rdd详解及开发优化

sparkrdd详解及开发优化文章英文来源：http://spark.apache.org/docs/latest/programming-guide.html一、SparkRDD详解1、RDD是什么？

highfei2011·2020-09-15 02:27

SparkSql

#SparkSql##设计目的：支持sparkRdd和外部数据的关系处理高性能的关系数据操作易于扩展数据源，如半结构化数据，外部数据可以被其他高级算法使用如graph,machinelearning##

github_28583061·2020-09-15 02:49

Spark SQL介绍

官方介绍：SparkSQL是Spark处理数据的一个模块，跟基本的SparkRDD的API不同，SparkSQL中提供的接口将会提供给Spark更多关于结构化数据和计算的信息。

banana`·2020-09-15 02:27

Spark SQL介绍和特点

一：SparkSQL的简介SparkSQL是Spark处理数据的一个模块，跟基本的SparkRDD的API不同，SparkSQL中提供的接口将会提供给Spark更多关于结构化数据和计算的信息。

亮大兵·2020-09-15 02:24

【Spark】SparkRDD-JavaAPI开发手册（函数式编程）

文章目录GithubNote遇到的大坑！装备Core总结Github地址：https://github.com/ithuhui/hui-base-java模块：【hui-base-spark】分支：master位置：com.hui.base.spark.rddNote老实说,相比那些抄袭来抄袭去的blog,这篇RDD的JavaAPI…我是每个常用API都结合实例解释并且用了Java函数式编程写的…

java劝退师·2020-09-15 02:37

Spark RDD编程指南(初学)

SparkRDD编程指南1.总览2.与Spark链接3.初始化Spark4.弹性分布式数据集（RDDs）4.1并行化集合4.2外部数据集4.3RDD算子4.3.1基础4.3.2将函数传给Spark4.3.3

Zhouxk96·2020-09-14 02:03

spark学习（二）RDD和DAG

一、sparkRDD概念RDD（ResilientDistributedDataset）叫做弹性分布式数据集,是spark中最基本也是最重要的概念之一。

沼泽鱼97·2020-09-14 02:30

Spark Shuffle原理和Shuffle的问题解决和优化

1.1.1maptask端操作1.1.2reducetask端操作1.2spark现在的SortShuffleManager2Shuffle操作问题解决2.1数据倾斜原理2.2数据倾斜问题发现与解决2.3数据倾斜解决方案3sparkRDD

水墨风漾·2020-09-13 06:23

Spark RDD常见的转化操作和行动操作

SparkRDD常见的转化操作和行动操作IDEA创建scalaspark的Mvn项目：https://blog.csdn.net/u014646662/article/details/84618032spark

XY_Noire·2020-09-13 01:31

Hadoop与Spark基本原理

HadoopSparkSpark和Hadoop区别和联系Hadoop的HDFSHadoop的MapReduceSpark宽依赖和窄依赖SparkRDD运行过程SparkRDD阶段划分HadoopHadoop

宁缺100·2020-09-12 09:44

Spark流编程指引（五）-----------------------------DStreams上的转换操作

DStreams支持许多在通常SparkRDD上的转换操作。

self-motivation·2020-09-11 21:02

DStream之转换操作（Transformation）

DStreams支持许多在普通SparkRDD上可用的转换算子。一些常见的转换操作定义如下：map(func)通过函数func传递源DStream的每个元素来返回一个新的DStream。

天ヾ道℡酬勤·2020-09-11 21:28

Spark RDD 笛卡尔积

SparkRDD笛卡尔积valleft=sc.parallelize(List(1,2,3))valright=sc.parallelize(List(3,4,5,6))valout=leftunionright

大数据的未来·2020-09-11 10:27

spark RDD ，wordcount案例解析

sparkRDD，wordcount案例解析sparkRDD内存计算模型数据来源:可以从HDFS文件，Hive表，Hbase，本地磁盘，MQspark集群，RDD中的数据都是存放在worker，都分区的

张章章Sam·2020-09-11 07:31

Spark SQL部分简单使用详解

SparkSQL简介SparkSQL是Spark处理数据的一个模块，跟基本的SparkRDD的API不同，SparkSQL中提供的接口将会提供给Spark更多关于结构化数据和计算的信息。

万事于足下·2020-09-11 05:48

Flink学习笔记

第一代：MapReduce2006年批磁盘M->R矢量|2014.9Storm诞生流延迟低/吞吐小第二代：SparkRDD2014.2批内存DAG（若干Stage）|使用micro-batch模拟流处理

骚白~·2020-09-11 03:39

Spark RDD

SparkRDD一、概述Atahighlevel,everySparkapplicationconsistsofadriverprogramthatrunstheuser’smainfunctionandexecutesvariousparalleloperationsonacluster.ThemainabstractionSparkprovidesisaresilientdistributed

龙龙灵·2020-09-11 03:55

SparkStreaming整合Redis

需求：希望在SparkRDD算子中访问Redis。思路：通过Broadcast变量将Redis配置信息广播到所有计算节点；通过lazy关键字实现Redis连接的延迟创建。

xianyuxiaoqiang·2020-08-26 09:13

SparkRDD之combineByKey

java示例:packagecom.cb.spark.sparkrdd;importjava.util.ArrayList;importjava.util.Arrays;

大雄没有叮当猫·2020-08-23 03:00

sparkRDD高级算子 combineByKey函数详解

spark中高级算子：combineByKey函数详解combineByKey函数源码如下：defcombineByKey[C](createCombiner:V=>C, //当前值作为参数，可被认为初始化操作mergeValue:(C,V)=>C, //在分区中操作，把当前的元素V合并到上次结果的C中mergeCombiners:(C,C)=>C):RDD[(K,C)]

chak_16·2020-08-23 02:21

推荐频道

sparkrdd

Spark SQL详解

Spark交通数据分析案例：大型活动大规模人群的检测与疏散

spark输出rdd数据_剖析Spark数据分区之Spark RDD分区

spark rdd分区与任务的关系

SparkRdd官档翻译(Python)

Spark相关文章索引（5）

大数据Spark算子

spark常见RDD算法演示

spark 基础二：RDD操作和持久化

Scala 通过读取HDFS上的文件创建SparkRDD出现的问题

什么是 Spark RDD ?

Spark GraphX图计算框架原理概述

02_Spark_RDD

Spark RDD在Spark中的地位和作用如何？

RDD(Resilient Distributed Datasets)

通过JDBC方式将Spark RDD/DataFrame分布式写入Phoenix

Spark案例库V1.0版

RDD的容错机制

Spark RDD编程初级实践

Spark RDD编程

Spark rdd转Dataframe的三种方法

SparkRDD从6大方面详解

Flink

Spark中的RDD是什么，有哪些特性?

spark: rdd的应用(scala api)

Spark 分区(Partition)的认识、理解和应用

Spark RDD常见的转化操作和行动操作

Spark算子：RDD行动Action操作(1)–first、count、reduce、collect

Spark中RDD、DataFrame和DataSet的区别

spark之rdd partition

[Spark进阶]-- rdd详解及开发优化

SparkSql

Spark SQL介绍

Spark SQL介绍和特点

【Spark】SparkRDD-JavaAPI开发手册（函数式编程）

Spark RDD编程指南(初学)

spark学习（二）RDD和DAG

Spark Shuffle原理和Shuffle的问题解决和优化

Spark RDD常见的转化操作和行动操作

Hadoop与Spark基本原理

Spark流编程指引（五）-----------------------------DStreams上的转换操作

DStream之转换操作（Transformation）

Spark RDD 笛卡尔积

spark RDD ，wordcount案例解析

Spark SQL部分简单使用详解

Flink学习笔记

Spark RDD

SparkStreaming整合Redis

SparkRDD之combineByKey

sparkRDD高级算子 combineByKey函数详解