RDDs

PySpark

这些程序通常涉及创建RDDs（弹性分布

静听山水·2024-09-10 13:44

Spark的Web界面

Storage-此视图展示了数据如何在RDDs（弹性分布式数据集）之间进行分层存储，以及

静听山水·2024-09-06 04:40

2019-03-16 Spark基本架构及运行原理

SparkCore:包含Spark的基本功能，包含任务调度，内存管理，容错机制等，内部定义了RDDs(弹性分布式数据集)，提供了很多APIs来创建和操作这些RDDs。为其他组件提供底层的服务。

做一只乐观的小猴子·2024-02-03 02:04

Apache Spark 的基本概念和在大数据分析中的应用

Spark的基本概念包括：ResilientDistributedDatasets(RDDs)：RDD是Spark的核心数据结构，代表了分布式内存中的不可变的、可分区的数据集合。

数据科学与艺术的贺公子·2024-01-30 06:17

弹性分布式数据集(RDD)

概要为了能解决在大规模的集群中以一种容错的方式进行内存计算这个问题,我们提出了RDDs的概念.当前的很多框架对迭代式算法场景与交互性数据挖掘场景的处理性能非常差,这个是RDDs的提出的动机.如果能将数据保存在内存中

盗梦者_56f2·2024-01-15 03:14

Apache Spark

Spark的基本概念包括：ResilientDistributedDatasets（RDDs）：RDD是Spark的核心概念，代表一个可分区的、不可变的数据

m0_64180190·2023-12-05 10:24

Spark Streaming流式数据处理

DiscretizedStreams(DStreams)3.3InputDStreams与Receivers（接收器）3.3.1基础数据源a.Socket(TCPSocket)b.FileStreams(文件流)c.RDDs

NightFall丶·2023-11-29 07:38

7.spark sql编程

的代码出现的问题及解决方案本文目标如下：RDD,Datasets,DataFrames之间的区别入门SparkSession创建DataFramesDataFrame操作编程方式运行sql查询创建DatasetsDataFrames与RDDs

流月up·2023-11-06 10:10

4.RDD编程指南

RDDs可以通过hadoop文件(或共它的hadoop支持的文件系统)，或者编程中的scala集合，转换它创建RDD。

流月up·2023-11-04 09:52

Spark 基础

Resilient（弹性）DistributedDatasets(RDDs)Sparkrevolves(围绕)aroundtheconceptofaresilientdistributeddataset

kangapp·2023-11-01 01:47

Spark SQL-数据源

一个DataFrame可以进行RDDs方式的操作，也可以被注册为临时表。把DataFrame注册为临时表之后，就可以对该DataFrame执行SQL查询。

我是星星我会发光i·2023-10-16 06:33

Spark RDD简记

RDDs之间存在

Young_IT·2023-10-13 14:45

Apache Spark 的基本概念和在大数据分析中的应用 103.219.31.8

以下是几个ApacheSpark的基本概念：ResilientDistributedDatasets(RDDs)：RDDs是一个分布式数据集合，可以在不同的节点上并行操作。

德迅云安全-小潘·2023-10-11 10:09

Apache Spark 的基本概念和在大数据分析中的应用

Spark的基本概念包括：ResilientDistributedDatasets(RDDs)：Spark的核心抽象，是一个可分区、可并行计算、可容错的数据集合。它可以由内存或磁盘中的数据构建

指引拟态没·2023-09-17 10:42

Apache Spark 的基本概念

Spark中的基本概念包括：1.ResilientDistributedDatasets(RDDs)：Spark中的核心数据结构，它是一个可并行处理的分布式数据集合。S

IKUN家族·2023-09-17 10:08

SPARK RDD编程指南

RDDs可以由Hadoop文件系统中的一个文件创建，或在驱动程序中已经存在的scala集，然后转换它。用户会要求spark在内存中保留一个RDD，允许它被高效地跨并行操作重利用。

young光素族·2023-08-26 13:57

Spark SQL dataframe和dataset

3.1DataFrame与RDD的主要区别：DataFrame和RDDs应该如何选择？

难以言喻wyy·2023-04-12 03:41

SparkSQL-通用加载和保存

一个DataFrame可以进行RDDs方式的操作，也可以被注册为临时表。

在下蔡江琪·2023-04-08 01:03

Apache Spark大数据分析入门（一）

全文共包括四个部分：第一部分：Spark入门，介绍如何使用Shell及RDDs第二部分：介绍SparkSQL、Dataframes及如何结合Spark与Cassandra一起使用第三部分：介绍Spar

金乐笑·2023-04-05 11:45

Spark高手之路1—Spark简介

Hadoop比较2.1从时间节点上来看2.2从功能上来看3.SparkOrHadoop4.Spark4.1速度快4.2易用4.3通用4.4兼容5.Spark核心模块5.1Spark-Core和弹性分布式数据集(RDDs

W_chuanqi·2023-04-03 07:30

Can't zip RDDs with unequal numbers of partitions: List(1, 2)

Can’tzipRDDswithunequalnumbersofpartitions:List(1,2)错误RDD在做zip操作的时候要保证partition一样，用repartition（1）吧两个RDD的partition都设成1

mchtnwn·2023-03-31 00:15

spark sql 报错 Can‘t zip RDDs with unequal numbers of partitions

Causedby:java.lang.IllegalArgumentException:Can'tzipRDDswithunequalnumbersofpartitions:List(1,200)处理方式：关闭AQE:setspark.sql.adaptive.enabled=false;

大数据队长·2023-03-31 00:03

Can't zip RDDs with unequal numbers of partitions

java.lang.IllegalArgumentException:Can'tzipRDDswithunequalnumbersofpartitions//如果两个RDD分区数不同，则抛出异常http://lxw1234.com/archives/2015/07/350.htmjava.lang.NullPointerException:ExpectedtimestampintheFlumeev

afei2530·2023-03-31 00:59

3 RDDs基本操作之Transformations

1Transformations介绍Transformations(转换）从之前的RDD构建一个新的RDD，像map()和filter()map()map()接收函数，把函数应用到RDD的每一个元素，返回新RDDvallines=sc.parallelize(Array("hello","spark","hello","world","!")lines.foreach(println)vallin

Achaichai·2023-03-25 22:52

Windows下搭建PySpark环境

JDK，Scala和Hadoop环境的支持，而PySpark则是利用Spark支持Python的特性而将其当作Python的一个包调用，利用PySpark中的Py4j库,我们可以通过Python语言操作RDDs

恶魔西洛伊·2023-03-11 09:43

SPark学习笔记：03-SPark的RDD详解

RDD1、怎么理解RDD的分布式2、怎么理解RDD之间有一系列依赖关系3、怎么理解RDD的弹性(容错性)4、怎么理解RDD提供了最佳的计算位置概述ResilientDistributedDatasets(RDDs

wangzhongyudie·2023-01-31 14:49

spark api之一：Spark官方文档 - 中文翻译

Overview)2引入Spark(LinkingwithSpark)3初始化Spark(InitializingSpark)3.1使用SparkShell(UsingtheShell)4弹性分布式数据集(RDDs

weixin_34375251·2022-12-15 11:31

Spark的运行架构和基本原理

备注：此博客为转载，转载请点击此处Spark软件栈SparkCore:包含Spark的基本功能，包含任务调度，内存管理，容错机制等，内部定义了RDDs(弹性分布式数据集)，提供了很多APIs来创建和操作这些

陆山右·2022-12-09 09:56

Spark RDD 论文详解（四）表达 RDDs

前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系目录SparkRDD论文详解（一）摘要和介绍SparkRDD论文详解（二）RDDsSparkRDD论文详解（三）Spark编程接口SparkRDD论文详解（四）表达RDDsSparkRDD论文详解（五）实现Sp

Shockang·2022-09-21 14:46

【SparkSQL笔记】SparkSQL的Dataset操作大全（二）

DataFrame操作大全简介说明1.Spark程序中利用SparkSession对象提供的读取相关数据源的方法读取来自不同数据源的结构化数据，转化为Dataset（DataFrame），当然也可以将现成RDDs

sdut菜鸟·2022-09-09 09:25

Spark RDD 论文详解（二）RDDs

前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系目录SparkRDD论文详解（一）摘要和介绍SparkRDD论文详解（二）RDDsSparkRDD论文详解（三）Spark编程接口SparkRDD论文详解（四）表达RDDsSparkRDD论文详解（五）实现Sp

Shockang·2022-07-20 18:21

2020-12(完成事项)

12.2×1.分析spark中的执行流程√2.shuffleRDD的学习(计划于12.04-12.05学习)√12.33.分析spark源码√4.scala中的高级方法博客的书写√12.4-12.55.RDDS

隐约喜欢萌萌哒·2022-02-18 07:39

大数据开发技术之Spark Job物理执行解析

一个直观想法是将前后关联的RDDs组成一个stage，大数据培训每个箭头生成一个task。对于两个RDD聚合成一个RDD的情况，这三个RDD组成一个stage。这样虽然可以解决问题，但显然效率不高。

·2021-09-24 10:59

SparkSQL数据源之通用加载/保存方法/JSON文件/Parquet文件/JDBC

一个DataFrame可以进行RDDs方式的操作，也可以被注册为临时表。把DataFrame注册为临时表之后，就可以对该DataFrame执行SQL查询。

大数据小同学·2021-06-08 11:44

spark streaming 窗口操作和join 操作

下图展示了滑动窗口image.png如图所示，每当窗口在输入数据流上滑动一次，在这个窗口内的源RDDs就会被聚合和操作然后产生基于窗口流的RDDs。

pcqlegend·2021-05-16 19:48

RDDs 并行集合外部数据集

可伸缩的分布式数据集ResilientDistributedDatasets(RDDs)原文地址：http://spark.apache.org/docs/latest/programming-guide.html

希尔大·2021-05-16 19:17

Spark机器学习API之特征处理（二）

Spark机器学习库中包含了两种实现方式，一种是spark.mllib，这种是基础的API，基于RDDs之上构建，另一种是spark.ml，这种是higher-levelAPI，基于DataFrames

Alukar·2021-05-06 11:15

Spark系列--SparkSQL(六)数据源

一个DataFrame可以进行RDDs方式的操作，也可以被注册为临时表。把DataFrame注册为临时表之后，就可以对该DataFrame执行SQL查询。SparkSQL的默认数据源为P

淡淡的倔强·2020-09-15 13:47

Apache Spark数据分析教程（二）：Spark SQL

在本Spark序列教程的第一部分，我们已经对Spark进行了介绍，讲解了Spark的历史，详细解释了用于在Spark集群中进行数据分片存储的弹性分布式数据集（RDDs）并对ApacheSpark的生态系统进行了介绍

五柳-先生·2020-09-15 13:36

SparkSQL数据源

一个DataFrame可以进行RDDs方式的操作，也可以被注册为临时表。把DataFrame注册为临时表之后，就可以对该DataFrame执行SQL查询。

不稳定记忆·2020-09-15 12:52

Spark中文手册-编程指南

RDDs从Hadoop的文件系统中的一个文件中创建而来(或其他Hadoop支持的文件系统)，

layne_liang·2020-09-15 02:02

Spark RDD编程指南(初学)

SparkRDD编程指南1.总览2.与Spark链接3.初始化Spark4.弹性分布式数据集（RDDs）4.1并行化集合4.2外部数据集4.3RDD算子4.3.1基础4.3.2将函数传给Spark4.3.3

Zhouxk96·2020-09-14 02:03

spark 数据框转 pandas 数据框分布式

importpandasaspddef_map_to_pandas(rdds):return[pd.DataFrame(list(rdds))]deftopas(df,n_partitions=None

我是女孩·2020-09-12 20:04

SparkStreaming之DStream operations

TransformationsonDStreams和RDDs一样，各种转换允许数据从inputDstream得到之后进行各种改造。

legotime·2020-09-11 22:21

Spark流编程指引（五）-----------------------------DStreams上的转换操作

与RDDs类似，转换操作允许对来自输入DStreams的数据进行修改。DStreams支持许多在通常SparkRDD上的转换操作。

self-motivation·2020-09-11 21:02

DStream之转换操作（Transformation）

与RDDs类似，转换允许修改输入DStream中的数据。DStreams支持许多在普通SparkRDD上可用的转换算子。

天ヾ道℡酬勤·2020-09-11 21:28

Spark基础

内部定义了RDDs(弹性分布式数据集)。提供了很多APIs来创建和操作这些RDDs。为其它场景提供了底层的服务SparkSQL:是Spark处理结构化数据的库，就像HiveSQL,Mysql一样。

班得瑞的猫·2020-08-25 17:11

SparkSQL数据源之通用加载/保存方法/JSON文件/Parquet文件/JDBC

一个DataFrame可以进行RDDs方式的操作，也可以被注册为临时表。把DataFrame注册为临时表之后，就可以对该DataFrame执行SQL查询。

大数据小同学·2020-08-23 03:49

KeyValue对RDDs之combineByKey函数

一combineByKey()(createCombiner,mergeValue,mergeCombiners,partitioner)最常用的基于key的聚合函数，返回的类型可以与输入类型不一样许多基于key的聚合函数都用到了它，向groupByKey()二combineByKey工作原理遍历parition中的元素，元素的key，要么之前见过的，要么没见过。如果是新元素，使用我们提供的cre

cakincheng·2020-08-23 01:33

Spark编程指南(一)

Spark提出的抽象概念主要是一个弹性分布式数据集(resilientdistributeddatasets,RDDs)，它是一

门下平章·2020-08-22 03:17

推荐频道

RDDs

PySpark

Spark的Web界面

2019-03-16 Spark基本架构及运行原理

Apache Spark 的基本概念和在大数据分析中的应用

弹性分布式数据集(RDD)

Apache Spark

Spark Streaming流式数据处理

7.spark sql编程

4.RDD编程指南

Spark 基础

Spark SQL-数据源

Spark RDD简记

Apache Spark 的基本概念和在大数据分析中的应用 103.219.31.8

Apache Spark 的基本概念和在大数据分析中的应用

Apache Spark 的基本概念

SPARK RDD编程指南

Spark SQL dataframe和dataset

SparkSQL-通用加载和保存

Apache Spark大数据分析入门（一）

Spark高手之路1—Spark简介

Can't zip RDDs with unequal numbers of partitions: List(1, 2)

spark sql 报错 Can‘t zip RDDs with unequal numbers of partitions

Can't zip RDDs with unequal numbers of partitions

3 RDDs基本操作之Transformations

Windows下搭建PySpark环境

SPark学习笔记：03-SPark的RDD详解

spark api之一：Spark官方文档 - 中文翻译

Spark的运行架构和基本原理

Spark RDD 论文详解（四）表达 RDDs

【SparkSQL笔记】SparkSQL的Dataset操作大全（二）

Spark RDD 论文详解（二）RDDs

2020-12(完成事项)

大数据开发技术之Spark Job物理执行解析

SparkSQL数据源之通用加载/保存方法/JSON文件/Parquet文件/JDBC

spark streaming 窗口操作 和join 操作

RDDs 并行集合 外部数据集

Spark机器学习API之特征处理（二）

Spark系列--SparkSQL(六)数据源

Apache Spark数据分析教程（二）：Spark SQL

SparkSQL数据源

Spark中文手册-编程指南

Spark RDD编程指南(初学)

spark 数据框转 pandas 数据框 分布式

SparkStreaming之DStream operations

Spark流编程指引（五）-----------------------------DStreams上的转换操作

DStream之转换操作（Transformation）

Spark基础

SparkSQL数据源之通用加载/保存方法/JSON文件/Parquet文件/JDBC

KeyValue对RDDs之combineByKey函数

Spark编程指南(一)

spark streaming 窗口操作和join 操作

RDDs 并行集合外部数据集

spark 数据框转 pandas 数据框分布式