E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
RDDs
PySpark
这些程序通常涉及创建
RDDs
(弹性分布
静听山水
·
2024-09-10 13:44
Spark
spark
Spark的Web界面
Storage-此视图展示了数据如何在
RDDs
(弹性分布式数据集)之间进行分层存储,以及
静听山水
·
2024-09-06 04:40
Spark
spark
2019-03-16 Spark基本架构及运行原理
SparkCore:包含Spark的基本功能,包含任务调度,内存管理,容错机制等,内部定义了
RDDs
(弹性分布式数据集),提供了很多APIs来创建和操作这些
RDDs
。为其他组件提供底层的服务。
做一只乐观的小猴子
·
2024-02-03 02:04
Apache Spark 的基本概念和在大数据分析中的应用
Spark的基本概念包括:ResilientDistributedDatasets(
RDDs
):RDD是Spark的核心数据结构,代表了分布式内存中的不可变的、可分区的数据集合。
数据科学与艺术的贺公子
·
2024-01-30 06:17
spark
数据分析
大数据
弹性分布式数据集(RDD)
概要为了能解决在大规模的集群中以一种容错的方式进行内存计算这个问题,我们提出了
RDDs
的概念.当前的很多框架对迭代式算法场景与交互性数据挖掘场景的处理性能非常差,这个是
RDDs
的提出的动机.如果能将数据保存在内存中
盗梦者_56f2
·
2024-01-15 03:14
Apache Spark
Spark的基本概念包括:ResilientDistributedDatasets(
RDDs
):RDD是Spark的核心概念,代表一个可分区的、不可变的数据
m0_64180190
·
2023-12-05 10:24
付费
javascript
html5
开发语言
Spark Streaming流式数据处理
DiscretizedStreams(DStreams)3.3InputDStreams与Receivers(接收器)3.3.1基础数据源a.Socket(TCPSocket)b.FileStreams(文件流)c.
RDDs
NightFall丶
·
2023-11-29 07:38
#
Spark
spark
SparkStreaming
7.spark sql编程
的代码出现的问题及解决方案本文目标如下:RDD,Datasets,DataFrames之间的区别入门SparkSession创建DataFramesDataFrame操作编程方式运行sql查询创建DatasetsDataFrames与
RDDs
流月up
·
2023-11-06 10:10
spark
spark
sql
大数据
spark
sql
RDD转DataFrame
4.RDD编程指南
RDDs
可以通过hadoop文件(或共它的hadoop支持的文件系统),或者编程中的scala集合,转换它创建RDD。
流月up
·
2023-11-04 09:52
spark
RDD
spark
scala
算子
Transformations
Actions
Spark 基础
Resilient(弹性)DistributedDatasets(
RDDs
)Sparkrevolves(围绕)aroundtheconceptofaresilientdistributeddataset
kangapp
·
2023-11-01 01:47
Spark SQL-数据源
一个DataFrame可以进行
RDDs
方式的操作,也可以被注册为临时表。把DataFrame注册为临时表之后,就可以对该DataFrame执行SQL查询。
我是星星我会发光i
·
2023-10-16 06:33
Spark
Spark
SQL-数据源
Spark RDD简记
RDDs
之间存在
Young_IT
·
2023-10-13 14:45
大数据开发
spark
大数据
分布式
Apache Spark 的基本概念和在大数据分析中的应用 103.219.31.8
以下是几个ApacheSpark的基本概念:ResilientDistributedDatasets(
RDDs
):
RDDs
是一个分布式数据集合,可以在不同的节点上并行操作。
德迅云安全-小潘
·
2023-10-11 10:09
apache
spark
数据分析
Apache Spark 的基本概念和在大数据分析中的应用
Spark的基本概念包括:ResilientDistributedDatasets(
RDDs
):Spark的核心抽象,是一个可分区、可并行计算、可容错的数据集合。它可以由内存或磁盘中的数据构建
指引拟态没
·
2023-09-17 10:42
开发语言
Apache Spark 的基本概念
Spark中的基本概念包括:1.ResilientDistributedDatasets(
RDDs
):Spark中的核心数据结构,它是一个可并行处理的分布式数据集合。S
IKUN家族
·
2023-09-17 10:08
spark
大数据
分布式
SPARK RDD编程指南
RDDs
可以由Hadoop文件系统中的一个文件创建,或在驱动程序中已经存在的scala集,然后转换它。用户会要求spark在内存中保留一个RDD,允许它被高效地跨并行操作重利用。
young光素族
·
2023-08-26 13:57
spark
Spark SQL dataframe和dataset
3.1DataFrame与RDD的主要区别:DataFrame和
RDDs
应该如何选择?
难以言喻wyy
·
2023-04-12 03:41
spark
sql
大数据
SparkSQL-通用加载和保存
一个DataFrame可以进行
RDDs
方式的操作,也可以被注册为临时表。
在下蔡江琪
·
2023-04-08 01:03
SparkSQL
Apache Spark大数据分析入门(一)
全文共包括四个部分:第一部分:Spark入门,介绍如何使用Shell及
RDDs
第二部分:介绍SparkSQL、Dataframes及如何结合Spark与Cassandra一起使用第三部分:介绍Spar
金乐笑
·
2023-04-05 11:45
Spark高手之路1—Spark简介
Hadoop比较2.1从时间节点上来看2.2从功能上来看3.SparkOrHadoop4.Spark4.1速度快4.2易用4.3通用4.4兼容5.Spark核心模块5.1Spark-Core和弹性分布式数据集(
RDDs
W_chuanqi
·
2023-04-03 07:30
Spark高手之路
spark
hadoop
大数据
Can't zip
RDDs
with unequal numbers of partitions: List(1, 2)
Can’tzipRDDswithunequalnumbersofpartitions:List(1,2)错误RDD在做zip操作的时候要保证partition一样,用repartition(1)吧两个RDD的partition都设成1
mchtnwn
·
2023-03-31 00:15
spark
spark
rdd
spark sql 报错 Can‘t zip
RDDs
with unequal numbers of partitions
Causedby:java.lang.IllegalArgumentException:Can'tzipRDDswithunequalnumbersofpartitions:List(1,200)处理方式:关闭AQE:setspark.sql.adaptive.enabled=false;
大数据队长
·
2023-03-31 00:03
spark
sql
大数据
Can't zip
RDDs
with unequal numbers of partitions
java.lang.IllegalArgumentException:Can'tzipRDDswithunequalnumbersofpartitions//如果两个RDD分区数不同,则抛出异常http://lxw1234.com/archives/2015/07/350.htmjava.lang.NullPointerException:ExpectedtimestampintheFlumeev
afei2530
·
2023-03-31 00:59
大数据
java
3
RDDs
基本操作之Transformations
1Transformations介绍Transformations(转换)从之前的RDD构建一个新的RDD,像map()和filter()map()map()接收函数,把函数应用到RDD的每一个元素,返回新RDDvallines=sc.parallelize(Array("hello","spark","hello","world","!")lines.foreach(println)vallin
Achaichai
·
2023-03-25 22:52
Windows下搭建PySpark环境
JDK,Scala和Hadoop环境的支持,而PySpark则是利用Spark支持Python的特性而将其当作Python的一个包调用,利用PySpark中的Py4j库,我们可以通过Python语言操作
RDDs
恶魔西洛伊
·
2023-03-11 09:43
SPark学习笔记:03-SPark的RDD详解
RDD1、怎么理解RDD的分布式2、怎么理解RDD之间有一系列依赖关系3、怎么理解RDD的弹性(容错性)4、怎么理解RDD提供了最佳的计算位置概述ResilientDistributedDatasets(
RDDs
wangzhongyudie
·
2023-01-31 14:49
Spark
大数据
spark
学习
大数据
spark api之一:Spark官方文档 - 中文翻译
Overview)2引入Spark(LinkingwithSpark)3初始化Spark(InitializingSpark)3.1使用SparkShell(UsingtheShell)4弹性分布式数据集(
RDDs
weixin_34375251
·
2022-12-15 11:31
大数据
java
scala
Spark的运行架构和基本原理
备注:此博客为转载,转载请点击此处Spark软件栈SparkCore:包含Spark的基本功能,包含任务调度,内存管理,容错机制等,内部定义了
RDDs
(弹性分布式数据集),提供了很多APIs来创建和操作这些
陆山右
·
2022-12-09 09:56
Spark
Spark的运行架构和基本原理
Spark RDD 论文详解(四)表达
RDDs
前言本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系目录SparkRDD论文详解(一)摘要和介绍SparkRDD论文详解(二)RDDsSparkRDD论文详解(三)Spark编程接口SparkRDD论文详解(四)表达RDDsSparkRDD论文详解(五)实现Sp
Shockang
·
2022-09-21 14:46
大数据技术体系
spark
大数据
【SparkSQL笔记】SparkSQL的Dataset操作大全(二)
DataFrame操作大全简介说明1.Spark程序中利用SparkSession对象提供的读取相关数据源的方法读取来自不同数据源的结构化数据,转化为Dataset(DataFrame),当然也可以将现成
RDDs
sdut菜鸟
·
2022-09-09 09:25
Spark
SparkSQL
spark
大数据
Spark RDD 论文详解(二)
RDDs
前言本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系目录SparkRDD论文详解(一)摘要和介绍SparkRDD论文详解(二)RDDsSparkRDD论文详解(三)Spark编程接口SparkRDD论文详解(四)表达RDDsSparkRDD论文详解(五)实现Sp
Shockang
·
2022-07-20 18:21
大数据技术体系
spark
big
data
大数据
2020-12(完成事项)
12.2×1.分析spark中的执行流程√2.shuffleRDD的学习(计划于12.04-12.05学习)√12.33.分析spark源码√4.scala中的高级方法博客的书写√12.4-12.55.
RDDS
隐约喜欢萌萌哒
·
2022-02-18 07:39
大数据开发技术之Spark Job物理执行解析
一个直观想法是将前后关联的
RDDs
组成一个stage,大数据培训每个箭头生成一个task。对于两个RDD聚合成一个RDD的情况,这三个RDD组成一个stage。这样虽然可以解决问题,但显然效率不高。
·
2021-09-24 10:59
大数据spark
SparkSQL数据源之通用加载/保存方法/JSON文件/Parquet文件/JDBC
一个DataFrame可以进行
RDDs
方式的操作,也可以被注册为临时表。把DataFrame注册为临时表之后,就可以对该DataFrame执行SQL查询。
大数据小同学
·
2021-06-08 11:44
spark streaming 窗口操作 和join 操作
下图展示了滑动窗口image.png如图所示,每当窗口在输入数据流上滑动一次,在这个窗口内的源
RDDs
就会被聚合和操作然后产生基于窗口流的
RDDs
。
pcqlegend
·
2021-05-16 19:48
RDDs
并行集合 外部数据集
可伸缩的分布式数据集ResilientDistributedDatasets(
RDDs
)原文地址:http://spark.apache.org/docs/latest/programming-guide.html
希尔大
·
2021-05-16 19:17
Spark机器学习API之特征处理(二)
Spark机器学习库中包含了两种实现方式,一种是spark.mllib,这种是基础的API,基于
RDDs
之上构建,另一种是spark.ml,这种是higher-levelAPI,基于DataFrames
Alukar
·
2021-05-06 11:15
Spark系列--SparkSQL(六)数据源
一个DataFrame可以进行
RDDs
方式的操作,也可以被注册为临时表。把DataFrame注册为临时表之后,就可以对该DataFrame执行SQL查询。SparkSQL的默认数据源为P
淡淡的倔强
·
2020-09-15 13:47
Spark
Apache Spark数据分析教程(二):Spark SQL
在本Spark序列教程的第一部分,我们已经对Spark进行了介绍,讲解了Spark的历史,详细解释了用于在Spark集群中进行数据分片存储的弹性分布式数据集(
RDDs
)并对ApacheSpark的生态系统进行了介绍
五柳-先生
·
2020-09-15 13:36
大数据-离线计算-Spark
SparkSQL数据源
一个DataFrame可以进行
RDDs
方式的操作,也可以被注册为临时表。把DataFrame注册为临时表之后,就可以对该DataFrame执行SQL查询。
不稳定记忆
·
2020-09-15 12:52
Spark
SparkSQL数据源
Spark中文手册-编程指南
RDDs
从Hadoop的文件系统中的一个文件中创建而来(或其他Hadoop支持的文件系统),
layne_liang
·
2020-09-15 02:02
Spark
Spark RDD编程指南(初学)
SparkRDD编程指南1.总览2.与Spark链接3.初始化Spark4.弹性分布式数据集(
RDDs
)4.1并行化集合4.2外部数据集4.3RDD算子4.3.1基础4.3.2将函数传给Spark4.3.3
Zhouxk96
·
2020-09-14 02:03
spark 数据框转 pandas 数据框 分布式
importpandasaspddef_map_to_pandas(
rdds
):return[pd.DataFrame(list(
rdds
))]deftopas(df,n_partitions=None
我是女孩
·
2020-09-12 20:04
大数据spark
SparkStreaming之DStream operations
TransformationsonDStreams和
RDDs
一样,各种转换允许数据从inputDstream得到之后进行各种改造。
legotime
·
2020-09-11 22:21
SparkStreaming
Spark流编程指引(五)-----------------------------DStreams上的转换操作
与
RDDs
类似,转换操作允许对来自输入DStreams的数据进行修改。DStreams支持许多在通常SparkRDD上的转换操作。
self-motivation
·
2020-09-11 21:02
大数据
DStream之转换操作(Transformation)
与
RDDs
类似,转换允许修改输入DStream中的数据。DStreams支持许多在普通SparkRDD上可用的转换算子。
天ヾ道℡酬勤
·
2020-09-11 21:28
spark
spark
Spark基础
内部定义了
RDDs
(弹性分布式数据集)。提供了很多APIs来创建和操作这些
RDDs
。为其它场景提供了底层的服务SparkSQL:是Spark处理结构化数据的库,就像HiveSQL,Mysql一样。
班得瑞的猫
·
2020-08-25 17:11
spark
SparkSQL数据源之通用加载/保存方法/JSON文件/Parquet文件/JDBC
一个DataFrame可以进行
RDDs
方式的操作,也可以被注册为临时表。把DataFrame注册为临时表之后,就可以对该DataFrame执行SQL查询。
大数据小同学
·
2020-08-23 03:49
#
SparkSql
数据库
mysql
hive
大数据
java
KeyValue对
RDDs
之combineByKey函数
一combineByKey()(createCombiner,mergeValue,mergeCombiners,partitioner)最常用的基于key的聚合函数,返回的类型可以与输入类型不一样许多基于key的聚合函数都用到了它,向groupByKey()二combineByKey工作原理遍历parition中的元素,元素的key,要么之前见过的,要么没见过。如果是新元素,使用我们提供的cre
cakincheng
·
2020-08-23 01:33
Spark
Spark
Spark编程指南(一)
Spark提出的抽象概念主要是一个弹性分布式数据集(resilientdistributeddatasets,
RDDs
),它是一
门下平章
·
2020-08-22 03:17
python
上一页
1
2
3
4
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他