E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
RDDs
Spark Streaming vs. Structured Streaming
提供了基于
RDDs
的DstreamAPI,每个时间间隔内的数据为一个RDD,源源不断对RDD进行处理来实现流计算StructuredStreamingSpark2.X出来的流框架,采用了无界表的概念,流数据相当于往一个表上不断追加行
upupfeng
·
2019-12-22 12:00
Spark Streaming vs. Structured Streaming
提供了基于
RDDs
的DstreamAPI,每个时间间隔内的数据为一个RDD,源源不断对RDD进行处理来实现流计算StructuredStreamingSpark2.X出来的流框架,采用了无界表的概念,流数据相当于往一个表上不断追加行
upupfeng
·
2019-12-22 12:00
Introduction to
RDDs
ChallengeofExistingSystems:Existingin-memorystoragesystemshaveinterfacesbasedonfine-grainedupdates.Requiredreplicatedataorlogsacrossnodesforfaulttolerance,whichisexpensive.Howtodesignadistributedmemor
BlueSkyBlue
·
2019-11-28 08:06
Apache Spark 2.2.0 中文文档 - Spark 编程指南 | ApacheCN
Spark编程指南概述Spark依赖初始化Spark使用Shell弹性分布式数据集(
RDDs
)并行集合外部Datasets(数据集)RDD操作基础传递Functions(函数)给Spark理解闭包示例Local
片刻_ApacheCN
·
2019-11-28 06:18
Apache Spark 2.2.0 中文文档 - Spark 编程指南 | ApacheCN
Spark编程指南概述Spark依赖初始化Spark使用Shell弹性分布式数据集(
RDDs
)并行集合外部Datasets(数据集)RDD操作基础传递Functions(函数)给Spark理解闭包示例Local
Joyyx
·
2019-11-28 05:29
Spark the definitive guide Chapter12实验报告
【实验名称】Chapter12弹性分布数据集(
RDDs
)**什么是底层api****如何使用底层api****关于RDD的定义及特点****创建RDD**转换(Transformations)**action
Jeremy-Cheng
·
2019-10-07 20:43
大数据
spark
guide
大数据
Spark学习08——RDD、DataFrame 和 Dataset
原文链接:https://www.infoq.cn/article/three-apache-spark-apis-
rdds
-dataframes-and-datasets弹性分布式数据集(ResilientDistributedDataset
lishengping_max
·
2019-09-19 14:24
RDD
DataFrame
Dataset
Spark
Spark 系列(三)—— 弹性式数据集
RDDs
弹性式数据集
RDDs
一、RDD简介RDD全称为ResilientDistributedDatasets,是Spark最基本的数据抽象,它是只读的、分区记录的集合,支持并行操作,可以由外部数据集或其他RDD
heibaiying
·
2019-09-18 08:26
Spark
Spark
Spark 系列(三)—— 弹性式数据集
RDDs
一、RDD简介RDD全称为ResilientDistributedDatasets,是Spark最基本的数据抽象,它是只读的、分区记录的集合,支持并行操作,可以由外部数据集或其他RDD转换而来,它具有以下特性:一个RDD由一个或者多个分区(Partitions)组成。对于RDD来说,每个分区会被一个计算任务所处理,用户可以在创建RDD时指定其分区个数,如果没有指定,则默认采用程序所分配到的CPU的
黑白影
·
2019-08-08 17:00
4. Spark SQL数据源
一个DataFrame可以进行
RDDs
方式的操作,也可以被注册为临时表。
铖歌
·
2019-07-26 09:00
Spark | RDD编码
RDDs
创建valrdd=sc.parallelize(Array(1,2,3,4),4)rdd.count()rdd.foreach(print)rdd.foreach(println)valrdd=
icebreakeros
·
2019-07-06 14:08
Spark SQL常见4种数据源详解
一个DataFrame可以进行
RDDs
方式的操作,也可以被注册为临时表。把DataFrame注册为临时表之后,就可以对该DataFrame执行SQL查询。
Stitch_x
·
2019-06-25 08:38
Spark SQL常见4种数据源(详细)
一个DataFrame可以进行
RDDs
方式的操作,也可以被注册为临时表。把DataFrame注册为临时表之后,就可以对该DataFrame执行SQL查询。
Stitch_x
·
2019-06-21 10:26
Spark
SQL
Spark
spark
Spark之 RDD && Transformation && Action
ResilientDistributedDatasets(
RDDs
)Sparkrevolvesaroundtheconceptofaresilientdistributeddatase
MrZhangBaby
·
2019-03-08 11:24
大数据
Spark
SparkSql读取pgxl数据缓存到Alluxio再计算
http://www.alluxio.com/blog/effective-spark-
rdds
-with-alluxioSpark的RDD本身数据就是存储到内存,但是如果数据量超大sparkcache
DPnice
·
2018-12-28 18:19
spark
Alluxio
RDD特征
文档:http://spark.apache.org/docs/latest/rdd-programming-guide.html#resilient-distributed-datasets-
rdds
maya_data
·
2018-12-12 19:07
Spark SQL中
RDDs
转化为DataFrame(详细全面)
除了调用SparkSesion.read().json/csv/orc/parqutjdbc方法从各种外部结构化数据源创建DataFrame对象外,SparkSQL还支持将已有的RDD转化为DataFrame对象,但是需要注意的是,并不是由任意类型对象组成的RDD均可转化为DataFrame对象,只有当组成RDD[T]的每一个T对象内部具有公有且鲜明的字段结构时,才能隐式或显式地总结出创建Data
大鱼-瓶邪
·
2018-11-04 12:32
Spark
SparkSQL-数据源
一个DataFrame可以进行
RDDs
方式的操作,也可以被注册为临时表。把DataFrame注册为临时表之后,就可以对该DataFrame执行SQL查询。
Anbang713
·
2018-08-21 08:33
大数据/Spark/Spark
SQL
Apache Spark 2.2.0 中文文档 - Spark RDD(Resilient Distributed Datasets)
SparkRDD(ResilientDistributedDatasets)论文概要1:介绍2:ResilientDistributedDatasets(
RDDs
)2.1RDD抽象2.2Spark编程接口
GameOverTryAgain
·
2018-08-19 12:48
SparkJava
Spark DataFrame及RDD与DataSet转换成DataFrame
DataFrame可以从非常宽泛的数据源中的构建,比如结构化的数据文件,Hive中的表,外部数据库,或者已经创建好的
RDDs
等等。在Scala和Java中,DataFrame由行数据集表示。
leboop
·
2018-08-10 21:50
Spark
大数据
spark streaming实时流式处理wordcount,数据写出到redis
SparkStreaming是spark的一个组件,可以对实时流式数据进行数据处理,数据的基本操作对象是DStream.DStream是一系列的
RDDs
。
自由幻想的人儿
·
2018-02-01 23:19
spark
stremaing
spark 对
RDDs
的基础操作 整理
写在前面:学习spark有近一个月,暂时补充
RDDs
算子方面的知识,每周日更新!加油!
一只有梦想的咸鱼
·
2017-12-24 18:24
scala
spark 对
RDDs
的基础操作 整理
写在前面:学习spark有近一个月,暂时补充
RDDs
算子方面的知识,每周日更新!加油!
一只有梦想的咸鱼
·
2017-12-24 18:24
scala
Spark DataFrame与RDD互操作
DataFrame与RDD的互操作1.SparkSQL支持将现有的
RDDs
转换为数据集的两种不同的方法。第一个方法使用反射来推断一个包含特定对象类型的RDD的模式。
zghgchao
·
2017-12-23 10:37
spark
DataFrame
Spark RDD知识点汇总
什么是RDDRDD的优点不适合
RDDs
的应用如何创建RDDRDD的属性分区-Partition分区器-Partitioner分区处理函数-compute依赖关系-Dependency优先位置列表-preferedLocation
落枫寒2017
·
2017-11-21 21:45
Spark
Spark 2017欧洲技术峰会摘要(开发人员分类)
下载全部视频和PPT,请关注公众号(bigdata_summit),并点击“视频下载”菜单ATaleofThreeApacheSparkAPIs:
RDDs
,DataFrames,andDatasetsbyJulesDamji
大数据技术峰会解读
·
2017-11-08 12:47
Apache Spark 2.2.0 中文文档 - Spark RDD(Resilient Distributed Datasets)论文 | ApacheCN
SparkRDD(ResilientDistributedDatasets)论文概要1:介绍2:ResilientDistributedDatasets(
RDDs
)2.1RDD抽象2.2Spark编程接口
Joyyx
·
2017-09-21 16:35
Apache Spark 2.2.0 中文文档 - Spark RDD(Resilient Distributed Datasets)论文 | ApacheCN
SparkRDD(ResilientDistributedDatasets)论文概要1:介绍2:ResilientDistributedDatasets(
RDDs
)2.1RDD抽象2.2Spark编程接口
片刻_ApacheCN
·
2017-09-20 21:44
Spark之核心---
RDDs
(2)
前言在第一章,已经介绍过了
RDDs
的基本概念,创建方法和特性。那么在本章将介绍RDD的基本操作方法。
coder_Gray
·
2017-08-15 16:37
大数据
分布式应用
Spark之核心---
RDDs
(1)
本篇将介绍Spark的核心—
RDDs
的基本概念,创建方法和
RDDs
的特性三个部分。
RDDs
的操作方法将在下一篇具体介绍。
coder_Gray
·
2017-08-14 18:04
大数据
分布式应用
Spark
RDDs
vs DataFrames vs SparkSQL
简介Spark的RDD、DataFrame和SparkSQL的性能比较。2方面的比较单条记录的随机查找aggregation聚合并且sorting后输出使用以下Spark的三种方式来解决上面的2个问题,对比性能。UsingRDD’sUsingDataFramesUsingSparkSQL数据源在HDFS中3个文件中存储的9百万不同记录每条记录11个字段总大小1.4GB实验环境HDP2.4Hadoo
yrgw
·
2017-07-11 10:13
spark
Spark 大规模机器学习官方文档 - 中文翻译
Overview)2引入Spark(LinkingwithSpark)3初始化Spark(InitializingSpark)3.1使用SparkShell(UsingtheShell)4弹性分布式数据集(
RDDs
我不是九爷
·
2017-07-03 11:15
Spark官方文档
-
中文翻译
最新Spark编程指南Python版[Spark 1.3.0][译]
目录概述链接Spark初始化Spark使用Shell弹性分布式数据集(
RDDs
)并行化集合外部数据集RDD操作基本操作Spark回调函数使用Key-Value对转换(Transformations)动作
Lucky-zhou
·
2017-04-14 15:21
spark
Spark
RDDs
vs DataFrames vs SparkSQL
简介Spark的RDD、DataFrame和SparkSQL的性能比较。2方面的比较单条记录的随机查找aggregation聚合并且sorting后输出使用以下Spark的三种方式来解决上面的2个问题,对比性能。UsingRDD’sUsingDataFramesUsingSparkSQL数据源在HDFS中3个文件中存储的9百万不同记录每条记录11个字段总大小1.4GB实验环境HDP2.4Hadoo
阿凡卢
·
2017-02-14 15:00
Spark (Python版) 零基础学习笔记(五)—— Spark
RDDs
编程
2.更通用的方法是从外部存储系统上加载数据创建RDDSpark支持两种
RDDs
操作:Tra
哇哇小仔
·
2016-11-29 11:47
Python
spark
pyspark
大数据
通过Spark结合使用Hive和ORC存储格式
SparkAPI交互式地分析数据集4.如何创建Hive的ORC格式的表5.如何使用SparkSQL查询Hive表6.如何以ORC格式存储数据SparkSQL使用Spark引擎对存储在HDFS或者存在的
RDDs
Free World
·
2016-09-19 16:42
Spark
sparksql DataSet和DataFrame
Dataset是Spark1.6新增的接口,用以提供
RDDs
(强类型,有使用强大的lambda函数的能力)的优点和SparkSQL的经优化的执行引擎的优点。
felix_feng
·
2016-08-23 17:17
SparkStreaming之DStream operations
TransformationsonDStreams 和
RDDs
一样,各种转换允许数据从inputDstream得到之后进行各种改造。
legotime
·
2016-07-06 07:00
源码
spark
SparkStreaming
spark机器学习
spark RDD的5个重要内部属性
RDDs
接口的五个属性下表总结了
RDDs
的五个属性:上述属性可以概括为几个方面:一组分区,表示数据集包含的分片;一组依赖关系,指向其父RDD;一个函数,基于父RDD进行计算;以及划分策略和数据位置相关的元数据
平凡de世界
·
2016-06-13 09:24
spark学习
学习spark:五、Spark SQL, DataFrames and Datasets Guide
SQLDataFramesDatasetsGettingStartedStartingPoint:SQLContextDataFrame创建DataFramesDataFrame操作执行SQL查询Dataset创建Datasets与
RDDs
earl211
·
2016-06-06 17:13
Spark
数据挖掘
spark原理详解
/p/4ff6afbbafe4https://endymecy.gitbooks.io/spark-programming-guide-zh-cn/content/programming-guide/
rdds
江北子矜
·
2016-06-03 01:25
spark
第8课:Spark Streaming源码解读之RDD生成全生命周期彻底研究和思考
然后将RDD存储到DStream中的generatedRDDs数据结构中://
RDDs
generated, marked as private[streaming] so that testsuites
lqding1980
·
2016-05-14 21:22
Job
Streaming
RDD
Spark源码定制课程
第8课:Spark Streaming源码解读之RDD生成全生命周期彻底研究和思考
然后将RDD存储到DStream中的generatedRDDs数据结构中://
RDDs
generated, marked as private[streaming] so that testsuites
lqding1980
·
2016-05-14 21:22
job
RDD
Streaming
Spark MLlib学习(一)数据类型 Data Types
分为两个部分:spark.mllib基于
RDDs
的原有APIspark.ml提供了基于DataFrame的高水平API用于建立MLpipelines推荐使用spark.ml(基于DataFrame的API
myy1012010626
·
2016-05-11 18:00
spark
机器学习
Spark中文手册1-编程指南
2.有哪几种方式创建
RDDs
?
wanmeilingdu
·
2016-05-09 21:00
spark
Spark官方文档 - 中文翻译
Overview)2引入Spark(LinkingwithSpark)3初始化Spark(InitializingSpark)3.1使用SparkShell(UsingtheShell)4弹性分布式数据集(
RDDs
BYRans
·
2016-03-18 16:00
Spark官方文档 - 中文翻译
Overview)2引入Spark(LinkingwithSpark)3初始化Spark(InitializingSpark)3.1使用SparkShell(UsingtheShell)4弹性分布式数据集(
RDDs
BYRans
·
2016-03-18 16:00
【Spark Java API】Transformation(1)—mapPartitions、mapPartitionsWithIndex
**mapPartitions函数会对每个分区依次调用分区函数处理,然后将处理的结果(若干个Iterator)生成新的
RDDs
。
小飞_侠_kobe
·
2016-02-01 20:35
5.Spark之简介GraphX
你可以将图和集合视为一种数据,通过使用
RDDs
来有效的传输和合并图,利用PregelAPI来编写自定义的交互图算法。速度:性能无可比拟的专业图形处理系统。
鞋底留个洞
·
2016-01-27 14:00
spark 不支持 嵌入
RDDs
or 用户定义的函数 that refer to other
RDDs
【未完待续】
sparkdoesnotsupportnestedRDDsoruser-definedfunctionsthatrefertootherRDDs
power0405hf
·
2016-01-06 15:00
scala
spark
上一页
1
2
3
4
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他