E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
sparkrdd
Spark--Spark RDD与Dataframe/Datasets对比学习
RDD知识点总结五大特性,宽窄依赖等详见连接:https://www.jianshu.com/p/592b985c443cSpark--
SparkRDD
知识点总结总结来说:•RDD是一个懒执行的不可变的可以支持
李小李的路
·
2020-02-22 07:23
Spark相关文章索引(2)
基本常识Spark2.0时代全面到来——2.0.1版本发布Spark生态系统中的图数据分析知识算法架构Spark任务调度流程及调度策略分析
Sparkrdd
转换过程Spark计算过程分析可靠保证华为叶琪:
司小幽
·
2020-02-19 04:13
Spark SQL 相关
与
SparkRDD
不同的是,SparkSQL提供数据的结构信息(源数据)和性能更好,可以通过SQL和DataSetAPI与SparkSQL进行交互。
一生逍遥一生
·
2020-02-13 14:27
任务中如何确定spark分区数、task数目、core个数、worker节点个数、excutor数量
1、任务中如何确定
sparkRDD
分区数、task数目、core个数、worker节点个数、excutor数量(1)hdfs上的文件的存储形式是以Block的形式存储的,每个File文件都包含了很多块,
大数据up
·
2020-02-12 15:00
Spark RDD的处理过程
闲来无事,研究一下
SparkRdd
的处理过程。
lsnl8480
·
2020-02-05 11:38
Spark Shuffle原理、Shuffle操作问题解决和参数调优
端操作1.1.2reducetask端操作1.2spark现在的SortShuffleManager2.Shuffle操作问题解决2.1数据倾斜原理2.2数据倾斜问题发现与解决2.3数据倾斜解决方案3.
sparkRDD
尼小摩
·
2020-01-06 10:07
Spark--Spark求分组TopN(RDD及SQL方式)面试必问
SparkRDD
方式求topN详见代码:测试数据:aa49bb11cc34aa22bb67cc29aa36bb33cc30aa11bb44cc49
SparkRDD
代码packagecn.ted.secondarySortimportorg.apache.spark.SparkContextimportorg.apache.spark.rdd.RDDimportorg.apache.spark.sq
李小李的路
·
2019-12-30 18:38
22list[听风居士]14.spark RDD解密 -
www.cnblogs.com/zhouyf/p/5424158.html16.RDD实战-听风居士-博客园http://www.cnblogs.com/zhouyf/p/5424783.html14.
sparkRDD
葡萄喃喃呓语
·
2019-12-21 23:39
Spark中shuffle原理及参数调优
1.1.1maptask端操作1.1.2reducetask端操作1.2spark现在的SortShuffleManager2Shuffle操作问题解决2.1数据倾斜原理2.2数据倾斜问题发现与解决2.3数据倾斜解决方案3
sparkRDD
liuzx32
·
2019-12-20 01:30
剖析Spark数据分区之Spark RDD分区
本文来自OPPO互联网技术团队,是《剖析Spark数据分区》系列文章的第二篇,将重点分析
SparkRDD
的数据分区。该系列共分3篇文章,欢迎持续关注。
OPPO互联网技术
·
2019-12-16 21:27
spark
大数据
DL4J中文文档/DataVec/运算
加载数据到Spark如果你正在使用ApacheSpark,函数将迭代数据集并加载它到一个
SparkRDD
里并把原始数据转换为一个Writable。
hello风一样的男子
·
2019-12-15 17:00
大数据常见面试题目
每天在在技术群里沉水,搜刮些面试题目,留作备用~1.简述对大数据组件:Yarn,Spark,Hbase,Hive的理解2.hdf文件系统中Namenode和DataNode区别和联系3.请描述
SparkRDD
嘿嘿海海
·
2019-12-15 13:41
[译]Spark Streaming编程指南(三)
DStream支持很多
SparkRDD
上的转换。常用的转换如下。转换含义map(func)将源DStream中的每个元素传给函数func,返回新的DStream。
steanxy
·
2019-12-12 07:30
Spark盖中盖(一篇顶五篇)-2 RDD算子详解
真正使RDD完成计算优化的,就是今天我们要讲到的
sparkRDD
的另一个重要组成部分RDD算子。一、RDD算子的定义我给RDD算子的定义是:用来生成或处理RDD的方法叫做RDD算子。
HxLiang
·
2019-11-30 22:04
PySpark读取Mysql数据到DataFrame!
Spark版本:2.1Python版本:2.7.12了解了
SparkRDD
之后,小编今天有体验了一把SparkSQL,使用SparkSQL时,最主要的两个组件就是DataFrame和SQLContext
文哥的学习日记
·
2019-10-31 13:02
Flink的基本概念与架构
第二代大数据处理方案:
SparkRDD
静态批处理、SparkStreaming(DStream)实时流计算(实时性差),统一的计算引擎难度小。第三代大数据处理方案:ApacheFlinkDat
fql123455
·
2019-10-14 18:33
Flink实时计算
MongoDB Spark Connector 实战指南
高性能,官方号称100xfaster,因为可以全内存运行,性能提升肯定是很明显的简单易用,支持Java、Python、Scala、SQL等多种语言,使得构建分析应用非常简单统一构建,支持多种数据源,通过
SparkRDD
wefeng
·
2019-10-03 05:00
JavaIO模型--装饰者模式
JavaIO体现出装饰者的设计模式今天在学
SparkRDD
之前,听了一堂复习JavaIO的课,觉得讲得不错Java的IO一直让我觉得一层一层的很麻烦,刚接触的时候,理不太清楚只知道要分解为输入输出流和处理流
mussessein
·
2019-10-01 17:00
SparkRDD
之弹性分布式数据集RDD
2.RDD概述2.1什么是RDDRDD(ResilientDistributedDataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将数据缓存在内存中,后续的查询能够重用这些数据,这极大地提升了查询速度。Dataset:一个数据
qq5d3e5bae55f08
·
2019-09-19 09:02
SparkRDD
操作经验
关于“_”的用法可以指代集合中的每一个元素//筛选出可以被2整除的数a.filter(_%2==0).map(2*_)注:在reduceByKey中指代的是键值对中的值参考:https://blog.csdn.net/a627082796/article/details/87880558cache()方法将某些经过了复杂计算得到的RDD存入缓存中,避免下次调用时重复计算//将userInfomat
Levy_Y
·
2019-07-19 09:31
大数据
SparkRDD
操作经验
关于“_”的用法可以指代集合中的每一个元素//筛选出可以被2整除的数a.filter(_%2==0).map(2*_)注:在reduceByKey中指代的是键值对中的值参考:https://blog.csdn.net/a627082796/article/details/87880558cache()方法将某些经过了复杂计算得到的RDD存入缓存中,避免下次调用时重复计算//将userInfomat
Levy_Y
·
2019-07-19 09:31
大数据
sparkRDD
-ApacheSpark背景介绍Spark是一个快如闪电的统一分析引擎(计算框架)用于大规模数据集的处理。Spark在做数据的批处理计算,计算性能大约是HadoopMapReduce的10~100倍,因为Spark使用比较先进的基于DAG任务调度,可以将一个任务拆分成若干个阶段,然后将这些阶段分批次交给集群计算节点处理。MapReduceVSSparkMapReduce作为第一代大数据处理框架,在
婲落ヽ紅顏誶
·
2019-07-05 09:45
spark
Spark之RDD容错原理及四大核心要点
一、
SparkRDD
容错原理RDD不同的依赖关系导致Spark对不同的依赖关系有不同的处理方式。
|旧市拾荒|
·
2019-06-22 21:00
Spark常见算子
这里,从源码的角度总结一下
SparkRDD
算子的用法。
Icesuns
·
2019-06-10 00:05
spark
Spark每日半小时(5)——持久化(缓存)
如前所述,
SparkRDD
是惰性求值的,而有时我们希望能多次使用同一个RDD。如果简单地对RDD调用行动操作,Spark每次都会重算RDD以及它的所有依赖。
DK_ing
·
2019-06-03 10:52
#
大数据——Spark每日半小时
#
Spark每日半小时
Spark每日半小时(5)——持久化(缓存)
如前所述,
SparkRDD
是惰性求值的,而有时我们希望能多次使用同一个RDD。如果简单地对RDD调用行动操作,Spark每次都会重算RDD以及它的所有依赖。
DK_ing
·
2019-06-03 10:52
#
大数据——Spark每日半小时
#
Spark每日半小时
3.4.1 Spark RDD - 概念与简单理解
SparkRDD
是Spark中的核心理念。
Orange_Spotty_Cat
·
2019-04-09 14:16
数据分析与挖掘框架
大数据
Spark RDD详解
SparkRDD
在Spark中RDD具有5个主要的属性:AlistofpartitionsAfunction(compute)tocomputingeachsplit(partation)AlistofdependenciesonotherRDDsOptionally
由木人_番茄
·
2019-03-24 16:26
Spark RDD计算机制剖析
对
SparkRDD
来说莫不如此,下面让我们来看看它在物理层的另一面。首先,我们来回顾下RDD在逻辑层的表象,无非这几点,了解Spa
天外有菌
·
2019-03-17 15:48
Distributed
computing
Spark on Hive 和 Hive on Spark的区别
这里可以理解为Spark通过SparkSQL使用Hive语句操作Hive表,底层运行的还是
SparkRDD
。
henrrywan
·
2019-03-08 09:43
Hive
7.Spark Core 应用解析之RDD检查点机制
SparkRDD
检查点机制Spark中对于数据的保存除了持久化操作之外,还提供了一种检查点的机制,类似于快照,就是将DAG中比较重要的中间数据做一个检查点将结果存储到一个高可用的地方(通常这个地方就是HDFS
HG_Harvey
·
2019-02-28 20:53
Spark
Spark
将string类型的数据类型转换为spark rdd时报错的解决方法
在将string类型的数据类型转换为
sparkrdd
时,一直报这个错,StructTypecannotacceptobject%rintype%s”%(obj,type(obj)))...s=str(tree
gavenyeah
·
2019-02-18 09:57
Spark SQL Dataset 常用API 一
TransformationUntypedAPI首先啰嗦一句,SparkSQLDataset中主要分为Transformation和Action两种API(这个特性沿用了
SparkRDD
的特性,其中的Transformation
Brad_Q1
·
2019-02-17 10:55
大数据
spark
SparkRDD
函数详解(二)--RDD动作操作函数
相对于转换,动作(Action)操作用于向驱动(Driver)程序返回值或者将值写入到文件当中。reduce(func):通过func函数聚集RDD中的所有元素,这个功能必须是可交换且可并联的valrdd1=sc.makeRDD(1to10,2)rdd1.reduce(_+_)valrdd2=sc.makeRDD(Array(("a",1),("a",3),("c",3),("d",5)))r
KevinWDong
·
2019-01-19 22:06
spark
rdd
SparkRDD
函数详解(一)--RDD转换函数
1.什么是RDD RDD(ResilientDistributedDataset),弹性分布式数据集,Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。在Spark中,对数据的所有操作不外乎创建RDD、转化已有RDD以及调用RDD操作进行求值。每个RDD都被分为多个分区,这些分区运行在集群中的不同节点上。RDD可以包含Python、Java、Scala中任意类型
KevinWDong
·
2019-01-17 21:37
spark
spark中job、stage、task、partition、executor概念理解以及分区数深入探究
概念1.job定义:我们都知道,在
sparkrdd
中,有action、transform操作,当真正触发action时,才真正执行计算,此时产生一个job任务。
spark大数据玩家
·
2018-12-21 00:07
spark
Spark写数据到kafka
sparkRDD
只能通过原生API去写。不是sparkstreaming哦。导maven包:这一步不能复制粘贴,要看看你机器的kafka版本是多少。
qq_33872191
·
2018-12-12 19:01
业务需求
sparkRDD
函数详解
1.RDD操作详解启动spark-shellspark-shell--masterspark://node-1:70771.1基本转换1)mapmap是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。任何原RDD中的元素在新RDD中都有且只有一个元素与之对应。举例:scala>vala=sc.parallelize(1to9,3)scala>valb=a.map(x=>x*2)sca
CoderBoom
·
2018-12-02 22:17
大数据
spark
sparkRDD
函数详解
1.RDD操作详解启动spark-shellspark-shell--masterspark://node-1:70771.1基本转换1)mapmap是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。任何原RDD中的元素在新RDD中都有且只有一个元素与之对应。举例:scala>vala=sc.parallelize(1to9,3)scala>valb=a.map(x=>x*2)sca
CoderBoom
·
2018-12-02 22:17
大数据
spark
Spark学习笔记——1
一、Spark简介1、Spark:完全基于Hadoop的一种计算框架2、计算框架——》适用场景:
SparkRDD
——》离线批处理SparkCore——》流式计算SparkSQL——》交互式查询(基于Hive
Mr_Effiya
·
2018-11-21 10:24
Spark
spark 分区 提交 调优
转自:https://blog.csdn.net/u014384314/article/details/80797385一
sparkRDD
分区原则在Spark的Rdd中,Rdd默认是分区的。
jin6872115
·
2018-10-11 17:28
Spark
Spark笔记整理(十三):RDD持久化性能测试(图文并茂)
[TOC]1前言其实在之前的文章《Spark笔记整理(五):
SparkRDD
持久化、广播变量和累加器》中也有类似的测试,不过当时做的测试仅仅是在本地跑代码,并以Java/Scala代码通过设置开始时间和结束时间的方式来进行统计测试
xpleaf
·
2018-10-01 15:07
Spark
RDD持久化
性能测试
Spark
SparkJavaAPI:join的使用
publicclassSparkRDDDemo{publicstaticvoidmain(String[]args){SparkConfconf=newSparkConf().setAppName("
SparkRDD
hellozhxy
·
2018-08-31 17:42
spark
Spark简介以及Spark standalone的搭建
.速度:在迭代循环的计算模型下,spark比Hadoop快100倍; b.易用性:spark提供多种语言的API,如Java、Python、Scala、R、SQL等 c.扩展性:在
sparkRDD
Aime_Perfect
·
2018-08-27 14:41
Spark
Spark GraphX图计算框架原理概述
转发请标明原文地址:原文地址概述GraphX是Spark中用于图和图计算的组件,GraphX通过扩展
SparkRDD
引入了一个新的图抽象数据结构,一个将有效信息放入顶点和边的有向多重图。
不清不慎
·
2018-08-24 13:59
Spark
Apache Spark 2.2.0 中文文档 - Spark RDD(Resilient Distributed Datasets)
SparkRDD
(ResilientDistributedDatasets)论文概要1:介绍2:ResilientDistributedDatasets(RDDs)2.1RDD抽象2.2Spark编程接口
GameOverTryAgain
·
2018-08-19 12:48
SparkJava
Spark RDD和DataSet与DataFrame转换成RDD
SparkRDD
和DataSet与DataFrame转换成RDD一、什么是RDDRDD是弹性分布式数据集(resilientdistributeddataset)的简称,是一个可以参与并行操作并且可容错的元素集合
leboop
·
2018-08-10 15:18
Spark
大数据
Spark RDD和DataSet与DataFrame转换成RDD
SparkRDD
和DataSet与DataFrame转换成RDD一、什么是RDDRDD是弹性分布式数据集(resilientdistributeddataset)的简称,是一个可以参与并行操作并且可容错的元素集合
leboop
·
2018-08-10 15:18
Spark
大数据
sparkRDD
SparkRDD
:RDD(弹性分布式数据集)RDD是spark提供的核心抽象,在抽象的意义上来说是一种元素集合,包含了数据。他是被分区的,分为多个分区。
她的吉他
·
2018-07-27 15:54
Spark RDD操作总结
SparkRDD
操作可以分为2种:1.转换(transformation)通过原有RDD生成一个新的RDD,转换不会立即执行,直到下一次action具体有以下函数:map(func):对调用RDD种的每个元素使用
脉脉此情
·
2018-05-13 22:05
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他