E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
sparkrdd
spark 基础二:RDD操作和持久化
SparkRDD
操作Spark支持两种RDD操作,transformation和action。
张凯_9908
·
2022-02-08 14:49
Scala 通过读取HDFS上的文件创建
SparkRDD
出现的问题
一、Couldnotlocateexecutablenull\bin\winutils.exeintheHadoopbinaries.如果本机操作系统是Windows,如果在程序中使用了Hadoop相关的东西,比如写入文件到HDFS,则会遇到该异常出现这个问题的原因,并不是程序的错误,而是用到了hadoop相关的服务,解决办法:1、在本机上解压对应版本的hadoop压缩包不太清楚别的版本压缩包行不
我在燕京有把刀
·
2021-11-19 15:57
大数据
hadoop
spark
什么是 Spark RDD ?
RDD示意图:RDD的五个主要特性分区列表
SparkRDD
是被分区的,每一个分区都会被一个计算任务(Task)处理,分区数决定了并行计算的数量,RDD的并行度默认从父RDD传给子RDD。默认情
光剑书架上的书
·
2021-09-18 01:43
Spark GraphX图计算框架原理概述
【转载】原文地址:原文地址概述 GraphX是Spark中用于图和图计算的组件,GraphX通过扩展
SparkRDD
引入了一个新的图抽象数据结构,一个将有效信息放入顶点和边的有向多重图。
木亦汐
·
2021-06-25 19:52
02_Spark_RDD
SparkRDD
1)什么是RDDRDD(ResilientDistributedDataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合
百忍成金的虚竹
·
2021-06-20 00:32
Spark RDD在Spark中的地位和作用如何?
SparkRDD
的核心原理1、Spark的核心概念是RDD(resilientdistributeddataset),指的是一个只读的,可分区的分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间重用
·
2021-06-18 22:57
RDD(Resilient Distributed Datasets)
SparkRDD
:fault-tolerantcollectionofelementsthatcanbeoperatedoninparallel.twotypes:parallelizedcollections
朱小虎XiaohuZhu
·
2021-06-14 07:35
通过JDBC方式将Spark RDD/DataFrame分布式写入Phoenix
背景在实际应用场景,出于安全等方面考虑,有时候大数据平台不暴露对Phoenix的zookeeperurl连接方式,本文提供一种基于jdbc的方式实现spark将
SparkRDD
/DataFrame分布式批量写入
EchelonX
·
2021-06-08 13:52
Spark案例库V1.0版
Spark案例库案例一:使用
SparkRDD
实现词频统计pom.xml文件aliyunhttp://maven.aliyun.com/nexus/content/groups/public/clouderahttps
ChinaManor
·
2021-05-24 22:32
#
Spark
大数据技术
RDD的容错机制
RDD的容错机制总结:RDD的容错机制原文:
SparkRDD
概念学习系列之RDD的容错机制(十七)RDD实现了基于Lineage的容错机制。
小小少年Boy
·
2021-04-30 03:28
Spark RDD编程初级实践
SparkRDD
编程初级实践湖工大永远滴神茂林!!!提交异常问题解决第一关数据去重第二个整合排序第三关求平均值湖工大永远滴神茂林!!!
登峰造極,永往无前。
·
2021-04-17 16:51
spark
Spark RDD编程
SparkRDD
编程概述从高层次上来看,每一个Spark应用都包含一个驱动程序,用于执行用户的main函数以及在集群上运行各种并行操作。
LuciferTM
·
2021-03-10 23:20
Spark rdd转Dataframe的三种方法
Sparkrdd
转Dataframe的三种方法数据准备RDD转Dataframe的三种方式通过RDD推断创建dataframe通过StructType创建dataframe通过定义schema类创建dataframe
test-abc
·
2020-09-17 07:02
spark
dataframe操作
SparkRDD
从6大方面详解
转自:https://blog.csdn.net/erfucun/article/details/51972225一:RDD粗粒度与细粒度粗粒度:在程序启动前就已经分配好资源(特别适用于资源特别多而且要进行资源复用)细粒度:计算需要资源是才分配资源,细粒度没有资源浪费问题。二:RDD的解密:1,分布式(擅长迭代式是spark的精髓之所在)基于内存(有些时候也会基于硬盘)特别适合于计算的计算框架2,
风是外衣衣衣
·
2020-09-16 13:15
spark
Flink
第一代:MapReduce2006年批磁盘M->R矢量|2014.9Storm诞生流延迟低/吞吐小第二代:
SparkRDD
2014.2批内存DAG(若干Stage)|使用micro-batch模拟流处理
HuiGe94v587
·
2020-09-16 12:23
Flink
BigData
Spark中的RDD是什么,有哪些特性?
partition组成的2.RDD之间具有依赖关系3.RDD作用在partition是上4.partition作用在具有(k,v)格式的数据集5.partition对外提供最佳计算位置,利于数据本地化的处理3).
SparkRDD
有风微冷
·
2020-09-16 12:20
spark
spark
RDD
spark: rdd的应用(scala api)
wordcount:统计词频,排序历年温度最值:max,min,avgpart1:
sparkrdd
之wordcountspark-shell//word.txtvarfile="/home/wang/txt
根哥的博客
·
2020-09-16 11:27
大数据hadoop-spark
spark
rdd
Spark 分区(Partition)的认识、理解和应用
SparkRDD
是一种分布式的数据集,由于数据量很大,因此要它被切分并存储在各个结点的分区当中。从而当我们对RDD进行操作时,实际上是对每个分区中的数据并行操作。
XK&RM
·
2020-09-16 06:25
Spark RDD常见的转化操作和行动操作
SparkRDD
常见的转化操作和行动操作IDEA创建scalaspark的Mvn项目:https://blog.csdn.net/u014646662/article/details/84618032spark
周天祥
·
2020-09-16 04:55
大数据
Spark
Scala
Spark算子:RDD行动Action操作(1)–first、count、reduce、collect
Spark算子:RDD行动Action操作(1)–first、count、reduce、collect关键字:Spark算子、
SparkRDD
行动Action、first、count、reduce、collectfirstdeffirst
羽翼天宇
·
2020-09-16 03:27
Spark算子系列文章
Spark中RDD、DataFrame和DataSet的区别
RDD、DataFrame和DataSet的定义在开始
SparkRDD
与DataFrame与Dataset之间的比较之前,先让我们看一下Spark中的RDD,DataFrame和Datasets的定义:
`冬虫夏草`
·
2020-09-15 11:15
spark
spark之rdd partition
概要
SparkRDD
主要由Dependency、Partition、Partitioner组成,Partition是其中之一。
明喆_sama
·
2020-09-15 03:59
spark
[Spark进阶]-- rdd详解及开发优化
sparkrdd
详解及开发优化文章英文来源:http://spark.apache.org/docs/latest/programming-guide.html一、
SparkRDD
详解1、RDD是什么?
highfei2011
·
2020-09-15 02:27
Spark
面试
SparkSql
#SparkSql##设计目的:支持
sparkRdd
和外部数据的关系处理高性能的关系数据操作易于扩展数据源,如半结构化数据,外部数据可以被其他高级算法使用如graph,machinelearning##
github_28583061
·
2020-09-15 02:49
Spark SQL介绍
官方介绍:SparkSQL是Spark处理数据的一个模块,跟基本的
SparkRDD
的API不同,SparkSQL中提供的接口将会提供给Spark更多关于结构化数据和计算的信息。
banana`
·
2020-09-15 02:27
Spark
Spark SQL介绍和特点
一:SparkSQL的简介SparkSQL是Spark处理数据的一个模块,跟基本的
SparkRDD
的API不同,SparkSQL中提供的接口将会提供给Spark更多关于结构化数据和计算的信息。
亮大兵
·
2020-09-15 02:24
【Spark】
SparkRDD
-JavaAPI开发手册(函数式编程)
文章目录GithubNote遇到的大坑!装备Core总结Github地址:https://github.com/ithuhui/hui-base-java模块:【hui-base-spark】分支:master位置:com.hui.base.spark.rddNote老实说,相比那些抄袭来抄袭去的blog,这篇RDD的JavaAPI…我是每个常用API都结合实例解释并且用了Java函数式编程写的…
java劝退师
·
2020-09-15 02:37
BigData
Spark RDD编程指南(初学)
SparkRDD
编程指南1.总览2.与Spark链接3.初始化Spark4.弹性分布式数据集(RDDs)4.1并行化集合4.2外部数据集4.3RDD算子4.3.1基础4.3.2将函数传给Spark4.3.3
Zhouxk96
·
2020-09-14 02:03
spark学习(二)RDD和DAG
一、
sparkRDD
概念RDD(ResilientDistributedDataset)叫做弹性分布式数据集,是spark中最基本也是最重要的概念之一。
沼泽鱼97
·
2020-09-14 02:30
Spark Shuffle原理和Shuffle的问题解决和优化
1.1.1maptask端操作1.1.2reducetask端操作1.2spark现在的SortShuffleManager2Shuffle操作问题解决2.1数据倾斜原理2.2数据倾斜问题发现与解决2.3数据倾斜解决方案3
sparkRDD
水墨风漾
·
2020-09-13 06:23
Spark RDD常见的转化操作和行动操作
SparkRDD
常见的转化操作和行动操作IDEA创建scalaspark的Mvn项目:https://blog.csdn.net/u014646662/article/details/84618032spark
XY_Noire
·
2020-09-13 01:31
转载
Spark
Spark
Hadoop与Spark基本原理
HadoopSparkSpark和Hadoop区别和联系Hadoop的HDFSHadoop的MapReduceSpark宽依赖和窄依赖
SparkRDD
运行过程
SparkRDD
阶段划分HadoopHadoop
宁缺100
·
2020-09-12 09:44
大数据
Spark
Hadoop
Hive
Sqoop
MapReduce
Spark流编程指引(五)-----------------------------DStreams上的转换操作
DStreams支持许多在通常
SparkRDD
上的转换操作。
self-motivation
·
2020-09-11 21:02
大数据
DStream之转换操作(Transformation)
DStreams支持许多在普通
SparkRDD
上可用的转换算子。一些常见的转换操作定义如下:map(func)通过函数func传递源DStream的每个元素来返回一个新的DStream。
天ヾ道℡酬勤
·
2020-09-11 21:28
spark
spark
Spark RDD 笛卡尔积
SparkRDD
笛卡尔积valleft=sc.parallelize(List(1,2,3))valright=sc.parallelize(List(3,4,5,6))valout=leftunionright
大数据的未来
·
2020-09-11 10:27
spark RDD ,wordcount案例解析
sparkRDD
,wordcount案例解析
sparkRDD
内存计算模型数据来源:可以从HDFS文件,Hive表,Hbase,本地磁盘,MQspark集群,RDD中的数据都是存放在worker,都分区的
张章章Sam
·
2020-09-11 07:31
土肥圆的猿
的博客专栏
Spark SQL部分简单使用详解
SparkSQL简介SparkSQL是Spark处理数据的一个模块,跟基本的
SparkRDD
的API不同,SparkSQL中提供的接口将会提供给Spark更多关于结构化数据和计算的信息。
万事于足下
·
2020-09-11 05:48
Spark
Flink学习笔记
第一代:MapReduce2006年批磁盘M->R矢量|2014.9Storm诞生流延迟低/吞吐小第二代:
SparkRDD
2014.2批内存DAG(若干Stage)|使用micro-batch模拟流处理
骚白~
·
2020-09-11 03:39
BigData
Spark RDD
SparkRDD
一、概述Atahighlevel,everySparkapplicationconsistsofadriverprogramthatrunstheuser’smainfunctionandexecutesvariousparalleloperationsonacluster.ThemainabstractionSparkprovidesisaresilientdistributed
龙龙灵
·
2020-09-11 03:55
Spark
SparkStreaming整合Redis
需求:希望在
SparkRDD
算子中访问Redis。思路:通过Broadcast变量将Redis配置信息广播到所有计算节点;通过lazy关键字实现Redis连接的延迟创建。
xianyuxiaoqiang
·
2020-08-26 09:13
大数据
SparkRDD
之combineByKey
java示例:packagecom.cb.spark.
sparkrdd
;importjava.util.ArrayList;importjava.util.Arrays;
大雄没有叮当猫
·
2020-08-23 03:00
大数据开发
sparkRDD
高级算子 combineByKey函数详解
spark中高级算子:combineByKey函数详解combineByKey函数源码如下:defcombineByKey[C](createCombiner:V=>C, //当前值作为参数,可被认为初始化操作mergeValue:(C,V)=>C, //在分区中操作,把当前的元素V合并到上次结果的C中mergeCombiners:(C,C)=>C):RDD[(K,C)]
chak_16
·
2020-08-23 02:21
spark
spark RDD依赖类型
sparkRDD
依赖RDD的最重要的特性之一就是血缘关系,血缘关系描述了一个RDD是如何从父RDD计算得来的。
qq_19006739
·
2020-08-23 02:35
spark源码解读
SparkRDD
之countByKey和countByValue
packagecom.cb.spark.
sparkrdd
;importjava.util.Arrays;importjava.util.function.BiConsumer;importorg.apache.spark.SparkConf
大雄没有叮当猫
·
2020-08-22 18:39
大数据开发
翻译一下spark sql and dataframes
[size=large][b]概述[/b][/size]sparksql是一个结构化执行的数据模块,它并不像基本的
sparkrdd
操作,sparksql可以提供更多的基于数据操作的接口,而且有更多的优化操作
snwz5588668
·
2020-08-22 18:21
spark
Spark GraphX
在一个高水平,GraphX通过引进一个新的图抽象扩展了
sparkRDD
:带有顶点和边属性的有向多重图。
mach_learn
·
2020-08-22 13:03
spark1-3-0
翻译
DStream
是构建在
SparkRDD
之上的一款流处理工具。言外之意SparkDStream并不是严格意义的流处理。
LvJinYang
·
2020-08-21 03:03
大数据
ERROR Executor: Exception in task 0.0 in stage 91.0
遇到下面这种Executor报错的情况,多半是
sparkRDD
或者DataFrame定义的时候出了问题,因为sparkSql程序执行的机制是:transformation端不是真正的执行,只有action
gamedev˚
·
2020-08-21 02:18
【大数据】➣
Spark
sparkRDD
RDDRDD弹性分布式数据集,spark最基本的数据抽象,代表一个不可变,可分区,里面元素可并行计算的集合。具有数据流模型的特点:自动容错,位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时,显示地将工作集缓存在内存中,后续的查询能重用工作集,这极大提高查询速度特点:一系列的分区,每一个函数作用于每个分区,RDD之间是一系列依赖,如果是k-v类型的RDD,会有一个分区器,分区器就是决定把数据
metooman
·
2020-08-20 17:15
大数据
GraphX简介及GraphFrames测试
目录概观架构存储图的构造GraphFrames安装测试参考概观GraphX是Spark中用于图和图计算的组件,GraphX通过扩展
SparkRDD
引入了一个新的图抽象数据结构,一个将有效信息放入顶点和边的有向多重图
ssyshenn
·
2020-08-18 11:36
知识图谱
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他