E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
sparkrdd
Spark SQL详解
spark系列Spark核心原理及运行架构
SparkRDD
详解Spark常用算子大全SparkSQL详解SparkSQLspark系列前言SparkSQL简介什么是SparkSQL?
BigData_Hubert
·
2022-04-22 08:07
大数据
sparkSQL
DataFrame
DataSet
SparkSession
Spark
on
Hive
Spark交通数据分析案例:大型活动大规模人群的检测与疏散
接下来介绍如何使用
sparkRDD
进行数据分析。之后分享spark与大数据分析的关系,以及spark在大数据分析中所起到的作用。
weixin_34292402
·
2022-03-25 07:53
大数据
python
r语言
spark输出rdd数据_剖析Spark数据分区之Spark RDD分区
本文来自OPPO互联网技术团队,是《剖析Spark数据分区》系列文章的第二篇,将重点分析
SparkRDD
的数据分区。该系列共分3篇文章,欢迎持续关注。
weixin_39525933
·
2022-02-28 10:04
spark输出rdd数据
spark rdd分区与任务的关系
sparkrdd
分区与任务关系rdd是弹性分布式数据集,分区是对rdd数据的划分。分区之后,job并行度增大。一个分区对应一个任务。什么是任务,任务是job的执行逻辑单元。
程序猿不加班
·
2022-02-28 10:27
Spark
sparkrdd
task任务
SparkRdd
官档翻译(Python)
RDD程序开发指南概述从较高的层面来看,每一个Spark应用都包含运行用户main方法和执行各种并行操作的Driver程序。Spark最主要的抽象概念是分布式数据集,它是可以执行并行操作且跨集群节点的分区的元素集合。RDD可以从Hadoop文件系统中创建(其他任何Hadoop支持的文件系统),或者一个当前存在于Driver程序中的Scala集合,及其通过转换来创建一个RDD。我们也可以请求Spar
与大米一起成长
·
2022-02-11 07:18
大数据生态
spark
spark入门
spark
rdd
spark官档
Spark相关文章索引(5)
环境部署SparkonYarn集群搭建详细过程Pythonpycharm(windows版本)部署spark环境Spark+Python+Pycharm在Windows下的配置基本常识
SparkRDD
概念学习系列之
司小幽
·
2022-02-10 21:31
大数据Spark算子
SparkRdd
的创建方式基于spark
铜锣湾寿司
·
2022-02-10 01:05
spark常见RDD算法演示
1.
sparkRDD
大致总体上可以分成两个bufe一个是Value类型和Key-Value类型1.1Value型1.1.1map((func)函数作用:返回一个新的RDD,该RDD由每一个输入元素经过func
pkingdog
·
2022-02-09 04:57
spark 基础二:RDD操作和持久化
SparkRDD
操作Spark支持两种RDD操作,transformation和action。
张凯_9908
·
2022-02-08 14:49
Scala 通过读取HDFS上的文件创建
SparkRDD
出现的问题
一、Couldnotlocateexecutablenull\bin\winutils.exeintheHadoopbinaries.如果本机操作系统是Windows,如果在程序中使用了Hadoop相关的东西,比如写入文件到HDFS,则会遇到该异常出现这个问题的原因,并不是程序的错误,而是用到了hadoop相关的服务,解决办法:1、在本机上解压对应版本的hadoop压缩包不太清楚别的版本压缩包行不
我在燕京有把刀
·
2021-11-19 15:57
大数据
hadoop
spark
什么是 Spark RDD ?
RDD示意图:RDD的五个主要特性分区列表
SparkRDD
是被分区的,每一个分区都会被一个计算任务(Task)处理,分区数决定了并行计算的数量,RDD的并行度默认从父RDD传给子RDD。默认情
光剑书架上的书
·
2021-09-18 01:43
Spark GraphX图计算框架原理概述
【转载】原文地址:原文地址概述 GraphX是Spark中用于图和图计算的组件,GraphX通过扩展
SparkRDD
引入了一个新的图抽象数据结构,一个将有效信息放入顶点和边的有向多重图。
木亦汐
·
2021-06-25 19:52
02_Spark_RDD
SparkRDD
1)什么是RDDRDD(ResilientDistributedDataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合
百忍成金的虚竹
·
2021-06-20 00:32
Spark RDD在Spark中的地位和作用如何?
SparkRDD
的核心原理1、Spark的核心概念是RDD(resilientdistributeddataset),指的是一个只读的,可分区的分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间重用
·
2021-06-18 22:57
RDD(Resilient Distributed Datasets)
SparkRDD
:fault-tolerantcollectionofelementsthatcanbeoperatedoninparallel.twotypes:parallelizedcollections
朱小虎XiaohuZhu
·
2021-06-14 07:35
通过JDBC方式将Spark RDD/DataFrame分布式写入Phoenix
背景在实际应用场景,出于安全等方面考虑,有时候大数据平台不暴露对Phoenix的zookeeperurl连接方式,本文提供一种基于jdbc的方式实现spark将
SparkRDD
/DataFrame分布式批量写入
EchelonX
·
2021-06-08 13:52
Spark案例库V1.0版
Spark案例库案例一:使用
SparkRDD
实现词频统计pom.xml文件aliyunhttp://maven.aliyun.com/nexus/content/groups/public/clouderahttps
ChinaManor
·
2021-05-24 22:32
#
Spark
大数据技术
RDD的容错机制
RDD的容错机制总结:RDD的容错机制原文:
SparkRDD
概念学习系列之RDD的容错机制(十七)RDD实现了基于Lineage的容错机制。
小小少年Boy
·
2021-04-30 03:28
Spark RDD编程初级实践
SparkRDD
编程初级实践湖工大永远滴神茂林!!!提交异常问题解决第一关数据去重第二个整合排序第三关求平均值湖工大永远滴神茂林!!!
登峰造極,永往无前。
·
2021-04-17 16:51
spark
Spark RDD编程
SparkRDD
编程概述从高层次上来看,每一个Spark应用都包含一个驱动程序,用于执行用户的main函数以及在集群上运行各种并行操作。
LuciferTM
·
2021-03-10 23:20
Spark rdd转Dataframe的三种方法
Sparkrdd
转Dataframe的三种方法数据准备RDD转Dataframe的三种方式通过RDD推断创建dataframe通过StructType创建dataframe通过定义schema类创建dataframe
test-abc
·
2020-09-17 07:02
spark
dataframe操作
SparkRDD
从6大方面详解
转自:https://blog.csdn.net/erfucun/article/details/51972225一:RDD粗粒度与细粒度粗粒度:在程序启动前就已经分配好资源(特别适用于资源特别多而且要进行资源复用)细粒度:计算需要资源是才分配资源,细粒度没有资源浪费问题。二:RDD的解密:1,分布式(擅长迭代式是spark的精髓之所在)基于内存(有些时候也会基于硬盘)特别适合于计算的计算框架2,
风是外衣衣衣
·
2020-09-16 13:15
spark
Flink
第一代:MapReduce2006年批磁盘M->R矢量|2014.9Storm诞生流延迟低/吞吐小第二代:
SparkRDD
2014.2批内存DAG(若干Stage)|使用micro-batch模拟流处理
HuiGe94v587
·
2020-09-16 12:23
Flink
BigData
Spark中的RDD是什么,有哪些特性?
partition组成的2.RDD之间具有依赖关系3.RDD作用在partition是上4.partition作用在具有(k,v)格式的数据集5.partition对外提供最佳计算位置,利于数据本地化的处理3).
SparkRDD
有风微冷
·
2020-09-16 12:20
spark
spark
RDD
spark: rdd的应用(scala api)
wordcount:统计词频,排序历年温度最值:max,min,avgpart1:
sparkrdd
之wordcountspark-shell//word.txtvarfile="/home/wang/txt
根哥的博客
·
2020-09-16 11:27
大数据hadoop-spark
spark
rdd
Spark 分区(Partition)的认识、理解和应用
SparkRDD
是一种分布式的数据集,由于数据量很大,因此要它被切分并存储在各个结点的分区当中。从而当我们对RDD进行操作时,实际上是对每个分区中的数据并行操作。
XK&RM
·
2020-09-16 06:25
Spark RDD常见的转化操作和行动操作
SparkRDD
常见的转化操作和行动操作IDEA创建scalaspark的Mvn项目:https://blog.csdn.net/u014646662/article/details/84618032spark
周天祥
·
2020-09-16 04:55
大数据
Spark
Scala
Spark算子:RDD行动Action操作(1)–first、count、reduce、collect
Spark算子:RDD行动Action操作(1)–first、count、reduce、collect关键字:Spark算子、
SparkRDD
行动Action、first、count、reduce、collectfirstdeffirst
羽翼天宇
·
2020-09-16 03:27
Spark算子系列文章
Spark中RDD、DataFrame和DataSet的区别
RDD、DataFrame和DataSet的定义在开始
SparkRDD
与DataFrame与Dataset之间的比较之前,先让我们看一下Spark中的RDD,DataFrame和Datasets的定义:
`冬虫夏草`
·
2020-09-15 11:15
spark
spark之rdd partition
概要
SparkRDD
主要由Dependency、Partition、Partitioner组成,Partition是其中之一。
明喆_sama
·
2020-09-15 03:59
spark
[Spark进阶]-- rdd详解及开发优化
sparkrdd
详解及开发优化文章英文来源:http://spark.apache.org/docs/latest/programming-guide.html一、
SparkRDD
详解1、RDD是什么?
highfei2011
·
2020-09-15 02:27
Spark
面试
SparkSql
#SparkSql##设计目的:支持
sparkRdd
和外部数据的关系处理高性能的关系数据操作易于扩展数据源,如半结构化数据,外部数据可以被其他高级算法使用如graph,machinelearning##
github_28583061
·
2020-09-15 02:49
Spark SQL介绍
官方介绍:SparkSQL是Spark处理数据的一个模块,跟基本的
SparkRDD
的API不同,SparkSQL中提供的接口将会提供给Spark更多关于结构化数据和计算的信息。
banana`
·
2020-09-15 02:27
Spark
Spark SQL介绍和特点
一:SparkSQL的简介SparkSQL是Spark处理数据的一个模块,跟基本的
SparkRDD
的API不同,SparkSQL中提供的接口将会提供给Spark更多关于结构化数据和计算的信息。
亮大兵
·
2020-09-15 02:24
【Spark】
SparkRDD
-JavaAPI开发手册(函数式编程)
文章目录GithubNote遇到的大坑!装备Core总结Github地址:https://github.com/ithuhui/hui-base-java模块:【hui-base-spark】分支:master位置:com.hui.base.spark.rddNote老实说,相比那些抄袭来抄袭去的blog,这篇RDD的JavaAPI…我是每个常用API都结合实例解释并且用了Java函数式编程写的…
java劝退师
·
2020-09-15 02:37
BigData
Spark RDD编程指南(初学)
SparkRDD
编程指南1.总览2.与Spark链接3.初始化Spark4.弹性分布式数据集(RDDs)4.1并行化集合4.2外部数据集4.3RDD算子4.3.1基础4.3.2将函数传给Spark4.3.3
Zhouxk96
·
2020-09-14 02:03
spark学习(二)RDD和DAG
一、
sparkRDD
概念RDD(ResilientDistributedDataset)叫做弹性分布式数据集,是spark中最基本也是最重要的概念之一。
沼泽鱼97
·
2020-09-14 02:30
Spark Shuffle原理和Shuffle的问题解决和优化
1.1.1maptask端操作1.1.2reducetask端操作1.2spark现在的SortShuffleManager2Shuffle操作问题解决2.1数据倾斜原理2.2数据倾斜问题发现与解决2.3数据倾斜解决方案3
sparkRDD
水墨风漾
·
2020-09-13 06:23
Spark RDD常见的转化操作和行动操作
SparkRDD
常见的转化操作和行动操作IDEA创建scalaspark的Mvn项目:https://blog.csdn.net/u014646662/article/details/84618032spark
XY_Noire
·
2020-09-13 01:31
转载
Spark
Spark
Hadoop与Spark基本原理
HadoopSparkSpark和Hadoop区别和联系Hadoop的HDFSHadoop的MapReduceSpark宽依赖和窄依赖
SparkRDD
运行过程
SparkRDD
阶段划分HadoopHadoop
宁缺100
·
2020-09-12 09:44
大数据
Spark
Hadoop
Hive
Sqoop
MapReduce
Spark流编程指引(五)-----------------------------DStreams上的转换操作
DStreams支持许多在通常
SparkRDD
上的转换操作。
self-motivation
·
2020-09-11 21:02
大数据
DStream之转换操作(Transformation)
DStreams支持许多在普通
SparkRDD
上可用的转换算子。一些常见的转换操作定义如下:map(func)通过函数func传递源DStream的每个元素来返回一个新的DStream。
天ヾ道℡酬勤
·
2020-09-11 21:28
spark
spark
Spark RDD 笛卡尔积
SparkRDD
笛卡尔积valleft=sc.parallelize(List(1,2,3))valright=sc.parallelize(List(3,4,5,6))valout=leftunionright
大数据的未来
·
2020-09-11 10:27
spark RDD ,wordcount案例解析
sparkRDD
,wordcount案例解析
sparkRDD
内存计算模型数据来源:可以从HDFS文件,Hive表,Hbase,本地磁盘,MQspark集群,RDD中的数据都是存放在worker,都分区的
张章章Sam
·
2020-09-11 07:31
土肥圆的猿
的博客专栏
Spark SQL部分简单使用详解
SparkSQL简介SparkSQL是Spark处理数据的一个模块,跟基本的
SparkRDD
的API不同,SparkSQL中提供的接口将会提供给Spark更多关于结构化数据和计算的信息。
万事于足下
·
2020-09-11 05:48
Spark
Flink学习笔记
第一代:MapReduce2006年批磁盘M->R矢量|2014.9Storm诞生流延迟低/吞吐小第二代:
SparkRDD
2014.2批内存DAG(若干Stage)|使用micro-batch模拟流处理
骚白~
·
2020-09-11 03:39
BigData
Spark RDD
SparkRDD
一、概述Atahighlevel,everySparkapplicationconsistsofadriverprogramthatrunstheuser’smainfunctionandexecutesvariousparalleloperationsonacluster.ThemainabstractionSparkprovidesisaresilientdistributed
龙龙灵
·
2020-09-11 03:55
Spark
SparkStreaming整合Redis
需求:希望在
SparkRDD
算子中访问Redis。思路:通过Broadcast变量将Redis配置信息广播到所有计算节点;通过lazy关键字实现Redis连接的延迟创建。
xianyuxiaoqiang
·
2020-08-26 09:13
大数据
SparkRDD
之combineByKey
java示例:packagecom.cb.spark.
sparkrdd
;importjava.util.ArrayList;importjava.util.Arrays;
大雄没有叮当猫
·
2020-08-23 03:00
大数据开发
sparkRDD
高级算子 combineByKey函数详解
spark中高级算子:combineByKey函数详解combineByKey函数源码如下:defcombineByKey[C](createCombiner:V=>C, //当前值作为参数,可被认为初始化操作mergeValue:(C,V)=>C, //在分区中操作,把当前的元素V合并到上次结果的C中mergeCombiners:(C,C)=>C):RDD[(K,C)]
chak_16
·
2020-08-23 02:21
spark
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他