E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Spark-core
Spark-core
什么是SparkSpark是基于内存的快速,通用,可扩展的大数据分析引擎Spark的内置模块SparkCore是Spark可以离线处理的部分,实现了spark的基本功能,包含任务调度,错误恢复,与存储系统交互等模块。SparkCore中还包含了对弹性分布式数据集的APISparkSQL可以使用sql结构化语句来查询数据,支持多种数据源,hive,json等SparkStreaming是Spark对
luckboy0000
·
2024-01-27 23:12
学习笔记
RDD入门——RDD 代码
setMaster("local[2]").setAppName(spark_context")valsc:SparkContext=newSparkContext(conf)SparkContext是
spark-core
我像影子一样
·
2024-01-07 23:50
Spark
大数据
spark
大数据
Java SparkSql 2.4.0 ArrayIndexOutOfBoundsException error
在
spark-core
/spark-sql之前添加以下依赖项为我解决了这个问题。com.thoughtworks.paranamerparanamer2.8
smileyboy2009
·
2023-12-26 10:56
spark
spark-core
包源码编译以及打包运行
一、集群环境下运行系统打包spark在mavenprojects视图选择SparkProjectParentPOM(root),然后选中工具栏倒数第四个按钮(shipTestsmode)按下,这时Liftcycle中test是灰色的。接着按倒数第一个按钮进入Maven编译设置,在runner项设置VMoption:(好像可以不设)-Xmx2g-XX:MaxPermSize=512M-XX:Rese
五环旗
·
2023-11-27 12:58
Spark
源码编译
spark集群
打包
Spark-Core
计算基础核心(三) 概念及原理介绍
运行原理当一个spark应用被提交时,首先要为这个sparkAPPlication构建基本的运行环境,即由任务节点Driver创建一个sparkcontext;sparkContext向clustermanager资源管理容器注册并任务申请运行Excuter资源。clustermanager资源管理容器为excuter分配资源并启动excuter进程,excuter向driver进行反向注册并申请
章云邰
·
2023-11-21 19:09
spark与scala的对应版本查看
仓库地址https://mvnrepository.com/artifact/org.apache.spark/
spark-core
总结spark3.0以后,不再支持scala2.11spark3.0以后
Knight_AL
·
2023-11-16 07:43
spark
Scala
spark
scala
大数据
SparkSQL
1、Spark简介2、
Spark-Core
核心算子3、Spark-Core4、SparkSQL文章目录一、概述1、简介2、DataFrame、DataSet3、SparkSQL特点二、SparkSQL编程
ha_lydms
·
2023-11-05 21:11
大数据
scala
spark
sparksql
大数据
在IDEA运行spark程序(搭建Spark开发环境)
集群环境,以下在IDEA中搭建的环境仅仅是在window系统上进行spark程序的开发学习,在window系统上可以不用安装hadoop和spark,spark程序可以通过pom.xml的文件配置,添加
spark-core
wanglingli95
·
2023-11-02 09:17
大数据开发
intellij-idea
java
ide
spark
大数据
Spark-Core
Spark简介
Spark-Core
核心算子
Spark-Core
文章目录一、RDD编程1、RDD序列化1.2Kryo序列化框架2、RDD依赖关系2.1查看血缘关系2.2查看依赖关系2.3窄依赖2.4宽依赖
ha_lydms
·
2023-10-25 09:56
大数据
1024程序员节
spark-core
spark
IDEA中Maven报错:Failed to read artifact descriptor for解决方案
导入
spark-core
依赖报错Failedtoreadartifactdescriptorforcom.esotericsoftware:kryo-shaded:jar:图片忘记报错了,拿一张网友的图
微亮之海
·
2023-10-20 15:08
intellij-idea
maven
java
大数据——Spark Streaming
之前我们接触的
spark-core
和spark-sql都是离线批处理任务,每天定时处理数据,对于数据的实时性要求不高,一般都是T+1的。
AIGC人工智残
·
2023-10-09 21:02
大数据
大数据
spark
分布式
AGV、RGV、四向车openTCS调度系统(五)openTCS WEB接口及扩展
接口使用
spark-core
包实现,
要这头发有何用·
·
2023-09-19 08:41
车辆调度系统
java
Spark-core
转换算子(九)
Transformations算子详解二 上一篇,我们主要分析了一下简单的转换算子,这里我们先分析一下常见的转换算子。1、groupBy算子 groupBy算子如其名,分组算子。但是我们需要制定分组函数。它和groupByKey不同,groupByKey直接按照key分组。源码部分:defgroupBy[K](f:T=>K)(implicitkt:ClassTag[K]):RDD[(K,Ite
阿卷啦
·
2023-09-10 20:14
spark
spark
big
data
hadoop
Spark-Core
之算子详解(七)
SparkCore算子详解 开始之前,先希望大家生活乐观,天天向上。没有风可以把温柔的人吹倒,但温柔的风一定能吹散所有的不愉快。希望大家在为生活奔波的同时不忘初心,砥砺前行,永远能打倒困难。 SparkCore是spark的核心内容,是早起实现数据处理的主要Spark工具,前面说了SparkCore数据处理就是就是RDD之间的互相转换,那么怎么样让RDD实现随心所欲的转换呢?Spark算子是实
阿卷啦
·
2023-09-10 20:44
spark
spark
大数据
big
data
Spark-Core
常用算子总结(干货)
第一遍迷迷糊糊的走马观花了一遍,一点感觉都没有,第二遍,第三遍,就会发现不一样的东西,真的是印证了孔子的那句话温故而知新我写这篇博客已经是我第三遍学习Spark了,将来肯定会有第四遍、第五遍…Spark分为1、
Spark-Core
biningo-QAQ
·
2023-09-10 20:43
Spark基础
Spark-core
的RDD算子总结
Spark核心编程RDD:RDD的概念:RDD(ResilientDistributedDataset)叫做弹性分布式数据集,是Spark中最基本的数据处理模型。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。➢弹性⚫存储的弹性:内存与磁盘的自动切换;⚫容错的弹性:数据丢失可以自动恢复;⚫计算的弹性:计算出错重试机制;⚫分片的弹性:可根据需要重新分片。➢分布式:数
astudybear
·
2023-09-10 20:12
spark
big
data
hadoop
Spark-Core
核心算子
文章目录一、数据源获取1、从集合中获取2、从外部存储系统创建3、从其它RDD中创建4、分区规则—load数据时二、转换算子(Transformation)1、Value类型1.1map()_1.2mapPartitions()1.3mapPartitionsWithIndex(不常用)1.4filterMap()_扁平化(合并流)1.5groupBy()_分组1.6filter()_过滤1.7di
ha_lydms
·
2023-09-04 20:36
大数据
spark
大数据
转换算子
行动算子
sql
RDD
IntelliJ IDEA搭建GraphX环境
首先打开build.sbt文件,然后在文件中加入下面两行内容libraryDependencies+="org.apache.spark"%%"
spark-core
"%"2.3.0"libraryDependencies
KimYYX
·
2023-08-11 06:06
1、sparkStreaming概述
1、sparkStreaming概述1.1SparkStreaming是什么它是一个可扩展,高吞吐具有容错性的流式计算框架吞吐量:单位时间内成功传输数据的数量之前我们接触的
spark-core
和spark-sql
Wzideng
·
2023-08-07 13:51
#
spark
spark
stream
spark-ml
spark
Spark-Core
计算基础核心(四) 概念及原理介绍
RDD编程算子类型转换算子:返回一个新的RDD类型的数据,转换算子都是lazy模式,直到遇见执行算子才执行执行算子:无返回或者返回一个非RDD类型的数据持久化算子:将数据持久化或者缓存到内存中,持久化和缓存都是lazy模式的转换算子创建:从集合:parallelize和makeRdd,makeRdd底层调用了parallelize,使用了默认的分片数从外部:textfile从其他:flatmap等
章云邰
·
2023-08-03 13:12
Spark——core——5
spark-core
实战课程目标独立实现sparkstandalone模式的启动说出广播变量的概念5.1通过spark实现ip地址查询需求在互联网中,我们经常会见到城市热点图这样的报表数据,例如在百度统计中
Wzideng
·
2023-08-02 09:58
#
spark
机器学习之推荐系统
大数据学习
spark
大数据
分布式
数据结构
算法
开发语言
Spark——core——4
spark-core
实战案例课程目标:独立实现SparkRDD的wordcount案例独立实现sparkRDD的PVUV统计案例4.0Pycharm编写spark代码环境配置准备pycharm环境1,对接到
Wzideng
·
2023-08-02 09:57
#
spark
大数据学习
机器学习之推荐系统
spark
ajax
大数据
算法
数据结构
java
分布式
Spark——core——5
spark-core
实战课程目标独立实现sparkstandalone模式的启动说出广播变量的概念5.1通过spark实现ip地址查询需求在互联网中,我们经常会见到城市热点图这样的报表数据,例如在百度统计中
Wzideng
·
2023-08-02 09:57
#
spark
机器学习之推荐系统
大数据学习
spark
大数据
分布式
数据结构
算法
开发语言
spark-core
实战案例
课程目标:独立实现SparkRDD的wordcount案例独立实现sparkRDD的PVUV统计案例4.0Pycharm编写spark代码环境配置准备pycharm环境1,对接到centos服务器,下载环境1.1选择Tools-->Deployment–>Configuration[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-zbpCB9Ai-16901917911
Wzideng
·
2023-07-28 06:05
#
spark
spark
ajax
大数据
spark-core
概述
spark-core
概述课程目标:知道RDD的概念独立实现RDD的创建2.1什么是RDDRDD(ResilientDistributedDataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象
Wzideng
·
2023-07-27 04:04
#
spark
spark
大数据
分布式
spark-core
实战
spark-core
实战课程目标独立实现sparkstandalone模式的启动说出广播变量的概念5.1通过spark实现ip地址查询需求在互联网中,我们经常会见到城市热点图这样的报表数据,例如在百度统计中
Wzideng
·
2023-07-25 20:03
#
spark
spark
大数据
分布式
spark-core
RDD常用算子练习
spark-coreRDD常用算子练习课程目标说出RDD的三类算子掌握transformation和action算子的基本使用3.1RDD常用操作RDD支持两种类型的操作:transformation从一个已经存在的数据集创建一个新的数据集rdda----->transformation---->rddb比如,map就是一个transformation操作,把数据集中的每一个元素传给一个函数并返回
Wzideng
·
2023-07-25 14:43
#
spark
spark
大数据
分布式
spark-core
(完结)
构建Sparkwindows环境配置windowsHadoop解压到本地磁盘,配置环境变量bin目录和sbin目录构建Maven配置pom.xml(学习用)spark-core882.12.02.7.72.4.7org.apache.sparkspark-core_2.122.4.7org.scala-langscala-library${scala.version}org.apache.spar
爱吃鸡的小鸡
·
2023-07-18 16:17
学习
开发语言
spark
spark
学习
大数据
Spark-Core
(共享变量)
Spark-Core
(共享变量)1.SharedVariables当在远程集群节点上执行传递给Spark操作(例如map或reduce)的函数时,它将在函数中使用的所有变量的单独副本上工作。
丿灬逐风
·
2023-07-18 15:42
hadoop
Spark
Spark
Spark-Core
spark-core
从hbase中读写数据
spark交互HBaseSpark可以从HBase表中读写(Read/Write)数据,底层采用TableInputFormat和TableOutputFormat方式,与MapReduce与HBase集成完全一样,使用相同输入格式InputFormat和输出格式OutputFoamt。1、写入数据packagecom.yyds.tags.hbase.writeimportorg.apache.h
undo_try
·
2023-07-18 13:12
#
spark
spark
big
data
Spark-Core
[持久化 血缘关系 广播变量 累加器 宽窄依赖]
SparkCore一、RDD数据1.RDD的血缘关系2.RDD序列化3.RDD持久化CheckPoin检查点缓存Cache缓存和CheckPoin检查点的区别二、广播变量三、累加器1.系统自带累加器;2.用户自定义累加器四、Spark内核调度1.DAG阶段划分2.款窄依赖和阶段划分3.内存迭代计算Spark并行度4.Spark任务调度5.Spark概念名词五、重要理解一、RDD数据1.RDD的血缘
Aimyon_36
·
2023-06-09 03:17
Spark
spark
hadoop
大数据
spark-core
源码
1.getPartitions就是计算一下你读取的文件一共将分成多少个切片(或者说分区)首先切片大小肯定小于物理文件块的大小用的是InputFormat接口下的FileInputFormat2.compute这个函数是指明我已经分区好了,未来我这个计算要向分区所在的哪个地方移动去,也就是计算向数据移动我要找文件所在物理块号这个函数其实返回的就是一个迭代器,里面有hasNext()和getNext(
代码健身摩托gucci上海
·
2023-04-15 20:23
spark
spark
大数据
分布式
Spark官方文档整理:
spark-core
Spark官方文档1,spark概述ApacheSpark是一个快速通用的集群计算系统,它提供了提供了java,scala,python和R的高级API,以及一个支持一般图计算的优化引擎。它同样也一系列丰富的高级工具包括:Sparksql用于sql和结构化数据处理,MLlib用于机器学习,Graphx用于图数据处理,以及SparkStreaming用于流数据处理。2,快速入门本教程对使用spark
stay_running
·
2023-04-09 12:14
spark
scala
big
data
spark中RDD与DF的关系
底层是
Spark-core
核心模块,Spark每个模块都有一个核心抽象,
Spark-core
的核心抽象是RDD,SparkSQL等都基于RDD封装了自己的抽象,在SparkSQL中是DataFrame/
boyzwz
·
2023-04-06 14:38
spark
大数据
pandas
Spark—ideal
ideal—Spark新建工程新建maven工程,添加scala添加依赖pom添加依赖并下载
spark-core
重复步骤下载spark-sqlspark-hivespark-graphxmysql-connector-java
Triumph-CP
·
2023-03-31 07:01
spark
大数据
scala
scala概述入门
后面就是基于
spark-core
写原生scala的应用。总体来时,scala使用是真的丝滑和顺手。尤其函数式编程。我开发flink也是使用scala。目前很少使用Java了。
若与
·
2023-03-29 06:05
spark-core
求共同好友
spark-core
求共同好友数据样式A:B,C,D,F,E,OB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C
db9388a2d4c5
·
2023-03-20 23:22
Spark-core
:RDD依赖关系、持久化
文章目录一、RDD血缘关系二、RDD依赖关系1.窄依赖2.宽依赖3.RDD的阶段划分4.RDD任务划分三、RDD持久化1.RDDCache缓存2.RDDCheckPoint检查点四、RDD分区器五、RDD文件读取与保存一、RDD血缘关系RDD不会保存数据;RDD为了提供容错性,会将RDD间的关系保存下来一旦出现错误,可以根据血缘关系从新计算二、RDD依赖关系1.窄依赖上游RDD只被一个下游RDD依
我不会啊T^T
·
2023-03-12 08:40
spark总结
spark
java
缓存
6.Maven项目中使用Spark 2.x读写Elasticsearch中的数据
一、使用spark写数据到Elasticsearch中连接spark,配置es(前提是maven中所需的基本Spark环境都配置好了,否则还需要添加
spark-core
的依赖等)注:如果是在联网的环境下
依米兒
·
2023-02-03 22:48
Spark-Core
性能优化总结
性能优化概览whySpark是基于内存的计算,所以集群的CPU、网络带宽、内存等都可能成为性能的瓶颈。whenSpark应用开发成熟时,满足业务要求后,就可以开展性能优化了。what一般来说,Spark应用程序80%的优化集中在内存、磁盘IO、网络IO,即Driver、Executor的内存、shuffle的设置、文件系统的配置,集群的搭建,集群和文件系统的搭建(文件系统的集群在同一个局域网内)。
固安李庆海
·
2023-02-02 01:50
Spark读取elasticsearch数据指南
Spark相关依赖包的版本为2.3.2,如
spark-core
、spark-sql。Elasticsearch数据schema{"settings":{"number_of_replicas":
sherlockyb
·
2023-01-28 16:05
大数据技术之
Spark-Core
第1章Spark概述1.Spark是什么Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。2.SparkandHadoop在之前的学习中,Hadoop的MapReduce是大家广为熟知的计算框架,那为什么咱们还要学习新的计算框架Spark呢,这里就不得不提到Spark和Hadoop的关系。首先从时间节点上来看:Hadoop2006年1月,DougCutting加入Yahoo,领导H
莱恩大数据
·
2023-01-24 20:57
大数据训练营
spark
Spark基础篇-
Spark-Core
核心模型(一)
Spark系列文章目录第一章初识Spark第二章
Spark-Core
核心模型(一)第二章
Spark-Core
核心模型(二)第三章
Spark-Core
编程进阶(一)第三章
Spark-Core
编程进阶(二)
angeliacmm
·
2023-01-24 20:56
Spark
大数据
spark
hadoop
Spark-core
/SparkSQL总结及如何通过Jupyter交互式运行pyspark任务(spark on yarn)
目录:一、JupyterPyspark交互式环境配置Jupyter+spark+yarn环境配置spark-submitclient和cluster运行模式注意点二、Spark-coreRDD常用算子总结RDD对象RDD常用算子RDD优化缓存RDD共享变量与累加器RDD全局并行度设置三、SparkSQL总结SparkSQLDataFrame构建SparkSQLDataFrame数据处理代码风格Sp
想考个研
·
2022-12-25 17:09
大数据
数据分析
spark
jupyter
python
Sbt打包出现依赖异常问题
com.wtx.job014"libraryDependencies++=Seq("org.apache.spark"%%"spark-sql"%"2.3.2"%"provided","org.apache.spark"%%"
spark-core
帅气多汁你天哥
·
2022-12-15 11:39
Hadoop
爬坑指南
实战项目讲解
maven
spark
大数据
kafka
Spark框架 及 pyspark库
Spark简介开启sparklocal模式(用于调试代码)集群模式
spark-core
(RDD)RDD的常用算子transformationvalue型transformationkey-value型transformationactionpersist
劫径
·
2022-12-05 11:49
大数据框架
spark
大数据
Spark-Core
分组求TOPN的六种不同的实现方式
案例:计算学科最受欢迎老师TopN1.需求:根据网站的行为日志,统计每个学科最受欢迎老师的TopN,即按照学科分组,在每一个组内进行排序2.样例数据:http://bigdata.51doit.cn/laozhanghttp://bigdata.51doit.cn/laozhanghttp://bigdata.51doit.cn/laozhaohttp://bigdata.51doit.cn/la
晓晓很可爱
·
2022-11-20 01:08
spark-core
spark
大数据实战二十一课 - Spark SQL01
对于
Spark-Core
给定功能实现,是最基本的要求;
zhikanjiani
·
2022-07-12 12:55
高级班Spark-SQL
Spark-core
项目实战——电商用户行为数据分析
0数据准备本实战项目的数据是采集自电商的用户行为数据。具体的数据可点此链接下载(提取码:44ax)用户行为数据主要包含用户的4种行为:搜索,点击,下单和支付.数据格式如下,不同的字段使用下划线分割开_:数据说明:数据采用_分割字段每一行表示用户的一个行为,所以每一行只能是四种行为中的一种.如果搜索关键字是null,表示这次不是搜索如果点击的品类id和产品id是-1表示这次不是点击下单行为来说一次可
不以物喜2020
·
2022-07-03 21:25
Spark
大数据
spark
大数据
数据分析
spark-core
rdd
Spark-Core
源码精读(9)、注册Application及Executors的启动注册流程(一)
接下来的几篇文章我们会结合源码来分析注册Application以及启动Executor并向Driver注册的具体流程。上文我们跟踪源码到了SparkDeploySchedulerBackend的start()方法的实例化AppClient部分,同时SparkDeploySchedulerBackend的start()方法中首先执行的就是其父类也就是CoarseGrainedSchedulerBac
sun4lower
·
2021-05-19 15:27
上一页
1
2
3
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他