E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Spark-Core
Spark-Core
——上篇
文章目录一、Spark简介1.简介2.DAG3.MR3.1什么是MR?3.2Hadoop和Spark的区别二、常见Api1.SparkConf1.1作用1.2创建1.3常见方法2.SparkContext(帮忙提交driver)2.1作用2.2创建2.3常见方法2.4WordCount:2.4.1Hadoop与Spark的写法区别2.4.2代码2.4.3SparkContext的解释作用2.5编程
平平无奇小码农
·
2020-10-21 16:42
笔记
spark
如何创建 SparkContext,SQLContext,StreamingContext 的几种方式?
需要用到
spark-core
,spark-sql,spark-streaming的jar包,pom文件如下:2.1.02.11org.apache.sparkspark-core_${scala.version
曲健磊
·
2020-09-15 16:01
【Spark】
spark-core
和spark-sql的区别
转自:http://www.cnblogs.com/zlslch/p/6685679.htmlSparkSQL构建在SparkCore之上,专门用来处理结构化数据(不仅仅是SQL)。即SparkSQL是SparkCore封装而来的!SparkSQL在SparkCore的基础上针对结构化数据处理进行很多优化和改进,简单来讲:SparkSQL支持很多种结构化数据源,可以让你跳过复杂的读取过程,轻松从各
光圈1001
·
2020-09-15 16:39
spark
大数据
scala
Spark知识体系
spark整体脉络
spark-core
搭建集群(spark)-框架集群机器的准备工作集群的安装欢迎进入陶笔记博文什么是spark?
活出别致的高傲
·
2020-09-14 15:26
陶笔记
spark
【
Spark-Core
】运行机制、RDD算子实战
一、Spark运行机制及原理分析1、WordCount执行的流程分析2、Spark提交任务的流程二、Spark的算子1、RDD基础(1)、什么是RDD?RDD(ResilientDistributedDataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用
双椒叔叔
·
2020-09-14 15:46
Spark
Scala
大数据
spark
【
Spark-Core
】架构、部署、WC-Demo
SparkCore一、什么是Spark?(官网:http://spark.apache.org)1、什么是Spark?*我的翻译:Spark是一个针对大规模数据处理的快速通用引擎。*Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。目前,Spark生态系
双椒叔叔
·
2020-09-14 15:46
Spark
spark
hadoop
大数据
【Spark】五、Maven编写WordCount
EnableAuto-Import修改spark的pom.xml文件pom--------------------------src就没用了,可以删除在sparkproject下newmodule:添加子项目【
spark-core
LeeeeeMOON
·
2020-09-11 09:42
Spark
Spark基础篇(六) - IDEA开发Spark代码
一、Spark项目开发流程回顾二、Spark应用程序开发2.1、Hive下求用户访问量TopN&&Spark-shell实现&&IDEA下实现2.2、
Spark-Core
求平均年龄&&男女人数&&最低、
Spark on yarn
·
2020-09-11 06:26
SparkCore基础篇
sbt assembly
libraryDependencies+="org.scala-lang"%"scala-library"%"2.10.6"libraryDependencies+="org.apache.spark"%%"
spark-core
siyongshuai
·
2020-08-24 14:15
【运行spark-sql报错】:java.lang.NoSuchMethodError: scala.Product.$init$(Lscala/Product;)V 解决办法
先贴具体错1.疑问之前运行
spark-core
的内容有点错误没有怎么一到sql就开始报错百度看是scala版本对不上所以着重对这方面的检查.直到我看到pom.xml文件得配置.....大概就知道是什么原因了
佩奇配骑
·
2020-08-22 19:00
环境
Spark-streaming 和spark-sql 基本概念
Spark-streaming和spark-sql基本概念spark-streaming是spark体系中一个流式处理的框架
spark-core
是核心的计算引擎,streaming是其中一个功能streaming
000000_cy
·
2020-08-18 10:28
spark
Spark-Core
(二) - LogApp日志数据的解析&&Spark的运行架构
一、
Spark-Core
基础篇回顾二、Spark如何进行大数据的逻辑处理2.1、入门代码遇到的一个简单错误2.2、求得买个域名下的流量之和2.3、每个省份访问次数的TopN(生产上边界值的处理)三、Spark
Spark on yarn
·
2020-08-18 10:30
Spark-Core实战班
Spark-Core
(三) - Stage剖析&&Spark on yarn的两种模式
一、
Spark-Core
(二)回顾二、Stage剖析2.1、遇到action产生job2.2、job产生stage2.3、rdd中的cache2.4、Spark-shell中测试rdd缓存&&StorageLevel2.5
Spark on yarn
·
2020-08-18 10:30
Spark-Core实战班
Spark-Core
(四) - Shuffle剖析&&ByKey算子解析&&Spark中的监控&&广播变量、累加器
一、
Spark-Core
(三)回顾1.1、Sparkonyarn的运行方式二、Shuffle的剖析2.1、2.1、IDEA下使用repartition和coalesce对用户进行分组2.2、coalesce
Spark on yarn
·
2020-08-18 10:30
Spark-Core实战班
Spark任务提交与SpringBoot项目集成
项目集成原理利用官方提供的SparkLauncherjava接口来使用java代码提交Spark任务到Spark集群实现一个SparkPI的计算demo,并打包成jar新建SpringBoot项目,项目加入
spark-core
忘了我都好
·
2020-08-03 01:05
Spark
Spring
Boot
Spark-core
综合练习-IP匹配
ip.txt部分数据:220.177.248.0|220.177.255.255|3702650880|3702652927|亚洲|中国|江西|南昌||电信|360100|China|CN|115.892151|28.676493220.178.0.0|220.178.56.113|3702652928|3702667377|亚洲|中国|安徽|合肥||电信|340100|China|CN|117.
Thomson617
·
2020-07-29 09:33
Spark
sbt依赖冲突查看及解决
image.pnggraph_importer项目中使用依赖项目scala版本:scalaVersion:="2.11.11"libraryDependencies++=Seq("org.apache.spark"%%"
spark-core
zlcook
·
2020-07-28 09:26
Spark-Core
应用详解之高级篇
文章目录三、RDD高级应用1.RDD的分片数量2.RDD的函数传递问题如果RDD的转换操作中使用到了class中的方法或者变量,那么该class需要支持实例化。如果通过局部变量的方式将class中的变量赋值为局部变量,那么就不需要传递对象。3.RDD的运行方式(1)RDD的依赖关系(2)DAG有向无环图(3)RDD的任务划分Stage4.RDD的持久化5.RDD的checkpoint机制6.键值对
2NaCl
·
2020-07-28 09:14
Spark
Spark-core
scala的40多种常用算子汇总
Spark-corescala的40多种算子汇总本篇言简意赅,如有疑惑,请看前几篇相关算子的文章因为没法上传xmind格式,只能导入md上传本人不才,如有错,一起交流Transformationmap对RDD中的每一个元素都执行,前后元素的对应关系是1:1。也就是说,对一个元素执行RDD的操作,可以产生一个元素。RDD使用map方法,有N个数据就加载了N次mapPartitions1:1对应分区R
人生路且修且行
·
2020-07-28 08:39
大数据
Spark
解决Spark应用日志级别设置
从控制台输出日志我们可以看出,应用程序是默认加载
Spark-core
包下面的log4j-defaults.properties日志文件。
盛装吾步
·
2020-07-28 01:42
spark
Spark-Core
RDD中函数(变量)传递
我们进行Spark进行编程的时候,初始化工作是在driver端完成的,而实际的运行程序是在executor端进行,所以就涉及到了进程间的通讯,数据是需要序列化的1、传递函数importorg.apache.spark.{SparkConf,SparkContext}importorg.apache.spark.rdd.RDDobjectSerDemo{defmain(args:Array[Stri
hyunbar
·
2020-07-27 12:27
SBT打包编译流程
:name:="SimpleProject"version:="1.0"scalaVersion:="2.11.8"libraryDependencies+="org.apache.spark"%%"
spark-core
Cheengvho
·
2020-07-16 03:46
Spark
HBase
eclipse运行spark的scala程序console配置日志log4j输出级别
输出的第一行UsingSpark'sdefaultlog4jprofile:org/apache/spark/log4j-defaults.properties然后再找找spark的import执行的jar包的
spark-core
回到未来望过去
·
2020-07-12 04:52
eclipse
spark
log4j
Spark集群安装配置
1Spark概述1、Spark是一个计算框架MR是批量计算框架,
Spark-Core
是批量计算框架Spark相比MR速度快,MR作为一个job,在中间环节中结果是落地的(会经过磁盘交换),Spark计算过程中数据流转都是在内存的
月正明
·
2020-07-10 09:30
Spark
idea中设置maven的jvm参数
在编译spark源码的过程中总是在编译
spark-core
模块时报内存溢出错误,通过visualvm监控,发现编译时maven的堆内存最大只有268m左右,于是网上搜了一些方法增加maven启动时的堆内存
zhuge134
·
2020-07-09 06:31
java
maven
编写第一个Spark程序WordCount
sbtname:="spark01"version:="1.0"scalaVersion:="2.11.7"libraryDependencies++=Seq("org.apache.spark"%%"
spark-core
ysk_xh_521
·
2020-07-09 04:08
大数据
Spark学习笔记——读写MySQL
name:="spark-hbase"version:="1.0"scalaVersion:="2.11.8"libraryDependencies++=Seq("org.apache.spark"%%"
spark-core
weixin_34409741
·
2020-07-08 18:38
Spark-core
(核心)的基本介绍
一、SparkCore提供Spark最基础与最核心的功能,主要包括以下功能:(1)SparkContext:通常而言,DriverApplication的执行与输出都是通过SparkContext来完成的。在正式提交Application之前,首先需要初始化SparkContext。SparkContext隐藏了网络通信、分布式部署、消息通信、存储能力、计算能力、缓存、测量系统、文件服务、Web服
weixin_34258078
·
2020-07-08 17:44
Spark-Core
源码精读(4)、对Main类的补充说明
上一篇博客中提到了org.apache.spark.launcher.Main这个类,用来生成供spark-class中exec执行的具体的command,本文我们就来具体看一下这个类的实现机制。首先使用一张图来概括一下Main的实现原理和机制,然后再进行详细说明,俗话说“有图有真相!”下面我们对这张图进行说明:1、首先在spark-class中通过Main[class][classArgs]的方
sun4lower
·
2020-07-05 12:37
Spark-Core
源码精读(12)、Task的提交流程分析
上一篇文章我们谈到,DAGScheduler将Job划分成由Stage组成的DAG后,就根据Stage的具体类型来生成ShuffleMapTask和ResultTask,然后使用TaskSet对其进行封装,最后调用TaskScheduler的submitTasks方法提交具体的TaskSet,而实际上是调用的TaskSchedulerImpl的submitTasks方法,下面我们就来分析具体Tas
sun4lower
·
2020-07-01 18:13
Spark-Core
源码精读(7)、“Driver“服务启动流程解析
本文将解析Spark中Driver服务的开启流程,闲言少叙,直接进入源码。首先Driver服务的开启是在创建Driver的运行时环境的时候完成的,如下所示:SparkContext中://CreatetheSparkexecutionenvironment(cache,mapoutputtracker,etc)_env=createSparkEnv(_conf,isLocal,listenerBu
sun4lower
·
2020-07-01 15:42
spark(一)--spark-core--RDD入门实战(详解各大api,基于IDEA开发)
前言spark系列教程
spark-core
—RDD进阶知识(图文详解,基于IDEA开发)本篇文章操作基于IDEA的本地测试,如果你还不会如何在IDEA中运行spark,请参考这篇文章IDEA开发第一个spark
zisuu
·
2020-06-30 18:57
spark
Spark SQL系列------1. Spark SQL 物理计划的Shuffle实现
SparkSQL物理计划要到
Spark-core
执行,需要将SparkSQL物理计划转化成RDD,并且建立RDD之间的依赖关系。
heayin123
·
2020-06-27 04:30
大数据
spark
Spark-core
之RDD核心概念
一、Spark包括什么spark的核心是SparkCore,其中上面的SparkSql对接的是Hive等结构化查询,SparkStreaming是对接的流式计算,后面的那两个也是主要用在科学任务中,但是他们的基础都是sparkcore,而Sparkcore的核心就是RDD操作,RDD的操作重要的就是算子,也就是说,掌握了算子基本上就掌握了spark的基础。二、RDD1、是什么?简单的一句话就是,为
student__software
·
2020-06-26 15:15
Spark
推荐系统6:SparkML预测模型构建
Spark-Core
的核心开发是基于RDD,但是RDD并不是非常的灵活,如果做一个结构化数据处理,还需要转换成DataFrame(在Python当中引出的概念)DataFrame其实就是行对象的RDD加上
曾牛
·
2020-06-25 03:53
推荐系统从入门到深入
Spark2.2(五)SparkSQL读写Hive
IDEA中使用SparkSQL读写Hive添加依赖libraryDependencies++=Seq("org.apache.spark"%%"
spark-core
"%"2.2.0","org.apache.spark
H_w
·
2020-06-22 08:30
Spark
Scala
scala-a可以使用net.alchim31.maven;最好注释掉pom中的test部分并且删除掉测试代码3.可以更改scalalibrarycontainer4.win7本地运行spark5、需在pom引入
spark-core
PeterWang2017
·
2020-06-22 05:08
Spark-Core
源码精读(2)、Master中的schedule详解
上一篇博客详细分析了Spark在Standalone模式下的部署过程,文中提到在Worker注册完成后需要执行一个schedule操作来分配资源,本文就将具体分析此方法具体是怎样分配资源的。注:本专题的文章皆使用Spark-1.6.3版本的源码为参考,如果Spark-2.1.0版本有重大改进的地方也会进行说明。什么时候会调用schedule?其实每当一个新的application加入或者资源发生变
sun4lower
·
2020-04-07 22:06
Spark-Core
源码精读(1)、Spark Deployment & start-all.sh on Standalone mode
本文为精度
Spark-core
的源码的第一节,主要内容包括SparkDeployment的简介和Standalone模式下启动集群的详细流程精读。
sun4lower
·
2020-03-31 05:28
Spark-core-架构及工作机制综述
从三个部分来解读
Spark-core
,首先是Spark的架构,阐述了Spark基于弹性分布式数据集RDD这个计算模型的工作机制(计算流程):
SiyueLin
·
2020-03-29 13:48
Spark-Core
源码精读(13)、Task的运行流程分析
上一篇文章我们着重分析了Task的提交过程,本文中我们将对Task的运行进行详细的分析。我们从CoarseGrainedExecutorBackend接收到CoarseGrainedSchedulerBackend发过来的LaunchTask消息开始:caseLaunchTask(data)=>if(executor==null){logError("ReceivedLaunchTaskcomma
sun4lower
·
2020-03-23 16:53
Spark-Core
源码精读(8)、TaskScheduler和SchedulerBackend
从本文开始,我们进入Spark中的调度部分,首先本文将对TaskScheduler和SchedulerBackend的实现原理进行分析。我们从SparkContext中的源码开始:val(sched,ts)=SparkContext.createTaskScheduler(this,master)追踪到SparkContext的createTaskScheduler方法://Createandst
sun4lower
·
2020-02-15 01:36
Spark-Core
源码精读(6)、SparkContext和SparkEnv
本文我们将详细分析SparkContext的源码。我们先来看一下SparkConf:SparkConfSparkContext实例化的时候需要传进一个SparkConf作为参数,SparkConf描述整个Spark应用程序的配置信息,如果和系统默认的配置冲突就会覆盖系统默认的设置。我们经常会在单元测试的时候使用newSparkConf(fasle)(如果不传入参数,默认是true)实例化Spark
sun4lower
·
2020-02-13 16:12
寒假第九天
spark-shell交互式编程更加了解和RDD以及对于编写独立应用程序sbt的打包编程去重也有了了解之前安装完sbt后对于后面的打包需要下载一些文件一直失败,后来我把在网上查询解决方案,找了很久终于教程里
spark-core
张利杰j
·
2020-02-03 12:00
Spark-Core
源码精读(5)、Spark内核架构概述
前面的文章中我们分析了Spark的部署模式和提交程序的流程,也分析了Master中schedule方法在感知到资源变化或者有新的应用程序提交时,启动Driver和Executors的过程,下面我们首先对Spark的内核架构进行系统的分析,然后再用几篇文章对涉及到的各个部分进行详细的说明。一些术语术语描述Application用户编写的程序包括了Driver端的SparkContext、SparkC
sun4lower
·
2020-01-06 21:11
Spark-Core
源码精读(14)、Shuffle--Write部分
前面我们分析了Spark中具体的Task的提交和运行过程,从本文开始我们开始进入Shuffle的世界,Shuffle对于分布式计算来说是至关重要的部分,它直接影响了分布式系统的性能,所以我将尽可能进行详细的分析。我们首先来看Shuffle中的Write部分:overridedefrunTask(context:TaskContext):MapStatus={//DeserializetheRDDu
sun4lower
·
2019-12-21 19:16
Spark-Core
源码精读(3)、spark-shell(spark-submit)流程详解
本文将解读使用spark-shell的方式进入REPL的具体流程。注:本专题的文章皆使用Spark-1.6.3版本的源码为参考,如果Spark-2.1.0版本有重大改进的地方也会进行说明。shell部分下面我们来看一下当我们输入spark-shell--masterspark://master:7077时具体的执行流程,首先当然是看一下spark-shell.sh的源码,我们只选取了相对比较重要的
sun4lower
·
2019-12-20 09:12
Spark-Core
RDD依赖关系
scala>varrdd1=sc.textFile("./words.txt")rdd1:org.apache.spark.rdd.RDD[String]=./words.txtMapPartitionsRDD[16]attextFileat:24scala>valrdd2=rdd1.flatMap(_.split(""))rdd2:org.apache.spark.rdd.RDD[String]
hyunbar
·
2019-12-17 16:00
Spark-Core
RDD中函数(变量)传递
我们进行Spark进行编程的时候,初始化工作是在driver端完成的,而实际的运行程序是在executor端进行,所以就涉及到了进程间的通讯,数据是需要序列化的1、传递函数importorg.apache.spark.{SparkConf,SparkContext}importorg.apache.spark.rdd.RDDobjectSerDemo{defmain(args:Array[Stri
hyunbar
·
2019-12-17 12:00
Spark-Core
RDD行动算子
1、reduce(func)通过func函数聚集RDD中的所有元素,先聚合分区内数据,再聚合分区间数据。scala>valrdd1=sc.parallelize(1to100)scala>rdd1.reduce(_+_)res0:Int=5050scala>valrdd2=sc.parallelize(Array(("a",1),("b",2),("c",3)))scala>rdd2.reduce
hyunbar
·
2019-12-16 12:00
上一页
1
2
3
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他