E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
sparkcontext
spark求topN问题的自定义分区器的实现
{Partitioner,SparkConf,
SparkContext
}importorg.apache.spark.rdd.RDDobjectGroupFavTeacher3{defmain(args
卷曲的葡萄藤
·
2020-08-23 03:41
Spark
spark(一):spark概览及逻辑执行图
一些重要概念先简要介绍一下:clustermanager:资源管理集群,比如standalone、yarn;application:用户编写的应用程序;Driver:application中的main函数,创建的
SparkContext
weixin_33901843
·
2020-08-23 03:36
spark解析CSV文件
{SparkConf,
SparkContext
}objectTelephoneData13{defmain(args:Arra
weixin_30655219
·
2020-08-23 03:34
SparkSQL编程之用户自定义函数
{SparkConf,
SparkContext
}importorg.sl
大数据小同学
·
2020-08-23 03:49
#
SparkSql
从csv文件创建dataFrame
{SparkConf,
SparkContext
}importorg.
kopunk
·
2020-08-23 01:16
大数据学习
CombineByKey
{SparkConf,
SparkContext
}objectCombineByKeyTest{defmain(args:Array[String]):Unit={valdataList:List[(String
念念不忘_
·
2020-08-23 01:12
spark
[spark] spark推测式执行
检测是否有需要推测式执行的Task在
SparkContext
创建了schedu
大写的UFO
·
2020-08-23 01:12
spark
Spark分组二次排序
{SparkConf,
SparkContext
}importscala.collection.mutable.ArrayBufferim
OldBoyee
·
2020-08-23 01:31
Spark
Scala
大数据应用
Hbase
Hive
Hadoop
Storm
大数据架构
SparkStreaming中UpdataStateByKey批次累加算子
{HashPartitioner,SparkConf,
SparkContext
}importorg.apache.spark.streaming.dstream.
Jackson_MVP
·
2020-08-23 00:21
Spark
用spark实现hive中的collect_set函数的功能
importorg.apache.spark.
SparkContext
._importorg.apache.spark._/***Createdbyxiaojunon2015/3/9.
xiao_jun_0820
·
2020-08-22 23:51
spark
面试|spark模块 spark的工作流程?
driver程序运行起来会首先初始化
sparkContext
。在
SparkContext
对象中做的最重要的
zhou12314456
·
2020-08-22 20:04
大数据开发
map
面试
spark
大数据
执行流程
Spark中广播的使用
{SparkConf,
SparkContext
}/**day30课程*Createdbyrooton2016/5/18.
绛门人
·
2020-08-22 19:42
spark
spark之共享数据(广播变量详细图解)
一个广播变量可以通过调用
SparkContext
.broadcast(v)方法从一个初始变量
风是外衣衣衣
·
2020-08-22 19:42
spark
Spark修炼之道(高级篇)——Spark源码阅读:第三节 Spark Job的提交
前一我们分析了
SparkContext
的创建,这一节,我们介绍在RDD执行的时候,如何提交job进行分析,同样是下面的源码:importorg.apache.spark.
weixin_34149796
·
2020-08-22 19:35
Spark学习之路 (七)Spark 运行流程
一、Spark中的基本概念(1)Application:表示你的应用程序(2)Driver:表示main()函数,创建
SparkContext
。
weixin_33901843
·
2020-08-22 19:45
Spark集群的运行流程
SparkonStandalone1.spark集群启动后,Worker向Master注册信息2.spark-submit命令提交程序后,driver和application也会向Master注册信息3.创建
SparkContext
weixin_30642561
·
2020-08-22 19:03
从零开始学习Spark--第5章
SparkContext
类分析
1.
SparkContext
类是Spark的关键类,代码在这里:./core/src/main/scala/org/apache/spark/
SparkContext
.scala。
未济2019
·
2020-08-22 18:40
从零开始学习Spark
Spark如何在一个
SparkContext
中提交多个任务
在使用spark处理数据的时候,大多数都是提交一个job执行,然后job内部会根据具体的任务,生成task任务,运行在多个进程中,比如读取的HDFS文件的数据,spark会加载所有的数据,然后根据block个数生成task数目,多个task运行中不同的进程中,是并行的,如果在同一个进程中一个JVM里面有多个task,那么多个task也可以并行,这是常见的使用方式。考虑下面一种场景,在HDFS上某个
三劫散仙
·
2020-08-22 18:16
spark
spark job提交
当用户生成
sparkcontext
是,在读入文件,可以看出这里直接调用rdd的saveAsTextFilespark-master\spark-master\core\src\main\scala\org
tiantao2012
·
2020-08-22 18:56
大数据
Spark之BroadCast
packagecom.uplooking.bigdata.core.p3;importorg.apache.spark.SparkConf;importorg.apache.spark.
SparkContext
维维weiwei
·
2020-08-22 18:50
Spark生态系统
Spark基础知识系列一(从hdfs获取文件)
{SparkConf,
SparkContext
}/***CreatedbyDamonon3/29/17.*/objectHelloScala{defmain(args:Array[String]
walker_storage
·
2020-08-22 17:20
Spark
spark性能调优之广播大变量
广播变量,很简单其实就是
SparkContext
的broadcast()方法,传入你要广播的变量,即可finalBroadcast>>broadcast=sc.broadcast(fastutilDateHourExtractMap
淘之夭夭2016
·
2020-08-22 17:41
spark
spark
spark性能优化
广播变量
spark的任务调度、运行架构及基于实例的任务提交、划分和调度流程
目录1、spark的任务调度2、spark的运行架构3、基于wordcount程序剖析spark任务的提交、划分、调度流程1、spark的任务调度(1)Driver端运行客户端的main方法,构建
SparkContext
fengge18306
·
2020-08-22 16:43
Spark任务提交底层原理
Driver的任务提交过程1、Driver程序的代码运行到action操作,触发了
SparkContext
的runJob方法。
djph26741
·
2020-08-22 16:26
spark 数据写入到 hbase
hbase需要用到:PairRddFunctions的saveAsHadoopDataset方法,这里用到了implicitconversion,需要我们引入importorg.apache.spark.
SparkContext
cihongmo6452
·
2020-08-22 16:51
Spark作业执行流程
defrddBasics:Unit={valsparkConf:SparkConf=newSparkConf().setAppName("rddbasicsimplement")valsparkContext:
SparkContext
ZH519080
·
2020-08-22 16:54
spark
Spark Core(十三)Job触发流程原理与源码、Stage划分与提交原理分析
Action的时候,就会触发一次Job,因为所有的Action方法在链式调用runJob方法的时候,最后一个runJob方法中总DAGSchedule的runJob方法,而DAGSchedule是初始化
SparkContext
666呀
·
2020-08-22 16:06
spark
大数据专栏(一)Spark
spark BlockManager如何实现Broadcast广播
当通过
SparkContext
调用broadcast()方法的时候,将会直接尝试调用BroadcastFactory的newBroadcast()方法,BroadcastFactory的默认实现是TorrentBroadcastFactory
tydhot
·
2020-08-22 15:29
spark
spark内核揭秘-09-RDD的count操作 触发Job全生命周期-01
RDD源码的count方法:从上面代码可以看出来,count方法触发
SparkContext
的runJob方法的调用:进入runJob(rdd,func,0untilrdd.partitions.size
weixin_30387663
·
2020-08-22 15:13
Spark【学习笔记】 textfile读取 HDFS 文件分区 [压缩与非压缩]
Spark【学习笔记】textfile读取HDFS文件分区[压缩与非压缩]sc.textFile("/blabla/{*.gz}")当我们创建
sparkcontext
后使用textfile读取文件时候,
赵大龙
·
2020-08-22 15:38
大数据
spark中的广播变量broadcast
Spark中的Broadcast处理首先先来看一看broadcast的使用代码:valvalues=List[Int](1,2,3)valbroadcastValues=
sparkContext
.broadcast
隔壁老杨hongs
·
2020-08-22 15:37
spark1.6源码
Spark基础入门(三)--------作业执行方式
(一)
SparkContext
代表对集群的一个连接驱动程序通过
sparkContext
连接spark集群每个JVM只允许启动一个
SparkContext
,一个
sparkContext
连接代表一个application
写代码的可可
·
2020-08-22 15:22
spark基础
[第三章]
sparkContext
原理剖析
spark中,当执行我们的application,也就是我们写的程代码,我们回想一下,之前我们写的spark应用的第一行是不是先构造一个sparkConf,接着通过sparkConfs构造一个非常重要的对象:
SparkContext
cariya
·
2020-08-22 02:46
elasticsearch-spark更新文档
{SparkConf,
SparkContext
}importorg.elasticsearch.spark._/***Createdbymagnetoon16-6-29.
愚公300代
·
2020-08-21 21:17
spark大数据分析:spark core(10)广播变量
{SparkConf,
SparkContext
}objectUserCityBrocast{defmain(args:Array[String]):
_张不帅
·
2020-08-20 20:25
spark-鲨鱼
Spark 算法练习两则
{SparkConf,
SparkContext
}objectdemo01{defmain(args:Array[String]):Unit={p
懒癌牙套妹
·
2020-08-20 13:21
学习笔记
Spark笔记3. RDD和DAGScheduler
RDD基本概念Job:每个action都会触发
sparkcontext
提交一个Job,比如count,collect,reduce这些函数。
董泽润
·
2020-08-20 05:32
Spark存储与读取文件方法小结
大致功能如下defcheckDirExist(sc:
SparkContext
,outpath:String)={logInfo("checkout
linluyisb
·
2020-08-19 02:56
Spark
SparkSQL 概述
博客地址:http://blog.csdn.net/yueqian_zhu/Baseonspark1.5.1overview一、入口:valsc:
SparkContext
//AnexistingSparkContext.valsqlContext
yueqian_zhu
·
2020-08-18 12:45
SparkSQL
spark创建DF的两种方式
方式一:反射:(使用这种方式来创建DF是在你知道字段具体有哪些)1.创建一个
SparkContext
,然后再创建SQLContext2.先创建RDD,对数据进行整理,然后关联caseclass,将非结构化的数据转换成结构化数据
xiaoyaGrace
·
2020-08-18 12:46
spark
Spark Streaming 广播变量更新操作(Java + Sacla)
的广播变量允许在每个工作节点缓存一个只读的变量,这样做的好处是避免任务为每一个Task共享的数据单独创建拷贝,大大节省了运算空间占用,在Java中通过JavaSparkContext.broadcast(v)方法,Scala中通过
SparkContext
.broadcast
wx_start_ag
·
2020-08-18 12:07
spark 序列化对象时的问题-Serializable
{SparkConf,
SparkContext
}//如果sobjectserTest{defmain(args:Array[String]):Unit={//第二种方式class文件就行//如果在driver
微风凉
·
2020-08-18 12:50
spark
运行sparkstreaming的NetworkWordCount不能出现
streaming-programming-guide.html#points-to-remember-1代码:frompysparkimportSparkContextfrompyspark.streamingimportStreamingContextsc=
SparkContext
小白programmer
·
2020-08-18 12:14
spark学习
描述性统计
importpyspark.sql.typesastypfrompyspark.sqlimportSparkSessionspark=SparkSession.builder.getOrCreate()fraud=spark.
sparkContext
.textFile
_Zephyrus_
·
2020-08-18 12:30
Spark
spark作业提交失败分析
ItmighthavebeenkilledortheApplicationMastermayhavefailedtostart.errorspark.
sparkcontext
:errorinilializingsparkc
Moon_魔宽
·
2020-08-18 12:58
大数据
spark程序对hadoop环境的依赖,导致checkpoint失败问题的解决
虽然没有使用hadoop,但是在windows下运行spark程序报如下错误:INFO:org.apache.spark.
SparkContext
-RunningSparkversion1.3.1WARN
heayin123
·
2020-08-18 12:55
大数据
Spark算子案例实操|广告的TOP3
SparkConf并设置App名称valconf:SparkConf=newSparkConf().setAppName("SparkCoreTest").setMaster("local[*]")//2.创建
SparkContext
SmallScorpion
·
2020-08-18 11:54
零
Missing database name. Set via the ‘spark.mongodb.output.uri‘
仔细检查发现,我写了个sparkSession,也写了个
sparkContext
,但是我是
sparkContext
不是由sparkSession创建的。所以就导致一个服务有多个spark
我要用代码向我喜欢的女孩表白
·
2020-08-18 11:16
数据库
mongodb
spark
Intellij IDEA构建Spark2.0以上工程示例
IntellijIDEA新建Spark2.0以上Maven工程示例长时间不用IDEA新建工程,新建的步骤都忘记了,再次记录一下,Spark新版中SparkSession需要依赖的包与
SparkContext
qq_22796957
·
2020-08-18 11:14
Spark走马观花
Spark详解(七):
SparkContext
源码分析以及整体作业提交流程
1.
SparkContext
源码分析在任何Spark程序中,必须要创建一个
SparkContext
,在
SparkContext
中,最主要的就是创建了TaskScheduler和DAGScheduler,
MasterT-J
·
2020-08-18 11:36
Spark框架
Spark框架
上一页
7
8
9
10
11
12
13
14
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他