E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Spark-Core
Spark-Core
RDD转换算子-kv型
大多数的Spark操作可以用在任意类型的RDD上,但是有一些比较特殊的操作只能用在key-value类型的RDD上.这些特殊操作大多都涉及到shuffle操作,比如:按照key分组(group),聚集(aggregate)等.在Spark中,这些操作在包含对偶类型(Tuple2)的RDD上自动可用(通过隐式转换).objectRDD{implicitdefrddToPairRDDFunctions
hyunbar
·
2019-12-15 21:00
Spark-Core
RDD转换算子-双Value型交互
1、union(otherDataSet)作用:求并集.对源RDD和参数RDD求并集后返回一个新的RDDscala>valrdd1=sc.parallelize(1to6)scala>valrdd2=sc.parallelize(4to10)scala>valrdd3=rdd1.union(rdd2)scala>rdd3.collectres1:Array[Int]=Array(1,2,3,4,5
hyunbar
·
2019-12-15 19:00
Spark-Core
源码精读(15)、Shuffle--Read部分
上一篇文章我们分析了Shuffle的write部分,本文中我们来继续分析Shuffle的read部分。我们来看ShuffledRDD中的compute方法:overridedefcompute(split:Partition,context:TaskContext):Iterator[(K,C)]={valdep=dependencies.head.asInstanceOf[ShuffleDepe
sun4lower
·
2019-11-05 12:40
Spark-Core
源码精读(10)、注册Application及Executors的启动注册流程(二)
承接上一篇文章,我们继续来分析Executor的启动过程,本文主要分为两部分:向worker发送启动Executor的消息启动完成后向driver发送ExecutorAdded的消息,这里的driver就是ClientEndpointprivatedeflaunchExecutor(worker:WorkerInfo,exec:ExecutorDesc):Unit={logInfo("Launch
sun4lower
·
2019-11-01 18:11
spark的wordcount
在开发环境下实现第一个程序wordcount1、下载和配置scala,注意不要下载2.13,在
spark-core
明确支持scala2.13前,使用2.12或者2.11比较好。
我是属车的
·
2019-10-17 10:00
8.推荐系统之Spark Streaming
一.sparkStreaming概述1.1SparkStreaming它是一个可扩展,高吞吐具有容错性的流式计算框架吞吐量:单位时间内成功传输数据的数量之前学习过的
spark-core
和spark-sql
Sssssss_A
·
2019-08-27 11:39
推荐系统
Spark-Core
相关
SparkCoreSpark概述Spark是用于处理大数据的统一分析引擎。Spark特性Speed:Spark在批处理和流式数据处理方面性能优势比较大,使用DAG调度、查询优化、物理执行引擎。使用简单:可以和多种语言进行交互。Generality:可以与SQL、streaming(流)、或者复杂分析进行结合。RunsEverywhere:Spark可以执行在hadoop、mesos、kuberne
一生逍遥一生
·
2019-03-10 15:08
spark-core
综合练习(广播变量,join的使用)
packageday04 importorg.apache.spark.broadcast.Broadcast importorg.apache.spark.rdd.RDD importorg.apache.spark.{SparkConf,SparkContext} /** *Desc: *数据说明: *users.dat---UserID::Gender::Age::Occupation:
LJ2415
·
2018-12-20 00:00
Spark-core
SparkStreaming源码分析起始篇
SparkStreaming源码分析起始SparkStreaming开端SparkStreaming作为spark的流数据处理框架,并且SparkStreaming以
spark-core
作为底层,并在
spark-core
小狼星I
·
2018-10-21 11:12
SparkSession中出现Exception in thread "main" java.lang.AbstractMethodError
1.使用SparkSession时,出现异常:Exceptioninthread"main"java.lang.AbstractMethodError2.查看pom.xml文件,是否是因为
spark-core
LittleLawson
·
2018-04-17 21:39
Spark
Spark-core-架构及工作机制综述
从三个部分来解读
Spark-core
,首先是Spark的架构,阐述了Spark基于弹性分布式数据集RDD这个计算模型的工作机制(计算流程):
三万_chenbing
·
2018-01-16 13:48
Spark2.1.1
spark_corename:="SBTTest"version:="1.0"scalaVersion:="2.11.8"libraryDependencies+="org.apache.spark"%%"
spark-core
Gpwner
·
2017-06-15 23:16
spark
idea
maven
spark
完美解决Spark应用日志级别设置
从控制台输出日志我们可以看出,应用程序是默认加载
Spark-core
包下面的log4j-defaults.properties日志文件。
IT狗探求
·
2017-06-01 08:10
大数据
大数据专题
Spark on Yarn 安装配置
2、安装yum -y install
spark-core
spark-netlib spark-
navyaijm2012
·
2017-05-12 08:43
集群
master
Spark
大数据
Spark-Core
源码精读(11)、Stage的划分过程和Task数据本地性
本文将主要讨论两个Topic:Stage的划分过程和Task数据本地性引子前面的文章中我们已经分析了Spark应用程序即Application的注册以及Executors的启动注册流程,即计算资源已经分配完成(粗粒度的资源分配方式),换句话说Driver端的代码已经运行完成(SparkConf、SparkContext),接下来就是运行用户编写的业务逻辑代码。图片来自Databricks的Spar
sun4lower
·
2017-03-12 22:09
Spark 操作Hbase 对表的操作:增删改查 scala
:正在build.sbt中设置装备摆设依附(止之间须要空)ame:=test2scalaVersion:=2.10.4libraryDependencies=Seq(org.apache.spark%
spark-core
富的只剩下代码
·
2016-07-22 06:03
spark
第2课:通过案例对SparkStreaming 透彻理解三板斧之二:解密SparkStreaming
com电话:18610086859QQ:1740415547微信号:18610086859上节课通过降维的方式宏观整个sparkstreaming的运行的过程,spark-streaming其本质是构建在
spark-core
freshghost1
·
2016-05-08 08:00
Spark生态之Tachyon学习1---单机版搭建和运行(Alluxio)
环境ubuntu14.04Spark-1.5.2Tachyon-0.7.11.由于最近用的Spark-1.5.2系统默认的tachyon为0.7.1,在
Spark-core
的pom.xml可以查看另外虽然现在
bob601450868
·
2016-05-04 22:00
单机版搭建和运行Alluxio
搭建sparksql的hive测试环境
依赖name:="Pi" version:="1.0" scalaVersion:="2.10.6" libraryDependencies++=Seq( "org.apache.spark"%%"
spark-core
ggz631047367
·
2016-03-31 15:00
Spark SQL系列------1. Spark SQL 物理计划的Shuffle实现
SparkSQL物理计划要到
Spark-core
执行,需要将SparkSQL物理计划转化成RDD,并且建立RDD之间的依赖关系。
u012684933
·
2016-02-25 14:00
Spark-Core
源码阅读
吐血奉献,
Spark-Core
源码阅读,适合新手,详细请见链接:http://download.csdn.net/detail/wl044090432/9421721目录结构为:一.
wl044090432
·
2016-01-29 17:00
源码
spark
阅读
apache-spark导入eclipse环境
从github上下载源码:https://github.com/apache/spark 第一个实验品是
Spark-Core
项目1.existmavenproject导入Eclipse2.Eclipse
一天不进步,就是退步
·
2016-01-16 13:00
spark-sql用hive表格,在yarn-cluster模式下运行遇到的问题及解决办法
最笨的创建repository的办法就是直接创建相应路径,然后把
spark-core
里面的.pom修改一下target里面的名称,直接copy。
·
2015-10-23 08:14
cluster
sparckjava初识
官网是:http://sparkjava.com/简单程序例子:pom.xml添加dependency com.sparkjava
spark-core
2.2 代码:packageco
zhanghuangos
·
2015-09-13 16:00
sparkjava
spark-streaming系列------- 1. spark-streaming的Job调度 上
类似于
spark-core
,spark-streaming有自己的一套任务调度,具体代码在spark-streaming的scheduler包里面。
u012684933
·
2015-09-10 16:00
单独的应用程序(翻译自Learning.Spark.Lightning-Fast.Big.Data.Analysis)
在Java和Scala中,你在你的应用程序的Maven依赖中添加对
spark-core
的依赖就
l294265421
·
2015-08-30 00:00
spark
关于Spark中RDD的思考和总结
(代码基于
Spark-core
1.2.0) 本来这篇想结合自己的经验讨论shuffle,但是shuffle讨论之前还是准备先讨论一下关于
desmoon
·
2015-03-17 22:00
spark
Spark导入eclipse
耐心等待,好多包要下载,第一个实验品是
Spark-Core
项目,过了10分钟左右,项目更新好了,打开项目惊喜的发现.java文件都很好的识别了,但是scala文件没有识别。
yunlong34574
·
2014-09-11 23:00
hadoop-client和jetty的冲突解决
"org.apache.spark"%%"
spark-core
"%"1.0.1"excludeAll(ExclusionRule("org.mortbay.jetty"),ExclusionRule("
liuhui_306
·
2014-08-25 15:00
看example源码学spark系列(2)-SparkPi
文件name:="SparkPi" version:="1.0" scalaVersion:="2.10.3" libraryDependencies+="org.apache.spark"%%"
spark-core
pan12jian
·
2014-05-09 16:00
scala
spark
分布式计算
上一页
1
2
3
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他