Spark-Core 第3页

Spark-Core RDD转换算子-kv型

大多数的Spark操作可以用在任意类型的RDD上,但是有一些比较特殊的操作只能用在key-value类型的RDD上.这些特殊操作大多都涉及到shuffle操作,比如:按照key分组(group),聚集(aggregate)等.在Spark中,这些操作在包含对偶类型(Tuple2)的RDD上自动可用(通过隐式转换).objectRDD{implicitdefrddToPairRDDFunctions

hyunbar·2019-12-15 21:00

Spark-Core RDD转换算子-双Value型交互

1、union（otherDataSet）作用：求并集.对源RDD和参数RDD求并集后返回一个新的RDDscala>valrdd1=sc.parallelize(1to6)scala>valrdd2=sc.parallelize(4to10)scala>valrdd3=rdd1.union(rdd2)scala>rdd3.collectres1:Array[Int]=Array(1,2,3,4,5

hyunbar·2019-12-15 19:00

Spark-Core源码精读(15)、Shuffle--Read部分

上一篇文章我们分析了Shuffle的write部分，本文中我们来继续分析Shuffle的read部分。我们来看ShuffledRDD中的compute方法：overridedefcompute(split:Partition,context:TaskContext):Iterator[(K,C)]={valdep=dependencies.head.asInstanceOf[ShuffleDepe

sun4lower·2019-11-05 12:40

Spark-Core源码精读(10)、注册Application及Executors的启动注册流程(二)

承接上一篇文章，我们继续来分析Executor的启动过程，本文主要分为两部分：向worker发送启动Executor的消息启动完成后向driver发送ExecutorAdded的消息，这里的driver就是ClientEndpointprivatedeflaunchExecutor(worker:WorkerInfo,exec:ExecutorDesc):Unit={logInfo("Launch

sun4lower·2019-11-01 18:11

spark的wordcount

在开发环境下实现第一个程序wordcount1、下载和配置scala，注意不要下载2.13，在spark-core明确支持scala2.13前，使用2.12或者2.11比较好。

我是属车的·2019-10-17 10:00

8.推荐系统之Spark Streaming

一.sparkStreaming概述1.1SparkStreaming它是一个可扩展，高吞吐具有容错性的流式计算框架吞吐量：单位时间内成功传输数据的数量之前学习过的spark-core和spark-sql

Sssssss_A·2019-08-27 11:39

一生逍遥一生·2019-03-10 15:08

spark-core 综合练习(广播变量,join的使用)

packageday04 importorg.apache.spark.broadcast.Broadcast importorg.apache.spark.rdd.RDD importorg.apache.spark.{SparkConf,SparkContext} /** *Desc: *数据说明： *users.dat---UserID::Gender::Age::Occupation:

LJ2415·2018-12-20 00:00

SparkStreaming源码分析起始篇

SparkStreaming源码分析起始SparkStreaming开端SparkStreaming作为spark的流数据处理框架，并且SparkStreaming以spark-core作为底层，并在spark-core

小狼星I·2018-10-21 11:12

SparkSession中出现Exception in thread "main" java.lang.AbstractMethodError

1.使用SparkSession时，出现异常：Exceptioninthread"main"java.lang.AbstractMethodError2.查看pom.xml文件，是否是因为spark-core

LittleLawson·2018-04-17 21:39

Spark-core-架构及工作机制综述

从三个部分来解读Spark-core，首先是Spark的架构，阐述了Spark基于弹性分布式数据集RDD这个计算模型的工作机制（计算流程）：

三万_chenbing·2018-01-16 13:48

Spark2.1.1

spark_corename:="SBTTest"version:="1.0"scalaVersion:="2.11.8"libraryDependencies+="org.apache.spark"%%"spark-core

Gpwner·2017-06-15 23:16

完美解决Spark应用日志级别设置

从控制台输出日志我们可以看出，应用程序是默认加载Spark-core包下面的log4j-defaults.properties日志文件。

IT狗探求·2017-06-01 08:10

Spark on Yarn 安装配置

2、安装yum -y install spark-core spark-netlib spark-

navyaijm2012·2017-05-12 08:43

Spark-Core源码精读(11)、Stage的划分过程和Task数据本地性

本文将主要讨论两个Topic：Stage的划分过程和Task数据本地性引子前面的文章中我们已经分析了Spark应用程序即Application的注册以及Executors的启动注册流程，即计算资源已经分配完成(粗粒度的资源分配方式)，换句话说Driver端的代码已经运行完成(SparkConf、SparkContext)，接下来就是运行用户编写的业务逻辑代码。图片来自Databricks的Spar

sun4lower·2017-03-12 22:09

Spark 操作Hbase 对表的操作：增删改查 scala

：正在build.sbt中设置装备摆设依附（止之间须要空）ame:=test2scalaVersion:=2.10.4libraryDependencies=Seq(org.apache.spark%spark-core

富的只剩下代码·2016-07-22 06:03

第2课：通过案例对SparkStreaming 透彻理解三板斧之二：解密SparkStreaming

com电话：18610086859QQ:1740415547微信号：18610086859上节课通过降维的方式宏观整个sparkstreaming的运行的过程，spark-streaming其本质是构建在spark-core

freshghost1·2016-05-08 08:00

Spark生态之Tachyon学习1---单机版搭建和运行（Alluxio）

环境ubuntu14.04Spark-1.5.2Tachyon-0.7.11．由于最近用的Spark-1.5.2系统默认的tachyon为0.7.1，在Spark-core的pom.xml可以查看另外虽然现在

bob601450868·2016-05-04 22:00

搭建sparksql的hive测试环境

依赖name:="Pi" version:="1.0" scalaVersion:="2.10.6" libraryDependencies++=Seq( "org.apache.spark"%%"spark-core

ggz631047367·2016-03-31 15:00

Spark SQL系列------1. Spark SQL 物理计划的Shuffle实现

SparkSQL物理计划要到Spark-core执行，需要将SparkSQL物理计划转化成RDD，并且建立RDD之间的依赖关系。

u012684933·2016-02-25 14:00

Spark-Core源码阅读

吐血奉献，Spark-Core源码阅读，适合新手，详细请见链接：http://download.csdn.net/detail/wl044090432/9421721目录结构为：一．

wl044090432·2016-01-29 17:00

apache-spark导入eclipse环境

从github上下载源码：https://github.com/apache/spark 第一个实验品是Spark-Core项目1.existmavenproject导入Eclipse2.Eclipse

一天不进步，就是退步·2016-01-16 13:00

spark-sql用hive表格，在yarn-cluster模式下运行遇到的问题及解决办法

最笨的创建repository的办法就是直接创建相应路径，然后把spark-core里面的.pom修改一下target里面的名称，直接copy。

·2015-10-23 08:14

sparckjava初识

官网是：http://sparkjava.com/简单程序例子：pom.xml添加dependency com.sparkjava spark-core 2.2 代码：packageco

zhanghuangos·2015-09-13 16:00

spark-streaming系列------- 1. spark-streaming的Job调度上

类似于spark-core，spark-streaming有自己的一套任务调度，具体代码在spark-streaming的scheduler包里面。

u012684933·2015-09-10 16:00

单独的应用程序（翻译自Learning.Spark.Lightning-Fast.Big.Data.Analysis）

在Java和Scala中，你在你的应用程序的Maven依赖中添加对spark-core的依赖就

l294265421·2015-08-30 00:00

关于Spark中RDD的思考和总结

（代码基于Spark-core 1.2.0）本来这篇想结合自己的经验讨论shuffle，但是shuffle讨论之前还是准备先讨论一下关于

desmoon·2015-03-17 22:00

Spark导入eclipse

耐心等待，好多包要下载，第一个实验品是Spark-Core项目，过了10分钟左右，项目更新好了，打开项目惊喜的发现.java文件都很好的识别了，但是scala文件没有识别。

yunlong34574·2014-09-11 23:00

hadoop-client和jetty的冲突解决

"org.apache.spark"%%"spark-core"%"1.0.1"excludeAll(ExclusionRule("org.mortbay.jetty"),ExclusionRule("

liuhui_306·2014-08-25 15:00

看example源码学spark系列(2)-SparkPi

文件name:="SparkPi" version:="1.0" scalaVersion:="2.10.3" libraryDependencies+="org.apache.spark"%%"spark-core

pan12jian·2014-05-09 16:00

推荐频道

Spark-Core

Spark-Core RDD转换算子-kv型

Spark-Core RDD转换算子-双Value型交互

Spark-Core源码精读(15)、Shuffle--Read部分

Spark-Core源码精读(10)、注册Application及Executors的启动注册流程(二)

spark的wordcount

8.推荐系统之Spark Streaming

Spark-Core相关

spark-core 综合练习(广播变量,join的使用)

SparkStreaming源码分析起始篇

SparkSession中出现Exception in thread "main" java.lang.AbstractMethodError

Spark-core-架构及工作机制综述

Spark2.1.1

完美解决Spark应用日志级别设置

Spark on Yarn 安装配置

Spark-Core源码精读(11)、Stage的划分过程和Task数据本地性

Spark 操作Hbase 对表的操作：增删改查 scala

第2课：通过案例对SparkStreaming 透彻理解三板斧之二：解密SparkStreaming

Spark生态之Tachyon学习1---单机版搭建和运行（Alluxio）

搭建sparksql的hive测试环境

Spark SQL系列------1. Spark SQL 物理计划的Shuffle实现

Spark-Core源码阅读

apache-spark导入eclipse环境

spark-sql用hive表格，在yarn-cluster模式下运行遇到的问题及解决办法

sparckjava初识

spark-streaming系列------- 1. spark-streaming的Job调度上

单独的应用程序（翻译自Learning.Spark.Lightning-Fast.Big.Data.Analysis）

关于Spark中RDD的思考和总结

Spark导入eclipse

hadoop-client和jetty的冲突解决

看example源码学spark系列(2)-SparkPi

推荐频道

Spark-Core

Spark-Core RDD转换算子-kv型

Spark-Core RDD转换算子-双Value型交互

Spark-Core源码精读(15)、Shuffle--Read部分

Spark-Core源码精读(10)、注册Application及Executors的启动注册流程(二)

spark的wordcount

8.推荐系统之Spark Streaming

Spark-Core相关

spark-core 综合练习(广播变量,join的使用)

SparkStreaming源码分析起始篇

SparkSession中出现Exception in thread "main" java.lang.AbstractMethodError

Spark-core-架构及工作机制综述

Spark2.1.1

完美解决Spark应用日志级别设置

Spark on Yarn 安装配置

Spark-Core源码精读(11)、Stage的划分过程和Task数据本地性

Spark 操作Hbase 对表的操作：增删改查 scala

第2课：通过案例对SparkStreaming 透彻理解三板斧之二：解密SparkStreaming

Spark生态之Tachyon学习1---单机版搭建和运行（Alluxio）

搭建sparksql的hive测试环境

Spark SQL系列------1. Spark SQL 物理计划的Shuffle实现

Spark-Core源码阅读

apache-spark导入eclipse环境

spark-sql用hive表格，在yarn-cluster模式下运行遇到的问题及解决办法

sparckjava初识

spark-streaming系列------- 1. spark-streaming的Job调度 上

单独的应用程序（翻译自Learning.Spark.Lightning-Fast.Big.Data.Analysis）

关于Spark中RDD的思考和总结

Spark导入eclipse

hadoop-client和jetty的冲突解决

看example源码学spark系列(2)-SparkPi

spark-streaming系列------- 1. spark-streaming的Job调度上