spark技术第5页

Spark技术内幕：Shuffle Read的整体流程

回忆一下，每个Stage的上边界，要么需要从外部存储读取数据，要么需要读取上一个Stage的输出；而下边界，要么是需要写入本地文件系统（需要Shuffle），以供childStage读取，要么是最后一个Stage，需要输出结果。这里的Stage，在运行时的时候就是可以以pipeline的方式运行的一组Task，除了最后一个Stage对应的是ResultTask，其余的Stage对应的都是Shuff

gaowenhui2008·2015-03-19 10:00

Spark技术内幕：Shuffle Map Task运算结果的处理

ShuffleMapTask运算结果的处理这个结果的处理，分为两部分，一个是在Executor端是如何直接处理Task的结果的；还有就是Driver端，如果在接到Task运行结束的消息时，如何对ShuffleWrite的结果进行处理，从而在调度下游的Task时，下游的Task可以得到其需要的数据。Executor端的处理在解析BasicShuffleWriter时，我们知道ShuffleMapTa

清_澈·2015-03-19 09:26

Spark技术内幕：Shuffle Map Task运算结果的处理

ShuffleMapTask运算结果的处理这个结果的处理，分为两部分，一个是在Executor端是如何直接处理Task的结果的；还有就是Driver端，如果在接到Task运行结束的消息时，如何对ShuffleWrite的结果进行处理，从而在调度下游的Task时，下游的Task可以得到其需要的数据。Executor端的处理在解析BasicShuffleWriter时，我们知道ShuffleMapTa

gaowenhui2008·2015-03-19 09:00

[置顶] Spark技术内幕：Master基于ZooKeeper的High Availability（HA）源码实现

如果Spark的部署方式选择Standalone，一个采用Master/Slaves的典型架构，那么Master是有SPOF（单点故障，SinglePointofFailure）。Spark可以选用ZooKeeper来实现HA。 ZooKeeper提供了一个LeaderElection机制，利用这个机制可以保证虽然集群存在多个Master但是只有一个是Active的，其他的都是Standby

gaowenhui2008·2015-03-19 09:00

Spark技术内幕：Client，Master和Worker 通信源码解析

Spark的ClusterManager可以有几种部署模式：StandloneMesosYARNEC2Local在向集群提交计算任务后，系统的运算模型就是DriverProgram定义的SparkContext向APPMaster提交，有APPMaster进行计算资源的调度并最终完成计算。具体阐述可以阅读《Spark：大数据的电花火石！》。那么Standalone模式下，Client，Master

gaowenhui2008·2015-03-19 09:00

Apache Spark技术实战之6 -- spark-submit常见问题及其解决

ApacheSpark技术实战之6--spark-submit常见问题及其解决除本人同意外，严禁一切转载，徽沪一郎。

javastart·2015-03-13 16:00

Databricks、Intel、BAT齐聚，2015 Spark峰会火花四射

在吸引Cloudera、Datastax、MapR、Pivotal、Hortonworks等众多厂商加入的同时，Spark技术更在Yahoo、eBay、Twitter、Amazon、阿里、腾讯、百度、小米

gaowenhui2008·2015-03-13 13:00

Apache Spark技术实战之6 -- spark-submit常见问题及其解决

ApacheSpark技术实战之6--spark-submit常见问题及其解决除本人同意外，严禁一切转载，徽沪一郎。

javastart·2015-03-09 12:00

Spark技术内幕：Master基于ZooKeeper的High Availability（HA）源码实现

如果Spark的部署方式选择Standalone，一个采用Master/Slaves的典型架构，那么Master是有SPOF（单点故障，SinglePointofFailure）。Spark可以选用ZooKeeper来实现HA。 ZooKeeper提供了一个LeaderElection机制，利用这个机制可以保证虽然集群存在多个Master但是只有一个是Active的，其他的都是Standb

wbj0110·2015-03-02 12:00

Spark技术内幕：Master基于ZooKeeper的High Availability（HA）源码实现

如果Spark的部署方式选择Standalone，一个采用Master/Slaves的典型架构，那么Master是有SPOF（单点故障，SinglePointofFailure）。Spark可以选用ZooKeeper来实现HA。 ZooKeeper提供了一个LeaderElection机制，利用这个机制可以保证虽然集群存在多个Master但是只有一个是Active的，其他的都是Standb

wbj0110·2015-03-02 12:00

Spark技术内幕：Master基于ZooKeeper的High Availability（HA）源码实现

如果Spark的部署方式选择Standalone，一个采用Master/Slaves的典型架构，那么Master是有SPOF（单点故障，SinglePointofFailure）。Spark可以选用ZooKeeper来实现HA。 ZooKeeper提供了一个LeaderElection机制，利用这个机制可以保证虽然集群存在多个Master但是只有一个是Active的，其他的都是Standb

wbj0110·2015-03-02 12:00

2014博客之星，感激自己，谢谢大家

其中，专栏《Spark技术内幕》收录了25篇博文，

anzhsoft·2015-02-20 07:03

2014博客之星，感激自己，谢谢大家

其中，专栏《Spark技术内幕》收录了25篇博文，

anzhsoft2008·2015-02-20 07:00

简单说说MapReduce, Tez, Spark

其强烈推崇Spark技术，宣称Spark是大数据的未来，同时宣布了Hadoop的死刑。那么与Hadoop相比，Spark技术如何？现工业界大数据技术都在使用何种技术？

Kelvin-Liang·2015-01-25 09:01

Spark技术内幕：Storage 模块整体架构

Storage模块负责了Spark计算过程中所有的存储，包括基于Disk的和基于Memory的。用户在实际编程中，面对的是RDD，可以将RDD的数据通过调用org.apache.spark.rdd.RDD#cache将数据持久化；持久化的动作都是由Storage模块完成的。包括Shuffle过程中的数据，也都是由Storage模块管理的。可以说，RDD实现了用户的逻辑，而Storage则管理了用户

anzhsoft2008·2015-01-18 19:00

Spark技术内幕：Shuffle的性能调优

通过上面的架构和源码实现的分析，不难得出Shuffle是SparkCore比较复杂的模块的结论。它也是非常影响性能的操作之一。因此，在这里整理了会影响Shuffle性能的各项配置。尽管大部分的配置项在前文已经解释过它的含义，由于这些参数的确是非常重要，这里算是做一个详细的总结。1.1.1 spark.shuffle.manager前文也多次提到过，Spark1.2.0官方支持两种方式的Shuff

anzhsoft2008·2015-01-18 19:00

Spark技术内幕：Shuffle的性能调优

原文链接：http://www.cnblogs.com/wuwa/p/6190761.html通过上面的架构和源码实现的分析，不难得出Shuffle是SparkCore比较复杂的模块的结论。它也是非常影响性能的操作之一。因此，在这里整理了会影响Shuffle性能的各项配置。尽管大部分的配置项在前文已经解释过它的含义，由于这些参数的确是非常重要，这里算是做一个详细的总结。1.1.1spark.shu

weixin_33774615·2015-01-18 19:00

Spark技术内幕：Shuffle Read的整体流程

回忆一下，每个Stage的上边界，要么需要从外部存储读取数据，要么需要读取上一个Stage的输出；而下边界，要么是需要写入本地文件系统（需要Shuffle），以供childStage读取，要么是最后一个Stage，需要输出结果。这里的Stage，在运行时的时候就是可以以pipeline的方式运行的一组Task，除了最后一个Stage对应的是ResultTask，其余的Stage对应的都是Shuff

anzhsoft2008·2015-01-12 08:00

Spark技术内幕：Shuffle Map Task运算结果的处理

ShuffleMapTask运算结果的处理这个结果的处理，分为两部分，一个是在Executor端是如何直接处理Task的结果的；还有就是Driver端，如果在接到Task运行结束的消息时，如何对ShuffleWrite的结果进行处理，从而在调度下游的Task时，下游的Task可以得到其需要的数据。Executor端的处理在解析BasicShuffleWriter时，我们知道ShuffleMapTa

anzhsoft2008·2015-01-12 08:00

Spark技术内幕：如何解决Shuffle Write一定要落盘的问题？

在Spark0.6和0.7时，Shuffle的结果都需要先存储到内存中（有可能要写入磁盘），因此对于大数据量的情况下，发生GC和OOM的概率非常大。因此在Spark0.8的时候，Shuffle的每个record都会直接写入磁盘，并且为下游的每个Task都生成一个单独的文件。这样解决了Shuffle解决都需要存入内存的问题，但是又引入了另外一个问题：生成的小文件过多，尤其在每个文件的数据量不大而文件

anzhsoft2008·2015-01-11 15:00

Spark技术内幕：Shuffle Pluggable框架详解，你怎么开发自己的Shuffle Service？

首先介绍一下需要实现的接口。框架的类图如图所示（今天CSDN抽风，竟然上传不了图片。如果需要实现新的Shuffle机制，那么需要实现这些接口。1.1.1 org.apache.spark.shuffle.ShuffleManagerDriver和每个Executor都会持有一个ShuffleManager，这个ShuffleManager可以通过配置项spark.shuffle.manager指

anzhsoft2008·2015-01-08 07:00

Spark技术内幕：Sort Based Shuffle实现解析

在Spark1.2.0中，SparkCore的一个重要的升级就是将默认的HashBasedShuffle换成了SortBasedShuffle，即spark.shuffle.manager从hash换成了sort，对应的实现类分别是org.apache.spark.shuffle.hash.HashShuffleManager和org.apache.spark.shuffle.sort.SortS

anzhsoft2008·2015-01-05 07:00

Spark GraphX 入门实例完整scala代码

SparkGraphX是作为Spark技术堆栈中的一员，担负起了Spark在图计算领域中的重任。网络上已经有很多图计算和SparkGraphX的概念介绍，此处就不再赘述。

samhacker·2014-12-20 20:00

Spark技术内幕: Shuffle详解（三）

前两篇文章写了ShuffleRead的一些实现细节。但是要想彻底理清楚这里边的实现逻辑，还是需要更多篇幅的；本篇开始，将按照Job的执行顺序，来讲解Shuffle。即，结果数据（ShuffleMapTask的结果和ResultTask的结果）是如何产生的；结果是如何处理的；结果是如何读取的。在Worker上接收Task执行命令的是org.apache.spark.executor.CoarseGr

anzhsoft2008·2014-12-07 20:00

Spark技术内幕: Shuffle详解（二）

本文主要关注ShuffledRDD的ShuffleRead是如何从其他的node上读取数据的。上文讲到了获取如何获取的策略都在org.apache.spark.storage.BlockFetcherIterator.BasicBlockFetcherIterator#splitLocalRemoteBlocks中。可以见注释。protecteddefsplitLocalRemoteBlocks(

anzhsoft2008·2014-11-30 18:00

Spark技术内幕: Shuffle详解（一）

通过上面一系列文章，我们知道在集群启动时，在Standalone模式下，Worker会向Master注册，使得Master可以感知进而管理整个集群；Master通过借助ZK，可以简单的实现HA；而应用方通过SparkContext这个与集群的交互接口，在创建SparkContext时就完成了Application的注册，Master为其分配Executor；在应用方创建了RDD并且在这个RDD上进

anzhsoft2008·2014-11-29 21:00

Spark技术内幕：Client，Master和Worker 通信源码解析

http://blog.csdn.net/anzhsoft/article/details/30802603Spark的ClusterManager可以有几种部署模式：StandloneMesosYARNEC2Local在向集群提交计算任务后，系统的运算模型就是DriverProgram定义的SparkContext向APPMaster提交，有APPMaster进行计算资源的调度并最终完成计算。具

bluejoe2000·2014-11-24 22:00

Spark技术内幕：Stage划分及提交源码分析

http://blog.csdn.net/anzhsoft/article/details/39859463当触发一个RDD的action后，以count为例，调用关系如下：org.apache.spark.rdd.RDD#countorg.apache.spark.SparkContext#runJoborg.apache.spark.scheduler.DAGScheduler#runJobo

bluejoe2000·2014-11-24 22:00

Apache Spark技术实战之7 -- CassandraRDD高并发数据读取实现剖析

未经本人同意，严禁转载，徽沪一郎。概要本文就 spark-cassandra-connector 的一些实现细节进行探讨,主要集中于如何快速将大量的数据从cassandra 中读取到本地内存或磁盘。数据分区存储在 Cassandra 中数据的一般都会比较多,记录数在千万级别或上亿级别是常见的事。如何将这些表中的内容快速加载到本地内存就是一个非常现实的问题。解决这一挑战的思路从大的方面

·2014-11-17 21:00

Apache Spark技术实战之6 -- spark-submit常见问题及其解决

除本人同意外，严禁一切转载，徽沪一郎。概要编写了独立运行的Spark Application之后，需要将其提交到Spark Cluster中运行，一般会采用spark-submit来进行应用的提交，在使用spark-submit的过程中，有哪些事情需要注意的呢？本文试就此做一个小小的总结。 spark-defaults.conf Spark-defaults.conf的作用范围要搞清楚

·2014-10-26 20:00

Spark技术内幕: Task向Executor提交的源码解析

在上文《Spark技术内幕：Stage划分及提交源码分析》中，我们分析了Stage的生成和提交。

anzhsoft2008·2014-10-19 18:00

Spark技术内幕：Stage划分及提交源码分析

当触发一个RDD的action后，以count为例，调用关系如下：org.apache.spark.rdd.RDD#countorg.apache.spark.SparkContext#runJoborg.apache.spark.scheduler.DAGScheduler#runJoborg.apache.spark.scheduler.DAGScheduler#submitJoborg.ap

anzhsoft2008·2014-10-18 23:00

2014年spark开发者大赛火热进行中！

面向云计算大数据从业者、Spark技术爱好者及数百所高校在读学生。无论是对Spark有浓厚兴趣的初学者、或者Spar

HiHeartFirst·2014-10-14 17:07

2014年spark开发者大赛火热进行中！

面向云计算大数据从业者、Spark技术爱好者及数百所高校在读学生。无论是对Spark有浓厚兴趣的初学者、或者Sp

Spark亚太研究院·2014-10-14 17:00

Spark技术内幕：究竟什么是RDD

RDD是Spark最基本，也是最根本的数据抽象。http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf是关于RDD的论文。如果觉得英文阅读太费时间，可以看这篇译文：http://shiyanjun.cn/archives/744.html 本文也是基于这篇论文和源码，分析RDD的实现。第一个问题，RDD是什么？ResilientDi

anzhsoft2008·2014-10-07 17:00

Spark技术内幕：Master的故障恢复

Spark技术内幕：Master基于ZooKeeper的HighAvailability（HA）源码实现详细阐述了使用ZK实现的Master的HA，那么Master是如何快速故障恢复的呢？

anzhsoft2008·2014-10-05 03:00

Spark技术内幕：Executor分配详解

当用户应用newSparkContext后，集群就会为在Worker上分配executor，那么这个过程是什么呢？本文以Standalone的Cluster为例，详细的阐述这个过程。序列图如下：1.SparkContext创建TaskScheduler和DAGSchedulerSparkContext是用户应用和Spark集群的交换的主要接口，用户应用一般首先要创建它。如果你使用SparkShel

anzhsoft2008·2014-10-05 01:00

Spark技术内幕之任务调度：从SparkContext开始

SparkContext是开发Spark应用的入口，它负责和整个集群的交互，包括创建RDD，accumulatorsandbroadcastvariables。理解Spark的架构，需要从这个入口开始。下图是官网的架构图。DriverProgram就是用户提交的程序，这里边定义了SparkContext的实例。SparkContext定义在core/src/main/scala/org/apach

anzhsoft2008·2014-10-01 21:00

Apache Spark技术实战之5 -- SparkR的安装及使用

欢迎转载，转载请注明出处，徽沪一郎。概要根据论坛上的信息，在Sparkrelease计划中，在Spark 1.3中有将SparkR纳入到发行版的可能。本文就提前展示一下如何安装及使用SparkR. SparkR的出现解决了R语言中无法级联扩展的难题，同时也极大的丰富了Spark在机器学习方面能够使用的Lib库。SparkR和Spark MLLIB将共同构建出Spark在机器学习方面的优势地

·2014-09-28 21:00

Apache Spark技术实战之4 -- 利用Spark将json文件导入Cassandra

欢迎转载，转载请注明出处。概要本文简要介绍如何使用spark-cassandra-connector将json文件导入到cassandra数据库，这是一个使用spark的综合性示例。前提条件假设已经阅读技术实战之3,并安装了如下软件 jdk scala sbt cassandra spark-cassandra-connector 实验目的将存在于jso

·2014-09-06 14:00

Apache Spark技术实战之3 -- Spark Cassandra Connector的安装和使用

欢迎转载，转载请注明出处，徽沪一郎。概要前提假设当前已经安装好如下软件 jdk sbt git scala 安装cassandra 以archlinux为例，使用如下指令来安装cassandra yaourt -S cassandra 启动cassandra cassandra -f 创建keyspace和table, 运行/usr/bin/cql

·2014-09-02 21:00

Apache Spark技术实战之2 -- PackratParsers实例

欢迎转载，转载请注明出处，徽沪一郎概要通过一个简明的Demo程序来说明如何使用scala中的PackratParsers DemoApp import scala.util.parsing.combinator.PackratParsers import scala.util.parsing.combinator.syntactical._ object Dotter extend

·2014-08-11 13:00

Spark技术内幕：Worker源码与架构解析

首先通过一张Spark的架构图来了解Worker在Spark中的作用和地位：Worker所起的作用有以下几个：1.接受Master的指令，启动或者杀掉Executor2.接受Master的指令，启动或者杀掉Driver3.报告Executor/Driver的状态到Master4.心跳到Master，心跳超时则Master认为Worker已经挂了不能工作了5.向GUI报告Worker的状态说白了，W

anzhsoft2008·2014-08-04 21:00

Apache Spark技术实战之1 -- KafkaWordCount

欢迎转载，转载请注明出处，徽沪一郎。概要 Spark应用开发实践性非常强，很多时候可能都会将时间花费在环境的搭建和运行上，如果有一个比较好的指导将会大大的缩短应用开发流程。Spark Streaming中涉及到和许多第三方程序的整合，源码中的例子如何真正跑起来，文档不是很多也不详细。本篇主要讲述如何运行KafkaWordCount，这个需要涉及Kafka集群的搭建，还是说的越仔细越好。搭

·2014-08-02 21:00

Spark书籍连载-Spark高手之路：构建Spark集群1章1步

Spark亚太研究院·2014-07-27 11:00

Spark技术互动问答分享

Q1:SparkSQL和Shark有啥区别？Shark需要依赖于Hadoop上Hive去做SQL语句的解析和分析Spark，而SQL是主要依赖了Catalyst这个新的查询优化框架，在把SQL解析成逻辑执行计划之后，利用Catalyst包里的一些类和接口，执行了一些简单的执行计划优化，最后变成RDD的计算；Databricks表示，Shark更多是对Hive的改造，替换了Hive的物理执行引擎，因

Spark亚太研究院·2014-07-24 17:00

Spark技术互动问答分享

Q1：groupbykey是排好序的吗？分组排序怎么实现？groupByKey在一个由（K,V）对组成的数据集上调用，返回一个（K，Seq[V])对的数据集，所以是没有排序的；要想分组排序，首先要使用groupByKey完成分组功能，然后使用sortWith这个函数对指完成排序实现；完整代码如下所示：spark.textFile（...）.groupByKey().map{p => val

Spark亚太研究院·2014-07-24 17:00

Spark技术互动问答分享

Q1：新手学习spark如何入手才好？先学习Scala的内容，强烈推荐《快学Scala》；然后按照我们免费发布的“云计算分布式大数据Spark实战高手之路（共3本书）”循序渐进的学习即可，其中“云计算分布式大数据Spark实战高手之路---从零开始”涵盖了Spark1.0的所有主题：包括Spark集群的构建，Spark架构设计、Spark内核剖析、Shark、SparkSQL、SparkStrea

Spark亚太研究院·2014-07-24 17:00

Spark技术内幕：一个图搞定Spark到底有多少行代码

Spark1.0.0发布一个多月了，那么它有多少行代码（LineofCode,LOC）？注：代码统计未包含测试，sample。

anzhsoft2008·2014-06-30 17:00

Spark技术内幕：Master基于ZooKeeper的High Availability（HA）源码实现

如果Spark的部署方式选择Standalone，一个采用Master/Slaves的典型架构，那么Master是有SPOF（单点故障，SinglePointofFailure）。Spark可以选用ZooKeeper来实现HA。 ZooKeeper提供了一个LeaderElection机制，利用这个机制可以保证虽然集群存在多个Master但是只有一个是Active的，其他的都是Sta

anzhsoft2008·2014-06-24 20:00

推荐频道

spark技术

Spark技术内幕：Shuffle Read的整体流程

Spark技术内幕：Shuffle Map Task运算结果的处理

Spark技术内幕：Shuffle Map Task运算结果的处理

[置顶] Spark技术内幕：Master基于ZooKeeper的High Availability（HA）源码实现

Spark技术内幕：Client，Master和Worker 通信源码解析

Apache Spark技术实战之6 -- spark-submit常见问题及其解决

Databricks、Intel、BAT齐聚，2015 Spark峰会火花四射

Apache Spark技术实战之6 -- spark-submit常见问题及其解决

Spark技术内幕：Master基于ZooKeeper的High Availability（HA）源码实现

Spark技术内幕：Master基于ZooKeeper的High Availability（HA）源码实现

Spark技术内幕：Master基于ZooKeeper的High Availability（HA）源码实现

2014博客之星，感激自己，谢谢大家

2014博客之星，感激自己，谢谢大家

简单说说MapReduce, Tez, Spark

Spark技术内幕：Storage 模块整体架构

Spark技术内幕：Shuffle的性能调优

Spark技术内幕：Shuffle的性能调优

Spark技术内幕：Shuffle Read的整体流程

Spark技术内幕：Shuffle Map Task运算结果的处理

Spark技术内幕： 如何解决Shuffle Write一定要落盘的问题？

Spark技术内幕：Shuffle Pluggable框架详解，你怎么开发自己的Shuffle Service？

Spark技术内幕：Sort Based Shuffle实现解析

Spark GraphX 入门实例完整scala代码

Spark技术内幕: Shuffle详解（三）

Spark技术内幕: Shuffle详解（二）

Spark技术内幕: Shuffle详解（一）

Spark技术内幕：Client，Master和Worker 通信源码解析

Spark技术内幕：Stage划分及提交源码分析

Apache Spark技术实战之7 -- CassandraRDD高并发数据读取实现剖析

Apache Spark技术实战之6 -- spark-submit常见问题及其解决

Spark技术内幕: Task向Executor提交的源码解析

Spark技术内幕：Stage划分及提交源码分析

2014年spark开发者大赛火热进行中！

2014年spark开发者大赛火热进行中！

Spark技术内幕：究竟什么是RDD

Spark技术内幕：Master的故障恢复

Spark技术内幕：Executor分配详解

Spark技术内幕之任务调度：从SparkContext开始

Apache Spark技术实战之5 -- SparkR的安装及使用

Apache Spark技术实战之4 -- 利用Spark将json文件导入Cassandra

Apache Spark技术实战之3 -- Spark Cassandra Connector的安装和使用

Apache Spark技术实战之2 -- PackratParsers实例

Spark技术内幕：Worker源码与架构解析

Apache Spark技术实战之1 -- KafkaWordCount

Spark书籍连载-Spark高手之路：构建Spark集群1章1步

Spark技术互动问答分享

Spark技术互动问答分享

Spark技术互动问答分享

Spark技术内幕：一个图搞定Spark到底有多少行代码

Spark技术内幕：Master基于ZooKeeper的High Availability（HA）源码实现

Spark技术内幕：如何解决Shuffle Write一定要落盘的问题？