E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark技术
Spark技术
内幕:Shuffle Read的整体流程
回忆一下,每个Stage的上边界,要么需要从外部存储读取数据,要么需要读取上一个Stage的输出;而下边界,要么是需要写入本地文件系统(需要Shuffle),以供childStage读取,要么是最后一个Stage,需要输出结果。这里的Stage,在运行时的时候就是可以以pipeline的方式运行的一组Task,除了最后一个Stage对应的是ResultTask,其余的Stage对应的都是Shuff
gaowenhui2008
·
2015-03-19 10:00
spark
Spark技术
内幕:Shuffle Map Task运算结果的处理
ShuffleMapTask运算结果的处理这个结果的处理,分为两部分,一个是在Executor端是如何直接处理Task的结果的;还有就是Driver端,如果在接到Task运行结束的消息时,如何对ShuffleWrite的结果进行处理,从而在调度下游的Task时,下游的Task可以得到其需要的数据。Executor端的处理在解析BasicShuffleWriter时,我们知道ShuffleMapTa
清_澈
·
2015-03-19 09:26
Spark
Spark技术
内幕:Shuffle Map Task运算结果的处理
ShuffleMapTask运算结果的处理这个结果的处理,分为两部分,一个是在Executor端是如何直接处理Task的结果的;还有就是Driver端,如果在接到Task运行结束的消息时,如何对ShuffleWrite的结果进行处理,从而在调度下游的Task时,下游的Task可以得到其需要的数据。Executor端的处理在解析BasicShuffleWriter时,我们知道ShuffleMapTa
gaowenhui2008
·
2015-03-19 09:00
spark
[置顶]
Spark技术
内幕:Master基于ZooKeeper的High Availability(HA)源码实现
如果Spark的部署方式选择Standalone,一个采用Master/Slaves的典型架构,那么Master是有SPOF(单点故障,SinglePointofFailure)。Spark可以选用ZooKeeper来实现HA。 ZooKeeper提供了一个LeaderElection机制,利用这个机制可以保证虽然集群存在多个Master但是只有一个是Active的,其他的都是Standby
gaowenhui2008
·
2015-03-19 09:00
spark
Spark技术
内幕:Client,Master和Worker 通信源码解析
Spark的ClusterManager可以有几种部署模式:StandloneMesosYARNEC2Local在向集群提交计算任务后,系统的运算模型就是DriverProgram定义的SparkContext向APPMaster提交,有APPMaster进行计算资源的调度并最终完成计算。具体阐述可以阅读《Spark:大数据的电花火石!》。那么Standalone模式下,Client,Master
gaowenhui2008
·
2015-03-19 09:00
spark
Apache
Spark技术
实战之6 -- spark-submit常见问题及其解决
Apache
Spark技术
实战之6--spark-submit常见问题及其解决除本人同意外,严禁一切转载,徽沪一郎。
javastart
·
2015-03-13 16:00
Databricks、Intel、BAT齐聚,2015 Spark峰会火花四射
在吸引Cloudera、Datastax、MapR、Pivotal、Hortonworks等众多厂商加入的同时,
Spark技术
更在Yahoo、eBay、Twitter、Amazon、阿里、腾讯、百度、小米
gaowenhui2008
·
2015-03-13 13:00
spark
Apache
Spark技术
实战之6 -- spark-submit常见问题及其解决
Apache
Spark技术
实战之6--spark-submit常见问题及其解决除本人同意外,严禁一切转载,徽沪一郎。
javastart
·
2015-03-09 12:00
Spark技术
内幕:Master基于ZooKeeper的High Availability(HA)源码实现
如果Spark的部署方式选择Standalone,一个采用Master/Slaves的典型架构,那么Master是有SPOF(单点故障,SinglePointofFailure)。Spark可以选用ZooKeeper来实现HA。 ZooKeeper提供了一个LeaderElection机制,利用这个机制可以保证虽然集群存在多个Master但是只有一个是Active的,其他的都是Standb
wbj0110
·
2015-03-02 12:00
zookeeper
Spark技术
内幕:Master基于ZooKeeper的High Availability(HA)源码实现
如果Spark的部署方式选择Standalone,一个采用Master/Slaves的典型架构,那么Master是有SPOF(单点故障,SinglePointofFailure)。Spark可以选用ZooKeeper来实现HA。 ZooKeeper提供了一个LeaderElection机制,利用这个机制可以保证虽然集群存在多个Master但是只有一个是Active的,其他的都是Standb
wbj0110
·
2015-03-02 12:00
zookeeper
Spark技术
内幕:Master基于ZooKeeper的High Availability(HA)源码实现
如果Spark的部署方式选择Standalone,一个采用Master/Slaves的典型架构,那么Master是有SPOF(单点故障,SinglePointofFailure)。Spark可以选用ZooKeeper来实现HA。 ZooKeeper提供了一个LeaderElection机制,利用这个机制可以保证虽然集群存在多个Master但是只有一个是Active的,其他的都是Standb
wbj0110
·
2015-03-02 12:00
zookeeper
2014博客之星,感激自己,谢谢大家
其中,专栏《
Spark技术
内幕》收录了25篇博文,
anzhsoft
·
2015-02-20 07:03
杂七杂八
2014博客之星,感激自己,谢谢大家
其中,专栏《
Spark技术
内幕》收录了25篇博文,
anzhsoft2008
·
2015-02-20 07:00
简单说说MapReduce, Tez, Spark
其强烈推崇
Spark技术
,宣称Spark是大数据的未来,同时宣布了Hadoop的死刑。那么与Hadoop相比,
Spark技术
如何?现工业界大数据技术都在使用何种技术?
Kelvin-Liang
·
2015-01-25 09:01
Hadoop
Hive
Spark技术
内幕:Storage 模块整体架构
Storage模块负责了Spark计算过程中所有的存储,包括基于Disk的和基于Memory的。用户在实际编程中,面对的是RDD,可以将RDD的数据通过调用org.apache.spark.rdd.RDD#cache将数据持久化;持久化的动作都是由Storage模块完成的。包括Shuffle过程中的数据,也都是由Storage模块管理的。可以说,RDD实现了用户的逻辑,而Storage则管理了用户
anzhsoft2008
·
2015-01-18 19:00
spark
spark
storage
Spark技术
内幕:Shuffle的性能调优
通过上面的架构和源码实现的分析,不难得出Shuffle是SparkCore比较复杂的模块的结论。它也是非常影响性能的操作之一。因此,在这里整理了会影响Shuffle性能的各项配置。尽管大部分的配置项在前文已经解释过它的含义,由于这些参数的确是非常重要,这里算是做一个详细的总结。1.1.1 spark.shuffle.manager前文也多次提到过,Spark1.2.0官方支持两种方式的Shuff
anzhsoft2008
·
2015-01-18 19:00
spark
spark
shuffle
性能调优
Spark技术
内幕:Shuffle的性能调优
原文链接:http://www.cnblogs.com/wuwa/p/6190761.html通过上面的架构和源码实现的分析,不难得出Shuffle是SparkCore比较复杂的模块的结论。它也是非常影响性能的操作之一。因此,在这里整理了会影响Shuffle性能的各项配置。尽管大部分的配置项在前文已经解释过它的含义,由于这些参数的确是非常重要,这里算是做一个详细的总结。1.1.1spark.shu
weixin_33774615
·
2015-01-18 19:00
Spark技术
内幕:Shuffle Read的整体流程
回忆一下,每个Stage的上边界,要么需要从外部存储读取数据,要么需要读取上一个Stage的输出;而下边界,要么是需要写入本地文件系统(需要Shuffle),以供childStage读取,要么是最后一个Stage,需要输出结果。这里的Stage,在运行时的时候就是可以以pipeline的方式运行的一组Task,除了最后一个Stage对应的是ResultTask,其余的Stage对应的都是Shuff
anzhsoft2008
·
2015-01-12 08:00
spark
shuffle
shuffle
read
Spark技术
内幕:Shuffle Map Task运算结果的处理
ShuffleMapTask运算结果的处理这个结果的处理,分为两部分,一个是在Executor端是如何直接处理Task的结果的;还有就是Driver端,如果在接到Task运行结束的消息时,如何对ShuffleWrite的结果进行处理,从而在调度下游的Task时,下游的Task可以得到其需要的数据。Executor端的处理在解析BasicShuffleWriter时,我们知道ShuffleMapTa
anzhsoft2008
·
2015-01-12 08:00
spark
shuffle
shuffle
write
Spark技术
内幕: 如何解决Shuffle Write一定要落盘的问题?
在Spark0.6和0.7时,Shuffle的结果都需要先存储到内存中(有可能要写入磁盘),因此对于大数据量的情况下,发生GC和OOM的概率非常大。因此在Spark0.8的时候,Shuffle的每个record都会直接写入磁盘,并且为下游的每个Task都生成一个单独的文件。这样解决了Shuffle解决都需要存入内存的问题,但是又引入了另外一个问题:生成的小文件过多,尤其在每个文件的数据量不大而文件
anzhsoft2008
·
2015-01-11 15:00
spark
shuffle
Spark技术
内幕:Shuffle Pluggable框架详解,你怎么开发自己的Shuffle Service?
首先介绍一下需要实现的接口。框架的类图如图所示(今天CSDN抽风,竟然上传不了图片。如果需要实现新的Shuffle机制,那么需要实现这些接口。1.1.1 org.apache.spark.shuffle.ShuffleManagerDriver和每个Executor都会持有一个ShuffleManager,这个ShuffleManager可以通过配置项spark.shuffle.manager指
anzhsoft2008
·
2015-01-08 07:00
spark
shuffle
Spark技术
内幕:Sort Based Shuffle实现解析
在Spark1.2.0中,SparkCore的一个重要的升级就是将默认的HashBasedShuffle换成了SortBasedShuffle,即spark.shuffle.manager从hash换成了sort,对应的实现类分别是org.apache.spark.shuffle.hash.HashShuffleManager和org.apache.spark.shuffle.sort.SortS
anzhsoft2008
·
2015-01-05 07:00
spark
Spark GraphX 入门实例完整scala代码
SparkGraphX是作为
Spark技术
堆栈中的一员,担负起了Spark在图计算领域中的重任。网络上已经有很多图计算和SparkGraphX的概念介绍,此处就不再赘述。
samhacker
·
2014-12-20 20:00
scala
spark
实例
Spark技术
内幕: Shuffle详解(三)
前两篇文章写了ShuffleRead的一些实现细节。但是要想彻底理清楚这里边的实现逻辑,还是需要更多篇幅的;本篇开始,将按照Job的执行顺序,来讲解Shuffle。即,结果数据(ShuffleMapTask的结果和ResultTask的结果)是如何产生的;结果是如何处理的;结果是如何读取的。在Worker上接收Task执行命令的是org.apache.spark.executor.CoarseGr
anzhsoft2008
·
2014-12-07 20:00
spark
Spark技术
内幕: Shuffle详解(二)
本文主要关注ShuffledRDD的ShuffleRead是如何从其他的node上读取数据的。上文讲到了获取如何获取的策略都在org.apache.spark.storage.BlockFetcherIterator.BasicBlockFetcherIterator#splitLocalRemoteBlocks中。可以见注释。protecteddefsplitLocalRemoteBlocks(
anzhsoft2008
·
2014-11-30 18:00
spark
shuffle
shuffle
read
Spark技术
内幕: Shuffle详解(一)
通过上面一系列文章,我们知道在集群启动时,在Standalone模式下,Worker会向Master注册,使得Master可以感知进而管理整个集群;Master通过借助ZK,可以简单的实现HA;而应用方通过SparkContext这个与集群的交互接口,在创建SparkContext时就完成了Application的注册,Master为其分配Executor;在应用方创建了RDD并且在这个RDD上进
anzhsoft2008
·
2014-11-29 21:00
Spark技术
内幕:Client,Master和Worker 通信源码解析
http://blog.csdn.net/anzhsoft/article/details/30802603Spark的ClusterManager可以有几种部署模式:StandloneMesosYARNEC2Local在向集群提交计算任务后,系统的运算模型就是DriverProgram定义的SparkContext向APPMaster提交,有APPMaster进行计算资源的调度并最终完成计算。具
bluejoe2000
·
2014-11-24 22:00
Spark技术
内幕:Stage划分及提交源码分析
http://blog.csdn.net/anzhsoft/article/details/39859463当触发一个RDD的action后,以count为例,调用关系如下:org.apache.spark.rdd.RDD#countorg.apache.spark.SparkContext#runJoborg.apache.spark.scheduler.DAGScheduler#runJobo
bluejoe2000
·
2014-11-24 22:00
Apache
Spark技术
实战之7 -- CassandraRDD高并发数据读取实现剖析
未经本人同意,严禁转载,徽沪一郎。 概要 本文就 spark-cassandra-connector 的一些实现细节进行探讨,主要集中于如何快速将大量的数据从cassandra 中读取到本地内存或磁盘。 数据分区 存储在 Cassandra 中数据的一般都会比较多,记录数在千万级别或上亿级别是常见的事。如何将这些表中的内容快速加载到本地内存就是一个非常现实的问题。解决这一挑战的思路从大的方面
·
2014-11-17 21:00
cassandra
Apache
Spark技术
实战之6 -- spark-submit常见问题及其解决
除本人同意外,严禁一切转载,徽沪一郎。 概要 编写了独立运行的Spark Application之后,需要将其提交到Spark Cluster中运行,一般会采用spark-submit来进行应用的提交,在使用spark-submit的过程中,有哪些事情需要注意的呢? 本文试就此做一个小小的总结。 spark-defaults.conf Spark-defaults.conf的作用范围要搞清楚
·
2014-10-26 20:00
apache
Spark技术
内幕: Task向Executor提交的源码解析
在上文《
Spark技术
内幕:Stage划分及提交源码分析》中,我们分析了Stage的生成和提交。
anzhsoft2008
·
2014-10-19 18:00
spark
任务调度
RDD
Spark技术
内幕:Stage划分及提交源码分析
当触发一个RDD的action后,以count为例,调用关系如下:org.apache.spark.rdd.RDD#countorg.apache.spark.SparkContext#runJoborg.apache.spark.scheduler.DAGScheduler#runJoborg.apache.spark.scheduler.DAGScheduler#submitJoborg.ap
anzhsoft2008
·
2014-10-18 23:00
spark
RDD
stage
2014年spark开发者大赛火热进行中!
面向云计算大数据从业者、
Spark技术
爱好者及数百所高校在读学生。无论是对Spark有浓厚兴趣的初学者、或者Spar
HiHeartFirst
·
2014-10-14 17:07
spark热点
spark大赛
2014年spark开发者大赛火热进行中!
面向云计算大数据从业者、
Spark技术
爱好者及数百所高校在读学生。无论是对Spark有浓厚兴趣的初学者、或者Sp
Spark亚太研究院
·
2014-10-14 17:00
spark
大数据
云计算
spark热点
spark技术
spark教程
spark大赛
Spark技术
内幕:究竟什么是RDD
RDD是Spark最基本,也是最根本的数据抽象。http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf是关于RDD的论文。如果觉得英文阅读太费时间,可以看这篇译文:http://shiyanjun.cn/archives/744.html 本文也是基于这篇论文和源码,分析RDD的实现。第一个问题,RDD是什么?ResilientDi
anzhsoft2008
·
2014-10-07 17:00
spark
DAG
stage
Spark技术
内幕:Master的故障恢复
Spark技术
内幕:Master基于ZooKeeper的HighAvailability(HA)源码实现 详细阐述了使用ZK实现的Master的HA,那么Master是如何快速故障恢复的呢?
anzhsoft2008
·
2014-10-05 03:00
spark
zk
Spark技术
内幕:Executor分配详解
当用户应用newSparkContext后,集群就会为在Worker上分配executor,那么这个过程是什么呢?本文以Standalone的Cluster为例,详细的阐述这个过程。序列图如下:1.SparkContext创建TaskScheduler和DAGSchedulerSparkContext是用户应用和Spark集群的交换的主要接口,用户应用一般首先要创建它。如果你使用SparkShel
anzhsoft2008
·
2014-10-05 01:00
spark
调度
executor
Spark技术
内幕之任务调度:从SparkContext开始
SparkContext是开发Spark应用的入口,它负责和整个集群的交互,包括创建RDD,accumulatorsandbroadcastvariables。理解Spark的架构,需要从这个入口开始。下图是官网的架构图。DriverProgram就是用户提交的程序,这里边定义了SparkContext的实例。SparkContext定义在core/src/main/scala/org/apach
anzhsoft2008
·
2014-10-01 21:00
Apache
Spark技术
实战之5 -- SparkR的安装及使用
欢迎转载,转载请注明出处,徽沪一郎。 概要 根据论坛上的信息,在Sparkrelease计划中,在Spark 1.3中有将SparkR纳入到发行版的可能。本文就提前展示一下如何安装及使用SparkR. SparkR的出现解决了R语言中无法级联扩展的难题,同时也极大的丰富了Spark在机器学习方面能够使用的Lib库。SparkR和Spark MLLIB将共同构建出Spark在机器学习方面的优势地
·
2014-09-28 21:00
apache
Apache
Spark技术
实战之4 -- 利用Spark将json文件导入Cassandra
欢迎转载,转载请注明出处。 概要 本文简要介绍如何使用spark-cassandra-connector将json文件导入到cassandra数据库,这是一个使用spark的综合性示例。 前提条件 假设已经阅读技术实战之3,并安装了如下软件 jdk scala sbt cassandra spark-cassandra-connector 实验目的 将存在于jso
·
2014-09-06 14:00
cassandra
Apache
Spark技术
实战之3 -- Spark Cassandra Connector的安装和使用
欢迎转载,转载请注明出处,徽沪一郎。 概要 前提 假设当前已经安装好如下软件 jdk sbt git scala 安装cassandra 以archlinux为例,使用如下指令来安装cassandra yaourt -S cassandra 启动cassandra cassandra -f 创建keyspace和table, 运行/usr/bin/cql
·
2014-09-02 21:00
cassandra
Apache
Spark技术
实战之2 -- PackratParsers实例
欢迎转载,转载请注明出处,徽沪一郎 概要 通过一个简明的Demo程序来说明如何使用scala中的PackratParsers DemoApp import scala.util.parsing.combinator.PackratParsers import scala.util.parsing.combinator.syntactical._ object Dotter extend
·
2014-08-11 13:00
apache
Spark技术
内幕:Worker源码与架构解析
首先通过一张Spark的架构图来了解Worker在Spark中的作用和地位:Worker所起的作用有以下几个:1.接受Master的指令,启动或者杀掉Executor2.接受Master的指令,启动或者杀掉Driver3.报告Executor/Driver的状态到Master4.心跳到Master,心跳超时则Master认为Worker已经挂了不能工作了5.向GUI报告Worker的状态说白了,W
anzhsoft2008
·
2014-08-04 21:00
spark
Apache
Spark技术
实战之1 -- KafkaWordCount
欢迎转载,转载请注明出处,徽沪一郎。 概要 Spark应用开发实践性非常强,很多时候可能都会将时间花费在环境的搭建和运行上,如果有一个比较好的指导将会大大的缩短应用开发流程。Spark Streaming中涉及到和许多第三方程序的整合,源码中的例子如何真正跑起来,文档不是很多也不详细。 本篇主要讲述如何运行KafkaWordCount,这个需要涉及Kafka集群的搭建,还是说的越仔细越好。 搭
·
2014-08-02 21:00
wordcount
Spark书籍连载-Spark高手之路:构建Spark集群1章1步
伴随着大数据相关技术和产业的逐步成熟,继Hadoop之后,
Spark技术
以其无可比拟的优势,发展迅速,将成为替代Hadoop的下一代云计算、大数据核心技术。
Spark亚太研究院
·
2014-07-27 11:00
spark讲义
spark集群
spark书籍
spark教程
spark技术
Spark技术
互动问答分享
Q1:SparkSQL和Shark有啥区别?Shark需要依赖于Hadoop上Hive去做SQL语句的解析和分析Spark,而SQL是主要依赖了Catalyst这个新的查询优化框架,在把SQL解析成逻辑执行计划之后,利用Catalyst包里的一些类和接口,执行了一些简单的执行计划优化,最后变成RDD的计算;Databricks表示,Shark更多是对Hive的改造,替换了Hive的物理执行引擎,因
Spark亚太研究院
·
2014-07-24 17:00
spark技术
spark问答
spark教程
Spark技术
互动问答分享
Q1:groupbykey是排好序的吗?分组排序怎么实现?groupByKey在一个由(K,V)对组成的数据集上调用,返回一个(K,Seq[V])对的数据集,所以是没有排序的;要想分组排序,首先要使用groupByKey完成分组功能,然后使用sortWith这个函数对指完成排序实现;完整代码如下所示:spark.textFile(...).groupByKey().map{p => val
Spark亚太研究院
·
2014-07-24 17:00
spark研究
spark问答
spark技术
Spark技术
互动问答分享
Q1:新手学习spark如何入手才好?先学习Scala的内容,强烈推荐《快学Scala》;然后按照我们免费发布的“云计算分布式大数据Spark实战高手之路(共3本书)”循序渐进的学习即可,其中“云计算分布式大数据Spark实战高手之路---从零开始”涵盖了Spark1.0的所有主题:包括Spark集群的构建,Spark架构设计、Spark内核剖析、Shark、SparkSQL、SparkStrea
Spark亚太研究院
·
2014-07-24 17:00
spark教程
spark互动
spark技术
spark问答
Spark技术
内幕:一个图搞定Spark到底有多少行代码
Spark1.0.0发布一个多月了,那么它有多少行代码(LineofCode,LOC)?注:代码统计未包含测试,sample。
anzhsoft2008
·
2014-06-30 17:00
Spark技术
内幕:Master基于ZooKeeper的High Availability(HA)源码实现
如果Spark的部署方式选择Standalone,一个采用Master/Slaves的典型架构,那么Master是有SPOF(单点故障,SinglePointofFailure)。Spark可以选用ZooKeeper来实现HA。 ZooKeeper提供了一个LeaderElection机制,利用这个机制可以保证虽然集群存在多个Master但是只有一个是Active的,其他的都是Sta
anzhsoft2008
·
2014-06-24 20:00
zookeeper
spark
master
HA
curator
上一页
1
2
3
4
5
6
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他