spark学习第16页

Spark学习笔记：（一）入门 glance

参考：　　http://spark.apache.org/docs/latest/quick-start.html 其它资料： http://mojijs.com/2015/04/190845/index.html http://taoistwar.gitbooks.io/spark-developer-guide/content/index.html h

·2015-10-31 16:03

spark学习笔记二

spark官方中文文档（spark亚太研究院联合出品）读书笔记1、RDD操作http://www.tuicool.com/articles/ZfeQrq7RDD支持两种操作：转换(transformations),可以从已有的数据集创建一个新的数据集;动作(actions),在数据集上运行计算后，会向驱动程序返回一个值。map就是一个转换，它讲数据集每一个元素都传递给函数，并返回一个新的分布数据集

wangqiaowqo·2015-10-30 12:00

spark学习连接

SparkSQL结构化数据分析http://www.aboutyun.com/thread-14481-1-1.htmlSpark1.3.0版中DataFrame实践http://www.aboutyun.com/thread-12312-1-3.html怎样利用SparkStreaming和Hadoop实现近实时的会话连接http://www.aboutyun.com/thread-13883-

wangqiaowqo·2015-10-28 17:00

spark学习笔记：Spark Streaming

Spark的streaming机制简单来说，就是将连续的时间序列切割成不同的离散时间段。针对某个时间段，将该时间段内的所有输入数据组成一个RDD，接下来的工作就如同一个传统的sprark应用一样，对这个RDD进行各种变换，直到最终输出数据。可以认为，SparkStreaming就是在时间维度上，为每个时间段都创建了同一个spark应用，这样表面上看起来就像是流式的工作方式。其中每个方框都是一个RD

m635674608·2015-10-27 00:00

Spark学习笔记之-Spark 命令及程序入口

Spark有几种不同的提交任务的脚本，可参考以下这个文章，写的简洁明了http://blog.csdn.net/lovehuangjiaju/article/details/48768371实际上可以看出spark各种脚本，spark-shell、spark-sql实现方式都是通过调用spark-submit脚本来实现的，而spark-submit又是通过spark-class脚本来实现的，spa

dandykang·2015-10-21 09:16

我关注的一周技术动态 2015.10.18

从Storm和Spark学习流式实时分布式计算的设计http://www.csdn.net/article/2014-08-04/2821018/1要点: 流式计算并不是什么新鲜的东西,相信很多同学也都用过

zhengran_baidu·2015-10-18 09:00

spark学习6-spark模拟hive的列转行和行转列

继续上一篇学习spark本次将通过一个实际场景来综合学习下spark如何实现hive中的列转行和行转列（关于hive的）列转行和行转列介绍见：http://blog.csdn.net/jthink_/article/details/38853573）问题描述假设我们有这样的交易记录，如下：@[email protected]

Cumu_·2015-10-14 09:09

Spark学习知识点

1.Spark集群部署及开发环境搭建。内容包括Hadoop集群、Spark集群搭建，IntellijIDEASpark开发环境搭建,SparkShell的使用等。2.Spark运行原理。内容包括spark脚本文件解析、Spark几种不同运行方式、RDD原理、宽依赖与窄依赖、Spark任务调度等。3.Spark编程模型，介绍Spark编程模型、对常用的transformation及action操作进

My_good_science·2015-10-13 10:32

spark学习2之OutOfMemoryError错误的解决办法

KeepLearningBigData·2015-09-18 16:19

Spark学习笔记之-Spark-Standalone下driver和executor分配

看了看spark-standalone的资源分配过程，还是记录一下吧，久了回顾一下。Standalone模式下存在的角色。Client：客户端进程，负责提交作业到Master。Master：Standalone模式中主控节点，负责接收Client提交的作业，管理Worker，并命令Worker启动Driver和Executor。Worker：Standalone模式中slave节点上的守护进程，负

dandykang·2015-09-17 18:20

spark学习笔记总结-spark入门资料精化

Spark学习笔记Spark简介spark可以很容易和yarn结合，直接调用HDFS、Hbase上面的数据，和hadoop结合。配置很容易。spark发展迅猛，框架比hadoop更加灵活实用。

u013719780·2015-09-14 22:00

利用Eclipse构建Spark集成开发环境

Spark：利用Eclipse构建Spark集成开发环境2014-01-0710:36佚名dongxicheng.org我要评论(0)字号：T|T前一篇文章“ApacheSpark学习：将Spark部署到

xuguokun1986·2015-09-12 10:00

Spark学习笔记之-Spark Standalone（环境搭建）

Sparkstandalone分为master和worker，具体启动方法可用手动启动或脚本启动集群。官方参考手册：http://spark.apache.org/docs/1.4.0/spark-standalone.html1、手动启动可以参考：http://www.th7.cn/Program/java/201309/148408.shtml2、启动脚本方式：可以通过SPARK_HOME目录

dandykang·2015-09-11 11:00

Spark学习笔记之-Spark on yarn（动态资源调度）

对于Spark应用来说，资源是影响Spark应用执行效率的一个重要因素。当一个长期运行的服务（比如ThriftServer），若分配给它多个Executor，可是却没有任何任务分配给它，而此时有其他的应用却资源张，这就造成了很大的资源浪费和资源不合理的调度。动态资源调度就是为了解决这种场景，根据当前应用任务的负载情况，实时的增减Executor个数，从而实现动态分配资源，使整个Spark系统更加健

dandykang·2015-09-01 17:20

Spark学习笔记之-Spark on yarn（External Shuffle Service）

Spark系统在运行含shuffle过程的应用时，Executor进程除了运行task，还要负责写shuffle数据，给其他Executor提供shuffle数据。当Executor进程任务过重，导致GC而不能为其他Executor提供shuffle数据时，会影响任务运行。这里实际上是利用ExternalShuffleService来提升性能，ExternalshuffleService是长期存在

dandykang·2015-09-01 17:42

Spark学习笔记之-Spark远程调试

Spark远程调试本例子介绍简单介绍spark一种远程调试方法，使用的IDE是IntelliJIDEA。1、了解jvm一些参数属性-Xdebug-Xrunjdwp:transport=dt_socket,server=y,suspend=y,address=8888这里对上面的几个参数进行说明：-Xdebug启用调试特性-Xrunjdwp启用JDWP实现，包含若干子选项：transport=dt_

dandykang·2015-09-01 09:37

Spark修炼之道——Spark学习路线、课程大纲

课程内容Spark修炼之道（基础篇）——Linux基础（15讲）、Akka分布式编程（8讲）Spark修炼之道（进阶篇）——Spark入门到精通（30讲）Spark修炼之道（实战篇）——Spark应用开发实战篇（20讲）Spark修炼之道（高级篇）——Spark源码解析（50讲）部分内容会在实际编写时动态调整，或补充、或删除。Spark修炼之道（基础篇）——Linux大数据开发基础（15讲）、Li

lovehuangjiaju·2015-08-19 19:00

Machine Learning With Spark学习笔记（在10万电影数据上训练、使用推荐模型）

我们现在开始训练模型，还输入参数如下：rank：ALS中因子的个数，通常来说越大越好，但是对内存占用率有直接影响，通常rank在10到200之间。iterations：迭代次数，每次迭代都会减少ALS的重构误差。在几次迭代之后，ALS模型都会收敛得到一个不错的结果，所以大多情况下不需要太多的迭代（通常是10次）。lambda：模型的正则化参数，控制着避免过度拟合，值越大，越正则化。我们将使用50个

LXYTSOS·2015-08-14 16:00

Machine Learning With Spark学习笔记（提取10万电影数据特征）

注：原文中的代码是在spark-shell中编写执行的，本人的是在eclipse中编写执行，所以结果输出形式可能会与这本书中的不太一样。首先将用户数据u.data读入SparkContext中，然后输出第一条数据看看效果，代码如下：valsc=newSparkContext("local","ExtractFeatures") valrawData=sc.textFile("F:\\ScalaWo

LXYTSOS·2015-08-14 11:00

【Spark学习】Spark 1.1.0 with CDH5.2 安装部署

【Spark学习】Spark1.1.0withCDH5.2安装部署【时间】2014年11月18日【平台】Centos6.5【工具】scp【软件】jdk-7u67-linux-x64.rpmspark-worker

javastart·2015-08-05 17:00

Spark学习笔记-Streaming-Flume

http://blog.csdn.net/fighting_one_piece/article/details/40667035SparkStreaming与Flume集成有两种模式：1、基于推模式Flume配置文件如下：[plain] viewplaincopya1.sources = r1 a1.channels = c1 a1.sinks = k1 a1.sources.r1.ty

moonpure·2015-08-04 15:00

Spark学习笔记-安装部署与运行实例

先解压scala，本次选用版本scala-2.11.1[hadoop@centossoftware]$tar-xzvfscala-2.11.1.tgz[hadoop@centossoftware]$su-[root@centos~]#vi/etc/profile添加如下内容：SCALA_HOME=/home/hadoop/software/scala-2.11.1PATH=$SCALA_HOME/

moonpure·2015-07-28 19:00

利用Eclipse构建Spark集成开发环境

http://dongxicheng.org/framework-on-yarn/spark-eclipse-ide/前一篇文章“ApacheSpark学习：将Spark部署到Hadoop2.2.0上”

moonpure·2015-07-22 11:00

spark学习一

spark学习一 1、参考文档 OSTC2015-张安站-Spark技术内幕 http://share.csdn.net/slides/13506 使用IDEA开发Spark应用 http:/

wangqiaowqo·2015-07-21 16:00

[置顶] Spark与Scala学习

Spark学习配置Spark源码阅读环境Spark的Standalone模式安装部署Spark生态和Spark架构Spark基本概念弹性分布式数据集RDD概述Spark应用执行机制RDD操作详解1——Transformation

JasonDing1354·2015-07-15 22:00

Machine Learning With Spark学习笔记

此笔记为本人在阅读MachineLearningWith Spark的时候所做的，笔记有翻译不准确或错误的地方欢迎大家指正。Spark集群Spark集群由两种进程组成：一个驱动程序和多个执行程序。在本地模式下，所有的进程都在同一个Java虚拟机中运行。在集群上，这些进程则通常在多个节点上运行。比如，在单机环境下运行的集群有以下特征：1、一个主节点作为spark单机模式的主进程和驱动程序。2、一系列

LXYTSOS·2015-07-01 14:00

Spark学习之环境的安装

1、准备工作 ○下载工具 scala-2.9.3：一种编程语言，下载地址：http://www.scala-lang.org/files/archive/scala-2.9.3.tgz spark-1.4.0：必须是编译好的Spark，如果下载的是Source，则需要自己根据环境使用SBT或者MAVEN重新编译才能使用，编译好的Spark下载地址：http://mirror.bit

datapro·2015-06-21 22:00

Spark学习笔记之浅释

概述： Spark是一个基于内存计算的开源集群计算系统，目的是让数据分析更加快速。 Spark非常小巧玲珑，由加州伯克利大学AMP实验室的小团队开发。使用的语言是Scala，项目的core部分的代码只有63个Scala文件。（AMP实验室名字有点意思：AlgorithmMachinePeople，算法、机器、人） Spark是一种与Hadoop相似的开源集群计算环境，但是两者之间还存在一些不

sunlei1980·2015-06-20 10:00

Spark学习之17：Spark访问MySQL

本文描述使用Spark1.4，在spark-shell环境中访问mysql的用法。1.准备MySQL的JDBC驱动将mysql对应版本的驱动上传到启动spark-shell的服务器。这里，将mysql驱动放在$SPARK_HOME的ext目录(自己新建的)。测试连接的是MySQL5.6.19，驱动程序为mysql-connector-java-5.1.31.jar。2.启动spark-shell在

ktlinker1119·2015-06-17 14:13

Spark学习之16：Spark Streaming执行流程(2)

在SparkStreaming执行流程(1)中，描述了SocketReceiver接收数据，然后由BlockGenerator将数据生成Block并存储的过程。本文将描述将Block生成RDD，并提交执行的流程。2.创建Job该图是前文流程图的一部分。在JobGenerator的启动流程中，将创建一个匿名Actor和一个RecurringTimer对象。RecurringTimer定时的向该匿名A

ktlinker1119·2015-06-05 12:40

Spark学习之15：Spark Streaming执行流程(1)

本文以sparkstreaming文档中创建SocketStream的例子来描述StreamingContext的执行流程。例子示例代码：vallines=ssc.socketTextStream("localhost",9999)valwords=lines.flatMap(_.split(""))valpairs=words.map(word=>(word,1))valwordCounts=p

ktlinker1119·2015-06-05 12:14

Spark学习之14：Spark on Yarn

在Yarn运行Spark有两种模式：（1）yarn-cluster；（2）yarn-client。这两种模式的区别是：yarn-cluster模式下，Driver运行在集群的NodeManager中；而yarn-client模式下，Driver运行于启动spark-submit的客户端。本文简要介绍两种模式的执行流程。1.yarn-client1.1.执行流程1.2.解释（1）在yarn-clie

ktlinker1119·2015-05-28 16:03

Spark学习之13：Standalone HA

Standalone模式提供了通过zookeeper来保证Master的高可用性。Standalone模式可以利用Zookeeper来提多个Master间的领导选择和Worker、App的状态存储。在Master启动时，对应的Masteractor对象会根据RECOVERY_MODE来创建相应的Master失败恢复模式。本文描述通过Zookeeper来恢复Master的过程。1.配置项使用Zook

ktlinker1119·2015-05-28 16:07

Spark学习之12：checkpoint

要对RDD做checkpoint操作，需要先调用SparkContext的setCheckpointDir设置checkpoint数据存储位置。RDD的checkpoint操作由SparkContext.runJob发起。如果了解整个Job的执行过程，那么理解RDD的checkpoint就相对简单了。1.RDD.checkpointdefcheckpoint(){if(context.checkp

ktlinker1119·2015-05-25 16:59

Spark学习之11：Shuffle Read

本文描述ShuffleMapTask执行完成后，后续Stage执行时读取ShuffleWrite结果的过程。涉及ShuffleRead的RDD有ShuffledRDD、CoGroupedRDD等。发起ShuffleRead的方法是这些RDD的compute方法。下面以ShuffledRDD为例，描述ShuffleRead过程。0.流程图1.入口函数ShuffleRead操作的入口是Shuffled

ktlinker1119·2015-05-22 14:37

Spark学习之10：Task执行结果返回流程

当ShuffleMapTask或ResultTask执行完成后，其结果会传递给Driver。1.返回流程返回流程涉及Executor和Driver。2.TaskRunner.runoverridedefrun(){......try{......//Runtheactualtaskandmeasureitsruntime.taskStart=System.currentTimeMillis()va

ktlinker1119·2015-05-20 14:20

Spark学习之7：Job触发及Stage划分

1.Job提交触发流程图：作业提交流程由RDD的action操作触发，继而调用SparkContext.runJob。在RDD的action操作后可能会调用多个SparkContext.runJob的重载函数，但最终会调用的runJob见1.1。1.1.SparkContext.runJobdefrunJob[T,U:ClassTag](rdd:RDD[T],func:(TaskContext,I

ktlinker1119·2015-05-12 19:34

Spark学习之6：Broadcast及RDD cache

1.Broadcast1.1.创建流程BlockManager的三个put*方法（putIterator、putBytes、putArray）都包括（tellMaster:Boolean=true）参数，默认值为true。该参数是是否通知Master（BlockManagerMasterActor）的开关，当为true时，在将数据写入本地存储系统后，将会把BlockInfo信息发个Master。这

ktlinker1119·2015-05-04 09:12

Spark学习之5：BlockManager初始化

每个Driver和Executor都有自己的BlockManager，它管理RDD缓存、Shuffle计算结果、Broadcast存储等。1.BlockManagerprivate[spark]classBlockManager(executorId:String,actorSystem:ActorSystem,valmaster:BlockManagerMaster,defaultSeriali

ktlinker1119·2015-05-04 09:26

Spark学习之3：SparkSubmit启动应用程序主类过程

本文主要讲述在standalone模式下，从bin/spark-submit脚本到SparkSubmit类启动应用程序主类的过程。1调用流程图2启动脚本2.1bin/spark-submit#Forclientmode,thedriverwillbelaunchedinthesameJVMthatlaunches#SparkSubmit,sowemayneedtoreadtheproperties

ktlinker1119·2015-04-22 11:41

Spark学习之1：Master启动流程

1.启动脚本sbin/start-master.sh"$sbin"/spark-daemon.shstartorg.apache.spark.deploy.master.Master1--ip$SPARK_MASTER_IP--port$SPARK_MASTER_PORT--webui-port$SPARK_MASTER_WEBUI_PORT参数：（1）SPARK_MASTER_IP（2）SPAR

ktlinker1119·2015-04-20 15:57

Spark学习笔记之SparkRDD

Spark学习笔记之SparkRDD一、基本概念RDD（resilientdistributeddatasets）弹性分布式数据集。

ChouYarn·2015-04-18 19:00

蜗龙徒行-Spark学习笔记【四】Spark集群中使用spark-submit提交jar任务包实战经验

一、所遇问题由于在IDEA下可以方便快捷地运行scala程序，所以先前并没有在终端下使用spark-submit提交打包好的jar任务包的习惯，但是其只能在local模式下执行，在网上搜了好多帖子设置VM参数都不能启动spark集群，由于实验任务紧急只能暂时作罢IDEA下任务提交，继而改由终端下使用spark-submit提交打包好的jar任务。二、spark-shell功能介绍进入$SPARK_

网埠头·2015-04-14 16:53

蜗龙徒行-Spark学习笔记【四】Spark集群中使用spark-submit提交jar任务包实战经验

一、所遇问题由于在IDEA下可以方便快捷地运行scala程序，所以先前并没有在终端下使用spark-submit提交打包好的jar任务包的习惯，但是其只能在local模式下执行，在网上搜了好多帖子设置VM参数都不能启动spark集群，由于实验任务紧急只能暂时作罢IDEA下任务提交，继而改由终端下使用spark-submit提交打包好的jar任务。二、spark-shell功能介绍

cafuc46wingw·2015-04-14 16:00

蜗龙徒行-Spark学习笔记【三】Spark集群中worker节点扩展实战经验

一、集群原先配置：主机名sparkMaster，Ubuntu12.04-32，用户名Root,内存4g （只用于任务调度和分配，不做计算节点）从机名sparkSlave1，Ubuntu12.04-32，用户名Root ,内存4g （计算节点）从机名sparkSlave2，Ubuntu12.04-32，用

cafuc46wingw·2015-04-14 11:00

Spark学习笔记

以下是读Learning Spark Lightning-Fast Big Data Analysis时做的翻译或笔记持续更新...(先开个头，以后有没有时间再说...) 1.数据分析工具Spark介绍 2.下载Spark并尝试使用 7.在集群中运行Spark （用sbt打包Spark应用）使用机器环境：

天朗java·2015-04-02 14:00

蜗龙徒行-Spark学习笔记【二】Spark shell下kmeans聚类算法的应用

在终端打开spark-shell然后在scala编辑模式下依次输入以下命令：//导入算法执行所需函数库importorg.apache.spark.mllib.clustering.KMeansimportorg.apache.spark.mllib.linalg.Vectors//加载并分析数据valdata=sc.textFile("data/mllib/kmeans_data.txt")va

cafuc46wingw·2015-03-26 12:00

提交任务到spark master -- 分布式计算系统spark学习(四)

部署暂时先用默认配置，我们来看看如何提交计算程序到spark上面。拿官方的Python的测试程序搞一下。qpzhang@qpzhangdeMac-mini:~/project/spark-1.3.0-bin-hadoop2.4$catexamples/SimpleApp.py """SimpleApp.py""" frompysparkimportSparkContext logFil

GZ.Jackey·2015-03-25 18:00

蜗龙徒行-Spark学习笔记【一】初识Spark形成、演进、发展

【一】Hadoop版本演进过程由于Hadoop1.X以前版本在MapReduce基本构架的设计上存在作业主控节点(JobTracker)单点瓶颈、作业执行延迟过长、编程框架不灵活等较多的缺陷和不足,2011年10月,Hadoop推出了基于新一代构架的Hadoop0.23.0测试版,该版本系列最终演化为Hadoop2.0版本,即新一代的Hadoop系统YARN。2013年10月Y

cafuc46wingw·2014-12-15 20:00

Spark学习笔记-Tachyon运行Spark

Tachyon版本：tachyon-0.5.0-bin.tar.gzSpark版本：spark-1.1.0-bin-hadoop2.4.tgzTachyon的安装部署可以参考：Tachyon学习笔记-安装部署与运行实例修改spark-env.sh文件，内容如下：SPARK_CLASSPATH=/home/hadoop/software/tachyon-0.5.0/core/target/tachy

wulinshishen·2014-11-22 00:00

推荐频道

spark学习

Spark学习笔记：（一）入门 glance

spark学习笔记二

spark学习连接

spark学习笔记：Spark Streaming

Spark学习笔记之-Spark 命令及程序入口

我关注的一周技术动态 2015.10.18

spark学习6-spark模拟hive的列转行和行转列

Spark学习知识点

spark学习2之OutOfMemoryError错误的解决办法

Spark学习笔记之-Spark-Standalone下driver和executor分配

spark学习笔记总结-spark入门资料精化

利用Eclipse构建Spark集成开发环境

Spark学习笔记之-Spark Standalone（环境搭建）

Spark学习笔记之-Spark on yarn（动态资源调度）

Spark学习笔记之-Spark on yarn（External Shuffle Service）

Spark学习笔记之-Spark远程调试

Spark修炼之道——Spark学习路线、课程大纲

Machine Learning With Spark学习笔记（在10万电影数据上训练、使用推荐模型）

Machine Learning With Spark学习笔记（提取10万电影数据特征）

【Spark学习】Spark 1.1.0 with CDH5.2 安装部署

Spark学习笔记-Streaming-Flume

Spark学习笔记-安装部署与运行实例

利用Eclipse构建Spark集成开发环境

spark学习一

[置顶] Spark与Scala学习

Machine Learning With Spark学习笔记

Spark学习之环境的安装

Spark学习笔记之浅释

Spark学习之17：Spark访问MySQL

Spark学习之16：Spark Streaming执行流程(2)

Spark学习之15：Spark Streaming执行流程(1)

Spark学习之14：Spark on Yarn

Spark学习之13：Standalone HA

Spark学习之12：checkpoint

Spark学习之11：Shuffle Read

Spark学习之10：Task执行结果返回流程

Spark学习之7：Job触发及Stage划分

Spark学习之6：Broadcast及RDD cache

Spark学习之5：BlockManager初始化

Spark学习之3：SparkSubmit启动应用程序主类过程

Spark学习之1：Master启动流程

Spark学习笔记之SparkRDD

蜗龙徒行-Spark学习笔记【四】Spark集群中使用spark-submit提交jar任务包实战经验

蜗龙徒行-Spark学习笔记【四】Spark集群中使用spark-submit提交jar任务包实战经验

蜗龙徒行-Spark学习笔记【三】Spark集群中worker节点扩展实战经验

Spark学习笔记

蜗龙徒行-Spark学习笔记【二】Spark shell下kmeans聚类算法的应用

提交任务到spark master -- 分布式计算系统spark学习(四)

蜗龙徒行-Spark学习笔记【一】初识Spark形成、演进、发展

Spark学习笔记-Tachyon运行Spark