E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark学习
Spark学习
笔记:(一)入门 glance
参考: http://spark.apache.org/docs/latest/quick-start.html 其它资料: http://mojijs.com/2015/04/190845/index.html http://taoistwar.gitbooks.io/spark-developer-guide/content/index.html h
·
2015-10-31 16:03
spark
spark学习
笔记二
spark官方中文文档(spark亚太研究院联合出品)读书笔记1、RDD操作http://www.tuicool.com/articles/ZfeQrq7RDD支持两种操作:转换(transformations),可以从已有的数据集创建一个新的数据集;动作(actions),在数据集上运行计算后,会向驱动程序返回一个值。map就是一个转换,它讲数据集每一个元素都传递给函数,并返回一个新的分布数据集
wangqiaowqo
·
2015-10-30 12:00
spark学习
连接
SparkSQL结构化数据分析http://www.aboutyun.com/thread-14481-1-1.htmlSpark1.3.0版中DataFrame实践http://www.aboutyun.com/thread-12312-1-3.html怎样利用SparkStreaming和Hadoop实现近实时的会话连接http://www.aboutyun.com/thread-13883-
wangqiaowqo
·
2015-10-28 17:00
spark学习
笔记:Spark Streaming
Spark的streaming机制简单来说,就是将连续的时间序列切割成不同的离散时间段。针对某个时间段,将该时间段内的所有输入数据组成一个RDD,接下来的工作就如同一个传统的sprark应用一样,对这个RDD进行各种变换,直到最终输出数据。可以认为,SparkStreaming就是在时间维度上,为每个时间段都创建了同一个spark应用,这样表面上看起来就像是流式的工作方式。其中每个方框都是一个RD
m635674608
·
2015-10-27 00:00
Spark学习
笔记之-Spark 命令及程序入口
Spark有几种不同的提交任务的脚本,可参考以下这个文章,写的简洁明了http://blog.csdn.net/lovehuangjiaju/article/details/48768371实际上可以看出spark各种脚本,spark-shell、spark-sql实现方式都是通过调用spark-submit脚本来实现的,而spark-submit又是通过spark-class脚本来实现的,spa
dandykang
·
2015-10-21 09:16
我关注的一周技术动态 2015.10.18
从Storm和
Spark学习
流式实时分布式计算的设计http://www.csdn.net/article/2014-08-04/2821018/1要点: 流式计算并不是什么新鲜的东西,相信很多同学也都用过
zhengran_baidu
·
2015-10-18 09:00
spark学习
6-spark模拟hive的列转行和行转列
继续上一篇学习spark本次将通过一个实际场景来综合学习下spark如何实现hive中的列转行和行转列(关于hive的)列转行和行转列介绍见:http://blog.csdn.net/jthink_/article/details/38853573)问题描述假设我们有这样的交易记录,如下:@
[email protected]
Cumu_
·
2015-10-14 09:09
大数据
hadoop
mapreduce
spark
Spark学习
知识点
1.Spark集群部署及开发环境搭建。内容包括Hadoop集群、Spark集群搭建,IntellijIDEASpark开发环境搭建,SparkShell的使用等。2.Spark运行原理。内容包括spark脚本文件解析、Spark几种不同运行方式、RDD原理、宽依赖与窄依赖、Spark任务调度等。3.Spark编程模型,介绍Spark编程模型、对常用的transformation及action操作进
My_good_science
·
2015-10-13 10:32
Spark学习知识点
spark学习
2之OutOfMemoryError错误的解决办法
更多代码请见:https://github.com/xubo245/SparkLearningspark之OutOfMemoryError错误的解决办法:xubo@xubo:~/cloud/spark-1.4.1$spark-submit--masterlocalexamples/src/main/python/pi.py1000Traceback(mostrecentcalllast):File
KeepLearningBigData
·
2015-09-18 16:19
spark
Spark学习
笔记之-Spark-Standalone下driver和executor分配
看了看spark-standalone的资源分配过程,还是记录一下吧,久了回顾一下。Standalone模式下存在的角色。Client:客户端进程,负责提交作业到Master。Master:Standalone模式中主控节点,负责接收Client提交的作业,管理Worker,并命令Worker启动Driver和Executor。Worker:Standalone模式中slave节点上的守护进程,负
dandykang
·
2015-09-17 18:20
spark学习
笔记总结-spark入门资料精化
Spark学习
笔记Spark简介spark可以很容易和yarn结合,直接调用HDFS、Hbase上面的数据,和hadoop结合。配置很容易。spark发展迅猛,框架比hadoop更加灵活实用。
u013719780
·
2015-09-14 22:00
利用Eclipse构建Spark集成开发环境
Spark:利用Eclipse构建Spark集成开发环境2014-01-0710:36佚名dongxicheng.org我要评论(0)字号:T|T前一篇文章“Apache
Spark学习
:将Spark部署到
xuguokun1986
·
2015-09-12 10:00
Spark学习
笔记之-Spark Standalone(环境搭建)
Sparkstandalone分为master和worker,具体启动方法可用手动启动或脚本启动集群。官方参考手册:http://spark.apache.org/docs/1.4.0/spark-standalone.html1、手动启动可以参考:http://www.th7.cn/Program/java/201309/148408.shtml2、启动脚本方式:可以通过SPARK_HOME目录
dandykang
·
2015-09-11 11:00
Spark学习
笔记之-Spark on yarn(动态资源调度)
对于Spark应用来说,资源是影响Spark应用执行效率的一个重要因素。当一个长期运行的服务(比如ThriftServer),若分配给它多个Executor,可是却没有任何任务分配给它,而此时有其他的应用却资源张,这就造成了很大的资源浪费和资源不合理的调度。动态资源调度就是为了解决这种场景,根据当前应用任务的负载情况,实时的增减Executor个数,从而实现动态分配资源,使整个Spark系统更加健
dandykang
·
2015-09-01 17:20
Spark学习
笔记之-Spark on yarn(External Shuffle Service)
Spark系统在运行含shuffle过程的应用时,Executor进程除了运行task,还要负责写shuffle数据,给其他Executor提供shuffle数据。当Executor进程任务过重,导致GC而不能为其他Executor提供shuffle数据时,会影响任务运行。这里实际上是利用ExternalShuffleService来提升性能,ExternalshuffleService是长期存在
dandykang
·
2015-09-01 17:42
Spark学习
笔记之-Spark远程调试
Spark远程调试本例子介绍简单介绍spark一种远程调试方法,使用的IDE是IntelliJIDEA。1、了解jvm一些参数属性-Xdebug-Xrunjdwp:transport=dt_socket,server=y,suspend=y,address=8888这里对上面的几个参数进行说明:-Xdebug启用调试特性-Xrunjdwp启用JDWP实现,包含若干子选项:transport=dt_
dandykang
·
2015-09-01 09:37
Spark修炼之道——
Spark学习
路线、课程大纲
课程内容Spark修炼之道(基础篇)——Linux基础(15讲)、Akka分布式编程(8讲)Spark修炼之道(进阶篇)——Spark入门到精通(30讲)Spark修炼之道(实战篇)——Spark应用开发实战篇(20讲)Spark修炼之道(高级篇)——Spark源码解析(50讲)部分内容会在实际编写时动态调整,或补充、或删除。Spark修炼之道(基础篇)——Linux大数据开发基础(15讲)、Li
lovehuangjiaju
·
2015-08-19 19:00
spark
大数据
分布式
Spark修炼之道
Machine Learning With
Spark学习
笔记(在10万电影数据上训练、使用推荐模型)
我们现在开始训练模型,还输入参数如下:rank:ALS中因子的个数,通常来说越大越好,但是对内存占用率有直接影响,通常rank在10到200之间。iterations:迭代次数,每次迭代都会减少ALS的重构误差。在几次迭代之后,ALS模型都会收敛得到一个不错的结果,所以大多情况下不需要太多的迭代(通常是10次)。lambda:模型的正则化参数,控制着避免过度拟合,值越大,越正则化。我们将使用50个
LXYTSOS
·
2015-08-14 16:00
spark
机器学习
Machine Learning With
Spark学习
笔记(提取10万电影数据特征)
注:原文中的代码是在spark-shell中编写执行的,本人的是在eclipse中编写执行,所以结果输出形式可能会与这本书中的不太一样。首先将用户数据u.data读入SparkContext中,然后输出第一条数据看看效果,代码如下:valsc=newSparkContext("local","ExtractFeatures") valrawData=sc.textFile("F:\\ScalaWo
LXYTSOS
·
2015-08-14 11:00
spark
机器学习
【
Spark学习
】Spark 1.1.0 with CDH5.2 安装部署
【
Spark学习
】Spark1.1.0withCDH5.2安装部署【时间】2014年11月18日【平台】Centos6.5【工具】scp【软件】jdk-7u67-linux-x64.rpmspark-worker
javastart
·
2015-08-05 17:00
Spark学习
笔记-Streaming-Flume
http://blog.csdn.net/fighting_one_piece/article/details/40667035SparkStreaming与Flume集成有两种模式:1、基于推模式Flume配置文件如下:[plain] viewplaincopya1.sources = r1 a1.channels = c1 a1.sinks = k1 a1.sources.r1.ty
moonpure
·
2015-08-04 15:00
Spark学习
笔记-安装部署与运行实例
先解压scala,本次选用版本scala-2.11.1[hadoop@centossoftware]$tar-xzvfscala-2.11.1.tgz[hadoop@centossoftware]$su-[root@centos~]#vi/etc/profile添加如下内容:SCALA_HOME=/home/hadoop/software/scala-2.11.1PATH=$SCALA_HOME/
moonpure
·
2015-07-28 19:00
利用Eclipse构建Spark集成开发环境
http://dongxicheng.org/framework-on-yarn/spark-eclipse-ide/前一篇文章“Apache
Spark学习
:将Spark部署到Hadoop2.2.0上”
moonpure
·
2015-07-22 11:00
spark学习
一
spark学习
一 1、参考文档 OSTC2015-张安站-Spark技术内幕 http://share.csdn.net/slides/13506 使用IDEA开发Spark应用 http:/
wangqiaowqo
·
2015-07-21 16:00
spark
[置顶] Spark与Scala学习
Spark学习
配置Spark源码阅读环境Spark的Standalone模式安装部署Spark生态和Spark架构Spark基本概念弹性分布式数据集RDD概述Spark应用执行机制RDD操作详解1——Transformation
JasonDing1354
·
2015-07-15 22:00
spark
Machine Learning With
Spark学习
笔记
此笔记为本人在阅读MachineLearningWith Spark的时候所做的,笔记有翻译不准确或错误的地方欢迎大家指正。Spark集群Spark集群由两种进程组成:一个驱动程序和多个执行程序。在本地模式下,所有的进程都在同一个Java虚拟机中运行。在集群上,这些进程则通常在多个节点上运行。比如,在单机环境下运行的集群有以下特征:1、一个主节点作为spark单机模式的主进程和驱动程序。2、一系列
LXYTSOS
·
2015-07-01 14:00
Spark-机器学习
Spark学习
之环境的安装
1、准备工作 ○下载工具 scala-2.9.3:一种编程语言,下载地址:http://www.scala-lang.org/files/archive/scala-2.9.3.tgz spark-1.4.0:必须是编译好的Spark,如果下载的是Source,则需要自己根据环境使用SBT或者MAVEN重新编译才能使用,编译好的Spark下载地址:http://mirror.bit
datapro
·
2015-06-21 22:00
spark
环境
Spark学习
笔记之浅释
概述: Spark是一个基于内存计算的开源集群计算系统,目的是让数据分析更加快速。 Spark非常小巧玲珑,由加州伯克利大学AMP实验室的小团队开发。使用的语言是Scala,项目的core部分的代码只有63个Scala文件。(AMP实验室名字有点意思:AlgorithmMachinePeople,算法、机器、人) Spark是一种与Hadoop相似的开源集群计算环境,但是两者之间还存在一些不
sunlei1980
·
2015-06-20 10:00
scala
hadoop
spark
迭代
Spark学习
之17:Spark访问MySQL
本文描述使用Spark1.4,在spark-shell环境中访问mysql的用法。1.准备MySQL的JDBC驱动将mysql对应版本的驱动上传到启动spark-shell的服务器。这里,将mysql驱动放在$SPARK_HOME的ext目录(自己新建的)。测试连接的是MySQL5.6.19,驱动程序为mysql-connector-java-5.1.31.jar。2.启动spark-shell在
ktlinker1119
·
2015-06-17 14:13
Spark
Spark学习
之16:Spark Streaming执行流程(2)
在SparkStreaming执行流程(1)中,描述了SocketReceiver接收数据,然后由BlockGenerator将数据生成Block并存储的过程。本文将描述将Block生成RDD,并提交执行的流程。2.创建Job该图是前文流程图的一部分。在JobGenerator的启动流程中,将创建一个匿名Actor和一个RecurringTimer对象。RecurringTimer定时的向该匿名A
ktlinker1119
·
2015-06-05 12:40
Spark
Spark学习
之15:Spark Streaming执行流程(1)
本文以sparkstreaming文档中创建SocketStream的例子来描述StreamingContext的执行流程。例子示例代码:vallines=ssc.socketTextStream("localhost",9999)valwords=lines.flatMap(_.split(""))valpairs=words.map(word=>(word,1))valwordCounts=p
ktlinker1119
·
2015-06-05 12:14
Spark
Spark学习
之14:Spark on Yarn
在Yarn运行Spark有两种模式:(1)yarn-cluster;(2)yarn-client。这两种模式的区别是:yarn-cluster模式下,Driver运行在集群的NodeManager中;而yarn-client模式下,Driver运行于启动spark-submit的客户端。本文简要介绍两种模式的执行流程。1.yarn-client1.1.执行流程1.2.解释(1)在yarn-clie
ktlinker1119
·
2015-05-28 16:03
Spark
Spark学习
之13:Standalone HA
Standalone模式提供了通过zookeeper来保证Master的高可用性。Standalone模式可以利用Zookeeper来提多个Master间的领导选择和Worker、App的状态存储。在Master启动时,对应的Masteractor对象会根据RECOVERY_MODE来创建相应的Master失败恢复模式。本文描述通过Zookeeper来恢复Master的过程。1.配置项使用Zook
ktlinker1119
·
2015-05-28 16:07
Spark
Spark学习
之12:checkpoint
要对RDD做checkpoint操作,需要先调用SparkContext的setCheckpointDir设置checkpoint数据存储位置。RDD的checkpoint操作由SparkContext.runJob发起。如果了解整个Job的执行过程,那么理解RDD的checkpoint就相对简单了。1.RDD.checkpointdefcheckpoint(){if(context.checkp
ktlinker1119
·
2015-05-25 16:59
Spark
Spark学习
之11:Shuffle Read
本文描述ShuffleMapTask执行完成后,后续Stage执行时读取ShuffleWrite结果的过程。涉及ShuffleRead的RDD有ShuffledRDD、CoGroupedRDD等。发起ShuffleRead的方法是这些RDD的compute方法。下面以ShuffledRDD为例,描述ShuffleRead过程。0.流程图1.入口函数ShuffleRead操作的入口是Shuffled
ktlinker1119
·
2015-05-22 14:37
Spark
Spark学习
之10:Task执行结果返回流程
当ShuffleMapTask或ResultTask执行完成后,其结果会传递给Driver。1.返回流程返回流程涉及Executor和Driver。2.TaskRunner.runoverridedefrun(){......try{......//Runtheactualtaskandmeasureitsruntime.taskStart=System.currentTimeMillis()va
ktlinker1119
·
2015-05-20 14:20
Spark
Spark学习
之7:Job触发及Stage划分
1.Job提交触发流程图:作业提交流程由RDD的action操作触发,继而调用SparkContext.runJob。在RDD的action操作后可能会调用多个SparkContext.runJob的重载函数,但最终会调用的runJob见1.1。1.1.SparkContext.runJobdefrunJob[T,U:ClassTag](rdd:RDD[T],func:(TaskContext,I
ktlinker1119
·
2015-05-12 19:34
Spark
Spark学习
之6:Broadcast及RDD cache
1.Broadcast1.1.创建流程BlockManager的三个put*方法(putIterator、putBytes、putArray)都包括(tellMaster:Boolean=true)参数,默认值为true。该参数是是否通知Master(BlockManagerMasterActor)的开关,当为true时,在将数据写入本地存储系统后,将会把BlockInfo信息发个Master。这
ktlinker1119
·
2015-05-04 09:12
Spark
Spark学习
之5:BlockManager初始化
每个Driver和Executor都有自己的BlockManager,它管理RDD缓存、Shuffle计算结果、Broadcast存储等。1.BlockManagerprivate[spark]classBlockManager(executorId:String,actorSystem:ActorSystem,valmaster:BlockManagerMaster,defaultSeriali
ktlinker1119
·
2015-05-04 09:26
Spark
Spark学习
之3:SparkSubmit启动应用程序主类过程
本文主要讲述在standalone模式下,从bin/spark-submit脚本到SparkSubmit类启动应用程序主类的过程。1调用流程图2启动脚本2.1bin/spark-submit#Forclientmode,thedriverwillbelaunchedinthesameJVMthatlaunches#SparkSubmit,sowemayneedtoreadtheproperties
ktlinker1119
·
2015-04-22 11:41
Spark
Spark学习
之1:Master启动流程
1.启动脚本sbin/start-master.sh"$sbin"/spark-daemon.shstartorg.apache.spark.deploy.master.Master1--ip$SPARK_MASTER_IP--port$SPARK_MASTER_PORT--webui-port$SPARK_MASTER_WEBUI_PORT参数:(1)SPARK_MASTER_IP(2)SPAR
ktlinker1119
·
2015-04-20 15:57
Spark
Spark学习
笔记之SparkRDD
Spark学习
笔记之SparkRDD一、基本概念RDD(resilientdistributeddatasets)弹性分布式数据集。
ChouYarn
·
2015-04-18 19:00
蜗龙徒行-
Spark学习
笔记【四】Spark集群中使用spark-submit提交jar任务包实战经验
一、所遇问题由于在IDEA下可以方便快捷地运行scala程序,所以先前并没有在终端下使用spark-submit提交打包好的jar任务包的习惯,但是其只能在local模式下执行,在网上搜了好多帖子设置VM参数都不能启动spark集群,由于实验任务紧急只能暂时作罢IDEA下任务提交,继而改由终端下使用spark-submit提交打包好的jar任务。二、spark-shell功能介绍进入$SPARK_
网埠头
·
2015-04-14 16:53
Spark
蜗龙徒行-
Spark学习
笔记【四】Spark集群中使用spark-submit提交jar任务包实战经验
一、所遇问题 由于在IDEA下可以方便快捷地运行scala程序,所以先前并没有在终端下使用spark-submit提交打包好的jar任务包的习惯,但是其只能在local模式下执行,在网上搜了好多帖子设置VM参数都不能启动spark集群,由于实验任务紧急只能暂时作罢IDEA下任务提交,继而改由终端下使用spark-submit提交打包好的jar任务。二、spark-shell功能介绍
cafuc46wingw
·
2015-04-14 16:00
spark
集群
蜗龙徒行-
Spark学习
笔记【三】Spark集群中worker节点扩展实战经验
一、集群原先配置: 主机名sparkMaster,Ubuntu12.04-32,用户名Root,内存4g (只用于任务调度和分配,不做计算节点) 从机名sparkSlave1,Ubuntu12.04-32,用户名Root ,内存4g (计算节点) 从机名sparkSlave2,Ubuntu12.04-32,用
cafuc46wingw
·
2015-04-14 11:00
spark
集群
内存
Spark学习
笔记
以下是读Learning Spark Lightning-Fast Big Data Analysis时做的翻译或笔记 持续更新...(先开个头,以后有没有时间再说...) 1.数据分析工具Spark介绍 2.下载Spark并尝试使用 7.在集群中运行Spark (用sbt打包Spark应用) 使用机器环境:
天朗java
·
2015-04-02 14:00
scala
spark
big data
蜗龙徒行-
Spark学习
笔记【二】Spark shell下kmeans聚类算法的应用
在终端打开spark-shell然后在scala编辑模式下依次输入以下命令://导入算法执行所需函数库importorg.apache.spark.mllib.clustering.KMeansimportorg.apache.spark.mllib.linalg.Vectors//加载并分析数据valdata=sc.textFile("data/mllib/kmeans_data.txt")va
cafuc46wingw
·
2015-03-26 12:00
算法
spark
提交任务到spark master -- 分布式计算系统
spark学习
(四)
部署暂时先用默认配置,我们来看看如何提交计算程序到spark上面。 拿官方的Python的测试程序搞一下。qpzhang@qpzhangdeMac-mini:~/project/spark-1.3.0-bin-hadoop2.4$catexamples/SimpleApp.py """SimpleApp.py""" frompysparkimportSparkContext logFil
GZ.Jackey
·
2015-03-25 18:00
蜗龙徒行-
Spark学习
笔记【一】初识Spark形成、演进、发展
【一】Hadoop版本演进过程 由于Hadoop1.X以前版本在MapReduce基本构架的设计上存在作业主控节点(JobTracker)单点瓶颈、作业执行延迟过长、编程框架不灵活等较多的缺陷和不足,2011年10月,Hadoop推出了基于新一代构架的Hadoop0.23.0测试版,该版本系列最终演化为Hadoop2.0版本,即新一代的Hadoop系统YARN。2013年10月Y
cafuc46wingw
·
2014-12-15 20:00
Spark学习
笔记-Tachyon运行Spark
Tachyon版本:tachyon-0.5.0-bin.tar.gzSpark版本:spark-1.1.0-bin-hadoop2.4.tgzTachyon的安装部署可以参考:Tachyon学习笔记-安装部署与运行实例修改spark-env.sh文件,内容如下:SPARK_CLASSPATH=/home/hadoop/software/tachyon-0.5.0/core/target/tachy
wulinshishen
·
2014-11-22 00:00
spark
Tachyon
上一页
11
12
13
14
15
16
17
18
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他