E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark学习笔记
Spark学习笔记
6-Spark分布式搭建(5)——ubuntu下Spark分布式搭建
0.前言我要搭建的集群是一台Master和3台Worker。先按照前面博客内容配置好。Spark分布式搭建(1)——ubuntu14.04设置root自动登入http://blog.csdn.net/xummgg/article/details/50630583Spark分布式搭建(2)——ubuntu14.04下修改hostname和hostshttp://blog.csdn.net/xummg
xummgg
·
2016-02-07 00:00
spark
spark集群搭建
Spark伪分布式
Spark学习笔记
5-隐式转换,隐式参数,隐式类
1.隐式转换,隐式参数,隐式类scala中隐式转换,隐式参数,隐式类用到的标志符是implicit。1.1隐式转换scala>classPerson(valname:String) definedclassPerson scala>classEngineer(valname:String,valsalary:Double){ |defcode=println("Coding..."+name+"
xummgg
·
2016-02-02 18:00
scala
spark
隐式类
隐式转换
隐式参数
机器学习(三)---
spark学习笔记
Scala是一门多范式的编程语言,一种类似java的编程语言,设计初衷是实现可伸缩的语言、并集成面向对象编程和函数式编程的各种特性。 Spark是UCBerkeleyAMPlab所开源的类HadoopMapReduce的通用并行框架,Spark,拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Sp
china1000
·
2016-01-04 00:00
Spark学习笔记
之初识
1spark官网http://spark.apache.org/2学习版本为1.5.0Spark架构,官方文档解读Sparkapplicationsrunasindependentsetsofprocessesonacluster,coordinatedbytheSparkContextobjectinyourmainprogram(calledthedriverprogram).跟其他分布式系统
xuxiuning
·
2015-11-01 15:00
spark
Spark学习笔记
:(一)入门 glance
参考: http://spark.apache.org/docs/latest/quick-start.html 其它资料: http://mojijs.com/2015/04/190845/index.html http://taoistwar.gitbooks.io/spark-developer-guide/content/index.html h
·
2015-10-31 16:03
spark
spark学习笔记
二
spark官方中文文档(spark亚太研究院联合出品)读书笔记1、RDD操作http://www.tuicool.com/articles/ZfeQrq7RDD支持两种操作:转换(transformations),可以从已有的数据集创建一个新的数据集;动作(actions),在数据集上运行计算后,会向驱动程序返回一个值。map就是一个转换,它讲数据集每一个元素都传递给函数,并返回一个新的分布数据集
wangqiaowqo
·
2015-10-30 12:00
spark学习笔记
:Spark Streaming
Spark的streaming机制简单来说,就是将连续的时间序列切割成不同的离散时间段。针对某个时间段,将该时间段内的所有输入数据组成一个RDD,接下来的工作就如同一个传统的sprark应用一样,对这个RDD进行各种变换,直到最终输出数据。可以认为,SparkStreaming就是在时间维度上,为每个时间段都创建了同一个spark应用,这样表面上看起来就像是流式的工作方式。其中每个方框都是一个RD
m635674608
·
2015-10-27 00:00
Spark学习笔记
之-Spark 命令及程序入口
Spark有几种不同的提交任务的脚本,可参考以下这个文章,写的简洁明了http://blog.csdn.net/lovehuangjiaju/article/details/48768371实际上可以看出spark各种脚本,spark-shell、spark-sql实现方式都是通过调用spark-submit脚本来实现的,而spark-submit又是通过spark-class脚本来实现的,spa
dandykang
·
2015-10-21 09:16
Spark学习笔记
之-Spark-Standalone下driver和executor分配
看了看spark-standalone的资源分配过程,还是记录一下吧,久了回顾一下。Standalone模式下存在的角色。Client:客户端进程,负责提交作业到Master。Master:Standalone模式中主控节点,负责接收Client提交的作业,管理Worker,并命令Worker启动Driver和Executor。Worker:Standalone模式中slave节点上的守护进程,负
dandykang
·
2015-09-17 18:20
spark学习笔记
总结-spark入门资料精化
Spark学习笔记
Spark简介spark可以很容易和yarn结合,直接调用HDFS、Hbase上面的数据,和hadoop结合。配置很容易。spark发展迅猛,框架比hadoop更加灵活实用。
u013719780
·
2015-09-14 22:00
Spark学习笔记
之-Spark Standalone(环境搭建)
Sparkstandalone分为master和worker,具体启动方法可用手动启动或脚本启动集群。官方参考手册:http://spark.apache.org/docs/1.4.0/spark-standalone.html1、手动启动可以参考:http://www.th7.cn/Program/java/201309/148408.shtml2、启动脚本方式:可以通过SPARK_HOME目录
dandykang
·
2015-09-11 11:00
Spark学习笔记
之-Spark on yarn(动态资源调度)
对于Spark应用来说,资源是影响Spark应用执行效率的一个重要因素。当一个长期运行的服务(比如ThriftServer),若分配给它多个Executor,可是却没有任何任务分配给它,而此时有其他的应用却资源张,这就造成了很大的资源浪费和资源不合理的调度。动态资源调度就是为了解决这种场景,根据当前应用任务的负载情况,实时的增减Executor个数,从而实现动态分配资源,使整个Spark系统更加健
dandykang
·
2015-09-01 17:20
Spark学习笔记
之-Spark on yarn(External Shuffle Service)
Spark系统在运行含shuffle过程的应用时,Executor进程除了运行task,还要负责写shuffle数据,给其他Executor提供shuffle数据。当Executor进程任务过重,导致GC而不能为其他Executor提供shuffle数据时,会影响任务运行。这里实际上是利用ExternalShuffleService来提升性能,ExternalshuffleService是长期存在
dandykang
·
2015-09-01 17:42
Spark学习笔记
之-Spark远程调试
Spark远程调试本例子介绍简单介绍spark一种远程调试方法,使用的IDE是IntelliJIDEA。1、了解jvm一些参数属性-Xdebug-Xrunjdwp:transport=dt_socket,server=y,suspend=y,address=8888这里对上面的几个参数进行说明:-Xdebug启用调试特性-Xrunjdwp启用JDWP实现,包含若干子选项:transport=dt_
dandykang
·
2015-09-01 09:37
Machine Learning With
Spark学习笔记
(在10万电影数据上训练、使用推荐模型)
我们现在开始训练模型,还输入参数如下:rank:ALS中因子的个数,通常来说越大越好,但是对内存占用率有直接影响,通常rank在10到200之间。iterations:迭代次数,每次迭代都会减少ALS的重构误差。在几次迭代之后,ALS模型都会收敛得到一个不错的结果,所以大多情况下不需要太多的迭代(通常是10次)。lambda:模型的正则化参数,控制着避免过度拟合,值越大,越正则化。我们将使用50个
LXYTSOS
·
2015-08-14 16:00
spark
机器学习
Machine Learning With
Spark学习笔记
(提取10万电影数据特征)
注:原文中的代码是在spark-shell中编写执行的,本人的是在eclipse中编写执行,所以结果输出形式可能会与这本书中的不太一样。首先将用户数据u.data读入SparkContext中,然后输出第一条数据看看效果,代码如下:valsc=newSparkContext("local","ExtractFeatures") valrawData=sc.textFile("F:\\ScalaWo
LXYTSOS
·
2015-08-14 11:00
spark
机器学习
Spark学习笔记
-Streaming-Flume
http://blog.csdn.net/fighting_one_piece/article/details/40667035SparkStreaming与Flume集成有两种模式:1、基于推模式Flume配置文件如下:[plain] viewplaincopya1.sources = r1 a1.channels = c1 a1.sinks = k1 a1.sources.r1.ty
moonpure
·
2015-08-04 15:00
Spark学习笔记
-安装部署与运行实例
先解压scala,本次选用版本scala-2.11.1[hadoop@centossoftware]$tar-xzvfscala-2.11.1.tgz[hadoop@centossoftware]$su-[root@centos~]#vi/etc/profile添加如下内容:SCALA_HOME=/home/hadoop/software/scala-2.11.1PATH=$SCALA_HOME/
moonpure
·
2015-07-28 19:00
Machine Learning With
Spark学习笔记
此笔记为本人在阅读MachineLearningWith Spark的时候所做的,笔记有翻译不准确或错误的地方欢迎大家指正。Spark集群Spark集群由两种进程组成:一个驱动程序和多个执行程序。在本地模式下,所有的进程都在同一个Java虚拟机中运行。在集群上,这些进程则通常在多个节点上运行。比如,在单机环境下运行的集群有以下特征:1、一个主节点作为spark单机模式的主进程和驱动程序。2、一系列
LXYTSOS
·
2015-07-01 14:00
Spark-机器学习
Spark学习笔记
之浅释
概述: Spark是一个基于内存计算的开源集群计算系统,目的是让数据分析更加快速。 Spark非常小巧玲珑,由加州伯克利大学AMP实验室的小团队开发。使用的语言是Scala,项目的core部分的代码只有63个Scala文件。(AMP实验室名字有点意思:AlgorithmMachinePeople,算法、机器、人) Spark是一种与Hadoop相似的开源集群计算环境,但是两者之间还存在一些不
sunlei1980
·
2015-06-20 10:00
scala
hadoop
spark
迭代
Spark学习笔记
之SparkRDD
Spark学习笔记
之SparkRDD一、基本概念RDD(resilientdistributeddatasets)弹性分布式数据集。
ChouYarn
·
2015-04-18 19:00
蜗龙徒行-
Spark学习笔记
【四】Spark集群中使用spark-submit提交jar任务包实战经验
一、所遇问题由于在IDEA下可以方便快捷地运行scala程序,所以先前并没有在终端下使用spark-submit提交打包好的jar任务包的习惯,但是其只能在local模式下执行,在网上搜了好多帖子设置VM参数都不能启动spark集群,由于实验任务紧急只能暂时作罢IDEA下任务提交,继而改由终端下使用spark-submit提交打包好的jar任务。二、spark-shell功能介绍进入$SPARK_
网埠头
·
2015-04-14 16:53
Spark
蜗龙徒行-
Spark学习笔记
【四】Spark集群中使用spark-submit提交jar任务包实战经验
一、所遇问题 由于在IDEA下可以方便快捷地运行scala程序,所以先前并没有在终端下使用spark-submit提交打包好的jar任务包的习惯,但是其只能在local模式下执行,在网上搜了好多帖子设置VM参数都不能启动spark集群,由于实验任务紧急只能暂时作罢IDEA下任务提交,继而改由终端下使用spark-submit提交打包好的jar任务。二、spark-shell功能介绍
cafuc46wingw
·
2015-04-14 16:00
spark
集群
蜗龙徒行-
Spark学习笔记
【三】Spark集群中worker节点扩展实战经验
一、集群原先配置: 主机名sparkMaster,Ubuntu12.04-32,用户名Root,内存4g (只用于任务调度和分配,不做计算节点) 从机名sparkSlave1,Ubuntu12.04-32,用户名Root ,内存4g (计算节点) 从机名sparkSlave2,Ubuntu12.04-32,用
cafuc46wingw
·
2015-04-14 11:00
spark
集群
内存
Spark学习笔记
以下是读Learning Spark Lightning-Fast Big Data Analysis时做的翻译或笔记 持续更新...(先开个头,以后有没有时间再说...) 1.数据分析工具Spark介绍 2.下载Spark并尝试使用 7.在集群中运行Spark (用sbt打包Spark应用) 使用机器环境:
天朗java
·
2015-04-02 14:00
scala
spark
big data
蜗龙徒行-
Spark学习笔记
【二】Spark shell下kmeans聚类算法的应用
在终端打开spark-shell然后在scala编辑模式下依次输入以下命令://导入算法执行所需函数库importorg.apache.spark.mllib.clustering.KMeansimportorg.apache.spark.mllib.linalg.Vectors//加载并分析数据valdata=sc.textFile("data/mllib/kmeans_data.txt")va
cafuc46wingw
·
2015-03-26 12:00
算法
spark
蜗龙徒行-
Spark学习笔记
【一】初识Spark形成、演进、发展
【一】Hadoop版本演进过程 由于Hadoop1.X以前版本在MapReduce基本构架的设计上存在作业主控节点(JobTracker)单点瓶颈、作业执行延迟过长、编程框架不灵活等较多的缺陷和不足,2011年10月,Hadoop推出了基于新一代构架的Hadoop0.23.0测试版,该版本系列最终演化为Hadoop2.0版本,即新一代的Hadoop系统YARN。2013年10月Y
cafuc46wingw
·
2014-12-15 20:00
Spark学习笔记
-Tachyon运行Spark
Tachyon版本:tachyon-0.5.0-bin.tar.gzSpark版本:spark-1.1.0-bin-hadoop2.4.tgzTachyon的安装部署可以参考:Tachyon学习笔记-安装部署与运行实例修改spark-env.sh文件,内容如下:SPARK_CLASSPATH=/home/hadoop/software/tachyon-0.5.0/core/target/tachy
wulinshishen
·
2014-11-22 00:00
spark
Tachyon
Spark学习笔记
-Streaming-1<转>
SparkStreaming是将流式计算分解成一系列短小的批处理作业。这里的批处理引擎是SparkEngine,也就是把SparkStreaming的输入数据按照batchsize(如1秒)分成一段一段的数据(DiscretizedStream),每一段数据都转换成Spark中的RDD(ResilientDistributedDataset),然后将SparkStreaming中对DStream
yongjian_luo
·
2014-11-06 11:00
Spark学习笔记
-Streaming-Flume
SparkStreaming与Flume集成有两种模式:1、基于推模式Flume配置文件如下:a1.sources=r1 a1.channels=c1 a1.sinks=k1 a1.sources.r1.type=netcat a1.sources.r1.bind=centos.host1 a1.sources.r1.port=22222 a1.sources.r1.channels=c1 a
wulinshishen
·
2014-11-01 00:00
spark
Flume
Streaming
Spark学习笔记
Spark学习笔记
转贴请声明原文:http://blog.csdn.net/duck_genuine/article/details/40506715join跟union方法测试效果join(otherDataset
源远流长
·
2014-10-27 14:52
Spark
技术学习笔记
Spark学习笔记
-GraphX-2
SparkGraphX的一些其他有用操作:importorg.apache.spark._ importorg.apache.spark.SparkContext importorg.apache.spark.graphx._ importorg.apache.spark.graphx.Graph importorg.apache.spark.graphx.util.GraphGenerators
wulinshishen
·
2014-09-29 17:00
Graph
GraphX
Pregel
图运算
Sprak
Spark学习笔记
-GraphX-1
SparkGraphX是一个分布式图处理框架,SparkGraphX基于Spark平台提供对图计算和图挖掘简洁易用的而丰富多彩的接口,极大的方便了大家对分布式图处理的需求。SparkGraphX由于底层是基于Spark来处理的,所以天然就是一个分布式的图处理系统。图的分布式或者并行处理其实是把这张图拆分成很多的子图,然后我们分别对这些子图进行计算,计算的时候可以分别迭代进行分阶段的计算,即
wulinshishen
·
2014-09-29 13:00
spark
Graph
GraphX
图计算
Spark学习笔记
-Streaming-1
SparkStreaming是将流式计算分解成一系列短小的批处理作业。这里的批处理引擎是SparkEngine,也就是把SparkStreaming的输入数据按照batchsize(如1秒)分成一段一段的数据(DiscretizedStream),每一段数据都转换成Spark中的RDD(ResilientDistributedDataset),然后将SparkStreaming中对DStr
wulinshishen
·
2014-09-28 18:00
spark
Streaming
Spark学习笔记
-SparkSQL-1
SparkSQL引入了一种新的弹性分布式数据集SchemaRDD,SchemaRDD由行对象以及描述行对象中每列数据类型的schema组成。SchemaRDD很象传统数据库中的表。SchemaRDD可以通过RDD、Parquet文件、JSON文件、或者通过使用hiveql查询hive数据来建立。SchemaRDD除了可以和RDD一样操作外,还可以通过registerTempTable注册成
wulinshishen
·
2014-09-21 23:00
sql
spark
Spark学习笔记
-KNN算法实现
KNN算法原理可以参考:数据挖掘笔记-分类-KNN-1 基于Spark简单实现算法代码如下:objectSparkKNNextendsSerializable{ defmain(args:Array[String]){ if(args.length!=4){ println("error,pleaseinputthreepath."); println("1trainsetpath."); p
wulinshishen
·
2014-09-04 18:00
数据挖掘
spark
knn
Spark学习笔记
-HBase操作
Scala版本操作HBaseimportorg.apache.spark.SparkContext importorg.apache.spark._ importorg.apache.hadoop.hbase.HBaseConfiguration importorg.apache.hadoop.hbase.HTableDescriptor importorg.apache.hadoop.hbase
wulinshishen
·
2014-08-08 12:00
scala
spark
hbase
Spark学习笔记
(三)-RDD(弹性分布式数据集)
RDD是一些对象的只读集合,被划分到多台机器上,并且在某个划分块丢失之后可以重建.用户可以显式的把RDD缓存在内存中,方便在类似于Map-Reduce的并发操作中重用,这也是为什么Spark比较适合处理迭代式Job的原因.RDD通过"血统"(lineage)的概念来保证容错性,当RDD的一个划分块丢失之后,该RDD知道怎样从其他的RDD中重建该划分块.RDD中的元素不需要被存储在物理设备上,每个R
lantian0802
·
2014-08-05 22:00
spark
Spark学习笔记
-安装部署与运行实例
首先解压scala,本次选用版本scala-2.11.1[hadoop@centossoftware]$tar-xzvfscala-2.11.1.tgz[hadoop@centossoftware]$su-[root@centos~]#vi/etc/profile添加如下内容:SCALA_HOME=/home/hadoop/software/scala-2.11.1PATH=$SCALA_HOME
wulinshishen
·
2014-06-13 17:00
scala
hadoop
spark
wordcount
RDD
Spark学习笔记
-安装部署与运行实例
首先解压scala,本次选用版本scala-2.11.1 [hadoop@centos software]$ tar -xzvf scala-2.11.1.tgz [hadoop@centos software]$ su - [root@centos ~]# vi /etc/profile 添加如下内容: SCALA_HOME=/home/hadoop/software/scal
fighting_2013
·
2014-06-13 17:00
java
hadoop
scala
spark
python
spark in eclipse---
Spark学习笔记
3
想要调试源代码,还是要放到eclipse里面去。先生成eclipse项目,下载依赖包victor@victor-ubuntu:~/software/incubator-spark-0.8.1-incubating$mvneclipse:eclipse [INFO]Scanningforprojects... [INFO]---------------------------------------
u014388509
·
2014-05-20 11:00
spark源代码
Spark实例TopN---
Spark学习笔记
11
Spark是基于内存的分布式计算框架,性能是十分彪悍的。话接上回,部署完Spark集群之后,想要测试一下,Spark的性能。1、环境集群概况可以参见SparkHadoop集群部署与Spark操作HDFS运行详解。现在集群里有一大约7G的文件,是手机号和IP地址的组合。hadoopdfs-dus/dw/spark/mobile.txthdfs://web02.dw:9000/dw/spark/mob
u014388509
·
2014-05-14 18:00
scala
spark
分布式计算
性能测试
HADOOP集群
Spark Hadoop集群部署与Spark操作HDFS运行详解---
Spark学习笔记
10
目前spark的Runon的hadoop版本大多是hadoop2以上,但是实际上各个公司的生产环境不尽相同,用到2.0以上的公司还是少数。大多数公司还是停留在1代hadoop上,所以我就拿spark0.91+ hadoop0.20.2-cdh3u5来部署一个小集群,以供测试学习使用。一、环境概况Spark集群3台:web01: slaveweb02:masterdb01:slaveHadoop集群
u014388509
·
2014-04-21 18:00
jvm
hadoop
scala
spark
分布式
RDD Dependency详解---
Spark学习笔记
9
RDD的最重要的特性之一就是血缘关系,血缘关系描述了一个RDD是如何从父RDD计算得来的。这个性质可以理解为人类的进化,人是怎么从猿人一步步进化到现代的人类的,每个进化阶段可以理解为一个RDD。如果某个RDD丢失了,则可以根据血缘关系,从父RDD计算得来。总结:RDD可以描述为一组partition的向量表示,且具有依赖关系。Dependency(依赖):图中蓝色实心矩形就是一个个的partiti
u014388509
·
2014-04-16 18:00
scala
spark
RDD
Spark RDD Action 详解---
Spark学习笔记
8
话接上回SparkRDDTransformation。这次学习的是SparkRDD的Action部分函数。这次拿根目录下的kmeans_data.txt当数据源来实践。reduce和transformation里面的reduceByKey差不多,但是这里没有根据key分组,只是单纯的2个参数。valkemeans_data=sc.textFile("kmeans_data.txt") kemean
u014388509
·
2014-04-04 17:00
jvm
scala
spark
RDD
Spark RDD Transformation 详解---
Spark学习笔记
7
这几天学习了SparkRDDtransformation和action,做个笔记记录下心得,顺便分享给大家。1.启动spark-shell SPARK_MASTER=local[4]./spark-shell.shWelcometo ____ __ /__/__ ________//__ _\\/_\/_`/__/ '_/ /___/.__/\_,_/_//_/\
u014388509
·
2014-04-04 16:00
spark
RDD
spark应用开发---
Spark学习笔记
6
如何部署和开发一个spark应用程序呢?首先要选好环境,我用的是incubator-spark-0.8.1-incubating,那么对应的是scala版本是2.9.3。如果使用maven或者sbt构建,则可以使用gavgroupId=org.apache.spark artifactId=spark-core_2.9.3 version=0.8.1-incubating如果要访问HDFS,则需要
u014388509
·
2014-04-03 00:00
spark
Spark计算Pi运行过程详解---
Spark学习笔记
4
上回运行了一个计算Pi的例子那么Spark究竟是怎么执行的呢?我们来看一下脚本#!/bin/shexportYARN_CONF_DIR=/home/victor/software/hadoop-2.2.0/etc/hadoopSPARK_JAR=./assembly/target/scala-2.9.3/spark-assembly-0.8.1-incubating-hadoop2.2.0.jar
u014388509
·
2014-03-31 00:00
spark
Spark计算Pi---
Spark学习笔记
2
话接上回
Spark学习笔记
1-编译源代码,已经成功编译了sparkonyarn启动yarnvictor@victor-ubuntu:~/software/hadoop-2.2.0/sbin$.
u014388509
·
2014-03-28 22:00
spark
Spark源码编译---
Spark学习笔记
1
要学习一个框架最好的方式就是调试其源代码。编译Spark0.81 withhadoop2.2.0本机环境:1.eclipsekepler2.maven3.13.scala2.9.34.ubuntu12.04步骤:1.先从网上下载spark0.81的源代码. 下载方式:_2. upzipv0.8.1-incubating.zip3. exportMAVEN_OPTS="-Xmx1g-XX:MaxPe
u014388509
·
2014-03-28 01:00
spark源代码
上一页
1
2
3
4
5
6
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他