spark学习笔记第6页

Spark学习笔记6-Spark分布式搭建（5）——ubuntu下Spark分布式搭建

0.前言我要搭建的集群是一台Master和3台Worker。先按照前面博客内容配置好。Spark分布式搭建（1）——ubuntu14.04设置root自动登入http://blog.csdn.net/xummgg/article/details/50630583Spark分布式搭建（2）——ubuntu14.04下修改hostname和hostshttp://blog.csdn.net/xummg

xummgg·2016-02-07 00:00

Spark学习笔记5-隐式转换，隐式参数，隐式类

1.隐式转换，隐式参数，隐式类scala中隐式转换，隐式参数，隐式类用到的标志符是implicit。1.1隐式转换scala>classPerson(valname:String) definedclassPerson scala>classEngineer(valname:String,valsalary:Double){ |defcode=println("Coding..."+name+"

xummgg·2016-02-02 18:00

机器学习（三）--- spark学习笔记

Scala是一门多范式的编程语言，一种类似java的编程语言，设计初衷是实现可伸缩的语言、并集成面向对象编程和函数式编程的各种特性。 Spark是UCBerkeleyAMPlab所开源的类HadoopMapReduce的通用并行框架，Spark，拥有HadoopMapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Sp

china1000·2016-01-04 00:00

Spark学习笔记之初识

1spark官网http://spark.apache.org/2学习版本为1.5.0Spark架构，官方文档解读Sparkapplicationsrunasindependentsetsofprocessesonacluster,coordinatedbytheSparkContextobjectinyourmainprogram(calledthedriverprogram).跟其他分布式系统

xuxiuning·2015-11-01 15:00

Spark学习笔记：（一）入门 glance

参考：　　http://spark.apache.org/docs/latest/quick-start.html 其它资料： http://mojijs.com/2015/04/190845/index.html http://taoistwar.gitbooks.io/spark-developer-guide/content/index.html h

·2015-10-31 16:03

spark学习笔记二

spark官方中文文档（spark亚太研究院联合出品）读书笔记1、RDD操作http://www.tuicool.com/articles/ZfeQrq7RDD支持两种操作：转换(transformations),可以从已有的数据集创建一个新的数据集;动作(actions),在数据集上运行计算后，会向驱动程序返回一个值。map就是一个转换，它讲数据集每一个元素都传递给函数，并返回一个新的分布数据集

wangqiaowqo·2015-10-30 12:00

spark学习笔记：Spark Streaming

Spark的streaming机制简单来说，就是将连续的时间序列切割成不同的离散时间段。针对某个时间段，将该时间段内的所有输入数据组成一个RDD，接下来的工作就如同一个传统的sprark应用一样，对这个RDD进行各种变换，直到最终输出数据。可以认为，SparkStreaming就是在时间维度上，为每个时间段都创建了同一个spark应用，这样表面上看起来就像是流式的工作方式。其中每个方框都是一个RD

m635674608·2015-10-27 00:00

Spark学习笔记之-Spark 命令及程序入口

Spark有几种不同的提交任务的脚本，可参考以下这个文章，写的简洁明了http://blog.csdn.net/lovehuangjiaju/article/details/48768371实际上可以看出spark各种脚本，spark-shell、spark-sql实现方式都是通过调用spark-submit脚本来实现的，而spark-submit又是通过spark-class脚本来实现的，spa

dandykang·2015-10-21 09:16

Spark学习笔记之-Spark-Standalone下driver和executor分配

看了看spark-standalone的资源分配过程，还是记录一下吧，久了回顾一下。Standalone模式下存在的角色。Client：客户端进程，负责提交作业到Master。Master：Standalone模式中主控节点，负责接收Client提交的作业，管理Worker，并命令Worker启动Driver和Executor。Worker：Standalone模式中slave节点上的守护进程，负

dandykang·2015-09-17 18:20

spark学习笔记总结-spark入门资料精化

Spark学习笔记Spark简介spark可以很容易和yarn结合，直接调用HDFS、Hbase上面的数据，和hadoop结合。配置很容易。spark发展迅猛，框架比hadoop更加灵活实用。

u013719780·2015-09-14 22:00

Spark学习笔记之-Spark Standalone（环境搭建）

Sparkstandalone分为master和worker，具体启动方法可用手动启动或脚本启动集群。官方参考手册：http://spark.apache.org/docs/1.4.0/spark-standalone.html1、手动启动可以参考：http://www.th7.cn/Program/java/201309/148408.shtml2、启动脚本方式：可以通过SPARK_HOME目录

dandykang·2015-09-11 11:00

Spark学习笔记之-Spark on yarn（动态资源调度）

对于Spark应用来说，资源是影响Spark应用执行效率的一个重要因素。当一个长期运行的服务（比如ThriftServer），若分配给它多个Executor，可是却没有任何任务分配给它，而此时有其他的应用却资源张，这就造成了很大的资源浪费和资源不合理的调度。动态资源调度就是为了解决这种场景，根据当前应用任务的负载情况，实时的增减Executor个数，从而实现动态分配资源，使整个Spark系统更加健

dandykang·2015-09-01 17:20

Spark学习笔记之-Spark on yarn（External Shuffle Service）

Spark系统在运行含shuffle过程的应用时，Executor进程除了运行task，还要负责写shuffle数据，给其他Executor提供shuffle数据。当Executor进程任务过重，导致GC而不能为其他Executor提供shuffle数据时，会影响任务运行。这里实际上是利用ExternalShuffleService来提升性能，ExternalshuffleService是长期存在

dandykang·2015-09-01 17:42

Spark学习笔记之-Spark远程调试

Spark远程调试本例子介绍简单介绍spark一种远程调试方法，使用的IDE是IntelliJIDEA。1、了解jvm一些参数属性-Xdebug-Xrunjdwp:transport=dt_socket,server=y,suspend=y,address=8888这里对上面的几个参数进行说明：-Xdebug启用调试特性-Xrunjdwp启用JDWP实现，包含若干子选项：transport=dt_

dandykang·2015-09-01 09:37

Machine Learning With Spark学习笔记（在10万电影数据上训练、使用推荐模型）

我们现在开始训练模型，还输入参数如下：rank：ALS中因子的个数，通常来说越大越好，但是对内存占用率有直接影响，通常rank在10到200之间。iterations：迭代次数，每次迭代都会减少ALS的重构误差。在几次迭代之后，ALS模型都会收敛得到一个不错的结果，所以大多情况下不需要太多的迭代（通常是10次）。lambda：模型的正则化参数，控制着避免过度拟合，值越大，越正则化。我们将使用50个

LXYTSOS·2015-08-14 16:00

Machine Learning With Spark学习笔记（提取10万电影数据特征）

注：原文中的代码是在spark-shell中编写执行的，本人的是在eclipse中编写执行，所以结果输出形式可能会与这本书中的不太一样。首先将用户数据u.data读入SparkContext中，然后输出第一条数据看看效果，代码如下：valsc=newSparkContext("local","ExtractFeatures") valrawData=sc.textFile("F:\\ScalaWo

LXYTSOS·2015-08-14 11:00

Spark学习笔记-Streaming-Flume

http://blog.csdn.net/fighting_one_piece/article/details/40667035SparkStreaming与Flume集成有两种模式：1、基于推模式Flume配置文件如下：[plain] viewplaincopya1.sources = r1 a1.channels = c1 a1.sinks = k1 a1.sources.r1.ty

moonpure·2015-08-04 15:00

Spark学习笔记-安装部署与运行实例

先解压scala，本次选用版本scala-2.11.1[hadoop@centossoftware]$tar-xzvfscala-2.11.1.tgz[hadoop@centossoftware]$su-[root@centos~]#vi/etc/profile添加如下内容：SCALA_HOME=/home/hadoop/software/scala-2.11.1PATH=$SCALA_HOME/

moonpure·2015-07-28 19:00

Machine Learning With Spark学习笔记

此笔记为本人在阅读MachineLearningWith Spark的时候所做的，笔记有翻译不准确或错误的地方欢迎大家指正。Spark集群Spark集群由两种进程组成：一个驱动程序和多个执行程序。在本地模式下，所有的进程都在同一个Java虚拟机中运行。在集群上，这些进程则通常在多个节点上运行。比如，在单机环境下运行的集群有以下特征：1、一个主节点作为spark单机模式的主进程和驱动程序。2、一系列

LXYTSOS·2015-07-01 14:00

Spark学习笔记之浅释

概述： Spark是一个基于内存计算的开源集群计算系统，目的是让数据分析更加快速。 Spark非常小巧玲珑，由加州伯克利大学AMP实验室的小团队开发。使用的语言是Scala，项目的core部分的代码只有63个Scala文件。（AMP实验室名字有点意思：AlgorithmMachinePeople，算法、机器、人） Spark是一种与Hadoop相似的开源集群计算环境，但是两者之间还存在一些不

sunlei1980·2015-06-20 10:00

Spark学习笔记之SparkRDD

Spark学习笔记之SparkRDD一、基本概念RDD（resilientdistributeddatasets）弹性分布式数据集。

ChouYarn·2015-04-18 19:00

蜗龙徒行-Spark学习笔记【四】Spark集群中使用spark-submit提交jar任务包实战经验

一、所遇问题由于在IDEA下可以方便快捷地运行scala程序，所以先前并没有在终端下使用spark-submit提交打包好的jar任务包的习惯，但是其只能在local模式下执行，在网上搜了好多帖子设置VM参数都不能启动spark集群，由于实验任务紧急只能暂时作罢IDEA下任务提交，继而改由终端下使用spark-submit提交打包好的jar任务。二、spark-shell功能介绍进入$SPARK_

网埠头·2015-04-14 16:53

蜗龙徒行-Spark学习笔记【四】Spark集群中使用spark-submit提交jar任务包实战经验

一、所遇问题由于在IDEA下可以方便快捷地运行scala程序，所以先前并没有在终端下使用spark-submit提交打包好的jar任务包的习惯，但是其只能在local模式下执行，在网上搜了好多帖子设置VM参数都不能启动spark集群，由于实验任务紧急只能暂时作罢IDEA下任务提交，继而改由终端下使用spark-submit提交打包好的jar任务。二、spark-shell功能介绍

cafuc46wingw·2015-04-14 16:00

蜗龙徒行-Spark学习笔记【三】Spark集群中worker节点扩展实战经验

一、集群原先配置：主机名sparkMaster，Ubuntu12.04-32，用户名Root,内存4g （只用于任务调度和分配，不做计算节点）从机名sparkSlave1，Ubuntu12.04-32，用户名Root ,内存4g （计算节点）从机名sparkSlave2，Ubuntu12.04-32，用

cafuc46wingw·2015-04-14 11:00

Spark学习笔记

以下是读Learning Spark Lightning-Fast Big Data Analysis时做的翻译或笔记持续更新...(先开个头，以后有没有时间再说...) 1.数据分析工具Spark介绍 2.下载Spark并尝试使用 7.在集群中运行Spark （用sbt打包Spark应用）使用机器环境：

天朗java·2015-04-02 14:00

蜗龙徒行-Spark学习笔记【二】Spark shell下kmeans聚类算法的应用

在终端打开spark-shell然后在scala编辑模式下依次输入以下命令：//导入算法执行所需函数库importorg.apache.spark.mllib.clustering.KMeansimportorg.apache.spark.mllib.linalg.Vectors//加载并分析数据valdata=sc.textFile("data/mllib/kmeans_data.txt")va

cafuc46wingw·2015-03-26 12:00

蜗龙徒行-Spark学习笔记【一】初识Spark形成、演进、发展

【一】Hadoop版本演进过程由于Hadoop1.X以前版本在MapReduce基本构架的设计上存在作业主控节点(JobTracker)单点瓶颈、作业执行延迟过长、编程框架不灵活等较多的缺陷和不足,2011年10月,Hadoop推出了基于新一代构架的Hadoop0.23.0测试版,该版本系列最终演化为Hadoop2.0版本,即新一代的Hadoop系统YARN。2013年10月Y

cafuc46wingw·2014-12-15 20:00

Spark学习笔记-Tachyon运行Spark

Tachyon版本：tachyon-0.5.0-bin.tar.gzSpark版本：spark-1.1.0-bin-hadoop2.4.tgzTachyon的安装部署可以参考：Tachyon学习笔记-安装部署与运行实例修改spark-env.sh文件，内容如下：SPARK_CLASSPATH=/home/hadoop/software/tachyon-0.5.0/core/target/tachy

wulinshishen·2014-11-22 00:00

Spark学习笔记-Streaming-1<转>

SparkStreaming是将流式计算分解成一系列短小的批处理作业。这里的批处理引擎是SparkEngine，也就是把SparkStreaming的输入数据按照batchsize（如1秒）分成一段一段的数据（DiscretizedStream），每一段数据都转换成Spark中的RDD（ResilientDistributedDataset），然后将SparkStreaming中对DStream

yongjian_luo·2014-11-06 11:00

Spark学习笔记-Streaming-Flume

SparkStreaming与Flume集成有两种模式：1、基于推模式Flume配置文件如下：a1.sources=r1 a1.channels=c1 a1.sinks=k1 a1.sources.r1.type=netcat a1.sources.r1.bind=centos.host1 a1.sources.r1.port=22222 a1.sources.r1.channels=c1 a

wulinshishen·2014-11-01 00:00

Spark学习笔记

Spark学习笔记转贴请声明原文：http://blog.csdn.net/duck_genuine/article/details/40506715join跟union方法测试效果join(otherDataset

源远流长·2014-10-27 14:52

Spark学习笔记-GraphX-2

SparkGraphX的一些其他有用操作：importorg.apache.spark._ importorg.apache.spark.SparkContext importorg.apache.spark.graphx._ importorg.apache.spark.graphx.Graph importorg.apache.spark.graphx.util.GraphGenerators

wulinshishen·2014-09-29 17:00

Spark学习笔记-GraphX-1

SparkGraphX是一个分布式图处理框架，SparkGraphX基于Spark平台提供对图计算和图挖掘简洁易用的而丰富多彩的接口，极大的方便了大家对分布式图处理的需求。SparkGraphX由于底层是基于Spark来处理的，所以天然就是一个分布式的图处理系统。图的分布式或者并行处理其实是把这张图拆分成很多的子图，然后我们分别对这些子图进行计算，计算的时候可以分别迭代进行分阶段的计算，即

wulinshishen·2014-09-29 13:00

Spark学习笔记-Streaming-1

SparkStreaming是将流式计算分解成一系列短小的批处理作业。这里的批处理引擎是SparkEngine，也就是把SparkStreaming的输入数据按照batchsize（如1秒）分成一段一段的数据（DiscretizedStream），每一段数据都转换成Spark中的RDD（ResilientDistributedDataset），然后将SparkStreaming中对DStr

wulinshishen·2014-09-28 18:00

Spark学习笔记-SparkSQL-1

SparkSQL引入了一种新的弹性分布式数据集SchemaRDD，SchemaRDD由行对象以及描述行对象中每列数据类型的schema组成。SchemaRDD很象传统数据库中的表。SchemaRDD可以通过RDD、Parquet文件、JSON文件、或者通过使用hiveql查询hive数据来建立。SchemaRDD除了可以和RDD一样操作外，还可以通过registerTempTable注册成

wulinshishen·2014-09-21 23:00

Spark学习笔记-KNN算法实现

KNN算法原理可以参考：数据挖掘笔记-分类-KNN-1 基于Spark简单实现算法代码如下：objectSparkKNNextendsSerializable{ defmain(args:Array[String]){ if(args.length!=4){ println("error,pleaseinputthreepath."); println("1trainsetpath."); p

wulinshishen·2014-09-04 18:00

Spark学习笔记-HBase操作

Scala版本操作HBaseimportorg.apache.spark.SparkContext importorg.apache.spark._ importorg.apache.hadoop.hbase.HBaseConfiguration importorg.apache.hadoop.hbase.HTableDescriptor importorg.apache.hadoop.hbase

wulinshishen·2014-08-08 12:00

Spark学习笔记(三)-RDD(弹性分布式数据集)

RDD是一些对象的只读集合,被划分到多台机器上,并且在某个划分块丢失之后可以重建.用户可以显式的把RDD缓存在内存中,方便在类似于Map-Reduce的并发操作中重用,这也是为什么Spark比较适合处理迭代式Job的原因.RDD通过"血统"(lineage)的概念来保证容错性,当RDD的一个划分块丢失之后,该RDD知道怎样从其他的RDD中重建该划分块.RDD中的元素不需要被存储在物理设备上,每个R

lantian0802·2014-08-05 22:00

Spark学习笔记-安装部署与运行实例

首先解压scala，本次选用版本scala-2.11.1[hadoop@centossoftware]$tar-xzvfscala-2.11.1.tgz[hadoop@centossoftware]$su-[root@centos~]#vi/etc/profile添加如下内容：SCALA_HOME=/home/hadoop/software/scala-2.11.1PATH=$SCALA_HOME

wulinshishen·2014-06-13 17:00

Spark学习笔记-安装部署与运行实例

首先解压scala，本次选用版本scala-2.11.1 [hadoop@centos software]$ tar -xzvf scala-2.11.1.tgz [hadoop@centos software]$ su - [root@centos ~]# vi /etc/profile 添加如下内容： SCALA_HOME=/home/hadoop/software/scal

fighting_2013·2014-06-13 17:00

spark in eclipse---Spark学习笔记3

想要调试源代码，还是要放到eclipse里面去。先生成eclipse项目，下载依赖包victor@victor-ubuntu:~/software/incubator-spark-0.8.1-incubating$mvneclipse:eclipse [INFO]Scanningforprojects... [INFO]---------------------------------------

u014388509·2014-05-20 11:00

Spark实例TopN---Spark学习笔记11

Spark是基于内存的分布式计算框架，性能是十分彪悍的。话接上回，部署完Spark集群之后，想要测试一下，Spark的性能。1、环境集群概况可以参见SparkHadoop集群部署与Spark操作HDFS运行详解。现在集群里有一大约7G的文件，是手机号和IP地址的组合。hadoopdfs-dus/dw/spark/mobile.txthdfs://web02.dw:9000/dw/spark/mob

u014388509·2014-05-14 18:00

Spark Hadoop集群部署与Spark操作HDFS运行详解---Spark学习笔记10

目前spark的Runon的hadoop版本大多是hadoop2以上，但是实际上各个公司的生产环境不尽相同，用到2.0以上的公司还是少数。大多数公司还是停留在1代hadoop上，所以我就拿spark0.91+ hadoop0.20.2-cdh3u5来部署一个小集群，以供测试学习使用。一、环境概况Spark集群3台：web01: slaveweb02:masterdb01:slaveHadoop集群

u014388509·2014-04-21 18:00

RDD Dependency详解---Spark学习笔记9

RDD的最重要的特性之一就是血缘关系，血缘关系描述了一个RDD是如何从父RDD计算得来的。这个性质可以理解为人类的进化，人是怎么从猿人一步步进化到现代的人类的，每个进化阶段可以理解为一个RDD。如果某个RDD丢失了，则可以根据血缘关系，从父RDD计算得来。总结：RDD可以描述为一组partition的向量表示，且具有依赖关系。Dependency（依赖）：图中蓝色实心矩形就是一个个的partiti

u014388509·2014-04-16 18:00

Spark RDD Action 详解---Spark学习笔记8

话接上回SparkRDDTransformation。这次学习的是SparkRDD的Action部分函数。这次拿根目录下的kmeans_data.txt当数据源来实践。reduce和transformation里面的reduceByKey差不多，但是这里没有根据key分组，只是单纯的2个参数。valkemeans_data=sc.textFile("kmeans_data.txt") kemean

u014388509·2014-04-04 17:00

Spark RDD Transformation 详解---Spark学习笔记7

这几天学习了SparkRDDtransformation和action，做个笔记记录下心得，顺便分享给大家。1.启动spark-shell SPARK_MASTER=local[4]./spark-shell.shWelcometo ____ __ /__/__ ________//__ _\\/_\/_`/__/ '_/ /___/.__/\_,_/_//_/\

u014388509·2014-04-04 16:00

spark应用开发---Spark学习笔记6

如何部署和开发一个spark应用程序呢？首先要选好环境，我用的是incubator-spark-0.8.1-incubating,那么对应的是scala版本是2.9.3。如果使用maven或者sbt构建，则可以使用gavgroupId=org.apache.spark artifactId=spark-core_2.9.3 version=0.8.1-incubating如果要访问HDFS,则需要

u014388509·2014-04-03 00:00

Spark计算Pi运行过程详解---Spark学习笔记4

上回运行了一个计算Pi的例子那么Spark究竟是怎么执行的呢？我们来看一下脚本#!/bin/shexportYARN_CONF_DIR=/home/victor/software/hadoop-2.2.0/etc/hadoopSPARK_JAR=./assembly/target/scala-2.9.3/spark-assembly-0.8.1-incubating-hadoop2.2.0.jar

u014388509·2014-03-31 00:00

Spark计算Pi---Spark学习笔记2

话接上回Spark学习笔记1-编译源代码，已经成功编译了sparkonyarn启动yarnvictor@victor-ubuntu:~/software/hadoop-2.2.0/sbin$.

u014388509·2014-03-28 22:00

Spark源码编译---Spark学习笔记1

要学习一个框架最好的方式就是调试其源代码。编译Spark0.81 withhadoop2.2.0本机环境：1.eclipsekepler2.maven3.13.scala2.9.34.ubuntu12.04步骤：1.先从网上下载spark0.81的源代码. 下载方式：_2. upzipv0.8.1-incubating.zip3. exportMAVEN_OPTS="-Xmx1g-XX:MaxPe

u014388509·2014-03-28 01:00

推荐频道

spark学习笔记

Spark学习笔记6-Spark分布式搭建（5）——ubuntu下Spark分布式搭建

Spark学习笔记5-隐式转换，隐式参数，隐式类

机器学习（三）--- spark学习笔记

Spark学习笔记之初识

Spark学习笔记：（一）入门 glance

spark学习笔记二

spark学习笔记：Spark Streaming

Spark学习笔记之-Spark 命令及程序入口

Spark学习笔记之-Spark-Standalone下driver和executor分配

spark学习笔记总结-spark入门资料精化

Spark学习笔记之-Spark Standalone（环境搭建）

Spark学习笔记之-Spark on yarn（动态资源调度）

Spark学习笔记之-Spark on yarn（External Shuffle Service）

Spark学习笔记之-Spark远程调试

Machine Learning With Spark学习笔记（在10万电影数据上训练、使用推荐模型）

Machine Learning With Spark学习笔记（提取10万电影数据特征）

Spark学习笔记-Streaming-Flume

Spark学习笔记-安装部署与运行实例

Machine Learning With Spark学习笔记

Spark学习笔记之浅释

Spark学习笔记之SparkRDD

蜗龙徒行-Spark学习笔记【四】Spark集群中使用spark-submit提交jar任务包实战经验

蜗龙徒行-Spark学习笔记【四】Spark集群中使用spark-submit提交jar任务包实战经验

蜗龙徒行-Spark学习笔记【三】Spark集群中worker节点扩展实战经验

Spark学习笔记

蜗龙徒行-Spark学习笔记【二】Spark shell下kmeans聚类算法的应用

蜗龙徒行-Spark学习笔记【一】初识Spark形成、演进、发展

Spark学习笔记-Tachyon运行Spark

Spark学习笔记-Streaming-1<转>

Spark学习笔记-Streaming-Flume

Spark学习笔记

Spark学习笔记-GraphX-2

Spark学习笔记-GraphX-1

Spark学习笔记-Streaming-1

Spark学习笔记-SparkSQL-1

Spark学习笔记-KNN算法实现

Spark学习笔记-HBase操作

Spark学习笔记(三)-RDD(弹性分布式数据集)

Spark学习笔记-安装部署与运行实例

Spark学习笔记-安装部署与运行实例

spark in eclipse---Spark学习笔记3

Spark实例TopN---Spark学习笔记11

Spark Hadoop集群部署与Spark操作HDFS运行详解---Spark学习笔记10

RDD Dependency详解---Spark学习笔记9

Spark RDD Action 详解---Spark学习笔记8

Spark RDD Transformation 详解---Spark学习笔记7

spark应用开发---Spark学习笔记6

Spark计算Pi运行过程详解---Spark学习笔记4

Spark计算Pi---Spark学习笔记2

Spark源码编译---Spark学习笔记1