E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark学习
Spark学习
笔记-Streaming-1<转>
SparkStreaming是将流式计算分解成一系列短小的批处理作业。这里的批处理引擎是SparkEngine,也就是把SparkStreaming的输入数据按照batchsize(如1秒)分成一段一段的数据(DiscretizedStream),每一段数据都转换成Spark中的RDD(ResilientDistributedDataset),然后将SparkStreaming中对DStream
yongjian_luo
·
2014-11-06 11:00
Spark学习
1: 基础函数功能解读<转>
Spark已经定义好了一些基本的transformation和action的操作,下面我们一探究竟。实例开发:valrdd=sc.parallelize(List(1,2,3,4,5,6)) valmapRdd=rdd.map(_*2) //这是典型的函数式编程mapRdd.collect() //上面的map是transformation,到了这里的collect才开始执行,是action,返回
yongjian_luo
·
2014-11-06 11:00
Spark学习
RDD模型经典论文:https://www.usenix.org/system/files/conference/nsdi12/nsdi12-final138.pdfspark最好用scala语言一个scala学习较好的网站http://zh.scala-tour.com/#/welcomespark常用api使用示例http://homepage.cs.latrobe.edu.au/zhe/Zh
caohao2008
·
2014-11-01 19:00
Spark学习
笔记-Streaming-Flume
SparkStreaming与Flume集成有两种模式:1、基于推模式Flume配置文件如下:a1.sources=r1 a1.channels=c1 a1.sinks=k1 a1.sources.r1.type=netcat a1.sources.r1.bind=centos.host1 a1.sources.r1.port=22222 a1.sources.r1.channels=c1 a
wulinshishen
·
2014-11-01 00:00
spark
Flume
Streaming
Spark学习
笔记
Spark学习
笔记转贴请声明原文:http://blog.csdn.net/duck_genuine/article/details/40506715join跟union方法测试效果join(otherDataset
源远流长
·
2014-10-27 14:52
Spark
技术学习笔记
Spark学习
-关于Spark的开发语言Scala
说到Spark,我一定要先说说Hadoop及Java.现在我是一个Java开发者,几年前就开始接触和使用Hadoop.最初的一个项目其实是一个后台并行计算的项目,那时经过选型后,最后决定使用Hadoop,当时是基于几个原因:1.Apache下的项目质量都是很高的,很多项目都广为Java开发者使用,到今天来看,这个结论也不为过,如(Ant,ActiveMQ,Axis2,CXF,Cassandra,A
Djava.sohu.com
·
2014-10-26 12:00
scala
hadoop
spark
Spark学习
-关于云平台的一个问题
这几天接触了 OpenStack和Docker - 一个是比较成熟的云平台,另外是一个发展中的,增长很迅速的新云平台,其中的一个问题又引发我的深思。 问题: 云平台与大数据平台Hadoop怎么进行融合? 先说一下云平台的几个概念:计算(Compute),存储(Storage),网络(Network). 关于存储,在云上的管理一大部分是共享存储,如磁盘阵列什么的。当然也可以是由很多
Djava.sohu.com
·
2014-10-26 11:00
大数据
云
Spark学习
-3 运行一个example
阅读更多开始学习Spark了,先看看Spark能做点什么吧。最好的方式就是先运行个例子程序。先从Spark网站下载一个运行环境(我的运行环境是Win7,64bits)。我们在官方网站:http://spark.apache.org/downloads.html下载一个版本:我选Spark1.0+PrebuildforHadoop2.3,Link为http://d3kbcqa49mib13.clou
Djava.sohu.com
·
2014-10-15 11:00
Spark
BigData
winutils.exe
Spark学习
-3 运行一个example
阅读更多开始学习Spark了,先看看Spark能做点什么吧。最好的方式就是先运行个例子程序。先从Spark网站下载一个运行环境(我的运行环境是Win7,64bits)。我们在官方网站:http://spark.apache.org/downloads.html下载一个版本:我选Spark1.0+PrebuildforHadoop2.3,Link为http://d3kbcqa49mib13.clou
Djava.sohu.com
·
2014-10-15 11:00
Spark
BigData
winutils.exe
Spark学习
-3 运行一个example
开始学习Spark了,先看看Spark能做点什么吧。 最好的方式就是先运行个例子程序。先从Spark网站下载一个运行环境(我的运行环境是Win7, 64bits) 。 我们在官方网站: http://spark.apache.org/downloads.html下载一个版本: 我选 Spark 1.0 + Prebuild for Hadoop 2.3, Link为 http://
Djava.sohu.com
·
2014-10-15 11:00
spark
winutils.exe
BigData
Spark学习
笔记-GraphX-2
SparkGraphX的一些其他有用操作:importorg.apache.spark._ importorg.apache.spark.SparkContext importorg.apache.spark.graphx._ importorg.apache.spark.graphx.Graph importorg.apache.spark.graphx.util.GraphGenerators
wulinshishen
·
2014-09-29 17:00
Graph
GraphX
Pregel
图运算
Sprak
Spark学习
笔记-GraphX-1
SparkGraphX是一个分布式图处理框架,SparkGraphX基于Spark平台提供对图计算和图挖掘简洁易用的而丰富多彩的接口,极大的方便了大家对分布式图处理的需求。SparkGraphX由于底层是基于Spark来处理的,所以天然就是一个分布式的图处理系统。图的分布式或者并行处理其实是把这张图拆分成很多的子图,然后我们分别对这些子图进行计算,计算的时候可以分别迭代进行分阶段的计算,即
wulinshishen
·
2014-09-29 13:00
spark
Graph
GraphX
图计算
Spark学习
笔记-Streaming-1
SparkStreaming是将流式计算分解成一系列短小的批处理作业。这里的批处理引擎是SparkEngine,也就是把SparkStreaming的输入数据按照batchsize(如1秒)分成一段一段的数据(DiscretizedStream),每一段数据都转换成Spark中的RDD(ResilientDistributedDataset),然后将SparkStreaming中对DStr
wulinshishen
·
2014-09-28 18:00
spark
Streaming
Spark学习
笔记-SparkSQL-1
SparkSQL引入了一种新的弹性分布式数据集SchemaRDD,SchemaRDD由行对象以及描述行对象中每列数据类型的schema组成。SchemaRDD很象传统数据库中的表。SchemaRDD可以通过RDD、Parquet文件、JSON文件、或者通过使用hiveql查询hive数据来建立。SchemaRDD除了可以和RDD一样操作外,还可以通过registerTempTable注册成
wulinshishen
·
2014-09-21 23:00
sql
spark
Spark学习
4: RDD详解
1RDD经典定义packageorg.apache.spark.rdd importjava.util.Random importscala.collection.{mutable,Map} importscala.collection.mutable.ArrayBuffer importscala.reflect.{classTag,ClassTag} importcom.clearspr
yunlong34574
·
2014-09-13 23:00
Spark学习
2:Spark 配置以及repl运行和IDE运行
Spark运行本文针对Standalone模式下的SparkSpark配置安装Spark之后,首先保证Spark的配置项目正确。Spark的配置文件存储在$Spark_HOME/conf/目录下spark-env.sh.templateslavesspark-defaults.conf.templatespark-env.sh.template#!/usr/bin/envbash #Thisfi
yunlong34574
·
2014-09-06 09:00
Spark学习
笔记-KNN算法实现
KNN算法原理可以参考:数据挖掘笔记-分类-KNN-1 基于Spark简单实现算法代码如下:objectSparkKNNextendsSerializable{ defmain(args:Array[String]){ if(args.length!=4){ println("error,pleaseinputthreepath."); println("1trainsetpath."); p
wulinshishen
·
2014-09-04 18:00
数据挖掘
spark
knn
Spark学习
1: 基础函数功能解读
Spark已经定义好了一些基本的transformation和action的操作,下面我们一探究竟。实例开发:valrdd=sc.parallelize(List(1,2,3,4,5,6)) valmapRdd=rdd.map(_*2) //这是典型的函数式编程mapRdd.collect() //上面的map是transformation,到了这里的collect才开始执行,是action,返回
yunlong34574
·
2014-08-17 09:00
Spark学习
笔记-HBase操作
Scala版本操作HBaseimportorg.apache.spark.SparkContext importorg.apache.spark._ importorg.apache.hadoop.hbase.HBaseConfiguration importorg.apache.hadoop.hbase.HTableDescriptor importorg.apache.hadoop.hbase
wulinshishen
·
2014-08-08 12:00
scala
spark
hbase
spark学习
val val rdd=sc.parallelize(List(1,2, 3, 4, 5, 6))val filterRdd=maprdd.filter(_ > 5)val maprdd = rdd.map(_*2)maprdd.collectval filterRdd = sc.parallelize(List(1,2,3,4,5,6)).map(_*2).filter(_ > 5)
YHX1014
·
2014-08-07 12:00
Spark学习
笔记(三)-RDD(弹性分布式数据集)
RDD是一些对象的只读集合,被划分到多台机器上,并且在某个划分块丢失之后可以重建.用户可以显式的把RDD缓存在内存中,方便在类似于Map-Reduce的并发操作中重用,这也是为什么Spark比较适合处理迭代式Job的原因.RDD通过"血统"(lineage)的概念来保证容错性,当RDD的一个划分块丢失之后,该RDD知道怎样从其他的RDD中重建该划分块.RDD中的元素不需要被存储在物理设备上,每个R
lantian0802
·
2014-08-05 22:00
spark
Spark学习
:利用Eclipse搭建Spark集成开发环境
(1) 准备工作在正式介绍之前,先要以下软硬件准备:软件准备:EclipseJuno版本(4.2版本),可以直接点击这里下载:Eclipse4.2Scala2.9.3版本,Window安装程序可以直接点击这里下载:Scala2.9.3EclipseScalaIDE插件,可直接点击这里下载:ScalaIDE(forScala2.9.xandEclipseJuno)硬件准备装有Linux或者Windo
MNTMs
·
2014-07-29 11:00
apache
eclipse
scala
spark
spark学习
十七 spark standaloe模式下资源的神情与释放
概要本文主要讲述在standalonecluster部署模式下,SparkApplication在整个运行期间,资源(主要是cpucore和内存)的申请与释放。构成Standalonecluster部署模式的四大组成部件如下图所示,分别为Master,worker,executor和driver,它们各自运行于独立的JVM进程。从资源管理的角度来说Master 掌管整个cluster的资源,主要是
hao707822882
·
2014-07-22 22:00
spark
spark学习
十六 spark为什么要实现自己的RPEL
本文中涉及linux操作系统的底层一些知识,有兴趣的可以继续深挖全局视图 上图显示了java源文件从编译到加载执行的全局视图,整个过程中最主要的步骤是编译成过程,由编译器对java源文件进行编译整理,生成javabytecodes类的加载和初始化,主要由classloader参与执行引擎将字节码翻译成机器码,然后调度执行这一部分的内容,解释的非常详细的某过于《深入理解jvm》和撒迦的JVM分享,这
hao707822882
·
2014-07-22 22:00
spark
spark学习
十四 spark图形计算
图论简介图的组成离散数学中非常重要的一个部分就是图论,下面是一个无向连通图顶点(vertex)上图中的A,B,C,D,E称为图的顶点。边顶点与顶点之间的连线称之为边。图的数学表示读大学的时候,一直没有想明白为什么要学劳什子的线性代数。直到这两天看《数学之美》一书时,才发觉,线性代数在一些计算机应用领域,那简直就是不可或缺啊。我们比较容易理解的平面几何和立体几何(一个是二维,一个是三维),而线性代数
hao707822882
·
2014-07-22 21:00
spark
spark学习
十五 spark的容错分析
Standalone部署的节点组成介绍Spark的资料中对于RDD这个概念涉及的比较多,但对于RDD如何运行起来,如何对应到进程和线程的,着墨的不是很多。在实际的生产环境中,Spark总是会以集群的方式进行运行的,其中standalone的部署方式是所有集群方式中最为精简的一种,另外是Mesos和YARN,要理解其内部运行机理,显然要花更多的时间才能了解清楚。standalonecluster的组
hao707822882
·
2014-07-22 21:00
spark
spark学习
十三 hive on spark实现详解
Hive的由来以下部分摘自Hadoopdefiniteguide中的Hive一章“Hive由Facebook出品,其设计之初目的是让精通SQL技能的分析师能够对Facebook存放在HDFS上的大规模数据集进行分析和查询。Hive大大简化了对大规模数据集的分析门槛(不再要求分析人员具有很强的编程能力),迅速流行起来,成为Hadoop生成圈上的KillerApplication.目前已经有很多组织把
hao707822882
·
2014-07-22 21:00
spark
spark学习
十二 hive on spark 环境搭建及测试
安装概览整体的安装过程分为以下几步搭建Hadoop集群(整个cluster由3台机器组成,一台作为Master,另两台作为Slave)编译Spark1.0,使其支持Hadoop2.4.0和Hive运行HiveonSpark的测试用例 (Spark和HadoopNamenode运行在同一台机器)Hadoop集群搭建创建虚拟机创建基于kvm的虚拟机,利用libvirt提供的图形管理界面,创建3台虚拟机
hao707822882
·
2014-07-22 21:00
spark
spark学习
十一 spark中的sql
为什么需要SQLSQL是一种标准,一种用来进行数据分析的标准,已经存在多年。在大数据的背景下,随着数据规模的日渐增大,原有的分析技巧是否就过时了呢?答案显然是否定的,原来的分析技巧在既有的分析维度上依然保持有效,当然对于新的数据我们想挖掘出更多有意思有价值的内容,这个目标可以交给数据挖掘或者机器学习去完成。那么原有的数据分析人员如何快速的转换到BigData的平台上来呢,去重新学一种脚本吗,直接用
hao707822882
·
2014-07-22 21:00
spark
spark学习
十 yarn环境的搭建以及spark程序测试
前期准备本文所有的操作基于archlinux,保证下述软件已经安装jdkscalamaven搭建hadoophadoop像它的Logo一样,真得是一个体形无比巨大的大象,如果直接入手去搞这个东东的话,肯定会昏上好长一段时间。个人取巧,从storm弄起,一路走来还算平滑。hadoop最主要的是hdfs和MapReduceFramework,针对第二代的hadoop即hadoop2这个Framewor
hao707822882
·
2014-07-22 20:00
spark
spark学习
九 yarn平台及spark on yarn
SparkStandalone部署模式回顾上图是SparkStandaloneCluster中计算模块的简要示意,从中可以看出整个Cluster主要由四种不同的JVM组成Master负责管理整个Cluster,DriverApplication和Worker都需要注册到MasterWorker负责某一个node上计算资源的管理,如启动相应的ExecutorExecutorRDD中每一个Stage的
hao707822882
·
2014-07-22 20:00
spark
spark学习
八 standalone模式下spark应用执行过程
没有HA的Standalone运行模式先从比较简单的说起,所谓的没有ha是指master节点没有ha。组成cluster的两大元素即Master和Worker。slaveworker可以有1到多个,这些worker都处于active状态。DriverApplication可以运行在Cluster之内,也可以在cluster之外运行,先从简单的讲起即DriverApplication独立于Clust
hao707822882
·
2014-07-22 17:00
spark
spark学习
七 共享内存的实现(快速的共享数据)
存储子系统概览(*重要*)上图是Spark存储子系统中几个主要模块的关系示意图,现简要说明如下CacheManager RDD在进行计算的时候,通过CacheManager来获取数据,并通过CacheManager来存储计算结果BlockManager CacheManager在进行数据读取和存取的时候主要是依赖BlockManager接口来操作,BlockManager决定数据是从内存(Mem
hao707822882
·
2014-07-22 16:00
spark
spark学习
六 DStream的运行原理解析
环境搭建为了有一个感性的认识,先运行一下简单的SparkStreaming示例。首先确认已经安装了openbsd-netcat。运行netcatnc-lk9999运行spark-shellSPARK_JAVA_OPTS=-Dspark.cleaner.ttl=10000MASTER=local-cluster[2,2,1024]bin/spark-shell 在spark-shell中输入如下内容
hao707822882
·
2014-07-22 15:00
spark
spark学习
五 DStream(spark流式数据处理)
流数据的特点与一般的文件(即内容已经固定)型数据源相比,所谓的流数据拥有如下的特点1. 数据一直处在变化中2. 数据无法回退3. 数据一直源源不断的涌进DStream如果要用一句话来概括SparkStreaming的处理思路的话,那就是"将连续的数据持久化,离散化,然后进行批量处理"。让我们来仔细分析一下这么作的原因。· 数据持久化 将从网络上接收到的数据先暂时存储下来,
hao707822882
·
2014-07-22 15:00
spark
spark学习
四 RDD转换是什么以及任务的运行
准备1. spark已经安装完毕2. spark运行在localmode或local-clustermodelocal-clustermodelocal-cluster模式也称为伪分布式,可以使用如下指令运行MASTER=local[1,2,1024]bin/spark-shell [1,2,1024] 分别表示,executornumber,corenumber和内存大小,其中内存大小不
hao707822882
·
2014-07-22 13:00
spark
spark学习
三 RDD详解
ResilientDistributedDataset(RDD)弹性分布数据集◆RDD是Spark的最基本抽象,是对分布式内存的抽象使用,实现了以操作本地集合的方式来操作分布式数据集的抽象实现。RDD是Spark最核心的东西,它表示已被分区,不可变的并能够被并行操作的数据集合,不同的数据集格式对应不同的RDD实现。RDD必须是可序列化的。RDD可以cache到内存中,每次对RDD数据集的操作之后的
hao707822882
·
2014-07-22 13:00
spark
spark学习
二 job是怎么提交的
实验环境搭建在进行后续操作前,确保下列条件已满足。下载sparkbinary0.9.1安装scala安装sbt安装java启动spark-shell (还可以参考学习八的介绍)单机模式运行,即local模式local模式运行非常简单,只要运行以下命令即可,假设当前目录是$SPARK_HOMEMASTER=localbin/spark-shell"MASTER=local"就是表明当前运行在单机模
hao707822882
·
2014-07-22 11:00
spark
spark学习
一 基本概念理解
基本概念(BasicConcepts)RDD-resillientdistributeddataset弹性分布式数据集Operation-作用于RDD的各种操作分为transformation和actionJob-作业,一个JOB包含多个RDD及作用于相应RDD上的各种operationStage-一个作业分为多个阶段Partition-数据分区,一个RDD中的数据可以分成多个不同的区DAG-Di
hao707822882
·
2014-07-22 10:00
spark
Spark学习
体系
底理解Spark,可以分为以下几个层次。1Spark基础篇1.1Spark生态和安装部署在安装过程中,理解其基本操作步骤。安装部署Spark安装简介Spark的源码编译SparkStandalone安装SparkStandaloneHA安装Spark应用程序部署工具spark-submitSpark生态Spark(内存计算框架)SparkSteaming(流式计算框架)SparkSQL(ad-ho
John00000001
·
2014-07-21 09:06
Cloud
Spark
Scala
Spark学习
笔记-安装部署与运行实例
首先解压scala,本次选用版本scala-2.11.1[hadoop@centossoftware]$tar-xzvfscala-2.11.1.tgz[hadoop@centossoftware]$su-[root@centos~]#vi/etc/profile添加如下内容:SCALA_HOME=/home/hadoop/software/scala-2.11.1PATH=$SCALA_HOME
wulinshishen
·
2014-06-13 17:00
scala
hadoop
spark
wordcount
RDD
Spark学习
笔记-安装部署与运行实例
首先解压scala,本次选用版本scala-2.11.1 [hadoop@centos software]$ tar -xzvf scala-2.11.1.tgz [hadoop@centos software]$ su - [root@centos ~]# vi /etc/profile 添加如下内容: SCALA_HOME=/home/hadoop/software/scal
fighting_2013
·
2014-06-13 17:00
java
hadoop
scala
spark
python
spark in eclipse---
Spark学习
笔记3
想要调试源代码,还是要放到eclipse里面去。先生成eclipse项目,下载依赖包victor@victor-ubuntu:~/software/incubator-spark-0.8.1-incubating$mvneclipse:eclipse [INFO]Scanningforprojects... [INFO]---------------------------------------
u014388509
·
2014-05-20 11:00
spark源代码
Spark实例TopN---
Spark学习
笔记11
Spark是基于内存的分布式计算框架,性能是十分彪悍的。话接上回,部署完Spark集群之后,想要测试一下,Spark的性能。1、环境集群概况可以参见SparkHadoop集群部署与Spark操作HDFS运行详解。现在集群里有一大约7G的文件,是手机号和IP地址的组合。hadoopdfs-dus/dw/spark/mobile.txthdfs://web02.dw:9000/dw/spark/mob
u014388509
·
2014-05-14 18:00
scala
spark
分布式计算
性能测试
HADOOP集群
Spark Hadoop集群部署与Spark操作HDFS运行详解---
Spark学习
笔记10
目前spark的Runon的hadoop版本大多是hadoop2以上,但是实际上各个公司的生产环境不尽相同,用到2.0以上的公司还是少数。大多数公司还是停留在1代hadoop上,所以我就拿spark0.91+ hadoop0.20.2-cdh3u5来部署一个小集群,以供测试学习使用。一、环境概况Spark集群3台:web01: slaveweb02:masterdb01:slaveHadoop集群
u014388509
·
2014-04-21 18:00
jvm
hadoop
scala
spark
分布式
RDD Dependency详解---
Spark学习
笔记9
RDD的最重要的特性之一就是血缘关系,血缘关系描述了一个RDD是如何从父RDD计算得来的。这个性质可以理解为人类的进化,人是怎么从猿人一步步进化到现代的人类的,每个进化阶段可以理解为一个RDD。如果某个RDD丢失了,则可以根据血缘关系,从父RDD计算得来。总结:RDD可以描述为一组partition的向量表示,且具有依赖关系。Dependency(依赖):图中蓝色实心矩形就是一个个的partiti
u014388509
·
2014-04-16 18:00
scala
spark
RDD
Spark RDD Action 详解---
Spark学习
笔记8
话接上回SparkRDDTransformation。这次学习的是SparkRDD的Action部分函数。这次拿根目录下的kmeans_data.txt当数据源来实践。reduce和transformation里面的reduceByKey差不多,但是这里没有根据key分组,只是单纯的2个参数。valkemeans_data=sc.textFile("kmeans_data.txt") kemean
u014388509
·
2014-04-04 17:00
jvm
scala
spark
RDD
Spark RDD Transformation 详解---
Spark学习
笔记7
这几天学习了SparkRDDtransformation和action,做个笔记记录下心得,顺便分享给大家。1.启动spark-shell SPARK_MASTER=local[4]./spark-shell.shWelcometo ____ __ /__/__ ________//__ _\\/_\/_`/__/ '_/ /___/.__/\_,_/_//_/\
u014388509
·
2014-04-04 16:00
spark
RDD
spark应用开发---
Spark学习
笔记6
如何部署和开发一个spark应用程序呢?首先要选好环境,我用的是incubator-spark-0.8.1-incubating,那么对应的是scala版本是2.9.3。如果使用maven或者sbt构建,则可以使用gavgroupId=org.apache.spark artifactId=spark-core_2.9.3 version=0.8.1-incubating如果要访问HDFS,则需要
u014388509
·
2014-04-03 00:00
spark
Spark计算Pi运行过程详解---
Spark学习
笔记4
上回运行了一个计算Pi的例子那么Spark究竟是怎么执行的呢?我们来看一下脚本#!/bin/shexportYARN_CONF_DIR=/home/victor/software/hadoop-2.2.0/etc/hadoopSPARK_JAR=./assembly/target/scala-2.9.3/spark-assembly-0.8.1-incubating-hadoop2.2.0.jar
u014388509
·
2014-03-31 00:00
spark
上一页
11
12
13
14
15
16
17
18
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他