spark学习笔记第3页

Spark学习笔记（二）——分布式计算原理

Spark分布式计算原理Spark分布式计算原理一、SparkWordCount运行原理二、Stage1、stage概念2、为什么划分：3、划分的好处4、RDD之间的依赖关系5、spark中如何划分stage三、DAG工作原理四、SparkShuffle过程五、RDD持久化六、RDD共享变量1、广播变量2、累加器七、RDD分区设计1、设计概念2、数据倾斜八、数据源装载1、装载CSV数据源2、装载J

throws-Exception·2020-08-10 19:52

Spark学习笔记-HBase操作

Scala版本操作HBaseimportorg.apache.spark.SparkContextimportorg.apache.spark._importorg.apache.hadoop.hbase.HBaseConfigurationimportorg.apache.hadoop.hbase.HTableDescriptorimportorg.apache.hadoop.hbase.cli

人生偌只如初见·2020-08-10 08:23

Spark学习笔记-KNN算法实现

KNN算法原理可以参考：数据挖掘笔记-分类-KNN-1基于Spark简单实现算法代码如下：objectSparkKNNextendsSerializable{defmain(args:Array[String]){if(args.length!=4){println("error,pleaseinputthreepath.");println("1trainsetpath.");println("

人生偌只如初见·2020-08-10 08:23

Spark Hadoop集群部署与Spark操作HDFS运行详解---Spark学习笔记10

目前spark的Runon的hadoop版本大多是hadoop2以上，但是实际上各个公司的生产环境不尽相同，用到2.0以上的公司还是少数。大多数公司还是停留在1代hadoop上，所以我就拿spark0.91+hadoop0.20.2-cdh3u5来部署一个小集群，以供测试学习使用。一、环境概况Spark集群3台：web01:slaveweb02:masterdb01:slaveHadoop集群：h

OopsOutOfMemory·2020-08-03 05:24

RDD Dependency详解---Spark学习笔记9

RDD的最重要的特性之一就是血缘关系，血缘关系描述了一个RDD是如何从父RDD计算得来的。这个性质可以理解为人类的进化，人是怎么从猿人一步步进化到现代的人类的，每个进化阶段可以理解为一个RDD。如果某个RDD丢失了，则可以根据血缘关系，从父RDD计算得来。总结：RDD可以描述为一组partition的向量表示，且具有依赖关系。Dependency（依赖）：图中蓝色实心矩形就是一个个的partiti

OopsOutOfMemory·2020-08-01 02:27

Spark学习笔记--超全,所有知识点全覆盖总结

Spark架构，运行原理，任务调度和资源调度分析，内存管理分析，SparkSQL，SparkSreaming与kafaka，数据倾斜的解决，调优。Spark简介Spark是美国加州大学伯克利分校的AMP实验室（主要创始人lester和Matei）开发的通用的大数据处理框架。ApacheSpark™isafastandgeneralengineforlarge-scaledataprocessing

vitrovitro·2020-07-29 01:47

pyspark学习笔记（一），修改列的dtype

冰色的圆·2020-07-28 21:28

Spark学习笔记：Spark进阶

目录Spark进阶一.在Sparkshell中使用不同的数据源1.通用Load/Save函数2.掌握Parquet文件3.SparkSQLJDBC4.HiveOnSpark二.SparkSQL开发三.SparkSQL性能调优Spark进阶一.在Sparkshell中使用不同的数据源1.通用Load/Save函数（1）load函数是用在SparkSQL中，加载不同的数据源默认的数据源是：Parque

SetsunaMeow·2020-07-28 02:29

spark学习笔记4

SparkSQL,DataFramesandDatasetsGuideOverviewSQLDatasetsandDataFramesGettingStartedStartingPoint:SparkSessionCreatingDataFramesUntypedDatasetOperations(akaDataFrameOperations)RunningSQLQueriesProgrammat

keny风清扬·2020-07-28 01:32

Spark学习笔记3——RDD（下）

目录Spark学习笔记3——RDD（下）向Spark传递函数通过匿名内部类通过具名类传递通过带参数的Java函数类传递通过lambda表达式传递（仅限于Java8及以上）常见的转化操作和行动操作基本RDD

aou9515·2020-07-27 19:40

Spark学习笔记(一)

Spark简介基于内存的集群计算框架，用scala程序编写近实时计算迭代DAG(一)spark的关键组件1.Master2.Worker3.SparkContext(客户端)4.CoarseGrainedExecutorBackend(standalone模式)（二）产生Rdd的三种APIRdd：计算单元，定义了输入输出类型以及算法转化（transformation），缓存（Cache）、行动（a

a_victory·2020-07-27 18:52

spark学习笔记-spark集群搭建（7）

安装spark包11、将spark-1.3.0-bin-hadoop2.4.tgz使用WinSCP上传到/usr/local目录下。22、解压缩spark包：tarzxvfspark-1.3.0-bin-hadoop2.4.tgz。33、更改spark目录名：mvspark-1.3.0-bin-hadoop2.4spark44、设置spark环境变量5vi.bashrc6exportSPARK_H

aams46841·2020-07-15 19:58

spark学习笔记-CentOS 6.4集群搭建（2）

CentOS6.5安装1、使用课程提供的CentOS6.5镜像即可，CentOS-6.5-i386-minimal.iso。2、创建虚拟机：打开VirtualBox，点击“新建”按钮，点击“下一步”，输入虚拟机名称为spark1，选择操作系统为Linux，选择版本为RedHat，分配1024MB内存，后面的选项全部用默认，在VirtualDiskFilelocationandsize中，一定要自己

aams46841·2020-07-15 19:58

PySpark学习笔记-RDD(键值对RDD)

1.pairRDDpairRDD，就是键值对RDD。pairRDD是很多程序的构成要素，因为pairRDD提供了并行操作各个键或跨节点重新进行数据分组的操作接口。用户也可以通过控制pairRDD在各个节点上的分布情况，大大减少应用的通信开销。pairRDD是一种特殊的RDD，所以普通RDD支持的算子都适用于pairRDD.2.ByKey类操作frompysparkimportSparkContex

Sun_Sherry·2020-07-15 11:57

Spark学习笔记1. 伪分布式&全分布式环境搭建

安装Linux、JDK等等解压：tar-zxvfspark-2.1.0-bin-hadoop2.7.tgz-C~/training/由于Spark的脚本命令和Hadoop有冲突，只设置一个即可（不能同时设置）配置文件：/root/training/spark-2.1.0-bin-hadoop2.7/conf/spark-env.sh/root/training/spark-2.1.0-bin-ha

aimmon·2020-07-15 01:31

spark学习笔记（二）----运行模式、spark-submit

spark运行模式1、applicationprogram组成Job：包含多个Task组成的并行计算，跟Sparkaction对应Stage：Job的调度单位，对应于TaskSetTaskset：一组关联的、相互之间没有shuffle依赖关系的任务组成的任务集Task：被送到某个executor上的工作单元2、运行流程（以standalone为例）程序提交，sparkdriver内部RDDgrap

sunqingok·2020-07-14 23:27

【spark学习笔记】在idea搭建开发环境

1.序我的工程是maven工程，通过maven不需要理会包的加载问题，很是方便。如果你还没有使用maven来管理工程的话那强烈建议你使用maven，尽管前期学习有点麻烦（主要是maven的默认下载镜像是国外）2.搭建详情下面是我建工程的截图1.jpg2.jpg3.jpg4.jpg5.jpg6.jpg7.jpg8.jpg9.jpg10.jpg11.jpg3.测试wordcount程序pom.xml4

代码足迹·2020-07-14 01:56

Spark计算Pi运行过程详解---Spark学习笔记4

上回运行了一个计算Pi的例子那么Spark究竟是怎么执行的呢？我们来看一下脚本#!/bin/shexportYARN_CONF_DIR=/home/victor/software/hadoop-2.2.0/etc/hadoopSPARK_JAR=./assembly/target/scala-2.9.3/spark-assembly-0.8.1-incubating-hadoop2.2.0.jar

OopsOutOfMemory·2020-07-10 05:07

Spark实例TopN---Spark学习笔记11

Spark是基于内存的分布式计算框架，性能是十分彪悍的。话接上回，部署完Spark集群之后，想要测试一下，Spark的性能。1、环境集群概况可以参见SparkHadoop集群部署与Spark操作HDFS运行详解。现在集群里有一大约7G的文件，是手机号和IP地址的组合。hadoopdfs-dus/dw/spark/mobile.txthdfs://web02.dw:9000/dw/spark/mob

OopsOutOfMemory·2020-07-10 05:07

大数据系列——Spark学习笔记Spark Streaming

1.SparkStreamingSparkStreaming是一个基于SparkCore之上的实时计算框架，可以从很多数据源消费数据并对数据进行处理SparkStreaing中有一个最基本的抽象叫DStream（代理）,本质上就是一系列连续的RDD，DStream其实就是对RDD的封装DStream可以认为是一个RDD的工厂，该DStream里面生产都是相同业务逻辑的RDD，只不过是RDD里面要读

EVAO·2020-07-09 22:44

Spark集群中使用spark-submit提交jar任务包实战经验

转载:蜗龙徒行-Spark学习笔记【四】Spark集群中使用spark-submit提交jar任务包实战经验-cafuc46wingw的专栏-博客频道-CSDN.NEThttp://blog.csdn.net

zrc199021·2020-07-09 06:34

Spark学习笔记（一）——RDD基础

Spark学习（一）之RDD编程基础RDD简介一、创建RDD二、RDD操作2.1转化操作2.2行动操作参考文献最近开始学习Spark，期望在以后实习和秋招过程中有所收获~~RDD简介弹性分布式数据集（ResilientDistributedDataset,RDD)，是Spark对数据的核心抽象概念，RDD实际上就是分布式的元素集合。在Spark中，对数据的所有的操作不外乎就是三步：创建RDD，转化

Troy Zissman·2020-07-08 21:45

Spark学习笔记——读写MySQL

1.使用Spark读取MySQL中某个表中的信息build.sbt文件name:="spark-hbase"version:="1.0"scalaVersion:="2.11.8"libraryDependencies++=Seq("org.apache.spark"%%"spark-core"%"2.1.0","mysql"%"mysql-connector-java"%"5.1.31","or

weixin_34409741·2020-07-08 18:38

Spark学习笔记1：Spark概览

Spark是一个用来实现快速而通用的集群计算的平台。Spark项目包含多个紧密集成的组件。Spark的核心是一个对由很多计算任务组成的，运行在多个工作机器或者是一个计算集群上的应用进行调度，分发以及监控的计算引擎。Sark核心引擎有着速度快和通用的特点，因此Spark支持为各种不同应用场景专门设计的高级组件，这些组件关系密切并且可以互相调用。Spark各组件密切结合的设计原理的优点：软件栈中所有的

weixin_30426957·2020-07-08 13:44

Spark上提交运行简单WordCount程序---Spark学习笔记(1)

其实这个时候应该继续学习hadoop的，但是猛然发现目前的需求是spark，不过spark可以基于hadoop运行。目前使用的spark版本是:spark-1.6.2-bin-hadoop2.6运行Spark简单程序的思路是现在IDE上导入sparkAPI包并写好scala程序，然后像写HadoopMapReduce程序一样，导出做成jar包，接下来用spark-submit提交jar包，就可以运

miaote·2020-07-07 17:41

Spark学习笔记：Spark算子及应用

目录Spark算子及应用1.RDD基础什么是RDD？创建RDD使用RDD的算子（函数、方法）对数据进行计算2.常见的算子以及示例常用的Transformation算子常用的Action算子RDD算子示例5.RDD的缓存机制通过实例进行测试6.RDD的Checkpoint（检查点）机制：容错机制本地目录HDFS目录7.RDD的依赖关系和Stage的划分依据Spark算子及应用1.RDD基础RDD（R

SetsunaMeow·2020-07-07 15:19

Spark学习笔记（三）-开始第一个spark程序

Spark学习笔记-开始第一个spark程序在安装完Spark，其实最疑惑还是Spark怎么用的问题，由于也是刚学习linux，也不是很习惯linux下的命令行操作。

log_zhan·2020-07-07 14:39

spark学习笔记1-基础部分

本文是对Spark基础知识的一个学习总结，包含如下几部分的内容：概述运行模式SparkShellRDD/DataFrame/DataSet独立可执行程序小结参考资料：1、Spark的核心代码是用scala语言开发的，且提供了针对scala,java,python几种语言的官方API，在本文的示例中，我们采用的是基于scala语言的API。所以需要对scala语言有个基础的了解。可以参考scala系

我是老薛·2020-07-06 17:22

20年清华扫地僧，整理的Storm、Spark学习笔记，面试官：拿来看看

写在前面大数据并不是一个突如其来的时兴科技词语，而是在厚积薄发中不断演变，时机到来时一下变得广为人知。传统数据库和数据仓库的统治地位本来看上去牢不可破，随着Hadoop等大数据技术的日趋成熟，这种情况到了终结的时候。作为当前最受关注的实时大数据开源平台项目，Storm和Spark都能为广大潜在用户提供良好的实时大数据处理功能。除在功能方面的部分交集外，Storm、Spark还各自拥有独特的特性与市

Java领域指导者·2020-07-04 01:05

Spark 作业资源调度

北风网spark学习笔记静态资源分配原理spark提供了许多功能用来在集群中同时调度多个作业。

htfenght·2020-07-02 09:44

Spark入门（Python）--1.1 RDD基础

该系列spark学习笔记基于PythonSpark.RDD（弹性分布式数据集）是一个不可变的分布式对象集合，可以包含Python、Java、Scala中任意类型的对象，和用户自己定义的对象。

大尾巴狼呀·2020-06-29 17:10

spark学习笔记3（使用spark Sql进行离线数据分析项目数据的可视化、yarn运行、优化）

八、数据可视化1.Echarts（百度）的使用2.前面统计的结果存放在Mysql中，需要使用Echarts展示出来3.使用Echarts（详见百度官网）（1)从官网下载echarts.min.js(2)在html的头部引入echarts.min.js（3)在官网复制需要的图形的脚本文件并进行相应的修改4.使用idea创建web项目来进行之前的统计结果的展示(1)直接复制需求饼图的option(2)

我能想到的·2020-06-27 13:58

spark学习笔记2（使用spark Sql进行离线数据分析项目）

网站日志分析实战.项目一、用户行为日志概述1.用户访问、浏览、搜索、点击等行为都会被记录在网站的服务器上。2.用户的访问信息主要包括如下内容：（1）系统属性。（操作系统、浏览器）（2）点击的url,从什么url跳转过来（3）用户的sessionId、ip3.意义（1）网站的眼睛用于优化网站布局，用户网站的推广决策二、离线数据处理流程1.数据采集、（flume、logstash)将数据从网站的sev

我能想到的·2020-06-27 13:57

Spark学习笔记

MR的缺点:mr基于数据集的计算，所以面向数据1.基于运行规则从存储介质中获取（采集）数据，然后计算。最后将结果存储到介质中，主要应用于以一次性计算，不适用于数据挖掘和机器学习这样的迭代计算和图形挖掘计算。2.MR基于文件存储介质的操作，所以性能非常慢。Spark历史是一种基于内存的快速、通用、可扩展的大数据分析引擎。2013年6月发布Spark基于Hadoop1.x架构思想，采用自己的方式改善H

hvip·2020-06-25 07:35

Spark学习笔记2

Overview每一个spark程序都是有一个驱动程序组成，并且通过main函数运行。spark有两个重要的抽象：RDD，分布式弹性数据集，他是一个跨越多个节点的分布式集合。另一个抽象是共享变量。spark支持两种类型的共享变量：一个是广播（broadcastvariables）他可以缓存一个值在集群的各个节点。另一个是累加器（accumulators）他只能执行累加的操作，比如可以做计数器和求和

wangmin·2020-06-24 14:02

Spark学习笔记（三）-Spark Streaming

SparkStreaming支持实时数据流的可扩展（scalable）、高吞吐（high-throughput）、容错（fault-tolerant）的流处理（streamprocessing）。架构图特性如下：可线性伸缩至超过数百个节点；实现亚秒级延迟处理；可与Spark批处理和交互式处理无缝集成；提供简单的API实现复杂算法；更多的流方式支持，包括Kafka、Flume、Kinesis、Twi

萨姆大叔·2020-06-24 11:00

spark学习笔记（二）

一、编程环境以下为Mac系统上单机版Spark练习编程环境的配置方法。注意：仅配置练习环境无需安装Hadoop，无需安装Scala。1，安装Java8注意避免安装其它版本的jdk，否则会有不兼容问题。https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html2，下载spark并解压http

萨姆大叔·2020-06-24 11:00

Spark学习笔记（二）-弹性分布式数据集RDDs

Spark-弹性分布式数据集RDDs 在阅读很多的Spark简介中，都及多的提到RDDs这个名词。官方文档指出：Spark核心的概念是ResilientDistributedDataset(RDD)：一个可并行操作的有容错机制的数据集合。这句话说明RDD的本质是集合，这个集合带有并行操作和容错机制。官方文档指出有两种方式创建RDD，一种是在你的驱动程序中并行化一个已经存在的集合。这句

log_zhan·2020-06-24 08:57

spark学习笔记3

SparkStreamingProgrammingGuideOverviewAQuickExampleBasicConceptsLinkingInitializingStreamingContextDiscretizedStreams(DStreams)InputDStreamsandReceiversTransformationsonDStreamsOutputOperationsonDStre

keny风清扬·2020-06-24 00:28

【Spark】Spark学习笔记

本文意在收集整理网络上对Spark讲解比较好的博文，希望能发挥一个“Spark字典”的作用。先列出一个比较好的入门级Spark教程：厦门大学数据库实验室的Spark教程。厦门大学Spark入门教程（Scala版）Scala菜鸟教程第一部分：Scala基础1.if语句Scala中的if表达式的值可以直接赋值给变量。valx=6vala=if(x>0)1else-1//a的值为12.for循环Scal

长相忆兮长相忆·2020-06-23 14:15

pySpark学习笔记

pySpark学习笔记编译python，有些依赖需要下载下sudoyum-yinstallzlib-develbzip2-developenssl-develncurses-develsqlite-develreadline-develtk-develgdbm-develdb4

see you in September·2020-06-17 00:47

【Spark学习笔记】 Scala DataFrame操作大全

1、创建DataFrame本文所使用的DataFrame是通过读取mysql数据库获得的，代码如下:valspark=SparkSession.builder().appName("SparkSQLbasicexample").enableHiveSupport()//.config("spark.some.config.option","some-value").getOrCreate()imp

不可能打工·2020-06-16 11:39

Spark学习笔记1

ApacheSparkisafastandgeneral-purposeclustercomputingsystem.spark提供了JavaScalaPythonand的API。在examples/src/main目录下有Java和Scala例子，用bin/run-example运行。通过运行：./bin/spark-shell–masterlocal[2]来进行交互式的操作，这是学习sprak

wangmin·2020-04-14 07:55

Spark学习笔记3

读取HDFS中的数据，并简单分析，最后结果写入mysql数据库中。首先建立工程，pom文件中引入以下几个依赖org.apache.sparkspark-core_2.101.4.0mysqlmysql-connector-java5.1.13org.apache.hadoophadoop-client2.6.0junitjunit4.11test首先需要引入spark的包，这里使用的是spark1

wangmin·2020-04-09 10:07

[Spark学习笔记] RDD

什么是RDDRDD是整个Spark的计算基石。是分布式数据的抽象，为用户屏蔽了底层复杂的计算和映射环境RDD是不可变的，如果需要在一个RDD上进行转换操作，则会生成一个新的RDDRDD是分区的，RDD里面的具体数据是分布在多台机器上的Executor里面的。堆内内存和堆外内存+磁盘。RDD是弹性的。存储：Spark会根据用户的配置或者当前Spark的应用运行情况去自动将RDD的数据缓存到内存或者磁

猛男落泪为offer·2020-04-06 18:34

pyspark学习笔记（一）

在ipythonnotebook下运行pysparkjupyternotebookfrompysparkimportSparkConf,SparkContextappName='testSpark'defmain(sc):passif__name__=='__main__':#ConfigureSparkconf=SparkConf().setAppName(appName).setMaster(

深思海数_willschang·2020-03-20 18:48

Spark学习笔记（二）Spark2.3 HA集群的分布式安装图文详解

本文实例讲述了Spark2.3HA集群的分布式安装。分享给大家供大家参考，具体如下：一、下载Spark安装包1、从官网下载http://spark.apache.org/downloads.html2、从微软的镜像站下载http://mirrors.hust.edu.cn/apache/3、从清华的镜像站下载https://mirrors.tuna.tsinghua.edu.cn/apache/二

扎心了，老铁·2020-02-13 12:56

Spark学习笔记（一）Spark初识【特性、组成、应用】

本文实例讲述了Spark基本特性、组成、应用。分享给大家供大家参考，具体如下：一、官网介绍1、什么是Spark官网地址：http://spark.apache.org/ApacheSpark™是用于大规模数据处理的统一分析引擎。从右侧最后一条新闻看，Spark也用于AI人工智能spark是一个实现快速通用的集群计算平台。它是由加州大学伯克利分校AMP实验室开发的通用内存并行计算框架，用来构建大型的

扎心了，老铁·2020-02-13 12:06

大数据系列：Spark学习笔记

1.关于Spark2009年，spark诞生于伯克利大学的amplab。最重要的是，spark只是一个实验项目，只包含很少的代码，属于轻量级框架。2010年，伯克利大学正式启动了Spark项目。2013年6月，Spark成为Apache基金会的一个项目，并进入了高速开发阶段。第三方开发人员贡献了大量代码，并且非常活跃2014年2月，Spark被称为Apache的顶级项目。与此同时，大数据公司clo

yiyidsj·2020-02-07 16:39

Spark学习笔记

Scala语法至于scala语法而言，大致上和Java的语法类似，增加了一些函数式编程，具体语法可以参考Scala语法Scala是一种针对JVM将函数和面向对象技术组合在一起的编程语言。Scala编程语言近来抓住了很多开发者的眼球。它看起来像是一种纯粹的面向对象编程语言，而又无缝地结合了命令式和函数式的编程风格。Scala也是一种函数式语言，其函数也能当成值来使用。Scala被特意设计成能够与Ja

卡卡xx·2020-02-01 00:32

推荐频道

spark学习笔记

Spark学习笔记（二）——分布式计算原理

Spark学习笔记-HBase操作

Spark学习笔记-KNN算法实现

Spark Hadoop集群部署与Spark操作HDFS运行详解---Spark学习笔记10

RDD Dependency详解---Spark学习笔记9

Spark学习笔记--超全,所有知识点全覆盖总结

pyspark学习笔记（一），修改列的dtype

Spark学习笔记：Spark进阶

spark学习笔记4

Spark学习笔记3——RDD（下）

Spark学习笔记(一)

spark学习笔记-spark集群搭建（7）

spark学习笔记-CentOS 6.4集群搭建（2）

PySpark学习笔记-RDD(键值对RDD)

Spark学习笔记1. 伪分布式&全分布式环境搭建

spark学习笔记（二）----运行模式、spark-submit

【spark学习笔记】在idea搭建开发环境

Spark计算Pi运行过程详解---Spark学习笔记4

Spark实例TopN---Spark学习笔记11

大数据系列——Spark学习笔记Spark Streaming

Spark集群中使用spark-submit提交jar任务包实战经验

Spark学习笔记（一）——RDD基础

Spark学习笔记——读写MySQL

Spark学习笔记1：Spark概览

Spark上提交运行简单WordCount程序---Spark学习笔记(1)

Spark学习笔记：Spark算子及应用

Spark学习笔记（三）-开始第一个spark程序

spark学习笔记1-基础部分

20年清华扫地僧，整理的Storm、Spark学习笔记，面试官：拿来看看

Spark 作业资源调度

Spark入门（Python）--1.1 RDD基础

spark学习笔记3（使用spark Sql进行离线数据分析项目数据的可视化、yarn运行、优化）

spark学习笔记2（使用spark Sql进行离线数据分析项目）

Spark学习笔记

Spark学习笔记2

Spark学习笔记（三）-Spark Streaming

spark学习笔记（二）

Spark学习笔记（二）-弹性分布式数据集RDDs

spark学习笔记3

【Spark】Spark学习笔记

pySpark学习笔记

【Spark学习笔记】 Scala DataFrame操作大全

Spark学习笔记1

Spark学习笔记3

[Spark学习笔记] RDD

pyspark学习笔记（一）

Spark学习笔记 （二）Spark2.3 HA集群的分布式安装图文详解

Spark学习笔记（一）Spark初识【特性、组成、应用】

大数据系列：Spark学习笔记

Spark学习笔记

Spark学习笔记（二）Spark2.3 HA集群的分布式安装图文详解