Spark学习第9页

Spark学习笔记（二）-弹性分布式数据集RDDs

Spark-弹性分布式数据集RDDs 在阅读很多的Spark简介中，都及多的提到RDDs这个名词。官方文档指出：Spark核心的概念是ResilientDistributedDataset(RDD)：一个可并行操作的有容错机制的数据集合。这句话说明RDD的本质是集合，这个集合带有并行操作和容错机制。官方文档指出有两种方式创建RDD，一种是在你的驱动程序中并行化一个已经存在的集合。这句

log_zhan·2020-06-24 08:57

spark学习笔记3

SparkStreamingProgrammingGuideOverviewAQuickExampleBasicConceptsLinkingInitializingStreamingContextDiscretizedStreams(DStreams)InputDStreamsandReceiversTransformationsonDStreamsOutputOperationsonDStre

keny风清扬·2020-06-24 00:28

【Spark】Spark学习笔记

本文意在收集整理网络上对Spark讲解比较好的博文，希望能发挥一个“Spark字典”的作用。先列出一个比较好的入门级Spark教程：厦门大学数据库实验室的Spark教程。厦门大学Spark入门教程（Scala版）Scala菜鸟教程第一部分：Scala基础1.if语句Scala中的if表达式的值可以直接赋值给变量。valx=6vala=if(x>0)1else-1//a的值为12.for循环Scal

长相忆兮长相忆·2020-06-23 14:15

Spark学习（权限错误）

在集群的master上执行spark-shell时出现如下错误：16/09/0915:42:14ERRORspark.SparkContext:ErrorinitializingSparkContext.org.apache.hadoop.security.AccessControlException:Permissiondenied:user=root,access=WRITE,inode=

接入信息·2020-06-23 13:43

GeoSpark学习--初识GeoSpark

背景传统的不足：数据存储方面：1、现有的数据存储主要是多依赖关系型数据库，比如Oracle等，但是关系型数据库在海量数据管理、高并发读写以及扩展性方面有很大的局限2、传统的空间数据存储方式不但难以扩展，而且随着数据的激增读写性能存在极大瓶颈3、传统的分布式文件系统虽然可以存放在不同的节点上，但这种分布式文件系统所支持的扩展性有限数据分析方面：大数据时代的数据是处处连接的，每个连接都是一个传感器，这

Franky47·2020-06-22 09:36

大数据之Hadoop学习——动手实战学习MapReduce编程实例

文章目录一、MapReduce理论基础二、Hadoop、Spark学习路线及资源收纳三、MapReduce编程实例1.自定义对象序列化需求分析报错：Exceptioninthread"main"java.lang.IllegalArgumentException

lzw2016·2020-06-21 03:20

pySpark学习笔记

pySpark学习笔记编译python，有些依赖需要下载下sudoyum-yinstallzlib-develbzip2-developenssl-develncurses-develsqlite-develreadline-develtk-develgdbm-develdb4

see you in September·2020-06-17 00:47

【Spark学习笔记】 Scala DataFrame操作大全

1、创建DataFrame本文所使用的DataFrame是通过读取mysql数据库获得的，代码如下:valspark=SparkSession.builder().appName("SparkSQLbasicexample").enableHiveSupport()//.config("spark.some.config.option","some-value").getOrCreate()imp

不可能打工·2020-06-16 11:39

Spark学习记录

Spark学习中遇到的一些基本问题以及解决思路。

秋夜花开·2020-06-08 09:00

Spark学习笔记1

ApacheSparkisafastandgeneral-purposeclustercomputingsystem.spark提供了JavaScalaPythonand的API。在examples/src/main目录下有Java和Scala例子，用bin/run-example运行。通过运行：./bin/spark-shell–masterlocal[2]来进行交互式的操作，这是学习sprak

wangmin·2020-04-14 07:55

Spark学习笔记3

读取HDFS中的数据，并简单分析，最后结果写入mysql数据库中。首先建立工程，pom文件中引入以下几个依赖org.apache.sparkspark-core_2.101.4.0mysqlmysql-connector-java5.1.13org.apache.hadoophadoop-client2.6.0junitjunit4.11test首先需要引入spark的包，这里使用的是spark1

wangmin·2020-04-09 10:07

[Spark学习笔记] RDD

什么是RDDRDD是整个Spark的计算基石。是分布式数据的抽象，为用户屏蔽了底层复杂的计算和映射环境RDD是不可变的，如果需要在一个RDD上进行转换操作，则会生成一个新的RDDRDD是分区的，RDD里面的具体数据是分布在多台机器上的Executor里面的。堆内内存和堆外内存+磁盘。RDD是弹性的。存储：Spark会根据用户的配置或者当前Spark的应用运行情况去自动将RDD的数据缓存到内存或者磁

猛男落泪为offer·2020-04-06 18:34

Hadoop概念学习系列之Hadoop、Spark学习路线

不多说，直接上干货！说在前面的话此笔，对于仅对于Hadoop和Spark初中学者。高手请忽略！1Java基础：视频方面：推荐《毕向东JAVA基础视频教程》。学习hadoop不需要过度的深入，java学习到javase，在Java虚拟机的内存管理、以及多线程、线程池、设计模式、并行化多多理解实践即可。书籍方面：推荐李兴华的《java开发实战经典》2Linux基础：视频方面：（1）马哥的高薪Linux

coderTG·2020-04-01 15:21

==22[教程]『 Spark 』3. spark 编程模式

spark-programming-model本系列文章链接『Spark』1.spark简介『Spark』2.spark基本概念解析『Spark』3.spark编程模式『Spark』4.spark之RDD『Spark』5.这些年，你不能错过的spark

葡萄喃喃呓语·2020-03-24 05:38

Spark学习

Spark学习一、Spark简介1.Hadoop中Map-Reduce计算框架的替代品2.运行在HDFS上，可以与Yarn配合3.将中间结果保存在内存而不是磁盘中4.提供了比Map、Reduce更多的高阶函数

一只小青鸟·2020-03-23 05:58

pyspark学习笔记（一）

在ipythonnotebook下运行pysparkjupyternotebookfrompysparkimportSparkConf,SparkContextappName='testSpark'defmain(sc):passif__name__=='__main__':#ConfigureSparkconf=SparkConf().setAppName(appName).setMaster(

深思海数_willschang·2020-03-20 18:48

这样搭建Spark学习环境效率似乎更高

转自我的个人博客：https://showme.codes/2017-01-31/setup-spark-dev-env/像学习Spark这类大数据平台，搭建环境，是一件很费时费力的事情。特别是当你想使用多台机器模拟真实生产环境时。为了更有效的学习Spark，我决定将自己的学习环境按生产环境的要求来搭建。但是真实生产环境的群集往往由多个集群组成：Hadoop/Hbase集群、Zookeeper集群

翟志军·2020-03-18 13:32

Intellij之Spark Scala开发环境搭建

在开始spark学习之前，首先需要搭建Spark的开发环境，搭建开发环境可以基于eclipse或者intellij，今天主要以Intellij开发工具来搭建Spark开发环境。

就一个名字而已·2020-03-08 04:08

Spark学习笔记（二）Spark2.3 HA集群的分布式安装图文详解

本文实例讲述了Spark2.3HA集群的分布式安装。分享给大家供大家参考，具体如下：一、下载Spark安装包1、从官网下载http://spark.apache.org/downloads.html2、从微软的镜像站下载http://mirrors.hust.edu.cn/apache/3、从清华的镜像站下载https://mirrors.tuna.tsinghua.edu.cn/apache/二

扎心了，老铁·2020-02-13 12:56

Spark学习笔记（一）Spark初识【特性、组成、应用】

本文实例讲述了Spark基本特性、组成、应用。分享给大家供大家参考，具体如下：一、官网介绍1、什么是Spark官网地址：http://spark.apache.org/ApacheSpark™是用于大规模数据处理的统一分析引擎。从右侧最后一条新闻看，Spark也用于AI人工智能spark是一个实现快速通用的集群计算平台。它是由加州大学伯克利分校AMP实验室开发的通用内存并行计算框架，用来构建大型的

扎心了，老铁·2020-02-13 12:06

2018-11-17 Spark介绍系列文章

introduction-to-spark本系列文章链接『Spark』1.spark简介『Spark』2.spark基本概念解析『Spark』3.spark编程模式『Spark』4.spark之RDD『Spark』5.这些年，你不能错过的spark

Albert陈凯·2020-02-12 23:38

大数据系列：Spark学习笔记

1.关于Spark2009年，spark诞生于伯克利大学的amplab。最重要的是，spark只是一个实验项目，只包含很少的代码，属于轻量级框架。2010年，伯克利大学正式启动了Spark项目。2013年6月，Spark成为Apache基金会的一个项目，并进入了高速开发阶段。第三方开发人员贡献了大量代码，并且非常活跃2014年2月，Spark被称为Apache的顶级项目。与此同时，大数据公司clo

yiyidsj·2020-02-07 16:39

spark学习第13天

在Scala中有两种弱变量val和var他们最主要的区别就是val不能再赋值，var可以在生命周期中被多次赋值。val:1scala>valmsg=”Hello,world!”;2msg:java.lang.String=Hello,world!3scala>msg=”Helloagain,world!”;4:5:error:reassignmenttoval5msg=”Helloagain,wo

哈弗h6·2020-02-06 21:00

spark学习

启动集群./root/app/spark/sbin/start-all.shspark-shell启动./spark-shell--masterspark://mini01:7077--total-executor-cores1--executor-memory1024m提交任务./spark-submit--masterspark://mini01:7077--classWordCount--t

若尘0328·2020-02-02 22:04

Spark学习笔记

Scala语法至于scala语法而言，大致上和Java的语法类似，增加了一些函数式编程，具体语法可以参考Scala语法Scala是一种针对JVM将函数和面向对象技术组合在一起的编程语言。Scala编程语言近来抓住了很多开发者的眼球。它看起来像是一种纯粹的面向对象编程语言，而又无缝地结合了命令式和函数式的编程风格。Scala也是一种函数式语言，其函数也能当成值来使用。Scala被特意设计成能够与Ja

卡卡xx·2020-02-01 00:32

spark学习笔记

1、什么是Spark？Spark是一个用来实现快速而通用的集群计算的平台。1.1、特点能在内存中进行计算。1.2、SparkCore包含任务调度、内存管理、错误恢复、与存储系统交互等模块。1.3、SparkSQL通过SparkSQL，我们可以使用SQL或者Hive版本的SQL（HQL）来查询数据，支持多种数据源，比如Hive表、Parquet、JSON等。1.4、SparkStreaming对实时

seafreak·2020-01-31 02:36

spark学习（五）

（一）进入spark-shell命令界面（默认使用scala的命令界面）1,如果进入了spark安装目录则使用、1，一台机器启动spark：./bin/spark-shell--master命令可进入shell界面，master-url参数可为：local[*]使用逻辑CPU多线程启动，local[n]，使用n个CPU线程启动2，集群下启动spark：spark：//主机IP:7077（默认端口）

寂天风·2020-01-28 23:00

spark学习（四）spark基本原理及安装

MapReduce与sparkMapReduce：操作单一，只有map，reducespark：提供多种操作：过滤，分组，排序....（一）spark生态环境：Mesos和YARN都是资源调度管理器HDFS：分布式系统存储组件S3：亚马逊提供的云端的简单的存储服务Tachyon：基于内存的分布式文件系统SparkCore：复杂批量数据处理，取代MapReduceHiveSparkStreaming

寂天风·2020-01-28 20:00

Spark学习（三）Scala程序例子

例一：对目录下的单词文件进行单词统计/word/first.txt：/word/second.txt：/word/third.txt：运行结果：importjava.io.File;importjava.io.PrintWriter;importscala.io.Source;importcollection.mutable.Map;importcollection.SortedMap;objec

寂天风·2020-01-28 12:00

Spark学习之路（十七）Spark分区[转]

分区的概念分区是RDD内部并行计算的一个计算单元，RDD的数据集在逻辑上被划分为多个分片，每一个分片称为分区，分区的格式决定了并行计算的粒度，而每个分区的数值计算都是在一个任务中进行的，因此任务的个数，也是由RDD(准确来说是作业最后一个RDD)的分区数决定。为什么要进行分区数据分区，在分布式集群里，网络通信的代价很大，减少网络传输可以极大提升性能。mapreduce框架的性能开支主要在io和网络

C君。·2020-01-26 17:00

Spark学习之路（十五）SparkCore的源码解读（一）启动脚本[转]

启动脚本分析独立部署模式下，主要由master和slaves组成，master可以利用zk实现高可用性，其driver，work，app等信息可以持久化到zk上；slaves由一台至多台主机构成。Driver通过向Master申请资源获取运行环境。启动master和slaves主要是执行/usr/dahua/spark/sbin目录下的start-master.sh和start-slaves.sh

C君。·2020-01-26 17:00

Spark学习之路（二十八）分布式图计算系统[转]

引言在了解GraphX之前，需要先了解关于通用的分布式图计算框架的两个常见问题：图存储模式和图计算模式。图存储模式巨型图的存储总体上有边分割和点分割两种存储方式。2013年，GraphLab2.0将其存储方式由边分割变为点分割，在性能上取得重大提升，目前基本上被业界广泛接受并使用。边分割（Edge-Cut）每个顶点都存储一次，但有的边会被打断分到两台机器上。这样做的好处是节省存储空间；坏处是对图进

C君。·2020-01-26 17:00

Spark学习之路（二十七）图简介[转]

图基本概念图是由顶点集合(vertex)及顶点间的关系集合（边edge）组成的一种数据结构。这里的图并非指代数中的图。图可以对事物以及事物之间的关系建模，图可以用来表示自然发生的连接数据，如：社交网络、互联网web页面常用的应用有：在地图应用中找到最短路径、基于与他人的相似度图，推荐产品、服务、人际关系或媒体术语顶点和边一般关系图中，事物为顶点，关系为边有向图和无向图在有向图中，一条边的两个顶点一

C君。·2020-01-26 17:00

Spark学习笔记（四）—— Yarn模式

1、Yarn运行模式介绍Yarn运行模式就是说Spark客户端直接连接Yarn，不需要额外构建Spark集群。如果Yarn是分布式部署的，那么Spark就跟随它形成了分布式部署的效果。有yarn-client和yarn-cluster两种模式，主要区别在于：Driver程序的运行节点。yarn-client：Driver程序运行在客户端，适用于交互、调试，希望立即看到app的输出yarn-clus

三秋叶·2020-01-10 14:00

Spark学习笔记（三）—— Standalone模式

上篇笔记记录了Local模式的一些内容，但是实际的应用中很少有使用Local模式的，只是为了我们方便学习和测试。真实的生产环境中，Standalone模式更加合适一点。1、基础概述Standalone不是单机模式，它是集群，但是是基于Spark独立调度器的集群，也就是说它是Spark特有的运行模式。有Client和Cluster两种模式，主要区别在于：Driver程序的运行节点。怎么理解呢？哪里提

三秋叶·2020-01-10 14:00

Spark学习笔记（二）—— Local模式

Spark的运行模式有Local(也称单节点模式），Standalone(集群模式），SparkonYarn(运行在Yarn上），Mesos以及K8s等常用模式，本文介绍第一种模式。1、Local模式Local模式就是运行在一台计算机上的模式，也称单节点模式。Local模式是最简单的一种Spark运行方式，它采用单节点多线程(CPU)方式运行，通常就是用于在本机学习或者测试使用的，对新手比较友好。

三秋叶·2020-01-09 13:00

Spark学习笔记（一）——基础概述

本篇笔记主要说一下Spark到底是个什么东西，了解一下它的基本组成部分，了解一下基本的概念，为之后的学习做铺垫。过于细节的东西并不深究。在实际的操作过程中，才能够更加深刻的理解其内涵。1、什么是Spark？Spark是由美国加州伯克利大学的AMP实验室开发的，一款基于内存计算的大数据并行计算框架，可用于构建大型的、低延迟的数据分析应用程序。说白了就是搞数据计算分析的框架，过于细节的东西在学习过程中

三秋叶·2020-01-09 11:00

Spark学习笔记

趁着工作业余时间，趁着内心对技术追求的热情，还是对Spark这个大数据内存计算框架动手了，毕竟人与人之间的差距都是在工作业余时间拉开的……Spark官网：http://spark.apache.org/一、Spark概述官网已经说的很明白了，我这里记录一些重点。Spark是一种分布式计算框架，对标Hadoop的MapReduce；MapReduce适用于离线批处理（处理延迟在分钟级）而Spark既

coder、·2020-01-07 23:00

Spark学习记录|RDD分区的那些事

文哥的学习日记·2020-01-04 17:33

Spark学习笔记(6)性能调优

1.调节并行度并行度是指各个stage中task的数量。1）官方推荐，task数量设置成sparkapplication总cpucore数量的2~3倍，比如150个cpucore，基本要设置task数量为300~500。2）设置并行度SparkConfconf=newSparkConf().set("spark.default.parallelism","500")2.RDD优化1）复用RDD2）

灯火gg·2020-01-04 07:35

Spark学习笔记四：Spark Yarn集群搭建

Spark集群使用上篇文章【Spark学习笔记三：SparkStandalone集群搭建】安装的SparkStandalone集群。

开发者连小超·2019-12-24 15:30

总体计划 -- Whatever It Takes

tensorflow，写文章深度学习、神经网络、人脸识别基于CNN的推荐算法优化3找工作，这个是二类事物Java基础、算法、数据结构、4毕业论文：Hadoop+Spark+推荐算法Hadoop环境搭建Hadoop编程Spark

艾剪疏·2019-12-23 07:39

Spark学习笔记(5)Shuffle源码分析

概述RDD作为Spark对各种数据计算模型的同一抽象，被用于迭代计算过程以及任务结果的缓存读写。在MR模型中，shuffle是map到reduce的中间桥梁。经过map标记后，shuffle负责分发到各个reducer上。如果有大量数据需要shuffle,shuffle决定了整个计算引擎的性能和吞吐量。MappedRDD的iterator方法实际调用父类RDD的iterator方法/***RDD的

灯火gg·2019-12-14 06:48

[语法]flatMap与map 的区别~Spark 中

spark中flatMap函数用法--spark学习（基础）-博客频道-CSDN.NEThttp://blog.csdn.net/u010824591/article/details/50732996说明在

葡萄喃喃呓语·2019-12-11 21:36

Spark之RDD

这篇文章讲的很详细Spark学习之路（三）Spark之RDD-扎心了，老铁-博客园总结一：RDD可以理解为java里面的方法，函数。

任嘉平生愿·2019-12-08 18:25

闲谈和spark学习日志第二天

2017.10.25更换下载源在“软件和更新”里面，推荐阿里的源查看软件位置：dpkg-L软件名一般使用apt-get安装的软件都在/usr/share下面，这就让我突然好奇，这几个文件夹到底是干什么的总结如下：/usr/lcoal通常用来放手动安装的软件/usr/share通常用来放数据文件和帮助加载的配置文件在/etc下可执行程序在/usr/bin下在apt-get里面会遇到两个命令updat

梅川潇酷子·2019-12-06 09:52

spark学习笔记(一)

概括我们公司使用spark已经有段时间了，现在我对我之前的学习知识进行整理，以便记录和大家共同学习，有一部分是网上摘抄，感谢网络共享大神。本文只是针对spark2，spark基本概念，简而言之就是：spark专门为大规模数据处理而设计的快速通用的计算引擎，是apache的一个开源项目。是一种跟Hadoop相似的通用分布式并行计算框架，但是spark是基于内存计算的分布式执行框架，在执行速度上优于h

伯安知心·2019-11-09 17:00

Spark学习笔记

Spark开头别的不多说了，就说Spark为啥存在。他来到这就是为了代替MapReduce的！MR的缺点为啥要被代替呢？学过Hadoop知道，Hadoop早期，MR是基于数据集的计算，面向的是数据。基本运算规则是从存储介质中采集数据，然后进行计算，所以它的计算往往是一次性的，这就存在一定的局限性，不适用于数据挖掘和机器学习这样的迭代计算和图形挖掘计算。而且因为文件存储，性能不好！MR和Hadoop

AceCream佳·2019-11-01 18:43

Spark学习笔记(一)

一、什么是Spark?Spark是一个针对大规模数据处理的快速通用引擎，类似于MapReduce,都是进行数据的处理。二、Spark的特点1.基于Scala语言开发、Spark基于内存的计算，运算速度快、所以从运算速度来将要比MapReduce快。2.易用：支持多种语言3.通用：SparkCore、SparkSQL、SparkStreaming（流式计算）4.兼容性好：完全兼容HadoopSpar

Jayboy.chen·2019-10-19 09:56

spark学习-16-Spark的Map()和FlatMap()函数使用

远有青山·2019-10-14 11:24

推荐频道

Spark学习

Spark学习笔记（二）-弹性分布式数据集RDDs

spark学习笔记3

【Spark】Spark学习笔记

Spark学习（权限错误）

GeoSpark学习--初识GeoSpark

大数据之Hadoop学习——动手实战学习MapReduce编程实例

pySpark学习笔记

【Spark学习笔记】 Scala DataFrame操作大全

Spark学习记录

Spark学习笔记1

Spark学习笔记3

[Spark学习笔记] RDD

Hadoop概念学习系列之Hadoop、Spark学习路线

==22[教程]『 Spark 』3. spark 编程模式

Spark学习

pyspark学习笔记（一）

这样搭建Spark学习环境效率似乎更高

Intellij之Spark Scala开发环境搭建

Spark学习笔记 （二）Spark2.3 HA集群的分布式安装图文详解

Spark学习笔记（一）Spark初识【特性、组成、应用】

2018-11-17 Spark介绍系列文章

大数据系列：Spark学习笔记

spark学习第13天

spark学习

Spark学习笔记

spark学习笔记

spark学习（五）

spark学习（四）spark基本原理及安装

Spark学习（三）Scala程序例子

Spark学习之路 （十七）Spark分区[转]

Spark学习之路 （十五）SparkCore的源码解读（一）启动脚本[转]

Spark学习之路 （二十八）分布式图计算系统[转]

Spark学习之路 （二十七）图简介[转]

Spark学习笔记（四）—— Yarn模式

Spark学习笔记（三）—— Standalone模式

Spark学习笔记（二）—— Local模式

Spark学习笔记（一）——基础概述

Spark学习笔记

Spark学习记录|RDD分区的那些事

Spark学习笔记(6)性能调优

Spark学习笔记四：Spark Yarn集群搭建

总体计划 -- Whatever It Takes

Spark学习笔记(5)Shuffle源码分析

[语法]flatMap与map 的区别~Spark 中

Spark之RDD

闲谈和spark学习日志第二天

spark学习笔记(一)

Spark学习笔记

Spark学习笔记(一)

spark学习-16-Spark的Map()和FlatMap()函数使用

Spark学习笔记（二）Spark2.3 HA集群的分布式安装图文详解

Spark学习之路（十七）Spark分区[转]

Spark学习之路（十五）SparkCore的源码解读（一）启动脚本[转]

Spark学习之路（二十八）分布式图计算系统[转]

Spark学习之路（二十七）图简介[转]