spark学习第10页

Spark（十一）Spark 学习: spark 原理简述与 shuffle 过程介绍

目录Spark学习简述总结1引言1.1Hadoop和Spark的关系2Spark系统架构2.1Spark运行原理3RDD初识4.Shuffle和Stage5.性能优化5.1缓存机制和cache的意义5.2Shuffle

犀牛_Scott·2019-10-02 09:23

Spark学习总结

RDD及其特点1、RDD是Spark的核心数据模型，但是个抽象类，全称为ResillientDistributedDataset，即弹性分布式数据集。2、RDD在抽象上来说是一种元素集合，包含了数据。它是被分区的，分为多个分区，每个分区分布在集群中的不同节点上，从而让RDD中的数据可以被并行操作。（分布式数据集）3、RDD通常通过Hadoop上的文件，即HDFS文件或者Hive表，来进行创建；有时

dreamno·2019-09-27 14:00

Spark学习08——RDD、DataFrame 和 Dataset

原文链接：https://www.infoq.cn/article/three-apache-spark-apis-rdds-dataframes-and-datasets弹性分布式数据集（ResilientDistributedDataset，RDD）从一开始RDD就是Spark提供的面向用户的主要API。从根本上来说，一个RDD就是你的数据的一个不可变的分布式元素集合，在集群中跨节点分布，可以

lishengping_max·2019-09-19 14:24

Spark学习07——创建DataFrame的方法

一、简介基于Row的DateSet就是DataFrame，即DataFrame是DateSet的一个子集，DataFrame只是DateSet的叫法二、创建方法1.使用toDF函数创建DataFrameobjectCreateDataFrameFun{defmain(args:Array[String]):Unit={valspark=SparkSession.builder().master("

lishengping_max·2019-09-19 11:43

Spark学习06——键值对RDD行动算子

所有键值对RDD行动算子如下：collectAsMap、countByKey、fold、lookup、saveAsSequenceFile当然键值对RDD可以使用所有RDD行动算子，介绍详见：https://blog.csdn.net/qq_23146763/article/details/101013861具体解释和例子1.collectAsMap将结果以映射表的形式返回，以便查询objectC

lishengping_max·2019-09-19 11:29

Spark学习05——键值对RDD转换算子

所有键值对RDD转换算子如下：mapValues、flatMapValues、sortByKey、combineByKey、foldByKey、groupByKey、reduceByKey、aggregateByKey、cogroup、join、leftOuterJoin、rightOuterJoin当然键值对RDD可以使用所有RDD转换算子，介绍详见：https://blog.csdn.net/

lishengping_max·2019-09-19 11:20

Spark学习笔记3——RDD（下）

目录Spark学习笔记3——RDD（下）向Spark传递函数通过匿名内部类通过具名类传递通过带参数的Java函数类传递通过lambda表达式传递（仅限于Java8及以上）常见的转化操作和行动操作基本RDD

隔壁老李头·2019-09-18 16:00

Spark学习笔记3——RDD（下）

Spark学习笔记3——RDD（下）目录Spark学习笔记3——RDD（下）向Spark传递函数通过匿名内部类通过具名类传递通过带参数的Java函数类传递通过lambda表达式传递（仅限于Java8及以上

隔壁老李头·2019-09-18 16:00

Spark学习笔记2——RDD（上）

目录Spark学习笔记2——RDD（上）RDD是什么？

隔壁老李头·2019-09-10 17:00

Spark学习笔记1——第一个Spark程序：单词数统计

Spark学习笔记1——第一个Spark程序：单词数统计笔记摘抄自[美]HoldenKarau等著的《Spark快速大数据分析》添加依赖通过Maven添加Spark-core_2.10的依赖程序找了一篇注释比较清楚的博客代码

隔壁老李头·2019-09-10 13:00

Spark学习笔记0——简单了解和技术架构

目录Spark学习笔记0——简单了解和技术架构什么是Spark技术架构和软件栈SparkCoreSparkSQLSparkStreamingMLlibGraphX集群管理器受众起源和发展Spark学习笔记

隔壁老李头·2019-09-10 12:00

Spark原理简述

Spark学习:spark原理简述与shuffle过程介绍简述总结Spark是使用scala实现的基于内存计算的大数据开源集群计算环境.提供了java,scala,python,R等语言的调用接口。

GCAmEmFG·2019-08-29 11:31

Spark学习笔记 ---workConut

Spark学习笔记之—WordCount笔记。

wudonglianga·2019-08-28 00:16

Spark学习实例(Python)：RDD、DataFrame、DataSet相互转换

在学习转换之前先了解以下它们的基本概念RDD：弹性分布式数据集，是一个只读分区集合DataFrame：以命名列方式组织的分布式数据集，概念上和关系型数据库的一张表一样DataSet：分布式数据集合，Python暂时不支持了解了基本的概念之后，接下来我们通过代码编写三种数据集的形成RDD的形成frompyspark.sqlimportSparkSessionif__name__=='__main__

雷禄辉·2019-08-20 16:22

Spark学习实例(Python)：输入源实时处理 Input Sources Streaming

在之前学习的RDD和DataFrame数据集主要处理的是离线数据，随着时代发展进步，我们会发现越来越多数据是在源源不断发回到数据中心，同时需要立刻响应给用户，这样的情况我们就会用到实时处理，常用的场景有实时显示某商场一小时人流密度、实时显示当天火车站人口总数等等。接下来从实时数据源说起，实时数据源主要有：FileSourceSocketSourceFlumeSourceKafkaSourceFil

雷禄辉·2019-08-20 16:54

Spark学习实例(Python)：共享变量Shared Variables

通常在使用Spark算子函数，比如使用map()或者reduce函数我们向函数传入条件时，函数内部可以使用驱动程序中定义的变量，但是这样会使集群中所有任务都会得到变量新的副本，这些副本的更新不会传播回驱动程序，导致读写共享变量效率低下或者内存溢出，为了解决这个问题Spark提供了两种共享变量类型：广播变量和累加器广播变量：用来高效分发较大对象，只能在Driver定义，不能在Executor端定义，

雷禄辉·2019-08-20 16:58

Spark学习实例(Python)：RDD执行 Actions

上面我们学习了RDD如何转换，即一个RDD转换成另外一个RDD，但是转换完成之后并没有立刻执行，仅仅是记住了数据集的逻辑操作，只有当执行了Action动作之后才会真正触发Spark作业，进行算子的计算执行操作有：reduce(func)collect()count()first()take(n)takeSample(withReplacement,num,[seed])takeOrdered(n,

雷禄辉·2019-08-20 16:10

Spark学习实例(Python)：窗口操作 Window Operations

说到流处理，Spark为我们提供了窗口函数，允许在滑动数据窗口上应用转换，常用场景如每五分钟商场人流密度、每分钟流量等等，接下来我们通过画图来了解SparkStreaming的窗口函数如何工作的，处理过程图如下所示：上图中绿色的小框框是一批一批的数据流，虚线框和实线框分别是前一个窗口和后一个窗口，从图中可以看出后一个窗口在前一个窗口基础上移动了两个批次的数据流，而我们真正通过算子操作的数据其实就是

雷禄辉·2019-08-20 16:40

Spark学习-2.4.0-源码分析-3-Spark 核心篇-Spark Submit任务提交

文章目录1.概述2.Spark应用程序执行流程简介3.SparkSubmit任务提交流程详解3.1第一步，编写用户脚本并用Spark-Submit提交3.1.1用户脚本内容3.1.2命令行日志3.1.3Spark-Submit脚本分析4.SparkSubmit源码详解5.提交网关：“RestSubmissionClient”&&“Client”5.1RestSubmissionClientApp申

pre_tender·2019-08-18 15:51

Spark学习实例(Python)：加载数据源Load Data Source

我们在使用Spark的时候主要是用来快速处理大批量的数据，那么实际开发和生产中会有哪些数据来源呢，我归类总结有：textcsvjsonparquetjdbchivekafkaelasticsearch接下来所有的测试是基于sparklocal模式，因为local模式便于测试不依赖spark集群环境。有一点要注意将代码运行在spark集群上时要将.master("local[*]")这行去掉，同时需

雷禄辉·2019-08-09 14:32

Spark学习笔记02：Spark下载与入门

Spark学习笔记02：Spark下载与入门一、Spark下载与入门1、下载Sparkhttp://spark.apache.org/downloads.html2、安装Spark将安装包解压缩在/home

howard2005·2019-07-28 19:47

Spark学习实例(Python)：单词统计 Word Count

我们从学习一门新语言如C、Java、Python等基本都是从"HelloWorld"开始的，而这里的WordCount类似于"HelloWorld"，该实例的功能是统计各个单词出现的次数，比如随意给你一份政府报告找出政府工作重点内容，那么就可以通过单词统计来完成，排除掉那些语气词(啊、的、是等等)出现词的频率越高代表着政府越重视。本文是基于Pyhon的SparkLocal来进行，因此需要准备以下环

雷禄辉·2019-07-16 19:37

Spark学习之RDD

RDD概述什么是RDDRDD（ResilientDistributedDataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。在Spark中，对数据的所有操作不外乎创建RDD、转化已有RDD以及调用RDD操作进行求值。每个RDD都被分为多个分区，这些分区运行在集群中的不同节点上。RDD可以包含Python、Java、Scala中任

upuptop·2019-07-02 00:00

Spark学习之第一个程序 WordCount

WordCount程序求下列文件中使用空格分割之后，单词出现的个数input.txtjavascalapythonhelloworldjavapyfysfupuptopwintptopsfoksfsfsfjavaandroidsfpyfysfupuptoppyfysfupuptopjavaandroidsparkhelloworldworldhellotopscalasparksparkspark

趣学程序·2019-07-01 23:00

spark快速大数据分析之学习记录（六）

题外话：这是一个“连载”，主要用于记录并监督我每周的Spark学习进程RDD常用函数【Python】一、转化操作函数1.filter:对RDD中每个元素进行操作，过滤出符合条件的元素，返回一个新RDD2

KYkankankan·2019-06-25 23:17

spark快速大数据分析之学习记录（五）

题外话：这是一个“连载”，主要用于记录并监督我每周的Spark学习进程【上周毕业典礼，放肆high~~~】1、RDD基础RDD(risilientdistributeddataset)弹性分布式数据集，

KYkankankan·2019-06-24 23:07

Spark学习笔记(4)Spark2全面深度剖析--知识点视频，源码，调优，JVM，图计算，项目实战

26套Spark企业级项目实战，源码深度剖析，实时流处理，机器学习，数据分析，运行原理，性能调优，图计算，性能调优，缓存优化，监控分析SparkCore，SparkSQL，SparkStreaming，Kafka，Flume，Scale，Python视频课程视频课程包含：26套Spark项目实战包含：大数据之Spark高级课程，企业级项目实战，源码深度剖析，实时流处理，机器学习，数据分析，运行原理

wx5d089cc7a67a3·2019-06-19 16:38

（十一）Spark学习笔记之数据倾斜

文章目录数据倾斜调优现象原因定位方法过滤引起数据倾斜的key提高shuffle操作的并行度对数据倾斜key使用随机数，实现两阶段聚合将hashshufflejoin转换成mapjoin使用Partitioner优化hashshufflejoin综合使用上述方法数据倾斜调优现象如果绝大多数task执行都非常快，但是个别task执行极慢。比如：总共有100个task，99个task都在1分钟内执行完成

DeaSun·2019-06-18 00:08

spark快速大数据分析之学习记录（四）

题外话：这是一个“连载”，主要用于记录并监督我每周的Spark学习进程一、初始化SparkContext【基于python】1.新建一个py文件，用于存放python脚本（备注：我在桌面建了一个文件夹py

KYkankankan·2019-06-18 00:19

spark快速大数据分析之学习记录（三）

题外话：这是一个“连载”，主要用于记录并监督我每周的Spark学习进程一、编写第一个pyspark程序1.进入spark文件夹，该文件夹下有一个README.md文件，统计该文件的行数，以及输出第一行2

KYkankankan·2019-06-16 18:23

spark快速大数据分析之学习记录（二）

题外话：这是一个“连载”，主要用于记录并监督我每周的Spark学习进程一.spark下载和安装【本地模式】【系统：linux】下载spark前，需要确保你之前已经下载好了jdk和Python，以下是我的整个下载和安装过程

KYkankankan·2019-06-16 17:27

Spark学习之路（三）Spark之RDD（转）

一、RDD的概述1.1什么是RDD？RDD（ResilientDistributedDataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中，后续的查询能够重用工作集，这极大地提升了查询速度。1.2RDD的属性（

dinel·2019-06-15 21:40

Spark学习笔记

SparkCore1.1RDD概念:ThemainabstractionSparkprovidesisaresilientdistributeddataset(RDD),whichisacollectionofelementspartitionedacrossthenodesoftheclusterthatcanbeoperatedoninparallel.RDD创建:parallelizinga

killianxu·2019-06-15 09:00

Spark学习笔记之Spark中的RDD的具体使用

1.Spark中的RDDResilientDistributedDatasets(弹性分布式数据集)Spark中的最基本的抽象有了RDD的存在我们就可以像操作本地集合一样操作分布式的数据包含所有元素的分区的集合RDD包含了很多的分区2.RDD中的弹性RDD中的数据是可大可小的RDD的数据默认情况下存放在内存中的，但是在内存资源不足时，Spark会自动将RDD数据写入磁盘RDD有自动容错功能,当其中

EVAO_大个子·2019-06-14 10:20

Spark学习笔记之Spark SQL的具体使用

1.SparkSQL是什么?处理结构化数据的一个spark的模块它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用2.SparkSQL的特点多语言的接口支持(javapythonscala)统一的数据访问完全兼容hive支持标准的连接3.为什么学习SparkSQL?我们已经学习了Hive，它是将HiveSQL转换成MapReduce然后提交到集群上执行，大大简化了编写Ma

EVAO_大个子·2019-06-14 10:29

Spark学习笔记Spark Streaming的使用

1.SparkStreamingSparkStreaming是一个基于SparkCore之上的实时计算框架，可以从很多数据源消费数据并对数据进行处理SparkStreaing中有一个最基本的抽象叫DStream（代理）,本质上就是一系列连续的RDD，DStream其实就是对RDD的封装DStream可以认为是一个RDD的工厂，该DStream里面生产都是相同业务逻辑的RDD，只不过是RDD里面要读

EVAO_大个子·2019-06-14 09:55

大数据系列——Spark学习笔记Spark Streaming

1.SparkStreamingSparkStreaming是一个基于SparkCore之上的实时计算框架，可以从很多数据源消费数据并对数据进行处理SparkStreaing中有一个最基本的抽象叫DStream（代理）,本质上就是一系列连续的RDD，DStream其实就是对RDD的封装DStream可以认为是一个RDD的工厂，该DStream里面生产都是相同业务逻辑的RDD，只不过是RDD里面要读

EVAO_大个子·2019-06-14 00:00

大数据系列——Spark学习笔记之 Spark SQL

1.SparkSQL是什么?处理结构化数据的一个spark的模块它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用2.SparkSQL的特点多语言的接口支持(javapythonscala)统一的数据访问完全兼容hive支持标准的连接3.为什么学习SparkSQL?我们已经学习了Hive，它是将HiveSQL转换成MapReduce然后提交到集群上执行，大大简化了编写Ma

EVAO_大个子·2019-06-14 00:00

大数据系列——Spark学习笔记之Spark中的RDD

1.Spark中的RDDResilientDistributedDatasets(弹性分布式数据集)Spark中的最基本的抽象有了RDD的存在我们就可以像操作本地集合一样操作分布式的数据包含所有元素的分区的集合RDD包含了很多的分区2.RDD中的弹性RDD中的数据是可大可小的RDD的数据默认情况下存放在内存中的，但是在内存资源不足时，Spark会自动将RDD数据写入磁盘RDD有自动容错功能,当其中

EVAO_大个子·2019-06-14 00:00

大数据系列——Spark学习笔记之初识Spark

1.Spark简介2009年，Spark诞生于伯克利大学的AMPLab实验室。最出Spark只是一个实验性的项目，代码量非常少，属于轻量级的框架。2010年，伯克利大学正式开源了Spark项目。2013年6月，Spark成为了Apache基金会下的项目，进入高速发展期。第三方开发者贡献了大量的代码，活跃度非常高2014年2月，Spark以飞快的速度称为了Apache的顶级项目，同时大数据公司Clo

EVAO_大个子·2019-06-14 00:00

Pyspark学习之Broadcast广播变量

Broadcast广播变量的使用规则：1.可以使用SparkContext.broadcast([初始值])创建2.使用.value的方法来读取广播变量的值3.Broadcast广播变量被创建后不能修改broadcast方法defbroadcast(self,value):"""Broadcastaread-onlyvariabletothecluster,returningaL{Broadcas

SufferingButSinging·2019-06-05 19:52

Spark实战—— (2.2) HBase分布式集群搭建

预置环境2.安装HBase3.配置HBase4.启动Reference1.预置环境VMware创建三台虚拟机，均为Ubuntu16.04，内存为4G，硬盘100G已搭建Hadoop集群，可参考之前的博客Spark

zhierzyc·2019-05-31 14:37

Spark 之 SparkContext 原理剖析

这句话在Spark学习笔记之调度基本上都会被提及，这篇就从源码角度来剖析这个问题。首先从SparkContext源码入手：--SparkContext.scala//初始化Ta

DeaSun·2019-05-30 14:19

基于Spark2.X系列的累加器和Streaming基础

一、累加器API关于累加器，前面我也写了一篇博客，顺便粘贴这儿，对比学习，Spark学习之编程进阶总结(一)。

|旧市拾荒|·2019-05-21 21:00

PySpark学习笔记-数据读取与保存

1.常见的读取数据源文件格式和文件系统。对于存储在本地文件系统或分布式文件系统（比如HDFS）中的数据，Spark可以访问很多种不同的文件格式。包括文本文件、JSON、SequenceFile、以及protocolbuffer。SparkSQL中的结构化数据源。数据库和键值存储。Spark自带的库以及一些第三方库，可以用来连接HBase、JDBC源。格式名称结构化备注文件文件无结构普通的文本文件，

Sun_Sherry·2019-05-08 20:02

PySpark学习笔记-数据分区

1.数据分区在分布式程序中，通信的代价较大，通过对数据集在节点间的分区进行控制以获得较少的网络传输从而提升整体性能。如果给定的RDD只需要被扫描一次，则完全没有必要对其预先进行处理。只有当数据集多次在诸如连接这种基于键的操作中使用时，分区才会有帮助。尽管Spark无法显示控制每个键具体落在哪一个工作节点，但Spark可以确保同一组的键出现在同一个节点上。以Join操作为例，如果未根据RDD中的键重

Sun_Sherry·2019-05-06 20:17

大数据技术之_19_Spark学习_07_Spark 性能调优 + 数据倾斜调优 + 运行资源调优 + 程序开发调优 + Shuffle 调优 + GC 调优 + Spark 企业应用案例

大数据技术之_19_Spark学习_07第1章Spark性能优化1.1调优基本原则1.1.1基本概念和原则1.1.2性能监控方式1.1.3调优要点1.2数据倾斜优化1.2.1为何要处理数据倾斜（DataSkew

黑泽君·2019-05-04 12:22

大数据技术之_19_Spark学习_06_Spark 源码解析 + Spark 通信架构、脚本解析、standalone 模式启动、提交流程 + Spark Shuffle 过程、内存管理与分配、部署

大数据技术之_19_Spark学习_06第1章Spark整体概述1.1整体概念1.2RDD抽象1.3计算抽象1.4集群模式1.5RPC网络通信抽象1.6启动Standalone集群1.7核心组件1.8核心组件交互流程

君恒一生·2019-05-02 20:39

Spark学习之Spark Streaming

一、简介许多应用需要即时处理收到的数据，例如用来实时追踪页面访问统计的应用、训练机器学习模型的应用，还有自动检测异常的应用。SparkStreaming是Spark为这些应用而设计的模型。它允许用户使用一套和批处理非常接近的API来编写流式计算应用，这样就可以大量重用批处理应用的技术甚至代码。和Spark基于RDD的概念很相似，SparkStreaming使用离散化流（discretizedstr

|旧市拾荒|·2019-04-29 16:00

Spark学习之Spark SQL

一、简介SparkSQL提供了以下三大功能。(1)SparkSQL可以从各种结构化数据源（例如JSON、Hive、Parquet等）中读取数据。(2)SparkSQL不仅支持在Spark程序内使用SQL语句进行数据查询，也支持从类似商业智能软件Tableau这样的外部工具中通过标准数据库连接器（JDBC/ODBC）连接SparkSQL进行查询。(3)当在Spark程序内使用SparkSQL时，Sp

|旧市拾荒|·2019-04-27 15:00

推荐频道

spark学习

Spark（十一）Spark 学习: spark 原理简述与 shuffle 过程介绍

Spark学习总结

Spark学习08——RDD、DataFrame 和 Dataset

Spark学习07——创建DataFrame的方法

Spark学习06——键值对RDD行动算子

Spark学习05——键值对RDD转换算子

Spark学习笔记3——RDD（下）

Spark学习笔记3——RDD（下）

Spark学习笔记2——RDD（上）

Spark学习笔记1——第一个Spark程序：单词数统计

Spark学习笔记0——简单了解和技术架构

Spark原理简述

Spark学习笔记 ---workConut

Spark学习实例(Python)：RDD、DataFrame、DataSet相互转换

Spark学习实例(Python)：输入源实时处理 Input Sources Streaming

Spark学习实例(Python)：共享变量Shared Variables

Spark学习实例(Python)：RDD执行 Actions

Spark学习实例(Python)：窗口操作 Window Operations

Spark学习-2.4.0-源码分析-3-Spark 核心篇-Spark Submit任务提交

Spark学习实例(Python)：加载数据源Load Data Source

Spark学习笔记02：Spark下载与入门

Spark学习实例(Python)：单词统计 Word Count

Spark学习之RDD

Spark学习之第一个程序 WordCount

spark快速大数据分析之学习记录（六）

spark快速大数据分析之学习记录（五）

Spark学习笔记(4)Spark2全面深度剖析--知识点视频，源码，调优，JVM，图计算，项目实战

（十一）Spark学习笔记之数据倾斜

spark快速大数据分析之学习记录（四）

spark快速大数据分析之学习记录（三）

spark快速大数据分析之学习记录（二）

Spark学习之路 （三）Spark之RDD（转）

Spark学习笔记

Spark学习笔记之Spark中的RDD的具体使用

Spark学习笔记之Spark SQL的具体使用

Spark学习笔记Spark Streaming的使用

大数据系列——Spark学习笔记Spark Streaming

大数据系列——Spark学习笔记之 Spark SQL

大数据系列——Spark学习笔记之Spark中的RDD

大数据系列——Spark学习笔记之初识Spark

Pyspark学习之Broadcast广播变量

Spark实战—— (2.2) HBase分布式集群搭建

Spark 之 SparkContext 原理剖析

基于Spark2.X系列的累加器和Streaming基础

PySpark学习笔记-数据读取与保存

PySpark学习笔记-数据分区

大数据技术之_19_Spark学习_07_Spark 性能调优 + 数据倾斜调优 + 运行资源调优 + 程序开发调优 + Shuffle 调优 + GC 调优 + Spark 企业应用案例

大数据技术之_19_Spark学习_06_Spark 源码解析 + Spark 通信架构、脚本解析、standalone 模式启动、提交流程 + Spark Shuffle 过程、内存管理与分配、部署

Spark学习之Spark Streaming

Spark学习之Spark SQL

Spark学习之路（三）Spark之RDD（转）