Spark基础第4页

Spark基础知识03——序列化

一、序列化实现序列化：extendsSerializable首先，任务提交的过程，需要先在Driver端进行初始化，算子的函数需要的Executor端进行计算。Driver端的计算过程需要传给Executor端进行实际的计算，就需要发生网络io，而Executor端的计算需要在jvm里进行计算，Driver端传过来的对象在jvm中是以字节表示所以，在节点传输对象的时候，就需要将所传输的对象进行序列

嘉平11·2020-09-14 02:26

Spark基础知识04——窄依赖、宽依赖、DAG、缓存

一、宽窄依赖RDD和它依赖的父RDD（s）的关系有两种不同的类型，即窄依赖（narrowdependency）和宽依赖（widedependency）。窄依赖：窄依赖指的是每一个父RDD的Partition最多被子RDD的一个Partition使用总结：窄依赖我们形象的比喻为独生子女宽依赖宽依赖指的是多个子RDD的Partition会依赖同一个父RDD的Partition总结：宽依赖我们形象的比喻

嘉平11·2020-09-14 01:54

Spark基础(六):SparkStreaming实操读写kafka（亲测）

文章目录启动环境配置sources文件flume-kafka创建Kafka-topicsflume导入kafka1、sparkstreaming向Kafka读数据2、sparkStreaming向Kafka写数据，没有现成的接口，需要利用Kafka提供的底层接口（1）对KafkaProducer的包装：(2）对KafkaSink的惰性单例实现，避免在Worker中重复创建：(3)分析结果增加消息写

跳蛙pass·2020-09-14 01:54

Spark基础使用、配置总结

spark上传附件、加载py文件1.第一种方式：在spark-submit中加载spark-submit\--queuexxx\--archivesch_cut.zip#ch_cut\--py-fileslabel.py\test.py2.第二种方式：在py脚本中加载sc.addFile("/user/data/py_module/normal",recursive=True)#添加文件夹spar

nlpming·2020-09-13 10:23

《Spark MLlib机器学习实践》内容简介、目录

本书分为12章，从Spark基础安装和配置开始，依次介绍MLlib

brucexia·2020-09-12 10:07

Spark知识点总结导航

Spark知识点总结导航-Spark基础-----第一章spark概述-----第二章spark集群安装-SparkCore-----第一章SparkShell-----第二章执行spark程序----

落落free·2020-09-11 22:04

spark shuffle过程

关于sparkshuffle过程的理解：https://blog.csdn.net/quitozang/article/details/80904040spark基础之shuffle机制和原理分析：https

YancyChang·2020-09-11 18:16

Spark基础篇(六) - IDEA开发Spark代码

一、Spark项目开发流程回顾二、Spark应用程序开发2.1、Hive下求用户访问量TopN&&Spark-shell实现&&IDEA下实现2.2、Spark-Core求平均年龄&&男女人数&&最低、最高身高2.3、求男女人数、最低、最高身高一、Spark项目开发流程添加hadoop-client版本、添加cdh仓库、打包注意事项、上传服务器使用rz命令、spark-submit提交打的jar包

Spark on yarn·2020-09-11 06:26

spark基础概念及实验

RDD可伸缩不可改变分布式集合，缓存进内存，每次转换生成新的RDD,因此有依赖关系，丢失后可恢复；指定partition个数，分到cpu中，每个partition被一个任务处理，对于key-value的RDD存在分片函数，存在一个列表存储分片的位置对RDD的创建，转换，返回；创建后不可改变，对外部的HDFS或List操作，转换时生成新的RDD，直到action时才计算，返回driver程序或外部存

ixtgtg·2020-09-10 14:39

Spark基础概念（1）

Google的MapReduce，展示了一个简单通用和自动容错的批处理计算模型。但是对于其他类型的计算，比如交互式计算和流式计算，他不适合。统一大数据处理框架Spark，提出了RDD概念（一种新的抽象的弹性数据集），某种程度是MapReduce的一种拓展。MapReduce缺乏一种特性：即在并行计算的各个阶段进行有效的数据共享，这就是RDD的本质。容错方式：MapReduce是将计算构建成为一个有

MingYueZh·2020-09-10 11:37

Spark基础概念（2）

valsc=newSparkContext("spark://localhost:7077","ApplicationName","SPARK_HOME","Your_APP_Jar")//创建操作：SparkContext负责创建Spark上下文环境valfile=sc.textFile("hdfs://localhost:9000/.../Log")//从HDFS中读取文件valfilterR

MingYueZh·2020-09-10 11:37

spark基础概念

1、DAGDAG：字面概念是有效无环图，指的是一个无回路的有向图。如果有一个非有向无环图，且A点出发向B经C可回到A，形成一个环。将从C到A的边方向改为从A到C，则变成有向无环图。而在Spark中，由于计算过程很多时候会有先后顺序，受制于某些任务必须比另一些任务较早执行的限制，我们必须对任务进行排队，形成一个队列的任务集合，这个队列的任务集合就是DAG图，每一个定点就是一个任务，每一条边代表一种限

落叶1210·2020-09-10 10:30

5.Spark基础学习五（SparkStreaming）

SparkStreaming概述SparkStreaming用于流式数据的处理。SparkStreaming支持的数据输入源很多，例如：Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象原语如：map、reduce、join、window等进行运算。而结果也能保存在很多地方，如HDFS，数据库等image-20200831164855

做个合格的大厂程序员·2020-09-09 20:34

3.Spark基础学习三（Spark_SQL）

什么是SparkSQLSparkSQL是Spark用来处理结构化数据的一个模块，它提供了2个编程抽象：DataFrame和DataSet，并且作为分布式SQL查询引擎的作用。我们已经学习了Hive，它是将HiveSQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapReduc的程序的复杂性，由于MapReduce这种计算模型执行效率比较慢。所有SparkSQL的应运而生，它是将S

做个合格的大厂程序员·2020-09-02 16:03

2.Spark基础学习二（RDD和一些算子）

RDD什么是RDDRDD（ResilientDistributedDataset）叫做分布式数据集，是Spark中最基本的数据抽象。代码中是一个抽象类，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD的属性image-20200819175211553一组分区（Partition），即数据集的基本组成单位;一个计算每个分区的函数;RDD之间的依赖关系;一个Partitioner，即RD

做个合格的大厂程序员·2020-09-01 11:42

1.Spark基础学习一（Spark概念）

什么是SparkSpark是一种基于内存的快速的，通用的，可扩展的大数据分析引擎Spark内存模块Snipaste_2020-08-18_20-33-17Spark特点快:与Hadoop和MapReduce响度，Spark基于内存运算要快100倍以上，基于硬盘的运算要快10倍以上，Spark实现了高效的DAG执行引擎，可以通过基于内存来高效处理数据流，计算的中间结果是存在内存中的易用:Spark支

做个合格的大厂程序员·2020-09-01 09:26

Spark基础

Spark的组件SparkCore包括Spark的基本功能，包含任务调度，内存管理，容错机制。内部定义了RDDs(弹性分布式数据集)。提供了很多APIs来创建和操作这些RDDs。为其它场景提供了底层的服务SparkSQL:是Spark处理结构化数据的库，就像HiveSQL,Mysql一样。应用场景，企业中用来做报表统计SparkStreaming:是实时数据流处理组件，类似StormSparkSt

班得瑞的猫·2020-08-25 17:11

大数据之谜Spark基础篇，Spark基本工作原理讲解

温馨提示本公众号专注分享大数据技术Spark、Hadoop等，如果你是初学者、或者是自学者，这里都是可以提供免费资料，也可以加小编微信号：wusc35，小编可以给你学习上、工作上一些建议以及可以给你提供免费的学习资料！学习技术更重要的是在于学习交流！等你来...注：本公众号纯属个人公益号！免费分享所有学习资料！希望朋友多多支持！多多关注！Spark基本工作原理，这里我们从宏观讲解Spark的基本工

大数据之谜·2020-08-23 19:53

pyspark基础教程

pyspark基础教程下面一段代码是简单教程,对与如何向spark集群提交代码任务,无论文档和博客都有很多说法,其实很简单,只要在脚本中setMaster(“spark://192.168.10.182

luoganttcc·2020-08-23 10:15

SPARK基础4(DataFrame操作)

在上文《SPARK基础2(读入文件、转临时表、RDD与DataFrame)》中，我们简单介绍了spark中的DataFrame，我们知道了sparkdataframe派生于RDD类，但是提供了非常强大的数据操作功能

xujingpilot·2020-08-23 08:50

SPARK基础2(读入文件、转临时表、RDD与DataFrame)

上文介绍了spark的各种组件和入门，本文主要介绍spark读入文件以及数据格式（RDD/DataFrame）1、读入文件与转临时表1、json文件读取valdf=spark.read.json("E:/people.json")df.show()//将DataFrame的内容显示到页面2、CSV文件读取（注意编码要UTF-8）df=spark.read.csv("E:/emp1.csv")也可以

xujingpilot·2020-08-23 04:51

大数据基础知识问答----spark篇，大数据生态圈

Spark相关知识点1.Spark基础知识1.Spark是什么？

weixin_33898876·2020-08-23 00:08

Spark基础知识系列一（从hdfs获取文件）

Spark获取文件spark可以从本地，hdfs文件系统，s3，及hadoop支持的文件系统获取文件。从本地：file:///usr/local/xx.txt.importorg.apache.spark.{SparkConf,SparkContext}/***CreatedbyDamonon3/29/17.*/objectHelloScala{defmain(args:Array[String]

walker_storage·2020-08-22 17:20

Spark基础入门（三）--------作业执行方式

（一）SparkContext代表对集群的一个连接驱动程序通过sparkContext连接spark集群每个JVM只允许启动一个SparkContext，一个sparkContext连接代表一个application，每个application中可能有多个job（jobid）yarn上面的一个application如下：代码中初始化sparkContext的方式如下：SparkConfconf=n

写代码的可可·2020-08-22 15:22

最全的spark基础知识解答

原文：http://www.36dsj.com/archives/61155一.Spark基础知识1.Spark是什么?

weixin_34006965·2020-08-20 12:06

Spark基础排序+二次排序（java+scala）

1.基础排序算法2.二次排序算法3.更高级别排序4.排序算法内幕1.基础排序算法sc.textFile("/data/putfile.txt").flatMap(_.split("")).map(word=>(word,1)).reduceByKey(_+_,1).map(pair=>(pair._2,pair._1)).sortByKey(false).map(pair=>(pair._2,pa

靖-Drei·2020-08-20 03:39

Spark 入门系列-简介以及生态

本文主要包含：Spark简介Spark的优势Spark内部生态Spark基础入门书籍推荐那么，从官网开始。Spark简介打开Spark官网，这句特别醒目：Apach

程序员小陶·2020-08-19 07:25

BigData-25：Spark基础

Spark生态圈：SparkCore:最重要，其中最重要的就是RDD（弹性分布式数据集）SparkSQLSparkStreamingSparkMLLib:协同过滤、ALS、逻辑回归等等—>实现推荐系统SparkGraphx：图计算SparkCore一、什么是Spark？特点？官网：ApacheSpark™isaunifiedanalyticsengineforlarge-scaledataproc

feiyanaffection·2020-08-19 06:55

流式计算助力实时数据处理spark-streaming入门实战

导读：本次分享主题是《流式计算助力实时数据处理spark-streaming入门实战》，主要内容分为3部分：1.Spark基础2.Spark-streaming技术要点3.任务演示一.Spark基础Spark

不思明日·2020-08-19 06:00

大数据Spark基础和hadoop生态圈

大数据教程：Spark基础及源码分析|____大数据教程：9.Spark集群启动流程和任务提交流程、案例练习|____4、案例分析实现-按照ip统计区域访问量-1.mp4|____3、wordcount

xfxf996·2020-08-18 12:41

Spark基础解析

文章目录安装【Standalone】2.4配置Spark【Standalone】2.5配置JobHistoryServer【Standalone】2.6配置SparkHA【Standalone】【Yarn】配置Spark【Yarn】执行Spark程序执行第一个spark程序（standalone）执行第一个spark程序（yarn）Spark应用提交启动SparkShell启动Sparkshell

靛蓝忆·2020-08-18 12:43

【Spark】Spark基础练习题（三）

（图片来源于网络，侵删）我又带来一堆Spark题了，这次是SparkSQL的！！！废话不多说，上题！！！题目如下1、分别给出四张表的数据分别是：student_info.txt字段是：学号,姓名,性别,所属班级编号,入学日期department_info.txt字段是：院系编号,院系名称class_info.txt字段是：班级编号,班级名称,入学日期,所属院系中文名student_scores.t

默默走开·2020-08-18 11:48

[Spark基础]-- spark streaming从指定offset处消费Kafka数据(第一种方式)

一、情景：当sparkstreaming程序意外退出时，数据仍然再往Kafka中推送，然而由于Kafka默认是从latest的offset读取，这会导致数据丢失。为了避免数据丢失，那么我们需要记录每次消费的offset，以便下次检查并且从指定的offset开始读取二、环境：kafka-0.9.0、spark-1.6.0、jdk-1.7、scala-2.10.5、idea16三、实现代码：1、引入s

highfei2011·2020-08-18 11:49

大数据之Spark基础篇，核心RDD特征分析讲解

RDD特征概要总结：a、RDD是Spark提供的核心抽象，全称为ResillientDistributedDataset，即弹性分布式数据集。b、RDD在抽象上来说是一种元素集合，包含了数据。它是被分区的，分为多个分区，每个分区分布在集群中的不同节点上，从而让RDD中的数据可以被并行操作。c、RDD通常通过Hadoop上的文件，即HDFS文件或者Hive表，来进行创建;有时也可以通过应用程序中的集

669生活·2020-08-18 10:03

Spark基础，Local模式、Standalone模式、Yarn模式安装使用配置

第1章Spark概述1.1什么是Spark1、定义Spark是-种基于内存的快速、通用、可扩展的大数据分析引擎。2、历史2009年诞生于加州大学伯克利分校AMPLab，项目采用Scala编写。2010年开源，2013年6月成为Apache孵化项目2014年2月成为Apache顶级项目。1.2Spark内置模块SparkCore：实现了Spark的基本功能，包含任务调度、内存管理、错误恢复、与存储系

往事随风_h·2020-08-18 10:09

大数据系列之Spark基础解析（一）

文章目录第1章Spark概述1.1什么是Spark1.2Spark特点1.3Spark的用户和用途第2章Spark集群安装2.1集群角色2.2机器准备2.3下载Spark安装包2.4配置Spark2.5配置JobHistoryServer2.6配置SparkHA第3章执行Spark程序3.1执行第一个spark程序3.2Spark应用提交3.3启动SparkShell3.3.1启动Sparkshe

开封程序员阿强·2020-08-18 10:33

scala基础语法-----Spark基础

注：最近在上网课，然后这学期开了一门spark，以下文字来自课堂发的资料，不知道发在这上面算不算侵权，主要是为了自己复习方便，侵权删。然后我根据上课内容进行了一些练习，代码在最下方。scala基本语法我们可以根据scala菜鸟教程来学习地址为：https://www.runoob.com/scala/scala-tutorial.htm1.变量声明/***定义变量使用var或者val关键字*语法:

Pikachu_simple·2020-08-17 14:34

spark基础之checkpoint机制

一Spark中Checkpoint是什么假设一个应用程序特别复杂场景，从初始RDD开始到最后整个应用程序完成，有非常多的步骤，比如超过20个transformation操作，而且整个运行时间也比较长，比如1-5个小时。此时某一个步骤数据丢失了，尽管之前在之前可能已经持久化到了内存或者磁盘，但是依然丢失了，这是很有可能的。也就是说没有容错机制，那么有可能需要重新计算一次。而如果这个步骤很耗时和资源，

happy19870612·2020-08-09 16:19

spark资源调度源码浅谈

纸上得来终觉浅，觉知还是要撸代码此文章适合以下人群参考：1.接触过spark，有spark基础的同学2.知其然不知其所以然的同学3.对于源码好奇的同学4.大神勿看大家都知道，大数据中，其实最紧张的就是资源

壮志-凌云·2020-08-09 01:21

python对hdfs/spark读写操作（hdfs/pyspark）

以下内容，是基于服务器上，已经搭建好的hadoop/spark基础上，所以参考性有限，请见谅。

Great1414·2020-08-09 01:11

spark基础练习2

文章目录1.谁是最大买“货”？（谁购买的最多，以购买总价为准）2.哪个产品是最大卖货？（哪个产品销售的最多,以产品交易总价为准）3.找出购买的周分布(根据一周分组,查看每天的交易额,分析每天交易量)4.找出购买力最强地域(根据洲来划分)文件获取链接:https://pan.baidu.com/s/1VjAzYjzN0X8QKdu4pKQBbg提取码:rknf有如下四个csv文件,列属性如下:#上传

sun_0128·2020-08-06 23:22

Apache Spark基础及架构

文章目录一.为什么使用Spark二.Spark简介1.发展历程2.Spark优势3.Spark技术栈4.Spark环境部署5.Spark初体验6.Spark架构设计7.Spark架构核心组件8.SparkAPI三.核心API:RDD1.RDD概念2.RDD与DAG3.RDD的五大特性4.RDD编程流程5.RDD创建6.RDD分区与RDD的操作7.RDD转换算子8.RDD动作算子一.为什么使用Spa

sun_0128·2020-08-06 11:44

spark基础练习

#在名为sparkwork.txt中有如下内容:班级ID姓名年龄性别科目成绩12张三25男chinese5012张三25男math6012张三25男english7012李四20男chinese5012李四20男math5012李四20男english5012王芳19女chinese7012王芳19女math7012王芳19女english7013张大三25男chinese6013张大三25男ma

sun_0128·2020-08-06 10:58

[Spark基础]--聚合操作-reduceByKey、combineBykey、groupBy和AggregateByKey

1、Spark中的reduceByKey和CombineByKey有什么区别？groupByKey和CombineByKey/reduceByKey有很大的区别。请参阅以下文章以深入了解。reduceByKey和CombineByKey之间的唯一区别是API，在内部它们的功能完全相同。reduceByKeyCombineByKeyreduceByKey在内部调用combineByKeyCombin

highfei2011·2020-08-03 00:03

[Spark基础]--雾计算

wiki解释雾计算（英语：FogComputing）或雾联网（fognetworking，或fogging），是使用最终用户终端设备或连接最终用户设备的边缘设备，以分布式协作架构进行数据存储（相较于将数据集中存储在云数据中心），或进行分布式网络数据包传输通信（相较于通过互联网骨干路由），或相关分布式控制或管理。雾计算是由思科（Cisco）在2014年所提出的概念[1]，为云计算的延伸，这个架构可以

highfei2011·2020-08-03 00:03

spark sql 执行流程

在前面的文章《spark基础（上篇）》和《spark基础（下篇）》里面已经介绍了spark的一些基础知识，知道了sparksql是spark中一个主要的框架之一。

大数据系统工程师·2020-08-02 21:40

spark基础操作（大家不用打开，我就是自己保存一下。。。）

启动start-dfs.shstart-yarn.sh更改主机名surootcdhostnamelocalhost看后台服务jps29456NameNode29863SecondaryNameNode30220ResourceManager30718Jps29548DataNode30307NodeManagerspark-shell本地spark-shell--driver-memory512M

cc198877·2020-08-01 11:22

spark基础之RDD和DataFrame的转换方式

一通过定义CaseClass,使用反射推断Schema定义CaseClass，在RDD的转换过程中使用CaseClass可以隐式转换成SchemaRDD,然后再注册成表，然后就可以利用sqlContext或者SparkSession操作了。我们给出一个电影测试数据film.txt，定一个CaseClass(Film)，然后将数据文件读入后隐式转换成SchemeRDD：film,并将film在Spa

happy19870612·2020-07-29 02:32

spark基础之Spark SQL和Hive的集成以及ThriftServer配置

如果希望Maven编译Spark时支持Hive,需要给定-Phive-Phive-thriftserver。比如比如：mvn-Pyarn-Phadoop-2.6-Dhadoop.version=2.6.0-Phive-Phive-thriftserver-DskipTestscleanpackage一SparkSQL和Hive集成1.1将hive的配置文件hive-site.xml添加到spark

happy19870612·2020-07-29 02:32

Spark基础RDD练习（一）

spark_rdd练习1.并行化创建RDD通过并行化生成rddscala>varrdd1=sc.parallelize(List(123,32,44,55,66,77,88,999))rdd1:org.apache.spark.rdd.RDD[Int]=ParallelCollectionRDD[0]atparallelizeat:24查看该RDD的分区数量scala>rdd1.partition

许鸿于·2020-07-29 00:11

推荐频道

Spark基础

Spark基础知识03——序列化

Spark基础知识04——窄依赖、宽依赖、DAG、缓存

Spark基础(六):SparkStreaming实操读写kafka（亲测）

Spark基础使用、配置总结

《Spark MLlib机器学习实践》内容简介、目录

Spark知识点总结导航

spark shuffle过程

Spark基础篇(六) - IDEA开发Spark代码

spark基础概念及实验

Spark基础概念（1）

Spark基础概念（2）

spark基础概念

5.Spark基础学习五（SparkStreaming）

3.Spark基础学习三（Spark_SQL）

2.Spark基础学习二（RDD和一些算子）

1.Spark基础学习一（Spark概念）

Spark基础

大数据之谜Spark基础篇，Spark基本工作原理讲解

pyspark基础教程

SPARK基础4(DataFrame操作)

SPARK基础2(读入文件、转临时表、RDD与DataFrame)

大数据基础知识问答----spark篇，大数据生态圈

Spark基础知识系列一（从hdfs获取文件）

Spark基础入门（三）--------作业执行方式

最全的spark基础知识解答

Spark基础排序+二次排序（java+scala）

Spark 入门系列-简介以及生态

BigData-25：Spark基础

流式计算助力实时数据处理spark-streaming入门实战

大数据Spark基础和hadoop生态圈

Spark基础解析

【Spark】Spark基础练习题（三）

[Spark基础]-- spark streaming从指定offset处消费Kafka数据(第一种方式)

大数据之Spark基础篇，核心RDD特征分析讲解

Spark基础，Local模式、Standalone模式、Yarn模式安装使用配置

大数据系列之Spark基础解析（一）

scala基础语法-----Spark基础

spark基础之checkpoint机制

spark资源调度源码浅谈

python对hdfs/spark读写操作（hdfs/pyspark）

spark基础练习2

Apache Spark基础及架构

spark基础练习

[Spark基础]--聚合操作-reduceByKey、combineBykey、groupBy和AggregateByKey

[Spark基础]--雾计算

spark sql 执行流程

spark基础操作（大家不用打开，我就是自己保存一下。。。）

spark基础之RDD和DataFrame的转换方式

spark基础之Spark SQL和Hive的集成以及ThriftServer配置

Spark基础RDD练习（一）