E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark学习笔记
spark学习笔记
:弹性分布式数据集RDD(Resilient Distributed Dataset)
弹性分布式数据集RDD1.RDD概述1.1什么是RDDRDD(ResilientDistributedDataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将数据缓存在内存中,后续的查询能够重用这些数据,这极大地提升了查询速度。D
黄道婆
·
2024-01-30 15:39
bigdata
Spark学习笔记
五:Spark资源调度和任务调度
一、StageSpark任务会根据RDD之间的依赖关系,形成一个DAG有向无环图,DAG会提交给DAGScheduler,DAGScheduler会把DAG划分相互依赖的多个stage,划分stage的依据就是RDD之间的宽窄依赖。遇到宽依赖就划分stage,每个stage包含一个或多个task任务。然后将这些task以taskSet的形式提交给TaskScheduler运行。stage切割规则切
开发者连小超
·
2024-01-26 04:42
【大数据】
Spark学习笔记
初识SparkSpark和HadoopHadoopSpark起源时间20052009起源地MapReduceUniversityofCaliforniaBerkeley数据处理引擎BatchBatch编程模型MapReduceResilientdistributedDatesets内存管理DiskBasedJVMManaged延迟高中吞吐量中高优化机制手动手动APILowlevelhighleve
pass night
·
2024-01-05 09:16
学习笔记
java
spark
大数据
sql
spark学习笔记
(十一)——sparkStreaming-概述/特点/构架/DStream入门程序wordcount
目录SparkStreamingsparkStreamingDStreamsparkStreaming特点sparkStreaming构架背压机制DStream入门SparkStreamingsparkStreamingSparkStreaming用于流式数据的处理。SparkStreaming支持的数据输入源很多:Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据
一个人的牛牛
·
2023-11-19 00:12
spark
学习
spark
scala
大数据
Spark学习笔记
一
文章目录1Spark架构设计与原理思想1.1Spark初始1.2Spark架构核心1.3Spark的计算阶段1.4Spark执行流程1.4Spark核心模块2Spark运行环境2.1Local模式2.2Standalone模式2.2.1上传与解压Spark压缩包2.2.2默认配置文件的修改2.2.3启动集群2.2.4配置历史服务2.2.5配置高可用(HA)1Spark架构设计与原理思想1.1Spa
孤独的偷学者
·
2023-11-15 03:12
开发环境的搭建
大数据
spark
大数据
Spark学习笔记
—sparkcore
目录Spark概述核心模块Spark编程配置IDEA配置scala环境WordCount案例Spark-Standalone运行环境Local配置步骤集群分工解压文件修改配置启动集群配置历史服务器Spark-Yarn运行环境配置步骤配置历史服务器Windows运行环境配置步骤常用端口号Spark架构核心组件DriverExecutorMaster&WorkerApplicationMasterHa
Int mian[]
·
2023-11-15 03:12
大数据
大数据
spark
hadoop
scala
分布式
20210127_
spark学习笔记
一、部分理论spark:由Scala语言开发的快速、通用、可扩展的基于内存的大数据分析引擎。在mapreduce上进行了优化,但没mapreduce稳定。SparkCore是spark平台的基础通用执行引擎,所有其他功能都是基于。它在外部存储系统中提供内存计算和引用数据集。spark最基础的最核心的功能SparkSQL是SparkCore之上的一个组件,它引入了一个称为SchemaRDD的新数据抽
yehaver
·
2023-11-15 03:42
spark
【
Spark学习笔记
】- 1Spark和Hadoop的区别
目录标题Spark是什么SparkandHadoop首先从时间节点上来看:功能上来看:SparkorHadoopSpark是什么Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。SparkandHadoop在之前的学习中,Hadoop的MapReduce是大家广为熟知的计算框架,那为什么咱们还要学习新的计算框架Spark呢,这里就不得不提到Spark和Hadoop的关系。首先从时间
拉格朗日(Lagrange)
·
2023-11-15 03:11
#
Spark
学习笔记
spark
学习
笔记
Spark学习笔记
【基础概念】
文章目录前言Spark基础Spark是什么spark和hadoop区别Spark核心模块Spark运行模式Spark运行架构运行架构Executor与Core(核)并行度(Parallelism)有向无环图(DAG)spark的提交方式clientclusterSpark核心编程三大数据结构RDD什么是RDD执行原理RDDAPIRDD创建RDD转换算子Action行动算子统计操作RDD序列化RDD
java路飞
·
2023-11-15 03:40
大数据
Spark
spark
大数据
java
Spark学习笔记
(3)——Spark运行架构
本系列文章内容全部来自尚硅谷教学视频,仅作为个人的学习笔记一、运行架构Spark框架的核心是一个计算引擎,整体来说,它采用了标准master-slave的结构。如下图所示,它展示了一个Spark执行时的基本结构。图形中的Driver表示master,负责管理整个集群中的作业任务调度。图形中的Executor则是slave,负责实际执行任务。二、核心组件由上图可以看出,对于Spark框架有两个核心组
程光CS
·
2023-11-15 03:40
#
Spark学习笔记
【
Spark学习笔记
】- 4运行架构&核心组件&核心概念
目录标题1运行架构2核心组件2.1Driver2.2Executor2.3Master&Worker2.4ApplicationMaster3核心概念3.1Executor与Core3.2并行度(Parallelism)3.3有向无环图(DAG)4提交流程4.1YarnClient模式4.2YarnCluster模式5分布式计算模拟5.1Driver5.2Executor5.3Executor25
拉格朗日(Lagrange)
·
2023-11-15 03:39
#
Spark
学习笔记
spark
学习
笔记
Spark学习笔记
01-基础
本文基于Spark2.4.1进行演示,相关代码可以在我的Github上看到。简介Spark是一个分布式集群计算系统,类似Hadoop提供了强大的分布式计算能力,相比过去的批量处理系统,提供了处理更大规模数据的能力。Spark提供了Java、Python、Scala、R接口。除常见的MapReduce运算外,还支持图、机器学习、SparkSQL等计算方式。特性高效Speed,因为很多数据都在内存中,
GreenWang
·
2023-10-28 21:04
spark学习笔记
文章目录1,spark架构2,spark部署模式3,spark单机模式4,standalone模式5,sparkonyarn6,idea写代码直接提交yarn7,RDD缓存持久化8,spark从mysql读写数据9,spark宽依赖、窄依赖、DAG、JOB、STAGE、Pipeline、taskset10,action和transformation11,RDD12,内存计算指的是上面13,DAG以
大数据男
·
2023-09-29 06:27
hadoop实战
spark
scala
big
data
Spark学习笔记
(三):使用Java调用Spark集群
我搭建的Spark集群的版本是2.4.4。在网上找的maven依赖,链接忘记保存了。。。。UTF-81.81.82.6.0-cdh5.14.21.1.0-cdh5.14.21.2.0-cdh5.14.22.11.82.4.4clouderahttps://repository.cloudera.com/artifactory/cloudera-repos/org.scala-langscala-l
bluesnail95
·
2023-09-24 09:24
Reduce)
spark
2020-03-17
spark学习笔记
centos安装OracleVirtualBox:$sudoyuminstallkernel-develkernel-headersmakepatchgcc$sudowgethttps
陆寒晨
·
2023-09-17 16:12
spark学习笔记
(六)——sparkcore核心编程-RDD行动算子
行动算子-触发作业的执行(runjob)创建activeJob,提交并执行目录(1)reduce(2)collect(3)count(4)first(5)take(6)takeOrdered(7)aggregate(8)fold(9)countByKey(10)save相关算子(11)foreachRDD转换:对RDD功能的补充和封装,将旧的RDD包装成为新的RDD;RDD行动:触发任务的调度和作
一个人的牛牛
·
2023-09-10 20:43
spark
spark
学习
大数据
Spark学习笔记
11:RDD算子
目录一、RDD算子二、准备工作(一)准备文件1、准备本地系统文件2、准备HDFS系统文件(二)启动SparkShell1、启动HDFS服务2、启动Spark服务3、启动SparkShell三、转化算子(一)映射算子-map()1、映射算子功能2、映射算子案例A、将rdd1每个元素翻倍得到rdd2B、将rdd1每个元素平方得到rdd21、采用普通函数作为参数传给map()算子2、用下划线表达式作为参
balabalalibala
·
2023-08-16 06:20
Spark
spark
学习
big
data
scala
py
spark学习笔记
——RDD
目录1.程序执行入口SparkContext对象2.RDD的创建2.1通过并行化集合创建(本地对象转分布式RDD)2.2读取外部数据源(读取文件)2.2.1使用textFileAPI2.2.2wholeTextFileAPI2.3RDD算子2.4常用Transformation算子2.4.1map算子2.4.2flatMap算子2.4.3reduceByKey算子2.4.4mapValues算子2
千层肚
·
2023-08-04 18:33
学习
大数据
spark
Spark学习笔记
(1)RDD
RDDRDD(ResilientDistributedDataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,后续的查询能够重用工作集,这极大地提升了查询速度。RDD内部结构.pngRDD5大特型Alistof
灯火gg
·
2023-06-21 06:12
Spark学习笔记
(一):Spark 基本原理
文章目录1、Spark整体架构1.1、Spark集群角色1.1.1、ClusterManager1.1.2、WorkerNode1.1.3、Executor1.1.4、Application1.1.5、Driver1.1.6、Executor2、Spark运行基本流程2.1、RDD2.2、DAG2.3、DAGScheduler2.4、TaskScheduler2.5、Job2.6、Stage2.7
leo825...
·
2023-06-17 17:36
大数据学习
spark
学习
笔记
Spark学习笔记
——龟速更新。。
文章目录
Spark学习笔记
第一章、基本认识与快速上手1.1、认识Spark1.2、对比Hadoop1.3、Spark组成基本介绍1.4、快速上手之WorldCount实现1.4.1、方式一(Scala类似集合操作实现
5akura
·
2023-06-12 23:12
个人学习笔记box
hadoop
spark
scala
java
spark rdd java_
Spark学习笔记
之Spark中的RDD的具体使用
1.Spark中的RDDResilientDistributedDatasets(弹性分布式数据集)Spark中的最基本的抽象有了RDD的存在我们就可以像操作本地集合一样操作分布式的数据包含所有元素的分区的集合RDD包含了很多的分区2.RDD中的弹性RDD中的数据是可大可小的RDD的数据默认情况下存放在内存中的,但是在内存资源不足时,Spark会自动将RDD数据写入磁盘RDD有自动容错功能,当其中
Minitab Users Group
·
2023-06-12 23:41
spark
rdd
java
大数据系列——
Spark学习笔记
之Spark中的RDD
1.Spark中的RDDResilientDistributedDatasets(弹性分布式数据集)Spark中的最基本的抽象有了RDD的存在我们就可以像操作本地集合一样操作分布式的数据包含所有元素的分区的集合RDD包含了很多的分区2.RDD中的弹性RDD中的数据是可大可小的RDD的数据默认情况下存放在内存中的,但是在内存资源不足时,Spark会自动将RDD数据写入磁盘RDD有自动容错功能,当其中
EVAO
·
2023-06-12 23:09
大数据
spark运行原理
1、YARN架构设计详解2、SparkonYarn的运行原理3、详细探究Spark的shuffle实现4、Spark基本工作流程及YARNcluster模式原理5、
Spark学习笔记
1:Application
潮生明月
·
2023-06-09 10:19
spark
spark
Spark学习笔记
[3]-Spark安装部署
Spark学习笔记
[3]-Spark安装部署1、下载对应版本的spark 官网我始终都下不下来,推荐一个国内的镜像:https://mirrors.tuna.tsinghua.edu.cn/apache
kinglinch
·
2023-06-09 08:03
大数据
spark
big
data
Spark学习笔记
1.Spark简述Spark通过内存计算能力,急剧的提高大数据处理速度。解决了Hadoop只适合于离线的高吞吐量、批量处理的业务场景的弊端,提出了实时计算的解决方法。1.1Spark特点a.快速处理能力:Hadoop的MapReduce中间数据采用磁盘存储,而Spark优先使用内存避免大量的磁盘IO,极大的提高了计算速度;b.支持性强:Spark支持Java、Scala、Python等;c.可查询
zhglance
·
2023-04-14 03:39
SPark学习笔记
:08-SParkSQL的DataFrame和DataSet操作
文章目录概述DataFrame的常用API操作添加maven依赖创建SparkSessionDataFrame的创建DataFrame的DSL操作DataFrame的SQL操作DataSet的常用操作DataSet的创建DataSet与DataFrame、RDD之间的关系和互转概述在Spark中DataFrame是一种以RDD为基础的分布式数据集,类似于传统数据库的二维表格。和python的Pan
wangzhongyudie
·
2023-04-13 20:44
大数据
Spark
spark
学习
大数据
spark学习笔记
(九)——sparkSQL核心编程-DataFrame/DataSet/DF、DS、RDD三者之间的转换关系
目录前言DataFrame创建DataFrameSQL语法DSL语法RDD转换为DataFrameDataFrame转换为RDDDataSet创建DataSetRDD转换为DataSetDataSet转换为RDDDataSet和DataFrame的转换RDD、DataFrame、DataSet之间的关系相同点区别点相互转换sparkSQL-IDEA编程添加依赖RDDDataSetDataFrame
一个人的牛牛
·
2023-04-13 20:11
spark
spark
学习
大数据
scala
Spark学习笔记
08:Scala数据结构
目录(一)定长数组1、数组定义(1)定义数组时初始化数据(2)定义时指定数组长度后赋值2、数组遍历(1)传统for循环方式(2)增强for循环方式(3)利用foreach算子遍历数组(4)数组求和3、常用方法(1)求数组中数值总和(2)求数组中的最大值(3)求数组中的最小值(4)对数组进行升序排序(5)对数组进行降序排序(二)变长数组1、数组定义2、数组合并3、插入元素4、移除元素二、列表(Lis
balabalalibala
·
2023-04-12 21:18
Spark
scala
数据结构
开发语言
py
spark学习笔记
:4- zookeeper3.5.9+kafka2.11-2.4.1单机部署+python api模拟消费者+pyspark结构化流集成kafka的简单使用-2023-2-14
py
spark学习笔记
:4-zookeeper3.5.9+kafka2.11-2.4.1单机部署+pythonapi和pyspark结构化流集成kafka的简单使用-2023-2-14zookeeper
Merlin雷
·
2023-04-06 08:51
大数据学习笔记
kafka
学习
python
spark学习笔记
:RDD的依赖关系
1.RDD的依赖关系1.1RDD的依赖RDD和它依赖的父RDD的关系有两种不同的类型,即窄依赖(narrowdependency)和宽依赖(widedependency)。1.2窄依赖窄依赖指的是每一个父RDD的Partition最多被子RDD的一个Partition使用总结:窄依赖我们形象的比喻为独生子女1.3宽依赖宽依赖指的是多个子RDD的Partition会依赖同一个父RDD的Partiti
黄道婆
·
2023-04-02 02:33
bigdata
Spark学习笔记
-理论篇-01-Spark系统综述
文章目录Spark系统综述1.1大数据处理框架1.2Spark大数据处理框架1.2.1RDD的表达能力1.2.2Spark子系统Spark系统综述1.1大数据处理框架集群环境对编程来说带来了很多挑战,比如并行化,这要求我们以并行化的方式充给应用程序,以利用更大范围的节点运算能力。第二个挑战就是对单点失败的处理,节点宕机以及个别节点计算缓慢在集群环境非常普遍,这会影响程序的性能。最后一个挑战是集群通
Chris刘
·
2023-04-01 13:01
大数据
Spark
大数据
spark学习笔记
2-Spark SQL
SparkSession类DataFrame类Sql语句操作DataSet类数据源小结预备知识:1、SparkSQL是在SparkCore基础上的一个扩展库,如果需要了解spark的基础知识,可参考文档《
spark
我是老薛
·
2023-03-23 01:11
Spark学习笔记
02-Spark 分别使用Java和Scala实现wordcount案例
一、需求描述需求:文件中存储的各种各样的单词,统计在这些文件中每个单词的出现次数。比如下面txt文件,统计各个单词出现的次数。image.png好了。。不多说。。。直接上代码。。。二、使用Java实现importorg.apache.spark.SparkConf;importorg.apache.spark.SparkContext;importorg.apache.spark.api.java
数据蝉
·
2023-03-14 23:48
SPark学习笔记
:05-SPark RDD的持久化
文章目录RDD的持久化checkpoint()checkpoint的使用checkpoint的流程:cache()/persist()persist的使用persist的持久化级别checkpoint和persist(数据缓存磁盘方式)的区别RDD的持久化RDD的持久化是Spark中的一个非常重要的概念。当我们持久化一个RDD时,每个节点将其所计算的每个分区持久化到内存中,这样用到这些数据的其他的
wangzhongyudie
·
2023-03-12 08:43
Spark
大数据
spark
学习
大数据
Spark学习笔记
(5)——RDD的创建
默认情况下,Spark可以将一个作业切分多个任务后,发送给Executor节点并行计算,而能够并行计算的任务数量我们称之为并行度。这个数量可以在构建RDD时指定。但是切分任务的数量不一定等于并行执行的任务数量,比如当节点资源数量小于切分数量时。在Spark中创建RDD的创建方式可以分为四种:一、从集合(内存)中创建RDD1.从集合中创建RDD使用makeRDD方法//*号表示本地环境中最大可用核数
程光CS
·
2023-02-03 12:26
Spark学习笔记
分布式
spark
大数据
Spark学习笔记
10:创建RDD
目录一、什么是RDD(一)RDD概念(二)RDD示例(三)RDD主要特征二、做好准备工作(一)准备文件1、准备本地系统文件2、启动HDFS服务3、准备HDFS系统文件(二)启动SparkShell1、启动Spark服务2、启动SparkShell三、创建RDD(一)从对象集合创建RDD1、利用parallelize()方法创建RDD2、利用makeRDD()方法创建RDD3、总结说明(二)从外部存
balabalalibala
·
2023-02-03 12:54
Spark
spark
学习
big
data
SPark学习笔记
:03-SPark的RDD详解
文章目录概述RDD的创建基于现有的集合创建RDD基于文件创建RDD深入理解RDD1、怎么理解RDD的分布式2、怎么理解RDD之间有一系列依赖关系3、怎么理解RDD的弹性(容错性)4、怎么理解RDD提供了最佳的计算位置概述ResilientDistributedDatasets(RDDs),中文名称是弹性分布式数据集。Spark的所有操作围绕着RDDs展开。它是一组可容错的、可并行操作的数据的集合。
wangzhongyudie
·
2023-01-31 14:49
Spark
大数据
spark
学习
大数据
spark学习笔记
sparkSparkContext模板valconf=newSparkConf().setAppName(this.getClass.getCanonicalName.init).setMaster("local[*]")valsc=newSparkContext(conf)vallines=sc.textFile("路径")sc.stop()SparkSession模板importorg.apa
hadoop_qin
·
2023-01-29 17:47
Spark学习笔记
Date:2019/9/18Version:Spark2.1Source:网易云课堂-厦门大学林子雨老师主讲的《Spark编程基础(Scala版)》窄依赖宽依赖
pluo1717
·
2023-01-27 12:16
SPark学习笔记
:13 Spark Streaming 的Transform算子和Action算子
文章目录概述TransformationsonDStreamsmapflatMapfilterrepartitonunioncountcountByValuereducereduceByKeyjoincogrouptransformupdateStateByKeySparkStreaming的行动算子OutputOperationsOnDStreamprintsaveAsTextFiles(pre
wangzhongyudie
·
2023-01-07 14:10
Spark
大数据
spark
学习
大数据
Spark学习笔记
Spark学习笔记
一、Spark是什么?
LencyGe
·
2022-12-29 10:02
大数据学习笔记
spark
big
data
hadoop
大数据高级开发工程师——
Spark学习笔记
(6)
文章目录Spark内存计算框架SparkSQLSparkSQL概述1.SparkSQL的前世今生2.什么是SparkSQLSparkSQL的四大特性1.易整合2.统一的数据源访问3.兼容Hive4.支持标准的数据库连接DataFrame概述1.DataFrame发展2.DataFrame是什么3.DataFrame和RDD的优缺点RDDDataFrame初识DataFrame1.读取文件文件2.读
斗志昂-杨
·
2022-12-24 18:49
大数据
大数据
SparkSQL
DataFrame
DataSet
SparkSQL自定义函数
spark学习笔记
:DataSet
DataSet4.1.什么是DataSetDataSet是分布式的数据集合,Dataset提供了强类型支持,也是在RDD的每行数据加了类型约束。DataSet是在Spark1.6中添加的新的接口。它集中了RDD的优点(强类型和可以用强大lambda函数)以及使用了SparkSQL优化的执行引擎。DataSet可以通过JVM的对象进行构建,可以用函数式的转换(map/flatmap/filter)进
黄道婆
·
2022-11-28 11:24
bigdata
Spark学习笔记
12:DataFrame与Dataset
目录一、数据帧-DataFrame(一)DataFrame概述(二)将RDD转成DataFrame二、数据集-Dataset(一)Dataset概述(二)DataFrame与Dataset的关系三、简单使用SparkSQL(一)了解SparkSession(二)准备数据文件(三)加载数据为Dataset1、读取文本文件,返回数据集2、显示数据集的内容(四)给数据集添加元数据信息1、定义样例类2、导
balabalalibala
·
2022-11-28 11:22
Spark
spark
big
data
学习
Apache Spark基础知识
我的
spark学习笔记
,基于Spark2.4.0目录一、简介二、RDD编程1RDD介绍2RDD操作2.0读操作2.1常用Tramsformation算子2.2常用Action算子2.3传递方法、对象、变量
终回首
·
2022-09-28 06:50
大数据
#
Apache
Spark
spark
big
data
大数据
20年清华扫地僧,整理的Storm、
Spark学习笔记
,面试官:给我看看
写在前面大数据并不是一个突如其来的时兴科技词语,而是在厚积薄发中不断演变,时机到来时一下变得广为人知。传统数据库和数据仓库的统治地位本来看上去牢不可破,随着Hadoop等大数据技术的日趋成熟,这种情况到了终结的时候。作为当前最受关注的实时大数据开源平台项目,Storm和Spark都能为广大潜在用户提供良好的实时大数据处理功能。除在功能方面的部分交集外,Storm、Spark还各自拥有独特的特性与市
Java技术那些事儿
·
2022-09-16 16:58
数据仓库
大数据
hadoop
后端
java
SPark学习笔记
:11 SparkSQL 的用户自定义函数UDF、UDAF、UDTF
文章目录UDF用户自定义函数(一对一)说明使用实现方式完整示例UDAF用户自定义聚合函数(多对一)说明使用实现方式UDTF用户自定义表函数(一对多)说明:实现UDF用户自定义函数(一对一)说明UDF输入一条记录,输出一条记录,一对一的关系,有点类似于map算子,是一对一的关系使用UDF的使用有两种方式,一种方式是在SQL中使用,另一种方式是在DSL方式使用使用SQL的方式valmyconcat3=
wangzhongyudie
·
2022-08-18 20:21
Spark
大数据
spark
学习
scala
spark学习笔记
(七)——sparkcore核心编程-RDD序列化/依赖关系/持久化/分区器/累加器/广播变量
目录RDD序列化(1)闭包检查(2)序列化方法和属性(3)Kryo序列化RDD依赖关系(1)RDD血缘关系(2)RDD依赖关系(3)RDD窄依赖(4)RDD宽依赖(5)RDD阶段划分(6)RDD任务划分RDD持久化(1)RDDCache缓存(2)RDDCheckPoint检查点(3)缓存和检查点的区别RDD分区器累加器:分布式共享只写变量(1)系统累加器(2)自定义累加器广播变量:分布式共享只读变
一个人的牛牛
·
2022-07-28 14:53
spark
spark
学习
scala
大数据高级开发工程师——
Spark学习笔记
(1)
文章目录Spark内存计算框架SparkCoreSpark是什么?四大特性1.速度快2.易用性3.通用性4.兼容性内置组件1.集群资源管理2.SparkCore(核心库)3.SparkSQL(SQL解析)4.SparkStreaming(实时处理)5.SparkMLlib(机器学习)6.SparkGraphX(图计算)集群架构及核心概念1.集群架构2.核心概念Spark集群1.搭建Spark集群2
yangwei_sir
·
2022-07-08 11:36
大数据
大数据
spark
standalone
cluster
shuffle
上一页
1
2
3
4
5
6
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他