E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
---SparkCore
Spark面试题集锦
包含
Sparkcore
、Sparksql、Sparkstreaming、SparkMLlib、sparkGraphX五个核心组件。2、Spark的核心组件是什么?
猿界零零七
·
2023-11-28 09:53
知识总结
spark
大数据
Spark Core源码精读计划#18:与RDD的重逢
抽象类概述构造方法与成员属性需要RDD子类实现的方法RDD的五要素RDD继承体系与算子概述RDD的子类转换算子动作算子总结前言在前面的17篇文章中,我们对以SparkContext和SparkEnv为中心展开的
SparkCore
LittleMagic
·
2023-11-27 07:33
Spark---
SparkCore
(一)
一、术语与宽窄依赖1、术语解释1、Master(standalone):资源管理的主节点(进程)2、ClusterManager:在集群上获取资源的外部服务(例如:standalone,Mesos,Yarn)3、WorkerNode(standalone):资源管理的从节点(进程)或者说管理本机资源的进程4、DriverProgram:用于连接工作进程(Worker)的程序5、Executor:是
30岁老阿姨
·
2023-11-25 01:20
Spark
spark
大数据
分布式
Spark设计理念与基本架构
易于使用支持查询支持流式计算可用性高丰富的数据源支持模块:
SparkCore
+SparkSQL+S
whynotybb
·
2023-11-24 02:29
Spark(三)【
SparkCore
】- Spark 转换算子、行动算子、持久化算子、代码流程
1.Transformations转换算子1.1概念:Transformations类算子是一类算子(函数)叫做转换算子,如map,flatMap,reduceByKey等。Transformations算子是延迟执行,也叫懒加载执行。1.2Transformation类算子:filter过滤符合条件的记录数,true保留,false过滤掉。map将一个RDD中的每个数据项,通过map中的函数映射
plenilune-望月
·
2023-11-23 11:59
Spark分布式计算框架
2011-2022年高职大数据竞赛-赛题内容
离线数据统计第五部分赛题模拟实现-数据采集与实时计算第六部分赛题模拟实现-数据可视化第一部分竞赛内容赛项以大数据技术与应用为核心内容和工作基础,重点考查参赛选手基于Spark、Flink平台环境下,充分利用
SparkCore
xlw2003
·
2023-11-19 21:54
大数据
Spark
hadoop
flink
高职大数据竞赛
大数据Spark学习笔记—
sparkcore
目录Spark概述核心模块Spark编程配置IDEA配置scala环境WordCount案例Spark-Standalone运行环境Local配置步骤集群分工解压文件修改配置启动集群配置历史服务器Spark-Yarn运行环境配置步骤配置历史服务器Windows运行环境配置步骤常用端口号Spark架构核心组件DriverExecutorMaster&WorkerApplicationMasterHa
Int mian[]
·
2023-11-15 03:12
大数据
大数据
spark
hadoop
scala
分布式
20210127_spark学习笔记
SparkCore
是spark平台的基础通用执行引擎,所有其他功能都是基于。它在外部存储系统中提供内存计算和引用数据集。
yehaver
·
2023-11-15 03:42
spark
大数据之Spark调优:Explain 查看执行计划
SparkSQL取代
SparkCore
,成为新一代的引擎内核,所有其他子框架如Mllib、Streaming和Graph,都可以共享SparkSQL的性能优化,都能从Spark社区对于SparkSQL的投入中受益
浊酒南街
·
2023-11-14 06:17
Spark调优
大数据
spark
分布式
Spark的执行计划
SparkSQL取代
SparkCore
,成为新一代的引擎内核,所有其他子框架如Mllib、Streaming和Graph,都可以共享SparkSQL的性能优化,都能从Spark社区对于SparkSQL的投入中受益
shangjg3
·
2023-11-12 05:52
Spark
spark
大数据
分布式
SparkCore
和SparkSql读取与保存hdfs文件的方法
第一种SparkCorevalconf=newSparkConf().setAppName(“File”).setMaster(“spark://IP地址:7077”)//这里你可以写local,我这样写是可以看做是在用spark-on-yarnvalsc=newSparkContext(conf);valdata=sc.textFile(“hdfs://IP地址:9000/文件路径”)//读取,
尘世壹俗人
·
2023-11-09 14:24
大数据Spark技术
spark
大数据
Spark Core
SparkCore
本文来自B站黑马程序员-Spark教程:原地址第一章RDD详解1.1为什么需要RDD分布式计算需要分区控制shuffle控制数据存储、序列化、发送数据计算API等一系列功能这些功能,不能简单的通过
Am98
·
2023-11-07 16:54
spark
wpf
大数据
Spark知识点总结大全
sparkcore
:Spark的核心实现了Spark的基本功能,包含任务调度、内存管理、错误恢复、与存储系统交互等模块。
好好丁先森
·
2023-11-07 05:11
spark
大数据
分布式
Spark Core解析 2:Scheduler 调度体系
SparkCore
解析2:Scheduler调度体系Overview调度系统,是贯穿整个Spark应用的主心骨,从调度系统开始入手了解
SparkCore
,比较容易理清头绪。
Liam666
·
2023-11-05 03:37
Spark SQL
一.SparkSqlSparkSQL可以简化RDD的开发,提高开发效率.提供了2个编程抽象,类似
SparkCore
中的RDD➢DataFrame➢DataSet1.SparkSQL特点➢易整合无缝的整合了
ytzhyp
·
2023-11-04 04:23
spark
sql
大数据
Spark core通过textFile读取Hdfs文件blockSize如何设置?
一、概述其实
Sparkcore
无论是读取hdfs还是读取本地文件都会以hadoopfile的形式进行读取,不同点在于读取本地文件时可以通过在resources文件中放入hdfs-site.xml文件设置
客舟听雨2
·
2023-10-30 10:52
spark
hdfs
大数据
真实大数据简历模版(一)【大数据-4年经验】在线教育
抗压能力强,能自我激励,善于沟通与团队协作3.具备扎实的Java相关知识,熟练使用Java和Scala语言编程4.掌握Spark及其组件
SparkCore
、SparkSQL、SparkStreaming
大模型Maynor
·
2023-10-30 03:25
#
大数据面试辅导
大数据
Spark简单回顾
星光下的赶路人star的个人主页 大鹏一日同风起,扶摇直上九万里文章目录1、Spark1.1Spark入门1.1.1Spark部署模式1.1.2常用端口1.2
SparkCore
1.2.1RDD
星光下的赶路人star
·
2023-10-24 11:32
Spark
1024程序员节
大数据
spark
SparkCore
系列-7、SougoQ日志分析
版权声明:本文为博主原创文章,遵循CC4.0BY-SA版权协议,转载请附上原文出处链接和本声明。传送门:大数据系列文章目录官方网址:http://spark.apache.org/、https://databricks.com/spark/about目录回顾介绍业务需求准备工作HanLP中文分词样例类SogouRecord业务实现读取数据搜索关键词统计用户搜索点击统计搜索时间段统计完整代码下回分解
技术武器库
·
2023-10-23 05:27
大数据专栏
搜索引擎
《Spark大数据分析》一书的书评和采访
\\t了解
SparkCore
及加载项库,包括SparkSQL、SparkStreaming、GraphX、Mllib和SparkML。
H_MZ
·
2023-10-19 05:30
scala
运维
数据库
Spark工作原理及基础概念(超详细!)
目录一、Spark概述(1)概述(2)Spark整体架构(3)Spark特性(4)Spark与MR(5)SparkStreaming与Storm(6)SparkSQL与Hive二、Spark基本原理(1)
SparkCore
bhegi_seg
·
2023-10-18 07:21
面试
学习路线
阿里巴巴
spark
big
data
scala
c++
java
【Spark基础】Spark核心模块组成与功能概述
Spark基于
SparkCore
开发了多种组件。开发人员可以基于这些组件,轻松完成多种不同场景的计算任务。
小强不吃菜
·
2023-10-18 07:20
spark
大数据
Spark
1.2Hadoop与Spark历史1.3Hadoop与Spark框架对比1.4Spark内置模块
SparkCore
:实现了Spark的基本功能,包含任务调度、内存管理、错误恢复、与存储系统交互等模块。
不吃香菜lw
·
2023-10-18 01:28
spark
scala
Spark深入解析(五):
SparkCore
之RDD编程模型
学习目标编程模型RDD的创建编程模型 在Spark中,RDD被表示为对象,通过对象上的方法调用来对RDD进行转换。经过一系列的transformations定义RDD之后,就可以调用actions触发RDD的计算,action可以是向应用程序返回结果(count,collect等),或者是向存储系统保存数据(saveAsTextFile等)。在Spark中,只有遇到action,才会执行RDD的
老王的小知识
·
2023-10-15 19:13
#
【大数据】Spark
spark
大数据
编程语言
RDD
2.
SparkCore
-RDD编程
二、RDD编程1、编程模型在Spark中,RDD被表示为对象,通过对象上的方法调用来对RDD进行转换。经过一系列的transformations定义RDD之后,就可以调用actions触发RDD的计算,action可以是向应用程序返回结果(count,collect等),或者是向存储系统保存数据(saveAsTextFile等)。在Spark中,只有遇到action,才会执行RDD的计算(即延迟计
进击的小民工_97
·
2023-10-15 19:42
Spark
spark
scala
big
data
Spark之
SparkCore
:RDD-数据核心/API【执行过程、编程模型:创建、转换、输出、运行过程】
RDD实践1、执行过程2、编程模型2.1RDD创建2.2RDD转换2.3RDD输出3、RDD运行过程1、执行过程1、读入外部的数据源(或者内存中的集合)进行RDD创建;2、RDD经过一系列的“转换”操作,每一次都会产生不同的RDD,供给下一个转换使用;3、最后一个RDD经过“行动”操作进行处理,并输出指定的数据类型和值。优点:惰性调用、管道化、不需要保存中间结果。RDD采用了惰性调用,即在RDD的
珞沫
·
2023-10-15 19:42
Hadoop
Spark
spark
RDD
Spark_
SparkCore
_RDD
创建操作3.2转换操作3.2.1单value类型的转换算子3.2.2双value类型的转换算子3.2.3KV对类型的转换算子3.3行为操作3.4缓存操作4共享变量4.1累加器4.2广播变量5开发0参考列表
SparkCore
若叶时代
·
2023-10-15 19:42
数据计算引擎
spark
SparkCore
之RDD编程模型与RDD的创建
编程模型在Spark中,RDD被表示为对象,通过对象上的方法调用来对RDD进行转换。经过一系列的transformations定义RDD之后,就可以调用actions触发RDD的计算,action可以是向应用程序返回结果(count,collect等),或者是向存储系统保存数据(saveAsTextFile等)。在Spark中,只有遇到action,才会执行RDD的计算(即延迟计算),这样在运行时
小刘同学-很乖
·
2023-10-15 19:41
#
SparkCore
spark
大数据
hadoop
java
python
sparkcore
分区_
SparkCore
——RDD编程
RDD编程RDD编程模型在Spark中,RDD被表示为对象,通过对象上的方法调用来对RDD进行转换。经过一系列的transformations定义RDD之后,就可以调用actions触发RDD的计算action可以是向应用程序返回结果(count,collect等),或者是向存储系统保存数据(saveAsTextFile等)。在Spark中,只有遇到action,才会执行RDD的计算(即延迟计算)
low sapkj
·
2023-10-15 19:10
sparkcore分区
SparkCore
之RDD详解
1.什么是RDD简介:RDD(ResilientDistributedDataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,代表一个不可变、可分区、里面的元素可并行计算的集合。Spark所有的运算以及操作都建立在RDD数据结构的基础之上。官网截图解释:Dataset:一个数据集合,用于存放数据的。Distributed:RDD中的数据是分布式存储的,可用于分布式计算。Resilie
LBJ_小松鼠
·
2023-10-15 19:08
SparkCore
编程RDD
RDD概述中文名为弹性分布式数据集,是数据处理基本单位。代表一个弹性的,不可变,可分区,里面的数据可并行计算的集合。RDD和HadoopMR的区别:RDD是先明确数据处理流程,数据在行动算子执行前实际上并未被修改MR本质上是摸石头过河,每一步操作时,数据本体已经被修改了,无法恢复。RDD特性:一组分区:标记数据是哪个分区的一个计算每个分区的函数RDD之间的依赖关系一个分区器:即RDD的分片函数一个
十七✧ᐦ̤
·
2023-10-15 18:04
spark
java
scala
Spark入门
目录Spark入门:概述+历史+概述
SparkCore
:RDDSparkSQL:SparkStreamingSpark内核调优Spark概述回顾:Hadoop=HDFS存储+MR分析计算+YARN调度Hadoop
十七✧ᐦ̤
·
2023-10-14 12:21
spark
大数据
分布式
spark组成
sparkspark=
SparkCore
+SparkSq1+SparkStreaming+MLlib+GraphxSparkCore:实现了Spark的基本功能,包含任务调度、内存管理、错误恢复、与存储系统交互等模块
白纸糊
·
2023-10-12 12:35
Python大数据之PySpark(八)
SparkCore
加强
文章目录
SparkCore
加强Spark算子补充[掌握]RDD持久化[掌握]RDDCheckpoint后记
SparkCore
加强重点:RDD的持久化和Checkpoint提高拓展知识:Spark内核调度全流程
Maynor996
·
2023-10-11 17:14
#
PySpark
python
大数据
java
CC00011.spark——|Hadoop&Spark.V11|——|Spark.v11|
sparkcore
|开发环境搭建IDEA|
一、创建工程###---创建一个maven工程:~~~CreateNewProject——>Maven——>Next——>Name:SparkBigData——>Finish——>END###---安装scala插件;能读写HDFS文件###---导入依赖插件,写入pom.xml文件4.0.0com.yanqi.sparkbigdatacom.yanqi.sparkbigdata1.0-SNAPS
yanqi_vip
·
2023-10-10 18:48
大数据
hadoop
spark
java
maven
spark sql 数据类型转换_Spark SQL重点知识总结
SparkSQL的特点:1、和
SparkCore
的无缝集成,可以在写整个RDD应用的时候,配置SparkSQL来完成逻辑实现。2、统一的数据访问方式,SparkSQL提供标准化的SQL查询。3、H
weixin_39736547
·
2023-10-10 06:39
spark
sql
数据类型转换
大数据——
SparkCore
学习笔记
Spark一、Spark简介Spark是一种由Scala语言开发的快速、通用、可扩展的大数据分析引擎
SparkCore
中提供了Spark最基础与最核心的功能SparkSQL是Spark用来操作结构化数据的组件
Ostrich5yw
·
2023-10-09 21:34
BigData
学习
spark
Python大数据之PySpark(七)
SparkCore
案例
文章目录
SparkCore
案例PySpark实现SouGou统计分析总结后记
SparkCore
案例PySpark实现SouGou统计分析jieba分词:pipinstalljieba从哪里下载pypi三种分词模式精确模式
Maynor996
·
2023-10-08 06:46
#
PySpark
python
大数据
开发语言
Spark的基础
实训笔记--Spark的基础Spark的基础一、Spark的诞生背景二、Spark概念2.1
SparkCore
2.2.SparkSQL2.3SparkStreaming2.4SparkMLlib2.5SparkGraphX2.6SparkR
cai-4
·
2023-09-21 18:56
实训
spark
大数据
分布式
Spark
以下是ApacheSpark的一些基本概念:
SparkCore
:这是Spark的基本引擎,提供了分布式任务调度、内存数据存储和数据处理等核心功能。RDD(弹性分布式数据集):Spark的
山塘小鱼儿
·
2023-09-16 08:20
spark
java
SparkSQL3.0性能优化
对于SparkSQL提供的两种开发方式:DSL/SQL,我更喜欢SQL方式,SQL方式不仅开发效率高,而且DSL实现特别复杂的功能,个人感觉不如使用
SparkCore
借助灵活算子实现。
qing_feng
·
2023-09-14 12:40
Spark源码之Master
Spark源码之Master介绍篇Master介绍Master作为资源管理和分配的组件,所以今天我们重点来看
SparkCore
中的Master如何实现资源的注册,状态的维护以及调度分配;Master内部代码概览
小狼星I
·
2023-09-14 10:59
Spark-Core之算子详解(七)
SparkCore
算子详解 开始之前,先希望大家生活乐观,天天向上。没有风可以把温柔的人吹倒,但温柔的风一定能吹散所有的不愉快。希望大家在为生活奔波的同时不忘初心,砥砺前行,永远能打倒困难。
阿卷啦
·
2023-09-10 20:44
spark
spark
大数据
big
data
spark学习笔记(六)——
sparkcore
核心编程-RDD行动算子
行动算子-触发作业的执行(runjob)创建activeJob,提交并执行目录(1)reduce(2)collect(3)count(4)first(5)take(6)takeOrdered(7)aggregate(8)fold(9)countByKey(10)save相关算子(11)foreachRDD转换:对RDD功能的补充和封装,将旧的RDD包装成为新的RDD;RDD行动:触发任务的调度和作
一个人的牛牛
·
2023-09-10 20:43
spark
spark
学习
大数据
sparkCore
-核心、算子、持久化算子
一、Spark核心1.RDD1)概念:RDD(ResilientDistributedDateset),弹性分布式数据集2)RDD的五大特性1.RDD是由一系列的partition组成的。2.函数是作用在每一个partition(split)上的。3.RDD之间有一系列的依赖关系。4.分区器是作用在K,V格式的RDD上的。5.RDD提供一系列最佳的计算位置。3)RDD的理解图:4)注意:1.tex
星茗
·
2023-09-10 20:13
大数据
spark
大数据
spark
介绍 Apache Spark 的基本概念和在大数据分析中的应用。
Spark由多个组件组成,包括
SparkCore
、SparkSQL、SparkStreaming、MLlib和GraphX等。
kkkliaoo
·
2023-09-09 05:36
开发语言
【4-5章】Spark编程基础(Python版)
课程资源:(林子雨)Spark编程基础(Python版)_哔哩哔哩_bilibili第4章RDD编程(21节)Spark生态系统:
SparkCore
:底层核心(RDD编程是针对这个)SparkSQL:SQL
如何原谅奋力过但无声
·
2023-09-03 06:28
大数据组件
spark
大数据
分布式
SparkCore
第1章RDD概述1.1什么是RDDRDD(ResilientDistributedDataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。RDD类比工厂生产。内容和长度都是不可变化的!要修改数据或者加数据进去只能创建新的RDD,RDD的数据是存储在不同计算机的内存中,而Kafka存储在同一计算机的磁盘不
molecule_jp
·
2023-09-02 11:47
大数据
spark
大数据
大数据之Spark基本概念 特点 以及各个组件的作用的详细介绍
Spark包含
SparkCore
、SparkSQL、SparkStreaming、MLlib、Graph可以解决大数据中的BatchProcessing
BAO7988
·
2023-09-02 08:35
大数据
大数据
大数据开发
大数据分析
spark
大数据学习
大数据基础面试题五:Spark Core & SQL & Streaming
大数据基础面试题五:
SparkCore
&SQL&Streaming目录大数据基础面试题五:
SparkCore
&SQL&Streaming十一、
SparkCore
&SQL11.1Spark解决什么问题11.2Spark
大数据面壁者
·
2023-08-25 10:37
大数据
spark
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他