E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
SparkCore
Spark简单回顾
星光下的赶路人star的个人主页 大鹏一日同风起,扶摇直上九万里文章目录1、Spark1.1Spark入门1.1.1Spark部署模式1.1.2常用端口1.2
SparkCore
1.2.1RDD
星光下的赶路人star
·
2023-10-24 11:32
Spark
1024程序员节
大数据
spark
SparkCore
系列-7、SougoQ日志分析
版权声明:本文为博主原创文章,遵循CC4.0BY-SA版权协议,转载请附上原文出处链接和本声明。传送门:大数据系列文章目录官方网址:http://spark.apache.org/、https://databricks.com/spark/about目录回顾介绍业务需求准备工作HanLP中文分词样例类SogouRecord业务实现读取数据搜索关键词统计用户搜索点击统计搜索时间段统计完整代码下回分解
技术武器库
·
2023-10-23 05:27
大数据专栏
搜索引擎
《Spark大数据分析》一书的书评和采访
\\t了解
SparkCore
及加载项库,包括SparkSQL、SparkStreaming、GraphX、Mllib和SparkML。
H_MZ
·
2023-10-19 05:30
scala
运维
数据库
Spark工作原理及基础概念(超详细!)
目录一、Spark概述(1)概述(2)Spark整体架构(3)Spark特性(4)Spark与MR(5)SparkStreaming与Storm(6)SparkSQL与Hive二、Spark基本原理(1)
SparkCore
bhegi_seg
·
2023-10-18 07:21
面试
学习路线
阿里巴巴
spark
big
data
scala
c++
java
【Spark基础】Spark核心模块组成与功能概述
Spark基于
SparkCore
开发了多种组件。开发人员可以基于这些组件,轻松完成多种不同场景的计算任务。
小强不吃菜
·
2023-10-18 07:20
spark
大数据
Spark
1.2Hadoop与Spark历史1.3Hadoop与Spark框架对比1.4Spark内置模块
SparkCore
:实现了Spark的基本功能,包含任务调度、内存管理、错误恢复、与存储系统交互等模块。
不吃香菜lw
·
2023-10-18 01:28
spark
scala
Spark深入解析(五):
SparkCore
之RDD编程模型
学习目标编程模型RDD的创建编程模型 在Spark中,RDD被表示为对象,通过对象上的方法调用来对RDD进行转换。经过一系列的transformations定义RDD之后,就可以调用actions触发RDD的计算,action可以是向应用程序返回结果(count,collect等),或者是向存储系统保存数据(saveAsTextFile等)。在Spark中,只有遇到action,才会执行RDD的
老王的小知识
·
2023-10-15 19:13
#
【大数据】Spark
spark
大数据
编程语言
RDD
2.
SparkCore
-RDD编程
二、RDD编程1、编程模型在Spark中,RDD被表示为对象,通过对象上的方法调用来对RDD进行转换。经过一系列的transformations定义RDD之后,就可以调用actions触发RDD的计算,action可以是向应用程序返回结果(count,collect等),或者是向存储系统保存数据(saveAsTextFile等)。在Spark中,只有遇到action,才会执行RDD的计算(即延迟计
进击的小民工_97
·
2023-10-15 19:42
Spark
spark
scala
big
data
Spark之
SparkCore
:RDD-数据核心/API【执行过程、编程模型:创建、转换、输出、运行过程】
RDD实践1、执行过程2、编程模型2.1RDD创建2.2RDD转换2.3RDD输出3、RDD运行过程1、执行过程1、读入外部的数据源(或者内存中的集合)进行RDD创建;2、RDD经过一系列的“转换”操作,每一次都会产生不同的RDD,供给下一个转换使用;3、最后一个RDD经过“行动”操作进行处理,并输出指定的数据类型和值。优点:惰性调用、管道化、不需要保存中间结果。RDD采用了惰性调用,即在RDD的
珞沫
·
2023-10-15 19:42
Hadoop
Spark
spark
RDD
Spark_
SparkCore
_RDD
创建操作3.2转换操作3.2.1单value类型的转换算子3.2.2双value类型的转换算子3.2.3KV对类型的转换算子3.3行为操作3.4缓存操作4共享变量4.1累加器4.2广播变量5开发0参考列表
SparkCore
若叶时代
·
2023-10-15 19:42
数据计算引擎
spark
SparkCore
之RDD编程模型与RDD的创建
编程模型在Spark中,RDD被表示为对象,通过对象上的方法调用来对RDD进行转换。经过一系列的transformations定义RDD之后,就可以调用actions触发RDD的计算,action可以是向应用程序返回结果(count,collect等),或者是向存储系统保存数据(saveAsTextFile等)。在Spark中,只有遇到action,才会执行RDD的计算(即延迟计算),这样在运行时
小刘同学-很乖
·
2023-10-15 19:41
#
SparkCore
spark
大数据
hadoop
java
python
sparkcore
分区_
SparkCore
——RDD编程
RDD编程RDD编程模型在Spark中,RDD被表示为对象,通过对象上的方法调用来对RDD进行转换。经过一系列的transformations定义RDD之后,就可以调用actions触发RDD的计算action可以是向应用程序返回结果(count,collect等),或者是向存储系统保存数据(saveAsTextFile等)。在Spark中,只有遇到action,才会执行RDD的计算(即延迟计算)
low sapkj
·
2023-10-15 19:10
sparkcore分区
SparkCore
之RDD详解
1.什么是RDD简介:RDD(ResilientDistributedDataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,代表一个不可变、可分区、里面的元素可并行计算的集合。Spark所有的运算以及操作都建立在RDD数据结构的基础之上。官网截图解释:Dataset:一个数据集合,用于存放数据的。Distributed:RDD中的数据是分布式存储的,可用于分布式计算。Resilie
LBJ_小松鼠
·
2023-10-15 19:08
SparkCore
编程RDD
RDD概述中文名为弹性分布式数据集,是数据处理基本单位。代表一个弹性的,不可变,可分区,里面的数据可并行计算的集合。RDD和HadoopMR的区别:RDD是先明确数据处理流程,数据在行动算子执行前实际上并未被修改MR本质上是摸石头过河,每一步操作时,数据本体已经被修改了,无法恢复。RDD特性:一组分区:标记数据是哪个分区的一个计算每个分区的函数RDD之间的依赖关系一个分区器:即RDD的分片函数一个
十七✧ᐦ̤
·
2023-10-15 18:04
spark
java
scala
Spark入门
目录Spark入门:概述+历史+概述
SparkCore
:RDDSparkSQL:SparkStreamingSpark内核调优Spark概述回顾:Hadoop=HDFS存储+MR分析计算+YARN调度Hadoop
十七✧ᐦ̤
·
2023-10-14 12:21
spark
大数据
分布式
spark组成
sparkspark=
SparkCore
+SparkSq1+SparkStreaming+MLlib+GraphxSparkCore:实现了Spark的基本功能,包含任务调度、内存管理、错误恢复、与存储系统交互等模块
白纸糊
·
2023-10-12 12:35
Python大数据之PySpark(八)
SparkCore
加强
文章目录
SparkCore
加强Spark算子补充[掌握]RDD持久化[掌握]RDDCheckpoint后记
SparkCore
加强重点:RDD的持久化和Checkpoint提高拓展知识:Spark内核调度全流程
Maynor996
·
2023-10-11 17:14
#
PySpark
python
大数据
java
CC00011.spark——|Hadoop&Spark.V11|——|Spark.v11|
sparkcore
|开发环境搭建IDEA|
一、创建工程###---创建一个maven工程:~~~CreateNewProject——>Maven——>Next——>Name:SparkBigData——>Finish——>END###---安装scala插件;能读写HDFS文件###---导入依赖插件,写入pom.xml文件4.0.0com.yanqi.sparkbigdatacom.yanqi.sparkbigdata1.0-SNAPS
yanqi_vip
·
2023-10-10 18:48
大数据
hadoop
spark
java
maven
spark sql 数据类型转换_Spark SQL重点知识总结
SparkSQL的特点:1、和
SparkCore
的无缝集成,可以在写整个RDD应用的时候,配置SparkSQL来完成逻辑实现。2、统一的数据访问方式,SparkSQL提供标准化的SQL查询。3、H
weixin_39736547
·
2023-10-10 06:39
spark
sql
数据类型转换
大数据——
SparkCore
学习笔记
Spark一、Spark简介Spark是一种由Scala语言开发的快速、通用、可扩展的大数据分析引擎
SparkCore
中提供了Spark最基础与最核心的功能SparkSQL是Spark用来操作结构化数据的组件
Ostrich5yw
·
2023-10-09 21:34
BigData
学习
spark
Python大数据之PySpark(七)
SparkCore
案例
文章目录
SparkCore
案例PySpark实现SouGou统计分析总结后记
SparkCore
案例PySpark实现SouGou统计分析jieba分词:pipinstalljieba从哪里下载pypi三种分词模式精确模式
Maynor996
·
2023-10-08 06:46
#
PySpark
python
大数据
开发语言
Spark的基础
实训笔记--Spark的基础Spark的基础一、Spark的诞生背景二、Spark概念2.1
SparkCore
2.2.SparkSQL2.3SparkStreaming2.4SparkMLlib2.5SparkGraphX2.6SparkR
cai-4
·
2023-09-21 18:56
实训
spark
大数据
分布式
Spark
以下是ApacheSpark的一些基本概念:
SparkCore
:这是Spark的基本引擎,提供了分布式任务调度、内存数据存储和数据处理等核心功能。RDD(弹性分布式数据集):Spark的
山塘小鱼儿
·
2023-09-16 08:20
spark
java
SparkSQL3.0性能优化
对于SparkSQL提供的两种开发方式:DSL/SQL,我更喜欢SQL方式,SQL方式不仅开发效率高,而且DSL实现特别复杂的功能,个人感觉不如使用
SparkCore
借助灵活算子实现。
qing_feng
·
2023-09-14 12:40
Spark源码之Master
Spark源码之Master介绍篇Master介绍Master作为资源管理和分配的组件,所以今天我们重点来看
SparkCore
中的Master如何实现资源的注册,状态的维护以及调度分配;Master内部代码概览
小狼星I
·
2023-09-14 10:59
Spark-Core之算子详解(七)
SparkCore
算子详解 开始之前,先希望大家生活乐观,天天向上。没有风可以把温柔的人吹倒,但温柔的风一定能吹散所有的不愉快。希望大家在为生活奔波的同时不忘初心,砥砺前行,永远能打倒困难。
阿卷啦
·
2023-09-10 20:44
spark
spark
大数据
big
data
spark学习笔记(六)——
sparkcore
核心编程-RDD行动算子
行动算子-触发作业的执行(runjob)创建activeJob,提交并执行目录(1)reduce(2)collect(3)count(4)first(5)take(6)takeOrdered(7)aggregate(8)fold(9)countByKey(10)save相关算子(11)foreachRDD转换:对RDD功能的补充和封装,将旧的RDD包装成为新的RDD;RDD行动:触发任务的调度和作
一个人的牛牛
·
2023-09-10 20:43
spark
spark
学习
大数据
sparkCore
-核心、算子、持久化算子
一、Spark核心1.RDD1)概念:RDD(ResilientDistributedDateset),弹性分布式数据集2)RDD的五大特性1.RDD是由一系列的partition组成的。2.函数是作用在每一个partition(split)上的。3.RDD之间有一系列的依赖关系。4.分区器是作用在K,V格式的RDD上的。5.RDD提供一系列最佳的计算位置。3)RDD的理解图:4)注意:1.tex
星茗
·
2023-09-10 20:13
大数据
spark
大数据
spark
介绍 Apache Spark 的基本概念和在大数据分析中的应用。
Spark由多个组件组成,包括
SparkCore
、SparkSQL、SparkStreaming、MLlib和GraphX等。
kkkliaoo
·
2023-09-09 05:36
开发语言
【4-5章】Spark编程基础(Python版)
课程资源:(林子雨)Spark编程基础(Python版)_哔哩哔哩_bilibili第4章RDD编程(21节)Spark生态系统:
SparkCore
:底层核心(RDD编程是针对这个)SparkSQL:SQL
如何原谅奋力过但无声
·
2023-09-03 06:28
大数据组件
spark
大数据
分布式
SparkCore
第1章RDD概述1.1什么是RDDRDD(ResilientDistributedDataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。RDD类比工厂生产。内容和长度都是不可变化的!要修改数据或者加数据进去只能创建新的RDD,RDD的数据是存储在不同计算机的内存中,而Kafka存储在同一计算机的磁盘不
molecule_jp
·
2023-09-02 11:47
大数据
spark
大数据
大数据之Spark基本概念 特点 以及各个组件的作用的详细介绍
Spark包含
SparkCore
、SparkSQL、SparkStreaming、MLlib、Graph可以解决大数据中的BatchProcessing
BAO7988
·
2023-09-02 08:35
大数据
大数据
大数据开发
大数据分析
spark
大数据学习
大数据基础面试题五:Spark Core & SQL & Streaming
大数据基础面试题五:
SparkCore
&SQL&Streaming目录大数据基础面试题五:
SparkCore
&SQL&Streaming十一、
SparkCore
&SQL11.1Spark解决什么问题11.2Spark
大数据面壁者
·
2023-08-25 10:37
大数据
spark
腾讯大佬三年大制作,大数据Hadoop和Spark的大集合
这两个主流技术进行讲解,主要内容包括Hadoop环境配置、分布式文件系统HDFS、分布式计算框架MapReduce、资源调度框架YARN与Hadoop新特性、大数据数据仓库Hive、离线处理辅助系统、
SparkCore
金光闪闪耶
·
2023-08-23 15:47
Spark从入门到精通32:Spark SQL与Spark Core整合实战
这一节我们通过之前的学习来进行一次企业级的实战开发:与
SparkCore
整合之每日top3热点搜索词统计每日top3热点搜索词统计案例实战我们有的数据:数据格式:日期用户搜索词城市平台版本实际数据:需求
勇于自信
·
2023-08-23 02:23
SparkCore
-RDD编程
SparkCore
-RDD编程操作0.大纲Spark程序的执行过程RDD的操作RDD的转换操作共享变量高级排序1.Spark程序执行过程1.1.WordCount案例程序的执行过程1.2.Spark程序执行流程
wuyangcc
·
2023-08-19 23:47
Spark
大数据
spark
第三篇|Spark SQL编程指南
在《第二篇|
SparkCore
编程指南》一文中,对Spark的核心模块进行了讲解。
大数据技术与数仓
·
2023-08-12 13:47
Spark基础解析
spark内置模块
SparkCore
:实现了Spark的基本功能,包含任务调度、内存管理、错误恢复、与存储系统交互等模块。
TousandeG
·
2023-08-12 00:20
2.
SparkCore
1.RDD详解1.1为什么需要RDD分布式计算需要:分区控制、Shuffle控制、数据存储/序列化/发送、数据计算API等这些功能不能简单的通过Python内置的本地集合对象去完成,在分布式框架中,需要一个统一的数据抽象对象,来实现上述分布式计算所需的功能,这个抽象对象就是RDD。1.2什么时RDDRDD(ResilientDistributedDataset)叫弹性分布式数据集,是Spark中最
hutc_Alan
·
2023-08-08 02:24
spark
Spark性能调优指南来了!
SparkCore
:实现了Spark的基本功能,包含任务调度、内存管理、错误恢复、与存储系统交互等模块。
笑看风云路
·
2023-07-31 15:44
spark
大数据
性能调优
一、Spark基础解析
1.2Spark内置模块Spark内置模块
SparkCore
:实现了Spark的基本功能,包含任务调度、内存管理、错误恢复、存储系统交互等模块。
清风686
·
2023-07-29 03:21
SparkSQL知识点总结
一、SparkSql的概述1.1SparkSql是什么1.SparkSql是Spark生态体系中的一个基于
SparkCore
的SQL处理模块2.用途是处理具有结构化的数据文件的3.前身叫Shark,由于
南潇如梦
·
2023-07-26 10:33
大数据那些事
hive
big
data
spark
Spark从入门到精通47:Spark Streaming:与Spark SQL结合使用之top3热门商品实时统计案例实战
SparkStreaming最强大的地方在于,可以与
SparkCore
、SparkSQL整合使用,之前已经通过transform、foreachRDD等算子看到,如何将DStream中的RDD使用
SparkCore
勇于自信
·
2023-07-26 04:23
SparkCore
共享变量(十一)
共享变量详解 新的一天,新的一篇,天天开心,篇篇收货。最近了大厂裁员,资本游戏频现,元宇宙越来越火,就业压力和失业风险齐头并进,让我们本就不富裕的生活雪上加霜。前段时间去深圳出差,在飞机上看到一句话送给大家,“如同每个时代,都会出现击鼓传花的资本游戏,但是大家都信心满满,认为自己不会是最后倒霉的那个”,以此共勉我们心向光明,脚踏实地。一、概述 Spark的一个重要特性就是共享变量。默认情况下,
阿卷啦
·
2023-07-18 15:46
spark
big
data
spark
Spark_7
SparkCore
共享变量
共享变量共享变量的概述广播变量广播变量概述及底层分析广播变量的使用广播变量应用场景举例累加器累加器概述累加器的使用系统累加器自定义累加器共享变量的概述Spark一个非常重要的特性就是共享变量。默认情况下,如果在一个算子的函数中使用到了某个外部的变量,那么这个变量的值会被拷贝到每个task中,此时每个task只能操作自己的那份变量副本。如果多个task想要共享某个变量,那么这种方式是做不到的。Spa
Gru杨
·
2023-07-18 15:44
Spark
Spark Core:第五章 共享变量
SparkCore
:第五章共享变量文章目录
SparkCore
:第五章共享变量一、广播变量二、累加器三、知识点补充1.PV&UV2.面试简答—>Spark知识点总结导航有问题请联系QQ1436281495
落落free
·
2023-07-18 15:13
大数据阶段
#
Spark
spark
集群
大数据
Linux
Spark:Core(三)
BroadcastVariables08:累加器:Accumulators09:内核调度:宽窄依赖10:内核调度:Shuffle11:内核调度:基本概念12:内核调度:调度流程13:内核调度:并行度14:
SparkCore
多么哇塞的陈哇塞
·
2023-07-18 15:40
spark
RDD
大数据
spark
Spark Core:RDD编程
文章目录
SparkCore
:RDD编程1、实验描述2、实验环境3、相关技能4、知识点5、实现效果6、实验步骤7、总结
SparkCore
:RDD编程1、实验描述本实验是在sparklocal模式下,利用spark-shell
一顿吃不饱
·
2023-07-18 15:09
大数据
scala
spark
大数据
弹性分布式数据集
RDD
SparkCore
系列-9、共享变量
版权声明:本文为博主原创文章,遵循CC4.0BY-SA版权协议,转载请附上原文出处链接和本声明。传送门:大数据系列文章目录官方网址:http://spark.apache.org/、https://databricks.com/spark/about目录回顾介绍广播变量累加器案例演示下回分解回顾上篇文章介绍了如何使用SparkContext读取外部数据源的数据以及把数据保存到外部数据源。介绍在默认
技术武器库
·
2023-07-18 15:39
大数据专栏
大数据
spark
hadoop
SparkCore
:Spark内存调优二
文章目录一、概述二、堆内和堆外内存规划2.1堆内内存2.2堆外内存2.3内存管理接口三、内存空间分配3.2统一内存管理四、存储内存管理4.1RDD的持久化机制4.2RDD缓存的过程4.3淘汰和落盘五、执行内存管理5.1多任务间内存分配5.2Shuffle的内存占用一、概述Spark作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解Spark内存管理的基本原理,有
11号车厢
·
2023-07-18 15:08
Spark2
Spark2
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他