E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
---SparkCore
Spark 生态系统组件
Spark生态系统以
SparkCore
为核心,能够读取传统文件(如文本文件)、HDFS、A
博文视点
·
2020-08-15 07:18
Spark
Spark-Core
spark-mllib
spark-streaming
SparkCore
:Spark on Yarn运行模式和过程、Client模式新增进程、参数配置
文章目录1、SparkonYARN如何配置2、Cluster和Client两种模式2.1Cluster和Client对比2.2Cluster模式2.3Client模式3、测试,查看运行结果3.1cluster模式提交程序3.2client模式提交程序,或者通过spark-shell进入client模式4、参数配置,调优4.1启动方式4.2spark.yarn.jars参数4.3spark.port
11号车厢
·
2020-08-14 17:32
Spark2
Spark2
从0开始学习spark(7)
SparkCore
核心知识复习与核心机制详解
Spark零基础入门第七课Spark的核心概念:Spark运行架构特点Spark运行架构图:sparkstage阶段划分算法图:spark-on-yarn模式图:sparkContext的构建的过程SparkMasterHA机制Worker节点的原理没有看前面的同学可以回顾一下:**6.Spark共享变量之累加器和广播变量的使用!!!5.RDD常用算子用法训练(附习题答案)(aggregateBy
蛋蛋淡淡定
·
2020-08-14 11:30
spark
从0开始学习spark(9)Spark性能优化-开发调优
Spark零基础入门第九课:spark调优建议1.spark开发调优:没有看前面的同学可以回顾一下:8.
SparkCore
调优之内存模型7.
SparkCore
核心知识复习与核心机制详解6.Spark共享变量之累加器和广播变量的使用
蛋蛋淡淡定
·
2020-08-14 09:45
spark
从0开始学习spark(8)
SparkCore
调优之内存模型
静态内存管理3.2统一内存管理4.存储内存管理4.1RDD的持久化机制4.2RDD缓存的过程4.3淘汰和落盘5.执行内存管理5.1多任务间内存分配5.2Shuffle的内存占用没有看前面的同学可以回顾一下:7.
SparkCore
蛋蛋淡淡定
·
2020-08-14 09:45
spark
SparkCore
— Task分配算法
Task分配算法 接着上一篇的Task最佳位置,我们分析了submitMissingTasks()方法,其中里面比较重要的:一个是task的最佳位置计算,另一个就是提交TaskSet给TaskScheduler。下面分析提交到TaskScheduler后的TaskSet中的task是如何被分配到Executor上去的。 默认情况下,standalone模式,是使用的TaskSchedulerImp
xiaoxin_ysj
·
2020-08-14 00:14
Spark
Core原理与源码分析
spark中将数据输出到json文件的两种方式
通常的案例就是,给我们一个普通文件,然后我们用
sparkcore
或者sparkSQL,遍历文件内容后,按照需求将再将遍历后得到的数据写入json文件中。
物物相连
·
2020-08-13 22:52
大数据
大数据实时框架原理
它的底层,其实,也是基于我们之前讲解的
SparkCore
的。基本的计算模型,还是基于内存的大数据实时计算模型。而且,它的底层的组件或者叫做概念,其实还是最核心的RDD。
大数据的未来
·
2020-08-13 19:18
spark学习之路
用户画像与推荐系统的关系
用户画像是将用户的特征进行标签化,有简单的标签,也有复杂的标签,复杂的标签来自原始的标签,这其中有复杂的规则逻辑,用sql或这
sparkCore
来执行产生,也有利用算法模型来产生的,利用SVM,LR,RF
yyqq188
·
2020-08-12 00:06
推荐系统
兄台别走,带您去看Hadoop和Spark的不同!!!
一、Spark它主要包含以下几个方面:
SparkCore
–用于通用分布式数据处理的引擎。它不依赖于任何其他组件,可以运行在任何商用服务器集群上。
我还有大把的头发
·
2020-08-11 05:21
Spark SQL及RDD、DataFrame、DataSet数据抽象
2、SparkSQL的特点:(1)和
SparkCore
的无缝集成,我可以在写整个RDD应用的时候,配置SparkSQL来实现我的逻辑(2)统一的数据访问方式,SparkSQL提供标准化的SQL
one111a
·
2020-08-11 05:54
spark
Spark Streaming 实现思路与模块概述
一、基于Spark做SparkStreaming的思路SparkStreaming与
SparkCore
的关系可以用下面的经典部件图来表述:在本节,我们先探讨一下基于
SparkCore
的RDDAPI,如何对
xuguokun1986
·
2020-08-11 05:26
大数据
大数据:Spark Shuffle(一)ShuffleWrite:Executor如何将Shuffle的结果进行归并写到数据文件中去
1.前序关于Executor如何运行算子,请参考前面博文:大数据:
SparkCore
(四)用LogQuery的例子来说明Executor是如何运算RDD的算子,当Executor进行reduce运算的时候
raintungli
·
2020-08-11 04:35
大数据
Spark大数据平台源码分析
初识spark
1.Spark的组成
SparkCore
:将分布式数据抽象为弹性分布式数据集(RDD),实现了应用任务调度、RPC、序列化和压缩,并为运行在其上的上层组件提供API。
天一涯
·
2020-08-10 13:39
大数据学习之路
spark
[Spark] RDD中JOIN的使用
JOIN在
SparkCore
中的使用1.innerjoininnerjoin,只返回左右都匹配上的//启动spark-shell,定义两个rdd,做join操作[hadoop@hadoop01~]$spark-shell
cindysz110
·
2020-08-10 07:48
Spark
spark大数据架构初学入门基础详解
Spark是什么a)是一种通用的大数据计算框架b)
SparkCore
离线计算SparkSQL交互式查询SparkStreaming实时流式计算SparkMLlib机器学习SparkGraphX图计算c)
星月情缘02
·
2020-08-10 04:28
Spark
sparkStreaming的编程步骤
(1)StreamingContext 与
sparkcore
的编程类似,在编写SparkStreaming的程序时,也需要一个通用的编程入口----StreamingContext。
weixin_33924770
·
2020-08-10 03:10
windows本地sparkstreaming开发环境搭建及简单实例
IntelliJIDEACommunityEdition2017.1.1(相比eclipse更方便,不用装那么多插件,且提供免费版,官网直接下载安装就可以)2:环境配置:(开发语言scala)由于公司网络原因,下载不方便,没有用mavn,直接拖了本地的jar包(1)
sparkcore
TracyGao01
·
2020-08-10 01:29
spark
scala
Spark学习(二)SparkStreaming的官方文档
1、
SparkCore
、SparkSQL和SparkStreaming的类似之处2、SparkStreaming的运行流程2.1图解说明2.2文字解说1、我们在集群中的其中一台机器上提交我们的ApplicationJar
匿名啊啊啊
·
2020-08-10 00:10
SparkStreaming
spark core、spark sql、spark streaming 联系与区别
sparkcore
是做离线批处理sparksql是做sql高级查询sparkshell是做交互式查询sparkstreaming是做流式处理区别:
SparkCore
:Spark的基础,底层的最小数据单位是
lipviolet
·
2020-08-09 22:33
Spark系列
spark checkpoint机制简述
###1、
Sparkcore
的checkpoint####1)为什么checkpoint?
xwc35047
·
2020-08-09 16:10
spark经验总结
spark-streaming
spark checkpoint详解
checkpoint在spark中主要有两块应用:一块是在
sparkcore
中对RDD做checkpoint,可以切断做checkpointRDD的依赖关系,将RDD数据保存到可靠存储(如HDFS)以便数据恢复
weixin_30802171
·
2020-08-09 13:37
Spark-RDD高级算子
Spark课堂笔记Spark生态圈:
SparkCore
:RDD(弹性分布式数据集)SparkSQLSparkStreamingSparkMLLib:协同过滤,ALS,逻辑回归等等-->机器学习SparkGraphx
weixin_30257433
·
2020-08-09 13:47
第四篇|Spark Streaming编程指南(1)
SparkStreaming是构建在
SparkCore
基础之上的流处理框架,是Spark非常重要的组成部分。
西贝木土
·
2020-08-09 13:20
spark
第三篇|Spark SQL编程指南
在《第二篇|
SparkCore
编程指南》一文中,对Spark的核心模块进行了讲解。
西贝木土
·
2020-08-09 13:20
spark
第二篇|Spark core编程指南
本文将深入探究Spark的核心组件--
Sparkcore
,
SparkCore
是Spark平台的基础通用执行引擎,所有其他功能均建立在该引擎之上。
西贝木土
·
2020-08-09 13:49
spark
sparkCore
之sparkRDD常用算子
前言:sparkRDD的操作,从宏观上分为:Transformation和Action,但是具体的还以分为:输入算子、变换算子、缓存算子,以及行动算子。官网地址:https://spark.apache.org/docs/latest/rdd-programming-guide.html#resilient-distributed-datasets-rdds一、Transformation先来官网
moshang_3377
·
2020-08-09 09:39
spark
关于Dstream的转化操作的详细解释
众所周知,在
SparkCore
中,RDD支持Transform和Action两种类型的算子操作,同样的,作为代表了一系列连续RDD序列的DStream,同样也有相应的操作,如下图所示:在此,我着重讲一下
七月流火_2567
·
2020-08-09 04:48
spark
基础知识
Spark学习-Streaming
SparkStreamingSparkStreaming对比StormSparkStreaming处理逻辑对比
SparkCore
/SparkSQLCodeSparkStreaming流式处理框架,7*24h
wendaocp
·
2020-08-09 02:22
AI
/
BigData
/
Cloud
Spark经典面试题
SparkCore
:spark的核心计算主要RddSparkSQL:提供了类sql方式操作结构化半结构化数据。对历史数据进行交互式查询。(即席查询:
Aying_seeya
·
2020-08-08 10:15
Spark
1. 大数据实时计算介绍
它的底层,其实,也是基于我们之前讲解的
SparkCore
的。基本的计算模型,还是基于内存的大数据实时计算模型。而且,它的底层的组件或者叫做概念,其实还是最核心的RDD。
十点进修
·
2020-08-06 11:45
spark
spark_streaming
SparkSQL快速入门系列(6)
上一篇《
SparkCore
快速入门系列(5)》,下面给大家更新一篇SparkSQL入门级的讲解。
KO哥
·
2020-08-06 10:27
Spark
大数据
spark
游戏行业最全大数据知识点分析和企业级架构设计分享
数据分析流程以及分析指标1.1数据来源1.2数据收集和落地1.3离线分析1.4实时数据分析1.5用户肖像2相关知识2.1离线数据统计技能相关要求2.1.1Hadoop2.1.2Hive2.1.3HBase2.1.4
SparkCore
2.1.5SparkSQL2.2
开封程序员阿强
·
2020-08-06 09:27
大数据系列学习笔记
Spark Core 资源调度与任务调度(standalone client 流程描述)
SparkCore
资源调度与任务调度(standaloneclient流程描述)Spark集群启动:集群启动后,Worker会向Master汇报资源情况(实际上将Worker的资源写入到Master的HashSet
weixin_30741653
·
2020-08-05 20:31
Spark SQL与DataFrame详解以及使用
与
SparkCore
中类似的,SparkSQL中最核心的部分是DataFrame抽象模型,本篇文章主要介绍SparkSQL的核心内容以及其简单使用。
不清不慎
·
2020-08-05 19:01
Spark
大数据
Spark学习总结——
SparkCore
、任务执行原理、算子
Spark初始什么是SparkApacheSparkApacheSpark是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UCBerkeleyAMPlab(加州大学伯克利分校的AMP实验室)所开源的类HadoopMapReduce的通用并行计算框架,Spark拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读
System_FFF
·
2020-08-05 19:04
大数据进阶之路
spark
大数据
sparkcore
任务调度
RDD算子
SparkCore
之电商用户行为数据分析项目实战
SparkCore
之电商用户行为数据分析项目实战1.数据准备1)数据集2)数据格式说明3)数据详细字段说明2.需求一:Top10热门品类1)需求说明2)需求分析3)代码实现3.需求二:Top10热门品类中每个品类的
布莱恩特888
·
2020-08-04 17:06
Spark
SparkCore
项目实战|Top10热门品类|Top10热门品类中每个品类的Top10活跃Session统计|页面单跳转化率统计
数据分析本项目的数据是采集电商网站的用户行为数据,主要包含用户的4种行为:搜索、点击、下单和支付。(1)数据采用_分割字段(2)每一行表示用户的一个行为,所以每一行只能是四种行为中的一种。(3)如果搜索关键字是null,表示这次不是搜索(4)如果点击的品类id和产品id是-1表示这次不是点击(5)下单行为来说一次可以下单多个产品,所以品类id和产品id都是多个,id之间使用逗号,分割。如果本次不是
SmallScorpion
·
2020-08-04 17:41
零
Spark技术栈有哪些组件,每个组件都有什么功能,适合什么应用场景?
1)
Sparkcore
:是其它组件的基础,spark的内核,主要包含:有向循环图、RDD、Lingage、Cache、broadcast等,并封装了底层通讯框架,是Spark的基础。
有风微冷
·
2020-08-03 22:27
spark
spark-2.0-从RDD到DataSet
spark未来基本是要在DataSet上扩展了,因为spark基于
sparkcore
关注的东西很多,整合内部代码是必然的。1、加载文件valrdd=sparkContext.textFile(".
07H_JH
·
2020-08-03 09:57
大数据框架
Catalyst揭秘 Day6 Physical plan解析
Catalyst揭秘Day6Physicalplan解析物理计划是Spark和Sparksql相对比而言的,因为SparkSql是在
Sparkcore
上的一个抽象,物理化就是变成RDD,是SparkSql
weixin_33908217
·
2020-08-03 06:50
Spark Streaming简介
参考:SparkStreaming介绍SparkStreaming介绍SparkStreaming官方文档SparkStreaming简介SparkStreaming是一个基于
SparkCore
之上的实时计算框架
风情客家__
·
2020-08-03 01:33
spark
streaming
Spark深入解析(十):
SparkCore
之RDD的转换之Key-Value类型
目录partitionBy案例groupByKey案例reduceByKey(func,[numTasks])案例==reduceByKey和groupByKey的区别==aggregateByKey案例foldByKey案例combineByKey[C]案例sortByKey([ascending],[numTasks])案例mapValues案例join(otherDataset,[numTa
老王的小知识
·
2020-08-02 14:17
【大数据】Spark
SparkCore
之RDD编程(RDD的转换之Key-Value类型常用)
(1)partitionBy对pairRDD进行分区操作,如果原有的partionRDD和现有的partionRDD是一致的话就不进行分区,否则会生成ShuffleRDD,即会产生shuffle过程。(2)reduceByKey(func,[numTasks])在一个(K,V)的RDD上调用,返回一个(K,V)的RDD,使用指定的reduce函数,将相同key的值聚合到一起,reduce任务的个数
老菜啦
·
2020-08-02 14:05
Spark
SparkCore
-键值对RDD数据分区器
Spark目前支持Hash分区和Range分区,用户也可以自定义分区,Hash分区为当前的默认分区,Spark中分区器直接决定了RDD中分区的个数、RDD中每条数据经过Shuffle过程属于哪个分区和Reduce的个数注意:(1)只有Key-Value类型的RDD才有分区器的,非Key-Value类型的RDD分区器的值是None(2)每个RDD的分区ID范围:0~numPartitions-1,决
我是星星我会发光i
·
2020-08-02 14:01
Spark
第3章 键值对RDD数据分区器
上篇:第2章大数据
SparkCore
的RDD编程案例(下)一、键值对RDD数据分区器Spark目前支持Hash分区和Range分区,用户也可以自定义分区,Hash分区为当前的默认分区,Spark中分区器直接决定了
江湖侠客
·
2020-08-02 14:29
SparkCore
SparkCore
之RDD的转换Key-Value类型
partitionBy案例作用:对pairRDD进行分区操作,如果原有的partionRDD和现有的partionRDD是一致的话就不进行分区,否则会生成ShuffleRDD,即会产生shuffle过程。需求:创建一个4个分区的RDD,对其重新分区创建一个RDDscala>valrdd=sc.parallelize(Array((1,"aaa"),(2,"bbb"),(3,"ccc"),(4,"d
大数据小同学
·
2020-08-02 14:21
#
SparkCore
java
大数据
python
spark
hive
SparkCore
之转换算子:RDD概述属性介绍,RDD特点,RDD编程模型,RDD的创建与转换, transformation转换算子Value类型与双value类型交互,key-value类型算子
文章目录第1章RDD概述1.1什么是RDD1.2RDD的属性1.3RDD特点1.3.1分区1.3.2只读1.3.3依赖1.3.4缓存1.3.5CheckPoint第2章RDD编程2.1编程模型2.2RDD的创建2.2.1从集合中创建2.2.2由外部存储系统的数据集创建2.3RDD的转换(面试开发重点)2.3.1Value类型2.3.1.1map(func)案例2.3.1.2mapPartition
DougLeaMrConcurrency
·
2020-08-02 13:25
Spark生态体系
Spark 生态系统组件
本文选自《图解Spark:核心技术与案例实战》Spark生态系统以
SparkCore
为核心,能够读取传统文件(如文本文件)、HDFS、Amaz
congsi9417
·
2020-08-02 12:24
SparkCore
— BlockManager写数据,以及缓存淘汰机制
BlockManager写数据 上一篇博客,分析了BlockManager读取数据,主要分为本地拉取和远程拉取。现在我们分析一下写数据,主要是调用doPut()方法:doPut()privatedefdoPut(blockId:BlockId,data:BlockValues,level:StorageLevel,tellMaster:Boolean=true,effectiveStorageLe
xiaoxin_ysj
·
2020-08-01 08:38
Spark
Core原理与源码分析
上一页
4
5
6
7
8
9
10
11
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他