E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
---SparkCore
windows本地sparkstreaming开发环境搭建及简单实例
IntelliJIDEACommunityEdition2017.1.1(相比eclipse更方便,不用装那么多插件,且提供免费版,官网直接下载安装就可以)2:环境配置:(开发语言scala)由于公司网络原因,下载不方便,没有用mavn,直接拖了本地的jar包(1)
sparkcore
TracyGao01
·
2020-08-10 01:29
spark
scala
Spark学习(二)SparkStreaming的官方文档
1、
SparkCore
、SparkSQL和SparkStreaming的类似之处2、SparkStreaming的运行流程2.1图解说明2.2文字解说1、我们在集群中的其中一台机器上提交我们的ApplicationJar
匿名啊啊啊
·
2020-08-10 00:10
SparkStreaming
spark core、spark sql、spark streaming 联系与区别
sparkcore
是做离线批处理sparksql是做sql高级查询sparkshell是做交互式查询sparkstreaming是做流式处理区别:
SparkCore
:Spark的基础,底层的最小数据单位是
lipviolet
·
2020-08-09 22:33
Spark系列
spark checkpoint机制简述
###1、
Sparkcore
的checkpoint####1)为什么checkpoint?
xwc35047
·
2020-08-09 16:10
spark经验总结
spark-streaming
spark checkpoint详解
checkpoint在spark中主要有两块应用:一块是在
sparkcore
中对RDD做checkpoint,可以切断做checkpointRDD的依赖关系,将RDD数据保存到可靠存储(如HDFS)以便数据恢复
weixin_30802171
·
2020-08-09 13:37
Spark-RDD高级算子
Spark课堂笔记Spark生态圈:
SparkCore
:RDD(弹性分布式数据集)SparkSQLSparkStreamingSparkMLLib:协同过滤,ALS,逻辑回归等等-->机器学习SparkGraphx
weixin_30257433
·
2020-08-09 13:47
第四篇|Spark Streaming编程指南(1)
SparkStreaming是构建在
SparkCore
基础之上的流处理框架,是Spark非常重要的组成部分。
西贝木土
·
2020-08-09 13:20
spark
第三篇|Spark SQL编程指南
在《第二篇|
SparkCore
编程指南》一文中,对Spark的核心模块进行了讲解。
西贝木土
·
2020-08-09 13:20
spark
第二篇|Spark core编程指南
本文将深入探究Spark的核心组件--
Sparkcore
,
SparkCore
是Spark平台的基础通用执行引擎,所有其他功能均建立在该引擎之上。
西贝木土
·
2020-08-09 13:49
spark
sparkCore
之sparkRDD常用算子
前言:sparkRDD的操作,从宏观上分为:Transformation和Action,但是具体的还以分为:输入算子、变换算子、缓存算子,以及行动算子。官网地址:https://spark.apache.org/docs/latest/rdd-programming-guide.html#resilient-distributed-datasets-rdds一、Transformation先来官网
moshang_3377
·
2020-08-09 09:39
spark
关于Dstream的转化操作的详细解释
众所周知,在
SparkCore
中,RDD支持Transform和Action两种类型的算子操作,同样的,作为代表了一系列连续RDD序列的DStream,同样也有相应的操作,如下图所示:在此,我着重讲一下
七月流火_2567
·
2020-08-09 04:48
spark
基础知识
Spark学习-Streaming
SparkStreamingSparkStreaming对比StormSparkStreaming处理逻辑对比
SparkCore
/SparkSQLCodeSparkStreaming流式处理框架,7*24h
wendaocp
·
2020-08-09 02:22
AI
/
BigData
/
Cloud
Spark经典面试题
SparkCore
:spark的核心计算主要RddSparkSQL:提供了类sql方式操作结构化半结构化数据。对历史数据进行交互式查询。(即席查询:
Aying_seeya
·
2020-08-08 10:15
Spark
1. 大数据实时计算介绍
它的底层,其实,也是基于我们之前讲解的
SparkCore
的。基本的计算模型,还是基于内存的大数据实时计算模型。而且,它的底层的组件或者叫做概念,其实还是最核心的RDD。
十点进修
·
2020-08-06 11:45
spark
spark_streaming
SparkSQL快速入门系列(6)
上一篇《
SparkCore
快速入门系列(5)》,下面给大家更新一篇SparkSQL入门级的讲解。
KO哥
·
2020-08-06 10:27
Spark
大数据
spark
游戏行业最全大数据知识点分析和企业级架构设计分享
数据分析流程以及分析指标1.1数据来源1.2数据收集和落地1.3离线分析1.4实时数据分析1.5用户肖像2相关知识2.1离线数据统计技能相关要求2.1.1Hadoop2.1.2Hive2.1.3HBase2.1.4
SparkCore
2.1.5SparkSQL2.2
开封程序员阿强
·
2020-08-06 09:27
大数据系列学习笔记
Spark Core 资源调度与任务调度(standalone client 流程描述)
SparkCore
资源调度与任务调度(standaloneclient流程描述)Spark集群启动:集群启动后,Worker会向Master汇报资源情况(实际上将Worker的资源写入到Master的HashSet
weixin_30741653
·
2020-08-05 20:31
Spark SQL与DataFrame详解以及使用
与
SparkCore
中类似的,SparkSQL中最核心的部分是DataFrame抽象模型,本篇文章主要介绍SparkSQL的核心内容以及其简单使用。
不清不慎
·
2020-08-05 19:01
Spark
大数据
Spark学习总结——
SparkCore
、任务执行原理、算子
Spark初始什么是SparkApacheSparkApacheSpark是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UCBerkeleyAMPlab(加州大学伯克利分校的AMP实验室)所开源的类HadoopMapReduce的通用并行计算框架,Spark拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读
System_FFF
·
2020-08-05 19:04
大数据进阶之路
spark
大数据
sparkcore
任务调度
RDD算子
SparkCore
之电商用户行为数据分析项目实战
SparkCore
之电商用户行为数据分析项目实战1.数据准备1)数据集2)数据格式说明3)数据详细字段说明2.需求一:Top10热门品类1)需求说明2)需求分析3)代码实现3.需求二:Top10热门品类中每个品类的
布莱恩特888
·
2020-08-04 17:06
Spark
SparkCore
项目实战|Top10热门品类|Top10热门品类中每个品类的Top10活跃Session统计|页面单跳转化率统计
数据分析本项目的数据是采集电商网站的用户行为数据,主要包含用户的4种行为:搜索、点击、下单和支付。(1)数据采用_分割字段(2)每一行表示用户的一个行为,所以每一行只能是四种行为中的一种。(3)如果搜索关键字是null,表示这次不是搜索(4)如果点击的品类id和产品id是-1表示这次不是点击(5)下单行为来说一次可以下单多个产品,所以品类id和产品id都是多个,id之间使用逗号,分割。如果本次不是
SmallScorpion
·
2020-08-04 17:41
零
Spark技术栈有哪些组件,每个组件都有什么功能,适合什么应用场景?
1)
Sparkcore
:是其它组件的基础,spark的内核,主要包含:有向循环图、RDD、Lingage、Cache、broadcast等,并封装了底层通讯框架,是Spark的基础。
有风微冷
·
2020-08-03 22:27
spark
spark-2.0-从RDD到DataSet
spark未来基本是要在DataSet上扩展了,因为spark基于
sparkcore
关注的东西很多,整合内部代码是必然的。1、加载文件valrdd=sparkContext.textFile(".
07H_JH
·
2020-08-03 09:57
大数据框架
Catalyst揭秘 Day6 Physical plan解析
Catalyst揭秘Day6Physicalplan解析物理计划是Spark和Sparksql相对比而言的,因为SparkSql是在
Sparkcore
上的一个抽象,物理化就是变成RDD,是SparkSql
weixin_33908217
·
2020-08-03 06:50
Spark Streaming简介
参考:SparkStreaming介绍SparkStreaming介绍SparkStreaming官方文档SparkStreaming简介SparkStreaming是一个基于
SparkCore
之上的实时计算框架
风情客家__
·
2020-08-03 01:33
spark
streaming
Spark深入解析(十):
SparkCore
之RDD的转换之Key-Value类型
目录partitionBy案例groupByKey案例reduceByKey(func,[numTasks])案例==reduceByKey和groupByKey的区别==aggregateByKey案例foldByKey案例combineByKey[C]案例sortByKey([ascending],[numTasks])案例mapValues案例join(otherDataset,[numTa
老王的小知识
·
2020-08-02 14:17
【大数据】Spark
SparkCore
之RDD编程(RDD的转换之Key-Value类型常用)
(1)partitionBy对pairRDD进行分区操作,如果原有的partionRDD和现有的partionRDD是一致的话就不进行分区,否则会生成ShuffleRDD,即会产生shuffle过程。(2)reduceByKey(func,[numTasks])在一个(K,V)的RDD上调用,返回一个(K,V)的RDD,使用指定的reduce函数,将相同key的值聚合到一起,reduce任务的个数
老菜啦
·
2020-08-02 14:05
Spark
SparkCore
-键值对RDD数据分区器
Spark目前支持Hash分区和Range分区,用户也可以自定义分区,Hash分区为当前的默认分区,Spark中分区器直接决定了RDD中分区的个数、RDD中每条数据经过Shuffle过程属于哪个分区和Reduce的个数注意:(1)只有Key-Value类型的RDD才有分区器的,非Key-Value类型的RDD分区器的值是None(2)每个RDD的分区ID范围:0~numPartitions-1,决
我是星星我会发光i
·
2020-08-02 14:01
Spark
第3章 键值对RDD数据分区器
上篇:第2章大数据
SparkCore
的RDD编程案例(下)一、键值对RDD数据分区器Spark目前支持Hash分区和Range分区,用户也可以自定义分区,Hash分区为当前的默认分区,Spark中分区器直接决定了
江湖侠客
·
2020-08-02 14:29
SparkCore
SparkCore
之RDD的转换Key-Value类型
partitionBy案例作用:对pairRDD进行分区操作,如果原有的partionRDD和现有的partionRDD是一致的话就不进行分区,否则会生成ShuffleRDD,即会产生shuffle过程。需求:创建一个4个分区的RDD,对其重新分区创建一个RDDscala>valrdd=sc.parallelize(Array((1,"aaa"),(2,"bbb"),(3,"ccc"),(4,"d
大数据小同学
·
2020-08-02 14:21
#
SparkCore
java
大数据
python
spark
hive
SparkCore
之转换算子:RDD概述属性介绍,RDD特点,RDD编程模型,RDD的创建与转换, transformation转换算子Value类型与双value类型交互,key-value类型算子
文章目录第1章RDD概述1.1什么是RDD1.2RDD的属性1.3RDD特点1.3.1分区1.3.2只读1.3.3依赖1.3.4缓存1.3.5CheckPoint第2章RDD编程2.1编程模型2.2RDD的创建2.2.1从集合中创建2.2.2由外部存储系统的数据集创建2.3RDD的转换(面试开发重点)2.3.1Value类型2.3.1.1map(func)案例2.3.1.2mapPartition
DougLeaMrConcurrency
·
2020-08-02 13:25
Spark生态体系
Spark 生态系统组件
本文选自《图解Spark:核心技术与案例实战》Spark生态系统以
SparkCore
为核心,能够读取传统文件(如文本文件)、HDFS、Amaz
congsi9417
·
2020-08-02 12:24
SparkCore
— BlockManager写数据,以及缓存淘汰机制
BlockManager写数据 上一篇博客,分析了BlockManager读取数据,主要分为本地拉取和远程拉取。现在我们分析一下写数据,主要是调用doPut()方法:doPut()privatedefdoPut(blockId:BlockId,data:BlockValues,level:StorageLevel,tellMaster:Boolean=true,effectiveStorageLe
xiaoxin_ysj
·
2020-08-01 08:38
Spark
Core原理与源码分析
scala的面向对象,继承与特质
---------------------------------------------------------------------------------------1、scala编程语言2、
SparkCore
weixin_30682415
·
2020-08-01 03:39
scala的面向对象,类与构造器
---------------------------------------------------------------------------------------1、scala编程语言2、
SparkCore
track sun
·
2020-08-01 03:04
Spark Core源码精读计划7 | Spark执行环境的初始化
推荐阅读《Spark源码精度计划|SparkConf》《
SparkCore
源码精读计划|SparkContext组件初始化》《
SparkCore
源码精读计划3|SparkContext辅助属性及后初始化
大数据技术与架构
·
2020-08-01 02:42
Spark系列--
SparkCore
(五)RDD容错性之cache、persist、checkpoint
一、RDD容错性理解RDD的容错性:RDD可以通过血统机制来进行RDD的恢复。在RDD进行转换和动作的时候,会形成RDD的Lineage依赖链,当某一个RDD失效的时候,可以通过重新计算上游的RDD来重新生成丢失的RDD数据。但是在spark计算里面,假如计算流程DAG特别长,服务器需要将整个DAG计算完成得出结果,但是如果在这很长的计算流程中突然中间算出的数据丢失了,spark又会根据RDD的依
淡淡的倔强
·
2020-08-01 02:12
Spark
38
Sparkcore
中的BlockManager
主要内容:1.BlockManager运行实例2.BlockManager原理流程图37中的回顾:首先讲解了Task内部具体执行的流程;然后介绍了Driver是如何对Executor处理后的Task执行的结果进行进一步的处理的。从上一讲的内容可以看出在Shuffle过程中要读写数据(即上一个Stage的数据)时需要BlockManager的参与,因此为了了解Spark中程序的运行,掌握BlockM
sinat_25306771
·
2020-08-01 00:42
大数据
Spark Core源码精读计划17 | 上下文清理器ContextCleaner
顾名思义,它扮演着
SparkCore
中垃圾收集器的角色,因此虽然我们在平时编码时甚少见到它,但它算是
run_bigdata
·
2020-07-31 23:47
SparkCore
>RDD的持久化/缓存
文章目录引入持久化/缓存API详解代码演示总结引入在实际开发中某些RDD的计算或转换可能会比较耗费时间,如果这些RDD后续还会频繁的被使用到,那么可以将这些RDD进行持久化/缓存,这样下次再使用到的时候就不用再重新计算了,提高了程序运行的效率持久化/缓存API详解persist方法和cache方法RDD通过persist或cache方法可以将前面的计算结果缓存,但是并不是这两个方法被调用时立即缓存
千千匿迹
·
2020-07-31 23:33
SparkCore
SparkCore
SparkCore
之行动算子:Action算子与案例,RDD中的函数传递,方法与属性的传递,RDD依赖关系,Lineage,宽依赖与窄依赖,DAG,任务的划分,RDD缓存,RDD CheckPoint
接上篇文章第2章2.3.4:
SparkCore
之转换算子:RDD概述属性介绍,RDD特点,RDD编程模型,RDD的创建与转换,transformation转换算子Value类型与双value类型交互,key-value
DougLeaMrConcurrency
·
2020-07-31 23:19
Spark生态体系
SparkStreaming的介绍及处理数据流程
介绍:流式数据处理(streamprocessing)要处理的数据就像流水一样,源源不断的产生数据,需要实时进行处理对
SparkCore
的高级API的封装,将流式的数据切分为小的批次batch(按照时间间隔
乔尼娜沙德星
·
2020-07-31 22:13
spark
Spark core 记录-persist原数据操作
Sparkcore
记录-persist原数据操作1、在同一个rdd上,做不同转换的操作时,并不会改变这个rdd上的值,也不会影响其他rdd上使用原数据的结果测试结果:2、`但是`如果有persist或caches
T-Janey
·
2020-07-31 15:19
spark
【
SparkCore
】RDD的持久化与缓存(HDFS与内存磁盘)
目录内存或磁盘介绍持久化/缓存API详解代码存储级别总结HDFS介绍代码总结内存或磁盘介绍在实际开发中某些RDD的计算或转换可能会比较耗费时间,如果这些RDD后续还会频繁的被使用到,那么可以将这些RDD进行持久化/缓存,这样下次再使用到的时候就不用再重新计算了,提高了程序运行的效率持久化/缓存API详解persist方法和cache方法RDD通过persist或cache方法可以将前面的计算结果缓
没去过埃及的法老
·
2020-07-31 12:09
Sprak
SparkCore
之RDD依赖关系_RDD缓存_RDD CheckPoint
一RDD依赖关系1LineageRDD只支持粗粒度转换,即在大量记录上执行的单个操作。将创建RDD的一系列Lineage(血统)记录下来,以便恢复丢失的分区。RDD的Lineage会记录RDD的元数据信息和转换行为,当该RDD的部分分区数据丢失时,它可以根据这些信息来重新运算和恢复丢失的数据分区。(1)读取一个HDFS文件并将其中内容映射成一个个元组scala>valwordAndOne=sc.t
不稳定记忆
·
2020-07-31 11:50
Spark
SparkCore
快速入门系列(5)
铁铁们,博主前段时间在做一些项目加上找工作所以到现在才更新,(__)嘻嘻……博主现在已经工作啦,后期会给你们更新一些关于数据库以及报表开发的文章哦!接下来言归正传!!!!!!文章目录第一章RDD详解1.1什么是RDD1.1.1为什么要有RDD?1.1.2RDD是什么?1.2.RDD的主要属性第二章RDD-API2.1.创建RDD2.2.RDD的方法/算子分类2.2.1分类2.2.2Transfor
KO哥
·
2020-07-31 11:58
Spark
spark
大数据
Spark Streaming + Kafka + Flume + HBase
SparkStreaming模块是对于
SparkCore
的一个扩展,目的是为了以高吞吐量,并且容错的方式处理持续性的数据流。
liaohao05
·
2020-07-30 15:20
SparkCore
:RDD的持久化/缓存
持久化/缓存RDD的持久化/缓存持久化/缓存API详解代码演示总结RDD的持久化/缓存引入:在实际开发中某些RDD的计算或转换可能会比较耗费时间,如果这些RDD后续还会频繁的被使用到,那么可以将这些RDD进行持久化/缓存,这样下次再使用到的时候就不用再重新计算了,提高了程序运行的效率持久化/缓存API详解Persist方法和Cache方法RDD通过persist或cache方法可以将前面的计算结果
真情流露哦呦
·
2020-07-30 12:35
SparkCore
Spark Core源码精读计划20 | RDD检查点的具体实现
RDDCheckpointDataReliableRDDCheckpointData检查点RDDCheckpointRDDReliableCheckpointRDD总结前言RDD检查点(Checkpoint)是
SparkCore
run_bigdata
·
2020-07-30 12:00
sparkCore
之sparkRDD Persistence(sparkRDD持久化操作)
一、什么是持久化操作持久化操作就是以某种方式将一些数据或结果存储起来二、spark中为什么要有rdd的持久化的操作主要原因在于,如果我们相对一个RDD进行复用操作的时候,基于RDD的特性,当以rdd通过transformation转化为另外一个rdd的时候,前面的rdd就会被自动释放,此时还想在原来的rdd身上进行其它操作,需要从源头进行数据计算,这样效率自然会降低。为了能够在rdd重用的时候,直
moshang_3377
·
2020-07-30 12:30
spark
上一页
4
5
6
7
8
9
10
11
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他