E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
sparkcore
Spark核心编程:创建RDD(集合、本地文件、HDFS文件)
然后在创建了初始的RDD之后,才可以通过
SparkCore
提供的transformation算子,对该RDD进行转换,来获取其他的RDD。
VectorYang
·
2020-07-13 01:17
spark
Spark Core基础RDD操作【map,flatMap,mapPartitions,flatMapToPair】20200302
SparkCore
基础RDD操作【map,flatMap,mapPartitions,flatMapToPair】org.apache.sparkspark-core_2.112.3.1importorg.apache.spark.SparkConf
Ginoy
·
2020-07-12 18:07
Spark
Java
SparkCore
和MapReduce运行效率比较/Spark运行较快原因
spark是借鉴了Mapreduce,并在其基础上发展起来的,继承了其分布式计算的优点并进行了改进,spark生态更为丰富,功能更为强大,性能更加适用范围广,mapreduce更简单,稳定性好。主要区别(1)spark把运算的中间数据(shuffle阶段产生的数据)存放在内存,迭代计算效率更高,mapreduce的中间结果需要落地,保存到磁盘(2)Spark容错性高,它通过弹性分布式数据集RDD来
l雷雷
·
2020-07-12 12:17
Spark SQL
SparkSQL1、介绍SparkSQL是构建在
Sparkcore
模块之上的四大模块之一,提供DataFrame等丰富API,可以采用传统的SQL语句进行数学计算。
林尧彬
·
2020-07-12 06:02
葵花宝典--spark入门+WordCount入门
支持迭代式计算和图计算,计算比MR快的原因,是因为他的中间结果不落盘,只有发生shuffer的时候才会进行落盘内置模块
sparkCore
:实现了Spark的基本功能,包含任务调度、内存管理、错误恢复、与存储系统交互等模块
张薄薄
·
2020-07-11 17:01
『 Spark 』10. spark 机器学习
其实我觉得spark有两个层次的概念:一个通用的分布式计算框架,
sparkcore
基于
sparkcore
设计,无缝实现的库,dataframe,sql,mllib,graphx,bagel,streaming
fengyuruhui123
·
2020-07-11 06:32
spark
spark
机器学习
分布式计算
框架
通过案例对SparkStreaming透彻理解三板斧之二
SparkStreaming运行时与其说是
SparkCore
上的一个流式处理框架,不如说是
SparkCore
上的一个最复杂的应用程序。
阳光男孩spark
·
2020-07-10 10:26
秦凯新技术社区-大数据实战系列滚动更新目录
本套商业实战系列一直会滚动更新,敬请期待1SPARK实战系列1.1
SparkCore
商业源码实战系列目录Spark商业环境实战-Spark内置框架rpc通讯机制及RpcEnv基础设施Spark商业环境实战
weixin_34162401
·
2020-07-10 08:21
源码:Spark SQL 分区特性第一弹
常见RDD分区
SparkCore
中的RDD的分区特性大家估计都很了解,这里说的分区特性是指从数据源读取数据的第一个RDD或者Dataset的分区,而后续再
大数据星球-浪尖
·
2020-07-10 01:48
大数据系列——Spark学习笔记Spark Streaming
1.SparkStreamingSparkStreaming是一个基于
SparkCore
之上的实时计算框架,可以从很多数据源消费数据并对数据进行处理SparkStreaing中有一个最基本的抽象叫DStream
EVAO
·
2020-07-09 22:44
大数据
Spark(二)--
SparkCore
扩展 (三) -- RDD 的 Shuffle 和分区
目录3.RDD的Shuffle和分区3.1RDD的分区操作查看分区数创建RDD时指定分区数3.2RDD的Shuffle是什么3.3RDD的Shuffle原理HashbaseshuffleSortbaseshuffle3.RDD的Shuffle和分区目标RDD的分区操作Shuffle的原理分区的作用RDD使用分区来分布式并行处理数据,并且要做到尽量少的在不同的Executor之间使用网络交换数据,所
HelloWorld闯天涯
·
2020-07-09 22:40
Spark
spark学习- 创建RDD-操作RDD
然后在创建了初始的RDD之后,才可以通过
SparkCore
提供的transformation算子,对该RDD进行转换,来获取其他的RDDSparkCore提供了三种创建RDD的方式,包括:使用程序中的集合创建
小葫芦105
·
2020-07-09 14:46
17-
SparkCore
04
collectcollectcountByKeycountByValuecollectAsMapgroupByKeyvsreduceByKeyvalrdd=sc.textFile("file:///home/hadoop/data/ruozeinput.txt").flatMap(_.split("\t")).map((_,1)).reduceByKey(_+_)rdd.collectvalrdd
CrUelAnGElPG
·
2020-07-09 10:55
Spark Streaming运行架构以及代码详解
运行架构sparkStreaming相对其他流处理系统最大的优势在于流处理引擎和数据处理在同一软件栈,其中SparkStreaming功能主要包括流处理引擎的流数据接收与存储以及批处理作业的生成与管理,而
SparkCore
张林强超级ok
·
2020-07-08 21:13
大数据
spark
计算框架
sparkCore
-RDD详解
2019独角兽企业重金招聘Python工程师标准>>>1.1什么是RDD1.1.1产生背景当初设计RDD主要是为了解决三个问题:Fast:Spark之前的Hadoop用的是MapReduce的编程模型,没有很好的利用分布式内存系统,中间结果都需要保存到externaldisk,运行效率很低。RDD模型是in-memorycomputing的,中间结果不需要被物化(materialized),它的p
weixin_34356138
·
2020-07-08 18:07
Spark-core(核心)的基本介绍
一、
SparkCore
提供Spark最基础与最核心的功能,主要包括以下功能:(1)SparkContext:通常而言,DriverApplication的执行与输出都是通过SparkContext来完成的
weixin_34258078
·
2020-07-08 17:44
SparkCore
-Overview-1
本系列文章源自JerryLead的SparkInternals,本文只是在作者的原文基础上加入自己的理解,批注,和部分源码,作为学习之用注:原文是基于Spark1.0.2,而本篇笔记是基于spark2.2.0,对比后发现核心部分变化不大,依旧值得参考概览拿到系统后,部署系统是第一件事,那么系统部署成功以后,各个节点都启动了哪些服务?部署图从部署图中可以看到整个集群分为Master节点和Worker
weixin_33919950
·
2020-07-08 16:01
Spark MLlib GraphX
Spark课堂笔记Spark生态圈:
SparkCore
:RDD(弹性分布式数据集)SparkSQLSparkStreamingSparkMLLib:协同过滤,ALS,逻辑回归等等-->机器学习SparkGraphx
Rki-dor
·
2020-07-08 13:07
Spark-Streaming进阶与Spark优化
Spark课堂笔记Spark生态圈:
SparkCore
:RDD(弹性分布式数据集)SparkSQLSparkStreamingSparkMLLib:协同过滤,ALS,逻辑回归等等-->机器学习SparkGraphx
335046781
·
2020-07-08 13:33
Spark学习总结
Sparkcore
、SparkSQL、SparkStreaming、SparkMLlib、SparkGraphx4.Spark的核心数据模型?
从一点一滴做起
·
2020-07-08 00:08
Spark
Spark系列(一) ——
SparkCore
详解
1.=》Spark引入首先看一下MapReudce计算和Spark计算的区别:MapReudce:分布式计算框架缺点:执行速度慢,shuffle机制:数据需要输出到磁盘,而且每次shuffle都需要进行排序操作框架的机制:只有map和reduce两个算子,对于比较复杂的任务,需要构建多个job来执行,当存在job依赖的时候,job之间的数据需要落盘(输出到HDFS上),所以有IO瓶颈(磁盘IO,网
豆沙糕
·
2020-07-08 00:32
大数据
Spark概念及使用简介
更快更容易使用除了Java之外,提供了Scala、Python、R的API;好用的库基于
SparkCore
提供了SparkSQL、SparkStreaming、MLib、Graph
漂泊的胡萝卜
·
2020-07-07 17:39
Spark Core 解析:RDD
引言
SparkCore
是Spark的核心部分,是SparkSQL,SparkStreaming,SparkMLlib等等其他模块的基础,
SparkCore
提供了开发分布式应用的脚手架,使得其他模块或应用的开发者不必关心复杂的分布式计算如何实现
liam08
·
2020-07-07 13:52
Scala
Spark
关于spark core 和spark streaming 的区别
目录1.
sparkcore
快速使用简单通用运行灵活多种运行模式访问多种数据源总结2.sparkstreaming原理,概念,特点整合kafaka1.sparkcoresparkcore是一个基于内存的,
大数据王一
·
2020-07-06 23:07
spark
Spark性能优化 -- > Joins (SQL and Core)
本博文将总结和讨论下
sparkcore
和sparksql中join的优化操作。
村头陶员外
·
2020-07-06 23:57
spark性能优化
Spark Core笔记
SparkCore
笔记Spark一、WhatisSparkApacheSparkisafastandgeneralengineforlarge-scaledataprocessing二、Spark框架优势数据结构
Lee_Yuanyuan
·
2020-07-06 22:32
笔记
大数据学习路线(完整详细版)
Mapreduce,yarn,hive,hbase,sqoop,zookeeper,flume)机器学习(R,mahout)Storm(Storm,kafka,redis)Spark(scala,spark,
sparkcore
xinyuan_java
·
2020-07-06 09:26
summary
1)Spark(概述、运行模式)
什么是Spark:Spark是一个基于内存的快速、通用、可扩展的大数据分析引擎;Spark内置模块:
SparkCore
:实现了Spark的基本功能,包含任务调度、内存管理、错误恢复、与存储系统交互等模块
大哥哥的勇气
·
2020-07-06 06:20
大数据之Spark
Spark精选面试题三(Spark core面试篇01-03)
SparkCore
面试篇011、Sparkmaster使用zookeeper进行HA的,有哪些元数据保存在Zookeeper?
俊杰梓
·
2020-07-06 01:34
Spark
面试题收集
Spark Streaming介绍以及简单使用
SparkStreamingisanextensionofthecoreSparkAPIthatenablesscalable,high-throughput,fault-tolerantstreamprocessingoflivedatastreams.SparkStreaming是
Sparkcore
蜗牛!Destiny
·
2020-07-05 18:34
Spark
spark DataFrame数据插入mysql性能优化(源码解析)
这里说的Spark包含
SparkCore
/SparkSQL/SparkStreaming,实际上都一样操作。以下展示的都是实际项目中的代码。
Therefore丶
·
2020-07-05 15:27
Spark
MySql
spark从入门到放弃三十四:Spark Sql(7) JDBC
www.haha174.top/article/details/2557791.简述SparkSql支持使用jdbc从关系型数据库读取数据(比如mysql),读取的数据依然用DataSet表示,很方便地使用
Sparkcore
意浅离殇
·
2020-07-04 12:10
Spark Core
操作步骤1.主要功能
SparkCore
提供S
bingoabin
·
2020-07-04 12:14
大数据
[spark streaming] DStream 和 DStreamGraph 解析
看sparkstreaming源码解析之前最好先了解
sparkcore
的内容。前言SparkStreaming是基于
SparkCore
将流式计算分解成一系列的小批处理任务来执行。
BIGUFO
·
2020-07-02 17:01
spark、hadoop大数据计算面试题汇总
hive内部表和外部表的区别Spark相关试题
SparkCore
面试篇01随着Spark技术在企业中应用越来越广泛,Spark成为大数据开发必须掌握的技能。希望能给大家带来帮助。Spar
灰二和杉菜
·
2020-07-02 15:58
Spark Streaming开发入门——WordCount(Java&Scala)
org.apache.sparkspark-streaming_2.101.6.03、Sparkstreaming基于
SparkCore
进行计算,需要注意事项:1.local模式的话,local后必须为大于等于
唐予之_
·
2020-07-02 10:29
大数据
-----Spark
-----Streaming
==通过案例对SparkStreaming透彻理解三板斧之二
通过案例对SparkStreaming透彻理解三板斧之二-http://www.jianshu.com/p/c59fa2ad7380DStream就是SparkStreaming的核心,就想
SparkCore
葡萄喃喃呓语
·
2020-07-02 00:08
2019年新年计划
,万物更新,以下是我的新年目标:一、主要:学习目标:在不准备的情况下能讲清楚每个组件的原理架构、优化方案(知道优劣才懂取舍),并操作熟练(hdfs、yarn、mapreduce、hbase、hive、
sparkcore
吾芯向Young
·
2020-07-01 06:29
规划类
Spark基本架构及运行原理
Spark软件栈
SparkCore
:包含Spark的基本功能,包含任务调度,内存管理,容错机制等,内部定义了RDDs(弹性分布式数据集),提供了很多APIs来创建和操作这些RDDs。
zxc123e
·
2020-06-30 20:51
Spark
Spark复习 Day01:
SparkCore
(一)
Spark复习Day011.Driver驱动器----------------------------------------------------执行开发程序的Main方法的进程-创建SparkContext、RDD、转换和行动-主要职责:1.将用户代码转化成job2.跟踪Executor的运行状况3.为执行器节点调度任务4.UI展示运行状况2.Executor执行器-------------
葛红富
·
2020-06-29 23:15
大数据
Spark
Spark复习 Day02:
SparkCore
(二)
Spark复习Day02:
SparkCore
1.RDD的依赖关系------------------------------------------------每个RDD都会将一系列的血统关系保存下来,
葛红富
·
2020-06-29 23:15
大数据
Spark
Spark Streaming 不同Batch任务可以并行计算么?
关于SparkStreaming中的任务有如下几个概念:BatchJobStageTask其实Stage,Task都是
SparkCore
里就有的概念,Job在Streaming和
SparkCore
里的概念则是不一致的
祝威廉
·
2020-06-29 22:07
Spark深入解析(十八):
SparkCore
之扩展之RDD相关概念关系
目录RDD相关概念关系RDD相关概念关系 输入可能以多个文件的形式存储在HDFS上,每个File都包含了很多块,称为Block。当Spark读取这些文件作为输入时,会根据具体数据格式对应的InputFormat进行解析,一般是将若干个Block合并成一个输入分片,称为InputSplit,注意InputSplit不能跨越文件。随后将为这些输入分片生成具体的Task。InputSplit与Task
老王的小知识
·
2020-06-29 22:36
【大数据】Spark
Spark深入解析(十六):
SparkCore
之数据读取与保存
目录文件类数据读取与保存Text文件Json文件Sequence文件对象文件文件系统类数据读取与保存HDFSMySQL数据库连接HBase数据库 Spark的数据读取及数据保存可以从两个维度来作区分:文件格式以及文件系统。文件格式分为:Text文件、Json文件、Csv文件、Sequence文件以及Object文件;文件系统分为:本地文件系统、HDFS、HBASE以及数据库。文件类数据读取与保存
老王的小知识
·
2020-06-29 22:36
【大数据】Spark
Spark深入解析(十七):
SparkCore
之RDD编程进阶
目录累加器系统累加器自定义累加器广播变量(调优策略)累加器 累加器用来对信息进行聚合,通常在向Spark传递函数时,比如使用map()函数或者用filter()传条件时,可以使用驱动器程序中定义的变量,但是集群中运行的每个任务都会得到这些变量的一份新的副本,更新这些副本的值也不会影响驱动器中的对应变量。如果我们想实现所有分片处理时更新共享变量的功能,那么累加器可以实现我们想要的效果。系统累加器
老王的小知识
·
2020-06-29 22:04
【大数据】Spark
Spark深入解析(八):
SparkCore
之RDD的转换-Value类型
目录map(func)案例mapPartitions(func)案例mapPartitionsWithIndex(func)案例flatMap(func)案例==map()和mapPartition()的区别==glom案例groupBy(func)案例filter(func)案例sample(withReplacement,fraction,seed)案例distinct([numTasks])
老王的小知识
·
2020-06-29 22:04
【大数据】Spark
Spark深入解析(九):
SparkCore
之RDD的转换-双Value类型
目录union(otherDataset)案例subtract(otherDataset)案例intersection(otherDataset)案例cartesian(otherDataset)案例zip(otherDataset)案例union(otherDataset)案例作用:对源RDD和参数RDD求并集后返回一个新的RDD需求:创建两个RDD,求并集(1)创建第一个RDDscala>va
老王的小知识
·
2020-06-29 22:04
【大数据】Spark
Spark实验之环境搭建
三、实验内容Spark架构
SparkCore
:包含Spark的基本功能;尤其是定义RDD的API、操作以及这两者上的动作。
敲代码去
·
2020-06-29 18:34
Spark
fastspark | 用
SparkCore
和SparkSQL两种方式实现各省份广告TopN统计
内容本文讲述使用
SparkCore
和SparkSQL实现每个省份点击量最多的前三个广告id,测试数据如下省份id广告id110011001100111211011112110211021103111211121101111221002121210121212104212121112104210321112121210431213112311231213100SparkCoreimportorg.a
pomelorange
·
2020-06-29 18:20
大数据
Spark
大数据技术之Spark基础解析
1.2Spark内置模块
SparkCore
:实现了Spark的基本功能,包含任务调度、内存管理、错误恢复、与存储系
博仔的春天
·
2020-06-29 11:17
大数据Spark学习
上一页
6
7
8
9
10
11
12
13
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他