E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
SparkCore
RDD Join 性能调优
SparkCore
和SparkSQL的基本类型都支持join操作。虽然join很常用而且功能很强大,但是
卓寿杰_SoulJoy
·
2020-09-15 23:20
Spark
SparkSQL与
SparkCore
出指标
scala:2.10.6pom.xml4.0.0job2JobNew1.0-SNAPSHOT-->org.apache-->spark-assembly-1.6.0-hadoop-2.6.0-->1.6.0-->-->log4jlog4j1.2.17mysqlmysql-connector-java5.1.31org.apache.sparkspark-graphx_2.101.6.0com.ty
weixin_30413739
·
2020-09-15 18:49
大数据
java
数据库
sparkcore
, sparksql, sparkstreaming,sparkmlib
MapReduce–>
sparkcore
(1)MR的shuffle过程中数据要频繁的落地
醉糊涂仙
·
2020-09-15 18:55
spark
spark-core 和spark-sql的区别
转自:http://www.cnblogs.com/zlslch/p/6685679.htmlSparkSQL构建在
SparkCore
之上,专门用来处理结构化数据(不仅仅是SQL)。
光圈1001
·
2020-09-15 16:39
spark
大数据
scala
Spark(1)——Spark的安装
一.Spark简介支持多种开发语言:Scala,Java,Python,R涉及的领域
SparkCore
数据的离线分析->MapReduceSparkStreaming数据在在线分析->(实时处理)StromSparkSQL
lime_
·
2020-09-15 14:04
大数据项目设计
5.大数据技术之
SparkCore
_第三到五章:键值对RDD数据分区/读取保存/RDD编程进阶
Spark目前支持Hash分区和Range分区,用户也可以自定义分区,Hash分区为当前的默认分区,Spark中分区器直接决定了RDD中分区的个数、RDD中每条数据经过Shuffle过程属于哪个分区和Reduce的个数注意:(1)只有Key-Value类型的RDD才有分区的,非Key-Value类型的RDD分区的值是None(2)每个RDD的分区ID范围:0~numPartitions-1,决定这
卡其色的夏日
·
2020-09-15 02:41
Spark
【Spark-Core】架构、部署、WC-Demo
SparkCore
一、什么是Spark?(官网:http://spark.apache.org)1、什么是Spark?*我的翻译:Spark是一个针对大规模数据处理的快速通用引擎。
双椒叔叔
·
2020-09-14 15:46
Spark
spark
hadoop
大数据
Spark代码练习——充值SparkSQL实现
数据文件为:“JsonTest02.json”用
SparkCore
或SparkSQL实现均可,需求如下:统计每个用户充值总金额并降序排序(10分)统计所有系统类型登录总次数并降序排序(10分)统计所有用户在各省登录的次数的
嘉平11
·
2020-09-14 02:55
Spark
Spark系列--
SparkCore
(一)RDD简介
前言RDD是Spark的基石,是实现Spark数据处理的核心抽象。那么RDD为什么会产生呢?Hadoop的MapReduce是一种基于数据集的工作模式,面向数据,这种工作模式一般是从存储上加载数据集,然后操作数据集,最后写入物理存储设备。数据更多面临的是一次性处理。MR的这种方式对数据领域两种常见的操作不是很高效。第一种是迭代式的算法。比如机器学习中ALS、凸优化梯度下降等。这些都需要基于数据集或
淡淡的倔强
·
2020-09-14 02:05
Spark
spark的四大核心组件
位于底层的是
SparkCore
,其实现了Spark的作业调度、内存管理、容错、与存储系统交互等基本功能,并针对弹性分布式数据集提供了丰富的操作。
Root-Brain
·
2020-09-14 02:12
Spark
大数据项目架构选型和集群规划
日志文件:页面数据、埋点数据数据采集sqoop、kettleflumeshell.数据存储:HDFS、Hive、HBASE数据清洗Mapreduce、hive、
sparkCore
数据处理(分析)Hive
leson-xu
·
2020-09-13 09:53
大数据
大数据项目架构
集群规划
spark系列二:
sparkcore
和sparksql综合案例
数据格式:日期用户搜索词城市平台版本需求:1、筛选出符合查询条件(城市、平台、版本)的数据2、统计出每天搜索uv排名前3的搜索词3、按照每天的top3搜索词的uv搜索总次数,倒序排序4、将数据保存到hive表中1、针对原始数据(HDFS文件),获取输入的RDD2、使用filter算子,去针对输入RDD中的数据,进行数据过滤,过滤出符合查询条件的数据。2.1普通的做法:直接在fitler算子函数中,
cjx42518041
·
2020-09-13 08:31
spark系列二:jdbc数据源实例
读取的数据,依然由DataFrame表示,可以很方便地使用
SparkCore
提供的各种算子进行处理。这里有一个经验之谈,实际上用SparkSQL处理JDBC中的数据是非常有用的。
cjx42518041
·
2020-09-13 08:31
Spark知识点总结导航
Spark知识点总结导航-Spark基础-----第一章spark概述-----第二章spark集群安装-
SparkCore
-----第一章SparkShell-----第二章执行spark程序----
落落free
·
2020-09-11 22:04
大数据阶段
--------Spark
--------Kafka
--------Flume
Spark Streaming——DStream Transformation操作
SparkStreaming——DStreamTransformation操作Spark的各个子框架都是基于
sparkcore
的,SparkStreaming在内部的处理机制是,接收实时流的数据,并根据一定的时间间隔拆分成一批数据
yanzhelee
·
2020-09-11 21:39
spark
Spark源码解读(6)——Shuffle过程
Shuffle应该说是
SparkCore
中较为复杂的部分,本文主要从一个最简单的WordCount例子出发分析Spark的Shuffle过程:1,概述sc.parallelize(1to1000).map
scalahome
·
2020-09-11 16:06
spark
Spark的WordCount到底产生了多少个RDD
Spark的WordCount到底产生了多少个RDD不少的同学在面试中会被问到:这样的一句标准的
sparkcore
的wordcount的代码到底能要产生几个RDD呢。
中琦2513
·
2020-09-11 12:45
大数据
Spark
Intellij idea配置Spark开发环境,统计哈姆雷特词频(2)
idea新建maven项目输入maven坐标maven坐标编辑maven文件Spark体系中间层Spark,即核心模块
SparkCore
,必须在maven中引用。
weixin_33743248
·
2020-09-11 10:20
在 IntelliJ IDEA 中配置 Spark(Java API) 运行环境
1.新建Maven项目初始Maven项目完成后,初始的配置(pom.xml)如下:2.配置Maven向项目里新建
SparkCore
库4.0.0net.libaoquanTestSpark1.0-SNAPSHOTorg.apache.sparkspark-core
weixin_30508309
·
2020-09-11 10:47
SparkCore
-RDD编程
一、编程模型在Spark中,RDD被表示为对象,通过对象上的方法调用来对RDD进行转换。经过一系列的transformations定义RDD之后,就可以调用actions触发RDD的计算,action可以是向应用程序返回结果(count,collect等),或者是向存储系统保存数据(saveAsTextFile等)。在Spark中,只有遇到action,才会执行RDD的计算(即延迟计算),这样在运
我是星星我会发光i
·
2020-09-11 05:21
Spark
Zeppelin组件配置和使用:连接Spark
Spark的核心分析栈包括
SparkCore
、SparkSQL、SparkStreaming、MLlib、GraphX等,面向批处理、流处理、图计算、机器学习等场景,实现了生态融合统一,基于相同的数据结构
机器熊技术大杂烩
·
2020-09-10 15:14
Zeppelin
Spark
Apache
第1章 初探大数据
主站最受欢迎的TopN课程大数据的到来任职要求.熟悉Linux操作系统,熟悉Linuxshell编程.熟悉Java或者scala语言,具有一年以上实际开发经验.熟悉sparksql或sparkstreaming或
sparkcore
weixin_SAG
·
2020-08-26 09:10
Spark
SQL
大数据
Spark基础
Spark的组件
SparkCore
包括Spark的基本功能,包含任务调度,内存管理,容错机制。内部定义了RDDs(弹性分布式数据集)。提供了很多APIs来创建和操作这些RDDs。
班得瑞的猫
·
2020-08-25 17:11
spark
性能优化
sparkcore
部分一:Spark性能优化核心基石1,Spark是采用Master-slaves的模式进行资源管理和任务执行的管理:a)资源管理:Master-Workers,在一台机器上可以有多个Workers
漠小浅
·
2020-08-24 16:19
SparkCore
(2):Spark源码导入IDEA(blog很经典)
参考blog:https://www.cnblogs.com/zlslch/p/5881893.html
RayBreslin
·
2020-08-24 16:08
Spark
大数据开发
常用网址
SparkCore
IDEA开发Spark应用程序
Spark应用程序运行词频统计案例迭代之输出结果到HDFS词频统计案例迭代之处理多个输入文件词频统计案例迭代之输入文件规则匹配带排序的词频统计案例开发及运行过程深度剖析求用户访问量的TopN的Hive实现以及
SparkCore
liweihope
·
2020-08-24 01:30
SparkCore
之运行架构
参考官网:http://spark.apache.org/docs/latest/cluster-overview.htmlClusterModeOverview集群模式概述ThisdocumentgivesashortoverviewofhowSparkrunsonclusters,tomakeiteasiertounderstandthecomponentsinvolved.Readthrou
liweihope
·
2020-08-24 01:30
SparkCore
运行架构
理解Spark的运行机制
iteye.com/upload/attachment/0127/9048/acc4fb45-3278-3491-bf21-2be4bd608d2a.png[/img]spark的核心主要由3个模块组成:(1)
sparkcore
三劫散仙
·
2020-08-23 19:21
spark
解析SparkStreaming和Kafka集成的两种方式
sparkstreaming是基于微批处理的流式计算引擎,通常是利用
sparkcore
或者
sparkcore
与sparksql一起来处理数据。
菲橙
·
2020-08-23 03:32
SparkSQL编程之用户自定义函数
IDEA创建SparkSQL程序IDEA中程序的打包和运行方式都和
SparkCore
类似,Maven依赖中需要添加新的依赖项org.apache.sparkspark-sql_2.112.1.1程序如下
大数据小同学
·
2020-08-23 03:49
#
SparkSql
Spark系列--
SparkCore
(七)广播变量和累加器
一、广播变量通常情况下,当一个RDD的很多操作都需要使用driver中定义的变量时,每次操作,driver都要把变量发送给worker节点一次,如果这个变量中的数据很大的话,会产生很高的传输负载,导致执行效率降低。使用广播变量可以使程序高效地将一个很大的只读数据发送给多个worker节点,而且对每个worker节点只需要传输一次,每次操作时executor可以直接获取本地保存的数据副本,不需要多次
淡淡的倔强
·
2020-08-22 18:28
Spark
Sort-based Shuffle的设计与实现
原文http://www.cnblogs.com/hseagle/p/3979744.html[size=large][b]概要[/b][/size][size=medium]Spark1.1中对
sparkcore
snwz5588668
·
2020-08-22 18:21
spark
hadoop
Hadoop
spark
spark(四)checkpoint源码阅读
对于
SparkCore
则适合那些计算链条超级长或者计算耗时的关键点进行Checkpoint,便于故障恢复。
文子轩
·
2020-08-22 18:55
spark中的闭包与广播变量
Spark任务调度图(以
SparkCore
为例)1.DAG的应用Spark的Job(Application),从宏观上来看处理过程大致如下:加载数据,获取RDD(或DF等)转换数据执行转换,获取结果并处理整个计算过程是从上往下的
jntcf
·
2020-08-22 17:45
大数据技术-spark
关于spark job并行的问题
理论上,我们写
sparkcore
都不会用到多线程,那个代码的执行确实是一条线下去,当遇到action算子时会被阻塞,开始解析并执行这个spark任务,当任务执行完才会继续往下走。
小小酥_LH
·
2020-08-22 15:28
Spark中shuffle性能调优1
通过上面的架构和源码实现的分析,不难得出Shuffle是
SparkCore
比较复杂的模块的结论。它也是非常影响性能的操作之一。因此,在这里整理了会影响Shuffle性能的各项配置。
liuzx32
·
2020-08-22 15:15
SparkSQL 全面深度解析
前言博主最开始使用Spark时喜欢使用
SparkCore
的RDD相关算子进行计算,后来发现SparkSQL比RDD算子好用多了,并且Spark开发者很重视SparkSQL模块功能的更新(在Spark3.0
w1016765655
·
2020-08-22 14:53
解决使用java编写spark代码maven打包报错问题
:Error:(20,46)java:无法访问scala.Cloneable原因是在pom.xml文件中添加了如下依赖:org.scala-langscala-library2.13.1该jar包会与
sparkcore
古痴今狂
·
2020-08-22 13:49
基于 spark ml NaiveBayes实现中文文本分类
spark版本用的是2.2(spark2.0和1.6对sparkml影响挺大的,1.6的ml中的LabeledPoint可以转化为sparkmllib的,2.0以后就不能进行转化)代码的实现过程:1首先用
sparkcore
记录每一份笔记
·
2020-08-22 09:56
大数据干货系列(十一)--Spark Streaming总结
预计阅读时长六分钟Spark-Streaming总结一、本质SparkStreaming是Spark核心API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理二、SparkStreaming和
SparkCore
2.1
Shaun_Xi
·
2020-08-21 22:02
Hadoop系统架构
SparkSql使用入门
SparkSQL的特点:1、和
SparkCore
的无缝集成,可以在写整个RDD应用的时候,配置SparkSQL来完成逻辑实现。2、统一的数据访问方式,SparkSQL提供标准化的SQL查询。
青蛙小王子
·
2020-08-21 13:14
hadoop
spark
Spark Streaming学习笔记
它的底层,其实,也是基于
SparkCore
的。基本的计算模型,还是基于内存的大数据实时计算模型。而且,它的底层的组件或者叫做概念,其实还是最核心的RDD。针对实时计算的特点,在RDD之上,
堡垒-93
·
2020-08-21 04:07
Spark学习
SparkStreaming DStream
DStream就是离散流,它代表了一个持续不断的数据流,DStream的内部,其实是一系列不断产生的RDD,RDD是
SparkCore
的核心抽象,DStream中的每个RDD都包含了一个时间段内的数据对
mn_kw
·
2020-08-21 04:25
spark
Spark Streaming入门
SparkStreaming入门1.概述SparkStreamingisanextensionofthecoreSparkAPIthatenablesscalable(SparkStreaming是基于
SparkCore
le3t
·
2020-08-21 04:40
4.流式计算 - spark direct方式计算手动控制kafka偏移度[spark straming2.1 + kafka0.10.2.0]
流式计算,sparkstreaming之前有
sparkcore
开发的积累,直接使用sparkstreaming来进行流式计算开发是比较节省开发成本的。
feloxx
·
2020-08-21 03:00
spark
streaming
Maven设置指定jar包依赖版本信息
我们在配置
Sparkcore
的maven依赖的时候jackson-module-scala_2.11的版本冲突,解决办法如下:org.apache.sparkspark-core_2.112.3.1com.fasterxml.jackson.modulejackson-module-scala
hello_heheha
·
2020-08-20 23:34
Spark
Maven
大数据
大数据系列——Spark学习笔记Spark Streaming
1.SparkStreamingSparkStreaming是一个基于
SparkCore
之上的实时计算框架,可以从很多数据源消费数据并对数据进行处理SparkStreaing中有一个最基本的抽象叫DStream
EVAO_大个子
·
2020-08-20 21:30
spark-streaming
大数据系列——Spark学习笔记Spark Streaming
1.SparkStreamingSparkStreaming是一个基于
SparkCore
之上的实时计算框架,可以从很多数据源消费数据并对数据进行处理SparkStreaing中有一个最基本的抽象叫DStream
EVAO_大个子
·
2020-08-20 21:30
spark-streaming
第四篇|Spark Streaming编程指南(1)
SparkStreaming是构建在
SparkCore
基础之上的流处理框架,是Spark非常重要的组成部分。
西贝木土
·
2020-08-20 17:29
spark
第四篇|Spark Streaming编程指南(1)
SparkStreaming是构建在
SparkCore
基础之上的流处理框架,是Spark非常重要的组成部分。
西贝木土
·
2020-08-20 17:29
spark
上一页
2
3
4
5
6
7
8
9
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他