E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
sparkrdd
Spark 的Core深入(二)
Spark的Core深入(二)标签(空格分隔):Spark的部分一:日志清洗的优化二:
SparkRDD
三:SparkContext三大功能四:SparkonYARN五:
sparkRDD
的依赖一、日志清洗的优化
flyfish225
·
2018-05-08 11:05
hadoop
spark
SPARK
大数据技术
Spark笔记整理(五):Spark RDD持久化、广播变量和累加器
[TOC]
SparkRDD
持久化RDD持久化工作原理Spark非常重要的一个功能特性就是可以将RDD持久化在内存中。
xpleaf
·
2018-04-27 18:45
大数据
Spark
Spark
Spark笔记整理(二):RDD与spark核心概念名词
[TOC]
SparkRDD
非常基本的说明,下面一张图就能够有基本的理解:
SparkRDD
基本说明1、Spark的核心概念是RDD(resilientdistributeddataset,弹性分布式数据集
xpleaf
·
2018-04-25 16:35
大数据
Spark
Spark
Hadoop(四)—— Saprk笔记
sparkcore-->
sparkrdd
,spark核心编程,MapReducesparksql-->hivesparkstreaming-->storm,流式实时计算sparkmllib-->机器学习
Yatpif
·
2018-04-16 08:34
Hadoop
Spark SQL入门
hive的执行引擎,只需要在hive中修改一个参数即可:#sethive.execution.engine=spark2、SparkSQLa.概述:SparkSQL是Spark处理数据的一个模块,跟基本的
SparkRDD
Mr_249
·
2018-03-31 20:50
RDD持久化(缓存)
SparkRDD
是惰性求值的,而有时我们希望能多次使用同一个RDD。如果简单地对RDD调用行动操作,Spark每次都会重算RDD以及它的所有依赖。
SunnyRivers
·
2018-03-31 20:09
Spark
大数据常见面试题目
每天在在技术群里沉水,搜刮些面试题目,留作备用~1.简述对大数据组件:Yarn,Spark,Hbase,Hive的理解2.hdf文件系统中Namenode和DataNode区别和联系3.请描述
SparkRDD
cui264
·
2018-02-22 22:35
大数据学习
ERROR Executor: Exception in task 0.0 in stage 91.0
遇到下面这种Executor报错的情况,多半是
sparkRDD
或者DataFrame定义的时候出了问题,因为sparkSql程序执行的机制是:transformation端不是真正的执行,只有action
gamedevv
·
2018-02-14 11:41
【大数据】➣
Spark
Spark程序开发规范
在编写
SparkRDD
程序时,经常要将本地开发好的代码,在本地测试完后,要打包成jar,并发布到集群上去跑一跑。
gamedevv
·
2018-01-29 15:44
【大数据】➣
Spark
【Windows中Spark环境搭建 | 基于Maven依赖库】在windows中对spark程序进行local调试学习
写在开头本博客的目标是可以在不开启spark集群|Linux虚拟机的情况下,对
SparkRDD
程序的完美运行,旨在解放初学者应无Linux集群环境、无内存容量支撑的情况下运行spark程序,写这篇的灵感来源于自己在学习
gamedevv
·
2018-01-22 23:17
【大数据】➣
Spark
配置和启动Spark | local模式以及standalone模式
SparkLocal模式直接在$SPARK_HOME/bin/spark-shell中运行
sparkRDD
程序,在UI界面http://nodename:4040/中可以看到jobs的执行情况[elon
gamedevv
·
2018-01-21 10:59
【大数据】➣
Spark
配置和启动Spark | local模式以及standalone模式
SparkLocal模式直接在$SPARK_HOME/bin/spark-shell中运行
sparkRDD
程序,在UI界面http://nodename:4040/中可以看到jobs的执行情况[elon
gamedevv
·
2018-01-21 10:59
【大数据】➣
Spark
圳鹏大数据:spark Rdd的默认分区
sparkRdd
的默认分区有两大因素决定:1.spark.default.parallelism2.文件块的大小spark.default.parallelism:(默认的并发数)本地模式下spark.default.parallelism
meijie770342
·
2018-01-11 14:28
Spark2.2任务提交运行机制及源码解析
源码版本:2.2参考《Spark内核机制解析及性能调优》如有错误请指正一、Spark运行的核心概念Spark调度器的设计体现得非常简洁清晰和高效,其输入是
SparkRDD
,输出是Spark执行器(Executor
代码不会写
·
2017-10-19 16:43
spark学习
spark创建RDD方式
SparkRDD
基本创建所需要的数据源(集合、本地文件、HDFS、Hbase和HiveSQL等)1利用集合创建RDD,就是为了方便测试。
青于蓝胜于蓝
·
2017-10-08 15:45
spark
Spark RDD/DataFrame map保存数据的两种方式
使用
SparkRDD
或DataFrame,有时需要在foreachPartition或foreachWith里面保存数据到本地或HDFS。
DataResearcher
·
2017-10-06 11:15
java
机器学习
Spark
Apache Spark 2.2.0 中文文档 - Spark RDD(Resilient Distributed Datasets)论文 | ApacheCN
SparkRDD
(ResilientDistributedDatasets)论文概要1:介绍2:ResilientDistributedDatasets(RDDs)2.1RDD抽象2.2Spark编程接口
Joyyx
·
2017-09-21 16:35
Apache Spark 2.2.0 中文文档 - Spark RDD(Resilient Distributed Datasets)论文 | ApacheCN
SparkRDD
(ResilientDistributedDatasets)论文概要1:介绍2:ResilientDistributedDatasets(RDDs)2.1RDD抽象2.2Spark编程接口
片刻_ApacheCN
·
2017-09-20 21:44
Spark算子:RDD键值转换操作(4)–cogroup、join – lxw的大数据田地
关键字:Spark算子、
SparkRDD
键值转换、cogroup、joincogroup##参数为1个RDDdefcogroup[W](other:RDD[(K,W)]):RDD[(K,(Iterable
·
2017-09-10 21:00
spark
算子
rdd
Spark算子:RDD键值转换操作(4)–cogroup、join – lxw的大数据田地
关键字:Spark算子、
SparkRDD
键值转换、cogroup、joincogroup##参数为1个RDDdefcogroup[W](other:RDD[(K,W)]):RDD[(K,(Iterable
·
2017-09-10 21:00
spark
算子
rdd
Spark 原理及RDD理解
一、spark原理图二、
sparkRDD
图解*三、什么是Spark开发(核心编程原理)1,定义初始的RDD,即创建最原始的RDD2,做最初始的RDD进行算子的转换操作(flatMap,map,filter
A_Eternal
·
2017-08-18 15:45
BigData
Spark
sparkRDD
算子的创建和使用
sparkrdd
的创建有两种方式:1>从集合创建。也就是从父rdd继承过来2>从外部创建。import java.util.Arrays;import java.util.Iterator;impor
ChinaUnicom110
·
2017-07-18 17:49
spark
rdd
算子
spark
Spark Streaming+kafka订单实时统计实现
前几篇文章我们分别学习
SparkRDD
和PairRDD编程,本文小编将通过简单实例来加深对RDD的理解。
a123demi
·
2017-06-01 04:00
spark
kafka
Streaming
1.
SparkRDD
join案例
1.本实例主要假设有两个数据源,一个是使用了SparkSQL的API读取JSON文件,另一个数据源来自于自己构造的数据信息(实例中的peopleInformation)。2.实例演示了JSON文件的读取,和RDD的JOIN操作,以及Schema,RDD和ROW之间的有趣关系;3.具体实例如下:importorg.apache.spark.SparkConfimportorg.apache.spar
AIgeeksu
·
2017-05-07 22:41
Spark
spark的持久化存储
SparkRDD
是惰性求值的,而有时由于业务需要,我们要复用一个RDD。对于这种情况,如果我们只是简单地对RDD调用行动操作,Spark将会每次都重算RDD以及它的所有依赖。
蜗牛0
·
2017-04-13 22:00
Spark相关文章索引(2)
基本常识Spark2.0时代全面到来——2.0.1版本发布Spark生态系统中的图数据分析知识算法架构Spark任务调度流程及调度策略分析
Sparkrdd
转换过程Spark计算过程分析可靠保证华为叶琪:
BlackEnn
·
2017-01-27 18:00
spark
大数据
Spark相关文章索引(2)
基本常识Spark2.0时代全面到来——2.0.1版本发布Spark生态系统中的图数据分析知识算法架构Spark任务调度流程及调度策略分析
Sparkrdd
转换过程Spark计算过程分析可靠保证华为叶琪:
BlackEnn
·
2017-01-27 18:00
spark
大数据
spark-shell基本的RDD操作
sparkRDD
的常用操作RDD的操作分为两种,一种是转化操作,一种是执行操作,转化操作并不会立即执行,而是到了执行操作才会被执行转化操作:map()参数是函数,函数应用于RDD每一个元素,返回值是新的
小牛学堂2019
·
2016-12-07 17:50
spark
Spark Shuffle原理、Shuffle操作问题解决和参数调优
1.1.1maptask端操作1.1.2reducetask端操作1.2spark现在的SortShuffleManager2Shuffle操作问题解决2.1数据倾斜原理2.2数据倾斜问题发现与解决2.3数据倾斜解决方案3
sparkRDD
chenjieit619
·
2016-12-01 14:48
spark
spark rdd详解及开发优化
sparkrdd
详解及开发优化文章英文来源:http://spark.apache.org/docs/latest/programming-guide.html一、
SparkRDD
详解1、RDD是什么?
high2011
·
2016-11-12 14:00
优化
spark
sparkrdd
转dataframe的两种方式
packagel847164916importjava.sql.{DriverManager,ResultSet}importjava.util.Propertiesimportorg.apache.spark.{SparkConf,SparkContext}importorg.apache.spark.sql.{Row,SQLContext,SaveMode}importorg.apache.s
此用户有点逗号
·
2016-08-31 10:30
SparkRDD
的概念和定义
RDD的具体描述:RDD(弹性数据集)是Spark提供的最重要的抽象的概念,它是一种有容错机制的特殊集合,可以分布在集群的节点上,以函数式编操作集合的方式,进行各种并行操作。可以将RDD理解为一个具有容错机制的特殊集合,它提供了一种只读、只能有已存在的RDD变换而来的共享内存,然后将所有数据都加载到内存中,方便进行多次重用.他是分布式的,可以分布在多台机器上,进行计算。他是弹性的,计算过程中内存不
燃烧的岁月_
·
2016-08-01 04:13
spark
spark sql 入门详解
不同于
sparkrdd
的基本API,sparksql接口更多关于数据结构本身与执行计划等更多信息。在spark内部,sqlsql利用这些信息去更好地进行优化。
bitcarmanlee
·
2016-07-23 21:57
spark
学习Spark的入门教程——《Spark大数据实例开发教程》
全书包括五章内容,第一章介绍Spark生态圈以及
SparkRDD
的编程模型等内容;第二章介绍
SparkRDD
实战案例与解析,包含Spark应用程序的部署、Spark的各种应用案例与解析、SparkAPI
IT大公鸡
·
2016-06-22 11:07
spark
大数据
学习spark:五、Spark SQL, DataFrames and Datasets Guide
不像
SparkRDD
中的A
earl211
·
2016-06-06 17:13
Spark
数据挖掘
[0.2]从Scala语言层面体验Spark的计算魅力
参考CollectionsStreamAPIMemoization技术详解场景
SparkRDD
相当于一个分布式的scala集合,而Spark本身是用scala写的。
彭宇成
·
2016-05-28 12:55
Spark
DT大数据梦工厂Spark定制班笔记(012)
SparkStreaming源码解读之Executor容错安全性Executor的容错性主要有两种方式1)WAL日志2)借助
SparkRDD
自身的容错机制分别体现在receivedBlockHandler
ry076
·
2016-05-24 20:04
Spark Sql,Dataframe和数据集指南
不像基础的
sparkRDD
的API那么抽象,该接口能够对数据和数据的计算提供更多的信息。SparkSQL使用这些额外的信息来增加额外的优化。
u013676711
·
2016-05-10 23:00
第14课:Spark RDD解密
以下为
SparkRDD
解密课程学习心得: 在介绍
SparkRDD
之前,先简单的说下HadoopMapReduce,它是基于数据流的方式进行计算,从物理存储上加载数据,然后操作数据,最后写入到物理存储设备上
18610086859
·
2016-05-08 08:40
spark
RDD
Spark算子:统计RDD分区中的元素及数量
SparkRDD
是被分区的,在生成RDD时候,一般可以指定分区的数量,如果不指定分区数量,当RDD从集合创建时候,则默认为该程序所分配到的资源的CPU核数,如果是从HDFS文件创建,默认为文件的Block
ZyZhu
·
2016-05-06 13:07
《Spark MLlib 机器学习》第二章代码
《SparkMLlib机器学习》第二章代码2.1
SparkRDD
操作importorg.apache.log4j.{Level,Logger} importorg.apache.spark.
sunbow0
·
2016-04-12 16:00
spark
机器学习
MLlib
Spark RDD揭秘
在现有的sparksql,sparkstreaming,machinelearning,图计算以及sqparkR中,可以根据具体的领域的内容为基础扩充和私有化与自己业务相关的库,而它们的通用接口和基石就是
SparkRDD
.RDD
cary_1991
·
2016-04-07 09:00
spark
大数据
机器学习
数据集
RDD揭秘
Comparison method violates its general contract!
在使用
sparkRDD
中,需要进行二次排序,二次排序需要使用到scalaList的sortWith(compare),需传递一个比较函数compare给sortWith,这个时候会报如标题所示的错误。
cjun1990
·
2016-03-31 10:00
jQuery transform类型实例方法探究
jQuery.prototype中定义了许多非常有趣的方法,同样对比
SparkRDD
的逻辑可以将其一部分划分为几个大的类型:transform类型及与之相关的方法集、action类型及与之相关的方法集,
warhin
·
2016-03-22 20:00
JavaScript
jquery
map
slice
each
jQuery transform/action类型静态工具方法探究
本篇博客参照
SparkRDD
的Transformations和Actions对jQuery静态工具方法做一个简单的总结。一jQuery.each这里探究的的each是jQuery类
warhin
·
2016-03-21 20:00
jquery.map
jQuery.grep
jQuery.each
jQuery静态工具方法
jQuery.merge
Spark RDD的分区
通过网络资源,整理出
SparkRDD
分区的一些总结。分区是为了更好的利用集群中的众多CPU,提高并行度。
欧阳左至
·
2016-03-14 21:00
Spark的学习(三)
SparkRDD
最最常用的还是以键值对的形式存在,称作pairsRDDS,下面简称PRDDS。
sihuahaisifeihua
·
2016-02-18 23:00
spark
Spark RDD弹性表现和来源
容错负载均衡基于数据集的处理:从物理存储上加载数据,然后操作数据,然后写入物理存储设备;基于数据集的操作不适应的场景:1,不适合于大量的迭代2,交互式查询重点是:基于数据流的方式不能够复用曾经的结果或者中间计算结果;
sparkRDD
Kevin12
·
2016-02-09 20:00
spark
Spark RDD弹性表现和来源
容错负载均衡基于数据集的处理:从物理存储上加载数据,然后操作数据,然后写入物理存储设备;基于数据集的操作不适应的场景:1,不适合于大量的迭代2,交互式查询重点是:基于数据流的方式不能够复用曾经的结果或者中间计算结果;
sparkRDD
Kevin12
·
2016-02-09 20:00
spark
rdd
弹性
SparkRDD
解密(DT大数据梦工厂)
第一阶段,彻底精通Spark第二阶段,从0起步,操作项目Hadoop是大数据的基础设施,存储等等Spark是计算核心所在1、RDD:基于工作集的应用抽象2、RDD内幕解密3、RDD思考不掌握RDD的人,不可能成为Spark的高手绝对精通RDD,解决问题的能力大大提高各种框架底层封装的都是RDD,RDD提供了通用框架RDD是Spark的通用抽象基石顶级SPark高手,1、能解决问题、性能调优;2、S
feiweihy
·
2016-02-06 16:21
解密
SparkRDD
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他