sparkrdd 第7页

Spark 的Core深入（二）

Spark的Core深入（二）标签（空格分隔）：Spark的部分一：日志清洗的优化二：SparkRDD三：SparkContext三大功能四：SparkonYARN五：sparkRDD的依赖一、日志清洗的优化

flyfish225·2018-05-08 11:05

Spark笔记整理（五）：Spark RDD持久化、广播变量和累加器

[TOC]SparkRDD持久化RDD持久化工作原理Spark非常重要的一个功能特性就是可以将RDD持久化在内存中。

xpleaf·2018-04-27 18:45

Spark笔记整理（二）：RDD与spark核心概念名词

[TOC]SparkRDD非常基本的说明，下面一张图就能够有基本的理解：SparkRDD基本说明1、Spark的核心概念是RDD(resilientdistributeddataset，弹性分布式数据集

xpleaf·2018-04-25 16:35

Hadoop（四）—— Saprk笔记

sparkcore-->sparkrdd,spark核心编程，MapReducesparksql-->hivesparkstreaming-->storm,流式实时计算sparkmllib-->机器学习

Yatpif·2018-04-16 08:34

Spark SQL入门

hive的执行引擎，只需要在hive中修改一个参数即可：#sethive.execution.engine=spark2、SparkSQLa.概述：SparkSQL是Spark处理数据的一个模块，跟基本的SparkRDD

Mr_249·2018-03-31 20:50

RDD持久化(缓存)

SparkRDD是惰性求值的，而有时我们希望能多次使用同一个RDD。如果简单地对RDD调用行动操作，Spark每次都会重算RDD以及它的所有依赖。

SunnyRivers·2018-03-31 20:09

大数据常见面试题目

每天在在技术群里沉水,搜刮些面试题目,留作备用~1.简述对大数据组件：Yarn，Spark，Hbase，Hive的理解2.hdf文件系统中Namenode和DataNode区别和联系3.请描述SparkRDD

cui264·2018-02-22 22:35

ERROR Executor: Exception in task 0.0 in stage 91.0

遇到下面这种Executor报错的情况，多半是sparkRDD或者DataFrame定义的时候出了问题，因为sparkSql程序执行的机制是：transformation端不是真正的执行，只有action

gamedevv·2018-02-14 11:41

Spark程序开发规范

在编写SparkRDD程序时，经常要将本地开发好的代码，在本地测试完后，要打包成jar，并发布到集群上去跑一跑。

gamedevv·2018-01-29 15:44

【Windows中Spark环境搭建 | 基于Maven依赖库】在windows中对spark程序进行local调试学习

写在开头本博客的目标是可以在不开启spark集群|Linux虚拟机的情况下，对SparkRDD程序的完美运行，旨在解放初学者应无Linux集群环境、无内存容量支撑的情况下运行spark程序，写这篇的灵感来源于自己在学习

gamedevv·2018-01-22 23:17

配置和启动Spark | local模式以及standalone模式

SparkLocal模式直接在$SPARK_HOME/bin/spark-shell中运行sparkRDD程序，在UI界面http://nodename:4040/中可以看到jobs的执行情况[elon

gamedevv·2018-01-21 10:59

配置和启动Spark | local模式以及standalone模式

SparkLocal模式直接在$SPARK_HOME/bin/spark-shell中运行sparkRDD程序，在UI界面http://nodename:4040/中可以看到jobs的执行情况[elon

gamedevv·2018-01-21 10:59

圳鹏大数据：spark Rdd的默认分区

sparkRdd的默认分区有两大因素决定：1.spark.default.parallelism2.文件块的大小spark.default.parallelism：（默认的并发数）本地模式下spark.default.parallelism

meijie770342·2018-01-11 14:28

Spark2.2任务提交运行机制及源码解析

源码版本：2.2参考《Spark内核机制解析及性能调优》如有错误请指正一、Spark运行的核心概念Spark调度器的设计体现得非常简洁清晰和高效，其输入是SparkRDD，输出是Spark执行器(Executor

代码不会写·2017-10-19 16:43

spark创建RDD方式

SparkRDD基本创建所需要的数据源（集合、本地文件、HDFS、Hbase和HiveSQL等）1利用集合创建RDD，就是为了方便测试。

青于蓝胜于蓝·2017-10-08 15:45

Spark RDD/DataFrame map保存数据的两种方式

使用SparkRDD或DataFrame，有时需要在foreachPartition或foreachWith里面保存数据到本地或HDFS。

DataResearcher·2017-10-06 11:15

Apache Spark 2.2.0 中文文档 - Spark RDD（Resilient Distributed Datasets）论文 | ApacheCN

SparkRDD（ResilientDistributedDatasets）论文概要1:介绍2:ResilientDistributedDatasets（RDDs）2.1RDD抽象2.2Spark编程接口

Joyyx·2017-09-21 16:35

Apache Spark 2.2.0 中文文档 - Spark RDD（Resilient Distributed Datasets）论文 | ApacheCN

SparkRDD（ResilientDistributedDatasets）论文概要1:介绍2:ResilientDistributedDatasets（RDDs）2.1RDD抽象2.2Spark编程接口

片刻_ApacheCN·2017-09-20 21:44

Spark算子：RDD键值转换操作(4)–cogroup、join – lxw的大数据田地

关键字：Spark算子、SparkRDD键值转换、cogroup、joincogroup##参数为1个RDDdefcogroup[W](other:RDD[(K,W)]):RDD[(K,(Iterable

·2017-09-10 21:00

Spark算子：RDD键值转换操作(4)–cogroup、join – lxw的大数据田地

关键字：Spark算子、SparkRDD键值转换、cogroup、joincogroup##参数为1个RDDdefcogroup[W](other:RDD[(K,W)]):RDD[(K,(Iterable

·2017-09-10 21:00

Spark 原理及RDD理解

一、spark原理图二、sparkRDD图解*三、什么是Spark开发（核心编程原理）1，定义初始的RDD，即创建最原始的RDD2，做最初始的RDD进行算子的转换操作（flatMap，map，filter

A_Eternal·2017-08-18 15:45

sparkRDD 算子的创建和使用

sparkrdd的创建有两种方式:1>从集合创建。也就是从父rdd继承过来2>从外部创建。import java.util.Arrays;import java.util.Iterator;impor

ChinaUnicom110·2017-07-18 17:49

Spark Streaming+kafka订单实时统计实现

前几篇文章我们分别学习SparkRDD和PairRDD编程，本文小编将通过简单实例来加深对RDD的理解。

a123demi·2017-06-01 04:00

1.SparkRDD join案例

1.本实例主要假设有两个数据源，一个是使用了SparkSQL的API读取JSON文件，另一个数据源来自于自己构造的数据信息（实例中的peopleInformation）。2.实例演示了JSON文件的读取，和RDD的JOIN操作，以及Schema,RDD和ROW之间的有趣关系；3.具体实例如下：importorg.apache.spark.SparkConfimportorg.apache.spar

AIgeeksu·2017-05-07 22:41

spark的持久化存储

SparkRDD是惰性求值的，而有时由于业务需要，我们要复用一个RDD。对于这种情况，如果我们只是简单地对RDD调用行动操作，Spark将会每次都重算RDD以及它的所有依赖。

蜗牛0·2017-04-13 22:00

BlackEnn·2017-01-27 18:00

spark-shell基本的RDD操作

sparkRDD的常用操作RDD的操作分为两种，一种是转化操作，一种是执行操作，转化操作并不会立即执行，而是到了执行操作才会被执行转化操作：map()参数是函数，函数应用于RDD每一个元素，返回值是新的

小牛学堂2019·2016-12-07 17:50

Spark Shuffle原理、Shuffle操作问题解决和参数调优

1.1.1maptask端操作1.1.2reducetask端操作1.2spark现在的SortShuffleManager2Shuffle操作问题解决2.1数据倾斜原理2.2数据倾斜问题发现与解决2.3数据倾斜解决方案3sparkRDD

chenjieit619·2016-12-01 14:48

spark rdd详解及开发优化

sparkrdd详解及开发优化文章英文来源：http://spark.apache.org/docs/latest/programming-guide.html一、SparkRDD详解1、RDD是什么？

high2011·2016-11-12 14:00

sparkrdd转dataframe的两种方式

packagel847164916importjava.sql.{DriverManager,ResultSet}importjava.util.Propertiesimportorg.apache.spark.{SparkConf,SparkContext}importorg.apache.spark.sql.{Row,SQLContext,SaveMode}importorg.apache.s

此用户有点逗号·2016-08-31 10:30

SparkRDD的概念和定义

RDD的具体描述:RDD（弹性数据集）是Spark提供的最重要的抽象的概念，它是一种有容错机制的特殊集合，可以分布在集群的节点上，以函数式编操作集合的方式，进行各种并行操作。可以将RDD理解为一个具有容错机制的特殊集合，它提供了一种只读、只能有已存在的RDD变换而来的共享内存，然后将所有数据都加载到内存中，方便进行多次重用.他是分布式的，可以分布在多台机器上，进行计算。他是弹性的，计算过程中内存不

燃烧的岁月_·2016-08-01 04:13

spark sql 入门详解

不同于sparkrdd的基本API，sparksql接口更多关于数据结构本身与执行计划等更多信息。在spark内部，sqlsql利用这些信息去更好地进行优化。

bitcarmanlee·2016-07-23 21:57

学习Spark的入门教程——《Spark大数据实例开发教程》

全书包括五章内容，第一章介绍Spark生态圈以及SparkRDD的编程模型等内容；第二章介绍SparkRDD实战案例与解析，包含Spark应用程序的部署、Spark的各种应用案例与解析、SparkAPI

IT大公鸡·2016-06-22 11:07

学习spark:五、Spark SQL, DataFrames and Datasets Guide

不像SparkRDD中的A

earl211·2016-06-06 17:13

[0.2]从Scala语言层面体验Spark的计算魅力

参考CollectionsStreamAPIMemoization技术详解场景SparkRDD相当于一个分布式的scala集合，而Spark本身是用scala写的。

彭宇成·2016-05-28 12:55

DT大数据梦工厂Spark定制班笔记(012)

SparkStreaming源码解读之Executor容错安全性Executor的容错性主要有两种方式1）WAL日志2）借助SparkRDD自身的容错机制分别体现在receivedBlockHandler

ry076·2016-05-24 20:04

Spark Sql，Dataframe和数据集指南

不像基础的sparkRDD的API那么抽象，该接口能够对数据和数据的计算提供更多的信息。SparkSQL使用这些额外的信息来增加额外的优化。

u013676711·2016-05-10 23:00

第14课：Spark RDD解密

以下为SparkRDD解密课程学习心得：在介绍SparkRDD之前，先简单的说下HadoopMapReduce，它是基于数据流的方式进行计算，从物理存储上加载数据，然后操作数据，最后写入到物理存储设备上

18610086859·2016-05-08 08:40

Spark算子：统计RDD分区中的元素及数量

SparkRDD是被分区的，在生成RDD时候，一般可以指定分区的数量，如果不指定分区数量，当RDD从集合创建时候，则默认为该程序所分配到的资源的CPU核数，如果是从HDFS文件创建，默认为文件的Block

ZyZhu·2016-05-06 13:07

《Spark MLlib 机器学习》第二章代码

《SparkMLlib机器学习》第二章代码2.1SparkRDD操作importorg.apache.log4j.{Level,Logger} importorg.apache.spark.

sunbow0·2016-04-12 16:00

Spark RDD揭秘

在现有的sparksql,sparkstreaming,machinelearning,图计算以及sqparkR中，可以根据具体的领域的内容为基础扩充和私有化与自己业务相关的库，而它们的通用接口和基石就是SparkRDD.RDD

cary_1991·2016-04-07 09:00

Comparison method violates its general contract!

在使用sparkRDD中，需要进行二次排序，二次排序需要使用到scalaList的sortWith(compare)，需传递一个比较函数compare给sortWith，这个时候会报如标题所示的错误。

cjun1990·2016-03-31 10:00

jQuery transform类型实例方法探究

jQuery.prototype中定义了许多非常有趣的方法，同样对比SparkRDD的逻辑可以将其一部分划分为几个大的类型：transform类型及与之相关的方法集、action类型及与之相关的方法集，

warhin·2016-03-22 20:00

jQuery transform/action类型静态工具方法探究

本篇博客参照SparkRDD的Transformations和Actions对jQuery静态工具方法做一个简单的总结。一jQuery.each这里探究的的each是jQuery类

warhin·2016-03-21 20:00

Spark RDD的分区

通过网络资源，整理出SparkRDD分区的一些总结。分区是为了更好的利用集群中的众多CPU，提高并行度。

欧阳左至·2016-03-14 21:00

Spark的学习(三)

SparkRDD最最常用的还是以键值对的形式存在，称作pairsRDDS,下面简称PRDDS。

sihuahaisifeihua·2016-02-18 23:00

Spark RDD弹性表现和来源

容错负载均衡基于数据集的处理：从物理存储上加载数据，然后操作数据，然后写入物理存储设备；基于数据集的操作不适应的场景：1，不适合于大量的迭代2，交互式查询重点是：基于数据流的方式不能够复用曾经的结果或者中间计算结果;sparkRDD

Kevin12·2016-02-09 20:00

Spark RDD弹性表现和来源

容错负载均衡基于数据集的处理：从物理存储上加载数据，然后操作数据，然后写入物理存储设备；基于数据集的操作不适应的场景：1，不适合于大量的迭代2，交互式查询重点是：基于数据流的方式不能够复用曾经的结果或者中间计算结果;sparkRDD

Kevin12·2016-02-09 20:00

SparkRDD解密(DT大数据梦工厂)

第一阶段，彻底精通Spark第二阶段，从0起步，操作项目Hadoop是大数据的基础设施，存储等等Spark是计算核心所在1、RDD：基于工作集的应用抽象2、RDD内幕解密3、RDD思考不掌握RDD的人，不可能成为Spark的高手绝对精通RDD，解决问题的能力大大提高各种框架底层封装的都是RDD，RDD提供了通用框架RDD是Spark的通用抽象基石顶级SPark高手，1、能解决问题、性能调优；2、S

feiweihy·2016-02-06 16:21

推荐频道

sparkrdd

Spark 的Core深入（二）

Spark笔记整理（五）：Spark RDD持久化、广播变量和累加器

Spark笔记整理（二）：RDD与spark核心概念名词

Hadoop（四）—— Saprk笔记

Spark SQL入门

RDD持久化(缓存)

大数据常见面试题目

ERROR Executor: Exception in task 0.0 in stage 91.0

Spark程序开发规范

【Windows中Spark环境搭建 | 基于Maven依赖库】在windows中对spark程序进行local调试学习

配置和启动Spark | local模式以及standalone模式

配置和启动Spark | local模式以及standalone模式

圳鹏大数据：spark Rdd的默认分区

Spark2.2任务提交运行机制及源码解析

spark创建RDD方式

Spark RDD/DataFrame map保存数据的两种方式

Apache Spark 2.2.0 中文文档 - Spark RDD（Resilient Distributed Datasets）论文 | ApacheCN

Apache Spark 2.2.0 中文文档 - Spark RDD（Resilient Distributed Datasets）论文 | ApacheCN

Spark算子：RDD键值转换操作(4)–cogroup、join – lxw的大数据田地

Spark算子：RDD键值转换操作(4)–cogroup、join – lxw的大数据田地

Spark 原理及RDD理解

sparkRDD 算子的创建和使用

Spark Streaming+kafka订单实时统计实现

1.SparkRDD join案例

spark的持久化存储

Spark相关文章索引（2）

Spark相关文章索引（2）

spark-shell基本的RDD操作

Spark Shuffle原理、Shuffle操作问题解决和参数调优

spark rdd详解及开发优化

sparkrdd转dataframe的两种方式

SparkRDD的概念和定义

spark sql 入门详解

学习Spark的入门教程——《Spark大数据实例开发教程》

学习spark:五、Spark SQL, DataFrames and Datasets Guide

[0.2]从Scala语言层面体验Spark的计算魅力

DT大数据梦工厂Spark定制班笔记(012)

Spark Sql，Dataframe和数据集指南

第14课：Spark RDD解密

Spark算子：统计RDD分区中的元素及数量

《Spark MLlib 机器学习》第二章代码

Spark RDD揭秘

Comparison method violates its general contract!

jQuery transform类型实例方法探究

jQuery transform/action类型静态工具方法探究

Spark RDD的分区

Spark的学习(三)

Spark RDD弹性表现和来源

Spark RDD弹性表现和来源

SparkRDD解密(DT大数据梦工厂)