sparkcontext 第32页

Spark分析之Job Scheduling Process

经过前面文章的SparkContext、DAGScheduler、TaskScheduler分析，再从总体上了解Spark Job的调度流程 1、SparkContext将job的RDD DAG图提交给

·2015-11-13 02:51

Spark分析之TaskScheduler

主要功能如下： 1、一个TaskScheduler只为一个SparkContext服务，接收DAGScheduler提交过来的一组组的TaskSet； 2、TaskScheduler将task提交到集群中并执行

·2015-11-13 02:51

Spark运行架构

1、构建Spark Application运行环境；在Driver Program中新建SparkContext（包含sparkcontext的程序称为Driver Program）；

·2015-11-13 02:49

Spark wordcount开发并提交到集群运行

eclipse package com.luogankun.spark.base import org.apache.spark.SparkConf import org.apache.spark.SparkContext

·2015-11-13 02:48

Spark分析之SparkContext启动过程分析

SparkContext作为整个Spark的入口，不管是spark、sparkstreaming、spark sql都需要首先创建一个SparkContext对象，然后基于这个SparkContext进行后续

·2015-11-13 02:44

Spark核心概念

; 基于spark的用户程序，包含了一个Driver Program以及集群上中多个executor； spark中只要有一个sparkcontext

·2015-11-12 23:05

Spark pyspark package

公共类：SparkContext:Spark运行的主要集成类。它负责与Spark集群的connection，并且负责数据的生成和计算，以及其中的task的调度。

power0405hf·2015-11-12 21:00

Spark JdbcRDD 简单使用

package org.apache.spark.sql.sources import org.apache.spark.SparkContext import java.sql.

·2015-11-12 21:16

Hive On Spark hiveserver2方式使用

yarn 使用beeline连接hiveserver2： beeline -u jdbc:hive2://hadoop000:10000 -n spark 注意：每个beeline对应一个SparkContext

·2015-11-12 17:32

在Spark上运行TopK程序

1. scala程序如下 package com.cn.gao import org.apache.spark.SparkConf import org.apache.spark.SparkContext

·2015-11-11 19:36

在Spark上运行WordCount程序

编写程序代码如下： Wordcount.scala package Wordcount import org.apache.spark.SparkConf import org.apache.spark.SparkContext

·2015-11-11 19:34

Spark中的编程模型

Driver Program：运行Application的main()函数并创建SparkContext。通常SparkContext代表driver program。

·2015-11-11 16:24

Spark1.0.0属性配置

在Spark1.0.0提供了3种方式的属性配置： SparkConf方式 SparkConf方式可以直接将属性值传递到SparkContext

·2015-11-11 08:35

spark1.1.0源码阅读-taskScheduler

1. sparkContext中设置createTaskScheduler 1 case "yarn-standalone" | "yarn-cluster

·2015-11-11 07:40

spark1.1.0源码阅读-dagscheduler and stage

1. rdd action ->sparkContext.runJob->dagscheduler.runJob 1 def runJob[T, U: ClassTag]( 2

·2015-11-11 07:39

spark内部运行模式

概述SparkApplication在遇到action算子时，SparkContext会生成Job，并将构成DAG图将给DAGScheduler解析成Stage。

猪猪daxia·2015-11-10 17:00

spark使用parallelize方法创建RDD

通过调用SparkContext的parallelize方法，在一个已经存在的Scala集合上创建的（一个Seq对象）。集合的对象将会被拷贝，创建出一个可以被并行操作的分布式数据集。

南若安好·2015-11-09 14:02

spark 运行模式

Application:基于Spark的用户程序，包含了一个driverprogram和集群中多个executorDriverProgram：运行Application的main()函数并创建SparkContext

猪猪daxia·2015-11-06 16:00

NetWordCound

{SparkContext,SparkConf}importorg.apache.spark.streaming.

王上京小伙·2015-11-04 15:43

NetWordCound

{SparkContext,SparkConf}importorg.apache.spark.streaming.

王上京小伙·2015-11-04 15:43

DStreamWordCount

{SparkContext,

王上京小伙·2015-11-04 15:06

Apache Spark-1.0.0浅析（二）：初始化

然后，以SparkConf作为参数创建SparkContext，初始化Spark环境。

·2015-11-02 19:25

Spark-用户应用程序

sc是Spark集群初始化时创建的SparkContext，Spark中包含Action算子和Transferer算子。有宽依赖和窄依赖。

·2015-10-31 13:04

Spark Streaming源码分析 – JobScheduler

先给出一个job从被generate到被执行的整个过程在JobGenerator中，需要定时的发起GenerateJobs事件，而每个job其实就是针对DStream中的一个RDD，发起一个SparkContext.runJob

·2015-10-27 12:16

Spark Streaming原理简析

执行流程数据的接收StreamingContext实例化的时候，需要传入一个SparkContext，然后指定要连接的sparkmatserurl，即连接一个sparkengine，用于获得executor

m635674608·2015-10-27 00:00

Spark中的编程模型

Application:基于Spark的用户程序，包含了一个driverprogram和集群中多个executorDriverProgram：运行Application的main()函数并创建SparkContext

m635674608·2015-10-26 00:00

spark rdd 转换过程

. // Create the context val ssc = new SparkContext(args(0),

m635674608·2015-10-25 00:00

Spark修炼之道（高级篇）——Spark源码阅读：第二节 SparkContext的创建

{SparkConf,SparkContext} object

lovehuangjiaju·2015-10-25 00:00

Spark修炼之道（高级篇）——Spark源码阅读：第四节 Stage划分

Stage划分在上一节中我们讲了SparkJob的提交，在该讲中我们提到，当rdd触发action操作之后，会调用SparkContext的runJob方法，最后调用的DAGScheduler.handleJobSubmitted

lovehuangjiaju·2015-10-24 23:00

Py4JJavaError: An error occurred while calling o18.sql. : java.lang.RuntimeException:

frompysparkimportSparkContextfrompysparkimportHiveContext,SQLContextif__name__=="__main__":sc=SparkContext

BIT_SKY·2015-10-23 21:25

Spark官方文档: Spark Configuration（Spark配置）

主要提供三种位置配置系统：环境变量：用来启动Sparkworkers，可以设置在你的驱动程序或者conf/spark-env.sh脚本中；java系统性能：可以控制内部的配置参数，两种设置方法：编程的方式（程序中在创建SparkContext

m635674608·2015-10-23 00:00

Spark 属性配置

在Spark1.0.0提供了3种方式的属性配置：SparkConf方式SparkConf方式可以直接将属性值传递到SparkContext；SparkConf可以对某些通用属性直接配置，如master使用

m635674608·2015-10-21 00:00

Spark的TaskScheduler和DagScheduler

Spark中一个核心的是模块就是调度器（Scheduler），在spark中Scheduler有两种TaskScheduler（是低级的调度器接口），DagScheduler（是高级的调度）我们在创建SparkContext

m635674608·2015-10-21 00:00

spark mllib 中的tf-idf算法计算文档相似度

{SparkConf,SparkContext} importscala.io.Source /** *Createdbyxiaoj

xiao_jun_0820·2015-10-20 15:00

Spark1.0.0 运行架构基本概念

SparkApplication的运行架构由两部分组成：driverprogram（SparkContext）和executor。

m635674608·2015-10-20 14:00

SparkContext自定义扩展textFiles，支持从多个目录中输入文本文件

需求SparkContext自定义扩展textFiles，支持从多个目录中输入文本文件扩展classSparkContext(pyspark.SparkContext):def__init__(self

demigelemiao·2015-10-20 10:00

Spark修炼之道（高级篇）——Spark源码阅读：第三节 Spark Job的提交

前一我们分析了SparkContext的创建，这一节，我们介绍在RDD执行的时候，如何提交job进行分析，同样是下面的源码：importorg.apache.spark.

lovehuangjiaju·2015-10-19 23:00

Spark RDD Union

“组合”为一个RDD代码frompysparkimportSparkConf,SparkContextconf=SparkConf().setAppName("spark_app_union")sc=SparkContext

demigelemiao·2015-10-19 16:00

SparkContext类和SparkConf类

任何Spark程序都是SparkContext开始的，SparkContext的初始化需要一个SparkConf对象，SparkConf包含了Spark集群配置的各种参数。

caiandyong·2015-10-18 21:33

Spark机器学习1

任何Spark程序的编写都是从SparkContext（或用Java编写时的JavaSparkContext）开始的。

jjfnjit·2015-10-13 14:00

spark sql 连接使用mysql数据源

sparksql可以通过标准的jdbc连接数据库，获得数据源package com.xx; import org.apache.spark.SparkConf; import org.apache.spark.SparkContext

杰仪·2015-10-13 13:00

Spark on yarn

ApplicationMasterNodeManager每个节点对应一个ApplicationMaster启动后向ResourceManager要资源每个Executor对应一个Container每个SparkContext

jethai·2015-10-11 16:00

spark概述与编程模型

spark快的原因1.内存计算2.DAGsparkshell已经初始化好了SparkContext，直接用sc调用即可lineage血统RDDwideandnarrowdependencies窄依赖每个

jethai·2015-10-07 23:25

spark概述与编程模型

spark快的原因1.内存计算2.DAGsparkshell已经初始化好了SparkContext，直接用sc调用即可lineage血统RDDwideandnarrowdependencies窄依赖每个

jethai·2015-10-07 23:25

Spark Scheduler 模块（下）

TaskScheduler前面提到，在SparkContext初始化的过程中，根据master的类型分别创建不同的TaskScheduler的实现。

徐软件·2015-10-04 20:00

spark中的SparkContext的textFile使用的小窍门

网上很多例子，包括官网的例子，都是用textFile来加载一个文件创建RDD，类似sc.textFile("hdfs://ss:8020/hdfs/input")textFile的参数是一个path,这个path可以是：1.一个文件路径，这时候只装载指定的文件2.一个目录路径，这时候只装载指定目录下面的所有文件（不包括子目录下面的文件）3.通过通配符的形式加载多个文件或者加载多个目录下面的所有文件

javastart·2015-10-04 11:00

Spark SQL官方文档阅读--待完善

1,DataFrame是一个将数据格式化为列形式的分布式容器,类似于一个关系型数据库表.编程入口:SQLContext2,SQLContext由SparkContext对象创建也可创建一个功能更加全面的

dabokele·2015-09-24 10:00

Spark-SQL连接MySql关系型数据库

{SparkContext,SparkConf}/***Creat

dabokele·2015-09-23 11:00

spark core源码分析17 RDD相关API

博客地址: http://blog.csdn.net/yueqian_zhu/一、RDD创建的操作（SparkContext.scala）1、从内存集合中创建RDD，RDD中包含的是类型为T的集合defparallelize

yueqian_zhu·2015-09-22 21:00

Spark调度系列-----3.SparkContext对象的创建和SparkContext的作用

SparkContext是SparkApplication程序的表示。

u012684933·2015-09-17 18:00

推荐频道

sparkcontext

Spark分析之Job Scheduling Process

Spark分析之TaskScheduler

Spark运行架构

Spark wordcount开发并提交到集群运行

Spark分析之SparkContext启动过程分析

Spark核心概念

Spark pyspark package

Spark JdbcRDD 简单使用

Hive On Spark hiveserver2方式使用

在Spark上运行TopK程序

在Spark上运行WordCount程序

Spark中的编程模型

Spark1.0.0属性配置

spark1.1.0源码阅读-taskScheduler

spark1.1.0源码阅读-dagscheduler and stage

spark内部运行模式

spark使用parallelize方法创建RDD

spark 运行模式

NetWordCound

NetWordCound

DStreamWordCount

Apache Spark-1.0.0浅析（二）：初始化

Spark-用户应用程序

Spark Streaming源码分析 – JobScheduler

Spark Streaming原理简析

Spark中的编程模型

spark rdd 转换过程

Spark修炼之道（高级篇）——Spark源码阅读：第二节 SparkContext的创建

Spark修炼之道（高级篇）——Spark源码阅读：第四节 Stage划分

Py4JJavaError: An error occurred while calling o18.sql. : java.lang.RuntimeException:

Spark官方文档: Spark Configuration（Spark配置）

Spark 属性配置

Spark的TaskScheduler和DagScheduler

spark mllib 中的tf-idf算法计算文档相似度

Spark1.0.0 运行架构基本概念

SparkContext自定义扩展textFiles，支持从多个目录中输入文本文件

Spark修炼之道（高级篇）——Spark源码阅读：第三节 Spark Job的提交

Spark RDD Union

SparkContext类和SparkConf类

Spark机器学习1

spark sql 连接使用mysql数据源

Spark on yarn

spark概述与编程模型

spark概述与编程模型

Spark Scheduler 模块（下）

spark中的SparkContext的textFile使用的小窍门

Spark SQL官方文档阅读--待完善

Spark-SQL连接MySql关系型数据库

spark core源码分析17 RDD相关API

Spark调度系列-----3.SparkContext对象的创建和SparkContext的作用