sparkcontext 第33页

[置顶] sparkcookbook阅读笔记

创建HiveContextvalsc:SparkContext valsqlContext=neworg.apache.spark.sql.SQLContext(sc)ToenableHivefunctionality

u012432611·2015-08-27 11:00

Spark SQL and DataFrame Guide

数据框可以有结构化数据文件，hive表，外部数据库或者RDD来创建入口：SQLContextvalsc:SparkContext//AnexistingSparkContext. valsqlContext

u012432611·2015-08-27 09:00

spark core源码分析6 Spark job的提交

博客地址: http://blog.csdn.net/yueqian_zhu/ 本节主要讲解SparkContext的逻辑首先看一个spark自带的最简单的例子：objectSparkPi{ defmain

yueqian_zhu·2015-08-26 19:00

sparksql链接mysql

{SparkContext,SparkConf} obj

爱嘉牛LA·2015-08-19 09:00

spark中使用partitioner

._ import SparkContext._ import org.apache.spark.SparkConf import java.util.Date import java.text.SimpleDateFormat

ctor·2015-08-18 14:00

MLlib协同过滤ALS算法初探

{SparkContext, SparkC

ctor·2015-08-18 13:00

spark二次排序

._ import SparkContext._ object SecondarySort { def main(args: Array[String]) { val sparkConf

ctor·2015-08-18 13:00

Machine Learning With Spark学习笔记（提取10万电影数据特征）

首先将用户数据u.data读入SparkContext中，然后输出第一条数据看看效果，代码如下：valsc=newSparkContext("local","ExtractFeatures") valrawData

LXYTSOS·2015-08-14 11:00

Spark入门实战系列--3.Spark编程模型（上）--概念及SparkShell实战

Application）：基于Spark的用户程序，包含了一个DriverProgram和集群中多个的Executor；驱动程序（DriverProgram）：运行Application的main()函数并且创建SparkContext

yirenboy·2015-08-13 09:00

Spark入门实战系列--3.Spark编程模型（上）--编程模型及SparkShell实战

Application）：基于Spark的用户程序，包含了一个DriverProgram和集群中多个的Executor；l驱动程序（DriverProgram）：运行Application的main()函数并且创建SparkContext

shishanyuan·2015-08-13 08:00

spark implementation hadoop setup,cleanup

写道 def main(args: Array[String]) { val sc = new SparkContext("local", &

Stark_Summer·2015-08-11 17:00

GraphX 图数据建模和存储

入口可以看GraphLoader的函数，defedgeListFile( sc:SparkContext, path:String, canonicalOrientation:Boolean=false

zbf8441372·2015-08-05 10:00

spark中的SparkContext实例的textFile使用的小技巧

http://blog.csdn.net/xiao_jun_0820/article/details/44218045网上很多例子，包括官网的例子，都是用textFile来加载一个文件创建RDD，类似sc.textFile("hdfs://n1:8020/user/hdfs/input")textFile的参数是一个path,这个path可以是：1.一个文件路径，这时候只装载指定的文件2.一个目录

u010064842·2015-08-04 13:00

IDEA开发spark本地运行

{SparkConf,SparkContext} objectTest{ defmain(args:Array[String]){ if(args.le

爱嘉牛LA·2015-08-02 10:00

Spark的TaskScheduler和DagScheduler

Spark中一个核心的是模块就是调度器（Scheduler），在spark中Scheduler有两种TaskScheduler（是低级的调度器接口），DagScheduler（是高级的调度）我们在创建SparkContext

u010064842·2015-07-31 23:00

【Spark】SparkContext源码解读

SparkContext的初始化SparkContext是应用启动时创建的Spark上下文对象，是进行Spark应用开发的主要接口，是Spark上层应用与底层实现的中转站（SparkContext负责给

JasonDing1354·2015-07-14 19:00

eclipse 开发 spark Streaming wordCount

package com.scala.spark.dstream import org.apache.spark.SparkConf import org.apache.spark.SparkContext

寻梦2012·2015-07-14 16:00

eclipse 开发spark程序找不到reduceByKey操作

用eclipse开发sparkwordCount时找不到reduceByKey(_+_)操作是由于缺少导入包importorg.apache.spark.SparkContext._ 就可以解决了或者直接用

寻梦2012·2015-07-14 16:00

【Spark】RDD操作详解4——Action算子

本质上在Actions算子中通过SparkContext执行提交作业的runJob操作，触发了RDDDAG的执行。

JasonDing1354·2015-07-12 10:00

在spark上运行独立程序（Self-Contained Applications）

SimpleApp.py）：首先编写程序（这里用Pytho的API）：frompysparkimportSparkContext logFile="README.md"#注意这里的文件是在hdfs中的 sc=SparkContext

yijichangkong·2015-07-05 16:00

Spark之Transformation和Action

1、RDD的两种类型操作 RDD的创建： (SparkContext)sc.parallelize(collection)//将一个集合转换成RDD sc.textFile("path.."

datapro·2015-06-23 18:00

第一个在Python 环境中开发的Spark应用示例

环境中， ''' import os os.environ['SPARK_HOME'] = r'E:\Dev\spark-1.4.0-bin-hadoop2.6' from pyspark import SparkContext

junanhonglei·2015-06-22 01:00

Parallelized Collections

parallelize用来利用cpu并行的处理数据Parallelizedcollectionsarecreatedbycalling SparkContext’s parallelize methodonanexistingcollectioninyourdriverprogram

幻想vs理想·2015-06-12 19:00

eclipse中单机运行统计单词

package org.apache.spark.examples import org.apache.spark.SparkContext import org.apache.spark.SparkContext

幻想vs理想·2015-06-12 16:00

eclipse中运行spark机器学习代码

{SparkConf, SparkContext} import org.apache.spark.mllib.classification.LogisticRegressionWithSGD import

幻想vs理想·2015-06-11 12:00

延长SparkContext初始化时间

作者博客迁移至博客园：http://www.cnblogs.com/xiaodf/有些应用中可能希望先在driver上运行一段java单机程序，然后再初始化SparkContext用集群模式操作java

DF_XIAO·2015-06-10 10:27

spark基础(一)----------spark集群模型

在每个应用程序的主进程里，都有一个sparkContext对象,也被称为驱动程序，就是这个sparkContext对象负责与集群协调资源。

happyAnger6·2015-06-07 00:00

spark编译报错

spark成功之后运行例子报错问题一： spark.SparkContext: Added JAR file:/

blackproof·2015-06-06 14:00

spark编译报错

spark成功之后运行例子报错问题一： spark.SparkContext: Added JAR file:/

blackproof·2015-06-06 14:00

spark的python API的一些研究成绩记录

from pyspark import SparkContext sc = SparkContext(appName="Hello") #读取文件 lines = sc.textFile

zerozz·2015-06-03 16:00

spark程序对hadoop环境的依赖，导致checkpoint失败问题的解决

虽然没有使用hadoop，但是在windows下运行spark程序报如下错误：INFO:org.apache.spark.SparkContext-RunningSparkversion1.3.1 WARN

u012684933·2015-05-28 16:00

Spark学习之12：checkpoint

要对RDD做checkpoint操作，需要先调用SparkContext的setCheckpointDir设置checkpoint数据存储位置。

ktlinker1119·2015-05-25 16:59

Spark监控

网络接口每一个SparkContext启动一个webUI,默认情况下在端口4040,显示关于应用程序的有用信息,包括:· 调度器阶段和任务的列表· RDD大小和内存使用的概览

newlife111·2015-05-25 11:00

Spark集群模式概述

组件Spark应用程序在集群上运行由一系列的独立的进程组成,进程相互之间由主程序(称为驱动程序 )SparkContext协调。

newlife111·2015-05-15 16:00

Spark（四） -- Spark工作机制

1、应用执行过程中的基本组件和形态Driver：运行在客户端或者集群中，执行Application的main方法并创建SparkContext，调控整个应用的执行。

qq1010885678·2015-05-14 23:00

Spark学习之7：Job触发及Stage划分

1.Job提交触发流程图：作业提交流程由RDD的action操作触发，继而调用SparkContext.runJob。

ktlinker1119·2015-05-12 19:34

Spark Core源码分析: RDD基础

RDDRDD初始参数：上下文和一组依赖abstractclassRDD[T:ClassTag]( @transientprivatevarsc:SparkContext, @transientprivatevardeps

wwwxxdddx·2015-05-07 18:00

Spark中的编程模型

Application:基于Spark的用户程序，包含了一个driverprogram和集群中多个executorDriverProgram：运行Application的main()函数并创建SparkContext

liuwenbo0920·2015-04-24 10:00

使用spark 对文本分词统计

import java.sql.DriverManager import scala.collection.mutable.ArrayBuffer import org.apache.spark.SparkContext

xiaofancn·2015-04-22 12:00

rdd没有reduceByKey的方法

这个发生在spark1.2及其以前对版本，因为rdd本身不存在reduceByKey的方法，需要隐式转换成PairRDDFunctions才能访问，因此需要引入Importorg.apache.spark.SparkContext

happykuan·2015-04-20 11:57

Spark学习笔记之SparkRDD

来自于两方面①内存集合和外部存储系统②通过转换来自于其他RDD，如map，filter等2.创建操作（creationoperation）：RDD的创建由SparkContext来负责。

ChouYarn·2015-04-18 19:00

【Spark九十三】Spark读写Sequence File

{SparkConf,SparkContext} objectSequenceFileTest{ defmain(args:Array[String]){ valconf=newSparkConf

bit1129·2015-04-15 18:00

【Spark九十三】Spark读写Sequence File

{SparkConf,SparkContext} objectSequenceFileTest{ defmain(args:Array[String]){ valconf=newSparkConf

bit1129·2015-04-15 18:00

【Spark九十三】Spark读写Sequence File

{SparkConf,SparkContext} objectSequenceFileTest{ defmain(args:Array[String]){ valconf=newSparkConf

bit1129·2015-04-15 18:00

SparkSQL 初步应用

直接上代码： import org.apache.spark.SparkContext import org.apache.spark.sql.SQLContext object SparkSQL

996440550·2015-04-15 13:38

Spark streaming在可用性方面的改进

Sparkstreaming启动以后，在运行过程中,依赖的模块包括Driver、woker，其中Driver中运行streamingcontext和sparkcontext相关的实体，woker一方面承载

yangbutao·2015-04-10 10:00

Spark1.0.0 运行架构基本概念

前言SparkApplication的运行架构由两部分组成：driverprogram（SparkContext）和executor。

ichsonx·2015-03-24 10:00

[原]Spark Streaming原理简析

执行流程数据的接收StreamingContext实例化的时候，需要传入一个SparkContext，然后指定要连接的sparkmatserurl，即连接一个sparkengine，用于获得executor

zbf8441372·2015-03-19 15:00

Spark Streaming原理简析

执行流程数据的接收StreamingContext实例化的时候，需要传入一个SparkContext，然后指定要连接的sparkmatserurl，即连接一个sparkengine，用于获得executor

zbf8441372·2015-03-19 15:00

Spark技术内幕：Client，Master和Worker 通信源码解析

Spark的ClusterManager可以有几种部署模式：StandloneMesosYARNEC2Local在向集群提交计算任务后，系统的运算模型就是DriverProgram定义的SparkContext

gaowenhui2008·2015-03-19 09:00

推荐频道

sparkcontext

[置顶] sparkcookbook阅读笔记

Spark SQL and DataFrame Guide

spark core源码分析6 Spark job的提交

sparksql链接mysql

spark中使用partitioner

MLlib协同过滤ALS算法初探

spark二次排序

Machine Learning With Spark学习笔记（提取10万电影数据特征）

Spark入门实战系列--3.Spark编程模型（上）--概念及SparkShell实战

Spark入门实战系列--3.Spark编程模型（上）--编程模型及SparkShell实战

spark implementation hadoop setup,cleanup

GraphX 图数据建模和存储

spark中的SparkContext实例的textFile使用的小技巧

IDEA开发spark本地运行

Spark的TaskScheduler和DagScheduler

【Spark】SparkContext源码解读

eclipse 开发 spark Streaming wordCount

eclipse 开发spark程序找不到reduceByKey操作

【Spark】RDD操作详解4——Action算子

在spark上运行独立程序（Self-Contained Applications）

Spark之Transformation和Action

第一个在Python 环境中开发的Spark应用示例

Parallelized Collections

eclipse中单机运行统计单词

eclipse中运行spark机器学习代码

延长SparkContext初始化时间

spark基础(一)----------spark集群模型

spark编译报错

spark编译报错

spark的python API的一些研究成绩记录

spark程序对hadoop环境的依赖，导致checkpoint失败问题的解决

Spark学习之12：checkpoint

Spark监控

Spark集群模式概述

Spark（四） -- Spark工作机制

Spark学习之7：Job触发及Stage划分

Spark Core源码分析: RDD基础

Spark中的编程模型

使用spark 对文本分词统计

rdd没有reduceByKey的方法

Spark学习笔记之SparkRDD

【Spark九十三】Spark读写Sequence File

【Spark九十三】Spark读写Sequence File

【Spark九十三】Spark读写Sequence File

SparkSQL 初步应用

Spark streaming在可用性方面的改进

Spark1.0.0 运行架构基本概念

[原]Spark Streaming原理简析

Spark Streaming原理简析

Spark技术内幕：Client，Master和Worker 通信源码解析