sparkcontext 第12页

Spark通过netcat来监听端口访问数据

{SparkConf,SparkContext}im

new_buff_007·2020-08-18 11:43

Spark Streaming DSstream 的updateByKey用法

{SparkConf,SparkContext}objectStatefulWordCountOnLine{defmain(args:Array[String]):Unit={/

花纵酒·2020-08-18 11:16

Spark SQL 两表关联

{SparkContext,SparkConf}//definecaseclassforusercaseclassUser(userID:String,gender:String,age:Int

dgsdaga3026010·2020-08-18 11:41

SparkSQL 基础编程

一、介绍SparkCore中，如果想要执行应用程序，需要首先构建上下文环境对象SparkContext，SparkSQL其实可以理解为对SparkCore的一种封装，不仅仅在模型上进行了封装，上下文环境对象也进行了封装

火成哥哥·2020-08-18 10:19

大数据基础之SparkStreaming——SparkStreaming读写Kafka

defmain(args:Array[String]):Unit={valconf=newSparkConf().setAppName("mytest").setMaster("local[2]")valsc=SparkContext.getOrCreate

Clozzz·2020-08-18 10:22

【PySpark学习笔记二】DataFrame用法

Python到RDD之间的通信在PySpark驱动器中，SparkContext通过Py4J启动一个JavaSparkContext的JVM，所有的RDD转换最初都映射到Java中的PythonRDD对象

roguesir·2020-08-18 10:42

DataFrames入门指南：创建和操作DataFrame

从csv文件创建DataFrame主要包括以下几步骤：1、在build.sbt文件里面添加spark-csv支持库；2、创建SparkConf对象，其中包括Spark运行所有的环境信息；3、创建SparkContext

weixin_34281477·2020-08-18 05:58

not serializable result: org.apache.kafka.clients.consumer.ConsumerRecord

解决方法创建SparkContext时设置一个属性set("spark.serializer","org.apache.spark.serializer.KryoSerializer")Exceptioninthread"main"org.apache.spark.SparkException

超哥_cn·2020-08-18 03:41

Spark必背面试题

1,spark的工作机制用户在客户`端提交作业后，会由Driver运行main方法并创建SparkContext上下文,SparkContext向资源管理器申请资源,启动Execotor进程,并通过执行

写scala的老刘·2020-08-17 16:53

Spark 连接 Hbase 配置

{SparkContext,SparkConf

zhou_zhao_xu·2020-08-17 10:35

Spark 异常汇总（持续更新）

setspark.driver.allowMultipleContexts=true.ThecurrentlyrunningSparkContextwascreatedat:org.apache.spark.SparkContext

weixin_30905133·2020-08-16 15:37

遇到报错：ERROR spark.SparkContext: Error initializing SparkContext

Systemmemory100663296mustbeatleast4.718592E8.Pleaseusealargerheapsize.在Eclipse里开发Spark项目，尝试直接在spark里运行程序的时候，遇到下面这个报错：很明显，这是JVM申请的memory不够导致无法启动SparkContext

技多不压身·2020-08-16 01:19

spark——初识

文章目录0.待学习文章1.pyspark.SparkContext的join2.SparkSession3.spark和hadoop的关系0.待学习文章现在还不懂，但需要不断看：http://www.louisvv.com

呤叮·2020-08-15 08:36

Spark on YARN-Cluster和YARN-Client的区别

YARN-Cluster和YARN-Client的区别（1）SparkContext初始化不同，这也导致了Driver所在位置的不同，YarnCluster的Driver是在集群的某一台NM上，但是Yarn-Client

wjl7813·2020-08-14 22:27

yarn-cluster和yarn-client的区别

yarn-cluster和yarn-client的区别SparkContext初始化不同，这也导致了Driver所在位置的不同，Yarn-Cluster的Driver是在集群的某一台NM上，但是Yarn-Client

xiaolin_xinji·2020-08-14 21:50

Spark的Cluster模式架构图

https://spark.apache.org/docs/latest/cluster-overview.html（1）DriverProgram就是程序员设计的Spark程序，在Spark中必须定义SparkContext

圈圈任·2020-08-14 21:19

spark 加载多个目录； RDD输出到hdfs文件压缩

valinputPath=List("hdfs://localhost:9000/test/hiveTest","hdfs://localhost:9000/test/hiveTest2").mkString(",")sparkContext.textFile

蓝天688·2020-08-14 20:10

Spark与大数据处理常用操作

初始化RDDRDD的transform1Spark可以分为1个driver(笔记本电脑或者集群网关机器上)和若干个executor(在各个节点上)，通过SparkContext(简称sc)连接Spark

jose_yubin·2020-08-14 18:43

spark运行模式

spark运行模式列表基本上，spark的运行模式取决于传递给sparkcontext的deployMode和master环境变量的值，个别模式还需要辅助的程序接口来配合使用，目前master有LOCAL

Xlucas·2020-08-14 15:32

从0开始学习spark（7）SparkCore 核心知识复习与核心机制详解

Spark零基础入门第七课Spark的核心概念：Spark运行架构特点Spark运行架构图：sparkstage阶段划分算法图：spark-on-yarn模式图：sparkContext的构建的过程SparkMasterHA

蛋蛋淡淡定·2020-08-14 11:30

从0开始学习spark（3）Spark Core 核心知识

Spark零基础入门第三课1.Spark作业调度方式1.1cluster和client的区别2.spark核心功能介绍：2.1SparkContext2.2存储体系2.3计算引擎2.4部署模式3.Spark

蛋蛋淡淡定·2020-08-14 11:29

Spark Shell简单使用

/bin/spark-shell在SparkShell中，有一个专有的SparkContext已经为您创建好了，变量名叫做sc。自己创建的SparkContext将无法工作

universe_ant·2020-08-14 08:22

SparkContext的parallelize的参数

在一个Spark程序的开始部分，有好多是用sparkContext的parallelize制作RDD的，是ParallelCollectionRDD，创建一个并行集合。

小尼人00·2020-08-14 07:52

Spark 源码分析（七）: DAGScheduler 源码分析1（stage 划分算法）

前面几篇文章已经说清楚了从spark任务提交到driver启动，然后执行main方法，初始化SparkContext对象。

stone-zhu·2020-08-11 21:38

pyspark 读取csv文件创建DataFrame

方法一：用pandas辅助frompysparkimportSparkContextfrompyspark.sqlimportSQLContextimportpandasaspdsc=SparkContext

Stephen__Chou·2020-08-11 05:43

SparkStreaming-DStream与DataFrame SQL联合操作

查询使用的SparkSession可由StreamingContext中的SparkContext来创建，以此用来进行DataFrameSql操作。

.Mr Zhang·2020-08-11 05:42

Spark简单读写Hive

frompysparkimportSparkContextfrompysparkimportSparkConffrompyspark.sqlimportHiveContextconf=SparkConf().setAppName('test')sc=SparkContext

云中的鱼·2020-08-11 04:36

Spark高斯混合模型

{SparkConf,SparkContext}importorg.apache.spark.mllib.clustering.GaussianMixtureimportorg.apache.spa

wguangliang·2020-08-11 00:22

spark读取ES数据

{SparkConf,SparkContext}importorg.elasticsearch.spark.

TracyGao01·2020-08-10 01:29

PySpark 基础知识-RDD 弹性分布式数据集和 DataFrame

第二种：调用SparkContext的parallelize方法，在Driver中一个已经存在的集合（数组）上创建。

蜘蛛侠不会飞·2020-08-10 00:58

用spark streaming实时读取hdfs数据并写入elasticsearch中

{SparkConf,SparkContext}impor

数据僧人·2020-08-10 00:26

pyspark操作 rdd dataframe，pyspark.sql.functions详解行列变换

官网文档可以参考：https://spark.apache.org/docs/latest/api/python/index.htmldataframe读写生成以逗号分隔的数据stringCSVRDD=spark.sparkContext.parallelize

数据架构师·2020-08-09 22:57

Spark Web界面

1.7SparkWeb界面每一个SparkContext发布一个web界面，默认端口是4040，它显示了应用程序的有用信息。

John00000001·2020-08-09 18:31

spark rdd checkpoint的用法注意点

/***MarkthisRDDforcheckpointing.Itwillbesavedtoafileinsidethecheckpoint*directorysetwith`SparkContext

xiao_jun_0820·2020-08-09 15:40

IDEA本地调试spark任务

下面是获取SparkContext的代码：finalSparkConfsparkConf=newSparkConf();sparkCo

淅沥加油·2020-08-09 09:25

SparkContext和SparkSession不能序列化分析，解决方法

SparkContext和SparkSession不能序列化分析，解决方法报错信息错误原因解决方法解决方法1：解决方法2：需要注意报错信息Causedby:java.io.NotSerializableException

菜园子哇·2020-08-09 07:52

Spark转换算子和执行算子

一般来说,转换操作是对一个数据集里的所有记录执行某种函数,从而使记录发生改变;而执行通常是运行某些计算或聚合操作,并将结果返回运行SparkContext的驱动程序。

caiandyong·2020-08-09 07:25

【Spark】RDD操作详解4——Action算子

本质上在Actions算子中通过SparkContext执行提交作业的runJob操作，触发了RDDDAG的执行。

JasonDing1354·2020-08-09 06:23

Spark之RDD动作算子（Action）大全

对于动作算子来说，本质上动作算子是通过SparkContext执行提交作业操作，触发RDDDAG（有向无环图）的执行；所有的动作算子都是急迫型（non-lazy），RDD遇到Action就会立即计算。

天ヾ道℡酬勤·2020-08-09 05:56

spark中RDD算子分类整理

就是transaction算子，相反执行这个RDD时会触发SparkContext提交Job作业，那么它就是action算子。

导演我死哪儿·2020-08-09 05:42

scala里SparkContext 设置spark master url

如果选择的部署模式是standalone且部署到你配置的这个集群上，可以指定MASTER=spark://ubuntu:7070下面解答spark在那里指定masterURL的问题：1.通过sparkshell，执行后进入交互界面MASTER=spark://IP:PORT./bin/spark-shell2.程序内指定（可以通过参数传入）valconf=newSparkConf().setMas

yangbosos·2020-08-09 03:43

10.6 Spark资源调度和任务调度-standalone模式

1，当每个worker启动起来之后，会向master注册信息(内容:当前worker进程所管理的资源情况)；这样Master就掌握了整个集群的资源情况2，当newSparkConf和SparkContext

心雨先生·2020-08-08 22:06

大数据之Spark面试题（不定时更新，欢迎补充）

3）Driver：运行程序的main方法，创建sparkcontext对象。

BoomLee·2020-08-08 12:55

pyspark sql、rdd实践

sparksqlfrompysparkimportSparkContextfrompyspark.sqlimportSparkSessionfrompyspark.sqlimportfunctionsasFfrompyspark.sql.typesimport*importmathsc=SparkContext

钢镚儿_e134·2020-08-07 17:16

Spark源码学习之RDD的常见算子(3)

sc.runJob行动算子调用sc即SparkContext的方法，但是sc的runJob方法有很多种。参数列表最长的这个才是关键，别的只是在调用它。

JiajunBernoulli·2020-08-06 11:06

5.Spark Streaming：StreamingContext详解

setAppName(appName).setMaster(master);valssc=newStreamingContext(conf,Seconds(1));StreamingContext，还可以使用已有的SparkContext

十点进修·2020-08-06 11:45

Spark任务调度

DriverRunner在work上启动5.DriverRunner运行DriverWrapper6.DriverWrapper在work上启动7.DriverWrapper运行提交的应用的main方法8.SparkContext

wowdd1·2020-08-05 21:54

[spark] Standalone模式下Driver资源调度及Executor分配流程

总结：思路：在Standalone模式下集群启动时，Worker会向Master注册，使得Master可以感知进而管理整个集群；Master通过借助Zookeeper，可以简单实现高可用性；而应用方通过SparkContext

蛮子72·2020-08-05 20:59

spark任务执行过程，源码分析和on Yarn调度过程

源码中调用了SparkContext的runJob()方法，根进源码发现底层调用的是DAGScheduler的runJob()方法。

§蜗牛§·2020-08-05 20:58

推荐频道

sparkcontext