E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
sparkcontext
Spark通过netcat来监听端口访问数据
{SparkConf,
SparkContext
}im
new_buff_007
·
2020-08-18 11:43
spark
Spark Streaming DSstream 的updateByKey用法
{SparkConf,
SparkContext
}objectStatefulWordCountOnLine{defmain(args:Array[String]):Unit={/
花纵酒
·
2020-08-18 11:16
Spark SQL 两表关联
{
SparkContext
,SparkConf}//definecaseclassforusercaseclassUser(userID:String,gender:String,age:Int
dgsdaga3026010
·
2020-08-18 11:41
SparkSQL 基础编程
一、介绍SparkCore中,如果想要执行应用程序,需要首先构建上下文环境对象
SparkContext
,SparkSQL其实可以理解为对SparkCore的一种封装,不仅仅在模型上进行了封装,上下文环境对象也进行了封装
火成哥哥
·
2020-08-18 10:19
spark
数据库
大数据
java
spark
spark-sql
大数据基础之SparkStreaming——SparkStreaming读写Kafka
defmain(args:Array[String]):Unit={valconf=newSparkConf().setAppName("mytest").setMaster("local[2]")valsc=
SparkContext
.getOrCreate
Clozzz
·
2020-08-18 10:22
Kafka
spark
kafka
大数据
【PySpark学习笔记二】DataFrame用法
Python到RDD之间的通信在PySpark驱动器中,
SparkContext
通过Py4J启动一个JavaSparkContext的JVM,所有的RDD转换最初都映射到Java中的PythonRDD对象
roguesir
·
2020-08-18 10:42
PySpark
Spark学习笔记
DataFrames入门指南:创建和操作DataFrame
从csv文件创建DataFrame主要包括以下几步骤:1、在build.sbt文件里面添加spark-csv支持库;2、创建SparkConf对象,其中包括Spark运行所有的环境信息;3、创建
SparkContext
weixin_34281477
·
2020-08-18 05:58
not serializable result: org.apache.kafka.clients.consumer.ConsumerRecord
解决方法创建
SparkContext
时设置一个属性set("spark.serializer","org.apache.spark.serializer.KryoSerializer")Exceptioninthread"main"org.apache.spark.SparkException
超哥_cn
·
2020-08-18 03:41
Spark必背面试题
1,spark的工作机制用户在客户`端提交作业后,会由Driver运行main方法并创建
SparkContext
上下文,
SparkContext
向资源管理器申请资源,启动Execotor进程,并通过执行
写scala的老刘
·
2020-08-17 16:53
Spark 连接 Hbase 配置
{
SparkContext
,SparkConf
zhou_zhao_xu
·
2020-08-17 10:35
Spark 异常汇总(持续更新)
setspark.driver.allowMultipleContexts=true.ThecurrentlyrunningSparkContextwascreatedat:org.apache.spark.
SparkContext
weixin_30905133
·
2020-08-16 15:37
遇到报错:ERROR spark.
SparkContext
: Error initializing
SparkContext
Systemmemory100663296mustbeatleast4.718592E8.Pleaseusealargerheapsize.在Eclipse里开发Spark项目,尝试直接在spark里运行程序的时候,遇到下面这个报错:很明显,这是JVM申请的memory不够导致无法启动
SparkContext
技多不压身
·
2020-08-16 01:19
spark
spark
spark——初识
文章目录0.待学习文章1.pyspark.
SparkContext
的join2.SparkSession3.spark和hadoop的关系0.待学习文章现在还不懂,但需要不断看:http://www.louisvv.com
呤叮
·
2020-08-15 08:36
spark
python
Spark on YARN-Cluster和YARN-Client的区别
YARN-Cluster和YARN-Client的区别(1)
SparkContext
初始化不同,这也导致了Driver所在位置的不同,YarnCluster的Driver是在集群的某一台NM上,但是Yarn-Client
wjl7813
·
2020-08-14 22:27
spark
yarn-cluster和yarn-client的区别
yarn-cluster和yarn-client的区别
SparkContext
初始化不同,这也导致了Driver所在位置的不同,Yarn-Cluster的Driver是在集群的某一台NM上,但是Yarn-Client
xiaolin_xinji
·
2020-08-14 21:50
Spark
Spark的Cluster模式架构图
https://spark.apache.org/docs/latest/cluster-overview.html(1)DriverProgram就是程序员设计的Spark程序,在Spark中必须定义
SparkContext
圈圈任
·
2020-08-14 21:19
Spark
原理介绍
Spark
spark 加载多个目录; RDD输出到hdfs文件压缩
valinputPath=List("hdfs://localhost:9000/test/hiveTest","hdfs://localhost:9000/test/hiveTest2").mkString(",")
sparkContext
.textFile
蓝天688
·
2020-08-14 20:10
spark
Spark与大数据处理常用操作
初始化RDDRDD的transform1Spark可以分为1个driver(笔记本电脑或者集群网关机器上)和若干个executor(在各个节点上),通过
SparkContext
(简称sc)连接Spark
jose_yubin
·
2020-08-14 18:43
机器学习
spark运行模式
spark运行模式列表基本上,spark的运行模式取决于传递给
sparkcontext
的deployMode和master环境变量的值,个别模式还需要辅助的程序接口来配合使用,目前master有LOCAL
Xlucas
·
2020-08-14 15:32
spark
从0开始学习spark(7)SparkCore 核心知识复习与核心机制详解
Spark零基础入门第七课Spark的核心概念:Spark运行架构特点Spark运行架构图:sparkstage阶段划分算法图:spark-on-yarn模式图:
sparkContext
的构建的过程SparkMasterHA
蛋蛋淡淡定
·
2020-08-14 11:30
spark
从0开始学习spark(3)Spark Core 核心知识
Spark零基础入门第三课1.Spark作业调度方式1.1cluster和client的区别2.spark核心功能介绍:2.1
SparkContext
2.2存储体系2.3计算引擎2.4部署模式3.Spark
蛋蛋淡淡定
·
2020-08-14 11:29
spark
Spark Shell简单使用
/bin/spark-shell在SparkShell中,有一个专有的
SparkContext
已经为您创建好了,变量名叫做sc。自己创建的
SparkContext
将无法工作
universe_ant
·
2020-08-14 08:22
Spark
SparkContext
的parallelize的参数
在一个Spark程序的开始部分,有好多是用
sparkContext
的parallelize制作RDD的,是ParallelCollectionRDD,创建一个并行集合。
小尼人00
·
2020-08-14 07:52
Hadoop
/
数据挖掘
最新 请自取谢谢
{SparkConf,
SparkContext
}importscala.collection.mutableimportscala.util.parsing.json.JSON/***@authorshkst
加油吧~!少年
·
2020-08-13 10:52
大数据
下载
spark
Spark 源码分析(七): DAGScheduler 源码分析1(stage 划分算法)
前面几篇文章已经说清楚了从spark任务提交到driver启动,然后执行main方法,初始化
SparkContext
对象。
stone-zhu
·
2020-08-11 21:38
BigData
spark
源码分析
pyspark 读取csv文件创建DataFrame
方法一:用pandas辅助frompysparkimportSparkContextfrompyspark.sqlimportSQLContextimportpandasaspdsc=
SparkContext
Stephen__Chou
·
2020-08-11 05:43
库用法
Spark
SparkStreaming-DStream与DataFrame SQL联合操作
查询使用的SparkSession可由StreamingContext中的
SparkContext
来创建,以此用来进行DataFrameSql操作。
.Mr Zhang
·
2020-08-11 05:42
Spark
Spark简单读写Hive
frompysparkimportSparkContextfrompysparkimportSparkConffrompyspark.sqlimportHiveContextconf=SparkConf().setAppName('test')sc=
SparkContext
云中的鱼
·
2020-08-11 04:36
大数据技术
Spark高斯混合模型
{SparkConf,
SparkContext
}importorg.apache.spark.mllib.clustering.GaussianMixtureimportorg.apache.spa
wguangliang
·
2020-08-11 00:22
数据挖掘
Spark
spark读取ES数据
{SparkConf,
SparkContext
}importorg.elasticsearch.spark.
TracyGao01
·
2020-08-10 01:29
spark
PySpark 基础知识-RDD 弹性分布式数据集 和 DataFrame
第二种:调用
SparkContext
的parallelize方法,在Driver中一个已经存在的集合(数组)上创建。
蜘蛛侠不会飞
·
2020-08-10 00:58
spark
用spark streaming实时读取hdfs数据并写入elasticsearch中
{SparkConf,
SparkContext
}impor
数据僧人
·
2020-08-10 00:26
spark
sqoop
pyspark操作 rdd dataframe,pyspark.sql.functions详解 行列变换
官网文档可以参考:https://spark.apache.org/docs/latest/api/python/index.htmldataframe读写生成以逗号分隔的数据stringCSVRDD=spark.
sparkContext
.parallelize
数据架构师
·
2020-08-09 22:57
大数据
系列课程
快速学习实战应用
Spark Web界面
1.7SparkWeb界面每一个
SparkContext
发布一个web界面,默认端口是4040,它显示了应用程序的有用信息。
John00000001
·
2020-08-09 18:31
Hadoop
Scala
Spark
spark rdd checkpoint的用法注意点
/***MarkthisRDDforcheckpointing.Itwillbesavedtoafileinsidethecheckpoint*directorysetwith`
SparkContext
xiao_jun_0820
·
2020-08-09 15:40
spark
IDEA本地调试spark任务
下面是获取
SparkContext
的代码:finalSparkConfsparkConf=newSparkConf();sparkCo
淅沥加油
·
2020-08-09 09:25
spark
SparkContext
和SparkSession不能序列化分析,解决方法
SparkContext
和SparkSession不能序列化分析,解决方法报错信息错误原因解决方法解决方法1:解决方法2:需要注意报错信息Causedby:java.io.NotSerializableException
菜园子哇
·
2020-08-09 07:52
大数据
Spark转换算子和执行算子
一般来说,转换操作是对一个数据集里的所有记录执行某种函数,从而使记录发生改变;而执行通常是运行某些计算或聚合操作,并将结果返回运行
SparkContext
的驱动程序。
caiandyong
·
2020-08-09 07:25
spark
【Spark】RDD操作详解4——Action算子
本质上在Actions算子中通过
SparkContext
执行提交作业的runJob操作,触发了RDDDAG的执行。
JasonDing1354
·
2020-08-09 06:23
【Spark】
Spark之RDD动作算子(Action)大全
对于动作算子来说,本质上动作算子是通过
SparkContext
执行提交作业操作,触发RDDDAG(有向无环图)的执行;所有的动作算子都是急迫型(non-lazy),RDD遇到Action就会立即计算。
天ヾ道℡酬勤
·
2020-08-09 05:56
spark
spark
spark中RDD算子分类整理
就是transaction算子,相反执行这个RDD时会触发
SparkContext
提交Job作业,那么它就是action算子。
导演我死哪儿
·
2020-08-09 05:42
spark
scala里
SparkContext
设置spark master url
如果选择的部署模式是standalone且部署到你配置的这个集群上,可以指定MASTER=spark://ubuntu:7070下面解答spark在那里指定masterURL的问题:1.通过sparkshell,执行后进入交互界面MASTER=spark://IP:PORT./bin/spark-shell2.程序内指定(可以通过参数传入)valconf=newSparkConf().setMas
yangbosos
·
2020-08-09 03:43
spark
10.6 Spark资源调度和任务调度-standalone模式
1,当每个worker启动起来之后,会向master注册信息(内容:当前worker进程所管理的资源情况);这样Master就掌握了整个集群的资源情况2,当newSparkConf和
SparkContext
心雨先生
·
2020-08-08 22:06
大数据-Spark
逐渐了解大数据
大数据之Spark面试题(不定时更新,欢迎补充)
3)Driver:运行程序的main方法,创建
sparkcontext
对象。
BoomLee
·
2020-08-08 12:55
面试
pyspark sql、rdd实践
sparksqlfrompysparkimportSparkContextfrompyspark.sqlimportSparkSessionfrompyspark.sqlimportfunctionsasFfrompyspark.sql.typesimport*importmathsc=
SparkContext
钢镚儿_e134
·
2020-08-07 17:16
Spark源码学习之RDD的常见算子(3)
sc.runJob行动算子调用sc即
SparkContext
的方法,但是sc的runJob方法有很多种。参数列表最长的这个才是关键,别的只是在调用它。
JiajunBernoulli
·
2020-08-06 11:06
Spark
5.Spark Streaming:StreamingContext详解
setAppName(appName).setMaster(master);valssc=newStreamingContext(conf,Seconds(1));StreamingContext,还可以使用已有的
SparkContext
十点进修
·
2020-08-06 11:45
spark
Spark任务调度
DriverRunner在work上启动5.DriverRunner运行DriverWrapper6.DriverWrapper在work上启动7.DriverWrapper运行提交的应用的main方法8.
SparkContext
wowdd1
·
2020-08-05 21:54
spark
[spark] Standalone模式下Driver资源调度及Executor分配流程
总结:思路:在Standalone模式下集群启动时,Worker会向Master注册,使得Master可以感知进而管理整个集群;Master通过借助Zookeeper,可以简单实现高可用性;而应用方通过
SparkContext
蛮子72
·
2020-08-05 20:59
大数据
spark任务执行过程,源码分析和on Yarn调度过程
源码中调用了
SparkContext
的runJob()方法,根进源码发现底层调用的是DAGScheduler的runJob()方法。
§蜗牛§
·
2020-08-05 20:58
spark
上一页
8
9
10
11
12
13
14
15
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他