E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark2
springboot2.0 操作
spark2
.x
一、首先很少有java连接spark的情况,一般是python,scala直接上了。二、话说,python也要引入pyspark,还有下载spark的lib,也挺麻烦的。只有scala可以直接调用spark-shell,还算好用。废话不多说,直接上代码三、完整的pom,不多不少刚刚好。强调下:版本号什么的都不能错,错了编译一定失败,MAVEN打包也失败。4.0.0org.springframewo
snetlogon20
·
2020-08-03 04:02
springboot2.0
spark
scala
spark sql 2.3 源码解读 - whole stage codegen (8)
wholestagecodegen是
spark2
.0以后引入的新特性,所以在最后单独把这一块拿出来讲一下。
sddyljsx
·
2020-08-03 04:02
Spark
Spark
Sql
2.3源码解读
spark sql 2.3 源码解读 - whole stage codegen (8)
wholestagecodegen是
spark2
.0以后引入的新特性,所以在最后单独把这一块拿出来讲一下。
sddyljsx
·
2020-08-03 04:02
Spark中的Catalyst
catalyst不仅仅是sql的一个解析器引擎,应看做spark新一代的解析器引擎,扩展到sparkstreaming、saprksql、graph等等;catalyst非常方便添加优化的技术,随意扩展,
spark2
Perkinl
·
2020-08-03 01:00
spark
Spark2
.4.3源码解析之总目录
1.Spark源码解析之启动脚本解析2.Spark源码解析之org.apache.spark.launcher.Main源码解析3.Spark源码解析之Master启动流程解析4.Spark源码解析之Master实例化流程解析5.Spark源码解析之worker启动流程解析6.Spark源码解析之Worker实例化流程解析7.Spark源码解析之org.apache.spark.deploy.Sp
心有余力
·
2020-08-03 01:22
Spark
Spark DataSet介绍
相关文章将会发布在我的个人博客专栏《
Spark2
.0机器学习》,欢迎大家关注。Spark的发展史可以简单概括为三个阶段,分别为:RDD、DataFrame和DataSet。
象在舞
·
2020-08-03 00:59
Scala
Spark
机器学习
Spark
2.0机器学习
Spark2
.3.1与Springboot集成
前几天有项目用到了大数据的计算服务,最后选了spark作大数据计算用版本用2.3.1,之前是大数据小白,没在项目里用过。项目用的是springboot,版本是2.0.3踩了版本的太多坑了,版本号得写清楚了。这次集成最重要的一件事是,查了好多帖子也都没有写到这一点的,如果是项目里不使用spark集群的话:只需要在项目里集成spark的相关包,就可以在本机使用spark计算,不需要在服务器再搭建spa
chouzhoujiu6282
·
2020-08-02 23:04
Spark DataFrame的groupBy vs groupByKey
所用spark版本:
spark2
.1.0先从使用的角度来说,groupBy:groupBy类
weixin_33849942
·
2020-08-02 21:13
Spark2
.3(四十三):Spark Broadcast总结
为什么要使用广播(broadcast)变量?Spark中因为算子中的真正逻辑是发送到Executor中去运行的,所以当Executor中需要引用外部变量时,需要使用广播变量。进一步解释:如果executor端用到了Driver的变量,如果不使用广播变量在Executor有多少task就有多少Driver端的变量副本。如果Executor端用到了Driver的变量,如果使用广播变量在每个Execut
weixin_30765475
·
2020-08-02 21:08
Spark 2.0介绍:Dataset介绍和使用
Dataset2.3第三步、分割单词并且对单词进行分组2.4第四步、计数2.5第五步、打印结果3完整的代码Dataset介绍Dataset是从Spark1.6开始引入的一个新的抽象,当时还是处于alpha版本;然而在
Spark2
.0
技术蚂蚁
·
2020-08-02 21:04
Spark
Spark SQL源码剖析(一)SQL解析框架Catalyst流程概述
以
Spark2
.4.3为例,SparkSQL这个大模块分为三个子模块,如下图所示其中Catalyst可以说是Spark内部专门用来解析SQL的一个框架,在Hive中类似的框架是Calcite(将SQL解析成
zzzzMing
·
2020-08-02 20:00
大数据
Spark DataFrame 的 groupBy vs groupByKey
所用spark版本:
spark2
.1.0先从使用的角度来说,**groupBy:**
zzzzMing
·
2020-08-02 20:38
大数据计算
大数据
spark1.x和
spark2
.x兼容Iterable和Iterator问题
1.spark1.x升级到
spark2
.x对于普通的spark来说,变动不大:举一个最简单的实例:spark1.x1publicstaticJavaRDDworkJob(JavaRDDspark1Rdd
aoayyu826824
·
2020-08-02 17:10
大数据
java
Spark RDD的默认分区数:(spark 2.1.0)
文章转载自:简书-我是亮哥:本文基于
Spark2
.1.0版本新手首先要明白几个配置:spark.default.parallelism:(默认的并发数)如果配置文件spark-default.conf中没有显示的配置
haixwang
·
2020-08-02 15:23
Hadoop
Spark
Hbase...
机器学习系列--KNN分类算法例子
url:机器学习系列--KNN分类算法用的是
spark2
.0.2,scala2.11importorg.apache.spark.
李孟lm
·
2020-08-01 14:12
数据挖掘
机器学习
使用Intellij Idea编写Spark应用程序(Scala+SBT)
运行环境Ubuntu16.04
Spark2
.1.0Intell
Sikalng
·
2020-08-01 09:12
hadoop
java
spark2
原理分析-BlockManagerMaster实现原理
概述本文讲说明spark中BlockManager的基本原理。BlockManager的基本概念BlockManager运行在spark的每个节点上(包括driver和executors),它提供了一个保存和获取本地或远端数据块到内存、磁盘、或off-heap中的统一接口。BlockManage的实现分析数据块管理的总体架构spark数据块管理的总体架构如下图所示:从该架构图可见,在spark的每
一 铭
·
2020-08-01 08:02
spark
大数据处理
深入浅出Spark原理
spark2
原理分析-TaskScheduler(task调度器)概览
概述本文介绍TaskScheduler的基本概念和总体框架。TaskScheduler负责提交Spark应用的任务(task)去执行。根据前面的分析,我们已经知道job的提交过程,如下图所示:在前面的文章中对stage的调度进行了介绍,现在我们介绍task的调度器:TaskScheduler。任务(Task)调度概述在Spark中,不同的部署模式和运行任务调度器也不相同,如下:部署模式运行模式ta
一 铭
·
2020-08-01 08:01
spark
深入浅出Spark原理
spark升级——java.lang.NoSuchMethodError问题分析
Troubleshootingwithjava.lang.NoSuchMethodErrorIssue背景
spark2
.3引入了一些实用的新特性,如orcread/writeoptimization,bucketjoinwithSQL
elviswuhm
·
2020-08-01 07:19
spark
Big Data (二):Spark入门教程
一、准备工作详见《Spark处理框架搭建【VM15+CentOS7+Hadoop2.7.2+Scala2.12.7+
Spark2
.3.1】》二、示例运行在.
流浪中的UncleLivin
·
2020-08-01 00:35
大数据
Apache Spark 2.0 在作业完成时却花费很长时间结束
怎么在Spark里面设置这个参数现象:大家在使用Apache
Spark2
.x的时候可能会遇到这种现象:虽然我们的SparkJobs已经全部完成了,但是我们的程序却还在执行。
Nice_N
·
2020-07-31 23:37
Spark系列
Spark Yarn Client模式spark.driver.host导致 Cannot assign requested address: Service 'sparkDriver' failed
1.背景[deploy@fideploycheetah-node]$/opt/cloudera/parcels/
SPARK2
/bin/
spark2
-submit--keytab/etc/security
九师兄
·
2020-07-31 21:03
大数据-spark
spark2
.2.0搭建standalone集群环境
在上一篇文章spark单机安装已经阐述了如何在单台服务器上安装spark本地环境,接下来本文介绍如何通过简单配置将所有安装好spark的服务器以集群方式组织并运行起来,本文将仅介绍spark自带的standalone模式。1.spark的几种运行模式主要分为单机模式和集群模式,其中,集群模式支持standalone,ApacheMesos,HadoopYarn等模式。standalone模式是sp
meepomiracle
·
2020-07-31 20:49
spark
Spark 复杂数据结构数组的Udf用法
在
spark2
.4.4下UDF写法有两种(scala)法一sql拼接valsparkSession=SparkSession.builder().appName("PKPMBimAnalyse").config
Method.Jiao
·
2020-07-31 20:00
机器学习与深度学习
深入浅出
Spark2
.1.0度量系统——Sink继承体系
阅读提示:阅读本文前,最好请阅读《
Spark2
.1.0——深入浅出度量系统》和《深入浅出
Spark2
.1.0度量系统——Source继承体系》。
泰山不老生
·
2020-07-31 16:14
大数据
Spark
Scala
Metrics
深入理解Spark
Spark2
.1.0——广播管理器BroadcastManager
BroadcastManager用于将配置信息和序列化后的RDD、Job以及ShuffleDependency等信息在本地存储。如果为了容灾,也会复制到其他节点上。创建BroadcastManager的代码实现如下。valbroadcastManager=newBroadcastManager(isDriver,conf,securityManager)BroadcastManager除了构造器定
泰山不老生
·
2020-07-31 16:14
大数据
Scala
Spark
深入理解Spark
深入浅出
Spark2
.1.0度量系统——Source继承体系
阅读提示:阅读本文前,最好请阅读《
Spark2
.1.0——深入浅出度量系统》一文。
泰山不老生
·
2020-07-31 16:14
大数据
Spark
Scala
Metrics
深入理解Spark
Spark2
.x中DataFrame的某列保存的数据,是包含一个结构的数组时,如何取出数据?
Spark2
.x中,当某列保存的数据是一个结构数组时,没有一种漂亮的取出方式,只能通过rdd去取。
atec2000
·
2020-07-31 15:21
Spark
【大数据】PageRank网页排名图算法(MapReduce Java+Spark Scala)
实验环境:ubuntu18.04hadoop2.7.1JDK1.8
spark2
.3.3scala2.11.8目录一、实验原理二、用MapReduce实现PageRank三、用Spark实现PageRank
倏然希然_
·
2020-07-31 14:39
#
spark
#
hadoop
大数据
PageRank
spark
MapReduce
scala
hadoop
Spark2
.1.0——深入浅出度量系统
对于一个系统而言,首先考虑要满足一些业务场景,并实现功能。随着系统功能越来越多,代码量级越来越高,系统的可维护性、可测试性、性能都会成为新的挑战,这时监控功能就变得越来越重要了。在国内,绝大多数IT公司的项目都以业务为导向,以完成功能为目标,这些项目在立项、设计、开发、上线的各个阶段,很少有人会考虑到监控的问题。在国内,开发人员能够认真的在代码段落中打印日志,就已经属于最优秀的程序员了。然而,在国
泰山不老生
·
2020-07-31 11:20
大数据
Spark
Metrics
深入理解Spark
Spark2
.1.0——存储体系概述
本书在5.7节曾介绍过存储体系的创建,那时只为帮助读者了解SparkEnv,现在是时候对Spark的存储体系进行详细的分析了。简单来讲,Spark存储体系是各个Driver、Executor实例中的BlockManager所组成的。但是从一个整体出发,把各个节点的BlockManager看成存储体系的一部分,那么存储体系还有更多衍生内容,比如块传输服务、map任务输出跟踪器、Shuffle管理器等
泰山不老生
·
2020-07-31 11:53
大数据
Spark
Scala
深入理解Spark
从零搭建大数据集群环境:Hadoop2.7.4 +
Spark2
.4.5 分布式部署
此部署教程为基于虚拟机的Hadoop2.7.4+
Spark2
.4.5完全分布式部署文档,虚拟机系统为centos7,读者可根据自己实际部署环境情况进行相应调整。
单字一个箫
·
2020-07-31 10:04
hadoop
spark
分布式
Spark2
.11 两种流操作 + Kafka
Spark2
.11两种流操作+Kafka
Spark2
.x自从引入了StructuredStreaming后,未来数据操作将逐步转化到DataFrame/DataSet,以下将介绍
Spark2
.x如何与Kafka0.10
flink58
·
2020-07-30 18:39
大数据平台
kafka spark steam 写入elasticsearch的部分问题
应用版本elasticsearch5.5
spark2
.2.0hadoop2.7依赖包版本dockercp/Users/cclient/.ivy2/cache/org.elasticsearch/elasticsearch-spark
weixin_30426879
·
2020-07-30 17:23
spark 连接kafka API 讲解
转自:http://blog.leanote.com/post/kobeliuziyang/
Spark2
.x%E8%BF%9E%E6%8E%A5Kafkaspark连接kafkaAPI各参数详细讲解一Spark
孩子加油孩子
·
2020-07-30 16:37
spark
kafka
解决sparkstreaming读取kafka中的json数据,消费后保存到MySQL中,报_corrupt_record和name错误的!!
所用软件版本:
spark2
.3.0IDEA2019.1kafka_2.11-01.0.2.2spark-streaming-kafka-0-10_2.11-2.3.0先贴出代码:packagecom.bd.sparkimportjava.util.Propertiesimportorg.apache.kafka.clients.consumer.ConsumerRecordimportorg.ap
reedom1991
·
2020-07-30 16:25
spark
Scala版RDD基本操作
开始学习用scala写spark啦,首先当然是介绍一下RDD的操作啦:1、创建SparkSession在
Spark2
.1中,SparkSession包括了SparkContext,若想使用SparkContext
文哥的学习日记
·
2020-07-30 16:03
记一次极其坑爹的Maven无法下载相关Jar包的问题:IDEA问题
org.apache.kudukudu-
spark2
_2.111.8.0报错如图#NOTE:ThisisaMavenResolverinternalimplementationfile,itsformatcanbechangedwithoutpriornotice
九师兄
·
2020-07-30 16:40
工具-maven
Spark2
.3.0 结构化流 进行streaming+kafka的可操作算子流
工作上正在进行Streaming算子的研究学习,需要做到在流的基础上,通过kafka接收数据到中间若干的计算算子,再到最后的输出。开始使用传统的streaming+kafka,但由于无法返回后续使用的dataset,只能放弃,后来大牛提出永spark的结构化流处理,于是经过参考文档资料编写了一个可以进行过程处理的streaming处理流程。(只有与主题相关的代码,其余设计工作的没贴,看看实现思想即
CODE男孩
·
2020-07-30 15:05
streaming
Sparkstreaming读取kafka数据写入hive和es
一、主要流程此demo用到的软件如下,软件需先自行安装springboot1.5.9.RELEASE、hadoop2.7.2、
spark2
.1.1、elasticsearch5.2.2、kafka0.10.2.1
天涯到处跑
·
2020-07-30 15:35
Spark Streaming接收Kafka数据存储到Hbase
我这里主要是改为了
spark2
.x的方式kafka生产数据闲话少叙,
weixin_30826095
·
2020-07-30 13:32
大数据
java
scala
SparkStreaming 解析Kafka JSON格式数据
SparkStreaming解析KafkaJSON格式数据版本说明:
Spark2
.3.0Kafka2.11-2.0.0前言在项目中,SparkStreaming整合Kafka时,通常Kafka发送的数据是以
shirukai
·
2020-07-30 13:17
Kafka
Spark
在Spark结构化流readStream、writeStream 输入输出,及过程ETL
real-time-end-to-end-integration-with-apache-kafka-in-apache-sparks-structured-streaming.html本文翻译自DataBricks官方博客,主要描述了Apache
Spark2
.0
www.thutmose.cn
·
2020-07-30 13:23
SparkStreaming
SparkStreaming 消费kafka数据,并存入Elasticsearch(java语言)
开发环境:
spark2
.3.1,es6.6.1,jdk1.8maven依赖:见末尾完整代码packagespark;importcom.google.gson.Gson;importorg.apache.kafka.clients.consumer.ConsumerConfig
深圳摆地摊er
·
2020-07-30 13:09
projectDemo
Spark2
Dataset DataFrame空值null,NaN判断和处理
importorg.apache.spark.sql.SparkSessionimportorg.apache.spark.sql.Datasetimportorg.apache.spark.sql.Rowimportorg.apache.spark.sql.DataFrameimportorg.apache.spark.sql.Columnimportorg.apache.spark.sql.D
weixin_34138255
·
2020-07-30 12:33
CDH5.11 离线安装或者升级
spark2
.x详细步骤
简介:在我的CDH5.11集群中,默认安装的spark是1.6版本,这里需要将其升级为
spark2
.x版本。
疯狂的暴走蜗牛
·
2020-07-30 12:19
CDH
spark
spark结构化数据处理:Spark SQL、DataFrame和Dataset
本文主要讲解Spark1.6.x的结构化数据处理相关东东,但因Spark发展迅速(本文的写作时值Spark1.6.2发布之际,并且
Spark2
.0的预览版本也已发布许久),因此请随时关注SparkSQL
dianzhouyu2189
·
2020-07-30 12:16
spark2
.1.0完全分布式集群搭建-hadoop2.7.3
搭建spark集群:要求安装JDK,完全分布式HADOOP2.7集群。环境:VM搭建的三个虚拟机,均采用centos-6.8-64.iso机器IP与名称对应关系如下:192.168.152.192master192.168.152.193slave1192.168.152.194slave2JDK请自行安装。hadoop2.7集群安装可以参考我的文章搭建hadoop完全分布式集群scala版本:s
sand_clock
·
2020-07-30 09:52
spark
hadoop2.7.3下
spark2
.1.0安装_yarn作业提交
已安装hadoop2.7.3,安装
spark2
.1.0设f1为master,f2至f5位worker软件安装目录设为/data1-下载安装scala-2.11.8https://www.scala-lang.org
hjw199089
·
2020-07-30 08:25
[3]Spark
《程序员》3月精彩内容:大数据技术辨析与深度实践
探讨数据时代构建高可用数据库的新技术(崔秋,PingCAP联合创始人)使用Marathon管理
Spark2
.0.2实现运行运行期扩容的executor调度(李雪岩,徐磊,吕晓旭)解析阿里云分布式调度
csdn_csdn__AI
·
2020-07-30 08:24
上一页
12
13
14
15
16
17
18
19
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他