spark2 第16页

springboot2.0 操作 spark2.x

一、首先很少有java连接spark的情况，一般是python,scala直接上了。二、话说，python也要引入pyspark，还有下载spark的lib,也挺麻烦的。只有scala可以直接调用spark-shell,还算好用。废话不多说，直接上代码三、完整的pom，不多不少刚刚好。强调下：版本号什么的都不能错，错了编译一定失败，MAVEN打包也失败。4.0.0org.springframewo

snetlogon20·2020-08-03 04:02

spark sql 2.3 源码解读 - whole stage codegen (8)

wholestagecodegen是spark2.0以后引入的新特性，所以在最后单独把这一块拿出来讲一下。

sddyljsx·2020-08-03 04:02

spark sql 2.3 源码解读 - whole stage codegen (8)

wholestagecodegen是spark2.0以后引入的新特性，所以在最后单独把这一块拿出来讲一下。

sddyljsx·2020-08-03 04:02

Spark中的Catalyst

catalyst不仅仅是sql的一个解析器引擎，应看做spark新一代的解析器引擎，扩展到sparkstreaming、saprksql、graph等等；catalyst非常方便添加优化的技术，随意扩展，spark2

Perkinl·2020-08-03 01:00

Spark2.4.3源码解析之总目录

1.Spark源码解析之启动脚本解析2.Spark源码解析之org.apache.spark.launcher.Main源码解析3.Spark源码解析之Master启动流程解析4.Spark源码解析之Master实例化流程解析5.Spark源码解析之worker启动流程解析6.Spark源码解析之Worker实例化流程解析7.Spark源码解析之org.apache.spark.deploy.Sp

心有余力·2020-08-03 01:22

Spark DataSet介绍

象在舞·2020-08-03 00:59

Spark2.3.1与Springboot集成

前几天有项目用到了大数据的计算服务，最后选了spark作大数据计算用版本用2.3.1，之前是大数据小白，没在项目里用过。项目用的是springboot,版本是2.0.3踩了版本的太多坑了，版本号得写清楚了。这次集成最重要的一件事是，查了好多帖子也都没有写到这一点的，如果是项目里不使用spark集群的话：只需要在项目里集成spark的相关包，就可以在本机使用spark计算，不需要在服务器再搭建spa

chouzhoujiu6282·2020-08-02 23:04

Spark DataFrame的groupBy vs groupByKey

所用spark版本：spark2.1.0先从使用的角度来说，groupBy：groupBy类

weixin_33849942·2020-08-02 21:13

Spark2.3（四十三）：Spark Broadcast总结

为什么要使用广播(broadcast)变量？Spark中因为算子中的真正逻辑是发送到Executor中去运行的，所以当Executor中需要引用外部变量时，需要使用广播变量。进一步解释：如果executor端用到了Driver的变量，如果不使用广播变量在Executor有多少task就有多少Driver端的变量副本。如果Executor端用到了Driver的变量，如果使用广播变量在每个Execut

weixin_30765475·2020-08-02 21:08

Spark 2.0介绍：Dataset介绍和使用

Dataset2.3第三步、分割单词并且对单词进行分组2.4第四步、计数2.5第五步、打印结果3完整的代码Dataset介绍Dataset是从Spark1.6开始引入的一个新的抽象，当时还是处于alpha版本；然而在Spark2.0

技术蚂蚁·2020-08-02 21:04

Spark SQL源码剖析（一）SQL解析框架Catalyst流程概述

以Spark2.4.3为例，SparkSQL这个大模块分为三个子模块，如下图所示其中Catalyst可以说是Spark内部专门用来解析SQL的一个框架，在Hive中类似的框架是Calcite（将SQL解析成

zzzzMing·2020-08-02 20:00

Spark DataFrame 的 groupBy vs groupByKey

所用spark版本：spark2.1.0先从使用的角度来说，**groupBy：**

zzzzMing·2020-08-02 20:38

spark1.x和spark2.x兼容Iterable和Iterator问题

1.spark1.x升级到spark2.x对于普通的spark来说,变动不大:举一个最简单的实例:spark1.x1publicstaticJavaRDDworkJob(JavaRDDspark1Rdd

aoayyu826824·2020-08-02 17:10

Spark RDD的默认分区数：（spark 2.1.0）

文章转载自：简书-我是亮哥：本文基于Spark2.1.0版本新手首先要明白几个配置：spark.default.parallelism：（默认的并发数）如果配置文件spark-default.conf中没有显示的配置

haixwang·2020-08-02 15:23

机器学习系列--KNN分类算法例子

url:机器学习系列--KNN分类算法用的是spark2.0.2,scala2.11importorg.apache.spark.

李孟lm·2020-08-01 14:12

使用Intellij Idea编写Spark应用程序（Scala+SBT）

运行环境Ubuntu16.04Spark2.1.0Intell

Sikalng·2020-08-01 09:12

spark2原理分析-BlockManagerMaster实现原理

概述本文讲说明spark中BlockManager的基本原理。BlockManager的基本概念BlockManager运行在spark的每个节点上(包括driver和executors)，它提供了一个保存和获取本地或远端数据块到内存、磁盘、或off-heap中的统一接口。BlockManage的实现分析数据块管理的总体架构spark数据块管理的总体架构如下图所示：从该架构图可见，在spark的每

一铭·2020-08-01 08:02

spark2原理分析-TaskScheduler(task调度器)概览

概述本文介绍TaskScheduler的基本概念和总体框架。TaskScheduler负责提交Spark应用的任务(task)去执行。根据前面的分析，我们已经知道job的提交过程，如下图所示：在前面的文章中对stage的调度进行了介绍，现在我们介绍task的调度器:TaskScheduler。任务(Task)调度概述在Spark中，不同的部署模式和运行任务调度器也不相同，如下：部署模式运行模式ta

一铭·2020-08-01 08:01

spark升级——java.lang.NoSuchMethodError问题分析

Troubleshootingwithjava.lang.NoSuchMethodErrorIssue背景spark2.3引入了一些实用的新特性，如orcread/writeoptimization,bucketjoinwithSQL

elviswuhm·2020-08-01 07:19

Big Data （二）：Spark入门教程

一、准备工作详见《Spark处理框架搭建【VM15+CentOS7+Hadoop2.7.2+Scala2.12.7+Spark2.3.1】》二、示例运行在.

流浪中的UncleLivin·2020-08-01 00:35

Apache Spark 2.0 在作业完成时却花费很长时间结束

怎么在Spark里面设置这个参数现象:大家在使用ApacheSpark2.x的时候可能会遇到这种现象：虽然我们的SparkJobs已经全部完成了，但是我们的程序却还在执行。

Nice_N·2020-07-31 23:37

Spark Yarn Client模式spark.driver.host导致 Cannot assign requested address: Service 'sparkDriver' failed

1.背景[deploy@fideploycheetah-node]$/opt/cloudera/parcels/SPARK2/bin/spark2-submit--keytab/etc/security

九师兄·2020-07-31 21:03

spark2.2.0搭建standalone集群环境

在上一篇文章spark单机安装已经阐述了如何在单台服务器上安装spark本地环境，接下来本文介绍如何通过简单配置将所有安装好spark的服务器以集群方式组织并运行起来，本文将仅介绍spark自带的standalone模式。1.spark的几种运行模式主要分为单机模式和集群模式，其中，集群模式支持standalone，ApacheMesos,HadoopYarn等模式。standalone模式是sp

meepomiracle·2020-07-31 20:49

Spark 复杂数据结构数组的Udf用法

在spark2.4.4下UDF写法有两种(scala)法一sql拼接valsparkSession=SparkSession.builder().appName("PKPMBimAnalyse").config

Method.Jiao·2020-07-31 20:00

深入浅出Spark2.1.0度量系统——Sink继承体系

阅读提示：阅读本文前，最好请阅读《Spark2.1.0——深入浅出度量系统》和《深入浅出Spark2.1.0度量系统——Source继承体系》。

泰山不老生·2020-07-31 16:14

Spark2.1.0——广播管理器BroadcastManager

BroadcastManager用于将配置信息和序列化后的RDD、Job以及ShuffleDependency等信息在本地存储。如果为了容灾，也会复制到其他节点上。创建BroadcastManager的代码实现如下。valbroadcastManager=newBroadcastManager(isDriver,conf,securityManager)BroadcastManager除了构造器定

泰山不老生·2020-07-31 16:14

深入浅出Spark2.1.0度量系统——Source继承体系

阅读提示：阅读本文前，最好请阅读《Spark2.1.0——深入浅出度量系统》一文。

泰山不老生·2020-07-31 16:14

Spark2.x中DataFrame的某列保存的数据，是包含一个结构的数组时，如何取出数据？

Spark2.x中，当某列保存的数据是一个结构数组时，没有一种漂亮的取出方式，只能通过rdd去取。

atec2000·2020-07-31 15:21

【大数据】PageRank网页排名图算法（MapReduce Java+Spark Scala）

实验环境：ubuntu18.04hadoop2.7.1JDK1.8spark2.3.3scala2.11.8目录一、实验原理二、用MapReduce实现PageRank三、用Spark实现PageRank

倏然希然_·2020-07-31 14:39

Spark2.1.0——深入浅出度量系统

对于一个系统而言，首先考虑要满足一些业务场景，并实现功能。随着系统功能越来越多，代码量级越来越高，系统的可维护性、可测试性、性能都会成为新的挑战，这时监控功能就变得越来越重要了。在国内，绝大多数IT公司的项目都以业务为导向，以完成功能为目标，这些项目在立项、设计、开发、上线的各个阶段，很少有人会考虑到监控的问题。在国内，开发人员能够认真的在代码段落中打印日志，就已经属于最优秀的程序员了。然而，在国

泰山不老生·2020-07-31 11:20

Spark2.1.0——存储体系概述

本书在5.7节曾介绍过存储体系的创建，那时只为帮助读者了解SparkEnv，现在是时候对Spark的存储体系进行详细的分析了。简单来讲，Spark存储体系是各个Driver、Executor实例中的BlockManager所组成的。但是从一个整体出发，把各个节点的BlockManager看成存储体系的一部分，那么存储体系还有更多衍生内容，比如块传输服务、map任务输出跟踪器、Shuffle管理器等

泰山不老生·2020-07-31 11:53

从零搭建大数据集群环境：Hadoop2.7.4 + Spark2.4.5 分布式部署

此部署教程为基于虚拟机的Hadoop2.7.4+Spark2.4.5完全分布式部署文档，虚拟机系统为centos7，读者可根据自己实际部署环境情况进行相应调整。

单字一个箫·2020-07-31 10:04

Spark2.11 两种流操作 + Kafka

Spark2.11两种流操作+KafkaSpark2.x自从引入了StructuredStreaming后，未来数据操作将逐步转化到DataFrame/DataSet，以下将介绍Spark2.x如何与Kafka0.10

flink58·2020-07-30 18:39

kafka spark steam 写入elasticsearch的部分问题

应用版本elasticsearch5.5spark2.2.0hadoop2.7依赖包版本dockercp/Users/cclient/.ivy2/cache/org.elasticsearch/elasticsearch-spark

weixin_30426879·2020-07-30 17:23

spark 连接kafka API 讲解

转自：http://blog.leanote.com/post/kobeliuziyang/Spark2.x%E8%BF%9E%E6%8E%A5Kafkaspark连接kafkaAPI各参数详细讲解一Spark

孩子加油孩子·2020-07-30 16:37

解决sparkstreaming读取kafka中的json数据，消费后保存到MySQL中，报_corrupt_record和name错误的！！

所用软件版本：spark2.3.0IDEA2019.1kafka_2.11-01.0.2.2spark-streaming-kafka-0-10_2.11-2.3.0先贴出代码：packagecom.bd.sparkimportjava.util.Propertiesimportorg.apache.kafka.clients.consumer.ConsumerRecordimportorg.ap

reedom1991·2020-07-30 16:25

Scala版RDD基本操作

开始学习用scala写spark啦，首先当然是介绍一下RDD的操作啦：1、创建SparkSession在Spark2.1中，SparkSession包括了SparkContext，若想使用SparkContext

文哥的学习日记·2020-07-30 16:03

记一次极其坑爹的Maven无法下载相关Jar包的问题：IDEA问题

org.apache.kudukudu-spark2_2.111.8.0报错如图#NOTE:ThisisaMavenResolverinternalimplementationfile,itsformatcanbechangedwithoutpriornotice

九师兄·2020-07-30 16:40

Spark2.3.0 结构化流进行streaming+kafka的可操作算子流

工作上正在进行Streaming算子的研究学习，需要做到在流的基础上，通过kafka接收数据到中间若干的计算算子，再到最后的输出。开始使用传统的streaming+kafka，但由于无法返回后续使用的dataset，只能放弃，后来大牛提出永spark的结构化流处理，于是经过参考文档资料编写了一个可以进行过程处理的streaming处理流程。(只有与主题相关的代码，其余设计工作的没贴，看看实现思想即

CODE男孩·2020-07-30 15:05

Sparkstreaming读取kafka数据写入hive和es

一、主要流程此demo用到的软件如下，软件需先自行安装springboot1.5.9.RELEASE、hadoop2.7.2、spark2.1.1、elasticsearch5.2.2、kafka0.10.2.1

天涯到处跑·2020-07-30 15:35

Spark Streaming接收Kafka数据存储到Hbase

我这里主要是改为了spark2.x的方式kafka生产数据闲话少叙，

weixin_30826095·2020-07-30 13:32

SparkStreaming 解析Kafka JSON格式数据

SparkStreaming解析KafkaJSON格式数据版本说明：Spark2.3.0Kafka2.11-2.0.0前言在项目中，SparkStreaming整合Kafka时，通常Kafka发送的数据是以

shirukai·2020-07-30 13:17

在Spark结构化流readStream、writeStream 输入输出，及过程ETL

real-time-end-to-end-integration-with-apache-kafka-in-apache-sparks-structured-streaming.html本文翻译自DataBricks官方博客，主要描述了ApacheSpark2.0

www.thutmose.cn·2020-07-30 13:23

SparkStreaming 消费kafka数据，并存入Elasticsearch（java语言）

开发环境：spark2.3.1，es6.6.1，jdk1.8maven依赖：见末尾完整代码packagespark;importcom.google.gson.Gson;importorg.apache.kafka.clients.consumer.ConsumerConfig

深圳摆地摊er·2020-07-30 13:09

Spark2 Dataset DataFrame空值null,NaN判断和处理

importorg.apache.spark.sql.SparkSessionimportorg.apache.spark.sql.Datasetimportorg.apache.spark.sql.Rowimportorg.apache.spark.sql.DataFrameimportorg.apache.spark.sql.Columnimportorg.apache.spark.sql.D

weixin_34138255·2020-07-30 12:33

CDH5.11 离线安装或者升级spark2.x详细步骤

简介：在我的CDH5.11集群中，默认安装的spark是1.6版本，这里需要将其升级为spark2.x版本。

疯狂的暴走蜗牛·2020-07-30 12:19

spark结构化数据处理：Spark SQL、DataFrame和Dataset

本文主要讲解Spark1.6.x的结构化数据处理相关东东，但因Spark发展迅速(本文的写作时值Spark1.6.2发布之际，并且Spark2.0的预览版本也已发布许久)，因此请随时关注SparkSQL

dianzhouyu2189·2020-07-30 12:16

spark2.1.0完全分布式集群搭建-hadoop2.7.3

搭建spark集群：要求安装JDK，完全分布式HADOOP2.7集群。环境：VM搭建的三个虚拟机，均采用centos-6.8-64.iso机器IP与名称对应关系如下：192.168.152.192master192.168.152.193slave1192.168.152.194slave2JDK请自行安装。hadoop2.7集群安装可以参考我的文章搭建hadoop完全分布式集群scala版本：s

sand_clock·2020-07-30 09:52

hadoop2.7.3下spark2.1.0安装_yarn作业提交

已安装hadoop2.7.3，安装spark2.1.0设f1为master，f2至f5位worker软件安装目录设为/data1-下载安装scala-2.11.8https://www.scala-lang.org

hjw199089·2020-07-30 08:25

《程序员》3月精彩内容：大数据技术辨析与深度实践

探讨数据时代构建高可用数据库的新技术（崔秋，PingCAP联合创始人）使用Marathon管理Spark2.0.2实现运行运行期扩容的executor调度（李雪岩，徐磊，吕晓旭）解析阿里云分布式调度

csdn_csdn__AI·2020-07-30 08:24

推荐频道

spark2

springboot2.0 操作 spark2.x

spark sql 2.3 源码解读 - whole stage codegen (8)

spark sql 2.3 源码解读 - whole stage codegen (8)

Spark中的Catalyst

Spark2.4.3源码解析之总目录

Spark DataSet介绍

Spark2.3.1与Springboot集成

Spark DataFrame的groupBy vs groupByKey

Spark2.3（四十三）：Spark Broadcast总结

Spark 2.0介绍：Dataset介绍和使用

Spark SQL源码剖析（一）SQL解析框架Catalyst流程概述

Spark DataFrame 的 groupBy vs groupByKey

spark1.x和spark2.x兼容Iterable和Iterator问题

Spark RDD的默认分区数：（spark 2.1.0）

机器学习系列--KNN分类算法例子

使用Intellij Idea编写Spark应用程序（Scala+SBT）

spark2原理分析-BlockManagerMaster实现原理

spark2原理分析-TaskScheduler(task调度器)概览

spark升级——java.lang.NoSuchMethodError问题分析

Big Data （二）：Spark入门教程

Apache Spark 2.0 在作业完成时却花费很长时间结束

Spark Yarn Client模式spark.driver.host导致 Cannot assign requested address: Service 'sparkDriver' failed

spark2.2.0搭建standalone集群环境

Spark 复杂数据结构数组的Udf用法

深入浅出Spark2.1.0度量系统——Sink继承体系

Spark2.1.0——广播管理器BroadcastManager

深入浅出Spark2.1.0度量系统——Source继承体系

Spark2.x中DataFrame的某列保存的数据，是包含一个结构的数组时，如何取出数据？

【大数据】PageRank网页排名图算法（MapReduce Java+Spark Scala）

Spark2.1.0——深入浅出度量系统

Spark2.1.0——存储体系概述

从零搭建大数据集群环境：Hadoop2.7.4 + Spark2.4.5 分布式部署

Spark2.11 两种流操作 + Kafka

kafka spark steam 写入elasticsearch的部分问题

spark 连接kafka API 讲解

解决sparkstreaming读取kafka中的json数据，消费后保存到MySQL中，报_corrupt_record和name错误的！！

Scala版RDD基本操作

记一次极其坑爹的Maven无法下载相关Jar包的问题：IDEA问题

Spark2.3.0 结构化流 进行streaming+kafka的可操作算子流

Sparkstreaming读取kafka数据写入hive和es

Spark Streaming接收Kafka数据存储到Hbase

SparkStreaming 解析Kafka JSON格式数据

在Spark结构化流readStream、writeStream 输入输出，及过程ETL

SparkStreaming 消费kafka数据，并存入Elasticsearch（java语言）

Spark2 Dataset DataFrame空值null,NaN判断和处理

CDH5.11 离线安装或者升级spark2.x详细步骤

spark结构化数据处理：Spark SQL、DataFrame和Dataset

spark2.1.0完全分布式集群搭建-hadoop2.7.3

hadoop2.7.3下spark2.1.0安装_yarn作业提交

《程序员》3月精彩内容：大数据技术辨析与深度实践

Spark2.3.0 结构化流进行streaming+kafka的可操作算子流