spark2 第28页

深入理解Spark 2.1 Core （六）：资源调度的原理与源码分析

在上篇博文《深入理解Spark2.1Core（五）：Standalone模式运行的实现与源码分析》中，我们讲到了如何启动Master和Worker，还讲到了如何回收资源。

小爷Souljoy·2019-12-26 13:08

Spark 1.6.0 单机安装配置

Spark1.6单机环境的安装准备Spark官网文档描述的是：SparkrunsonJava7+,Python2.6+/3.4+andR3.1+.FortheScalaAPI,Spark2.0.2usesScala2.11

wangyizhen·2019-12-26 00:23

spark2.1 IDEA的配置运行

我使用的是spark2.1官方的Scala依赖是2.11,spark2.2的依赖也是2.11所以如果你的Scala版本是2.22或者较老版本，还是换到这个版本比较好，不然可能会报错或者出现context

苟雨·2019-12-25 10:21

spark sql 2.3 源码解读 - whole stage codegen (8)

wholestagecodegen是spark2.0以后引入的新特性，所以在最后单独把这一块拿出来讲一下。

sddyljsx·2019-12-25 04:06

Introducing Pandas UDF for PySpark

这篇博文在即将发布的ApacheSpark2.3版本中引入了PandasUDFs(即VectorizedUDFs)特性，这大大提高了Python中用户定义函数(UDF)的性能和可用性。

焉知非鱼·2019-12-24 00:34

Hadoop2.7.3+Hive2.1.1+Spark2.1.0环境搭建

搭建环境：Ubuntu12.04（比这个版本高应该都可以）首先搭建的是Spark。先用ping确保用外网IP可以互相连通。然后可以修改各个工作节点的主机名。vim/etc/hostname修改主机名称，我将主节点设置为master，另一个节点设置成slave1。重启两台主机。之后修改master节点的hosts文件vim/etc/hosts在其中加入master_ipmasterslave_ips

iamsonormal2333·2019-12-23 20:49

Custom Accumulator in Spark 2.1

CustomAccumulatorinSpark2.1Accumulatorcansumorcountnumberinsparktasksoverallnodes,andthenreturnthefinalresult.Forexample

zoyanhui·2019-12-23 19:00

Hadoop3.2+Scala2.12.1+Spark2.3.3环境搭建

安装java环境下载jdk，点击下载：因为接下来安装的Hadoop版本是3.0所以这里安装1.8JDK1、创建目录/usr/java#mkdir-p/usr/java2、将下载的jdk-8u60-linux-x64.tar.gz上传至/usr/java目录;3、解压jdk-8u60-linux-x64.tar.gz#tar-zxvfjdk-8u60-linux-x64.tar.gz4、解压生成后,

羽恒·2019-12-23 07:51

[spark] 从spark-submit开始解析整个任务调度流程

本文在spark2.1以StandaloneCluster模式下解析概述spark应用程序可以以Client模式和Cluster启动，区别在于Client模式下的Driver是在执行spark-submit

BIGUFO·2019-12-23 03:13

大数据DMP画像系统

.png3.png4.png5.png系统开发要求涉及的技术要点：spark、elasticsearch、hadoop、hive、LRGBDT等机器学习算法开发工具：idea、eclipse开发环境：spark2.2

小红牛·2019-12-22 22:38

Spark Streaming vs. Structured Streaming

提供了基于RDDs的DstreamAPI，每个时间间隔内的数据为一个RDD，源源不断对RDD进行处理来实现流计算StructuredStreamingSpark2.X出来的流框架，采用了无界表的概念，流数据相当于往一个表上不断追加行

upupfeng·2019-12-22 21:19

Spark Streaming vs. Structured Streaming

提供了基于RDDs的DstreamAPI，每个时间间隔内的数据为一个RDD，源源不断对RDD进行处理来实现流计算StructuredStreamingSpark2.X出来的流框架，采用了无界表的概念，流数据相当于往一个表上不断追加行

upupfeng·2019-12-22 12:00

Spark Streaming vs. Structured Streaming

提供了基于RDDs的DstreamAPI，每个时间间隔内的数据为一个RDD，源源不断对RDD进行处理来实现流计算StructuredStreamingSpark2.X出来的流框架，采用了无界表的概念，流数据相当于往一个表上不断追加行

upupfeng·2019-12-22 12:00

Spark Shuffle 模块② - Hash Based Shuffle write

Spark2.0中已经移除HashBasedShuffle，但作为曾经的默认Shuffle机制，还是值得进行分析Spark最开始只有HashBasedShuffle，因为在很多场景中并不需要排序，在这些场景中多余的排序反而会损耗性能

牛肉圆粉不加葱·2019-12-22 07:47

帮你快速理解 Spark 的分区器

本文基于Spark2.1.0版本0，引言：Spark一般是部署在分布式环境中的(有可能是在区域集中的集群上，也有可能跨城市)，而在分布式环境中，数据在各节点进行网络的传递代价是很大的。

俺是亮哥·2019-12-21 19:19

Windows下搭建Spark开发测试环境

软件环境Hadoop2.7.7Spark2.4.0Scala2.11Java8配置HadoopWindows环境下需要先配置Hadoop环境变量，如图所示：同时在PATH环境变量中添加Hadoop信息：

sungoshawk·2019-12-21 14:33

Spark Storage ① - Spark Storage 模块整体架构

本文为Spark2.0源码分析笔记，某些实现可能与其他版本有所出入Storage模块在整个Spark中扮演着重要的角色，管理着SparkApplication在运行过程中产生的各种数据，包括基于磁盘和内存的

牛肉圆粉不加葱·2019-12-21 09:00

[spark] Shuffle Write解析 (Sort Based Shuffle)

本文基于Spark2.1进行解析前言从Spark2.0开始移除了HashBasedShuffle，想要了解可参考Shuffle过程，本文将讲解SortBasedShuffle。

BIGUFO·2019-12-21 08:13

spark读取hive

spark2.0+使用Sparksession替代HiveContext1.添加MAVEN依赖mysqlmysql-connector-java5.1.35org.apache.sparkspark-hive

無敵兔八哥·2019-12-20 10:29

每日一读 12.11

spark2sql读取数据源编程学习样例2：函数实现详解http://www.aboutyun.com/forum.php?

Vicor·2019-12-20 07:56

183、Spark 2.0新特性之新特性介绍-whole-stage code generation技术和vectorization技术

VolcanoIteratorModelSpark2.x的第二代tungsten引擎原理之前，先看一下当前的Spark的工作原理。

ZFH__ZJ·2019-12-20 03:38

看了之后不再迷糊-Spark多种运行模式

所以，我今天总结一下，供新手参考和学习(下述结论基于Spark2.1.0版本和h

俺是亮哥·2019-12-19 19:46

spark shuffle发展历程

spark2.3shufflemanager，默认sortShuffleManager//LettheuserspecifyshortnamesforshufflemanagersvalshortShuffleMgrNames

sw_kong·2019-12-19 09:00

使用SBT编译Spark子项目

前言最近为了解决Spark2.1的Bug，对Spark的源码做了不少修改，需要对修改的代码做编译测试，如果编译整个Spark项目快的话，也得半小时左右，所以基本上是改了哪个子项目就单独对那个项目编译打包

StanZhai·2019-12-18 13:27

Spark SQL之 Dataframe/Dataset

该文章所有内容截选自实验楼教程【Spark2.x快速入门教程】第二节内容~一、实验介绍1.1实验内容从Spark2.0始支持了SQL2003准语法。

实验楼·2019-12-18 09:28

Spark RDD的默认分区数：（spark 2.1.0）

本文基于Spark2.1.0版本新手首先要明白几个配置：spark.default.parallelism：（默认的并发数）如果配置文件spark-default.conf中没有显示的配置，则按照如下规则取值

俺是亮哥·2019-12-16 18:42

spark源码调试Debug环境搭建

运行环境java1.8scala2.11.0maven3.3.9idea2016spark2.0.21完成以下配置java环境变量scala环境变量mavensetting配置文件jar包存放路径idea

HxLiang·2019-12-16 11:01

合并Spark社区代码的正确姿势

原创文章，转载请保留出处最近刚刚忙完Spark2.2.0的性能测试及Bug修复，社区又要发布2.1.2了，国庆期间刚好有空，过了一遍2.1.2的相关JIRA，发现有不少重要修复2.2.0也能用上，接下来需要将有用的

StanZhai·2019-12-16 06:48

Learning PySpark - 2017.pdf @ pyspark实战指南 - 2017.pdf

LearningPySpark-2017.pdfimage.png在本地构建数据密集型应用程序，并使用Python和Spark2.0的强大功能进行大规模部署。

python测试开发_AI命理·2019-12-15 21:38

Structured streaming＋kafka集成样例

关于structuredstreaming,spark社区已经有很多文章介绍，个人认为其中最大的特点是将流视作没有边界的大表，从而能够使用sql来操作这张表，其中包括使用sqljoin（截止Spark2.1.1

biggeng·2019-12-15 14:46

1小时快速搭建高可用集群（High Availability）

flowToken=1002412本次课程你将学到：最新Spark2.3.1版本，搭建高可用集群（HighAvailability）（1）HA集群原理（2）HA集群搭建步骤（3）Spark-shell测试

A尚学堂Nancy老师·2019-12-14 08:51

maven 编译错误 org.apache.commons.exec.ExecuteException: Process exited with an error: 1 (Exit value: 1)

最近一次出现该问题是从spark2.1.1中copy了spark-streaming

westfire·2019-12-14 03:46

Java实现双分派

关于SparkSQL如何把一条String类型的SQL识别解析，在Spark2.0版本，使用的是ANTLR4来进行语法和词法分析，构造出语法分析树，然后通过SparkSQL的astBuilder这个对象去访问这棵树

小北觅·2019-12-12 22:49

CDH 5.16.1 离线安装 Spark 2.3

1.环境CDH5.16.1Centos7.6Scala2.11.82.安装前准备1.下载Spark2.3所需的Parcel包http://archive.cloudera.com/spark2/parcels

大数据小码农·2019-12-11 15:00

181、Spark 2.0新特性之高性能让Spark作为编译器来运行

Spark2.0的一个重大的特点就是搭载了最新的第二代tungsten引擎。第二代tungsten引擎吸取了现代编译器以及并行数据库的一些重要的思想，

ZFH__ZJ·2019-12-08 15:24

数据分析师之路(一)

1)查询工具特点：文件不大时，速度要快presto/spark2)代码管理：除了代码的存放、注释的管理，还要注意对代码搜索工具的优化，这是因为业务积累到一定程度，可能会出现代码冗余，同时对新入职的同学也会造成困扰

咸鱼干lili·2019-12-08 07:07

spark-3.0 application 调度算法解析

从spark1.3.0到spark1.6.1、spark2.0到现在最新的spark3.0，调度算法有了一定的修改。

六成2018的猿生·2019-12-04 12:00

spark mllib支持哪些机器学习算法？

Spark2.1Mllib考虑到spark选型做mllib的人，最关心问题，就是sparkmllib能够支持多少机器学习的算法呢？问题很简单，就下面这么多，你看着用吧。

HxLiang·2019-12-01 07:07

zeppelin 0.8环境和spark2.2问题

之前用的版本是zeppelin0.7.2和spark1.6，最近把zeppelin升级到0.8发现1.6的配置和2.2的配置默认都无法支持，大概会遇到3个问题。IncompatibleJacksonversion:2.8.11-1jackson版本问题rmzeppelin/lib/jackson-*cp$spark_home/jars/jackson-*zeppelin/lib/就可以解决了org

HxLiang·2019-11-30 03:44

Spark 1.6升级2.x防踩坑指南

原创文章，谢绝转载Spark2.x自2.0.0发布到目前的2.2.0已经有一年多的时间了，2.x宣称有诸多的性能改进，相信不少使用Spark的同学还停留在1.6.x或者更低的版本上，没有升级到2.x或许是由于

StanZhai·2019-11-29 22:41

scala spark

._3.启动sparkshell窗口，名字为zy,指定test队列spark2-shell--name"zytest"--masteryarn--queuetest

叫兽吃橙子·2019-11-29 16:28

每日一读 11.15

资源：spark2.3.0安装包下载【对应hadoop2.7.1版本】http://www.aboutyun.com/thread-23314-1-1.html深入Python3【617页】http:/

Vicor·2019-11-29 13:29

spark2原理分析-广播变量(Broadcast Variables)的实现原理

概述本文介绍spark中BroadcastVariables的实现原理。基本概念在spark中广播变量属于共享变量的一种,spark对共享变量的介绍如下：通常，当在远程集群节点上执行传递给Spark操作（例如map或reduce）的函数时，它将在函数中使用的所有变量的单独副本上工作。这些变量将复制到每台计算机，而且远程机器上的变量的更新不会同步给驱动程序(driver)端。这种情况下，跨任务读写共

达微·2019-11-28 06:00

大数据DMP画像系统

系统的架构和开发4、大数据结合业务场景落地系统开发要求涉及的技术要点：spark、elasticsearch、hadoop、hive、LRGBDT等机器学习算法开发工具：idea、eclipse开发环境：spark2.2

13157330443·2019-11-27 22:27

spark大数据架构初学入门基础详解

离线计算SparkSQL交互式查询SparkStreaming实时流式计算SparkMLlib机器学习SparkGraphX图计算c)特点：i.一站式：一个技术堆栈解决大数据领域的计算问题ii.基于内存d)Spark2009

13157330443·2019-11-27 22:11

spark学习笔记(一)

本文只是针对spark2，spark基本概念，简而言之就是：spark专门为大规模数据处理而设计的快速通用的计算引擎，是apache的一个开源项目。

伯安知心·2019-11-09 17:00

每日一读 10.24 spark优化精华

ApacheSpark2.2中基于成本的优化器（CBO）http://www.aboutyun.com/forum.php?mod=viewthread&tid=227461.什么是CBO,RBO?

Vicor·2019-11-08 12:03

深入理解Spark 2.1 Core （三）：任务调度器的原理与源码分析

上一篇博文《深入理解Spark2.1Core（二）：DAG调度器的实现与源码分析》讲到了DAGScheduler.submitMissingTasks中最终调用了taskScheduler.submitTasks

小爷Souljoy·2019-11-06 22:03

spark2.0.0安装部署指南

spark2.0.0安装部署指南标签（空格分隔）：spark[TOC]下载安装包spark2.0.0默认使用scala2.11进行编译，所以在这里我们下载2.11版本的scala获取scala安装包:wgethttp

哈利罗乎·2019-11-06 05:28

Spark Example

此文主要记录学习spark2.0例子的一些信息。spark2基本不需要安装配置，直接装上scala就行。当然，有些example是依赖hadoop的hdfs的。

朝圣的路上·2019-11-05 00:08

推荐频道

spark2

深入理解Spark 2.1 Core （六）：资源调度的原理与源码分析

Spark 1.6.0 单机安装配置

spark2.1 IDEA的配置运行

spark sql 2.3 源码解读 - whole stage codegen (8)

Introducing Pandas UDF for PySpark

Hadoop2.7.3+Hive2.1.1+Spark2.1.0环境搭建

Custom Accumulator in Spark 2.1

Hadoop3.2+Scala2.12.1+Spark2.3.3环境搭建

[spark] 从spark-submit开始解析整个任务调度流程

大数据DMP画像系统

Spark Streaming vs. Structured Streaming

Spark Streaming vs. Structured Streaming

Spark Streaming vs. Structured Streaming

Spark Shuffle 模块② - Hash Based Shuffle write

帮你快速理解 Spark 的分区器

Windows下搭建Spark开发测试环境

Spark Storage ① - Spark Storage 模块整体架构

[spark] Shuffle Write解析 (Sort Based Shuffle)

spark读取hive

每日一读 12.11

183、Spark 2.0新特性之新特性介绍-whole-stage code generation技术和vectorization技术

看了之后不再迷糊-Spark多种运行模式

spark shuffle发展历程

使用SBT编译Spark子项目

Spark SQL之 Dataframe/Dataset

Spark RDD的默认分区数：（spark 2.1.0）

spark源码调试Debug环境搭建

合并Spark社区代码的正确姿势

Learning PySpark - 2017.pdf @ pyspark实战指南 - 2017.pdf

Structured streaming＋kafka集成样例

1小时快速搭建高可用集群（High Availability）

maven 编译错误 org.apache.commons.exec.ExecuteException: Process exited with an error: 1 (Exit value: 1)

Java实现双分派

CDH 5.16.1 离线安装 Spark 2.3

181、Spark 2.0新特性之高性能让Spark作为编译器来运行

数据分析师之路(一)

spark-3.0 application 调度算法解析

spark mllib支持哪些机器学习算法？

zeppelin 0.8环境和spark2.2问题

Spark 1.6升级2.x防踩坑指南

scala spark

每日一读 11.15

spark2原理分析-广播变量(Broadcast Variables)的实现原理

大数据DMP画像系统

spark大数据架构初学入门基础详解

spark学习笔记(一)

每日一读 10.24 spark优化 精华

深入理解Spark 2.1 Core （三）：任务调度器的原理与源码分析

spark2.0.0安装部署指南

Spark Example

每日一读 10.24 spark优化精华