spark2.1.0 第2页

ubuntu16.04安装NVIDIA及CUDA，配置OpenCL

ubuntu16.04安装NVIDIA及cuda说明：拟使用ubuntu16.04LTS，NVIDIAdriver384及cuda9.0，jdk1.8，scala2.11.8，hadoop2.7.6，spark2.1.0

Fortuna_i·2020-06-21 20:03

spark-2.1.0-bin-2.6.0-cdh5.x源码编译

前置条件:CentOS6.7JDK1.7+Maven3.3.9Spark2.1.01.到spark官网上下载spark2.1.0的源码spark-download.png2.执行mkdirsource新建目录

sparkle123·2020-06-20 22:51

15分钟学会SparkSQL通过JDBC连接外部数据库（PostgreSQL为例）

本文基于Spark2.1.0版本1，先简单介绍一下通过SparkSQLJDBC连接数据库的好处，不过这不是本文的重点。

俺是亮哥·2020-03-30 18:24

Spark 2.X 上累加器(Accumulators)不能用了？原来如此

本文基于Spark2.1.0版本今天整理累加器的知识点时，发现实例化一个Accumulator对象，编译无法通过：Spark2.x版本使用Accumulator类时编译出错，提示类过时查了一下Spark2

俺是亮哥·2020-03-19 08:38

利用Spark提供的属性来提升Spark Web UI的安全性

本文基于Spark2.1.0版本、Hadoop2.7.3版本如无特殊说明，本文的SparkWebUI，特指:[DriverWebUI]（默认是http://运行Driver程序的主机IP:4040)Spark

俺是亮哥·2020-03-10 17:59

spark RDD，reduceByKey vs groupByKey

先看两者的调用顺序（都是使用默认的Partitioner，即defaultPartitioner）所用spark版本：spark2.1.0先看reduceByKeyStep1defreduceByKey

大数据_zzzzMing·2020-02-29 17:41

司小幽·2020-02-14 17:35

利用Kryo序列化库是你提升Spark性能要做的第一件事

本文基于Spark2.1.0版本套用官文TuningSpark中的一句话作为文章的标题：*Often,chooseaserializationtypewillbethefirstthingyoushouldtunetooptimizeaSparkapplication

俺是亮哥·2020-02-02 07:04

centos7搭建yarn模式的spark完全分布式集群

版本要求：我的版本是centos7操作系统，Hadoop-2.5.2，jdk1.8，scala2.11.8，spark2.1.0搭建hadoop-2.5.2完全分布式集群https://www.jianshu.com

臻霏·2020-01-03 11:04

帮你快速理解 Spark 的分区器

本文基于Spark2.1.0版本0，引言：Spark一般是部署在分布式环境中的(有可能是在区域集中的集群上，也有可能跨城市)，而在分布式环境中，数据在各节点进行网络的传递代价是很大的。

俺是亮哥·2019-12-21 19:19

看了之后不再迷糊-Spark多种运行模式

所以，我今天总结一下，供新手参考和学习(下述结论基于Spark2.1.0版本和h

俺是亮哥·2019-12-19 19:46

Spark RDD的默认分区数：（spark 2.1.0）

本文基于Spark2.1.0版本新手首先要明白几个配置：spark.default.parallelism：（默认的并发数）如果配置文件spark-default.conf中没有显示的配置，则按照如下规则取值

俺是亮哥·2019-12-16 18:42

Python搭建Spark分布式集群环境

本教程采用Spark2.0以上版本（比如Spark2.0.2、Spark2.1.0等）搭建集群，同样适用于搭建Spark1.6.2

E-iceblue·2019-07-05 17:26

Spark在Windows/Linux下的最简安装

Spark在Windows/Linux下的最简安装废话部分Windows下的安装安装JDK1.8安装Spark2.1.0运行spark-shellLinux下的安装安装JDK1.8安装Spark2.1.0

野男孩·2019-04-06 20:21

spark mllib算法思想总结

SparkMLlib全部算法总结（2.1.0版）说明：总结算法为Spark2.1.0中Mllib中源码算法，参照网络链接及书籍整理而成。

Fortuna_i·2019-02-15 09:07

Spark RDD的默认分区数：（spark 2.1.0）

本文基于Spark2.1.0版本新手首先要明白几个配置：spark.default.parallelism：（默认的并发数）如果配置文件spark-default.conf中没有显示的配置，则按照如下规则取值

weixin_34319999·2018-12-27 00:00

spark2.1.0配置windows本地基于java语言的Eclipse开发环境

前面配置过在windows本地通过Eclipse开发hadoop程序然后打成jar包在Linux集群中运行的经历，因此一方面是基于同样的需求，另一方面是因为我是spark小白，想通过这种方式快速了解和学习spark开发。（注意：此文配置的是基于java语言开发spark的，如果要用scala开发，则需要在Eclipse中添加scala插件并做进一步配置。如果要用python开发，则最好用pycha

ASN_forever·2018-12-03 11:27

Spark2.1.0——WebUI框架体系

阅读建议：阅读本文前最好先阅读《Spark2.1.0——SparkUI的实现》一文。SparkUI构建在WebUI的框架体系之上，因此应当首先了解WebUI。

泰山不老生·2018-11-20 09:34

Spark2.1.0——SparkContext概述

Spark应用程序的提交离不开SparkDriver，后者是驱动应用程序在Spark集群上执行的原动力。了解SparkDriver的初始化，有助于读者理解Spark应用程序与SparkDriver的关系。SparkDriver的初始化始终围绕着SparkContext的初始化。SparkContext可以算得上是Spark应用程序的发动机引擎，轿车要想跑起来，发动机首先要启动。SparkConte

泰山不老生·2018-11-12 10:23

Spark DataFrame的groupBy vs groupByKey

所用spark版本：spark2.1.0先从使用的角度来说，groupBy：groupBy类

zzzzMing·2018-11-04 16:00

spark RDD，reduceByKey vs groupByKey

先看两者的调用顺序（都是使用默认的Partitioner，即defaultPartitioner）所用spark版本：spark2.1.0先看reduceByKeyStep1defreduceByKey

zzzzMing·2018-10-28 21:00

Spark源码研读-散篇记录（二）：Spark内置RPC框架之TransportConf

1Spark版本Spark2.1.0。

xpleaf·2018-09-10 23:58

Spark源码研读-散篇记录（一）：SparkConf

1Spark版本Spark2.1.0。2说明源码过程中所涉及的许多Scala的知识，完全可以参考之前Scala的笔记文章，应该来说确实很多知识内容都涉及到了。

xpleaf·2018-09-09 23:40

spark2.1.0之源码分析—排列三网站搭建t详解

调用addRpcRe排列三网站搭建【征途源码论坛zhengtuwl.com】联系方式：QQ：2747044651quest向handler（特别提醒下读者这里的handler不是RpcHandler,而是通过TransportClient构造器传入的TransportResponseHandler）添加requestId与回调类RpcResponseCallback的引用之间的关系。Transpo

ac74v·2018-08-31 10:16

编译spark2.1.0

编译spark2.1.0目标得到spark-2.1.0-bin-2.6.0-cdh5.7.0环境jdk1.8.0_65【1.7+】mavenApacheMaven3.3.9【3.3.9版】spark2.1.0

乘风御浪云帆之上·2018-08-29 21:58

spark2.1.0之源码分析——RPC客户端TransportClient详解

提示：阅读本文前最好先阅读：《Spark2.1.0之内置RPC框架》《spark2.1.0之源码分析——RPC配置TransportConf》《spark2.1.0之源码分析——RPC客户端工厂TransportClientFactory

泰山不老生·2018-08-28 10:46

spark完整入门

1、下载spark2.1.0，下载地址https://spark.apache.org/downloads.html2、上传到linux服务器，解压即可简单应用，具体验证是否可用步骤第一步：进入spark

m0_37601109·2018-07-27 18:35

spark sql读取映射hbase数据的hive外部表报错

集群环境CDH5.8.0/spark2.1.0我们用执行以下命令报错：spark2-submit--masteryarn--classcom.test.hive.SparkReadHbaseTest.

lhxsir·2018-07-19 14:54

SparkStreaming读kafka写入HDFS（kerberos认证）

Kerberos环境下的HBase代码Spark2Streaming应用实时读取Kafka代码写入数据到kafka代码SparkStreaming读kafka写入HDFS本教程基于CDH5.8.0其它组件版本为：spark2.1.0

lhxsir·2018-07-16 15:30

CSDN日报180517——《15类一面试就知道不靠谱的公司》

点击阅读全文作者已开通快问，可随时向作者提问~大数据|Spark2.1.0之代码结构及载入Ecplise方法作者：beliefe

CSDN官方博客·2018-05-17 19:19

Spark Streaming学习

以下内容主要基于Spark2.1.0版本的SparkStreaming内容学习得到。

shohokuooo·2017-12-07 01:59

spark2.1源码编译

本文介绍spark2.1.0的源码编译1.编译环境：Jdk1.8或以上Hadoop2.7.3Scala2.10.4必要条件：Maven3.3.9或以上（重要）点这里下载http://mirror.bit.edu.cn

qinglanmei·2017-11-28 16:46

Spark2.1.0入门：Spark的安装和使用

legendavid·2017-07-11 17:34

Spark2.1.0入门：DStream转换操作

DStream转换操作包括无状态转换和有状态转换。无状态转换：每个批次的处理不依赖于之前批次的数据。有状态转换：当前批次的处理需要使用之前批次的数据或者中间结果。有状态转换包括基于滑动窗口的转换和追踪状态变化的转换(updateStateByKey)。DStream无状态转换操作下面给出一些无状态转换操作的含义：*map(func)：对源DStream的每个元素，采用func函数进行转换，得到一个

m635674608·2017-06-07 20:16

Linux下搭建spark集群开发环境

梦岚如雪·2017-05-17 11:04

关于spark-submit报错java.lang.NoClassDefFoundError: scala/runtime/LambdaDeserialize

解决方案写在前面：将Scala的版本改成2.11.8，环境是Spark2.1.0。当使用spark-submit提交ScalaApp时，代码仅仅做了一个filter或者map操作。然后报了一长串的错。

Clockworkai·2017-04-23 08:55

Spark写ES的遇到的坑

我们项目使用的是Spark2.1.0，而我们公司的ElasticSearch版本使用的是2.1.2。项目过程中遇到了很多坑，浪费了不少时间，故此在这里总结一下，希望

u013709270·2017-04-11 20:00

BlackEnn·2017-04-10 13:00

BlackEnn·2017-04-10 12:00

Spark广播之TorrentBroadcast实现原理

Spark有两种方式：一种是HttpBroadcast(Spark2.1.0已经移除)，另一种是TorrentBroadcast。

javartisan·2017-04-04 21:11

Spark2.1.0集群部署

1、从官网下载2.1.0版本的Spark，spark-2.1.0-bin-hadoop2.7.tgz；2、拷贝都集群中各个节点，解压到特定目录下；3、启master服务:#./sbin/start-master.shmaster服务启来之后可以看到master的URL地址(或者在日志中查看)spark://Spark01:70774、启所有的Worker，并把worker链接都master上#./

GoFastX·2017-04-01 17:42

Spark2.1.0集群部署

1、从官网下载2.1.0版本的Spark，spark-2.1.0-bin-hadoop2.7.tgz；2、拷贝都集群中各个节点，解压到特定目录下；3、启master服务:#./sbin/start-master.shmaster服务启来之后可以看到master的URL地址(或者在日志中查看)spark://Spark01:70774、启所有的Worker，并把worker链接都master上#./

GoFastX·2017-04-01 17:42

YARN上显示应用程序使用的vcores、memory不准确？

本文基于Spark2.1.0版本我们知道，使用yarn作为clustermanager时，spark（以client模式为例）用spark-submit提交应用程序（或者是spark-shell交互操作

俺是亮哥·2017-03-29 23:47

最简大数据Spark-2.1.0

wolearn·2017-03-27 16:28

解决:spark启动错误Exception in thread "main" java.lang.UnsupportedClassVersionError: org/apach..

MacOS：Sierra10.12.2Spark版本：2.1.0今天想在本地安装spark，结果按照步骤来竟然报错，问题原因spark2.1.0需要java7+的支持，但是Mac默认的java是1.6的

哈士奇说喵·2017-03-19 16:17

Spark2.1.0官方文档

本文档适用于Spark2.1.0版本。

FlinkMe·2017-03-04 15:00

搭建Hive On Spark 编译Hive源码错误解决方法（spark2.1.0，hadoop2.7.2）

HiveOnSpark的搭建需要自行编译Spark源码withoutHive然后部署。编译成功之后部署Spark集群，此处不描述如何部署集群了。然后本人自行从Hive官网下载Hive2.1.1安装包进行安装，之后启动运行Hive发现出现Class不兼容异常，经过Google得知版本冲突，导致自行编译Hive源码。本人第一次是在archive.apache.org官方下载hive源码进行编译得到如下

javartisan·2017-02-28 14:24

搭建Hive On Spark 编译Hive源码错误解决方法（spark2.1.0，hadoop2.7.2）

HiveOnSpark的搭建需要自行编译Spark源码 withoutHive然后部署。编译成功之后部署Spark集群，此处不描述如何部署集群了。然后本人自行从Hive官网下载Hive2.1.1安装包进行安装，之后启动运行Hive发现出现Class不兼容异常，经过Google得知版本冲突，导致自行编译Hive源码。本人第一次是在archive.apache.org官方下载hive源码进行编译得到如

Dax1n·2017-02-28 14:00

推荐频道

spark2.1.0

ubuntu16.04安装NVIDIA及CUDA，配置OpenCL

spark-2.1.0-bin-2.6.0-cdh5.x源码编译

15分钟学会SparkSQL通过JDBC连接外部数据库（PostgreSQL为例）

Spark 2.X 上累加器(Accumulators)不能用了？原来如此

利用Spark提供的属性来提升Spark Web UI的安全性

spark RDD，reduceByKey vs groupByKey

Spark相关文章索引（3）

利用Kryo序列化库是你提升Spark性能要做的第一件事

centos7搭建yarn模式的spark完全分布式集群

帮你快速理解 Spark 的分区器

看了之后不再迷糊-Spark多种运行模式

Spark RDD的默认分区数：（spark 2.1.0）

Python搭建Spark分布式集群环境

Spark在Windows/Linux下的最简安装

spark mllib算法思想总结

Spark RDD的默认分区数：（spark 2.1.0）

spark2.1.0配置windows本地基于java语言的Eclipse开发环境

Spark2.1.0——WebUI框架体系

Spark2.1.0——SparkContext概述

Spark DataFrame的groupBy vs groupByKey

spark RDD，reduceByKey vs groupByKey

Spark源码研读-散篇记录（二）：Spark内置RPC框架之TransportConf

Spark源码研读-散篇记录（一）：SparkConf

spark2.1.0之源码分析—排列三网站搭建t详解

编译spark2.1.0

spark2.1.0之源码分析——RPC客户端TransportClient详解

spark完整入门

spark sql读取映射hbase数据的hive外部表报错

SparkStreaming读kafka写入HDFS（kerberos认证）

CSDN日报180517——《15类一面试就知道不靠谱的公司》

Spark Streaming学习

spark2.1源码编译

Spark2.1.0入门：Spark的安装和使用

Spark2.1.0入门：DStream转换操作

Linux下搭建spark集群开发环境

关于spark-submit报错java.lang.NoClassDefFoundError: scala/runtime/LambdaDeserialize

Spark写ES的遇到的坑

Spark相关文章索引（3）

Spark相关文章索引（3）

Spark相关文章索引（3）

Spark相关文章索引（3）

Spark广播之TorrentBroadcast实现原理

Spark2.1.0集群部署

Spark2.1.0集群部署

YARN上显示应用程序使用的vcores、memory不准确？

最简大数据Spark-2.1.0

解决:spark启动错误Exception in thread "main" java.lang.UnsupportedClassVersionError: org/apach..

Spark2.1.0官方文档

搭建Hive On Spark 编译Hive源码错误解决方法（spark2.1.0，hadoop2.7.2）

搭建Hive On Spark 编译Hive源码错误解决方法（spark2.1.0，hadoop2.7.2）