spark2.1.0

Ambari hdp Spark多版本并存

本示例基于ambarihdp-2.6.0.3（spark2.1.0），集成spark2.2.2，其他的版本思路类似（spark2.3经测试也是没问题的）下载spark-2.2.2-bin-hadoop2.7

Respect123·2023-12-06 05:20

Spark Sql日志分析项目实战

项目简介统计主站最受欢迎的课程TopN访问次数按地市统计主站最受欢迎的TopN课程按流量统计主站最受欢迎的TopN课程环境安装CDH相关软件下载地址Spark环境搭建Spark源码编译（以spark2.1.0

kangapp·2023-07-24 06:17

Spark2.1.0的Standalone模式部署

1.下载并解压spark安装包：spark-2.1.0-bin-hadoop2.7.tgz，配置好每台机器上spark的环境变量cd/home/hadoop273/sparktar-zxvf/data/soft/spark/spark-2.1.0-bin-hadoop2.7.tgz-C.vim~/.bash_profileexportSPARK_HOME=/home/hadoop273/spark

逸笔草草·2023-06-08 11:24

使用sbt编译打包，spark-submit命令提交的详细步骤

Spark2.1.0入门：Spark的安装和使用使用sbt打包Scala程序该程序依赖SparkAPI，因此我们需要通过sbt进行编译打包。请在.

GloomyHarbor·2023-04-02 10:45

Carbondata1.3.1+Spark2.1.0+Hadoop2.7.3集成问题记录（持续更新）

按照目前所验证的结果是，spark2.1.0版本和carbondata1.3.1版本是可以正常使用的。

Jonathan丶Wei·2023-03-09 11:09

Spark2.1.0模型设计与基本架构（上）

随着近十年互联网的迅猛发展，越来越多的人融入了互联网——利用搜索引擎查询词条或问题；社交圈子从现实搬到了Facebook、Twitter、微信等社交平台上；女孩子们现在少了逛街，多了在各大电商平台上的购买；喜欢棋牌的人能够在对战平台上找到世界各地的玩家对弈。在国内随着网民数量的持续增加，造成互联网公司的数据在体量、产生速度、多样性等方面呈现出巨大的变化。互联网产生的数据相较于传统软件产生的数据，有

weixin_30460489·2022-11-20 22:10

spark的spark.sql.hive.caseSensitiveInferenceMode参数含义

的参数含义及使用进行梳理、总结1.参数含义Spark2.1.1引入了一个新的配置项:spark.sql.hive.caseSensitiveInferenceMode，默认值是NEVER_INFER，保持与spark2.1.0

java编程艺术·2022-10-30 19:17

spark的spark.sql.hive.caseSensitiveInferenceMode参数含义 - INFER_AND_SAVE

的参数含义及使用进行梳理、总结1.参数含义Spark2.1.1引入了一个新的配置项:spark.sql.hive.caseSensitiveInferenceMode，默认值是NEVER_INFER，保持与spark2.1.0

灵佑666·2022-10-30 19:16

Hadoop集群+Spark集群搭建（一篇文章就够了）

Ubuntu16.04.6(ubuntu-16.04.6-server-amd64.iso)JDK1.8(jdk-8u201-linux-x64.tar.gz)Hadoop2.7.7(hadoop-2.7.7.tar.gz)Spark2.1.0

非法小恋·2022-02-11 14:22

Spark Streaming如何消费Kafka的大消息(30M-40MB)

本文基于Spark2.1.0版本虽然很少有生产环境用Kafka传递超过1M消息的场景（因为高吞吐、低延时的要求，Kafka发布-订阅模型中Producer-Broker-Consumer3方的相关默认配置都是

俺是亮哥·2021-05-07 14:29

使用spark-shell访问hive里面的数据

在spark2.1.0中，启动就会报错(两个版本的去别可能是前者在执行第一条语句之后去连接启动等动作，而后者是在启动的时候就进行连接启动等动作)。报错信息一样，都是在指定的classpath

扣篮的左手·2021-04-28 21:02

spark的数三角形算法_Spark2.1.0入门：Spark GraphX 算法实例

weixin_39609541·2020-12-19 21:44

基于LR的新闻多分类（基于spark2.1.0, 附完整代码）

原创文章！转载请保留原始文章链接，谢谢！环境：Scala2.11.8+Java1.8.0_112Spark2.1.0+HanLP1.3.2完整项目代码见我的GitHub：https://github.com/yhao2014/ckoocML（因为HanLP分词模型太大，未上传至项目中，需要的请从HanLP发布页下载，然后解压后将data目录整个放到ckoocML\dictionaries\hanl

yhao浩·2020-08-24 18:51

Spark2.1.0事件总线分析——SparkListenerBus详解

阅读提示：阅读本文前，最好先阅读《Spark2.1.0之源码分析——事件总线》和《Spark2.1.0事件总线分析——ListenerBus的继承体系》。

泰山不老生·2020-08-23 05:17

Spark2.1.0事件总线分析——LiveListenerBus详解

阅读提示：阅读本文前，最好先阅读《Spark2.1.0之源码分析——事件总线》、《Spark2.1.0事件总线分析——ListenerBus的继承体系》及《Spark2.1.0事件总线分析——SparkListenerBus

泰山不老生·2020-08-23 05:17

Spark2.1.0事件总线分析——ListenerBus的继承体系

阅读提示：阅读本文前，最好先阅读《Spark2.1.0之源码分析——事件总线》。

泰山不老生·2020-08-23 05:16

spark2.1.0之源码分析——RPC传输管道处理器详解

提示：阅读本文前最好先阅读：《Spark2.1.0之内置RPC框架》《spark2.1.0之源码分析——RPC配置TransportConf》《spark2.1.0之源码分析——RPC客户端工厂TransportClientFactory

泰山不老生·2020-08-23 05:16

编译spark 2.1.0源码

编译spark2.1.0源码准备环境：准备spark源码包:https://archive.apache.org/dist/spark/spark-2.1.0/spark-2.1.0.tgz准备maven

Mars_sock·2020-08-23 05:54

Spark2.1.0之源码分析——事件总线

Spark定义了一个特质[1]ListenerBus，可以接收事件并且将事件提交到对应事件的监听器。为了对ListenerBus有个直观的理解，我们先来看看它的代码实现，见代码清单1。代码清单1ListenerBus的定义private[spark]traitListenerBus[LlogError(s"Listener${Utils.getFormattedClassName(listener

泰山不老生·2020-08-23 04:20

Spark广播之TorrentBroadcast实现原理

Spark有两种方式：一种是HttpBroadcast(Spark2.1.0已经移除)，另一种是TorrentBroadcast。

javartisan·2020-08-22 16:51

子雨大数据之Spark入门教程---Spark2.1.0入门：第一个Spark应用程序：WordCount 2.2

原博客地址：http://dblab.xmu.edu.cn/blog/1311-2/前面已经学习了Spark安装，完成了实验环境的搭建，并且学习了Spark运行架构和RDD设计原理，同时，我们还学习了Scala编程的基本语法，有了这些基础知识作为铺垫，现在我们可以没有障碍地开始编写一个简单的Spark应用程序了——词频统计。任务要求任务：编写一个Spark应用程序，对某个文件中的单词进行词频统计。

千寻～·2020-08-22 03:20

centos6.8安装python3.5

原因是spark2.1.0不支持python3.6，所以重新安装python3.5步骤准备安装环境和依赖：yuminstallzlib-develbzip2-developenssl

SusanLovesTech·2020-08-20 20:06

Spark DataFrame 的 groupBy vs groupByKey

所用spark版本：spark2.1.0先从使用的角度来说，groupBy：groupBy类

weixin_33709219·2020-08-03 06:35

Spark DataFrame的groupBy vs groupByKey

所用spark版本：spark2.1.0先从使用的角度来说，groupBy：groupBy类

weixin_33849942·2020-08-02 21:13

Spark DataFrame 的 groupBy vs groupByKey

所用spark版本：spark2.1.0先从使用的角度来说，**groupBy：**

zzzzMing·2020-08-02 20:38

Spark RDD的默认分区数：（spark 2.1.0）

文章转载自：简书-我是亮哥：本文基于Spark2.1.0版本新手首先要明白几个配置：spark.default.parallelism：（默认的并发数）如果配置文件spark-default.conf中没有显示的配置

haixwang·2020-08-02 15:23

深入浅出Spark2.1.0度量系统——Sink继承体系

阅读提示：阅读本文前，最好请阅读《Spark2.1.0——深入浅出度量系统》和《深入浅出Spark2.1.0度量系统——Source继承体系》。

泰山不老生·2020-07-31 16:14

Spark2.1.0——广播管理器BroadcastManager

BroadcastManager用于将配置信息和序列化后的RDD、Job以及ShuffleDependency等信息在本地存储。如果为了容灾，也会复制到其他节点上。创建BroadcastManager的代码实现如下。valbroadcastManager=newBroadcastManager(isDriver,conf,securityManager)BroadcastManager除了构造器定

泰山不老生·2020-07-31 16:14

深入浅出Spark2.1.0度量系统——Source继承体系

阅读提示：阅读本文前，最好请阅读《Spark2.1.0——深入浅出度量系统》一文。

泰山不老生·2020-07-31 16:14

Spark2.1.0——深入浅出度量系统

对于一个系统而言，首先考虑要满足一些业务场景，并实现功能。随着系统功能越来越多，代码量级越来越高，系统的可维护性、可测试性、性能都会成为新的挑战，这时监控功能就变得越来越重要了。在国内，绝大多数IT公司的项目都以业务为导向，以完成功能为目标，这些项目在立项、设计、开发、上线的各个阶段，很少有人会考虑到监控的问题。在国内，开发人员能够认真的在代码段落中打印日志，就已经属于最优秀的程序员了。然而，在国

泰山不老生·2020-07-31 11:20

Spark2.1.0——存储体系概述

本书在5.7节曾介绍过存储体系的创建，那时只为帮助读者了解SparkEnv，现在是时候对Spark的存储体系进行详细的分析了。简单来讲，Spark存储体系是各个Driver、Executor实例中的BlockManager所组成的。但是从一个整体出发，把各个节点的BlockManager看成存储体系的一部分，那么存储体系还有更多衍生内容，比如块传输服务、map任务输出跟踪器、Shuffle管理器等

泰山不老生·2020-07-31 11:53

spark2.1.0完全分布式集群搭建-hadoop2.7.3

搭建spark集群：要求安装JDK，完全分布式HADOOP2.7集群。环境：VM搭建的三个虚拟机，均采用centos-6.8-64.iso机器IP与名称对应关系如下：192.168.152.192master192.168.152.193slave1192.168.152.194slave2JDK请自行安装。hadoop2.7集群安装可以参考我的文章搭建hadoop完全分布式集群scala版本：s

sand_clock·2020-07-30 09:52

hadoop2.7.3下spark2.1.0安装_yarn作业提交

已安装hadoop2.7.3，安装spark2.1.0设f1为master，f2至f5位worker软件安装目录设为/data1-下载安装scala-2.11.8https://www.scala-lang.org

hjw199089·2020-07-30 08:25

JAVA1.7+Hadoop 2.7.3+Spark 2.1.0一主多从集群搭建

文章目录0集群信息及基本初始化0.1集群初始化0.2集群信息1Hadoop2.7.3环境搭建1.1下载JDK1.7、Hadoop2.7.3、Spark2.1.0包1.2解压JDK安装包1.3配置java

ibless·2020-07-30 07:30

用maven编译spark2.1.0

Java7+,这里是官方文档中要求的maven和jdk版本，其他版本未测;2.执行exportMAVEN_OPTS="-Xmx2g-XX:ReservedCodeCacheSize=512m"3.切换到spark2.1.0

bit小兵·2020-07-28 17:00

Spark 2.1.0的运行模式

Spark2.1.0支持的运行模式Spark支持多种运行模式，可以在集群环境中运行，也可以单机本地运行，或者在单机上部署伪分布集群来运行Spark。

远太狼·2020-07-27 22:52

Spark2.1.0——SparkContext初始化之Spark环境的创建

阅读指导：在《Spark2.1.0——SparkContext概述》一文中，曾经简单介绍了SparkEnv。本节内容将详细介绍SparkEnv的创建过程。

泰山不老生·2020-07-27 19:15

Spark2.1.0安装和配置

Spark主要使用HDFS充当持久化层，所以完整地使用Spark需要预先安装HadoopHadoop的下载地址：http://hadoop.apache.org/Spark的下载地址：http://spark.apache.org/同时也可使用Ambari安装Hadoop生态系统的所有需要的组件，参看文章：http://blog.csdn.net/wee_mita/article/details/

狮锅艺·2020-07-27 17:47

spark Ml 机器学习之线性回归

本文版本选自spark2.1.0写这篇文章之前已阅读过官网api，算法本身自认为自己手动写，应该可以搞定（进一步优化不提）；但是官网却看的我迷迷糊糊的，参数选择和结果获取，描述不够清晰，写这篇文字的目的就是为了理清所有官网没有解答的谜团

zhangshoutian·2020-07-12 19:41

idea sbt Spark环境搭建

最近在参考厦门大学数据库实验室的博客http://dblab.xmu.edu.cn/blog/1492-2/进行sparksbtidea开发环境搭建，博客中使用的spark2.1.0版本，而个人使用了目前最新的

小林子405·2020-07-11 12:31

spark资源调度流程总结

壹禅·2020-07-05 10:18

spark源码编译

如果官方给的安装包不能满足我们生产环境的要求又或者我们基于自己的需求修改了spark源码，那么我们就需要对spark源码重新编译打包，相关方法和命令官网也写的特别清楚，我们只需要安装官网一步步操作即可，本文基于spark2.1.0

Sx_Ren·2020-07-02 07:53

使用Eclipse编写Spark应用程序（Scala+Maven） scala ide for eclipse

本教程介绍如何在Ubuntu中使用Eclipse来开发scala程序（使用Maven工具），在Spark2.1.0，scala2.11.8下验证通过。

DemonHunter211·2020-07-02 07:00

spark dataframe, rdd unpersist的坑

目前使用的Spark2.1.0有一个很坑爹的问题，如果persist一个df1后unpersist与df1相关的df0，那么df1也会被unpersist掉，导致后续用到df1的地方又需要重新算df1，

Code_LT·2020-07-01 08:09

Hadoop2.7.3和Spark2.1.0集群详细搭建教程

1.本文介绍本文包括如下内容Ubuntu虚拟机安装过程Ubuntu配置静态IP配置SSH免密登录Ubuntu国内APT软件源的配置JDK，Scala，MySQL软件安装Hadoop集群安装Spark集群安装Anaconda安装使用到的软件的版本及下载地址VMwareWorkstation12.5.2ubuntu-14.04.1-server-amd64XShell5XFTP5JDK1.8Scala

upshi·2020-06-27 10:46

Spark 2.0分布式集群环境搭建

本教程采用Spark2.0以上版本（比如Spark2.0.2、Spark2.1.0等）搭建集群，同样适用于搭建Spark1.6.2集群

love666666shen·2020-06-24 08:53

Spark2.1.0完全分布式环境搭建

以下操作都在Master节点以Hadoop用户进行操作。1）下载二进制包spark-2.1.0-bin-hadoop2.7.tgz2）解压并移动到相应目录3）修改相应的配置文件vi~/.bash_profile添加：exportSPARK_HOME=/home/hadoop/chadoop/spark/spark-2.1.1-bin-hadoop2.6/exportPATH=$PATH:$SPAR

gakki_smile·2020-06-23 09:14

（基于最新的Kafka version 0.10.2 new consumer API ）想要Spark Streaming精确一次消费Topic？拿去不谢，记得点赞和分享！

本文基于Spark2.1.0、Kafka0.10.2、Scala2.11.8版本背景：Kafka做为一款流行的分布式发布订阅消息系统，以高吞吐、低延时、高可靠的特点著称，已经成为SparkStreaming

俺是亮哥·2020-06-23 04:16

Scala（spark）读写Hbase示例

Scala2.11.8；Spark2.1.0。仅在本机集群通过，供参考。

suyeye·2020-06-22 19:15

Spark2.1.0之初体验

在《Spark2.1.0之运行环境准备》一文中，已经介绍了如何准备好基本的Spark运行环境，现在是时候实践一下，以便于在使用过程中提升读者对于Spark最直接的感触！

泰山不老生·2020-06-22 17:20

推荐频道

spark2.1.0

Ambari hdp Spark多版本并存

Spark Sql日志分析项目实战

Spark2.1.0的Standalone模式部署

使用sbt编译打包，spark-submit命令提交的详细步骤

Carbondata1.3.1+Spark2.1.0+Hadoop2.7.3集成问题记录（持续更新）

Spark2.1.0模型设计与基本架构（上）

spark的spark.sql.hive.caseSensitiveInferenceMode参数含义

spark的spark.sql.hive.caseSensitiveInferenceMode参数含义 - INFER_AND_SAVE

Hadoop集群+Spark集群搭建（一篇文章就够了）

Spark Streaming如何消费Kafka的大消息(30M-40MB)

使用spark-shell访问hive里面的数据

spark的数三角形算法_Spark2.1.0入门：Spark GraphX 算法实例

基于LR的新闻多分类（基于spark2.1.0, 附完整代码）

Spark2.1.0事件总线分析——SparkListenerBus详解

Spark2.1.0事件总线分析——LiveListenerBus详解

Spark2.1.0事件总线分析——ListenerBus的继承体系

spark2.1.0之源码分析——RPC传输管道处理器详解

编译spark 2.1.0源码

Spark2.1.0之源码分析——事件总线

Spark广播之TorrentBroadcast实现原理

子雨大数据之Spark入门教程---Spark2.1.0入门：第一个Spark应用程序：WordCount 2.2

centos6.8安装python3.5

Spark DataFrame 的 groupBy vs groupByKey

Spark DataFrame的groupBy vs groupByKey

Spark DataFrame 的 groupBy vs groupByKey

Spark RDD的默认分区数：（spark 2.1.0）

深入浅出Spark2.1.0度量系统——Sink继承体系

Spark2.1.0——广播管理器BroadcastManager

深入浅出Spark2.1.0度量系统——Source继承体系

Spark2.1.0——深入浅出度量系统

Spark2.1.0——存储体系概述

spark2.1.0完全分布式集群搭建-hadoop2.7.3

hadoop2.7.3下spark2.1.0安装_yarn作业提交

JAVA1.7+Hadoop 2.7.3+Spark 2.1.0一主多从集群搭建

用maven编译spark2.1.0

Spark 2.1.0的运行模式

Spark2.1.0——SparkContext初始化之Spark环境的创建

Spark2.1.0安装和配置

spark Ml 机器学习之 线性回归

idea sbt Spark环境搭建

spark资源调度流程总结

spark源码编译

使用Eclipse编写Spark应用程序（Scala+Maven） scala ide for eclipse

spark dataframe, rdd unpersist的坑

Hadoop2.7.3和Spark2.1.0集群详细搭建教程

Spark 2.0分布式集群环境搭建

Spark2.1.0完全分布式环境搭建

（基于最新的Kafka version 0.10.2 new consumer API ）想要Spark Streaming精确一次消费Topic？拿去不谢，记得点赞和分享！

Scala（spark）读写Hbase示例

Spark2.1.0之初体验

spark Ml 机器学习之线性回归