Spark2.1 第2页

[spark] Shuffle Write解析 (Sort Based Shuffle)

本文基于Spark2.1进行解析前言从Spark2.0开始移除了HashBasedShuffle，想要了解可参考Shuffle过程，本文将讲解SortBasedShuffle。

BIGUFO·2019-12-21 08:13

使用SBT编译Spark子项目

前言最近为了解决Spark2.1的Bug，对Spark的源码做了不少修改，需要对修改的代码做编译测试，如果编译整个Spark项目快的话，也得半小时左右，所以基本上是改了哪个子项目就单独对那个项目编译打包

StanZhai·2019-12-18 13:27

Spark 内存管理详解

本文中阐述的原理基于Spark2.1版本，阅读本文需要读者有一定的Spark和Java基础，了解RDD、Shuffle、JVM等相关概念。在执行

Alukar·2019-11-03 16:50

Java Spark读取Hbase数据，将结果写入HDFS文件

环境：Hadoop2.6，Spark2.1，jdk1.8注意：hadoop集群启用了kerberos认证，不带认证的需要根据注释简单修改几行代码即可一、案例Java编程要求：读取Hbase表zyl_user

小猪酷跑·2019-06-07 12:02

CDH5.10.0 KYLIN2.6 SPARK2.1 心得

hostname不能有下划线#先执行了卸载mariajavacp了环境变量exportJAVA_HOME=/usr/local/jdk1.8.0_191exportM2_HOME=/usr/local/mavenexportCLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jarexportJRE_HOME=$JAVA_HOME/jree

dian张·2019-05-20 18:07

sparksql处理嵌套json

Spark2.1在spark的StructuredStreaming也可以使用这些功能函数。下面几个是本文重点要讲的方法。

Jacy_Wang·2019-04-03 13:05

DataFrameNaFunctions无fill方法

当我使用spark2.1，为了填补dataframe里面的null值转换为0，代码如下所示：dataframe.na.fill(0)出现如下错误Sparkversion2.1.0returnsfollowingerror

TTyb·2019-03-06 09:00

win10 安装单机版 pyspark

1需要安装spark和hadoop（python3.6需要spark2.1以上版本）两者作相同处理：解压之后，还需要完成SPARK_HOME和bin环境变量相关配置；HADOOP_HOME和bin环境变量的配置

蕾姆233·2018-12-29 16:40

spark2.1源码编译

我的hadoop版本：hadoop-2.6.0-cdh5.7.0我的scala版本：2.11.8我的hive版本：hive-1.1.0-cdh5.7.0hadoop下载地址：http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.7.0.tar.gzhive下载路径：http://archive.cloudera.com/cdh5/cdh/

匪_3f3e·2018-10-31 09:46

Spark---内存管理

本文中阐述的原理基于Spark2.1版本，阅读本文需要读者有一定的Spark和Java基础，了解RDD、Shuffle、JVM等相关概念。在执行

YK_324504836·2018-09-29 16:30

【Big Data 每日一题20180927】Structured Streaming 之 Event Time 解析

源码解析系列，返回目录请猛戳这里「腾讯·广点通」技术团队荣誉出品本文内容适用范围：*2017.07.11update,Spark2.2全系列√(已发布：2.2.0)*2017.10.02update,Spark2.1

天地不仁以万物为刍狗·2018-09-27 21:22

win10 spark+scala+eclipse+sbt 安装配置

转载请务必注明原创地址为：http://dongkelun.com/2018/03/...1、首先安装配置jdk1.8以上,建议全部的安装路径不要有空格2、安装spark2.1下载下载地址：http:/

董可伦·2018-05-10 00:00

win10 spark+scala+eclipse+sbt 安装配置

我的原创地址：https://dongkelun.com/2018/03/15/winSparkConf/1、首先安装配置jdk1.8以上,建议全部的安装路径不要有空格2、安装spark2.1下载下载地址

董可伦·2018-05-07 12:24

CDH5.11.1 升级spark2.x

环境介绍：在我的CDH5.11.1的集群中，默认已经安装的spark是1.6版本，这里需要将其升级为spark2.1版本。

heavylgf·2018-03-14 14:46

Spark2.1命令工具类CommandUtils的源码分析

注：本文是为了配合《Spark内核设计的艺术架构设计与实现》一书的内容而编写，目的是为了节省成本、方便读者查阅。书中附录F的内容都在本文呈现。CommandUtils是Spark中最常用的工具类之一，其作用是为了构建进程。如果不太关心其实现也不影响对Spark源码的阅读和原理的学习。我们要介绍的方法如下：buildProcessBuilder功能描述：基于给定的参数创建ProcessBuilder

泰山不老生·2018-03-09 11:53

附录A Spark2.1核心工具类Utils

注：本文是为了配合《Spark内核设计的艺术架构设计与实现》一书的内容而编写，目的是为了节省成本、方便读者查阅。书中附录A的内容都在本文呈现。Utils是Spark最常用的工具类之一，SparkCore大量使用了此类提供的基础功能。即使不关心其实现也不会对理解本书对Spark源码的分析有太多影响。下面将逐个介绍Utils提供的方法。getSystemProperties功能描述：获取系统属性的键值

泰山不老生·2018-01-25 09:46

搭建Spark集群服务器

tidb1.0开始支持spark，有个组件tiSpark，不过目前只支持spark2.1版本。所以为了启用tiSpark，还需搭建spark集群。

我不是九爷·2018-01-24 13:14

spark2.1 sql 自定义udf以及spark sql api

最近在写spark，等我更新。。。。。sparksql自定义udfspark定义视图说明：在dataframe的基础上给出视图名称，dataframe可以来源于jdbc查询结果，也可以是jsonvalspark=SparkSession.builder().appName("SparkSQLbasicexample").config("spark.some.config.option","some

snail_knight·2017-12-06 14:03

spark2.1源码编译

本文介绍spark2.1.0的源码编译1.编译环境：Jdk1.8或以上Hadoop2.7.3Scala2.10.4必要条件：Maven3.3.9或以上（重要）点这里下载http://mirror.bit.edu.cn/apache/maven/maven-3/3.5.2/binaries/apache-maven-3.5.2-bin.tar.gz修改/conf/setting.xmlalimave

qinglanmei·2017-11-28 16:46

spark2.1 Row_number，Window使用

有这种情况,一个项目下的一个设备多次上报检测成功记录,但我只要最早上报记录代码如下:packagecom.sparkimportorg.apache.spark.sql.SparkSessionimportorg.apache.spark.sql.expressions.Windowimportorg.apache.spark.sql.functions._objectLastestTime{de

小白鸽·2017-11-17 11:22

hive on spark安装(hive2.3 spark2.1)

简介之前有写过hiveonspark的一个文档，hive版本为2.0，spark版本为1.5。spark升级到2.0后，性能有所提升，程序文件的编排也和之前不一样，这里再更新一个最新的部署方式。spark2.0引入了sparksession的概念，创建一个spark任务和之前也不一样，之前版本的hive并不能兼容spark2.0，所以推荐使用hive2.3以后的版本。安装步骤可参考官网https:

敲码的汉子·2017-11-01 18:08

hive on spark安装(hive2.3 spark2.1)

简介之前有写过hiveonspark的一个文档，hive版本为2.0，spark版本为1.5。spark升级到2.0后，性能有所提升，程序文件的编排也和之前不一样，这里再更新一个最新的部署方式。spark2.0引入了sparksession的概念，创建一个spark任务和之前也不一样，之前版本的hive并不能兼容spark2.0，所以推荐使用hive2.3以后的版本。安装步骤可参考官网https:

敲码的汉子·2017-11-01 18:08

[spark] Standalone模式下Master、WorKer启动流程

本文基于spark2.1进行解析前言Spark作为分布式的计算框架可支持多种运行模式：本地运行模式（单机）本地伪集群运行模式（单机模拟集群）StandaloneClient模式（集群）StandaloneCluster

BIGUFO·2017-10-31 10:11

Structured Streaming 实现思路与实现概述

源码解析系列，返回目录请猛戳这里「腾讯·广点通」技术团队荣誉出品本文内容适用范围：*2017.07.11update,Spark2.2全系列√(已发布：2.2.0)*2017.05.02update,Spark2.1

gongpulin·2017-10-10 23:43

spark2.1源码分析4：spark-network-common模块的设计原理

spark-network-common模块底层使用netty作为通讯框架，可以实现rpc消息、数据块和数据流的传输。Message类图：所有request消息都是RequestMessage的子类所有response消息都是ResponseMessage的子类TransportClient主要提供了三个方法：//通过给定的streamId，获取远端数据流publicvoidstream(fina

ggzone·2017-09-28 13:01

Spark2.1特征处理:提取/转换/选择

1.FeatureExtractors（特征提取）1.1TF-IDF词频（TermFrequency）-逆向文档频率（InverseDocumentFrequency）是一种特征矢量化方法，广泛应用于文本挖掘，用以评估某一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。定义：t表示由一个单词，d表示一个文档，D表示多个文档构成的语料库（corpus），词频TF（t，d）表示某一个给定的单

bitcarmanlee·2017-09-06 17:17

Spark-SQL之DataFrame创建

本篇的SparkAPI基于spark2.1版本。1、DataFrame对象的生成DataFra

文哥的学习日记·2017-08-16 00:53

Spark的Dataset操作(一)-列的选择select

环境说明：用的版本是Spark2.1，Dataset操作很丰富，join的支持也蛮好的，比原来用的spark1.4好用多了。嗯，Dataset操作，我觉得最重要的是把Column类的用法弄清楚。

野男孩·2017-07-08 23:44

Linux安装Spark集群(CentOS7+Spark2.1.1+Hadoop2.8.0)

1安装Spark依赖的Scala1.1下载和解压缩Scala1.2配置环境变量1.3验证Scala2下载和解压缩Spark2.1下载Spark压缩包2.2解压缩Spark3Spark相关的配置3.1配置环境变量

陈南志·2017-05-16 22:15

windows下spark2.1源码编译及修改

Windows编译spark源码过程对spark源码修改后需要重新编译spark源码，由于当前linux虚拟机上无法通过代理联网，公司提供的maven仓库也ping不通，只能在windows上编译spark源码。编译过程如下：1.在spark官网下载spark源码http://spark.apache.org/downloads.html选择2.1.0源码下载。2.然后在idea中导入spark源

dreamershi·2017-05-05 15:15

windows下spark2.1源码编译及修改

Windows编译spark源码过程对spark源码修改后需要重新编译spark源码，由于当前linux虚拟机上无法通过代理联网，公司提供的maven仓库也ping不通，只能在windows上编译spark源码。编译过程如下：1.在spark官网下载spark源码http://spark.apache.org/downloads.html选择2.1.0源码下载。2.然后在idea中导入spark源

dreamershi·2017-05-05 15:15

生产环境实战spark （6）分布式集群 5台设备 Scala安装

这里使用spark2.1.x版本，而spark2.1版本需要scala2.1.1版本以上的兼容版本，因此下载安装scala-2.11.8下载地址：http://www.scala-lang.org/download

段智华·2017-04-19 10:44

Apache Spark 内存管理详解

本文中阐述的原理基于Spark2.1版本，阅读本文需要读者有一定的Spark和Java基础，了解RDD、Shu

程序优化·2017-04-05 10:00

Spark2.1中用结构化流处理复杂的数据格式(译)

在第一章节系列结构化流的博客文章中，我们展示了怎样用简单的方式用结构化流实现端到端的流式ETL程序，将json日志数据转换成Parquet格式表。该文强调构建从各种复杂格式数据源读入并对数据进行转换的管道所面临的挑战。在本篇博文中，我们将深入的研讨该问题，并展示如何用SparkSQL内置函数解决数据转换中面临的挑战。确切的说，我们将从以下几个方面进行讨论：有哪些不同数据格式及怎样权衡如何简单的用S

幽兰深谷·2017-03-26 22:39

ubuntu安装spark2.1 hadoop2.7.3集群

nonono11·2017-02-24 12:06

Spark ML机器学习

的机器学习库.相对于RDD，DataFrame拥有更丰富的操作API,可以进行更灵活的操作.目前,spark.mllib已经进入维护状态，不再添加新特性.本文将重点介绍pyspark.ml，测试环境为Spark2.1

-Finley-·2017-02-12 10:00

spark2.1源码分析1：Win10下IDEA源码阅读环境的搭建

环境：win10、IDEA2016.3、maven3.3.9、git、scala2.11.8、java1.8.0_101、sbt0.13.12下载：#gitbash中执行：gitclonehttps://github.com/apache/spark.gitgittaggitcheckoutv2.1.0-rc5gitcheckout-bv2.1.0-rc5导入IDEA，开始调试：file–open

ggzone·2016-12-22 16:24

推荐频道

Spark2.1

[spark] Shuffle Write解析 (Sort Based Shuffle)

使用SBT编译Spark子项目

Spark 内存管理详解

Java Spark读取Hbase数据，将结果写入HDFS文件

CDH5.10.0 KYLIN2.6 SPARK2.1 心得

sparksql处理嵌套json

DataFrameNaFunctions无fill方法

win10 安装单机版 pyspark

spark2.1源码编译

Spark---内存管理

【Big Data 每日一题20180927】Structured Streaming 之 Event Time 解析

win10 spark+scala+eclipse+sbt 安装配置

win10 spark+scala+eclipse+sbt 安装配置

CDH5.11.1 升级spark2.x

Spark2.1命令工具类CommandUtils的源码分析

附录A Spark2.1核心工具类Utils

搭建Spark集群服务器

spark2.1 sql 自定义udf以及spark sql api

spark2.1源码编译

spark2.1 Row_number，Window使用

hive on spark安装(hive2.3 spark2.1)

hive on spark安装(hive2.3 spark2.1)

[spark] Standalone模式下Master、WorKer启动流程

Structured Streaming 实现思路与实现概述

spark2.1源码分析4：spark-network-common模块的设计原理

Spark2.1特征处理:提取/转换/选择

Spark-SQL之DataFrame创建

Spark的Dataset操作(一)-列的选择select

Linux安装Spark集群(CentOS7+Spark2.1.1+Hadoop2.8.0)

windows下spark2.1源码编译及修改

windows下spark2.1源码编译及修改

生产环境实战spark （6）分布式集群 5台设备 Scala安装

Apache Spark 内存管理详解

Spark2.1中用结构化流处理复杂的数据格式(译)

ubuntu安装spark2.1 hadoop2.7.3集群

Spark ML机器学习

spark2.1源码分析1：Win10下IDEA源码阅读环境的搭建