Spark2.X 第4页

Spark UDF使用详解及代码示例

/02/sparkUDF/前言本文介绍如何在SparkSql和DataFrame中使用UDF，如何利用UDF给一个表或者一个DataFrame根据需求添加几列，并给出了旧版（Spark1.x）和新版（Spark2

董可伦·2018-08-03 09:53

Spark2.x学习笔记：6、在Windows平台下搭建Spark开发环境（Intellij IDEA）

Spark2.x学习笔记6、在Windows平台下搭建Spark开发环境（IntellijIDEA+Maven）6.1集成开发环境IDE为了方便应用程序开发与测试，提高开发效率，一般使用集成开发工具IDE

autumnLemon·2018-07-18 10:55

Spark2.x学习笔记：2、Scala简单例子

2、Scala简单例子参考教程:https://yq.aliyun.com/topic/692.1交互式编程spark-shell是Spark交互式运行模式，提供了交互式编程，边敲代码边执行，不需要创建程序源文件，方便调试程序，有利于快速学习Spark。[[email protected]]#bin/spark-shellUsingSpark'sdefaultlog4jprofile:or

autumnLemon·2018-07-16 15:37

Spark2.X 使用累加器AccumulatorV2实现字符串拼接下的字母统计

Spark2.X中的累加器和Spark1.X中有着很大不同，下面将实现的功能是：将一个集合，集合中含有字母"A","B","A","D","E","D","G","H","I","A","B","I",

Winner941112·2018-07-10 15:32

大数据Structured Streaming教程1：基本概念及使用

在Spark2.x中，新开放了一个基于DataFrame的无下限的流式处理组件——StructuredStreaming，它也是本系列的主角，废话不多说，进入正题吧！

哈哈哈_53b3·2018-06-07 01:56

Spark2.x学习笔记：11、RDD依赖关系与stage划分 - CSDN博客

11、RDD依赖关系与stage划分Spark中RDD的高效与DAG图有着莫大的关系，在DAG调度中需要对计算过程划分stage，而划分依据就是RDD之间的依赖关系。11.1窄依赖与宽依赖针对不同的转换函数，RDD之间的依赖关系分类窄依赖（narrowdependency）和宽依赖（widedependency,也称shuffledependency）。（1）窄依赖窄依赖是指1个父RDD分区对应1

·2018-05-23 17:00

CDH5.11.1 升级spark2.x

环境介绍：在我的CDH5.11.1的集群中，默认已经安装的spark是1.6版本，这里需要将其升级为spark2.1版本。经查阅官方文档，发现spark1.6和2.x是可以并行安装的，也就是说可以不用删除默认的1.6版本，可以直接安装2.x版本，它们各自用的端口也是不一样的。我尝试了安装spark2.0版本和spark2.1版本，均告成功。这里做一下安装spark2.1版本的步骤记录。官网发布Cl

heavylgf·2018-03-14 14:46

关于spark2.x后的SparkSession

ApacheSpark2.0引入了SparkSession，其为用户提供了一个统一的切入点来使用Spark的各项功能，并且允许用户通过它调用DataFrame和Dataset相关API来编写Spark程序。最重要的是，它减少了用户需要了解的一些概念，使得我们可以很容易地与Spark交互,在SparkSession中封装了SparkContext,SparkConf等,为了解决用户可能对SparkC

qq_30366667·2018-03-10 21:43

spark2.x 独立集群环境搭建 | 适用于spark集群环境搭建

在开始环境搭建的教程之前，先说明下此篇博文为作者自学过程中实际操作总结，正确性以验证，并作为一位学习者记录自己的操作过程。准备一个以上的unix系统环境|克隆WM虚拟机及修改系统参数的全过程克隆WM虚拟机克隆之前local模式下调试的spark虚拟机，采用克隆完整文件的模式修改unix系统参数通过上一步的克隆，得到多个unix系统环境，现在拿其中一个进行修改举例，其余部分大致相同，除了IP和主机名

gamedevv·2018-02-07 23:30

spark2.x 独立集群环境搭建 | 适用于spark集群环境搭建

在开始环境搭建的教程之前，先说明下此篇博文为作者自学过程中实际操作总结，正确性以验证，并作为一位学习者记录自己的操作过程。准备一个以上的unix系统环境|克隆WM虚拟机及修改系统参数的全过程克隆WM虚拟机克隆之前local模式下调试的spark虚拟机，采用克隆完整文件的模式修改unix系统参数通过上一步的克隆，得到多个unix系统环境，现在拿其中一个进行修改举例，其余部分大致相同，除了IP和主机名

gamedevv·2018-02-07 23:30

开源大数据周刊-第44期

E-MapReduce中Spark2.x读写MaxCompute数据最新的aliyun-emapreduce-sdk将MaxCompute数据以DataSource的方式接入Spark2.x，用户可以使用类似

aliyun32183·2018-01-31 15:45

Spark视频王家林大神第7课： Spark机器学习内幕剖析

基于Spark2.x版本，怎么学习机器学习？这是所有做机器学习的同学都非常关注的。Spark2.x版本的发布，标志着以Spark为核心的大数据统一计算时代真正的到来。Spark机器学习的本质是什么？

段智华·2018-01-26 21:12

Spark视频王家林大神第2课：解密spark第二代tungsten引擎测试数据和引擎实现内幕

第二代tungsten钨丝计划的推出，Spark官方的数据表明Spark的性能提升了5到10倍，大多数的代码不经修改，直接放在Spark2.x上运行，会比在Spark1.6上运行，速度会快5到10倍。

段智华·2018-01-25 08:00

Spark2.x学习笔记：18、Spark Streaming程序解读

《Spark2.x学习笔记》18、SparkStreaming程序解读18.1SparkStreaming原理SparkStreaming将流式计算转化为一批批很小的、确定的批处理作业（micro-batch

程裕强·2017-11-07 23:25

Spark2.x与ElasticSearch的完美结合

ElasticSearch（简称ES）是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RestFulweb接口。ElasticSearch是用Java开发的，并作为Apache许可条款下的开放源码发布，是当前流行的企业级搜索引擎。设计用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便的目地，当前在各大公司使用非常普遍。而Spark是基于分布式内存的高

openfea·2017-10-19 10:53

Spark2.x学习笔记：10、简易电影受众系统

10、简易电影受众系统本章内容，源码参考了https://github.com/XichengDong/simplespark10.1数据准备（1）下载数据https://grouplens.org/datasets/movielens/https://grouplens.org/datasets/movielens/1m/单击ml-1m.zip链接即可下载（2）上传到HDFS[root@node

程裕强·2017-09-24 17:30

spark2.x由浅入深深到底系列七之RDD python api详解二

学习spark任何技术之前请先正确理解spark，可以参考：正确理解Spark本文详细介绍RDDpythonapi的action操作。先创建一个RDD：conf = SparkConf().setAppName("appName").setMaster("local")sc = SparkContext(conf=conf)parallelize_rdd = sc.parallelize([1,

tangweiqun·2017-09-23 22:23

spark2.x由浅入深深到底系列七之py4j在spark中python api的使用

学习spark的任何技术前请先正确理解spark，可以参考：正确理解Spark我们知道spark的RDD支持scalaapi、javaapi以及pythonapi，我们分别对scalaapi与javaapi做了详细的介绍，本文我们将探讨rddpythonapi是怎么使用py4j来调用scala/java的api的，从而来实现pythonapi的功能。首先我们先介绍下py4j。一、py4jpy4j是

tangweiqun·2017-09-23 22:00

spark2.x由浅入深深到底系列七之RDD python api详解一

学习spark任何技术之前，请先正确理解spark，可以参考：正确理解spark以下对RDD的三种创建方式、单类型RDD基本的transformationapi、采样Api以及pipe操作进行了pythonapi方面的阐述一、RDD的三种创建方式从稳定的文件存储系统中创建RDD，比如localfileSystem或者hdfs等，如下："""创建RDD的方法:1: 从一个稳定的存储系统中，比如hdf

tangweiqun·2017-09-21 23:37

spark2.x由浅入深深到底系列七之python开发spark环境配置

学习spark任何的技术前，请先正确理解spark，可以参考:正确理解spark以下是在mac操作系统上配置用python开发spark的环境一、安装pythonspark2.2.0需要python的版本是Python2.6+或者Python3.4+可以参考：http://jingyan.baidu.com/article/7908e85c78c743af491ad261.html二、下载spar

tangweiqun·2017-09-21 22:32

spark2.x由浅入深深到底系列六之RDD java api用JdbcRDD读取关系型数据库

学习任何的spark技术之前，请先正确理解spark，可以参考：正确理解spark以下是用sparkRDDjavaapi实现从关系型数据库中读取数据，这里使用的是derby本地数据库，当然可以是mysql或者oracle等关系型数据库：package com.twq.javaapi.java7;import org.apache.spark.api.java.JavaRDD;import org.

tangweiqun·2017-09-20 23:42

spark2.x由浅入深深到底系列六之RDD 支持java8 lambda表达式

学习spark任何技术之前，请正确理解spark，可以参考：正确理解spark我们在http://7639240.blog.51cto.com/7629240/1966131中已经知道了，一个scala函数其实就是java中的一个接口，对于java8lambda而言，也是一样，一个lambda表达式就是java中的一个接口。接下来我们先看看spark中最简单的wordcount这个例子，分别用ja

tangweiqun·2017-09-20 22:00

spark2.x由浅入深深到底系列六之RDD api reduceByKey与foldByKey对比

学习spark任何知识点之前，最好先正确理解spark，可以参考：正确理解spark一、序言对于key-value类型RDD的两个api，reduceByKey与foldByKey，我们往往只是简单的知道它们不同的点就是foldByKey比reduceByKey多了一个初始值，但是仅仅知道这么一点是完全不够的，我们还是不知道怎么合理的去用这两个api，所以有必要对两个api做一个详细的对比。我们接

tangweiqun·2017-09-19 23:24

spark2.x由浅入深深到底系列六之RDD java api详解四

学习spark任何的知识点之前，先对spark要有一个正确的理解，可以参考：正确理解spark本文对join相关的api做了一个解释SparkConf conf = new SparkConf().setAppName("appName").setMaster("local");JavaSparkContext sc = new JavaSparkContext(conf);JavaPairRDD

tangweiqun·2017-09-19 21:02

spark2.x由浅入深深到底系列六之RDD java api详解三

学习任何spark知识点之前请先正确理解spark，可以参考：正确理解spark本文详细介绍了sparkkey-value类型的rddjavaapi一、key-value类型的RDD的创建方式1、sparkContext.parallelizePairsJavaPairRDD javaPairRDD = sc.parallelizePairs(Arrays.asList(new Tu

tangweiqun·2017-09-19 21:58

spark2.x由浅入深深到底系列六之RDD java api详解二

在学习Spark前，建议先正确理解spark，可以参考：正确理解spark本篇对JavaRDD基本的actionapi进行了详细的描述先定义两个Comparator实现，一个是实现升序，一个是实现降序//升序排序比较器private static class AscComparator implements Comparator, Serializable { @Override pu

tangweiqun·2017-09-17 23:23

spark2.x由浅入深深到底系列六之RDD java api调用scala api的原理

学习spark任何的技术之前，请正确理解spark，可以参考：正确理解sparkRDDjavaapi其实底层是调用了scala的api来实现的，所以我们有必要对javaapi是怎么样去调用scalaapi，我们先自己简单的实现一个scala版本和java版本的RDD和SparkContext一、简单实现scala版本的RDD和SparkContextclass RDD[T](value: Seq[

tangweiqun·2017-09-17 22:56

spark2.x由浅入深深到底系列六之RDD java api详解一

学习spark任何技术之前，请先正确理解spark，可以参考：正确理解spark以下对RDD的三种创建方式、单类型RDD基本的transformationapi、采样Api以及pipe操作进行了javaapi方面的阐述一、RDD的三种创建方式从稳定的文件存储系统中创建RDD，比如localfileSystem或者hdfs等，如下：//从hdfs文件中创建JavaRDD textFileRDD =

tangweiqun·2017-09-17 20:36

Spark2.x学习笔记：8、 Spark应用程打包与提交

8、Spark应用程打包与提交提示：基于Windows平台+IntellijIDEA的Spark开发环境，仅用于编写程序和代码以本地模式调试。Windows+IntellijIDEA下的Spark程序不能直接连接到Linux集群。如果需要将Spark程序在Linux集群中运行，需要将Spark程序打包，并提交到集中运行，这就是本章的主要内容。8.1应用程序打包（1）Maven打包进入Maven项目

程裕强·2017-09-16 22:36

Spark2.x学习笔记：7、Spark应用程序设计

7、Spark应用程序设计7.1基本流程1.创建SparkContext对象每个Spark应用程序有且仅有一个SparkContext对象，封装了Spark执行环境信息2.创建RDD可以冲Scala集合或者Hadoop数据集上创建3.在RDD之上进行转换和ActionMapReduce只提供了map和reduce两种操作，而Spark提供了多种转换和action函数4.返回结果保存到HDFS中，或

程裕强·2017-09-12 15:21

【大数据----Spark】30分钟概览Spark Streaming 实时计算

Spark2.X下一代实时计算框架StructuredStreamingSparkStreaming相对其他实时计算框架该如何技术选型？本文主要针对初学者，如果有不明白的概念可了解之前的博客内容。

Sunny3096·2017-09-12 13:00

Spark2.x学习笔记：6、在Windows平台下搭建Spark开发环境（Intellij IDEA）

Spark2.x学习笔记6、在Windows平台下搭建Spark开发环境（IntellijIDEA+Maven）6.1集成开发环境IDE为了方便应用程序开发与测试，提高开发效率，一般使用集成开发工具IDE

程裕强·2017-09-10 21:45

Spark2.x学习笔记：5、Spark On YARN模式

Spark学习笔记：5、SparkOnYARN模式有些关于SparkonYARN部署的博客，实际上介绍的是Spark的standalone运行模式。如果启动Spark的master和worker服务，这是Spark的standalone运行模式，不是SparkonYARN运行模式，请不要混淆。Spark在生产环境中，主要部署在Hadoop集群中，以SparkOnYARN模式运行，依靠yarn来调度

程裕强·2017-09-06 11:11

Spark2.x学习笔记：3、 Spark核心概念RDD

Spark学习笔记：3、Spark核心概念RDD3.1RDD概念弹性分布式数据集(ResilientDistributedDatasets,RDD)，可以分三个层次来理解：数据集：故名思议，RDD是数据集合的抽象，是复杂物理介质上存在数据的一种逻辑视图。从外部来看，RDD的确可以被看待成经过封装，带扩展特性（如容错性）的数据集合。分布式：RDD的数据可能在物理上存储在多个节点的磁盘或内存中，也就是

程裕强·2017-08-30 16:59

Spark2.x学习笔记：1、Spark2.2快速入门（本地模式）

1、Spark2.2快速入门（本地模式）1.1Spark本地模式学习Spark，先易后难，先从最简单的本地模式学起。本地模式（local），常用于本地开发测试，解压缩Spark软件包就可以用，也就是所谓的“开封即用”1.2安装JDK8（1）下载登录Oracle官网http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloa

程裕强·2017-08-29 10:15

spark2.x写入数据到ElasticSearch5.X集群

首先说明，到目前为止，我使用过spark1.6写入数据到ES2.4中，使用很简单。当我使用spark1.6写入到ES5.5的时候，一直不成功。官网首先就讲了throughthededicatedsupportavailablesince2.1orthroughtheMap/Reducebridgesince2.0.Spark2.0issupportedinelasticsearch-hadoops

ghostband_·2017-07-31 15:09

Spark 提升spark1.6提交任务速度+配置spark2.x后hiveserver2运行失败

1.6.3-hadoop2.6.0.jar并把jar包上传到配置的位置，可以避免每次提交任务都重新上传在spark1.6版中，看启动的控制台日志可以发现，每次提交任务到yarn都会从本地上传一遍此jar包配置spark2

Nougats·2017-07-21 20:56

Spark Release 2.2.0 最新版本发布，Spark 2.2.0是Spark 2.x中第一个在生产环境可以使用的版本，对于Spark具有里程碑意义

第2章Spark2.X技术及原理Apache官方网站于2017年7月11日发布了SparkRelease2.2.0版本，ApacheSpark2.2.0版本是Spark2.x系列上的第三个版本。

段智华·2017-07-18 05:18

Spark中RpcEnv和SparkEnv的区别

RpcEnv在Spark2.x版本之后就只有Netty的实现了，因此看一下RpcEnv和NettyRpcEnv的声明：private[spar

javartisan·2017-06-27 22:40

Spark Structured Streaming、Kafak整合

StructuredStreamingSBT依赖包：groupId=org.apache.sparkartifactId=spark-sql-kafka-0-10_2.11version=2.1.1在Spark2

千寻千梦·2017-05-26 13:49

30分钟概览Spark Streaming 实时计算

Spark2.X下一代实时计算框架StructuredStreamingSparkStreaming相对其他实时计算框架该如何技术选型？本文主要针对初学者，如果有不明白的概念可了解之前的博客内容。

xwc35047·2017-02-18 17:49

Spark定制班第29课：深入理解Spark 2.x中的Structured Streaming内幕

Spark2.X提出了continuousapplication（连续的应用程序）的概念，非常重大。如图例所示，数据通过Kafka流进来，经过ETL，SS把数据看成一张表。

andyshar·2016-06-24 10:35

Spark社区可能放弃Spark 1.7而直接发布Spark 2.x

最近由ReynoldXin给Spark开发者发布的一封邮件透露，Spark社区很有可能会跳过Spark 1.7版本的发布，而直接转向Spark2.x。

wind520·2015-11-14 09:00

推荐频道

Spark2.X

Spark UDF使用详解及代码示例

Spark2.x学习笔记：6、在Windows平台下搭建Spark开发环境（Intellij IDEA）

Spark2.x学习笔记：2、Scala简单例子

Spark2.X 使用累加器AccumulatorV2实现字符串拼接下的字母统计

大数据Structured Streaming教程1：基本概念及使用

Spark2.x学习笔记：11、RDD依赖关系与stage划分 - CSDN博客

CDH5.11.1 升级spark2.x

关于spark2.x后的SparkSession

spark2.x 独立集群环境搭建 | 适用于spark集群环境搭建

spark2.x 独立集群环境搭建 | 适用于spark集群环境搭建

开源大数据周刊-第44期

Spark视频王家林大神 第7课： Spark机器学习内幕剖析

Spark视频王家林大神第2课：解密spark第二代tungsten引擎测试数据和引擎实现内幕

Spark2.x学习笔记：18、Spark Streaming程序解读

Spark2.x与ElasticSearch的完美结合

Spark2.x学习笔记：10、简易电影受众系统

spark2.x由浅入深深到底系列七之RDD python api详解二

spark2.x由浅入深深到底系列七之py4j在spark中python api的使用

spark2.x由浅入深深到底系列七之RDD python api详解一

spark2.x由浅入深深到底系列七之python开发spark环境配置

spark2.x由浅入深深到底系列六之RDD java api用JdbcRDD读取关系型数据库

spark2.x由浅入深深到底系列六之RDD 支持java8 lambda表达式

spark2.x由浅入深深到底系列六之RDD api reduceByKey与foldByKey对比

spark2.x由浅入深深到底系列六之RDD java api详解四

spark2.x由浅入深深到底系列六之RDD java api详解三

spark2.x由浅入深深到底系列六之RDD java api详解二

spark2.x由浅入深深到底系列六之RDD java api调用scala api的原理

spark2.x由浅入深深到底系列六之RDD java api详解一

Spark2.x学习笔记：8、 Spark应用程打包与提交

Spark2.x学习笔记：7、Spark应用程序设计

【大数据----Spark】30分钟概览Spark Streaming 实时计算

Spark2.x学习笔记：6、在Windows平台下搭建Spark开发环境（Intellij IDEA）

Spark2.x学习笔记：5、Spark On YARN模式

Spark2.x学习笔记：3、 Spark核心概念RDD

Spark2.x学习笔记：1、Spark2.2快速入门（本地模式）

spark2.x写入数据到ElasticSearch5.X集群

Spark 提升spark1.6提交任务速度+配置spark2.x后hiveserver2运行失败

Spark Release 2.2.0 最新版本发布，Spark 2.2.0是Spark 2.x中第一个在生产环境可以使用的版本，对于Spark具有里程碑意义

Spark中RpcEnv和SparkEnv的区别

Spark Structured Streaming、Kafak整合

30分钟概览Spark Streaming 实时计算

Spark定制班第29课：深入理解Spark 2.x中的Structured Streaming内幕

Spark社区可能放弃Spark 1.7而直接发布Spark 2.x

Spark视频王家林大神第7课： Spark机器学习内幕剖析