spark2 第38页

Spark源码的下载和编译

spark的下载打开网址spark.apache.org，点击download，选择想要下载的版本，我这里选择了最新的2.2.0版本在chooseapackagetype中选择sourcecode，获取spark2.2.0

BornZhu·2017-11-15 16:08

每日问题记录20171114

//Spark2.1valspark=SparkSession.b

轩脉刃·2017-11-14 22:00

Spark 读取CSV 解析单元格多行数值问题

0-52-52~]$cattest.csvid,name,address1,zhangsan,chinashanghai2,lisi,"chinabeijing"3,tom,chinashanghaiSpark2.2

ice泉·2017-11-14 18:57

【备忘】年薪50万2017年最新北风网Spark2.0从入门到精通教程

Spark从入门到精通（Scala编程、案例实战、高级特性、Spark内核源码剖析、Hadoop高端）官方出售价格：2250元，地址：http://www.ibeifeng.com/goods-560.html本课程主要讲解目前大数据领域最热门、最火爆、最有前景的技术——Spark。在本课程中，会从浅入深，基于大量案例实战，深度剖析和讲解Spark，并且会包含完全从企...适合人群：中级课时数量：

qq_38472089·2017-11-12 17:33

Spark基本操作SparkSession,Dataset,JavaRDD

一、Spark创建1.创建SparkSession/***local[*]表示使用本机的所有处理器创建工作节点*spark.driver.memoryspark的驱动器内存*Spark2.2好像是需要最小

Dark_Zhou·2017-11-09 15:19

Spark基本操作SparkSession,Dataset,JavaRDD

一、Spark创建1.创建SparkSession/***local[*]表示使用本机的所有处理器创建工作节点*spark.driver.memoryspark的驱动器内存*Spark2.2好像是需要最小

Dark_Zhou·2017-11-09 15:19

Spark2.x学习笔记：18、Spark Streaming程序解读

《Spark2.x学习笔记》18、SparkStreaming程序解读18.1SparkStreaming原理SparkStreaming将流式计算转化为一批批很小的、确定的批处理作业（micro-batch

程裕强·2017-11-07 23:25

Spark 2.0 时代全面到来 —— 2.0.1 版本发布

距离Spark2.0.0发布两个月后，Spark2.0.1版本发布了，这是一个修正版本，共处理了300多个Issue，涉及spark稳定性和bug等方面的修复，它的发布意味着Spark2.0接近生产环境使用要求

kaixin2010·2017-11-05 10:19

hive on spark安装(hive2.3 spark2.1)

spark2.0引入了sparksession的概念，创建一个spark任务和之前也不一样，之前版本的hive并不能兼容spark2.0，所以推荐使用hive2.3以后的版本。

敲码的汉子·2017-11-01 18:08

hive on spark安装(hive2.3 spark2.1)

spark2.0引入了sparksession的概念，创建一个spark任务和之前也不一样，之前版本的hive并不能兼容spark2.0，所以推荐使用hive2.3以后的版本。

敲码的汉子·2017-11-01 18:08

spark的sparkUI如何解读？

以spark2.1.4来做例子Job-schedulemode进入之后默认是进入sparkjob页面这个说明有很详细的解释，spark有两种操作算子：转换算子（transformation）和执行算子（

轩脉刃·2017-11-01 07:00

Spark记录-源码编译spark2.2.0（结合Hive on Spark/Hive on MR2/Spark on Yarn）

#spark2.2.0源码编译#组件：mvn-3.3.9jdk-1.8#wgethttp://mirror.bit.edu.cn/apache/spark/spark-2.2.0/spark-2.2.0

信方·2017-10-31 19:00

[spark] Standalone模式下Master、WorKer启动流程

本文基于spark2.1进行解析前言Spark作为分布式的计算框架可支持多种运行模式：本地运行模式（单机）本地伪集群运行模式（单机模拟集群）StandaloneClient模式（集群）StandaloneCluster

BIGUFO·2017-10-31 10:11

Spark2.2-Task序列化源码解析

源码版本：2.2如有错误请指正一、前言Spark在运行应用程序时，会根据RDD的操作，将数据处理流程划分为多个stage进行计算，其中划分stage的依据是数据是否产生shuffle。在同一个stage中，RDD之间的依赖都是窄依赖。一个stage下会有多个task，每个task针对不同的分区数据执行同样的运算逻辑。在Spark集群模式下，多个不同的task可能运行在不同的节点上。那么，是什么机制

代码不会写·2017-10-24 15:48

Effective PySpark(PySpark 常见问题)

下载spark2.2.0,然后解压到特定目录，设置SPARK_HOME即可。其实如果通过spark-submit提交程序，并不会需要额外安装pyspark,这里通过pip安装的主

祝威廉·2017-10-23 18:00

Spark 2.0视频教程|快学Spark 2.0(新特性、含真实项目、纯Scala语言开发、CDH5.7)

快学Spark2.0(新特性、含真实项目、纯Scala语言开发、CDH5.7)分享网盘下载——https://pan.baidu.com/s/1mkqrTs0密码:y5hghttps://pan.baidu.com

fengzhongyela·2017-10-20 08:43

Spark 2.0视频教程|快学Spark 2.0(新特性、含真实项目、纯Scala语言开发、CDH5.7)

老江师兄弟·2017-10-20 08:00

Spark2.2任务提交运行机制及源码解析

源码版本：2.2参考《Spark内核机制解析及性能调优》如有错误请指正一、Spark运行的核心概念Spark调度器的设计体现得非常简洁清晰和高效，其输入是SparkRDD，输出是Spark执行器(Executor)。正是Spark调度器的设计思想极大地区分出了基于MapReduce模型的Hadoop和基于DAG模型的Spark。主要内容包括Spark运行核心概念，SparkDriverProgra

代码不会写·2017-10-19 16:43

Spark2.x与ElasticSearch的完美结合

ElasticSearch（简称ES）是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RestFulweb接口。ElasticSearch是用Java开发的，并作为Apache许可条款下的开放源码发布，是当前流行的企业级搜索引擎。设计用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便的目地，当前在各大公司使用非常普遍。而Spark是基于分布式内存的高

openfea·2017-10-19 10:53

CDH 5.12.1 离线部署指南(附spark2.2.0集成指南)

CDH5.12.1离线部署指南(附spark2.2.0集成指南)由于国内的网络原因，CDH在国内几乎无法实现在线安装，本文将介绍CDH离线安装方式，所有安装包下载后传输到内网安装，由于版本较新的原因，安装过程的坑还是很多的

古月慕南·2017-10-13 12:27

Structured Streaming 实现思路与实现概述

StructuredStreaming实现思路与实现概述[酷玩Spark]StructuredStreaming源码解析系列，返回目录请猛戳这里「腾讯·广点通」技术团队荣誉出品本文内容适用范围：*2017.07.11update,Spark2.2

gongpulin·2017-10-10 23:43

【大数据系统架构师】学习目录

.X1.3大数据仓库Hive1.4大数据协作框架1.5分布式数据库HBase2.Hadoop大数据开发高级技术2.1Storm流计算入门到精通之技术篇2.2Scala语言从入门到精通2.3内存计算框架Spark2.4Spark

沙漏哟·2017-10-07 13:00

[CDH安装]--关于Spark版本的支持

原文：https://www.cloudera.com/documentation/spark2/latest/topics/spark2_requirements.htmlSpark2要求以下部分介绍了

highfei2011·2017-09-28 16:15

spark2.1源码分析4：spark-network-common模块的设计原理

spark-network-common模块底层使用netty作为通讯框架，可以实现rpc消息、数据块和数据流的传输。Message类图：所有request消息都是RequestMessage的子类所有response消息都是ResponseMessage的子类TransportClient主要提供了三个方法：//通过给定的streamId，获取远端数据流publicvoidstream(fina

ggzone·2017-09-28 13:01

Spark2.x学习笔记：10、简易电影受众系统

10、简易电影受众系统本章内容，源码参考了https://github.com/XichengDong/simplespark10.1数据准备（1）下载数据https://grouplens.org/datasets/movielens/https://grouplens.org/datasets/movielens/1m/单击ml-1m.zip链接即可下载（2）上传到HDFS[root@node

程裕强·2017-09-24 17:30

spark2.x由浅入深深到底系列七之RDD python api详解二

学习spark任何技术之前请先正确理解spark，可以参考：正确理解Spark本文详细介绍RDDpythonapi的action操作。先创建一个RDD：conf = SparkConf().setAppName("appName").setMaster("local")sc = SparkContext(conf=conf)parallelize_rdd = sc.parallelize([1,

tangweiqun·2017-09-23 22:23

spark2.x由浅入深深到底系列七之py4j在spark中python api的使用

学习spark的任何技术前请先正确理解spark，可以参考：正确理解Spark我们知道spark的RDD支持scalaapi、javaapi以及pythonapi，我们分别对scalaapi与javaapi做了详细的介绍，本文我们将探讨rddpythonapi是怎么使用py4j来调用scala/java的api的，从而来实现pythonapi的功能。首先我们先介绍下py4j。一、py4jpy4j是

tangweiqun·2017-09-23 22:00

spark2.x由浅入深深到底系列七之RDD python api详解一

学习spark任何技术之前，请先正确理解spark，可以参考：正确理解spark以下对RDD的三种创建方式、单类型RDD基本的transformationapi、采样Api以及pipe操作进行了pythonapi方面的阐述一、RDD的三种创建方式从稳定的文件存储系统中创建RDD，比如localfileSystem或者hdfs等，如下："""创建RDD的方法:1: 从一个稳定的存储系统中，比如hdf

tangweiqun·2017-09-21 23:37

spark2.x由浅入深深到底系列七之python开发spark环境配置

学习spark任何的技术前，请先正确理解spark，可以参考:正确理解spark以下是在mac操作系统上配置用python开发spark的环境一、安装pythonspark2.2.0需要python的版本是

tangweiqun·2017-09-21 22:32

spark2.x由浅入深深到底系列六之RDD java api用JdbcRDD读取关系型数据库

学习任何的spark技术之前，请先正确理解spark，可以参考：正确理解spark以下是用sparkRDDjavaapi实现从关系型数据库中读取数据，这里使用的是derby本地数据库，当然可以是mysql或者oracle等关系型数据库：package com.twq.javaapi.java7;import org.apache.spark.api.java.JavaRDD;import org.

tangweiqun·2017-09-20 23:42

spark2.x由浅入深深到底系列六之RDD 支持java8 lambda表达式

学习spark任何技术之前，请正确理解spark，可以参考：正确理解spark我们在http://7639240.blog.51cto.com/7629240/1966131中已经知道了，一个scala函数其实就是java中的一个接口，对于java8lambda而言，也是一样，一个lambda表达式就是java中的一个接口。接下来我们先看看spark中最简单的wordcount这个例子，分别用ja

tangweiqun·2017-09-20 22:00

spark+mongo Scala开发环境搭建

依赖环境1.jdk1.82.scala2.113.spark2.2.0idea创建Scala项目idea配置Scala环境搜索Scala点击右侧安装按钮，等待安装完成，然后点OK（此处因为我已经安装过了

JoeyDTChen·2017-09-20 18:47

spark2.x由浅入深深到底系列六之RDD api reduceByKey与foldByKey对比

学习spark任何知识点之前，最好先正确理解spark，可以参考：正确理解spark一、序言对于key-value类型RDD的两个api，reduceByKey与foldByKey，我们往往只是简单的知道它们不同的点就是foldByKey比reduceByKey多了一个初始值，但是仅仅知道这么一点是完全不够的，我们还是不知道怎么合理的去用这两个api，所以有必要对两个api做一个详细的对比。我们接

tangweiqun·2017-09-19 23:24

spark2.x由浅入深深到底系列六之RDD java api详解四

学习spark任何的知识点之前，先对spark要有一个正确的理解，可以参考：正确理解spark本文对join相关的api做了一个解释SparkConf conf = new SparkConf().setAppName("appName").setMaster("local");JavaSparkContext sc = new JavaSparkContext(conf);JavaPairRDD

tangweiqun·2017-09-19 21:02

spark2.x由浅入深深到底系列六之RDD java api详解三

学习任何spark知识点之前请先正确理解spark，可以参考：正确理解spark本文详细介绍了sparkkey-value类型的rddjavaapi一、key-value类型的RDD的创建方式1、sparkContext.parallelizePairsJavaPairRDD javaPairRDD = sc.parallelizePairs(Arrays.asList(new Tu

tangweiqun·2017-09-19 21:58

spark2.2.0安装配置

依赖环境：java1.8scala2.11.8hadoop2.7.3说明：主机host映射:192.168.238.100node01192.168.238.101node02192.168.238.102node03其中node01上安装master，node02、node03上安装workernode01先配置ssh到node02、node03修改配置cdspark-2.2.0/conf/sp

bingo_liu·2017-09-19 16:40

spark2.x由浅入深深到底系列六之RDD java api详解二

在学习Spark前，建议先正确理解spark，可以参考：正确理解spark本篇对JavaRDD基本的actionapi进行了详细的描述先定义两个Comparator实现，一个是实现升序，一个是实现降序//升序排序比较器private static class AscComparator implements Comparator, Serializable { @Override pu

tangweiqun·2017-09-17 23:23

spark2.x由浅入深深到底系列六之RDD java api调用scala api的原理

学习spark任何的技术之前，请正确理解spark，可以参考：正确理解sparkRDDjavaapi其实底层是调用了scala的api来实现的，所以我们有必要对javaapi是怎么样去调用scalaapi，我们先自己简单的实现一个scala版本和java版本的RDD和SparkContext一、简单实现scala版本的RDD和SparkContextclass RDD[T](value: Seq[

tangweiqun·2017-09-17 22:56

spark2.x由浅入深深到底系列六之RDD java api详解一

学习spark任何技术之前，请先正确理解spark，可以参考：正确理解spark以下对RDD的三种创建方式、单类型RDD基本的transformationapi、采样Api以及pipe操作进行了javaapi方面的阐述一、RDD的三种创建方式从稳定的文件存储系统中创建RDD，比如localfileSystem或者hdfs等，如下：//从hdfs文件中创建JavaRDD textFileRDD =

tangweiqun·2017-09-17 20:36

Spark2.x学习笔记：8、 Spark应用程打包与提交

8、Spark应用程打包与提交提示：基于Windows平台+IntellijIDEA的Spark开发环境，仅用于编写程序和代码以本地模式调试。Windows+IntellijIDEA下的Spark程序不能直接连接到Linux集群。如果需要将Spark程序在Linux集群中运行，需要将Spark程序打包，并提交到集中运行，这就是本章的主要内容。8.1应用程序打包（1）Maven打包进入Maven项目

程裕强·2017-09-16 22:36

Akka使用入门

定义一个Actorb客户端调用向actor发送消息cActor的生命周期dActor编程模型的层次结构akka的容错机制akka的远程调用客户端应用入口服务端入口pojo类客户端配置文件服务端配置文件三Spark20

dinghuiit·2017-09-16 16:36

Spark2.x学习笔记：7、Spark应用程序设计

7、Spark应用程序设计7.1基本流程1.创建SparkContext对象每个Spark应用程序有且仅有一个SparkContext对象，封装了Spark执行环境信息2.创建RDD可以冲Scala集合或者Hadoop数据集上创建3.在RDD之上进行转换和ActionMapReduce只提供了map和reduce两种操作，而Spark提供了多种转换和action函数4.返回结果保存到HDFS中，或

程裕强·2017-09-12 15:21

【大数据----Spark】30分钟概览Spark Streaming 实时计算

Spark2.X下一代实时计算框架StructuredStreamingSparkStreaming相对其他实时计算框架该如何技术选型？本文主要针对初学者，如果有不明白的概念可了解之前的博客内容。

Sunny3096·2017-09-12 13:00

Spark2.x学习笔记：6、在Windows平台下搭建Spark开发环境（Intellij IDEA）

Spark2.x学习笔记6、在Windows平台下搭建Spark开发环境（IntellijIDEA+Maven）6.1集成开发环境IDE为了方便应用程序开发与测试，提高开发效率，一般使用集成开发工具IDE

程裕强·2017-09-10 21:45

spark2.2.0源码学习过程记录：Day8

1、《apachespark源码剖析》浏览第六、七、八、九章后面的几章中只准备学习其中的sparksql部分，所以首先全部浏览了一下，再回过头来看第七章2、读《apachespark源码剖析》第七章第1节、第2.1节SQL语句在分析执行过程中会经理几个步骤：（1）语法解析。（2）操作绑定。（3）优化执行策略。（4）交付执行。3、源码学习从书中看出入口类为SparkContext，但是看代码中，在新

猫耳山大王·2017-09-09 18:45

Spark2.1特征处理:提取/转换/选择

1.FeatureExtractors（特征提取）1.1TF-IDF词频（TermFrequency）-逆向文档频率（InverseDocumentFrequency）是一种特征矢量化方法，广泛应用于文本挖掘，用以评估某一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。定义：t表示由一个单词，d表示一个文档，D表示多个文档构成的语料库（corpus），词频TF（t，d）表示某一个给定的单

bitcarmanlee·2017-09-06 17:17

Spark2.x学习笔记：5、Spark On YARN模式

Spark学习笔记：5、SparkOnYARN模式有些关于SparkonYARN部署的博客，实际上介绍的是Spark的standalone运行模式。如果启动Spark的master和worker服务，这是Spark的standalone运行模式，不是SparkonYARN运行模式，请不要混淆。Spark在生产环境中，主要部署在Hadoop集群中，以SparkOnYARN模式运行，依靠yarn来调度

程裕强·2017-09-06 11:11

spark2.2.0源码学习过程记录：Day4

1、读《apachespark源码剖析》第四章第1节作业提交我也使用简单的WordCount例子sc.textFile("/hdfs-site.xml").flatMap(line=>line.split("")).map(word=>(word,1)).reduceByKey(_+_)来学习2、源码学习把例子像书中一样分成了几个子句，在命令行中敲了一下，看看转换的情况，和书中情况不太一样，因为版

猫耳山大王·2017-09-02 16:21

spark2.2.0源码学习过程记录：Day4

1、读《apachespark源码剖析》第四章第1节作业提交我也使用简单的WordCount例子sc.textFile("/hdfs-site.xml").flatMap(line=>line.split("")).map(word=>(word,1)).reduceByKey(_+_)来学习2、源码学习把例子像书中一样分成了几个子句，在命令行中敲了一下，看看转换的情况，和书中情况不太一样，因为版

猫耳山大王·2017-09-02 16:21

spark2.2.0源码学习过程记录：Day3

Day31、读《apachespark源码剖析》第三章第3.2节、3.3节因为3.3节的内容是是讲repl的，我暂时并不关系，所以这部分内容看看书就可以了而3.2节的内容是讲SparkContext的初始化，比较重要，这部分要看完书后自己再看下源码2、源码学习书中3.2节讲的是SparkContext的初始化，但是我学习的版本是2.2.0，初始化是SparkSession，它和SparkConte

猫耳山大王·2017-09-02 16:42

推荐频道

spark2

Spark源码的下载和编译

每日问题记录20171114

Spark 读取CSV 解析单元格多行数值问题

【备忘】年薪50万2017年最新北风网Spark2.0从入门到精通教程

Spark基本操作SparkSession,Dataset,JavaRDD

Spark基本操作SparkSession,Dataset,JavaRDD

Spark2.x学习笔记：18、Spark Streaming程序解读

Spark 2.0 时代全面到来 —— 2.0.1 版本发布

hive on spark安装(hive2.3 spark2.1)

hive on spark安装(hive2.3 spark2.1)

spark的sparkUI如何解读？

Spark记录-源码编译spark2.2.0（结合Hive on Spark/Hive on MR2/Spark on Yarn）

[spark] Standalone模式下Master、WorKer启动流程

Spark2.2-Task序列化源码解析

Effective PySpark(PySpark 常见问题)

Spark 2.0视频教程|快学Spark 2.0(新特性、含真实项目、纯Scala语言开发、CDH5.7)

Spark 2.0视频教程|快学Spark 2.0(新特性、含真实项目、纯Scala语言开发、CDH5.7)

Spark2.2任务提交运行机制及源码解析

Spark2.x与ElasticSearch的完美结合

CDH 5.12.1 离线部署指南(附spark2.2.0集成指南)

Structured Streaming 实现思路与实现概述

【大数据系统架构师】学习目录

[CDH安装]--关于Spark版本的支持

spark2.1源码分析4：spark-network-common模块的设计原理

Spark2.x学习笔记：10、简易电影受众系统

spark2.x由浅入深深到底系列七之RDD python api详解二

spark2.x由浅入深深到底系列七之py4j在spark中python api的使用

spark2.x由浅入深深到底系列七之RDD python api详解一

spark2.x由浅入深深到底系列七之python开发spark环境配置

spark2.x由浅入深深到底系列六之RDD java api用JdbcRDD读取关系型数据库

spark2.x由浅入深深到底系列六之RDD 支持java8 lambda表达式

spark+mongo Scala开发环境搭建

spark2.x由浅入深深到底系列六之RDD api reduceByKey与foldByKey对比

spark2.x由浅入深深到底系列六之RDD java api详解四

spark2.x由浅入深深到底系列六之RDD java api详解三

spark2.2.0安装配置

spark2.x由浅入深深到底系列六之RDD java api详解二

spark2.x由浅入深深到底系列六之RDD java api调用scala api的原理

spark2.x由浅入深深到底系列六之RDD java api详解一

Spark2.x学习笔记：8、 Spark应用程打包与提交

Akka使用入门

Spark2.x学习笔记：7、Spark应用程序设计

【大数据----Spark】30分钟概览Spark Streaming 实时计算

Spark2.x学习笔记：6、在Windows平台下搭建Spark开发环境（Intellij IDEA）

spark2.2.0源码学习过程记录：Day8

Spark2.1特征处理:提取/转换/选择

Spark2.x学习笔记：5、Spark On YARN模式

spark2.2.0源码学习过程记录：Day4

spark2.2.0源码学习过程记录：Day4

spark2.2.0源码学习过程记录：Day3