spark1.6 第4页

Spark参数详解一（Spark1.6）

Spark参数详解（Spark1.6）参考文档：Spark官网在Spark的webUI在“Environment”选项卡中列出Spark属性。这是一个很有用的地方，可以检查以确保属性设置正确。

lillcol·2019-01-05 10:00

spark1.6源码-----任务提交与执行之任务提交

我是从RDD的collect函数进去的。/***ReturnanarraythatcontainsalloftheelementsinthisRDD.*///调用了sparkContext的runJob//返回一个Array集合defcollect():Array[T]=withScope{valresults=sc.runJob(this,(iter:Iterator[T])=>iter.toA

qq_33872191·2018-12-23 09:16

spark1.6源码-----任务提交与执行之RDD的构建

概述：spark的执行流程网上一大堆，我就不写了。本文以sparkWordCount为例来解析valinput=sc.textFile("C:\\Users\\pc\\PycharmProjects\\PyNews\\word*",1).flatMap(_.split("")).map(x=>(x,1)).reduceByKey(_+_).saveAsTextFile("D:/niha")ok，先

qq_33872191·2018-12-22 22:51

spark1.6使用：读取本地外部数据，把RDD转化成DataFrame，保存为parquet格式,读取csv格式

一、先开启Hadoop和spark略二、启动spark-shellspark-shell--masterlocal[2]--jars/usr/local/src/spark-1.6.1-bin-hadoop2.6/libext/com.mysql.jdbc.Driver.jar1.读取spark目录下面的logs日志作为测试：valalllog=sc.textFile("file:///usr/l

lbship·2018-11-01 15:22

hue集成Oozie工作流调度之Spark2 Workflow

而hue集成的是spark1.6,需要将spark2的jar包和oozie-sharelib-spark*.jar上传到hue的sharelib中，目录为：/user/oozie/

jmx_bigdata·2018-10-25 18:15

spark中 Dynamic Allocation 以及 num-executors 的问题

过一段时间，使用spark1.6的saprk-sql时发现有这么一个warnWARNspa

EnterPine·2018-09-12 16:41

在CDH5.14上离线安装Spark2.3

我们现在可以现有的集群中再装spark2.x版本，能和spark1.6版本并存。

常飞梦·2018-08-30 17:53

spark-源码-sparkContext DagScheduler

基于spark1.6在sparkContext里会创建DAGScheduler，DAGScheduler初始化了一个事件阻塞队列（action的触发，一个action会封装一个JobSubmitted类型的事件

scandly·2018-08-28 22:57

spark-源码-submit命令

基于spark1.6任务提交流程下面所说的driver（也叫ApplicationMaster）Spark-submit提交一个任务到集群，通过Spark-submit脚本启动主类，这里以WordCount

scandly·2018-08-28 22:46

Spark提交代码的两种方式

基于spark1.6测试（虽然很多公司都已经在用2.X了，但是1.6我认为是最经典的版本，CDH最新版本至今默认的spark版本依然是1.6，不过2.X提交方式是基本没有变的）Standalone（1）

SunnyRivers·2018-08-26 22:08

CDH5.15集成spark2

经查阅官方文档，发现spark1.6和2.x是可以并行安装的，也就是说可以不用删除默认的1.6版本，可以直接安装2.x版本，它们各自用的端口也是不一样的。

HarSenZhao·2018-08-15 09:15

Spark DataSet和RDD与DataFrame转换成DataSet

它是Spark1.6增加的新接口。我们可以从JVM的对象构造一个DataSet，然后使用map，flatMap，filter等等这样的函数式变换操作它。

leboop·2018-08-10 23:13

Spark DataSet和RDD与DataFrame转换成DataSet

它是Spark1.6增加的新接口。我们可以从JVM的对象构造一个DataSet，然后使用map，flatMap，filter等等这样的函数式变换操作它。

leboop·2018-08-10 23:13

Spark基础：（六）Spark SQL

Spark基础：（六）SparkSQL1、相关介绍Datasets：一个Dataset是一个分布式的数据集合Dataset是在Spark1.6中被添加的新接口,它提供了RDD的优点（强类型化,能够使用强大的

雪泪寒飞起来·2018-08-07 21:00

Spark SQL与DataSet

Dataset是Spark1.6中添加的一个新接口，它提供

chsmy2018·2018-08-01 16:16

【十】Spark SQL DataFrames概述及基本API操作

DataFrames概述官网介绍DataSet是一个分布式数据集，它是spark1.6后新增的。DataFrame是一个以列（列名、列的类型、列值）的形式

jy02268879·2018-07-27 01:14

spark用scala读取hive表数据

spark1.6写法：valconf=newSparkConf()valsc=newSparkContext(conf)valhiveContext=newHiveContext(sc)//指定hive

wjmmjr1·2018-07-20 16:01

Spark SQL 实现 group_concat

SparkSQL实现group_concat环境：Spark2.0.1以下貌似需要至少Spark1.6支持，未实测（网友yanshichuan1反馈spark1.5.1同样支持，感谢）表结构及内容：+-

Islotus·2018-07-11 02:47

Spark-SparkSQL读写方法

这里用Spark1.6，演示SparkSQL的读写功能。一、DataFrame：有列名的RDD首先，我们知道SparkSQL的目的是用sql语句去操作RDD，和Hive类似。

沙拉控·2018-05-08 15:15

Spark Streaming 流计算状态管理

spark有提供了两种模型来达到这样的功能，一个是updateStateByKey，另一个是mapWithState，后者属于Spark1.6之后的版本特性，性能是前者的数十倍。

cyony·2018-03-22 15:15

CDH5.11.1 升级spark2.x

经查阅官方文档，发现spark1.6和2.x是可以并行安装的，也就是说可以不用删除默认的1.6版本，可以直接安装2.x版本，它们各自用的端口也是不一样的。

heavylgf·2018-03-14 14:46

CDH集群 Spark1.6 升级到 Spark2.2 全纪录

但鉴于Spark2.0以后变化较大，为了方便新来员工技术发展，我决定把Spark1.6升级为spark2.2版本（2.3版本刚出不久，算是最新了）。

深寒丶·2018-03-14 10:53

Spark(二): 内存管理

storage，前者包括shuffles、joins、sorts和aggregations所需内存，后者包括cache和节点间数据传输所需内存；在Spark1.5和之前版本里，两者是静态配置的，不支持借用，spark1.6

clypm·2018-03-13 17:41

spark core内存oom问题初探

spark的内存分为计算内存和存储内存，两者的比例通过spark.storage.memoryFraction（默认为0.6）进行调节计算内存和存储内存的比例，在spark1.6版本后spark会自动进行调节两者比例

ahbbwangpei·2018-02-11 16:53

Spark Streaming 写kafka报错:kafka.cluster.BrokerEndPoint cannot be cast to kafka.cluster.Broker

查看了下集群spark1.6,kafka只找到了kafka_2.10-0.9.0-kafka-2.0.0.jar

福清仔·2018-01-30 15:03

Spark视频王家林大神第2课：解密spark第二代tungsten引擎测试数据和引擎实现内幕

第二代tungsten钨丝计划的推出，Spark官方的数据表明Spark的性能提升了5到10倍，大多数的代码不经修改，直接放在Spark2.x上运行，会比在Spark1.6上运行，速度会快5到10倍。

段智华·2018-01-25 08:00

Spark Dataset介绍和使用

Dataset是从Spark1.6开始引入的一个新的抽象，当时还是处于alpha版本；然而在Spark2.0，它已经变成了稳定版了。

zghgchao·2017-12-23 20:51

Spark Streaming 1.6 流式状态管理分析 - 简书

Spark1.6发布后，官方声称流式状态管理有10倍性能提升。这篇文章会详细介绍SparkStreaming里新的流式状态管理。

·2017-11-26 09:00

修改并编译spark源码

字母哥·2017-08-09 10:00

Spark 内存管理的前世今生（上）

本文之所以取名为"Spark内存管理的前世今生"是因为在Spark1.6中引入了新的内存管理方案，而在之前一直使用旧方案。刚刚提到自1.6版本引入了新的内存管理方案，但并不是说在1.6及之后的版本

牛肉圆粉不加葱·2017-08-04 08:40

spark2.x写入数据到ElasticSearch5.X集群

首先说明，到目前为止，我使用过spark1.6写入数据到ES2.4中，使用很简单。当我使用spark1.6写入到ES5.5的时候，一直不成功。

ghostband_·2017-07-31 15:09

Spark 提升spark1.6提交任务速度+配置spark2.x后hiveserver2运行失败

spark-defaults.conf中配置一句spark.yarn.jar=hdfs:///lib/spark-assembly-1.6.3-hadoop2.6.0.jar并把jar包上传到配置的位置，可以避免每次提交任务都重新上传在spark1.6

Nougats·2017-07-21 20:56

Spark 2.1.0新一代Tungsten 内存管理的模型及其实现类的解析

9.2.2内存管理的模型及其实现类的解析在2016年1月4号发布的Spark1.6中，提出了一个新的内存管理模型，即统一内存管理管理模型，对应在Spark1.5及之前的版本则使用静态的内存管理模型。

段智华·2017-06-30 07:23

第43课： Spark 1.6 RPC内幕解密：运行机制、源码详解、Netty与Akka等

第43课：Spark1.6RPC内幕解密：运行机制、源码详解、Netty与Akka等Spark1.6推出了以RpcEnv、RPCEndpoint、RPCEndpointRef为核心的新型架构下的RPC通信方式

段智华·2017-06-09 07:52

Spark 2.0介绍：Dataset介绍和使用

DataSet是从Spark1.6开始引入的一个新的抽象，当时还是处于alpha版本；然而在Spark2.0，它已经变成了稳定版了。

MatrixSparse·2017-04-05 17:10

利用IDEA查看和修改spark源码

首先，注意大坑～下图是我的配置spark1.6配scala2.10下载地址如下：spark&scala包然后你可以

FishSeeker·2017-03-19 22:39

使用idea开发spark 实战

由于spark1.6需要scala2.10.X版本的。推荐2.10.4，java版本最好是1.8。

a11a2233445566·2017-01-18 12:28

第八课 IDEA开发spark

由于spark1.6需要scala2.10.X版本的。推荐2.10.4，java版本最好是1.8。所以提前我们要需要安装好java和scala并在环境变量中配置好。

a11a2233445566·2016-10-11 14:04

Spark Accumulator的正确使用方式

Spark1.6中的publicstaticvoidmain(String[]args){SparkConfconf=newSparkConf().setMaster("local[3]") .setAppName

mtj66·2016-10-06 00:00

sparksql DataSet和DataFrame

Dataset是Spark1.6新增的接口，用以提供RDDs（强类型，有使用强大的lambda函数的能力）的优点和SparkSQL的经优化的执行引擎的优点。

felix_feng·2016-08-23 17:17

如何做Spark 版本兼容

我们知道Spark2.0，Spark1.6还有Spark1.5三者之间版本是不兼容的，尤其是一些内部API变化比较大。如果你的系统使用了不少底层的API,那么这篇文章或许对你有帮助。

祝威廉·2016-08-05 21:00

【源码剖析】- Spark 新旧内存管理方案（上）

本文之所以取名为"Spark新旧内存管理方案剖析"是因为在Spark1.6中引入了新的内存管理方案，加之当前很多公司还在使用1.6以前的版本，所以本文会对这两种方案进行剖析。

牛肉圆粉不加葱·2016-06-22 07:12

DStream, DStreamGraph 详解

本文内容适用范围：2016.02.25update,Spark2.0全系列√(2.0.0-SNAPSHOT尚未正式发布)2016.03.10update,Spark1.6全系列√(1.6.0,1.6.1

nengyu·2016-06-05 15:00

Spark Streaming 实现思路与模块概述

本文内容适用范围：2016.02.25update,Spark2.0全系列√(2.0.0-SNAPSHOT尚未正式发布)2016.03.10update,Spark1.6全系列√(1.6.0,1.6.1

nengyu·2016-06-05 14:00

ubuntu15安装spark1.6

ubuntu安装spark1、安装Ubuntu2、设置root密码sudopasswdroot[sudo]passwordforyou：--->输入你的密码，不会显示3、安装vmtools 复制到桌面提取出来su命令./vm...install...4、系统设置-语言支持-检查-更新5、重启判断Ubuntu是否安装了ssh服务：ps-e|grepssh如果服务已经启动，则可以同时看到“ssh-a

q383700092·2016-05-13 19:00

编写Spark程序的几个优化点

针对这个这个问题，其实在spark1.6中，已经加入了dataset，官方已经对其进行了一系列的优化，用户可以将rdd转化为dataset操作，减少学习成本。不过目前(1.6版本)依旧存在一些bug。

breeze_lsw·2016-05-10 13:58

编写Spark程序的几个优化点

针对这个这个问题，其实在spark1.6中，已经加入了dataset，官方已经对其进行了一系列的优化，用户可以将rdd转化为dataset操作，减少学习成本。不过目前(1.6版本)依旧存在一些bug。

lsshlsw·2016-05-10 13:00

Spark1.6的部署配置与运行

环境spark1.6.1scala-2.11.8hadoop2.6.2zookeeper3.4.6 其他版本的hadoop，可以到这里下载对应版本的sparkhttp://spark.apache.org/downloads.html下载Scala，Spark是Scala语言实现的，运行时会依赖Scala环境http://downloads.lightbend.com/scala/2.11.8/s

bingzige·2016-05-08 20:00

Mesos shuffle service unusable in Spark1.6

报错提示:WARNTaskSetManager:Losttask132.0instage2.0(TID5951,spark047207):java.io.FileNotFoundException:/data1/spark/tmp/blockmgr-5363024d-29a4-4f6f-bf87-127b95669c7c/1c/temp_shuffle_7dad1a33-286f-47d2-850

breeze_lsw·2016-04-25 22:09

Mesos shuffle service unusable in Spark1.6

报错提示:WARNTaskSetManager:Losttask132.0instage2.0(TID5951,spark047207):java.io.FileNotFoundException:/data1/spark/tmp/blockmgr-5363024d-29a4-4f6f-bf87-127b95669c7c/1c/temp_shuffle_7dad1a33-286f-47d2-850

lsshlsw·2016-04-25 22:00

推荐频道

spark1.6

Spark参数详解 一（Spark1.6）

spark1.6源码-----任务提交与执行之任务提交

spark1.6源码-----任务提交与执行之RDD的构建

spark1.6使用：读取本地外部数据，把RDD转化成DataFrame，保存为parquet格式,读取csv格式

hue集成Oozie工作流调度之Spark2 Workflow

spark中 Dynamic Allocation 以及 num-executors 的问题

在CDH5.14上离线安装Spark2.3

spark-源码-sparkContext DagScheduler

spark-源码-submit命令

Spark提交代码的两种方式

CDH5.15集成spark2

Spark DataSet和RDD与DataFrame转换成DataSet

Spark DataSet和RDD与DataFrame转换成DataSet

Spark基础：（六）Spark SQL

Spark SQL与DataSet

【十】Spark SQL DataFrames概述及基本API操作

spark用scala读取hive表数据

Spark SQL 实现 group_concat

Spark-SparkSQL读写方法

Spark Streaming 流计算状态管理

CDH5.11.1 升级spark2.x

CDH集群 Spark1.6 升级到 Spark2.2 全纪录

Spark(二): 内存管理

spark core内存oom问题初探

Spark Streaming 写kafka报错:kafka.cluster.BrokerEndPoint cannot be cast to kafka.cluster.Broker

Spark视频王家林大神第2课：解密spark第二代tungsten引擎测试数据和引擎实现内幕

Spark Dataset介绍和使用

Spark Streaming 1.6 流式状态管理分析 - 简书

修改并编译spark源码

Spark 内存管理的前世今生（上）

spark2.x写入数据到ElasticSearch5.X集群

Spark 提升spark1.6提交任务速度+配置spark2.x后hiveserver2运行失败

Spark 2.1.0新一代Tungsten 内存管理的模型及其实现类的解析

第43课： Spark 1.6 RPC内幕解密：运行机制、源码详解、Netty与Akka等

Spark 2.0介绍：Dataset介绍和使用

利用IDEA查看和修改spark源码

使用idea开发spark 实战

第八课 IDEA开发spark

Spark Accumulator的正确使用方式

sparksql DataSet和DataFrame

如何做Spark 版本兼容

【源码剖析】- Spark 新旧内存管理方案（上）

DStream, DStreamGraph 详解

Spark Streaming 实现思路与模块概述

ubuntu15安装spark1.6

编写Spark程序的几个优化点

编写Spark程序的几个优化点

Spark1.6的部署配置与运行

Mesos shuffle service unusable in Spark1.6

Mesos shuffle service unusable in Spark1.6

Spark参数详解一（Spark1.6）