spark2 第40页

2.配置hadoop环境

相互都已配置好，ssh免秘钥登录namenode和secondarynamenode和DataNodeResourceManagerspark1:192.168.1.191DataNodeNodeManagerspark2

豆不女·2017-05-13 17:15

SaprkSql 集成 hive 两种方式（spark2.0+hive1.22 ）

首先明确sparkSQl关联hive的时候有多种交互方式：sparkSQL和thrift【先说thrift】在$SPARK_HOEM/conf中的hive-site.xml中要去设置以下参数：hive.metastore.uristhrift://mach40:9083Thrifturifortheremotemetastore.Usedbymetastoreclienttoconnecttore

二次元的罪恶王冠·2017-05-12 16:53

Spark job提交过程

本文基于spark2.111.前言1.1基本概念RDD关于RDD已经有很多文章了，可以参考一下理解Spark的核心RDD依赖依赖分为窄依赖和宽依赖，下图描述了两种依赖(图片出自spark窄依赖和宽依赖)

aaron1993·2017-05-10 14:39

win10下Spark java读取Hbase数据

本文采用的配置为spark2.1+hadoop2.7.3+Hbase1.3.0安装hadoop1、hadoop在官网下载src之后解压，创建新系统环境变量HADOOP_HOME并把值设置为hadoop解压所在目录

shelmi·2017-05-09 14:17

Spark Streaming(3) - Receiver和ReceiverTacker

本文基于spark2.111.前言在SparkStreaming(1)中介绍sparkstreaming工作流程中时，大致介绍了streamingjob在运行时从stream中读取数据的流程：Receiver

aaron1993·2017-05-09 00:53

xgboost之spark上运行-scala接口

概述xgboost可以在spark上运行，我用的xgboost的版本是0.7的版本，目前只支持spark2.0以上版本上运行,编译好jar包，加载到maven仓库里面去：mvninstall:install-file-Dfile

旭旭_哥·2017-05-08 15:25

windows下spark2.1源码编译及修改

Windows编译spark源码过程对spark源码修改后需要重新编译spark源码，由于当前linux虚拟机上无法通过代理联网，公司提供的maven仓库也ping不通，只能在windows上编译spark源码。编译过程如下：1.在spark官网下载spark源码http://spark.apache.org/downloads.html选择2.1.0源码下载。2.然后在idea中导入spark源

dreamershi·2017-05-05 15:15

windows下spark2.1源码编译及修改

Windows编译spark源码过程对spark源码修改后需要重新编译spark源码，由于当前linux虚拟机上无法通过代理联网，公司提供的maven仓库也ping不通，只能在windows上编译spark源码。编译过程如下：1.在spark官网下载spark源码http://spark.apache.org/downloads.html选择2.1.0源码下载。2.然后在idea中导入spark源

dreamershi·2017-05-05 15:15

spark2.0系列《一》—— RDD VS. DataFrame VS. DataSet

虽说，spark我也不陌生，之前一直用python跑的spark，基本的core和SQL操作用的也是比较熟练。但是这一切的基础都是在RDD上进行操作，即使是进行SQL操作也是将利用SpaekContext类中的textFile方法读取txt文件返回RDD对象，然后使用SQLContext实例化载利用函数createDataFrame将格式化后的数据转化为dataFrame或者利用createDat

wing1995·2017-05-03 20:00

spark报错---安装系列八

1.自从spark2.0.0发布没有assembly的包了，在jars里面，是很多小jar包修改目录查找jar2.异常HiveConfofnamehive.enable.spark.execution.enginedoesnotexist

李孟lm·2017-04-30 16:28

在自定义数据源中使用sparksql（Spark2.0+）带示例

主要原理sparksql核心：ParseInterface：专门负责解析外部数据源SQL的SqlParser。目前自带的parser已经能满足各种需求RunnableCommand：从反射的数据源中实例化relation，然后注册到temptable中。Strategy：将plan映射为物理计划。RelationProvider：提供一个Relation。BaseRelation：可提供sql的一

Xiao 伙伴·2017-04-27 01:29

windows下安装spark环境

本机安装JDK1.8.0，spark2.0.1，scala2.12.1安装JDK略安装scala见上篇注意：Spark的各个版本需要跟相应的Scala版本对应.安装Sparkhttp://spark.apache.org

取个昵称好难啊Elaine·2017-04-26 08:22

Spark2.10中使用累加器、注意点以及实现自定义累加器

累加器（accumulator）是Spark中提供的一种分布式的变量机制，其原理类似于mapreduce，即分布式的改变，然后聚合这些改变。累加器的一个常见用途是在调试时对作业执行过程中的事件进行计数。累加器简单使用Spark内置的提供了Long和Double类型的累加器。下面是一个简单的使用示例，在这个例子中我们在过滤掉RDD中奇数的同时进行计数，最后计算剩下整数的和。valsparkConf=

古月慕南·2017-04-24 19:42

【Spark2.0源码学习】-3.Endpoint模型介绍

Spark作为分布式计算框架，多个节点的设计与相互通信模式是其重要的组成部分。一、组件概览对源码分析，对于设计思路理解如下：RpcEndpoint：RPC端点，Spark针对于每个节点（Client/Master/Worker）都称之一个Rpc端点,且都实现RpcEndpoint接口，内部根据不同端点的需求，设计不同的消息和不同的业务处理，如果需要发送（询问）则调用DispatcherRpcEnv

放错位的天才·2017-04-23 20:00

关于spark-submit报错java.lang.NoClassDefFoundError: scala/runtime/LambdaDeserialize

解决方案写在前面：将Scala的版本改成2.11.8，环境是Spark2.1.0。当使用spark-submit提交ScalaApp时，代码仅仅做了一个filter或者map操作。然后报了一长串的错。

Clockworkai·2017-04-23 08:55

生产环境实战spark （6）分布式集群 5台设备 Scala安装

这里使用spark2.1.x版本，而spark2.1版本需要scala2.1.1版本以上的兼容版本，因此下载安装scala-2.11.8下载地址：http://www.scala-lang.org/download

段智华·2017-04-19 10:44

Spark写ES的遇到的坑

我们项目使用的是Spark2.1.0，而我们公司的ElasticSearch版本使用的是2.1.2。项目过程中遇到了很多坑，浪费了不少时间，故此在这里总结一下，希望

u013709270·2017-04-11 20:00

BlackEnn·2017-04-10 13:00

BlackEnn·2017-04-10 12:00

Spark2.0机器学习系列之5：GBDT（梯度提升决策树）、GBDT与随机森林差异、参数调试及Scikit代码分析

关于决策树和随机森林，我也写了两篇介绍博客，可以作为参考：随机森林介绍、关键参数分析及Spark2.0中实现http://blog.csdn.net/qq_34531825/article/details

勿悔Choles·2017-04-09 23:26

深入理解Spark 2.1 Core （二）：DAG调度器的原理与源码分析

上一篇《深入理解Spark2.0（一）：RDD实现及源码分析》的5.2Spark任务调度器我们省略过去了，这篇我们就来讲讲Spark的调度器。

小爷Souljoy·2017-04-09 10:33

基于Spark 2.0.0搭建Hive on Spark环境

一、运行环境CentOS7.2Hadoop2.7Hive2.2.0Spark2.0.0JDK1.7Scala2.11.8Maven3.3.9说明：Scala2.11.8以后的版本只支持JDK1.8，如果环境原本是使用

纠了个结De聖·2017-04-06 09:41

Spark 2.0介绍：Dataset介绍和使用

Spark2.0介绍：Dataset介绍和使用Spark2.0是ApacheSpark的下一个主要版本。此版本在架构抽象、API以及平台的类库方面带来了很大变化。

MatrixSparse·2017-04-05 17:10

Apache Spark 内存管理详解

本文中阐述的原理基于Spark2.1版本，阅读本文需要读者有一定的Spark和Java基础，了解RDD、Shu

程序优化·2017-04-05 10:00

Spark广播之TorrentBroadcast实现原理

Spark有两种方式：一种是HttpBroadcast(Spark2.1.0已经移除)，另一种是TorrentBroadcast。

javartisan·2017-04-04 21:11

ambari 搭建hadoop大数据平台系列2-客户机配置

本案例搭建的环境介绍如下：Ambari2.4.2+HDP2.5（hadoop2.7；hive1.2；Tez；Spark2.0）+jdk1.8.25+centos7.0,这里首先要关注些注意事项，至于为什么会一一说明

TIMES2020·2017-04-04 17:00

CentOS7下 Hadoop2.7.3+Spark2.1.0 集群环境搭建(1NN+2DN)

环境主机名ip进程nn.hadoop.data.example.net172.16.156.220NameNode、Master、ResourceManager、SecondaryNameNode、JobHistoryServerdn1.hadoop.data.example.net172.16.156.221NodeManager、DataNode、Workerdn2.hadoop.data.e

贾小黑·2017-04-03 21:26

CentOS7下 Hadoop2.7.3+Spark2.1.0 集群环境搭建(1NN+2DN)

环境主机名ip进程nn.hadoop.data.example.net172.16.156.220NameNode、Master、ResourceManager、SecondaryNameNode、JobHistoryServerdn1.hadoop.data.example.net172.16.156.221NodeManager、DataNode、Workerdn2.hadoop.data.e

贾小黑·2017-04-03 21:26

Spark2.1.0集群部署

1、从官网下载2.1.0版本的Spark，spark-2.1.0-bin-hadoop2.7.tgz；2、拷贝都集群中各个节点，解压到特定目录下；3、启master服务:#./sbin/start-master.shmaster服务启来之后可以看到master的URL地址(或者在日志中查看)spark://Spark01:70774、启所有的Worker，并把worker链接都master上#./

GoFastX·2017-04-01 17:42

Spark2.1.0集群部署

1、从官网下载2.1.0版本的Spark，spark-2.1.0-bin-hadoop2.7.tgz；2、拷贝都集群中各个节点，解压到特定目录下；3、启master服务:#./sbin/start-master.shmaster服务启来之后可以看到master的URL地址(或者在日志中查看)spark://Spark01:70774、启所有的Worker，并把worker链接都master上#./

GoFastX·2017-04-01 17:42

spark点点滴滴 —— 认识spark sql的DataFrame和DataSet

概述spark的DataFrames和DataSets是sparkSQL中的关键概念，相比于RDD，DataFrame更能描述数据类型，因此是sparksql的基础类型，同时在spark2.0.x及其以后的版本中

简牧·2017-03-31 15:52

hive on spark 报错

1.自从spark2.0.0发布没有assembly的包了，在jars里面，是很多小jar包修改目录查找jar2.异常HiveConfofnamehive.enable.spark.execution.enginedoesnotexist

李孟lm·2017-03-30 16:05

YARN上显示应用程序使用的vcores、memory不准确？

本文基于Spark2.1.0版本我们知道，使用yarn作为clustermanager时，spark（以client模式为例）用spark-submit提交应用程序（或者是spark-shell交互操作

俺是亮哥·2017-03-29 23:47

最简大数据Spark-2.1.0

wolearn·2017-03-27 16:28

Spark2.1中用结构化流处理复杂的数据格式(译)

在第一章节系列结构化流的博客文章中，我们展示了怎样用简单的方式用结构化流实现端到端的流式ETL程序，将json日志数据转换成Parquet格式表。该文强调构建从各种复杂格式数据源读入并对数据进行转换的管道所面临的挑战。在本篇博文中，我们将深入的研讨该问题，并展示如何用SparkSQL内置函数解决数据转换中面临的挑战。确切的说，我们将从以下几个方面进行讨论：有哪些不同数据格式及怎样权衡如何简单的用S

幽兰深谷·2017-03-26 22:39

Spark之python版机器学习算法--ipython notebook配置及测试

先说明一下我的环境配置：操作系统：ubuntu14.0464bitspark2.0.0hadoop2.7.1scala-2.11.8python2.7.6java1.7.01.安装ipythonnotebook

_飞奔的蜗牛_·2017-03-21 23:53

spark ml pipelines

sparkMLPipelines在spark2.0里mllib分为两个包，spark.mllib里是基于RDD的API，spark.ml里是基于DataFrame的API。

Dillon2015·2017-03-21 17:24

spark Exception in thread "main" java.lang.IllegalArgumentException: java.net.URISyntaxException: Re

在windows上运行spark2.0的ml算法报错：Exceptioninthread"main"java.lang.IllegalArgumentException:java.net.URISyntaxException

Dillon2015·2017-03-20 23:50

centos 7Hadoop2.7.3+Spark2.1.0 完全分布式环境搭建全过程

Hadoop2.7.3+Spark2.1.0完全分布式环境搭建全过程www.cnblogs.com/purstar/p/6293605.html一、修改hosts文件在主节点，就是第一台主机的命令行下;

Helen_Cat·2017-03-20 21:42

解决:spark启动错误Exception in thread "main" java.lang.UnsupportedClassVersionError: org/apach..

MacOS：Sierra10.12.2Spark版本：2.1.0今天想在本地安装spark，结果按照步骤来竟然报错，问题原因spark2.1.0需要java7+的支持，但是Mac默认的java是1.6的

哈士奇说喵·2017-03-19 16:17

Spark之殇

之前Spark2.0刚发布不久后的第一个小版本，StructuredStreaming终于支持Kafka了，但是只支持Kafka1.0而不支持Kafka0.8。

祝威廉·2017-03-15 20:00

spark2.0+hadoop2.7.1简单部署

保证hadoop已经正常部署，以下为spark部署做个小笔记：1、安装scala-2.11.8.tgz1)tar-xvzfscala-2.11.8mvscala-2.11.8/usr2)配置环境变量,在/etc/profile中添加如下语句：exportSCALA_HOME=/usr/scala-2.11.8exportPATH=PATH:SCALA_HOME/bin2、安装spark在maste

_飞奔的蜗牛_·2017-03-11 23:58

SparkSQL中DataFrame Operations操作（select、filter、groupBy、count）

注意：此处用的sparkversion1.6.0，版本不同，SparkSQL写代码时不太一样，比如要查询所有用户，并且使每一位用户年龄增加1.spark2.1.0写法为：df.select($"name

RiverCode·2017-03-07 14:06

Spark快速安装与部署运行

Spark快速安装与部署运行1.Stand-alone-ModeDeploymentSparkStandaloneMode#下载最新版本Spark2.1.0-bin-hadoop2.7[released

chouisbo·2017-03-07 10:47

Spark2.1.0官方文档

本文档适用于Spark2.1.0版本。

FlinkMe·2017-03-04 15:00

搭建Hive On Spark 编译Hive源码错误解决方法（spark2.1.0，hadoop2.7.2）

HiveOnSpark的搭建需要自行编译Spark源码withoutHive然后部署。编译成功之后部署Spark集群，此处不描述如何部署集群了。然后本人自行从Hive官网下载Hive2.1.1安装包进行安装，之后启动运行Hive发现出现Class不兼容异常，经过Google得知版本冲突，导致自行编译Hive源码。本人第一次是在archive.apache.org官方下载hive源码进行编译得到如下

javartisan·2017-02-28 14:24

搭建Hive On Spark 编译Hive源码错误解决方法（spark2.1.0，hadoop2.7.2）

HiveOnSpark的搭建需要自行编译Spark源码 withoutHive然后部署。编译成功之后部署Spark集群，此处不描述如何部署集群了。然后本人自行从Hive官网下载Hive2.1.1安装包进行安装，之后启动运行Hive发现出现Class不兼容异常，经过Google得知版本冲突，导致自行编译Hive源码。本人第一次是在archive.apache.org官方下载hive源码进行编译得到如

Dax1n·2017-02-28 14:00

Spark2.1.0源码编译

1、在Spark官网下载源码，选择sourcecode下载解压即可（也可以gitclonespark源码）2、在环境变量里设置maven内存大小，我本机使用默认大小也通过了，根据实际情况决定。exportMAVEN_OPTS="-Xmx2g-XX:ReservedCodeCacheSize=512m"3、官方编译示例：#ApacheHadoop2.2.X ./build/mvn-Pyarn-Pha

Dax1n·2017-02-27 19:00

推荐频道

spark2

2.配置hadoop环境

SaprkSql 集成 hive 两种方式 （spark2.0+hive1.22 ）

Spark job提交过程

win10下Spark java读取Hbase数据

Spark Streaming(3) - Receiver和ReceiverTacker

xgboost之spark上运行-scala接口

windows下spark2.1源码编译及修改

windows下spark2.1源码编译及修改

spark2.0系列《一》—— RDD VS. DataFrame VS. DataSet

spark报错---安装系列八

在自定义数据源中使用sparksql（Spark2.0+）带示例

windows下安装spark环境

Spark2.10中使用累加器、注意点以及实现自定义累加器

【Spark2.0源码学习】-3.Endpoint模型介绍

关于spark-submit报错java.lang.NoClassDefFoundError: scala/runtime/LambdaDeserialize

生产环境实战spark （6）分布式集群 5台设备 Scala安装

Spark写ES的遇到的坑

Spark相关文章索引（3）

Spark相关文章索引（3）

Spark相关文章索引（3）

Spark相关文章索引（3）

Spark2.0机器学习系列之5：GBDT（梯度提升决策树）、GBDT与随机森林差异、参数调试及Scikit代码分析

深入理解Spark 2.1 Core （二）：DAG调度器的原理与源码分析

基于Spark 2.0.0搭建Hive on Spark环境

Spark 2.0介绍：Dataset介绍和使用

Apache Spark 内存管理详解

Spark广播之TorrentBroadcast实现原理

ambari 搭建hadoop大数据平台系列2-客户机配置

CentOS7下 Hadoop2.7.3+Spark2.1.0 集群环境搭建(1NN+2DN)

CentOS7下 Hadoop2.7.3+Spark2.1.0 集群环境搭建(1NN+2DN)

Spark2.1.0集群部署

Spark2.1.0集群部署

spark点点滴滴 —— 认识spark sql的DataFrame和DataSet

hive on spark 报错

YARN上显示应用程序使用的vcores、memory不准确？

最简大数据Spark-2.1.0

Spark2.1中用结构化流处理复杂的数据格式(译)

Spark之python版机器学习算法--ipython notebook配置及测试

spark ml pipelines

spark Exception in thread "main" java.lang.IllegalArgumentException: java.net.URISyntaxException: Re

centos 7Hadoop2.7.3+Spark2.1.0 完全分布式环境 搭建全过程

解决:spark启动错误Exception in thread "main" java.lang.UnsupportedClassVersionError: org/apach..

Spark之殇

spark2.0+hadoop2.7.1简单部署

SparkSQL中DataFrame Operations操作（select、filter、groupBy、count）

Spark快速安装与部署运行

Spark2.1.0官方文档

搭建Hive On Spark 编译Hive源码错误解决方法（spark2.1.0，hadoop2.7.2）

搭建Hive On Spark 编译Hive源码错误解决方法（spark2.1.0，hadoop2.7.2）

Spark2.1.0源码编译

SaprkSql 集成 hive 两种方式（spark2.0+hive1.22 ）

centos 7Hadoop2.7.3+Spark2.1.0 完全分布式环境搭建全过程