spark2 第41页

【没有assembly目录】spark2.0.0启动时无法访问spark-assembly-*.jar的解决办法

1、问题描述自从spark2.0.0发布之后，每次启动Hive的时候，总会发现一个小问题，启动hive--servicemetastore的时候，会报一个小BUG:无法访问/lib/Spark-assembly

javartisan·2017-02-27 19:55

Hadoop2.7.3+Spark2.1.0 完全分布式环境搭建全过程

一、修改hosts文件在主节点，就是第一台主机的命令行下;vim/etc/hosts我的是三台云主机：在原文件的基础上加上;ip1masterworker0namenodeip2worker1datanode1ip3worker2datanode2其中的ipN代表一个可用的集群IP，ip1为master的主节点，ip2和iip3为从节点。二、ssh互信（免密码登录）注意我这里配置的是root用户，

文西·2017-02-24 22:14

ubuntu安装spark2.1 hadoop2.7.3集群

nonono11·2017-02-24 12:06

YARN、Spark、Hive使用kerberos

我的环境：三台服务器，分别命名为zelda1、zelda2、zelda3ubuntu14.04hadoop2.7.2spark2.0/1.6.1YARN认证目的是将YARN接入到kerberos集群里，

xiaoL_clo·2017-02-20 09:05

30分钟概览Spark Streaming 实时计算

Spark2.X下一代实时计算框架StructuredStreamingSparkStreaming相对其他实时计算框架该如何技术选型？本文主要针对初学者，如果有不明白的概念可了解之前的博客内容。

xwc35047·2017-02-18 17:49

HDFS使用Kerberos

我的环境：三台服务器，分别命名为zelda1、zelda2、zelda3ubuntu14.04hadoop2.7.2spark2.0/1.6.1原理默认Hadoop各个组件间无任何认证，因此可

xiaoL_clo·2017-02-17 15:01

Hadoop生态圈介绍

Spark2.0以后也用netty做rpc。

墨染百城·2017-02-15 14:33

Spark ML机器学习

的机器学习库.相对于RDD，DataFrame拥有更丰富的操作API,可以进行更灵活的操作.目前,spark.mllib已经进入维护状态，不再添加新特性.本文将重点介绍pyspark.ml，测试环境为Spark2.1

-Finley-·2017-02-12 10:00

map与flatMap的区别

spark版本：spark2.0.2scala版本：2.11.8服务器版本：CentOS6.7对比map和flatMap在RDD中的使用：valrdd1=sc.parallelize(Seq(("onetwothreefourfivesixseven

强迫症重症患者·2017-02-08 14:00

Spark SQL 与 Spark SQL on Hive 区别

SparkSQLDataSourcespark2.0.2通用的数据载入功能最简单的形式，默认的数据源格式是parquet，当然默认的格式可以通过spark.sql.sources.default进行配置

AlferWei·2017-02-05 00:30

Spark SQL 与 Spark SQL on Hive 区别

SparkSQLDataSourcespark2.0.2通用的数据载入功能最简单的形式，默认的数据源格式是parquet，当然默认的格式可以通过spark.sql.sources.default进行配置

AlferWei·2017-02-05 00:30

BlackEnn·2017-01-27 18:00

spark2.1.0连接mysql

packagescala21.sparkSQLimportjava.sql.DriverManagerimportorg.apache.spark.rdd.RDDimportorg.apache.spark.sql._importorg.apache.spark.sql.types.{DataTypes,StructField,StructType}importscala.collection.m

gerry.tan·2017-01-23 16:10

Spark SQL内置函数的使用Spark SQL执行计划总结

个人感觉SparkSQL的优势在于UDF和DataFrame(RDD的封装，由于RDD是可以是任意类型，因此可以封装一个对象在RDD里面，spark2.0以后对DataSet做了优化，由于DataFrame

bigdataCoding·2017-01-18 16:33

Ubuntu16.0.4下搭建Spark2.1.0-bin-Hadoop2.7

搭建环境三台机器系统均为ubuntu16.0.4,内存8g,16g,16g.一台做master,另外两台做slave，安装的是jdk1.8.0,hadoop2.7.3,scala2.11.8,spark2.1.0

huangxk1010·2017-01-16 20:41

Spark sbt-assembly 打包

因为要用spark2.0，而集群上cdh5.7.1的spark版本是1.6的，在单独使用spark2.0的时候出现了hbase包找不到的问题，因为spark-submit–jars属性引的包太多，就干脆直接用

-ROOT-·2017-01-16 12:48

spark2.1.0自定义累加器AccumulatorV2的使用

类类继承AccumulatorV2classMyAccumulatorV2extendsAccumulatorV2[String,String]覆写抽象方法：/***@authorlcjasas*@version1.0*@since2017-01-1410:19AM.*/ classMyAccumulatorV2extendsAccumulatorV2[String,String]{ overr

lcjasas·2017-01-16 00:00

升级Spark 2.1.0 Docker镜像到Java 8

前言前一篇博文（创建Spark2.1.0Docker镜像）我们讲了如何基于sequenceiq/hadoop-docker:2.6.0镜像构建Spark2.1.0的Docker镜像。

远太狼·2017-01-13 17:10

【Hadoop】hadoop2.7.3-spark2.0.2集群部署总结

hadoop2.7.3-spark2.0.2集群部署安装包准备OracleJDK安装了elasticSearch的系统应该已经配置好了JDK环境;推荐JDK7scala开发包br>spark依赖于scala

moxiaomomo·2017-01-10 09:33

spark2.1源码分析1：Win10下IDEA源码阅读环境的搭建

环境：win10、IDEA2016.3、maven3.3.9、git、scala2.11.8、java1.8.0_101、sbt0.13.12下载：#gitbash中执行：gitclonehttps://github.com/apache/spark.gitgittaggitcheckoutv2.1.0-rc5gitcheckout-bv2.1.0-rc5导入IDEA，开始调试：file–open

ggzone·2016-12-22 16:24

spark2.0 history server 内存溢出解决

从下面命令构建类可以看到，如果你想增加historyserver的内存，只能设置SPARK_DAEMON_MEMORY。在SPARK_HISTORY_OPTS里设置"-Xmx"不起作用。classSparkClassCommandBuilderextendsAbstractCommandBuilder{privatefinalStringclassName;privatefinalListclas

houzhizhen·2016-12-20 10:03

Spark 2.0 RPC通信层设计原理分析

SparkRPC层设计概况spark2.0的RPC框架是基于优秀的网络通信框架Netty开发的，我们先把Spark中与RPC相关的一些类的关系梳理一下，为了能够更直观地表达RPC的设计，我们先从类的设计来看

ZanderXu·2016-12-19 18:27

如何在Spark2.0.2中启动Ipython Notebook

/bin/pyspark可是我下载的是最新的spark2.0.2，这个接口改变了！解决方法1：需要改成如下命令才行：PYSPARK_DRIVER_PYTHON=ipythonPYSPARK_DR

明日韭菜·2016-12-13 22:04

在Ubuntu16.04中配置Anaconda（Python2.7）以支持Spark2.0（Pyspark）

本文主要内容：对比Spark和Hadoop介绍PysPark和Anaconda搭建并配置运行WordCount最近想学习大数据分析平台Spark，由于实验室设备不足，只能先在本地搭建一个独立式的Spark环境，进行简单分析，逐步探索Spark的奥秘，为以后Spark集群操作打好基础。对于从事数据挖掘和机器学习人员来说，使用anaconda的ipythonnotebook无疑是最棒的体验。那么，如何

积微成著·2016-12-12 20:29

Spark2.0源码之1_Broadcast

通过Spark源码中的注释信息理解Spark内核源码。packageorg.apache.spark.broadcastimportjava.io.Serializableimportscala.reflect.ClassTagimportorg.apache.spark.SparkExceptionimportorg.apache.spark.internal.Loggingimportorg.

lcjasas·2016-12-06 14:29

Spark2 加载保存文件，数据文件转换成数据框dataframe

hadoopfs-put/home/wangxiao/data/ml/Affairs.csv/datafile/wangxiao/hadoopfs-ls-R/datafiledrwxr-xr-x-wangxiaosupergroup02016-10-1510:46/datafile/wangxiao-rw-r--r--3wangxiaosupergroup167552016-10-1510:46/

大数据-酷峰中行·2016-12-01 09:26

tachyon、spark、hdfs集群整合

一、环境spark2.0.1hadoop2.7.1tachyon0.8.2二、原理及参考文档1.Spark入门实战系列--10.分布式内存文件系统Tachyon介绍及安装部署2.Tachyon--Spark

玄月府的小妖在debug·2016-11-30 21:30

Spark2.0.1 on yarn with hue 集群安装部署（六）hue+hive+sparksql

hue+hive+sparksql1、配置huecd/bigdata/hue/desktop/confvim/hue.ini配置hive与hue整合，找到[beeswax]修改内容如下：[beeswax]#HostwhereHiveServer2isrunning.#IfKerberossecurityisenabled,usefully-qualifieddomainname(FQDN).hiv

荷籽花结·2016-11-28 22:41

Spark2.0.1 on yarn with hue 集群安装部署（八）hue+livy+spark整合

huelivyspark整合1、配置huecd/bigdata/hue/desktop/confvim/hue.ini找到[spark]选项进行修改：[spark]#HostaddressoftheLivyServer.livy_server_host=bigdata1#PortoftheLivyServer.livy_server_port=8998#ConfigureLivytostartin

荷籽花结·2016-11-28 21:20

Pyspark官方文档

此文为翻译pyspark2.0.2，主要介绍pyspark相关使用方法。

小锄头·2016-11-25 11:55

Spark2.0.1 on yarn with hue 集群安装部署（七）livy安装测试

livy安装测试一、R安装如果未安装R，可以先安装R，用于支持SparkR，如果yum源中没有R语言的安装包，可以从官网下载相应版本进行手动编译安装。sudoyuminstallR安装rJava下载地址：https://cran.r-project.org/web/packages/rJava/index.html将下载好的软件包上传至/data/soft目录下执行以下代码：sudoRCMDINS

荷籽花结·2016-11-25 00:42

Spark2 文件处理和jar包执行

Spark2文件处理和jar包执行上传数据文件mkdir-pdata/ml/hadoopfs-mkdir-p/datafile/wangxiao/hadoopfs-ls/hadoopfs-put/home

dufufd·2016-11-24 13:12

Spark2.0.1 on yarn with hue 集群搭建部署（五）hue安装支持hadoop

荷籽花结·2016-11-24 00:33

spark2.0.1 on yarn with hue 集群搭建部署（三）msyql安装

mysql下载安装1、下载mysql下载地址：http://dev.mysql.com/downloads/file/?id=466134将安装包下载上传至集群服务器上，解压：tar–xvzfmysql-5.7.16-1.el7.x86_64.rpm-bundle.tar要获取完整的mysql功能需要安装一下rpm包：mysql-community-common-5.7.16-1.el7.x86_

荷籽花结·2016-11-23 23:20

spark学习1--centOS7.2下基于hadoop2.7.3的spark2.0集群环境搭建

安装步骤如没特殊指明哪台服务器，则说明都是在3台服务器上做同样的操作。1.准备1.1装有centOS7的3台服务器master192.168.174.132node1192.168.174.133node2192.168.174.1341.2搭建hadoop集群环境参考“hadoop学习1--hadoop2.7.3集群环境搭建”1.3准备安装包scala-2.11.8.tgzspark-2.0.0

夢_殤·2016-11-23 17:36

基于spark2.0整合spark-sql + mysql + parquet + HDFS

一、概述spark2.0做出的改变大家可以参考官网以及其他资料，这里不再赘述由于spark1.x的sqlContext在spark2.0中被整合到sparkSession，故而利用spark-shell

CaramelCapucchino·2016-11-22 12:11

Apache Spark 2.0：机器学习模型持久化

在即将发布的ApacheSpark2.0中将会提供机器学习模型持久化能力。

a3301·2016-11-19 11:27

spark 2.0 踩过的SparkSession的坑

spark2.0踩过的SparkSession的坑spark20踩过的SparkSession的坑背景抽象的运行代码初步定位问题进一步定位问题源码相关分析再看SparkSession的创建最终解决取代了

cjuexuan·2016-11-17 21:31

【没有assembly目录】spark2.0.0启动时无法访问spark-assembly-*.jar的解决办法

1、问题描述自从spark2.0.0发布之后，每次启动hive的时候，总会发现一个小问题，启动hive--servicemetastore的时候，会报一个小BUG:无法访问/lib/spark-assembly

dufufd·2016-11-17 15:25

对Imapla&Spark2.0.0SQL进行TPC-DS性能测试

1.tpcds_test_gentableTherearetwopartsofthisUnix-Shellproject.Part-1:Buildingthetpcds-gen-.jar,recentlyversion=1.1isuptodate.Part-2:Generatingthetpcdsflatdata,creatingtpcdstables.Part-1YOUNEEDNOTRUNPAR

蘑菇丁·2016-11-17 12:50

spark2.0 MessageHandler和 TransportResponseHandler

MessageHandler处理Netty发送或者接收的消息。一个MessageHandler和一个Netty通道关联在一起，尽管一个Netty通道可以为多个client对象服务。TransportResponseHandler扩展自MessageHandler，它处理服务器端响应，响应是TransportClient的请求。它跟踪请求的列表和它们的回调函数。它是线程安全的。/***Handles

houzhizhen·2016-11-15 17:21

Spark (Python版) 零基础学习笔记（一）—— 快速入门

环境：Ubuntu16.04LTS，Spark2.0.1,Hadoop2.7.3,Python3.5.2利用sparkshe

哇哇小仔·2016-11-12 06:44

Flume+Kafka+Spark-Streaming的实时流式处理完整流程

基于Flume+Kafka+Spark-Streaming的实时流式处理完整流程1、环境准备，四台测试服务器spark集群三台，spark1,spark2,spark3kafka集群三台，spark1,

heavylgf·2016-11-08 10:14

Spark2.0.1 on yarn with hue 集群搭建部署（一）基础环境配置

sparkonyarn基础环境配置一、节点概述iphostnameserver192.168.1.110bigdata1NameNode、ResourceManager、SecondaryNameNode、SparkSubmit、ntpd.service、LivyServer、Supervisor192.168.1.112bigdata2DataNode、NodeManager、Executor1

荷籽花结·2016-11-07 23:59

spark 实战 1：基于gettyimages spark docker image 创建spark 集群

https://hub.docker.com/r/gettyp_w_picpaths/spark/~$dockerpullgettyp_w_picpaths/spark2、从https://github.com

forestwater·2016-11-06 17:10

Ubuntu 16.04下实现spark2.0.1的完全分布式安装

电脑三台(局域网中）：名字IPMaster192.168.1.183Slave1192.168.1.193Slave2192.168.1.1841.为每台机器配置一个名为spark用户，用户密码自己记住2.安装ssh(三台）2.1,sudoapt-getinstallssh2.2,安装完成后，执行ssh-keygen-trsa-P“”（一路回车即可）2.3，转到.ssh文件中，执行catid_rs

Traxex_Data·2016-11-02 23:11

Spark编程指南--官方翻译

说明这是对Spark2.0.1的SparkProgrammingGuide的翻译，翻译它是想让自己静心看下去，英语水平也不高，所以有的地方难免出错，另外，翻译中的某些地方加入了自己的理解，可能就多添了一句

BlockheadLS·2016-10-24 15:04

Spark编程指南--官方翻译

说明这是对Spark2.0.1的SparkProgrammingGuide的翻译，翻译它是想让自己静心看下去，英语水平也不高，所以有的地方难免出错，另外，翻译中的某些地方加入了自己的理解，可能就多添了一句

BlockheadLS·2016-10-24 15:04

Spark Python API函数学习：pyspark API

—PySpark2.0.1documentationhttp://spark.apache.org/docs/latest/api/python/index.htmlSparkPythonAPI函数学习

葡萄喃喃呓语·2016-10-23 19:50

推荐频道

spark2

【没有assembly目录】spark2.0.0启动时无法访问spark-assembly-*.jar的解决办法

Hadoop2.7.3+Spark2.1.0 完全分布式环境 搭建全过程

ubuntu安装spark2.1 hadoop2.7.3集群

YARN、Spark、Hive使用kerberos

30分钟概览Spark Streaming 实时计算

HDFS使用Kerberos

Hadoop生态圈介绍

Spark ML机器学习

map与flatMap的区别

Spark SQL 与 Spark SQL on Hive 区别

Spark SQL 与 Spark SQL on Hive 区别

Spark相关文章索引（2）

Spark相关文章索引（2）

spark2.1.0连接mysql

Spark SQL内置函数的使用Spark SQL执行计划总结

Ubuntu16.0.4下搭建Spark2.1.0-bin-Hadoop2.7

Spark sbt-assembly 打包

spark2.1.0自定义累加器AccumulatorV2的使用

升级Spark 2.1.0 Docker镜像到Java 8

【Hadoop】hadoop2.7.3-spark2.0.2集群部署总结

spark2.1源码分析1：Win10下IDEA源码阅读环境的搭建

spark2.0 history server 内存溢出解决

Spark 2.0 RPC通信层设计原理分析

如何在Spark2.0.2中启动Ipython Notebook

在Ubuntu16.04中配置Anaconda（Python2.7）以支持Spark2.0（Pyspark）

Spark2.0源码之1_Broadcast

Spark2 加载保存文件，数据文件转换成数据框dataframe

tachyon、spark、hdfs集群整合

Spark2.0.1 on yarn with hue 集群安装部署（六）hue+hive+sparksql

Spark2.0.1 on yarn with hue 集群安装部署（八）hue+livy+spark整合

Pyspark官方文档

Spark2.0.1 on yarn with hue 集群安装部署（七）livy安装测试

Spark2 文件处理和jar包执行

Spark2.0.1 on yarn with hue 集群搭建部署（五）hue安装支持hadoop

spark2.0.1 on yarn with hue 集群搭建部署（三）msyql安装

spark学习1--centOS7.2下基于hadoop2.7.3的spark2.0集群环境搭建

基于spark2.0整合spark-sql + mysql + parquet + HDFS

Apache Spark 2.0： 机器学习模型持久化

spark 2.0 踩过的SparkSession的坑

【没有assembly目录】spark2.0.0启动时无法访问spark-assembly-*.jar的解决办法

对Imapla&Spark2.0.0SQL进行TPC-DS性能测试

spark2.0 MessageHandler和 TransportResponseHandler

Spark (Python版) 零基础学习笔记（一）—— 快速入门

Flume+Kafka+Spark-Streaming的实时流式处理完整流程

Spark2.0.1 on yarn with hue 集群搭建部署（一）基础环境配置

spark 实战 1： 基于gettyimages spark docker image 创建spark 集群

Ubuntu 16.04下实现spark2.0.1的完全分布式安装

Spark编程指南--官方翻译

Spark编程指南--官方翻译

Spark Python API函数学习：pyspark API

Hadoop2.7.3+Spark2.1.0 完全分布式环境搭建全过程

Apache Spark 2.0：机器学习模型持久化

spark 实战 1：基于gettyimages spark docker image 创建spark 集群