E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark2
2.配置hadoop环境
相互都已配置好,ssh免秘钥登录namenode和secondarynamenode和DataNodeResourceManagerspark1:192.168.1.191DataNodeNodeManager
spark2
豆不女
·
2017-05-13 17:15
SaprkSql 集成 hive 两种方式 (
spark2
.0+hive1.22 )
首先明确sparkSQl关联hive的时候有多种交互方式:sparkSQL和thrift【先说thrift】在$SPARK_HOEM/conf中的hive-site.xml中要去设置以下参数:hive.metastore.uristhrift://mach40:9083Thrifturifortheremotemetastore.Usedbymetastoreclienttoconnecttore
二次元的罪恶王冠
·
2017-05-12 16:53
linux
spark
Spark job提交过程
本文基于
spark2
.111.前言1.1基本概念RDD关于RDD已经有很多文章了,可以参考一下理解Spark的核心RDD依赖依赖分为窄依赖和宽依赖,下图描述了两种依赖(图片出自spark窄依赖和宽依赖)
aaron1993
·
2017-05-10 14:39
win10下Spark java读取Hbase数据
本文采用的配置为
spark2
.1+hadoop2.7.3+Hbase1.3.0安装hadoop1、hadoop在官网下载src之后解压,创建新系统环境变量HADOOP_HOME并把值设置为hadoop解压所在目录
shelmi
·
2017-05-09 14:17
机器学习
Spark Streaming(3) - Receiver和ReceiverTacker
本文基于
spark2
.111.前言在SparkStreaming(1)中介绍sparkstreaming工作流程中时,大致介绍了streamingjob在运行时从stream中读取数据的流程:Receiver
aaron1993
·
2017-05-09 00:53
xgboost之spark上运行-scala接口
概述xgboost可以在spark上运行,我用的xgboost的版本是0.7的版本,目前只支持
spark2
.0以上版本上运行,编译好jar包,加载到maven仓库里面去:mvninstall:install-file-Dfile
旭旭_哥
·
2017-05-08 15:25
机器学习
java
windows下
spark2
.1源码编译及修改
Windows编译spark源码过程对spark源码修改后需要重新编译spark源码,由于当前linux虚拟机上无法通过代理联网,公司提供的maven仓库也ping不通,只能在windows上编译spark源码。编译过程如下:1.在spark官网下载spark源码http://spark.apache.org/downloads.html选择2.1.0源码下载。2.然后在idea中导入spark源
dreamershi
·
2017-05-05 15:15
大数据
windows下
spark2
.1源码编译及修改
Windows编译spark源码过程对spark源码修改后需要重新编译spark源码,由于当前linux虚拟机上无法通过代理联网,公司提供的maven仓库也ping不通,只能在windows上编译spark源码。编译过程如下:1.在spark官网下载spark源码http://spark.apache.org/downloads.html选择2.1.0源码下载。2.然后在idea中导入spark源
dreamershi
·
2017-05-05 15:15
大数据
spark2
.0系列《一》—— RDD VS. DataFrame VS. DataSet
虽说,spark我也不陌生,之前一直用python跑的spark,基本的core和SQL操作用的也是比较熟练。但是这一切的基础都是在RDD上进行操作,即使是进行SQL操作也是将利用SpaekContext类中的textFile方法读取txt文件返回RDD对象,然后使用SQLContext实例化载利用函数createDataFrame将格式化后的数据转化为dataFrame或者利用createDat
wing1995
·
2017-05-03 20:00
spark报错---安装系列八
1.自从
spark2
.0.0发布没有assembly的包了,在jars里面,是很多小jar包修改目录查找jar2.异常HiveConfofnamehive.enable.spark.execution.enginedoesnotexist
李孟lm
·
2017-04-30 16:28
技术bug
在自定义数据源中使用sparksql(
Spark2
.0+)带示例
主要原理sparksql核心:ParseInterface:专门负责解析外部数据源SQL的SqlParser。目前自带的parser已经能满足各种需求RunnableCommand:从反射的数据源中实例化relation,然后注册到temptable中。Strategy:将plan映射为物理计划。RelationProvider:提供一个Relation。BaseRelation:可提供sql的一
Xiao 伙伴
·
2017-04-27 01:29
sparksql
windows下安装spark环境
本机安装JDK1.8.0,
spark2
.0.1,scala2.12.1安装JDK略安装scala见上篇注意:Spark的各个版本需要跟相应的Scala版本对应.安装Sparkhttp://spark.apache.org
取个昵称好难啊Elaine
·
2017-04-26 08:22
spark
Spark2
.10中使用累加器、注意点以及实现自定义累加器
累加器(accumulator)是Spark中提供的一种分布式的变量机制,其原理类似于mapreduce,即分布式的改变,然后聚合这些改变。累加器的一个常见用途是在调试时对作业执行过程中的事件进行计数。累加器简单使用Spark内置的提供了Long和Double类型的累加器。下面是一个简单的使用示例,在这个例子中我们在过滤掉RDD中奇数的同时进行计数,最后计算剩下整数的和。valsparkConf=
古月慕南
·
2017-04-24 19:42
BigData-器
【
Spark2
.0源码学习】-3.Endpoint模型介绍
Spark作为分布式计算框架,多个节点的设计与相互通信模式是其重要的组成部分。一、组件概览对源码分析,对于设计思路理解如下:RpcEndpoint:RPC端点,Spark针对于每个节点(Client/Master/Worker)都称之一个Rpc端点,且都实现RpcEndpoint接口,内部根据不同端点的需求,设计不同的消息和不同的业务处理,如果需要发送(询问)则调用DispatcherRpcEnv
放错位的天才
·
2017-04-23 20:00
大数据
netty
关于spark-submit报错java.lang.NoClassDefFoundError: scala/runtime/LambdaDeserialize
解决方案写在前面:将Scala的版本改成2.11.8,环境是
Spark2
.1.0。当使用spark-submit提交ScalaApp时,代码仅仅做了一个filter或者map操作。然后报了一长串的错。
Clockworkai
·
2017-04-23 08:55
Spark的坑
生产环境实战spark (6)分布式集群 5台设备 Scala安装
这里使用
spark2
.1.x版本,而
spark2
.1版本需要scala2.1.1版本以上的兼容版本,因此下载安装scala-2.11.8下载地址:http://www.scala-lang.org/download
段智华
·
2017-04-19 10:44
生产实战spark
Spark写ES的遇到的坑
我们项目使用的是
Spark2
.1.0,而我们公司的ElasticSearch版本使用的是2.1.2。项目过程中遇到了很多坑,浪费了不少时间,故此在这里总结一下,希望
u013709270
·
2017-04-11 20:00
spark
elasticsearch
Spark相关文章索引(3)
环境部署
Spark2
.1.0的Standalone模式部署基本常识spark中的rdd的持久化Spark入门实战系列–9.Spark图计算GraphX介绍及实例《Spark官方文档》SparkSQL,DataFrames
BlackEnn
·
2017-04-10 13:00
spark
大数据
Spark相关文章索引(3)
环境部署
Spark2
.1.0的Standalone模式部署基本常识spark中的rdd的持久化Spark入门实战系列–9.Spark图计算GraphX介绍及实例《Spark官方文档》SparkSQL,DataFrames
BlackEnn
·
2017-04-10 13:00
spark
大数据
Spark相关文章索引(3)
环境部署
Spark2
.1.0的Standalone模式部署基本常识spark中的rdd的持久化Spark入门实战系列–9.Spark图计算GraphX介绍及实例《Spark官方文档》SparkSQL,DataFrames
BlackEnn
·
2017-04-10 13:00
spark
大数据
Spark相关文章索引(3)
环境部署
Spark2
.1.0的Standalone模式部署基本常识spark中的rdd的持久化Spark入门实战系列–9.Spark图计算GraphX介绍及实例《Spark官方文档》SparkSQL,DataFrames
BlackEnn
·
2017-04-10 12:00
spark
大数据
Spark2
.0机器学习系列之5:GBDT(梯度提升决策树)、GBDT与随机森林差异、参数调试及Scikit代码分析
关于决策树和随机森林,我也写了两篇介绍博客,可以作为参考:随机森林介绍、关键参数分析及
Spark2
.0中实现http://blog.csdn.net/qq_34531825/article/details
勿悔Choles
·
2017-04-09 23:26
深入理解Spark 2.1 Core (二):DAG调度器的原理与源码分析
上一篇《深入理解
Spark2
.0(一):RDD实现及源码分析》的5.2Spark任务调度器我们省略过去了,这篇我们就来讲讲Spark的调度器。
小爷Souljoy
·
2017-04-09 10:33
基于Spark 2.0.0搭建Hive on Spark环境
一、运行环境CentOS7.2Hadoop2.7Hive2.2.0
Spark2
.0.0JDK1.7Scala2.11.8Maven3.3.9说明:Scala2.11.8以后的版本只支持JDK1.8,如果环境原本是使用
纠了个结De聖
·
2017-04-06 09:41
HADOOP
SPARK
Hive
on
Spark
Spark 2.0介绍:Dataset介绍和使用
Spark2
.0介绍:Dataset介绍和使用
Spark2
.0是ApacheSpark的下一个主要版本。此版本在架构抽象、API以及平台的类库方面带来了很大变化。
MatrixSparse
·
2017-04-05 17:10
hadoop生态组件
Apache Spark 内存管理详解
本文中阐述的原理基于
Spark2
.1版本,阅读本文需要读者有一定的Spark和Java基础,了解RDD、Shu
程序优化
·
2017-04-05 10:00
Spark广播之TorrentBroadcast实现原理
Spark有两种方式:一种是HttpBroadcast(
Spark2
.1.0已经移除),另一种是TorrentBroadcast。
javartisan
·
2017-04-04 21:11
ambari 搭建hadoop大数据平台系列2-客户机配置
本案例搭建的环境介绍如下:Ambari2.4.2+HDP2.5(hadoop2.7;hive1.2;Tez;
Spark2
.0)+jdk1.8.25+centos7.0,这里首先要关注些注意事项,至于为什么会一一说明
TIMES2020
·
2017-04-04 17:00
hadoop
hbase
ambari
大数据-hadoop生态圈
CentOS7下 Hadoop2.7.3+
Spark2
.1.0 集群环境搭建(1NN+2DN)
环境主机名ip进程nn.hadoop.data.example.net172.16.156.220NameNode、Master、ResourceManager、SecondaryNameNode、JobHistoryServerdn1.hadoop.data.example.net172.16.156.221NodeManager、DataNode、Workerdn2.hadoop.data.e
贾小黑
·
2017-04-03 21:26
Hadoop
Spark
CentOS7下 Hadoop2.7.3+
Spark2
.1.0 集群环境搭建(1NN+2DN)
环境主机名ip进程nn.hadoop.data.example.net172.16.156.220NameNode、Master、ResourceManager、SecondaryNameNode、JobHistoryServerdn1.hadoop.data.example.net172.16.156.221NodeManager、DataNode、Workerdn2.hadoop.data.e
贾小黑
·
2017-04-03 21:26
Hadoop
Spark
Spark2
.1.0集群部署
1、从官网下载2.1.0版本的Spark,spark-2.1.0-bin-hadoop2.7.tgz;2、拷贝都集群中各个节点,解压到特定目录下;3、启master服务:#./sbin/start-master.shmaster服务启来之后可以看到master的URL地址(或者在日志中查看)spark://Spark01:70774、启所有的Worker,并把worker链接都master上#./
GoFastX
·
2017-04-01 17:42
spark
大数据
Spark2
.1.0集群部署
1、从官网下载2.1.0版本的Spark,spark-2.1.0-bin-hadoop2.7.tgz;2、拷贝都集群中各个节点,解压到特定目录下;3、启master服务:#./sbin/start-master.shmaster服务启来之后可以看到master的URL地址(或者在日志中查看)spark://Spark01:70774、启所有的Worker,并把worker链接都master上#./
GoFastX
·
2017-04-01 17:42
spark
大数据
spark点点滴滴 —— 认识spark sql的DataFrame和DataSet
概述spark的DataFrames和DataSets是sparkSQL中的关键概念,相比于RDD,DataFrame更能描述数据类型,因此是sparksql的基础类型,同时在
spark2
.0.x及其以后的版本中
简牧
·
2017-03-31 15:52
spark
hive on spark 报错
1.自从
spark2
.0.0发布没有assembly的包了,在jars里面,是很多小jar包修改目录查找jar2.异常HiveConfofnamehive.enable.spark.execution.enginedoesnotexist
李孟lm
·
2017-03-30 16:05
技术bug
spark
hive
spark
YARN上显示应用程序使用的vcores、memory不准确?
本文基于
Spark2
.1.0版本我们知道,使用yarn作为clustermanager时,spark(以client模式为例)用spark-submit提交应用程序(或者是spark-shell交互操作
俺是亮哥
·
2017-03-29 23:47
最简大数据Spark-2.1.0
0.0前言本文主要基于最新的
Spark2
.1.0版本。阅读本文可以对
Spark2
.1.0的学习过程,运行流程,关键组件,原理有所了解。文章有点长,你也可以直接阅读感兴趣的部分,但是还是建议全面了解。
wolearn
·
2017-03-27 16:28
Spark2
.1中用结构化流处理复杂的数据格式(译)
在第一章节系列结构化流的博客文章中,我们展示了怎样用简单的方式用结构化流实现端到端的流式ETL程序,将json日志数据转换成Parquet格式表。该文强调构建从各种复杂格式数据源读入并对数据进行转换的管道所面临的挑战。在本篇博文中,我们将深入的研讨该问题,并展示如何用SparkSQL内置函数解决数据转换中面临的挑战。确切的说,我们将从以下几个方面进行讨论:有哪些不同数据格式及怎样权衡如何简单的用S
幽兰深谷
·
2017-03-26 22:39
Spark之python版机器学习算法--ipython notebook配置及测试
先说明一下我的环境配置:操作系统:ubuntu14.0464bit
spark2
.0.0hadoop2.7.1scala-2.11.8python2.7.6java1.7.01.安装ipythonnotebook
_飞奔的蜗牛_
·
2017-03-21 23:53
机器学习与数据挖掘
大数据技术
python
spark
spark ml pipelines
sparkMLPipelines在
spark2
.0里mllib分为两个包,spark.mllib里是基于RDD的API,spark.ml里是基于DataFrame的API。
Dillon2015
·
2017-03-21 17:24
机器学习
spark
spark Exception in thread "main" java.lang.IllegalArgumentException: java.net.URISyntaxException: Re
在windows上运行
spark2
.0的ml算法报错:Exceptioninthread"main"java.lang.IllegalArgumentException:java.net.URISyntaxException
Dillon2015
·
2017-03-20 23:50
机器学习
spark
centos 7Hadoop2.7.3+
Spark2
.1.0 完全分布式环境 搭建全过程
Hadoop2.7.3+
Spark2
.1.0完全分布式环境搭建全过程www.cnblogs.com/purstar/p/6293605.html一、修改hosts文件在主节点,就是第一台主机的命令行下;
Helen_Cat
·
2017-03-20 21:42
解决:spark启动错误Exception in thread "main" java.lang.UnsupportedClassVersionError: org/apach..
MacOS:Sierra10.12.2Spark版本:2.1.0今天想在本地安装spark,结果按照步骤来竟然报错,问题原因
spark2
.1.0需要java7+的支持,但是Mac默认的java是1.6的
哈士奇说喵
·
2017-03-19 16:17
解决问题
Spark
Spark之殇
之前
Spark2
.0刚发布不久后的第一个小版本,StructuredStreaming终于支持Kafka了,但是只支持Kafka1.0而不支持Kafka0.8。
祝威廉
·
2017-03-15 20:00
spark2
.0+hadoop2.7.1简单部署
保证hadoop已经正常部署,以下为spark部署做个小笔记:1、安装scala-2.11.8.tgz1)tar-xvzfscala-2.11.8mvscala-2.11.8/usr2)配置环境变量,在/etc/profile中添加如下语句:exportSCALA_HOME=/usr/scala-2.11.8exportPATH=PATH:SCALA_HOME/bin2、安装spark在maste
_飞奔的蜗牛_
·
2017-03-11 23:58
大数据技术
spark
SparkSQL中DataFrame Operations操作(select、filter、groupBy、count)
注意:此处用的sparkversion1.6.0,版本不同,SparkSQL写代码时不太一样,比如要查询所有用户,并且使每一位用户年龄增加1.
spark2
.1.0写法为:df.select($"name
RiverCode
·
2017-03-07 14:06
SparkSQL
Spark快速安装与部署运行
Spark快速安装与部署运行1.Stand-alone-ModeDeploymentSparkStandaloneMode#下载最新版本
Spark2
.1.0-bin-hadoop2.7[released
chouisbo
·
2017-03-07 10:47
学习
Spark
Spark2
.1.0官方文档
本文档适用于
Spark2
.1.0版本。
FlinkMe
·
2017-03-04 15:00
搭建Hive On Spark 编译Hive源码错误解决方法(
spark2
.1.0,hadoop2.7.2)
HiveOnSpark的搭建需要自行编译Spark源码withoutHive然后部署。编译成功之后部署Spark集群,此处不描述如何部署集群了。然后本人自行从Hive官网下载Hive2.1.1安装包进行安装,之后启动运行Hive发现出现Class不兼容异常,经过Google得知版本冲突,导致自行编译Hive源码。本人第一次是在archive.apache.org官方下载hive源码进行编译得到如下
javartisan
·
2017-02-28 14:24
Hive
搭建Hive On Spark 编译Hive源码错误解决方法(
spark2
.1.0,hadoop2.7.2)
HiveOnSpark的搭建需要自行编译Spark源码 withoutHive然后部署。编译成功之后部署Spark集群,此处不描述如何部署集群了。然后本人自行从Hive官网下载Hive2.1.1安装包进行安装,之后启动运行Hive发现出现Class不兼容异常,经过Google得知版本冲突,导致自行编译Hive源码。本人第一次是在archive.apache.org官方下载hive源码进行编译得到如
Dax1n
·
2017-02-28 14:00
Spark2
.1.0源码编译
1、在Spark官网下载源码,选择sourcecode下载解压即可(也可以gitclonespark源码)2、在环境变量里设置maven内存大小,我本机使用默认大小也通过了,根据实际情况决定。exportMAVEN_OPTS="-Xmx2g-XX:ReservedCodeCacheSize=512m"3、官方编译示例:#ApacheHadoop2.2.X ./build/mvn-Pyarn-Pha
Dax1n
·
2017-02-27 19:00
上一页
36
37
38
39
40
41
42
43
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他