E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark2
PySpark大数据处理及机器学习
Spark2
.3
阅读更多PySpark大数据处理及机器学习
Spark2
.3网盘地址:https://pan.baidu.com/s/1cE5SBX6Vs4uhkvN2WQhyBQ密码:fjec备用地址(腾讯微云):https
qkxbhdrusmc
·
2018-09-10 14:00
python
PySpark大数据处理及机器学习
Spark2
.3
阅读更多PySpark大数据处理及机器学习
Spark2
.3网盘地址:https://pan.baidu.com/s/1cE5SBX6Vs4uhkvN2WQhyBQ密码:fjec备用地址(腾讯微云):https
qkxbhdrusmc
·
2018-09-10 14:00
python
CDH中HUE开启Livy Spark提交工具
github.com/cloudera/livy.gitcdlivymvnpackage配置启动Livylivy-env.shexportSPARK_HOME=/opt/cloudera/parcels/
SPARK2
青行灯er
·
2018-09-10 13:02
软件安装系列
Spark源码研读-散篇记录(一):SparkConf
1Spark版本
Spark2
.1.0。2说明源码过程中所涉及的许多Scala的知识,完全可以参考之前Scala的笔记文章,应该来说确实很多知识内容都涉及到了。
xpleaf
·
2018-09-09 23:40
Spark
源码
SparkConf
Spark
DataFrame、Dataset、RDD的区别与联系及相互之间的转换
DataFrame、Dataset、RDD的区别与联系及相互之间的转换本文主要讲解Apache
Spark2
.0中RDD,DataFrame和Dataset三种数据组织类型;它们各自适合的使用场景,是最常用的数据类型
fct2001140269
·
2018-09-09 18:09
大数据技术
scala
HDP 下
SPARK2
与 Phoenix 的整合
Centos7.21511Ambari:2.6.2.0HDP:2.6.5.0Spark:2.x(HDP)Phoenix:4.7.x(HDP)条件:1.HBase安装完成;2.Phoenix已经启用,ambari界面如下所示:3.
Spark2
BalaBalaYi
·
2018-09-08 13:08
hadoop
spark
spark学习-30-
spark2
.2.0的SparkContext初始化
Spark源代码该怎么看,那就是看SparkContext类,只要你看懂了SparkContext,就懂得了Spark,因为这个是Spark程序的入口,也是最基础的。1sparkContext的主要构造器参数为SparkConf,实现如下classSparkContext(config:SparkConf)extendsLogging{//ThecallsitewherethisSparkCont
九师兄-梁川川
·
2018-09-06 15:13
大数据-spark
Spark SQL/DataFrame/DataSet操作(一)-----读数据
所有示例代码均在spark-shell上运行,我使用的是
spark2
.2,其它版本方法类似。
微步229
·
2018-09-06 14:20
Spark
基于Spark的Als算法+自迭代+
Spark2
.0新写法
主要介绍了一下几点:1矩阵分解的几种算法2spark使用矩阵分解的几种方式,1ml包中使用,2mllib包中的使用,其实有不调用包自己写的案列(可以去看看哈,就在example目录)3使用ALS做推荐的一个比较详细的流程:1自迭代确定比较优的参数是,2使用参数训练模型,3使用模型推荐topn的物品给用户4讲了怎么自迭代ALS算法参数,感觉这个还重要点5提交spark的报了一个错误,已经错误解决方式
hellozhxy
·
2018-09-04 20:20
spark
spark python安装配置 (初学)
参考博客https://blog.csdn.net/tyhj_sf/article/details/81907051需要:jdk10.0、
spark2
.3.1、Hadoop2.7.7(与spark对应的版本
PilviMannis
·
2018-09-04 14:22
spark
python
hive on spark
hive3.0.x对应
spark2
.3.0,hive2.3.x对应
spark2
.0.0,hive2.2.x、hive2.1.x对应spark1.6.0,hive2.0.x
koushr
·
2018-09-02 19:00
第二章 Hadoop2.7.3+
Spark2
.1.0+Scala2.12.2+jdk1.8 完全分布式环境 环境搭建
一、版本选择Hadoop2.7.3+
Spark2
.1.0+Scala2.12.2+jdk1.8完全分布式环境搭建全过程二、所有环境和已有环境已有:Hadoop2.7.3、Zookper、Jdk1.8所需搭建
mzhhy
·
2018-08-31 16:11
Linux
数据库
计算机
Hadoop学习
第一张:基本大数据平台宏观搭建
1业务需求分析(1)、捕获数据日志或数据库数据信息(2)、实时分析前当前数据内容(3)、实时统计当前数据量(4)、根据业务需求新增统计规划2、平台组件hadoop2.8.4
spark2
.3.1hive2.3.3kafka2.12zookeeper3.4.12Hbaseflumesqoop3
mzhhy
·
2018-08-31 16:23
Linux
计算机
Hadoop学习
spark2
.1.0之源码分析—排列三网站搭建t详解
调用addRpcRe排列三网站搭建【征途源码论坛zhengtuwl.com】联系方式:QQ:2747044651quest向handler(特别提醒下读者这里的handler不是RpcHandler,而是通过TransportClient构造器传入的TransportResponseHandler)添加requestId与回调类RpcResponseCallback的引用之间的关系。Transpo
ac74v
·
2018-08-31 10:16
IT
源码分析
在CDH5.14上离线安装
Spark2
.3
我们现在可以现有的集群中再装
spark2
.x版本,能和spark1.6版本并存。
常飞梦
·
2018-08-30 17:53
Hadoop
Spark
centos7 安装
spark2
.3.1 。安装scala2.12.6
1.安装scala1).官网下载scala>wgethttps://downloads.lightbend.com/scala/2.12.6/scala-2.12.6.tgz2)解压>tar-zxvfscala-2.12.6.tgz3)修改环境变量>vim/etc/profileexportSCALA_HOME=/root/yao/scala-2.12.6exportPATH=$PATH:$SCA
kaolayao
·
2018-08-30 13:39
hadoop
linux
搭建Spark集群详细步骤(3)
spark集群经典4部曲:1.搭建hadoop单机和伪分布式环境2.构造分布式hadoop集群3.构造分布式spark集群4.测试spark集群第三步构造分布式spark集群3.1安装scala3.2安装
spark2
.2.0
aidanmo
·
2018-08-29 22:14
编译
spark2
.1.0
编译
spark2
.1.0目标得到spark-2.1.0-bin-2.6.0-cdh5.7.0环境jdk1.8.0_65【1.7+】mavenApacheMaven3.3.9【3.3.9版】
spark2
.1.0
乘风御浪云帆之上
·
2018-08-29 21:58
spark
spark2
.1.0之源码分析——RPC客户端TransportClient详解
提示:阅读本文前最好先阅读:《
Spark2
.1.0之内置RPC框架》《
spark2
.1.0之源码分析——RPC配置TransportConf》《
spark2
.1.0之源码分析——RPC客户端工厂TransportClientFactory
泰山不老生
·
2018-08-28 10:46
大数据
Spark
Java
Netty
深入理解Spark
Structured Streaming-创建流式的dataset和dataframe
一输入源
spark2
.0中初步提供了一些内置的source支持。filesour
Anbang713
·
2018-08-26 13:07
Streaming
SparkStreaming2.2+kafka的偏移量管理
在从kafka接受流式数据的时候,spark提供了两种方式,Dstream和DirectStream,在
spark2
.2中已经不在提供第一种方式,具体区别这儿就不再描述了,第二种方式spark是用的kafka
cyony
·
2018-08-22 11:41
spark
kafka
oozie on
spark2
:基于Yarn运行
Spark2
时出现的错误说明(scala does not exist; make sure Spark is built.)
OozieaddsallofthejarsintheOozieSparksharelibtotheDistributedCachesuchthatalljarswillbepresentinthecurrentworkingdirectoryoftheYARNcontainer(aswellasinthecontainerclasspath).However,thisisnotquiteenoug
Nobi
·
2018-08-21 18:34
oozie
如何跳过Spark中CSV文件的标题?
从
Spark2
.0开始,您可以使用SparkSession将其作为一个内容来完成:valspark=SparkSession.builder.config(conf).get
酱g
·
2018-08-17 17:36
spark
【秒懂StructuredStreaming】手把手教你写StructuredStreaming + Kafka程序
从
Spark2
.0开始,DataFrame和Dataset可以表示静态(有界数据)
Spark技术咖
·
2018-08-16 20:01
PySpark学习笔记
在
spark2
.0中,HiveContext,SQLContext,StreamingContext,SparkContext都被聚合到了spark模块中。
IE06
·
2018-08-16 16:55
python
spark
python
SparkContext转化为JavaSparkContext
自动
Spark2
.0发布以来,官方最开始推荐的代码由finalSparkConfconf=newSparkConf().setMaster("local").setAppName("---");finalJavaSparkContextctx
徐雄辉
·
2018-08-16 15:51
spark
java
Spark入门详解
一Spark概述111什么是
Spark2
Spark特点3Spark的用户和用途二Spark集群安装1集群角色2机器准备3下载Spark安装包4配置SparkStandalone5配置JobHistoryServerStandalone6
卢子墨
·
2018-08-16 15:04
Spark
CDH5.15集成
spark2
CDH5.15集成
spark2
简介:在我的CDH5.15集群中,默认安装的spark是1.6版本,这里需要将其升级为
spark2
.x版本。
HarSenZhao
·
2018-08-15 09:15
CDH搭建
PCA主成份分析(Spark 2.0)
转载:https://blog.csdn.net/qq_34531825/article/details/52347220PCA在
Spark2
.0用法比较简单,只需要设置:.setInputCol(“features
m0_37870649
·
2018-08-13 14:56
spark
Spark 2.3.0 用户自定义聚合函数UserDefinedAggregateFunction和Aggregator
Spark2
.3.0用户自定义聚合函数UserDefinedAggregateFunction和Aggregator一、无类型的用户自定于聚合函数(UntypedUser-DefinedAggregateFunctions
leboop
·
2018-08-11 17:21
Spark
大数据
spark2
.3.1集群安装方法hadoop2.7.6和scala2.11.6
spark2
.3.1集群安装方法hadoop2.7.6和scala2.11.6下载安装包:spark-2.3.1-bin-hadoop2.7.tgzhttp://spark.apache.org/downloads.html
hsg77
·
2018-08-10 21:12
操作系统
Linux/Unix
云平台
hadoop
hadoop2.8.3 + hive2.3.3 + hbase0.98.24 +
spark2
.1.3安装
阅读更多安装虚拟机安装文件:CentOS-6.6-x86_64-bin-DVD1.iso自定义硬件内存增加到8G,处理器修改为4核自动安装永久修改hostnamevim/etc/sysconfig/networkHOSTNAME=bigdata.cqmfin.comGATEWAY=192.168.100.2配置Hostvim/etc/hosts192.168.100.131bigdata.cqmf
cboss8
·
2018-08-08 10:00
大数据
hadoop
hive
hbase
spark
hadoop2.8.3 + hive2.3.3 + hbase0.98.24 +
spark2
.1.3安装
阅读更多安装虚拟机安装文件:CentOS-6.6-x86_64-bin-DVD1.iso自定义硬件内存增加到8G,处理器修改为4核自动安装永久修改hostnamevim/etc/sysconfig/networkHOSTNAME=bigdata.cqmfin.comGATEWAY=192.168.100.2配置Hostvim/etc/hosts192.168.100.131bigdata.cqmf
cboss8
·
2018-08-08 10:00
大数据
hadoop
hive
hbase
spark
第一节
Spark2
.3源码解析之
spark2
-submit程序提交流程
本系列”
spark2
源码解析”,均以最新
spark2
.3.0版本为蓝本进行编写,转载请注明出处
spark2
-submit脚本应用程序提交流程一目录1.打包程序提交的流程demo,注意cdh
spark2
.3
数字支配万物的流转
·
2018-08-07 16:56
大数据
spark2
Spark之RDD编程快速入门
注:笔者用的spark1.6.3版本的,计划是用spark1.x版本大致了解一遍spark,然后再用
spark2
.x正式玩玩。
在屋顶听歌
·
2018-08-03 13:47
spark
数据挖掘工具---spark使用练习---ml(二)
在PySpark中,由很多评估器可用,本文以
Spark2
.2.1中提供的模型。分类分类ML包为数据科学家提供了七种分类(Classification)模型以供选择。线性回归classpyspa
diggerTT
·
2018-08-03 09:46
数据挖掘工具
Spark UDF使用详解及代码示例
/02/sparkUDF/前言本文介绍如何在SparkSql和DataFrame中使用UDF,如何利用UDF给一个表或者一个DataFrame根据需求添加几列,并给出了旧版(Spark1.x)和新版(
Spark2
董可伦
·
2018-08-03 09:53
spark
大数据
DataFrame
Spark
解决CDH SparkStreaming任务启动之后executor不停增长的问题,num-executors配置不管用。...
spark2
-submit--classSparkKafka--masteryarn--executor-memory1G--num-executors6--driver-memory1g\--confspark.driver.supervise
arli_xu
·
2018-08-02 21:00
Spark Structured Stream的流关联(Stream-Stream Joins)
自
Spark2
.3开始,SparkStructuredStreaming开始支持Stream-streamJoins。
bluishglc
·
2018-08-01 10:04
大数据专题
linux与hadoop
1.使用
spark2
,clouderaManager必须要是5.8.0或者以上2.rm:cannotremove‘cm-5.7.0/run/cloudera-scm-agent/process’:Deviceorresourcebusy
Yuan_CSDF
·
2018-07-30 09:41
linux
大数据
spark完整入门
1、下载
spark2
.1.0,下载地址https://spark.apache.org/downloads.html2、上传到linux服务器,解压即可简单应用,具体验证是否可用步骤第一步:进入spark
m0_37601109
·
2018-07-27 18:35
spark
解决Spark On Yarn yarn-cluster模式下的No Suitable Driver问题
网上解决方案我们全部都试过了,奉上我们自己验证通过的方案:1、在
spark2
-submit中指定好如下配置(我们使用的是mysql-connector-java-5.1.38.jar):--driver-class-path
我爱豆腐脑
·
2018-07-27 17:00
DAGScheduler之Job的提交划分Stage
整体流程图流程图源码分析
spark2
.3getOrCreateParentStages创建所有祖先Stage/***GetorcreatethelistofparentstagesforagivenRDD.ThenewStageswillbecreatedwith
阿武z
·
2018-07-27 15:11
spark sql读取映射hbase数据的hive外部表报错
集群环境CDH5.8.0/
spark2
.1.0我们用执行以下命令报错:
spark2
-submit--masteryarn--classcom.test.hive.SparkReadHbaseTest.
lhxsir
·
2018-07-19 14:54
CDH
spark 2.3.1 Standalone 集群
阅读更多1.先下载
spark2
.3.1下载地址:http://spark.apache.org/downloads.html2.安装
spark2
.3.1上传到/usr/spark目录下解压安装:tar-zxvfspark
zhangyongbo
·
2018-07-18 19:00
spark2.3.1
Standalone
spark 2.3.1 Standalone 集群
阅读更多1.先下载
spark2
.3.1下载地址:http://spark.apache.org/downloads.html2.安装
spark2
.3.1上传到/usr/spark目录下解压安装:tar-zxvfspark
zhangyongbo
·
2018-07-18 19:00
spark2.3.1
Standalone
Spark2
.x学习笔记:6、在Windows平台下搭建Spark开发环境(Intellij IDEA)
Spark2
.x学习笔记6、在Windows平台下搭建Spark开发环境(IntellijIDEA+Maven)6.1集成开发环境IDE为了方便应用程序开发与测试,提高开发效率,一般使用集成开发工具IDE
autumnLemon
·
2018-07-18 10:55
大数据-Spark
Spark2
.2.0源码阅读:SparkJob 如何提交到Yarn(cluster)
Spark是如何提交到Yarn上的大部分的书籍在和文档在分析sparkjob提交的时候都是以standalone的方式分析的,由于大部分生产环境spark都是运行在yarn上的,并且deploy多为cluser,所以我抽时间专门看了一下相关的源码,一起学习一下,有助于对于线上问题的的排查和分析。如有不正确的地方欢迎指出。先看下提交的脚本spark-submit.shif[-z"${SPARK_HO
pcqlegend
·
2018-07-17 17:52
SparkStreaming读kafka写入HDFS(kerberos认证)
SparkStreaming读kafka写入HDFSpom访问Kerberos环境下的HBase代码
Spark2
Streaming应用实时读取Kafka代码写入数据到kafka代码SparkStreaming
lhxsir
·
2018-07-16 15:30
kafka
Spark2
.x学习笔记:2、Scala简单例子
2、Scala简单例子参考教程:https://yq.aliyun.com/topic/692.1交互式编程spark-shell是Spark交互式运行模式,提供了交互式编程,边敲代码边执行,不需要创建程序源文件,方便调试程序,有利于快速学习Spark。[
[email protected]
]#bin/spark-shellUsingSpark'sdefaultlog4jprofile:or
autumnLemon
·
2018-07-16 15:37
大数据-Spark
上一页
30
31
32
33
34
35
36
37
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他