E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Saprk
ubuntu docker
saprk
单机集群搭建
1,制作ssh基础镜像:已制作好,地址:https://dev.aliyun.com/detail.html?spm=5176.1972343.2.4.J1rQiF&repoId=785862,制作单机镜像:在ubuntu_sshd基础之上引用地址:http://blog.csdn.net/u010171031/article/details/51849562在安装Spark之前,我们需要在自己的
高威
·
2019-11-07 07:33
Spark Streaming中序列化问题:org.apache.spark.SparkException: Task not serializable
利用
saprk
streaming实时分析数据时报的一些问题:打印日志如下:org.apache.spark.SparkException:Tasknotserializableatorg.apache.spark.util.ClosureCleaner
FLEMMINGS
·
2019-07-07 12:07
Java
Spark
Py
Saprk
将 DataFrame 数据保存为 Hive 分区表
Py
Saprk
将DataFrame数据保存为Hive分区表创建SparkSessionfrompyspark.sqlimportSparkSessionspark=SparkSession.builder.enableHiveSupport
XnCSD
·
2019-06-28 18:48
pyspark
spark笔记 环境配置
spark笔记spark简介
saprk
有六个核心组件:SparkCore、SparkSQL、SparkStreaming、StructedStreaming、MLlib,GraphxSparkCore相当于
九转星辰
·
2019-06-23 17:00
py
saprk
报错:Py4JJavaError
py
saprk
:toPandas报错Py4JJavaErrorTraceback(mostrecentcalllast)Py4JJavaError:Anerroroccurredwhilecallingo946
Bob Tung
·
2019-05-30 10:33
python
python
toPandas
pyspark
Py4JJavaError
新手如何学习大数据?完整的大数据学习体系你看了吗?
整理的大数据学习思路第一阶段:linux系统本阶段为大数据学习入门基础课程,帮大家进入大数据领取打好Linux基础,以便更好的学习Hadoop、habse、NoSQL、
saprk
、storm等众多技术要点
数据工程师金牛
·
2019-05-09 19:24
大数据
spark sql 读取hbase中数据保存到hive
新建
Saprk
ReadHbase类:packagesparksqlimportjava.util.Propertiesimportorg.apache.hadoop.hbase.HBaseConfigurationimportorg.apache.hadoop.hbase.client.Resultimportorg.apache.hadoop.hbase.io.ImmutableBytesWri
lin502
·
2019-04-25 11:36
spark
sql
6.Spark-submit 提交参数总结
spark提交任务常见的两种模式:1,local[k]:本地使用k个worker线程运行
saprk
程序.这种模式适合小批量数据在本地调试代码用.
__元昊__
·
2019-04-23 17:35
如何学习大数据?这才是完整的大数据学习体系!!
整理的大数据学习思路第一阶段:linux系统本阶段为大数据学习入门基础课程,帮大家进入大数据领取打好Linux基础,以便更好的学习Hadoop、habse、NoSQL、
saprk
、storm等众多技术要点
数据工程师陈晨
·
2019-04-22 16:49
大数据
史上最简单的spark教程第四章-Java操作
Saprk
Api常用案例大集合
spark+Java代码案例集合:这一章节大部分都是代码实例,spark中大部分常见的转换操作和行动操作包含特定数据类型的RDD还支持的一些附加操作,比如数字型的RDD支持的统计型函数操作.键值对RDD的聚合和键值操作等史上最简单的spark教程所有代码示例地址:https://github.com/Mydreamandreality/sparkResearch(提前声明:文章由作者:张耀峰结合自
李时珍皮啊
·
2019-03-15 18:11
#
大数据
拥抱大数据
同一条sql语句 ,Spark Sql 和 hive shell 查询数据结果不一致。
背景:hive表数据文件存储格式是parquet,存储在aliyun的oss存储中问题描述:
saprk
sql程序读取结果:hiveshell数据读取结果:hiveshell查询的结果是完整的.数据的写入通过
HappyLin0x29a
·
2019-03-14 17:47
大数据问题集锦
Spark的RDD工作机制原理以及实例详解
1、在介绍RDD工作原理之前再回顾一下WordCount的例子:第一步:创建
saprk
的
香山上的麻雀1008
·
2019-03-09 19:48
Spark
Flink累加器的使用(accumulator)
Flink的Accumulator即累加器,与
Saprk
Accumulator的应用场景差不多,都能很好地观察task在运行期间的数据变化可以在Flinkjob任务中的算子函数中操作累加器,但是只能在任务执行结束之后才能获得累加器的最终结果
JasonLee'blog
·
2019-01-28 00:00
flink
Hadoop与Spark关系
Hadoop与Spark的关系目录一:介绍1:Spark2:Hadoop二:不同层面的关系1:功能2:依赖关系3:数据量影响4:容错说明:近期在做一个图关系项目时,使用到了
saprk
分析引擎和Hadoop
yoylee_web
·
2018-11-11 17:14
大数据
Hadoop与Spark关系
Hadoop与Spark的关系目录一:介绍1:Spark2:Hadoop二:不同层面的关系1:功能2:依赖关系3:数据量影响4:容错说明:近期在做一个图关系项目时,使用到了
saprk
分析引擎和Hadoop
yoylee_web
·
2018-11-11 17:14
大数据
spark中 Dynamic Allocation 以及 num-executors 的问题
过一段时间,使用spark1.6的
saprk
-sql时发现有这么一个warnWARNspa
EnterPine
·
2018-09-12 16:41
spark
py
Saprk
,pycharm编写spark的python脚本,远程上传执行和本地模式执行
上次,我们用scala来编写来spark,这次我们用python来写spark脚本,我们在上篇博客中说过,spark的版本是2.2.0,scala的版本是2.1.x,这样我们在集群中,由于spark的版本,没有办法使用pySparkwordcount.py来执行脚本,只能使用sparksubmitwordcount.py来执行脚本,在Linux环境是这样执行的,但是我们写脚本,可以直接在Linux
Jameslvt
·
2018-08-30 10:08
大数据
python
spark
关于spark-submit的一些笔记
在配置完
saprk
之后,在cmd下运行spark-submit--help查看出现以下内容:其中常用的有:--class:主函数所在的类。
妈妈说名字要起的长看起来才够叼
·
2018-05-20 15:36
大数据
py
saprk
的使用
首先你要保证你已经安装成功了python和spark附连接:pyspark的安装与配置hadoop的安装要想使用pyspark需要先开启hadoop:start-dfs.sh接着在命令框输入:jupyter-notebook--ip192.168.50.88JupyterNotebook(此前被称为IPythonnotebook)是一个交互式笔记本,支持运行40多种编程语言。在上面可以更方便的进行
Se_cure
·
2018-04-22 18:28
大数据
Hadoop(四)——
Saprk
笔记
什么是spark?基于内存一站式快速的计算框架spark下面有哪些产品?sparkcore-->sparkrdd,spark核心编程,MapReducesparksql-->hivesparkstreaming-->storm,流式实时计算sparkmllib-->机器学习,人工智能核心是算法-->核心是数学-->概率论,线性代数,高数(微积分)关系不大sparkgraphX-->图计算算法为什么
Yatpif
·
2018-04-16 08:34
Hadoop
spark菜鸟笔记-关于spark安装过程中遇到的问题总结
问题一:jdk版本过高的问题:问题描述:那么有这样的一种问题,我们运行py
saprk
,虽然不会出现spark这样的图形,但也能进入到>>>这样的环境中,但是实际spark的语句是不能执行成功的。
晶心
·
2018-01-22 20:39
Spark
Hadoop和
Saprk
的异同
解决问题的层面不一样首先Hadoop和Spark两者都是大数据框架,而Hadoop实质上更多是一个分布式数据基础设施:它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储,除了HDFS分布式文件系统以外,还提供MapReduce的数据处理功能;而Spark,则是一个专门用来对那些分布式存储的大数据进行处理的工具,它并不会进行分布式数据的存储。数据处理速度和适用场景就数据处理速度而言
gamedevv
·
2017-12-21 17:07
【大数据】➣
Hadoop
在Rstudio中使用Spark处理超大规模的数据集
Rstudio的菜单中有连接Spark的入口,刚好自己手里有一份大小超过5GB,记录数达到2.8亿的超大数据集,对于单机版本的R来说无能为力,于是想尝试一下用Rstudio里面的Spark入口来安装和使用
Saprk
ccccfys
·
2017-11-18 16:53
Flink WaterMark机制白话分析
最近遇见一个流处理的数据严重迟到乱序的场景,基于
Saprk
Streaming开发的统计用户页面停留时间。使用的思想是:迟到数据的时间补偿机制。
javartisan
·
2017-09-14 00:00
Saprk
Sql 集成 hive 两种方式 (spark2.0+hive1.22 )
首先明确sparkSQl关联hive的时候有多种交互方式:sparkSQL和thrift【先说thrift】在$SPARK_HOEM/conf中的hive-site.xml中要去设置以下参数:hive.metastore.uristhrift://mach40:9083Thrifturifortheremotemetastore.Usedbymetastoreclienttoconnecttore
二次元的罪恶王冠
·
2017-05-12 16:53
linux
spark
Saprk
数据倾斜七解决方案(三)
4、双重聚合方案适用场景:对RDD执行reduceByKey等聚合类shuffle算子或者在SparkSQL中使用groupby语句进行分组聚合时,比较适用这种方案。方案实现思路:这个方案的核心实现思路就是进行两阶段聚合。第一次是局部聚合,先给每个key都打上一个随机数,比如10以内的随机数,此时原先一样的key就变成不一样的了,比如(hello,1)(hello,1)(hello,1)(hell
MLlib_fiy
·
2017-03-15 17:11
spark数据倾斜
Spark学习笔记--Spark基础知识
SparkStreaming是Spark提供的对实时数据进行流式计算的组件Spark是一个用于集群计算的通用计算框架,因此被应用于各种各样的应用程序2、从上层来看,每个
saprk
应用都有一个驱动器程序(
夜晓楼
·
2016-09-08 22:56
Spark
Spark大数据处理系列之Machine Learning
写在之前:本文是《Spark大数据处理》系列的第四篇,其他三篇:Spark介绍、
Saprk
SQL和SparkStreaming。最近几年,机器学习、预测分析和数据科学主题得到了广泛的关注。
Srini Penchikala
·
2016-06-07 00:00
Spark Streaming--实战篇
摘要: SprakStreaming属于
Saprk
AP的扩展,支持实时数据流(livedatastreams)的可扩展,高吞吐(hight-throughput)容错(fault-tolerant)
MOBIN-F
·
2016-04-02 21:00
Saprk
Streaming性能调优
SparkStreaming性能调优:1、设置合理的批处理时间(batchDuration)在构建StreamingContext的时候,需要我们传进一个参数,用于设置SparkStreaming批处理的时间间隔。Spark会每隔batchDuration时间去提交一次Job,如果你的Job处理的时间超过了batchDuration的设置,那么会导致后面的作业无法按时提交,随着时间的推移,越来越多
LW_GHY
·
2016-03-02 16:00
性能
spark
Spark学习之路---Spark核心概念
Spark核心概念简介 一个Spark应用都由驱动器程序发起集群上的各种并发操作,一个驱动器程序一般包含多个执行器节点,驱动器程序通过一个
Saprk
Context对象访问
saprk
。
AIDevROS
·
2015-12-05 14:29
spark
RDD
spark sql 对接 HDFS
上一篇博客我向大家介绍了如何快速地搭建spark run on standalone,下面我将介绍
saprk
sql 如何对接 hdfs 我们知道,在spark shell 中操作hdfs
·
2015-05-14 01:00
spark
通过SparkR在R上运行Spark
R依然是数据学家手中最强大的语言之一,其实早在2014年一月底,加州大学伯克利分校的AMPLab就宣布发布了其SparkR项目的开发者预览版,该版本使用了基于原生R语言的Apache
Saprk
,但是其使用难度还是在不断增加
u010022051
·
2015-04-02 16:00
【Spark课程】18小时掌握
Saprk
,把云计算大数据速度提升100倍
如何把云计算大数据处理速度提高100倍以上?Spark给出了答案。Spark是可以革命Hadoop的目前唯一替代者,能够做Hadoop做的一切事情,同时速度比Hadoop快了100倍以上,下图来自Spark的官方网站: 可以看出在Spark特别擅长的领域其速度比Hadoop快120倍以上!Spark是基于内存,是云计算领域的继Hadoop之后的下一代的最热门的通用的并行计算框架开源项目,尤其出色的
Spark亚太研究院
·
2014-06-17 09:00
hadoop
移动开发
大数据
云计算
spark技术
spark课程
spark人才培养
Meteor 0.8:发布全新的渲染系统Blaze
Blaze替代了在2012年发布的0.4版本中所引入的实时页面更新引擎
Saprk
。
James Chesters
·
2014-04-14 00:00
通过SparkR在R上运行Spark
R依然是数据学家手中最强大的语言之一,即使早在2014年一月底,加州大学伯克利分校的AMPLab就宣布发布了其SparkR项目的开发者预览版,该版本使用了基于原生R语言的Apache
Saprk
,但是其使用难度还是在不断增加
Charles Menguy
·
2014-02-26 00:00
上一页
1
2
3
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他