E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Spark2
推荐BIG DATA Spark 的7本学习电子书籍(大牛专区)
目录目录LeanApache
Spark2
Apache
Spark2
.xCookbook,第2版LearningSparkStreamingApache
Spark2
.xforJavaDevelopersScalaandSparkforBigDataAnalyticsHighPerformanceSpark
CoXie大数据
·
2020-08-09 21:00
【pyspark】三 TypeError: Can not infer schema for type: type 'str' 问题
环境
spark2
.3.1zeppelin中%pysparkpython2.7TypeError:Cannotinferschemafortype:多个rddunion之后,toDF().write.csv
百物易用是苏生
·
2020-08-09 17:05
spark
第四篇|Spark Streaming编程指南(1)
在2016年7月,
Spark2
.0版本中引入了StructuredStreaming,并在
Spark2
.2版本中达到了生产级别,StructuredStreaming
西贝木土
·
2020-08-09 13:20
spark
spark-shell启动命令详细解析1
环境:
spark2
.3.3scala2.11.8Java1.8.0_141执行spark-shell命令后,会启动spark-shell交互命令行窗口:那么spark-shell命令的启动流程是怎样的呢
ustbxyls
·
2020-08-09 13:32
Spark源码
Spark
大数据
Spark中RDD 持久化操作 cache与persist区别
Spark中RDD持久化操作cache与persist区别原创小鹅鹅最后发布于2018-07-0215:33:13阅读数1712收藏展开环境/背景
Spark2
.3.0Scala2.11Java1.8在进行
tim.wei
·
2020-08-09 13:29
大数据
基于xmpp openfire smack开发之openfire介绍和部署[1]
即时通信客户端可使用
spark2
.6.3,这个版本是目前最新的release版本,经过测试发现上一版本在视频支持,msn网关支持上可
西伯利亚鹰
·
2020-08-09 12:47
Android
xmpp
java
Spark的那些事(一)一文了解spark
一Spark生态:支持SparkSql用于sql和结构化数据查询处理;支持MLlib用于机器学习;支持GraphX用于图形处理;支持SparkStreaming和StructuredSql(
spark2
.1.1
小流_跬步
·
2020-08-09 04:54
Spark
Spark的那些事
pycharm利用pyspark远程连接spark集群
1方法1.1软件配置
spark2
.3.3,hadoop2.6,python31.2spark配置Spark集群的每个节点的Python版
Great1414
·
2020-08-09 01:11
大数据
一个简单的Spark ML的例子
文章目录1-配置2-流程3-注意4-project1-配置首先,我在虚拟上,搭建了一个单机
spark2
.4.1(无hadoop)。然后在本地的IDEA中远程运行spark,操作一个svm的小例子。
Great1414
·
2020-08-09 01:11
大数据
centos7 (阿里云、linux) 单机spark的安装与配置详解(jdk安装与配置,scala安装与配置,hadoop安装与配置,spark安装与配置)
spark的安装与配置详解文章目录1.yum进行更新2.jdk安装与配置3.scala安装与配置4.spark安装与配置1.yum进行更新yumupgradesaprk的安装需要安装jdk、scala、
spark2
luqin_
·
2020-08-08 12:39
学习
spark获取数据解读(部分)
本系列文章是下载的是
spark2
.2.1版本的源码进行相关分析和学习。
爱数星星的小H
·
2020-08-08 01:41
spark
Spark2
.x RDD, Dataframe Dataset API操作
Spark提供了三种主要的与数据相关的API:RDD、DataFrame、DatasetRDD(Spark1.0)—>Dataframe(Spark1.3)—>Dataset(Spark1.6)imageRDDRDD是Spark提供的最主要的一个抽象概念(ResilientDistributedDataset),它是一个element的collection,分区化的位于集群的节点中,支持并行处理。
zhangjunli
·
2020-08-07 22:08
Spark
Spark :2.0三种API的传说:RDD,DataFrame和Dataset[译]
ApacheSpark对开发人员的吸引力在于它对大量数据集操作十分简易,并且跨语言(Scala,Java,Python和R).本文主要讲解Apache
Spark2
.0中RDD,DataFrame和Dataset
花和尚也有春天
·
2020-08-07 20:40
spark
spark环境搭建(独立集群模式)
参考文章SparkStandaloneMode单机版Spark在Mac上简装笔记[0]大数据利器:Spark的单机部署与测试笔记
spark2
.0.0下载最新版本2.0.0解压后进入目录解释standalone
Q博士
·
2020-08-07 16:40
spark
大数据技术Spark RDD、DataFrame和Dataset 怎么选择才好?
在本文中,我将深入讲讲Apache
Spark2
.2以及以上版本提供的三种API——RDD、DataFrame和Dataset,
chouxi9424
·
2020-08-07 13:48
Spark编译
前提在这里我们编译的是
Spark2
.2.0,Hadoop版本为hadoop-2.6.0-cdh5.7.0,Scala版本为2.11.8更多关于编译
Spark2
.2.0参见Spark编译官方文档环境要求TheMaven-basedbuildisthebuildofreferenceforApacheSpark.BuildingSparkusingMavenrequiresMaven3.3.9orne
NULL
·
2020-08-07 07:15
spark
hadoop
大数据
安装R和RStudio-server
1,集群配置情况:spark版本:
spark2
-2.1.0.clouderal-1.cdhCDH版本:CDH-5.13.0-12,安装R解压软件包以及进行相关配置将R3.1.2压缩包放在/home/packages
po_int
·
2020-08-06 12:09
hadoop
spark自定义函数之——UDF使用详解及代码示例
前言本文介绍如何在SparkSql和DataFrame中使用UDF,如何利用UDF给一个表或者一个DataFrame根据需求添加几列,并给出了旧版(Spark1.x)和新版(
Spark2
.x)完整的代码示例
weixin_30892889
·
2020-08-05 20:36
Spark2
.2源码分析:Spark-Submit提交任务
Spark2
.2源码阅读顺序1.
Spark2
.2源码分析:Spark-Submit提交任务2.
Spark2
.2源码分析:Driver的注册与启动客户端通过spark-submit命令提交作业后,会在spark-submit
Destiny_Greet
·
2020-08-05 19:01
Spark2.2源码顺序分析
CentOS7搭建Geotrellis开发环境
版本选项基于和团队协作,和方便管理等因素,Geotrellis相关版本选项如下:Scala:scala2.11.8Spark:
spark2
.2.0Java:java1.8.0_181Geotr
风碎峰
·
2020-08-05 13:01
sbt+IDEA
spark
Scala
CentOS7
大数据
Spark作业运行时,报错java.io.IOException: Mkdirs failed to create directory file:/home/tmp/catalog/example/
今天在公司集群上将自己打好的jar扔上去,以
spark2
-submit脚本提交作业,等到接近中午时候,回头去看,发现报错:Jobabortedduetostagefailure:Task10instage6.0failed4times
风碎峰
·
2020-08-05 13:01
spark
Scala
大数据
spark2
-shell启动
spark2
报错
1、
spark2
-shell命令启动
spark2
后,抛出异常,关键错误信息如下图:仔细查看错误信息之后发现,原来是yarn配置的内存不够,spark启动需要1024+384MB的内存,但是我的yarn配置仅有
风碎峰
·
2020-08-05 13:01
大数据
spark
使用kundera jpa操作hbase
kundera支持的数据库有:Cassandra,MongoDB,HBase,Redis,OracleNoSQL,Neo4j,CouchDB,Dudu,Relationaldatabases,Apache
Spark2
zxzLife
·
2020-08-04 20:32
大数据
hadoop大数据集群搭建详细教程
1.集群结构(hadoop3.1.1+zookeeper3.5.5+hbase2.0.0+
spark2
.3.4+phoenix5.0.0)类型zookeeperHbaseSparkPhoenixmasterNameNode
mythsc
·
2020-08-04 20:51
Hadoop
若泽大数据--玩转大数据之Spark入门到实战--专题视频课程
玩转大数据之Spark入门到实战—376人已学习课程介绍1.以
Spark2
.2版本讲解;2.全程剖析官网,杜绝读PPT,动手操作;3.讲解Spark在企业中的生产实战,迅速提升。
ruozedata
·
2020-08-04 17:24
视频教程
Windows系统搭建Hadoop,Spark开发环境
目录下的文件2.Hadoop3.13.spark-2.3.14.JDK1.8工具下载:下载2.解压配置2.1将下载好的Hadoop和Spark进行解压,并重命名,此处我重名为:hadoop-3.1.0和
spark2
.2
潇潇雨歇_
·
2020-08-04 15:10
大数据开发
大数据开发
Ambari Spark 集成 Hive 失败。spark sql创建的表hive看不到,hive创建的表 spark看不到
1)Advanced
spark2
-defaults的spark.sql.warehouse.dir值/apps/spark/warehouse改为/warehouse/tablespace/managed
rookie_bigdata
·
2020-08-04 12:33
Ambari
Spark+Hadoop环境搭建
一、工具下载:1、spark下载目前最新的是2.1.1,
spark2
.0开始api和之前的还是有比较多的变化,因此如果选择2.0以上版本,最好看一下api变化,下载地址:http://spark.apache.org
PRIMEZPY
·
2020-08-04 10:46
pyspark源码之SparkContext学习(context.py)
本系列文章是下载的是
spark2
.2.1版本的源码进行相关分析和学习。
爱数星星的小H
·
2020-08-04 08:58
spark
ERROR SparkContext: Error initializing SparkContext.java.lang.IllegalArgumentException: System memor
这是
spark2
.0之上的版本,也就是sparksql,创建配置的是时候使用SparkSession,。
码出一片蓝天白云
·
2020-08-04 06:49
SparkSQL
SparkSession
50-100G大文件的处理办法
文章目录1.使用分布式框架处理,如上次介绍的
spark2
.使用pandaschunk,不比单机版的spark慢3.使用daskpandas,分布式的pandas1.使用分布式框架处理,如上次介绍的spark
萤火虫之暮
·
2020-08-04 06:14
分布式
python
Spark之StructuredStreaming
StructuredStreaming相关学习:简介StructuredStreaming是
Spark2
.0版本提出的新的实时流框架,是一种基于SparkSQL引擎的可扩展且容错的流处理引擎。
清风笑丶
·
2020-08-04 06:55
深入理解Spark 2.1 Core (十):Shuffle Map 端的原理与源码分析
http://blog.csdn.net/u011239443/article/details/55044862在上一篇《深入理解
Spark2
.1Core(九):迭代计算和Shuffle的原理与源码分析
卓寿杰_SoulJoy
·
2020-08-04 02:33
Spark
深入理解
Spark
2.1
Core
原理与源码分析
04 graphx 从源节点到其他节点的路径 scala & java 版本
前言呵呵最近刚好有一些需要使用到图的相关计算然后需求是需要计算图中源点到目标节点的所有路径另外本文会提供一个scala版本的测试用例,以及一个java版本的测试用例(写的有点惨)环境如下:
spark2
.4.5
蓝风9
·
2020-08-04 02:48
09
spark
graphx
path
pregel
Windows安装Pyspark
又重新装一遍真开心,装的版本太新了
spark2
.4.0版本,具体原因请看https://blog.csdn.net/dylan_me/article/details/85120131我装完之后运行程序一直报这个错参考链接
江西师范大学-20届-吴悠
·
2020-08-03 22:06
大数据技术
软件安装
实战-Spark单机环境安装教程
Spark的单机安装方法很简单,这里我已
spark2
.4.5为例演示,最后启动的是cdh安装的
spark2
.4.0.下载http://spark.apache.org/downloads.html解压tar-zxvfspark
再难也要坚持
·
2020-08-03 22:08
Spark
Ubuntu+Hadoop+Mysql+Hive+Sqoop
VirtualBox6.1Ubuntu16.04Hadoop2.7.7MySql5.7.29MySql驱动5.1.46Hive2.3.6sqoop1.4.7一、hadoop集群配置以及HDFS命令学习参考依据:《python+
spark2
.0
weixin_43931044
·
2020-08-03 11:24
Spark的java开发环境实战
研究了Spark的支持方面,我发现
Spark2
.2和mongodb3.4这两个家伙已经宣布了互相支持。这下子狼狈为奸,一脚踢开复杂难用的Hadoop了。废话不多说,直接安
阿星777
·
2020-08-03 11:54
java
spark.SparkContext: Error initializing SparkContext.
spark.SparkContext:ErrorinitializingSparkContext.报错:(base)[bigdata@worker01~]$
spark2
-shellSettingdefaultloglevelto"WARN
DraGon_HooRay
·
2020-08-03 10:50
spark-shell报错
spark2
原理分析-广播变量(Broadcast Variables)的实现原理
概述本文介绍spark中BroadcastVariables的实现原理。基本概念在spark中广播变量属于共享变量的一种,spark对共享变量的介绍如下:通常,当在远程集群节点上执行传递给Spark操作(例如map或reduce)的函数时,它将在函数中使用的所有变量的单独副本上工作。这些变量将复制到每台计算机,而且远程机器上的变量的更新不会同步给驱动程序(driver)端。这种情况下,跨任务读写共
一 铭
·
2020-08-03 09:09
spark
深入浅出Spark原理
Spark2
Dataset实现原理分析-Dataset实现原理概要
概述本文讲述sparksql中的dataset的组成部分,并对其创建过程进行分析。Dataset要点我们可以总结出dataset的一些要点,如下:和关系型数据表一样,Dataset是强类型的。数据集的行的集合,被称为Dataframe。和RDD一样,Dataset的操作分为两类:转换(transformations)和行动(action)。和RDD一样,Dataset是lazy的,也就是说当执行a
一 铭
·
2020-08-03 09:09
spark
大数据处理
深入浅出Spark原理
spark中的Dataset和DataFrame
利用DataFrame进行分析创建DataFrame从
spark2
.0及更高版本开始,SparkSession成为了关系型功能的入口点。
YangJianShuai
·
2020-08-03 09:17
其他
Spark与Flink对比
虽然在
Spark2
苝花向暖丨楠枝向寒
·
2020-08-03 07:33
大数据
Spark2
.2(三十三):Spark Streaming和Spark Structured Streaming更新broadcast总结
背景:需要在
spark2
.2.0更新broadcast中的内容,网上也搜索了不少文章,都在讲解sparkstreaming中如何更新,但没有sparkstructuredstreaming更新broadcast
weixin_34255793
·
2020-08-03 07:04
Spark DataFrame 的 groupBy vs groupByKey
所用spark版本:
spark2
.1.0先从使用的角度来说,groupBy:groupBy类
weixin_33709219
·
2020-08-03 06:35
Spark2
.3(四十二):Spark Streaming和Spark Structured Streaming更新broadcast总结(二)
本次此时是在
SPARK2
,3structuredstreaming下测试,不过这种方案,在
spark2
.2structuredstreaming下应该也可行(请自行测试)。
weixin_30568591
·
2020-08-03 06:01
初识
Spark2
.0之Spark SQL
内存计算平台spark在今年6月份的时候正式发布了
spark2
.0,相比上一版本的spark1.6版本,在内存优化,数据组织,流计算等方面都做出了较大的改变,同时更加注重基于DataFrame数据组织的
weixin_30512043
·
2020-08-03 06:25
Spark SQL表达式解析器-Scala Parser与Antlr4
ScalaParser在
Spark2
.0之前,SparkSQL使用ScalaPa
海角Q
·
2020-08-03 06:05
Spark
SQL
scala
Spark
SQL使用笔记
Apache Spark 2.0三种API的传说:RDD、DataFrame和Dataset
本文主要讲解Apache
Spark2
.0中RDD,DataFrame和Dataset三种API;它们各自适合的使用场景;它们的性能和优化;列举使用DataFrame和DataSet代替RDD的场景。
universe_ant
·
2020-08-03 06:28
Spark
【spark】五 RDD、DataFrame.write 存储API的使用与区别
主要翻译自官网py
spark2
.3.1文档https://spark.apache.org/docs/2.3.1/api/python/pyspark.html#pyspark.RDD一pyspark.RDD
百物易用是苏生
·
2020-08-03 05:00
spark
上一页
11
12
13
14
15
16
17
18
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他