E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark2
spark 发布 2.2.0版本
Apache
Spark2
.2.0是2.x分支上的第三次主版本发布,其他两个版本分别2.0.x,2.1.x两个主版本以及下属的分支版本。
learneraiqi
·
2020-07-28 01:23
Spark相关
Spark 2.0系列之SparkSession详解
原文链接:HowtouseSparkSessioninApache
Spark2
.0作者:JulesDamji译者:刘旭坤责编:郭芮,关注大数据领域,寻求报道或投稿请发邮件
[email protected]
。
csdn郭芮
·
2020-07-28 00:17
Spark 2.3.0 Driver 内存泄漏
Spark2
.3.0Driver内存泄漏问题描述线上StructedStreaming随着运行时间变长,处理能力越来越慢,重启程序后恢复到之前的处理能力。
王捷
·
2020-07-27 22:20
Java
Spark 2.1.0的运行模式
Spark2
.1.0支持的运行模式Spark支持多种运行模式,可以在集群环境中运行,也可以单机本地运行,或者在单机上部署伪分布集群来运行Spark。
远太狼
·
2020-07-27 22:52
Spark
spark2
.4.3 sparkSQL 用户自定义函数笔记
1、简介从
Spark2
.0以上的版本开始,spark是使用全新的SparkSession接口代替Spark1.6中的SQLcontext和HiveContext来实现对数据的加载、转换、处理等工作,并且实现了
cqi024442
·
2020-07-27 20:21
Spark2
.4.0 SparkSession 源码分析
Spark2
.4.0SparkSession源码分析更多资源github:https://github.com/opensourceteams/spark-scala-maven-2.4.0时序图前置条件
chongqueluo2709
·
2020-07-27 20:56
Spark2
.x学习笔记:14、Spark SQL程序设计
Spark2
.x学习笔记:14、SparkSQL程序设计14.1RDD的局限性RDD仅表示数据集,RDD没有元数据,也就是说没有字段语义定义。RDD需要用户自己优化程序,对程序员要求较高。
程裕强
·
2020-07-27 20:12
Spark2.x学习笔记
Spark2.x学习笔记
spark2
.2 SparkSession思考与总结1
问题导读1.你认为为何出现SparkSession?2.SparkSession如何创建RDD?3.SparkSession通过那个类来实例化?4.bulider包含哪些函数?为何出现SparkSession对于spark1.x的版本,我们最常用的是rdd,如果我们想使用DataFrame,则需要通过rdd转换。随着dataframe和dataset使用的越来越多,所以spark就寻找了新的切入点
about云
·
2020-07-27 19:01
spark2
.x读取csv文件乱码问题
由于spark读取csv时,默认编码格式是utf-8,如果csv文件的格式是其他,需要加上编码格式的设定例:如果csv格式为GBKimportorg.apache.spark.sql.SparkSessionvalspark=SparkSession.builder().appName(“demo”).getOrCreate();如果用默认格式utf-8读取:vardata=spark.read.
楓尘林间
·
2020-07-27 19:57
Scala
Spark
DateFrame
Spark2
.1.0——SparkContext初始化之Spark环境的创建
阅读指导:在《
Spark2
.1.0——SparkContext概述》一文中,曾经简单介绍了SparkEnv。本节内容将详细介绍SparkEnv的创建过程。
泰山不老生
·
2020-07-27 19:15
大数据
Spark
Scala
深入理解Spark
Spark2
.1.0安装和配置
Spark主要使用HDFS充当持久化层,所以完整地使用Spark需要预先安装HadoopHadoop的下载地址:http://hadoop.apache.org/Spark的下载地址:http://spark.apache.org/同时也可使用Ambari安装Hadoop生态系统的所有需要的组件,参看文章:http://blog.csdn.net/wee_mita/article/details/
狮锅艺
·
2020-07-27 17:47
Spark
Spark原理
Spark2
.2源码剖析——SparkContext初始化及Spark环境创建
阅读指导:在《
Spark2
.2——SparkContext概述》一文中,曾经简单介绍了SparkEnv。本节内容将详细介绍SparkEnv的创建过程。
Jorocco
·
2020-07-27 16:13
大数据
Spark
大数据笔试真题集锦---第二章:Spark面试题
我会不间断的更新,维护,希望可以对正在找大数据工作的朋友们有所帮助.第二章目录第二章
Spark2
.1Spark原理2.1.1Shuffle原理2.1.1.1SortShufflemapTask将map(
千锋教育官方博客
·
2020-07-27 15:49
Spark性能调优-总结分享
环境:服务器600+,
spark2
.0.2,Hadoop2.6.02、调优结果调优随机选取线上9条SQL,表横轴是调优测试项目,测试在集群空闲情况下进行,后一个的测试都是叠
打怪的蚂蚁
·
2020-07-27 14:54
Spark
SparkSession简单介绍
Apache
Spark2
.0引入了SparkSession,其为用户提供了一个统一的切入点来使用Spark的各项功能,并且允许用户通过它调用DataFrame和Dataset相关API来编写Spark程序
铭霏
·
2020-07-27 13:19
Spark
Spark 2.0的SparkSession详解
翻译自:HowtouseSparkSessioninApache
Spark2
.0转载自:-SparkSession简单介绍(是否为原创初始翻译不详)-
Spark2
.0系列之SparkSession详解(
远太狼
·
2020-07-27 11:41
Spark
Spark项目的创建&Spark-shell用法
Spark2
.2.0isbuiltanddistributedtoworkwithScala2.11bydefault.
烙痕
·
2020-07-16 06:13
Spark
SparkSQL读写kudu小记
在操作之前首先要有相应的依赖org.apache.kudukudu-
spark2
_2.111.8.0compile-->SparkSQL读取Kudu(Java语言描述)publicstaticDatasetgetDatasetFromKudu
RDeduction
·
2020-07-16 06:08
大数据
spark2
.x 读写cassandra
spark2
.x连接cassandra示例importorg.apache.spark.SparkConfimportorg.apache.spark.sql.
yixl
·
2020-07-16 05:35
spark学习笔记
Spark2
.11 任务划分以及执行流程
1、sparkApplication中可以由不同的action触发job,也就是说一个Application里可以有很多的job,每个job是由一个或者多个stage构成的,后面的stage依赖前面的stage,只有前面依赖的stage计算完成后面的stage才会计算;2、stage划分的就是根据宽依赖如:reduceByKey、groupByKey等前后就需要划分为两个stage;3、由acti
qq_22796957
·
2020-07-16 05:59
Spark走马观花
Spark-submit诡异问题之:ERROR XJ040: Failed to start database 'metastore_db'
背景今天写了一个sparkjar包任务,在CDH集群上命令提交exportHADOOP_USER_NAME=lcc;
spark2
-submit--classcom.dtwave.spark.SparkMain
九师兄
·
2020-07-16 05:41
大数据-spark
CentOS7+Hapdoop2.8+
spark2
.1完全分布式平台的搭建经历
写在前面个人心得与经验:1、关于全分布和伪分布的区别:全分布是指在不同物理主机上搭建平台。伪分布是指一台物理主机中有多台虚拟机,这些虚拟机搭建的平台就是伪分布式平台。2、关于平台版本选择:尽量选择成熟的版本,不要太旧也不要选择最新版本的。版本太旧会出现一些异常,可能是它平台本身存在的问题,也可能会出现与现在的一些主流框架不兼容的情况。最新版本的话会在配置文件上有所不同,网上搜到的资料不也是特别多,
PsG庞士冠
·
2020-07-16 04:56
数据挖掘
spark
总结
Spark2
. 内存管理
本文引用的博客有下面两篇,学习后进行了相应的总结,如有spark方面的疑问,欢迎探讨。https://blog.csdn.net/qq_16038125/article/details/80359414https://www.cnblogs.com/gaoxing/p/5041806.html)Spark架构图:JVM堆空间下Spark的内存默认分配情况:1、ExecutionMemory用来计算
ouweiqi
·
2020-07-16 04:10
spark
phoenix for cloudera
phoenixforcloudera软件版本:
spark2
.0.2cdh5.9phoenix4.9(phoenix-spark模块使用4.11)下载CDH版本的phoenix,最新版本目前只有phoenix4.9
breeze_lsw
·
2020-07-16 02:07
Spark
thriftserver log4j.properties 生效
/home/isuhadoop/
spark2
/sbin/start-thriftserver.sh--driver-class-path/home/isuhadoop/ark_data_bin/jar/
lingzhi007
·
2020-07-16 02:46
spark
学习
大数据
【六】Spark SQL中SparkSession的使用
Spark2
.X中SparkSQL的入口点:SparkSession。
jy02268879
·
2020-07-16 01:41
spark
SQL
xgboost之spark上运行-scala接口
概述xgboost可以在spark上运行,我用的xgboost的版本是0.7的版本,目前只支持
spark2
.0以上版本上运行,编译好jar包,加载到maven仓库里面去: mvninstall:install-file-Dfile
hellozhxy
·
2020-07-15 23:24
机器学习
scala
spark上运行xgboost-scala接口
概述xgboost可以在spark上运行,我用的xgboost的版本是0.7的版本,目前只支持
spark2
.0以上版本上运行,编译好jar包,加载到maven仓库里面去:mvninstall:install-file-Dfile
hellozhxy
·
2020-07-15 23:24
机器学习
spark
scala
SparkSQL 入门操作
1.前提启动hadoop,
spark2
.进入saprk-shellbin/spark-shell--masterspark://c1:7077--executor-memory2g3.SQL操作文本文件
JamesFen
·
2020-07-15 23:40
spark
spark
大数据Spark “蘑菇云”行动第50课程 Spark 2.0项目概述 项目!!!大项目!!!超大型大数据项目!!!
大数据Spark“蘑菇云”行动第50课程
Spark2
.0项目概述从9月20号的大数据项目课程内容开始,所有的同学每节课必须按照课程内容动手实战,且基于课程内容写项目的学习博客;第一步:需求:数据的输入和数据的产出
段智华
·
2020-07-15 22:13
大数据蘑菇云行动
大数据Spark “蘑菇云”行动第48课程 Spark 2.0内幕深度解密和学习最佳实践
大数据Spark“蘑菇云”行动第48课程
Spark2
.0内幕深度解密和学习最佳实践观点1:从
Spark2
.0开始,Spark本身成为了编译器90%左右都是在基于Hive做SQL多维度数据分析,现在的主要的潮流是
段智华
·
2020-07-15 22:42
大数据蘑菇云行动
hive小操作·关于
spark2
.4-读取hive3.1事务表
版本信息:
spark2
.4hive3.1.1异常情况:使用altertable*compact'major'后,spark仍无法读取hive事务表中数据具体流程如下1、建表语句createtablesugon_transaction
concealed0
·
2020-07-15 21:13
HIVE小操作
spark2
sql读取json文件的格式要求
问题导读1.
spark2
sql如何读取json文件?2.
spark2
读取json格式文件有什么要求?3.
spark2
是如何处理对于带有表名信息的json文件的?
about云
·
2020-07-15 21:37
使用Spark SQL构建交互式查询引擎
准备工作下载StreamingProREADME中有下载地址如果你使用了
Spark2
.0版
祝威廉
·
2020-07-15 20:34
【编译安装】
Spark2
.3.3-CDH
前置准备&软件安装
spark2
.3.3源码官方Apache下载地址:http://spark.apache.org/downloads.htmlwgethttps://archive.apache.org
木亦汐
·
2020-07-15 20:54
【PySpark】Spark 2.0系列SparkSession与Spark 2.0之前版本中的SQLContext和HiveContext的联系与区别
SparkSession的三种创建方式4.1SparkSession直接builder方式4.2SparkConf的builder方式4.3SparkContext方式1.Spark在2.0版本和之前版本的入口在
Spark2
.0
J小白Y
·
2020-07-15 17:08
Python小白的进阶之路
spark2
.2错误 java.lang.UnsupportedOperationException: No Encoder found for org.apache.spark.sql.Row解决
spark2
.2错误java.lang.UnsupportedOperationException:NoEncoderfoundfororg.apache.spark.sql.Row解决办1、错误描述:
aijiudu
·
2020-07-15 14:10
Spark
SparkStreaming与Kafka010之05 监控Spark程序 获取Metrics信息 addStreamingListener或读取http信息解析json串
要获取Metrics信息,监控1.加监听:新的办法,直接一句话搞定ssc.addSparkStreamingListenerSparkStreaming、spark程序都能加监听只适合
spark2
.2.0
C_time
·
2020-07-15 13:50
spark
2018年新春报喜!热烈祝贺王家林大咖大数据经典传奇著作《SPARK大数据商业实战三部曲》畅销书籍 清华大学出版社发行上市!...
本书基于
Spark2
.2.0最新版本(2017年7月11日发布),以Spark商业案例实战和Spark在生产环境下几乎所有类型的性能调优为核心,以Spark内核解密为基石,分为上篇、中篇、下篇,对企业生产环境下的
weixin_30896825
·
2020-07-15 13:34
王家林大咖新书预发布:清华大学出版社即将出版《Spark大数据商业实战三部曲:内核解密|商业案例|性能调优》第二版 及《企业级AI技术内幕讲解》
王家林大咖新书预发布:清华大学出版社即将出版《Spark大数据商业实战三部曲:内核解密|商业案例|性能调优》第二版,新书在第一版的基础上以
Spark2
.4.3版本全面更新源码,并以TensorFlow和
段智华
·
2020-07-15 13:09
麻省理工线性代数
2020年重磅喜讯!热烈祝贺王家林大咖大数据经典传奇著作《Spark大数据商业实战三部曲》 畅销书籍第二版 清华大学出版社发行上市!
本书以数据智能为灵魂,以
Spark2
.4.X版本为载体,以Spark+AI商业案例实战和生产环境下几乎所有类型的性能调优为核心,对企业生产环境下的Spark
段智华
·
2020-07-15 13:36
麻省理工线性代数
spark standalone work扩展
192.168.2.28master192.168.2.29node1192.168.2.30node21.创建spark用户[root@master~]#useraddspark[root@node1~]#useradd
spark2
Jevic
·
2020-07-15 13:15
Hadoop
spark
spark streaming程序因集群kafka版本不一致造成ZkUtils类无法更新offset解决方案
问题:因为CDH集群环境问题,我sparkstreaming程序的依赖就依照其版本来进行,但这就遇到一个问题,集群
spark2
支持的kafka版本是0.9.0,而我们程序操作zookeeper的ZkUtils
zeb_perfect
·
2020-07-15 12:56
微服务及云计算学习总结
最新版spark-2.2.0安装教程
(
spark2
.2.0)0.环境:macOSX10.121.jdk的安装:安装javaJDK1.7及以上的版本,配置好环境变量。
gavenyeah
·
2020-07-15 11:50
大数据
【总结】PySpark的DataFrame处理方法:增删改差
基本操作:运行时获取spark版本号(以
spark2
.0.0为例):sparksn=SparkSession.builder.appName("PythonSQL").getOrCreate()printsparksn.version
weimingyu945
·
2020-07-15 02:46
python
spark
sql
StructuredStreaming官方文档翻译
基于
spark2
.1的官方文档翻译而来Overviewstructuredstreaming是一种基于SparkSQL引擎构建的可扩展且容错的流处理引擎。
无尴尬不青春
·
2020-07-14 22:54
spark
SparkStreaming 搭建《一》Win10可通用,供参考
编译环境:
Spark2
.3.1scala2.11.8jdk1.8hadoop2.6.5hive1.2.2kafka1.1.0Hbase1.4.5一、新建工程:File-scala-idea二、指定工程名称
sinat_32176267
·
2020-07-14 22:09
大数据
Spark
spark本地开发环境搭建(maven + scala + java)
开发工具和软件版本信息IDEA2019.2JAVA1.8Scala2.11.12
Spark2
.4.3Hadoop2.7.7WindowsWin10专业版64位Centos7.5部署Spark和Hadoop
克念
·
2020-07-14 22:01
hadoop
数据仓库
环境搭建
java
BigData
技术学习
Spark Shell入门教程
SparkShell2.使用SparkShell进行Scala编程0x02测试词频统计案例1.查看SparkShell的启动信息2.修改词频统计代码3.执行词频统计代码0x03Pyspark初体验1.启动与关闭Py
spark2
邵奈一
·
2020-07-14 22:24
大数据
spark
sparkStreaming消费kafka时发生"java.lang.NoSuchMethodError: net.jpountz.util.Utils.checkRange"的解决办法
问题描述:开发环境为
spark2
.0+kafka0.8,spark-streaming-kafka-0-8-assembly_2.11.jarsparkStreaming消费kafka时遇到如下错误:18
sh0308
·
2020-07-14 22:08
spark
上一页
14
15
16
17
18
19
20
21
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他