E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
java-spark
Java-Spark
系列10-Spark性能调优概述
文章目录一.Spark性能优化概述二.运行环境优化2.1数据本地性2.2数据存储格式三.RDD算子优化3.1尽可能复用同一个RDD3.2对多次使用的RDD进行持久化四.参数微调五.数据倾斜六.Spark常用的调优参数6.1在内存中缓存数据6.2其它配置项6.3SQL查询连接的hint6.4自适应查询执行6.5合并分区后重新组合6.6将排序合并联接转换为广播联接6.7优化倾斜连接参考:一.Spark
只是甲
·
2023-11-09 10:39
大数据和数据仓库
#
Spark
Spark优化
Spark数据倾斜
Spark参数调整
Java-Spark
系列1-spark概述
文章目录一.大数据技术栈二.Spark概述2.1MapReduce框架局限性2.2Hadoop生态圈中的各种框架2.3Spark2.3.1Spark的优势2.3.2Spark特点2.3.3SPRAK2新特性一.大数据技术栈如下图,当前的一个大数据技术栈:如上所示:数据采集,一般通过Sqoop或Flume将关系型数据库数据同步到hadoop平台。底层存储,采集到的数据存储在hdfs上,分布式进行存储
只是甲
·
2023-06-16 18:14
大数据和数据仓库
#
Spark
spark
big
data
Spark概述
Java-Spark
系列6-Spark SQL编程实战
文章目录一.SparkDataFrame概述1.1创建DataFrame1.1.1通过json文件创建DataFrame1.1.2通过CSV文件创建DataFrame1.1.3通过hivetable创建DataFrame1.1.4通过jdbc数据源创建DataFrame二.SparkSQL实战2.1DataFrame的统计信息2.2DataFrame的select操作2.3DataFrame对列的
只是甲
·
2023-06-16 18:14
大数据和数据仓库
#
Spark
SparkSQL实战
DataFrame
API
Spark
SQL
Java-Spark
系列3-RDD介绍
文章目录一.RDD概念1.1RDD的特点1.2RDD的核心属性二.RDD概述2.1准备工作2.2初始化spark2.3RDD数据集2.3.1并行集合2.3.2外部数据集三.操作RDD3.1基础知识3.2将函数传递给Spark3.3理解闭包3.4使用键值对3.5常见Transformations操作及Actions操作四.RDD实例4.1初始化RDD4.1.1通过集合创建RDD4.1.2通过文件创建
只是甲
·
2023-04-06 14:49
#
Spark
大数据和数据仓库
spark
java
RDD介绍
Spark编程
Java-Spark
系列10-Spark性能调优概述
一.Spark性能优化概述首先笔者能力优先,使用Spark有一段时间,如下是笔者的工作经验的总结。Spark任务运行图:image.pngSpark的优化思路:一般是从3个层面进行Spark程序的优化:运行环境优化RDD算子优化参数微调二.运行环境优化2.1数据本地性我们知道HDFS的数据文件存储在不同的datanode,一般数据副本数量是3,因为Spark计算的数据量比较大,如果数据不在本节点,
只是甲
·
2023-04-05 12:56
Java-Spark
系列8-Spark streaming整合Kafka
文章目录一.Sparkstreaming整合Kafka概述1.1Maven配置1.2创建DirectStream1.3定位策略1.4消费者的策略1.5创建RDD1.6获得Offsets1.7存储Offsets1.8检查点1.9Kafka自身1.10自身数据存储二.SparkStreaming整合Kafka实战2.1Maven配置2.2代码2.3测试参考:一.Sparkstreaming整合Kafk
只是甲
·
2023-01-30 10:31
大数据和数据仓库
#
Spark
Spark
Streaming
Spark
+
kafka
Spark准实时
spark使用之ALS版本对比
hi各位大佬好,我是菜鸟小明哥,最近在搞spark的破事,别人一问只会pyspark有点low,因此有必要学习下
java-spark
,以ALS为例开展,毕竟也是推荐中常用的方法,这个有必要知道。
小李飞刀李寻欢
·
2023-01-12 16:45
Recommendation
spark
大数据
推荐
ALS
召回
java-spark
中各种常用算子的写法示例
Spark的算子的分类从大方向来说,Spark算子大致可以分为以下两类:1)Transformation变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。Transformation操作是延迟计算的,也就是说从一个RDD转换生成另一个RDD的转换操作不是马上执行,需要等到有Action操作的时候才会真正触发运算。2)Action行动算子:这类算子会触发SparkContext提交Jo
horseman
·
2018-06-20 08:31
上一页
1
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他