E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
——Spark
Spark
SQL 数据的加载和保存
一、通用加载和保存方式
Spark
SQL提供了通用的保存数据和数据加载的方式。
落花雨时
·
2023-11-15 05:07
大数据
spark
yarn
big
data
大数据
Spark
SQL数据源
第1关:
Spark
SQL加载和保存代码:packagecom.educoder.bigData.
spark
sql2;importorg.apache.
spark
.sql.AnalysisException
小kamil
·
2023-11-15 05:06
大数据
spark
scala
Spark
SQL的文件加载和保存
一、文件加载1.
spark
.read.load是加载数据的通用方法,默认加载和保存的是parquet格式文件read可读格式2.
spark
.read.format("…")[.option("…")].
爱吃喵的虎
·
2023-11-15 05:35
大数据
spark
spark
mysql
Spark
SQL数据的加载与保存
1读取和保存文件
Spark
SQL读取和保存的文件一般为三种,JSON文件、CSV文件和列式存储的文件,同时可以通过添加参数,来识别不同的存储和压缩格式。
shangjg3
·
2023-11-15 05:30
Spark
spark
大数据
sql
Spark
学习笔记一
文章目录1
Spark
架构设计与原理思想1.1
Spark
初始1.2
Spark
架构核心1.3
Spark
的计算阶段1.4
Spark
执行流程1.4
Spark
核心模块2
Spark
运行环境2.1Local模式2.2Standalone
孤独的偷学者
·
2023-11-15 03:12
开发环境的搭建
大数据
spark
大数据
Spark
学习笔记—
spark
core
目录
Spark
概述核心模块
Spark
编程配置IDEA配置scala环境WordCount案例
Spark
-Standalone运行环境Local配置步骤集群分工解压文件修改配置启动集群配置历史服务器
Spark
-Yarn
Int mian[]
·
2023-11-15 03:12
大数据
大数据
spark
hadoop
scala
分布式
20210127_
spark
学习笔记
一、部分理论
spark
:由Scala语言开发的快速、通用、可扩展的基于内存的大数据分析引擎。在mapreduce上进行了优化,但没mapreduce稳定。
yehaver
·
2023-11-15 03:42
spark
《
spark
实战》笔记02--
Spark
基础概念
来源:《
spark
实战》讲义[1]
Spark
生态系统[2]
Spark
特点先进架构•
Spark
采用Scala语言编写,底层采用了actormodel的akka作为通讯框架,代码十分简洁高效。
chijinyan
·
2023-11-15 03:41
大数据
spark
spark
【
Spark
学习笔记】- 1
Spark
和Hadoop的区别
目录标题
Spark
是什么
Spark
andHadoop首先从时间节点上来看:功能上来看:
Spark
orHadoop
Spark
是什么
Spark
是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。
拉格朗日(Lagrange)
·
2023-11-15 03:11
#
Spark
学习笔记
spark
学习
笔记
Spark
学习笔记【基础概念】
文章目录前言
Spark
基础
Spark
是什么
spark
和hadoop区别
Spark
核心模块
Spark
运行模式
Spark
运行架构运行架构Executor与Core(核)并行度(Parallelism)有向无环图
java路飞
·
2023-11-15 03:40
大数据
Spark
spark
大数据
java
学习笔记-
Spark
运行架构概述
1,运行架构
Spark
核心是计算引擎,采用的master-slave结构,如下图所示(图片来源), Driver表示master(管理者),负责管理整个集群中的作业任务调度,Executor表示slave
dyson不只是吹风机
·
2023-11-15 03:40
大数据数仓技术
大数据
数据仓库
spark
Spark
学习笔记(3)——
Spark
运行架构
本系列文章内容全部来自尚硅谷教学视频,仅作为个人的学习笔记一、运行架构
Spark
框架的核心是一个计算引擎,整体来说,它采用了标准master-slave的结构。
程光CS
·
2023-11-15 03:40
#
Spark学习笔记
4.
Spark
基础—核心组件、核心概念、提交流程、部署执行模式(本篇全是概念)
本文目录如下:第7章
Spark
核心组件7.1运行架构7.2核心组件7.2.1Driver7.2.2Executor7.2.3Master&Worker7.2.4ApplicationMaster7.3核心概念
页川叶川
·
2023-11-15 03:10
Spark学习笔记
大数据
spark
hadoop
【
Spark
学习笔记】- 4运行架构&核心组件&核心概念
目录标题1运行架构2核心组件2.1Driver2.2Executor2.3Master&Worker2.4ApplicationMaster3核心概念3.1Executor与Core3.2并行度(Parallelism)3.3有向无环图(DAG)4提交流程4.1YarnClient模式4.2YarnCluster模式5分布式计算模拟5.1Driver5.2Executor5.3Executor25
拉格朗日(Lagrange)
·
2023-11-15 03:39
#
Spark
学习笔记
spark
学习
笔记
AWS 大数据实战 - 环境准备(一)
的大数据和数据湖的相关服务和组件,顺利完成大数据的收集,存储,处理,分析和可视化的完整的流程,主要会介绍以下几个AWS大数据服务:Lab1:实时流数据处理,基于Kinesis产品家族实现Lab2:批量数据处理,基于EMR(
Spark
wzlinux
·
2023-11-15 03:34
数据库
可视化
大数据
java
数据分析
配置好hivemetastore后使用show databases命令报错FAILED: SemanticException org.apache.hadoop.hive.ql.metadata.Hi
我的hive版本为2.3.9,mysql为5.7问题描述:首先,我是前面已经使用配置了mysql为hive的metastore并正常使用了一段时间,但是因为业务需要,在使用
spark
.sql操作hive
倾斜的二叉树
·
2023-11-15 03:12
hive
hive
big
data
大数据应用之 ---
Spark
SQL和 Hive的集成
大数据应用之—
Spark
SQL和Hive的集成创建软链接ln-s/opt/hive-3.1.3/conf/hive-site.xml/opt/
spark
-3.2.1/conf/hive-site.xml
fa_lsyk
·
2023-11-15 03:10
spark
大数据应用
hadoop
大数据
hive
Apache
Spark
的基本概念和在大数据分析中的应用
Apache
Spark
是一个基于内存的分布式计算框架,旨在处理大规模数据集。它通过提供高效的数据处理和分析功能,帮助用户快速处理大量数据,并提供实时和批量数据处理。
小筱在线
·
2023-11-15 01:00
apache
spark
数据分析
大数据
spark
SQL读取Excel表格
转自:https://www.cnblogs.com/shenyuchong/p/10291604.html编码初始化
Spark
Sessionstatic{System.setProperty("hadoop.home.dir
风是外衣衣衣
·
2023-11-14 18:52
scala
小知识点
技术
sparkSQL读取excel
excel
spark
读取excel表格
参考资料:https://blog.csdn.net/qq_38689769/article/details/79471332参考资料:https://blog.csdn.net/Dr_Guo/article/details/77374403?locationNum=9&fps=1pom.xml:org.apache.poipoi3.10-FINALorg.apache.poipoi-ooxml3
风是外衣衣衣
·
2023-11-14 18:52
小知识点
scala
spark
spark
excel
spark
-excel依赖的问题
最近需要使用
Spark
SQL清洗Excel的数据,在网上找到了
spark
-excelcom.crealytics
spark
-excel_2.120.13.7这个依赖包洗一些简单的Excel数据是没有问题的
乌 啼
·
2023-11-14 18:52
数据开发bug
数据仓库
大数据
spark
读取Excel文件:
spark
读取Excel文件:pom.xml文件:4.0.0cn.wgy.projectProjectTest04281.0-SNAPSHOTorg.apache.
spark
spark
-core_2.112.4.0org.apache.
spark
spark
-sql
熬夜的小王
·
2023-11-14 18:52
大数据专栏
spark
大数据
hadoop
Spark
- scala加载Excel文件
从Excel文件创建一个DataFrameimportorg.apache.
spark
.sql._val
spark
:
Spark
Session=???
当走的路甚远
·
2023-11-14 18:22
Java
Spark
将数据写入Excel
首先,导入pomcom.crealytics
spark
-excel_2.110.11.1写方法:defsaveToExcel(filePath:String,dataFrame:DataFrame):Unit
莫非q
·
2023-11-14 18:21
spark
excel
Spark
读取excle、xlsx数据(Session读取)
读取xlsx版本:IntelliJIDEACommunityEdition2019.2.4apache-maven-3.6.2
Spark
2.0.2hadoop2.6_Win_x64-master话不多说
阿朱__
·
2023-11-14 18:51
spark
scala
Spark
Scala
利用
Spark
代码从Excel文件中读取多个数据表数据(使用Session读取)
利用
spark
代码从excel文件中读取数据1.需要添加poi的pom文件org.apache.poipoi3.17com.crealytics
spark
-excel_2.11
陈沐
·
2023-11-14 18:51
spark
spark
big
data
Spark
如何读取 excel 指定 sheet 中的数据
最近遇到一个需求,就是使用
spark
-excel读取excel,需要根据输入的sheet页数读取数据。我在网上搜索了一番,却没有合适的答案。
悦千言
·
2023-11-14 18:21
spark
大数据
excel
java
spark
读取excel成dataframe的几种方式
目前只用到两种方法一data.xlsx放在resource目录下相关依赖com.crealytics
spark
-excel_2.110.10.2主要代码val
spark
Conf=new
Spark
Conf
飘满红楼
·
2023-11-14 18:20
大数据
spark
scala
Spark
读取Excel文件
Spark
读取Excel文件需要先添加对应的第三方库com.crealytics
spark
-excel_2.123.3.1_0.18.5将上面的依赖添加上即可测试数据如下图代码模板如下importorg.apache.
spark
.sql
飞天小老头
·
2023-11-14 18:19
SPARK
spark
excel
大数据
Spark
怎么样可以拉取excel的数据
需要导入一个支持的jarcom.crealytics
spark
-excel_2.110.12.2读取的方式如下defmain(args:Array[String]):Unit={valsession=
Spark
Session.builder
尘世壹俗人
·
2023-11-14 18:19
大数据Spark技术
spark
大数据
spark
进行数据清洗时,如何读取xlsx表格类型文件
首先可以确定的是
spark
有专门对应excel表格读取的工具,在用
spark
-sql对xlsx类型文件进行读取的时候只需要再pom.xml文件里添加依赖就可以了添加依赖如下com.crealytics
spark
-excel
枯槁橘子皮
·
2023-11-14 18:49
大数据
spark
excel
apache
大数据
Spark
-- 直接读写Excel文件
参考GitHub:https://github.com/crealytics/
spark
-excel 我使用了0.13.1版本的,此版本在读Excel时,必须指定文件,不能指定目录,否则报错。
TheBiiigBlue
·
2023-11-14 18:19
Spark
spark
excel
Spark
读取excel文件
文章目录一、excel数据源转成csv二、
Spark
读取csv文件(一)启动
spark
-shell(二)读取csv生成df(三)查看df内容一、excel数据源转成csv集群bigdata-ubuntu
howard2005
·
2023-11-14 18:48
Spark大数据处理讲课笔记
spark
excel
csv
深入理解Kafka3.6.0的核心概念,搭建与使用
)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、Storm/
Spark
Mumunu-
·
2023-11-14 16:44
ELK
hadoop
kafka
hadoop
kafka
ELK
Scala---介绍及安装使用
这里学习Scala语言的原因是后期我们会学习一个优秀的计算框架
Spark
,
Spark
底层源码的编写语言就有Scala,同时工作中很有可能使用Scala语言进行
Spark
的开发。
Spark
1.6版本中
30岁老阿姨
·
2023-11-14 14:51
Scala
scala
开发语言
后端
【大数据实训】基于当当网图书信息的数据分析与可视化(八)
CSDN平台官方提供的博主的联系方式,有偿帮忙部署基于当当网图书信息的数据分析与可视化一、实验环境(1)Linux:Ubuntu16.04(2)Python:3.5(3)Hadoop:3.1.3(4)
Spark
大模型Maynor
·
2023-11-14 10:18
大数据
数据分析
数据挖掘
数据工程中九大痛点
你可以让几个独立的数据产品团队致力于花哨的ML建模,在
Spark
GPU集群上花费数千美元,但模型的准确性却
极道Jdon
·
2023-11-14 08:10
javascript
reactjs
大数据-
Spark
调优(二)
大数据-
Spark
调优(二)尽量避免使用shuffle类算子shuffle描述
spark
中的shuffle涉及到数据要进行大量的网络传输,下游阶段的task任务需要通过网络拉取上阶段task的输出数据,
海恋北斗星
·
2023-11-14 06:18
大数据
spark
大数据之
Spark
调优:Explain 查看执行计划
目录Explain查看执行计划准备测试用表和数据基本语法执行计划处理流程案例实操代码Explain查看执行计划
Spark
3.0大版本发布,
Spark
SQL的优化占比将近50%。
浊酒南街
·
2023-11-14 06:17
Spark调优
大数据
spark
分布式
Spark
性能调优案例-优化
spark
估计表大小失败 和 小表关联 走 broadcast join
B任务关联一张小表,实际任务耗时较长排查思路A任务排查查看
spark
UIsql界面:问题1:发现并没有走广播join观察此处join,对于76条数据的表,估计的大小超过10M,实际76条数据大小小于
spark
.sql.autoBroadcastJoinThreshold
fir_dameng
·
2023-11-14 06:46
Spark
broadcast
join
Spark
sql
参数调优
小表估计失败
Spark
性能调优案例-多表join优化,减少shuffle
背景A任务在凌晨1点到3点,平均耗时1h,且是核心公共任务,急需优化。整体逻辑示意图://从tableA读取一次数据,放到临时表t1DROPTABLEIFEXISTStemp.tmp_xx_$date_1;CREATETABLEIFNOTEXISTStemp.tmp_xxx_$date_1asselectxxxfromtableAwherexxxx;//从临时表t1读取和转换数据,得临时表t2DR
fir_dameng
·
2023-11-14 06:45
Spark
spark
sql
Spark3.0
多表join优化
消除shuffle
逻辑优化
Spark
算子调优
使用mapPartition提升map类操作的性能数据量不是特别大的时候,都可以用这种MapPartitions系列操作,性能还是非常不错的,是有提升的。mapToPair----->mapPartitionsToPairreturnactionRDD.mapToPair(newPairFunction(){@OverridepublicTuple2call(Rowrow)throwsExcept
星空下的那个人影
·
2023-11-14 06:14
大数据面试
spark
Spark
调优
Spark
调优一、
Spark
资源参数调优二、开发调优**调优思路:**优先使用参数调优,如果参数调优不能满足我们的业务场景,这里就要涉及到代码调优一、
Spark
资源参数调优•num-executors:
栗子呀!
·
2023-11-14 06:13
大数据Spark专栏
大数据
spark
hadoop
Spark
性能调优总结
目录1:
spark
为什么需要调优2.调优的本质3.什么是RDD从薯片加工了解rddRDD的特征和属性4.关于内存计算什么是内存计算:什么是DAGstage的划分stage中的内存计算是怎么样的5.调优之数据不动代码动
只会写demo的程序猿
·
2023-11-14 06:43
spark
spark
调优-开发调优
RDD(3)对多次使用的RDD进行持久化(4)尽量避免使用shuffle类的算子(5)使用map-side预聚合的shuffle操作(combine)(6)使用高性能的算子(7)使用广播变量(8)使用
spark
qichangjian
·
2023-11-14 06:12
大数据学习
hive on
spark
调优学习笔记
1集群环境概述1.1集群配置概述:所用集群由5台节点构成,其中2台为master节点,用于部署HDFS的NameNode,Yarn的ResourceManager等角色,另外3台为worker节点,用于部署HDFS的DataNode、Yarn的NodeManager等角色。Master节点配置为16核CPU、64G内存。Workder节点配置为32核CPU、128G内存。1.2集群规划概述:2ya
一只友
·
2023-11-14 06:39
hive
spark
学习
大数据开发-
Spark
调优常用手段
Spark
调优
spark
调优常见手段,在生产中常常会遇到各种各样的问题,有事前原因,有事中原因,也有不规范原因,
spark
调优总结下来可以从下面几个点来调优。
Hoult-吴邪
·
2023-11-14 06:39
Spark
性能调优案例
除了对业务的理解之外,对于
Spark
本身的机制也要深入理解,这样才能通过各种调整,充分发挥
Spark
的优势,达成调优的目的。下面以一个案例尝试总结常用的
Spark
大数据男
·
2023-11-14 06:08
hadoop异常
java
spark
big
data
大数据
Spark
SQL调优案例:单字段NOT IN子查询优化
背景有如下的数据查询场景。表结构createtableorder(order_idlong,customer_idlong)partitionedby(datestring);要查询当天有订单,但是前一天没有订单的用户在当天的订单记录。数据分析的同事编写的最初版本的SQL如下select*fromorderwheredate='2021-07-17'andcustomer_idnotin(sele
hammertank
·
2023-11-14 06:38
spark
【技术难点】hive on
spark
调优
hiveon
spark
性能远比hiveonmr要好,而且提供了一样的功能。用户的sql无需修改就可以直接运行于hiveon
spark
。udf函数也是全部支持。
无精疯
·
2023-11-14 06:05
spark
大数据
java
hadoop
分布式
上一页
46
47
48
49
50
51
52
53
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他