——Spark 第50页

SparkSQL 数据的加载和保存

一、通用加载和保存方式 SparkSQL提供了通用的保存数据和数据加载的方式。

落花雨时·2023-11-15 05:07

SparkSQL数据源

第1关：SparkSQL加载和保存代码：packagecom.educoder.bigData.sparksql2;importorg.apache.spark.sql.AnalysisException

小kamil·2023-11-15 05:06

SparkSQL的文件加载和保存

一、文件加载1.spark.read.load是加载数据的通用方法，默认加载和保存的是parquet格式文件read可读格式2.spark.read.format("…")[.option("…")].

爱吃喵的虎·2023-11-15 05:35

SparkSQL数据的加载与保存

1读取和保存文件SparkSQL读取和保存的文件一般为三种，JSON文件、CSV文件和列式存储的文件，同时可以通过添加参数，来识别不同的存储和压缩格式。

shangjg3·2023-11-15 05:30

Spark学习笔记一

文章目录1Spark架构设计与原理思想1.1Spark初始1.2Spark架构核心1.3Spark的计算阶段1.4Spark执行流程1.4Spark核心模块2Spark运行环境2.1Local模式2.2Standalone

孤独的偷学者·2023-11-15 03:12

大数据Spark学习笔记—sparkcore

目录Spark概述核心模块Spark编程配置IDEA配置scala环境WordCount案例Spark-Standalone运行环境Local配置步骤集群分工解压文件修改配置启动集群配置历史服务器Spark-Yarn

Int mian[]·2023-11-15 03:12

20210127_spark学习笔记

一、部分理论spark:由Scala语言开发的快速、通用、可扩展的基于内存的大数据分析引擎。在mapreduce上进行了优化，但没mapreduce稳定。

yehaver·2023-11-15 03:42

《spark实战》笔记02--Spark基础概念

来源：《spark实战》讲义[1]Spark生态系统[2]Spark特点先进架构•Spark采用Scala语言编写，底层采用了actormodel的akka作为通讯框架，代码十分简洁高效。

chijinyan·2023-11-15 03:41

【Spark学习笔记】- 1Spark和Hadoop的区别

目录标题Spark是什么SparkandHadoop首先从时间节点上来看:功能上来看:SparkorHadoopSpark是什么Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。

拉格朗日(Lagrange)·2023-11-15 03:11

Spark学习笔记【基础概念】

文章目录前言Spark基础Spark是什么spark和hadoop区别Spark核心模块Spark运行模式Spark运行架构运行架构Executor与Core（核）并行度（Parallelism）有向无环图

java路飞·2023-11-15 03:40

学习笔记-Spark运行架构概述

1，运行架构 Spark核心是计算引擎，采用的master-slave结构，如下图所示(图片来源)， Driver表示master(管理者)，负责管理整个集群中的作业任务调度，Executor表示slave

dyson不只是吹风机·2023-11-15 03:40

Spark学习笔记(3)——Spark运行架构

本系列文章内容全部来自尚硅谷教学视频，仅作为个人的学习笔记一、运行架构Spark框架的核心是一个计算引擎，整体来说，它采用了标准master-slave的结构。

程光CS·2023-11-15 03:40

4.Spark基础—核心组件、核心概念、提交流程、部署执行模式（本篇全是概念）

本文目录如下：第7章Spark核心组件7.1运行架构7.2核心组件7.2.1Driver7.2.2Executor7.2.3Master&Worker7.2.4ApplicationMaster7.3核心概念

页川叶川·2023-11-15 03:10

【Spark学习笔记】- 4运行架构&核心组件&核心概念

目录标题1运行架构2核心组件2.1Driver2.2Executor2.3Master&Worker2.4ApplicationMaster3核心概念3.1Executor与Core3.2并行度(Parallelism)3.3有向无环图(DAG)4提交流程4.1YarnClient模式4.2YarnCluster模式5分布式计算模拟5.1Driver5.2Executor5.3Executor25

拉格朗日(Lagrange)·2023-11-15 03:39

AWS 大数据实战 - 环境准备(一)

wzlinux·2023-11-15 03:34

配置好hivemetastore后使用show databases命令报错FAILED: SemanticException org.apache.hadoop.hive.ql.metadata.Hi

我的hive版本为2.3.9，mysql为5.7问题描述：首先，我是前面已经使用配置了mysql为hive的metastore并正常使用了一段时间，但是因为业务需要，在使用spark.sql操作hive

倾斜的二叉树·2023-11-15 03:12

大数据应用之 --- SparkSQL和 Hive的集成

大数据应用之—SparkSQL和Hive的集成创建软链接ln-s/opt/hive-3.1.3/conf/hive-site.xml/opt/spark-3.2.1/conf/hive-site.xml

fa_lsyk·2023-11-15 03:10

Apache Spark 的基本概念和在大数据分析中的应用

ApacheSpark是一个基于内存的分布式计算框架，旨在处理大规模数据集。它通过提供高效的数据处理和分析功能，帮助用户快速处理大量数据，并提供实时和批量数据处理。

小筱在线·2023-11-15 01:00

sparkSQL读取Excel表格

转自：https://www.cnblogs.com/shenyuchong/p/10291604.html编码初始化SparkSessionstatic{System.setProperty("hadoop.home.dir

风是外衣衣衣·2023-11-14 18:52

spark读取excel表格

参考资料：https://blog.csdn.net/qq_38689769/article/details/79471332参考资料：https://blog.csdn.net/Dr_Guo/article/details/77374403?locationNum=9&fps=1pom.xml:org.apache.poipoi3.10-FINALorg.apache.poipoi-ooxml3

风是外衣衣衣·2023-11-14 18:52

spark-excel依赖的问题

最近需要使用SparkSQL清洗Excel的数据，在网上找到了spark-excelcom.crealyticsspark-excel_2.120.13.7这个依赖包洗一些简单的Excel数据是没有问题的

乌啼·2023-11-14 18:52

spark读取Excel文件：

spark读取Excel文件：pom.xml文件：4.0.0cn.wgy.projectProjectTest04281.0-SNAPSHOTorg.apache.sparkspark-core_2.112.4.0org.apache.sparkspark-sql

熬夜的小王·2023-11-14 18:52

Spark - scala加载Excel文件

从Excel文件创建一个DataFrameimportorg.apache.spark.sql._valspark:SparkSession=???

当走的路甚远·2023-11-14 18:22

Spark将数据写入Excel

首先，导入pomcom.crealyticsspark-excel_2.110.11.1写方法：defsaveToExcel(filePath:String,dataFrame:DataFrame):Unit

莫非q·2023-11-14 18:21

Spark读取excle、xlsx数据(Session读取)

读取xlsx版本：IntelliJIDEACommunityEdition2019.2.4apache-maven-3.6.2Spark2.0.2hadoop2.6_Win_x64-master话不多说

阿朱__·2023-11-14 18:51

利用Spark代码从Excel文件中读取多个数据表数据（使用Session读取）

利用spark代码从excel文件中读取数据1.需要添加poi的pom文件org.apache.poipoi3.17com.crealyticsspark-excel_2.11

陈沐·2023-11-14 18:51

Spark 如何读取 excel 指定 sheet 中的数据

最近遇到一个需求，就是使用spark-excel读取excel，需要根据输入的sheet页数读取数据。我在网上搜索了一番，却没有合适的答案。

悦千言·2023-11-14 18:21

spark读取excel成dataframe的几种方式

目前只用到两种方法一data.xlsx放在resource目录下相关依赖com.crealyticsspark-excel_2.110.10.2主要代码valsparkConf=newSparkConf

飘满红楼·2023-11-14 18:20

Spark读取Excel文件

Spark读取Excel文件需要先添加对应的第三方库com.crealyticsspark-excel_2.123.3.1_0.18.5将上面的依赖添加上即可测试数据如下图代码模板如下importorg.apache.spark.sql

飞天小老头·2023-11-14 18:19

Spark怎么样可以拉取excel的数据

需要导入一个支持的jarcom.crealyticsspark-excel_2.110.12.2读取的方式如下defmain(args:Array[String]):Unit={valsession=SparkSession.builder

尘世壹俗人·2023-11-14 18:19

spark进行数据清洗时，如何读取xlsx表格类型文件

首先可以确定的是spark有专门对应excel表格读取的工具，在用spark-sql对xlsx类型文件进行读取的时候只需要再pom.xml文件里添加依赖就可以了添加依赖如下com.crealyticsspark-excel

枯槁橘子皮·2023-11-14 18:49

Spark -- 直接读写Excel文件

参考GitHub：https://github.com/crealytics/spark-excel 我使用了0.13.1版本的，此版本在读Excel时，必须指定文件，不能指定目录，否则报错。

TheBiiigBlue·2023-11-14 18:19

Spark读取excel文件

文章目录一、excel数据源转成csv二、Spark读取csv文件（一）启动spark-shell（二）读取csv生成df（三）查看df内容一、excel数据源转成csv集群bigdata-ubuntu

howard2005·2023-11-14 18:48

深入理解Kafka3.6.0的核心概念，搭建与使用

）、多副本的（replica），基于zookeeper协调的分布式消息系统，它的最大的特性就是可以实时的处理大量数据以满足各种需求场景：比如基于hadoop的批处理系统、低延迟的实时系统、Storm/Spark

Mumunu-·2023-11-14 16:44

Scala---介绍及安装使用

这里学习Scala语言的原因是后期我们会学习一个优秀的计算框架Spark，Spark底层源码的编写语言就有Scala，同时工作中很有可能使用Scala语言进行Spark的开发。Spark1.6版本中

30岁老阿姨·2023-11-14 14:51

【大数据实训】基于当当网图书信息的数据分析与可视化(八)

CSDN平台官方提供的博主的联系方式，有偿帮忙部署基于当当网图书信息的数据分析与可视化一、实验环境（1）Linux：Ubuntu16.04（2）Python:3.5（3）Hadoop：3.1.3（4）Spark

大模型Maynor·2023-11-14 10:18

数据工程中九大痛点

你可以让几个独立的数据产品团队致力于花哨的ML建模，在SparkGPU集群上花费数千美元，但模型的准确性却

极道Jdon·2023-11-14 08:10

大数据-Spark调优（二）

大数据-Spark调优（二）尽量避免使用shuffle类算子shuffle描述spark中的shuffle涉及到数据要进行大量的网络传输，下游阶段的task任务需要通过网络拉取上阶段task的输出数据，

海恋北斗星·2023-11-14 06:18

大数据之Spark调优：Explain 查看执行计划

目录Explain查看执行计划准备测试用表和数据基本语法执行计划处理流程案例实操代码Explain查看执行计划Spark3.0大版本发布，SparkSQL的优化占比将近50%。

浊酒南街·2023-11-14 06:17

Spark性能调优案例-优化spark估计表大小失败和小表关联走 broadcast join

B任务关联一张小表，实际任务耗时较长排查思路A任务排查查看sparkUIsql界面：问题1：发现并没有走广播join观察此处join，对于76条数据的表，估计的大小超过10M，实际76条数据大小小于spark.sql.autoBroadcastJoinThreshold

fir_dameng·2023-11-14 06:46

Spark性能调优案例-多表join优化，减少shuffle

背景A任务在凌晨1点到3点，平均耗时1h,且是核心公共任务，急需优化。整体逻辑示意图：//从tableA读取一次数据，放到临时表t1DROPTABLEIFEXISTStemp.tmp_xx_$date_1;CREATETABLEIFNOTEXISTStemp.tmp_xxx_$date_1asselectxxxfromtableAwherexxxx;//从临时表t1读取和转换数据，得临时表t2DR

fir_dameng·2023-11-14 06:45

Spark 算子调优

使用mapPartition提升map类操作的性能数据量不是特别大的时候，都可以用这种MapPartitions系列操作，性能还是非常不错的，是有提升的。mapToPair----->mapPartitionsToPairreturnactionRDD.mapToPair(newPairFunction(){@OverridepublicTuple2call(Rowrow)throwsExcept

星空下的那个人影·2023-11-14 06:14

Spark 调优

Spark调优一、Spark资源参数调优二、开发调优**调优思路：**优先使用参数调优，如果参数调优不能满足我们的业务场景，这里就要涉及到代码调优一、Spark资源参数调优•num-executors：

栗子呀！·2023-11-14 06:13

Spark性能调优总结

目录1：spark为什么需要调优2.调优的本质3.什么是RDD从薯片加工了解rddRDD的特征和属性4.关于内存计算什么是内存计算：什么是DAGstage的划分stage中的内存计算是怎么样的5.调优之数据不动代码动

只会写demo的程序猿·2023-11-14 06:43

spark调优-开发调优

RDD（3）对多次使用的RDD进行持久化（4）尽量避免使用shuffle类的算子（5）使用map-side预聚合的shuffle操作（combine）（6）使用高性能的算子（7）使用广播变量（8）使用spark

qichangjian·2023-11-14 06:12

hive on spark调优学习笔记

1集群环境概述1.1集群配置概述：所用集群由5台节点构成，其中2台为master节点，用于部署HDFS的NameNode，Yarn的ResourceManager等角色，另外3台为worker节点，用于部署HDFS的DataNode、Yarn的NodeManager等角色。Master节点配置为16核CPU、64G内存。Workder节点配置为32核CPU、128G内存。1.2集群规划概述：2ya

一只友·2023-11-14 06:39

大数据开发-Spark调优常用手段

Spark调优spark调优常见手段，在生产中常常会遇到各种各样的问题，有事前原因，有事中原因，也有不规范原因，spark调优总结下来可以从下面几个点来调优。

Hoult-吴邪·2023-11-14 06:39

Spark性能调优案例

除了对业务的理解之外，对于Spark本身的机制也要深入理解，这样才能通过各种调整，充分发挥Spark的优势，达成调优的目的。下面以一个案例尝试总结常用的Spark

大数据男·2023-11-14 06:08

Spark SQL调优案例：单字段NOT IN子查询优化

背景有如下的数据查询场景。表结构createtableorder(order_idlong,customer_idlong)partitionedby(datestring);要查询当天有订单，但是前一天没有订单的用户在当天的订单记录。数据分析的同事编写的最初版本的SQL如下select*fromorderwheredate='2021-07-17'andcustomer_idnotin(sele

hammertank·2023-11-14 06:38

【技术难点】hive on spark 调优

hiveonspark性能远比hiveonmr要好，而且提供了一样的功能。用户的sql无需修改就可以直接运行于hiveonspark。udf函数也是全部支持。

无精疯·2023-11-14 06:05

推荐频道

——Spark