SparkSQL 第5页

大数据学习(24)-spark on hive和hive on spark的区别

这里可以理解为Spark通过SparkSQL使用Hive语句操作Hive表,底层运行的还是SparkRDD。具体步骤如下：通过SparkSQL，加载Hi

viperrrrrrr·2023-11-29 17:30

大数据学习(26)-spark SQL核心总结

&&大数据学习&&系列专栏：哲学语录:承认自己的无知，乃是开启智慧的大门如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦SparkSQL是ApacheSpark的一个模块，它用于处理结构化数据

viperrrrrrr·2023-11-29 17:30

解决Spark SQL读数据库时不支持某些数据类型的问题

之前开发数据湖新版本时使用SparkSQL来完成ETL的工作，但是遇到了SparkSQL不支持某些数据类型（比如ORACLE中的TimestampwithlocalTimezone）的问题。

alexlee666·2023-11-28 20:49

StarRocks从入门到精通系列六：使用EXPORT、Spark、Flink从StarRocks中导出数据

StarRocks中导出数据一、使用EXPORT导出数据1.背景信息2.导出流程3.基本原理4.相关配置5.基本操作6.最佳实践二、使用Spark连接器读取数据1.前提条件2.通用参数3.数据样例4.使用SparkSQL

最笨的羊羊·2023-11-28 11:38

SparkSQL与parquet，处理decimal类型数据时遇到的问题及注意事项

SparkSQL为了更好的性能，在读写Hivemetastoreparquet格式的表时，会默认使用自己的ParquetSerDe，而不是采用Hive的SerDe进行序列化和反序列化。

雾岛与鲸·2023-11-28 11:03

sparksql 自动DataSourceV2源

表模型明细模型：表中会存在主键重复的数据行，并且与导入的数据是完全对应的。您可以召回所导入的全部历史数据。聚合模型：表中不存在主键重复的数据行，主键满足唯一性约束。导入的数据中主键重复的数据行聚合为一行，即具有相同主键的指标列，会通过聚合函数进行聚合。您只能召回导入的全部历史数据的聚合结果，但是无法召回历史明细数据。主键模型和更新模型：表中不存在主键重复的数据行，主键满足唯一性约束。最新导入的数据

大数据启示录·2023-11-28 11:00

Spark面试题集锦

包含Sparkcore、Sparksql、Sparkstreaming、SparkMLlib、sparkGraphX五个核心组件。2、Spark的核心组件是什么？

猿界零零七·2023-11-28 09:53

解决SparkSQL导致的JVM栈内存溢出方法_尚硅谷大数据培训

当SparkSQL的sql语句有成百上千的or关键字时，就可能会出现Driver端的JVM栈内存溢出。

尚硅谷铁粉·2023-11-27 16:52

(转)Spark DataFrame 开发指南

DataFrame是Spark在RDD之后新推出的一个数据集，从属于SparkSQL模块，适用于结构化数据。对于我们这些用惯了数据库表和散列/字典结构的人来说，尤为亲切。

达微·2023-11-27 06:40

SparkSQL之catalyst

说到SparkSQL，我们不得不提到它的优化器（Catalyst），Catalyst是Sparksql的核心，它是针对于SparkSQL语句执行过程中的查询优化框架。

临界爵迹·2023-11-27 03:34

利用SparkSQL Logical Plan Parse 打造大数据平台SQL诊断利器

前言对一个开源项目来说，虽然各种卷，动不动去深入研究源码啥的，但是没有真正去参与开发的话，了解里头的原理又少那么点感觉。实际情况来说很少机会去参与源码的改造吧，这里我提供一些思路，就是基于源码倒腾一些小工具，这样子有作用而且加深那些原理的理解！利用我们的源码，打造一款SQL的扫描工具~~原理篇Spark被大家津津乐道的经典SQL解析流程Sql语句经过Antlr4解析，生成UnresolvedLog

敏叔V587·2023-11-27 03:34

SparkSQL 源码解析 SparkPlanner

文章目录物理计划转换过程SparkPlan分类LeafExecNodeUnaryExecNodeBinaryExecNode其他类型的SparkPlanSparkPlannerPlanLaterplanSparkStrategy.applycollectPlaceholdersplaceholders解析prunePlans总结物理计划转换过程从OptimizedLogicalPlan传入到Spa

KD_·2023-11-27 03:03

Spark入门之五：SparkSQL的原理以及架构

1、SparkSQL的发展历程1.1HiveandSharkSparkSQL的前身是Shark，给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具，Hive应运而生，它是当时唯一运行在

铁猴·2023-11-27 03:03

SparkSQL讲解

一SparkSQL是什么1.1SparkSQL的出现契机数据分析的方式数据分析的方式大致上可以划分为SQL和命令式两种：命令式在前面的RDD部分,非常明显可以感觉的到是命令式的,主要特征是通过一个算子,

北山璎珞·2023-11-27 03:32

sparkSQL1.1入门之二：sparkSQL运行架构

在介绍sparkSQL之前，我们首先来看看，传统的关系型数据库是怎么运行的。

chuozhi7142·2023-11-27 03:02

sparkSQL1.1入门之二：sparkSQL执行架构

在介绍sparkSQL之前。我们首先来看看，传统的关系型数据库是怎么执行的。

aofan9566·2023-11-27 03:31

SparkSQL之Optimized LogicalPlan生成过程

经过Analyzer的处理，UnresolvedLogicalPlan已经解析成为AnalyzedLogicalPlan。AnalyzedLogicalPlan中自底向上节点分别对应Relation、Subquery、Filter和Project算子。 AnalyzedLogicalPlan基本上是根据UnresolvedLogicalPlan一对一转换过来的，对于SQL语句中的逻辑能够很好

RainTicking·2023-11-27 03:31

window环境下安装spark

spark是大数据计算引擎，拥有SparkSQL、SparkStreaming、MLlib和GraphX四个模块。

FTDdata·2023-11-26 22:42

传统数仓和clickhouse对比

背景传统数仓一般都是Hive+SparkSql作为代表，不过也包括Kylin等，而clickhouse是实时OLAP的代表，我们简单看下他们的对比传统数仓和clickhouse对比Hive+SparkSQL

lixia0417mul2·2023-11-26 19:06

DBT踩坑第二弹

考虑到开源组件Kyuubi也是基于Hiveserver2，使用的thrift协议，所以采用Kyuubi执行SparkSQL。

淡定一生2333·2023-11-26 10:02

掌握spark 3.0中的查询计划

本文翻译自MasteringQueryPlansinSpark3.0,能够很好的帮助学习sparksql理解sparkUI的计划，决定翻译记录一下。

鸿乃江边鸟·2023-11-26 09:16

Spark SQL输入输出

1、对于SparkSQL的输入需要使用sparkSession.read方法1)、通用模式sparkSession.read.format("json").load("path")支持类型：parquet

sinat_36710456·2023-11-26 09:37

Hadoop+Hive+Spark+Hbase开发环境练习

app/data/exam查看csv文件行数[root@kb129~]#hdfsdfs-cat/app/data/exam/meituan_waimai_meishi.csv|wc-l2.分别使用RDD和SparkSQL

不吃香菜lw·2023-11-26 07:48

spark Sql， dataframe, Dataset 和 Streaming编程指南

四：sparkSql，dataframe,Dataset4.1:SparkSQL的用法之一是执行SQL查询,它也可以从现有的Hive中读取数据SparkSession:Spark中所有功能的入口是SparkSession

醉舞经阁半卷书A·2023-11-25 10:57

Spark SQL 时间格式处理

初始化SparkSqlpackagepbcp_2023.clear_dataimportorg.apache.spark.SparkConfimportorg.apache.spark.sql.SparkSessionimportorg.apache.spark.sql.functions

小辉懂编程·2023-11-25 05:29

云计算实验4 面向行业背景的大数据分析与处理综合实验

一、实验目的掌握分布式数据库接口SparkSQL基本操作，以及训练综合能力，包括：数据预处理、向量处理、大数据算法、预测和可视化等综合工程能力二、实验环境Linux的虚拟机环境和实验指导手册三、实验任务完成

MrNeoJeep·2023-11-25 04:06

Spark UI实现原理与事件监听机制

在SparkUI中可以查看job、stage、storage、environment、excutors和sparksql等信息，那么这都是怎么实现的，这些信息都是怎么获取到的呢？

涛声依旧（竞涛）·2023-11-24 16:35

Spark设计理念与基本架构

易于使用支持查询支持流式计算可用性高丰富的数据源支持模块：SparkCore+SparkSQL+S

whynotybb·2023-11-24 02:29

免费图书教材配套资料：Spark大数据技术与应用（第2版）

《Spark大数据技术与应用（第2版）》课程内容全面介绍了Spark大数据技术的相关知识，内容包含包括Spark概述、Scala基础、Spark编程、Spark编程进阶、SparkSQL结构化数据文件处理

泰迪智能科技·2023-11-23 14:36

spark内置数据类型

在用scala编写spark的时候，假如我现在需要将我spark读的数据源的字段，做一个类型转换，因为需求中要拼接出sql的createtable语句，需要每个字段的sql中的类型，那么就需要去和sparksql

后季暖·2023-11-23 12:41

大数据开发之Hive优化篇6-Hive on spark

相较于其他诸如Impala、Shark（SparkSQL的前身）等引擎而言，Hive拥有更为广泛的用户基础以及对SQL语法更全面的支持。

只是甲·2023-11-23 12:06

大数据最佳实践-hive on spark

目录HiveonSpark与SparkSQLSpark内存配置spark动态分配HiveHiveonSpark与SparkSQLHive是Hadoop中的标准SQL引擎，也是最古老的引擎之一。

WakeUpCcc·2023-11-23 12:33

sparkSql遇见数组越界错误：java.lang.ArrayIndexOutOfBoundsException: 3

这里写自定义目录标题sparkSql遇见数组越界错误：java.lang.ArrayIndexOutOfBoundsException:3sparkSql遇见数组越界错误：java.lang.ArrayIndexOutOfBoundsException

找工作的大数据开发·2023-11-23 11:14

SparkSession介绍

一、介绍SparkSession是Spark2.0中引入的新概念，它是SparkSQL、DataFrame和DatasetAPI的入口点，是Spark编程的统一API，也可看作是读取数据的统一入口；它将以前的

阿君聊风控·2023-11-23 08:24

数据倾斜（五）：Spark是如何解决数据倾斜的

Spark数据倾斜表现Spark数据倾斜原理Spark数据倾斜例子Spark数据倾斜解决方案七、Spark解决数据倾斜具体方法7.1概述mapjoin设置rdd压缩合理设置driver的内存SparkSql

longLiveData·2023-11-22 15:51

大数据处理技术Spark

大作业要求：伪分布式hadoop+pandas预处理数据+hdfs保存数据+spark从hdfs读取数据+sparksql处

我叫桃小夭·2023-11-22 13:54

spark简单数据查询与常见算子

DataBase,90Jim,Algorithm,60Jim,DataStructure,80该系总共有多少学生；vallines=sc.textFile("file:///usr/local/spark/sparksqldata

背帆·2023-11-21 17:53

基于Scala版本的TMDB大数据电影分析项目

所以在使用SparkSQL处理该数据集的时候，需要创建S

数仓白菜白·2023-11-21 17:20

[SparkSQL] 列转行lateral view explode函数和FlatMap算子两种方式实现炸裂

[SparkSQL]列转行lateralviewexplode函数和FlatMap算子两种方式实现炸裂我用了两种方法实现列转行，说一下我平时使用SparkSQL的习惯，我通常1）是先读取HDFS中的文件

林沐之森·2023-11-21 17:18

SparkSql清洗Hive中数据并存入Mysql

一、准备数据因为数据目前在本地，所以先将数据上传至Hive，再进行清洗。上传步骤：1、将数据上传至虚拟机中：使用rz-E选择文件2、进入hive，选择数据库，并进行建表注意：建表的时候，要保证表的分隔符要和数据本身的分隔符相同，否则导入数据的时候会出现所有数据都插入到同一列。createtabledata(TRIP_IDstring,CALL_TYPEstring,ORIGIN_CALLstrin

修勾勾L·2023-11-21 10:36

pyspark案例系列5-Spark ETL将MySQL数据同步到Hive

数仓其它层:Spark可以通过SparkSQL直接运行hive的sql语句，所以用Spark来

只是甲·2023-11-21 10:33

大数据之使用Spark增量抽取MySQL的数据到Hive数据库（1）

目录前言题目：一、读题分析二、处理过程1.采用SparkSQL使用max函数找到最大的日期然后转换成时间类型在变成字符串2.这里提供除了SQL方法外的另一种过滤不满足条件的方法三、重难点分析总结前言本题来源于全国职业技能大赛之大数据技术赛项电商赛题

约定Da于配置·2023-11-21 10:29

Spark 从Hive表中读数据或向Hive中写入数据

SparkSQL支持在Hive中的数据读写，但是Hive中有大量的依赖在Spark中不存在，所以在使用过程中要配置这些依赖。

pageniao·2023-11-21 10:27

使用sparksql将hive数据导出至mysql

1.在pom文件添加mysqlmysql-connector-java5.1.34org.apache.sparkspark-hive_2.13${spark.version}2.完整代码如下importorg.apache.spark.sql.SparkSessionobjectHive2Mysql{defmain(args:Array[String]):Unit={valspark=Spark

有风入弦·2023-11-21 10:57

拾贰SparkSQL:数据关联优化

在分布式环境中，Spark支持两类数据分发模式。一类是学过的Shuffle，Shuffle通过中间文件来完成Map阶段与Reduce阶段的数据交换，因此它会引入大量的磁盘与网络开销。另一类是我们介绍的广播变量（BroadcastVariables），广播变量在Driver端创建，并由Driver分发到各个Executors。因此，从数据分发模式的角度出发，数据关联又可以分为ShuffleJoin和

for your wish·2023-11-21 09:13

Spark 从零到开发（六）HiveContext

SparkSQL执行引擎的一个实例，它与存储在Hive中的数据集成在一起。从类路径上的hive-site.xml读取Hive的配置。

FantJ·2023-11-21 03:06

Spark 之 format

sparksql默认写的文件格式如果是hive表，走的是这里'defgetDefaultStorage(conf:SQLConf):CatalogStorageFormat={//Torespecthive-site.xml

zhixingheyi_tian·2023-11-20 21:08

07-Hive优化---高级部分3

一、Hive优化大数据的学习：1、学习工具及其原理（50%~70%）2、学习重要的（java、scala、python、sql[mysql\hivesql\sparksql\flinksql]）(30%

YuPangZa·2023-11-20 12:24

大数据常见面试题及答案

大特性：2、Hive分桶和分区的区别：3、Hive表动态分区和静态分区4、一个Hive表，数据量很大，分布在集群的100个节点，现在需要定期取top100，如何设计/实现：5、窗口函数6、hivesql和sparksql

遐想者csdn·2023-11-20 01:18

2011-2022年高职大数据竞赛-赛题内容

离线数据统计第五部分赛题模拟实现-数据采集与实时计算第六部分赛题模拟实现-数据可视化第一部分竞赛内容赛项以大数据技术与应用为核心内容和工作基础，重点考查参赛选手基于Spark、Flink平台环境下，充分利用SparkCore、SparkSQL

xlw2003·2023-11-19 21:54

推荐频道

SparkSQL