********Spark 第12页

Spark-SQL与Hive的连接及数据处理全解析

Spark-SQL与Hive的连接及数据处理全解析在大数据处理领域，Spark-SQL和Hive都是重要的工具。今天就来聊聊Spark-SQL如何连接Hive以及相关的数据处理操作。

不要天天开心·2025-04-21 01:38

大数据开发之数据仓库

高冷小伙·2025-04-20 03:40

HiveSQL或SparkSQl中group by与grouping sets、with cube和with rollup用法演示

GROUPINGSETS：根据不同的维度组合进行聚合，等价于将不同维度的GROUPBY结果集进行UNIONALL数据准备：建表语句：createtabletmp.gb(astring,bstring,cint)rowformatdelimitedfieldsterminatedby'\t'storedastextfile;案例数据：111212222223212122使用案例：第一种组合：sele

木给哇啦丶·2025-04-19 23:50

yarn的定义，yarn的三大组件及各自作用，yarn的三个资源调度策略

yarn的定义：YARN是一个通用的集群资源管理系统，它能够为运行在Hadoop集群上的各种应用程序（如MapReduce、Spark、Flink等）提供统一的资源调度和管理服务。

嗯.～·2025-04-19 17:07

Spark-SQL核心编程

利用IDEA开发Spark-SQL。

zzh-·2025-04-19 16:59

Spark rdd算子解析与实践

一、RDD基础回顾RDD（ResilientDistributedDataset）是Spark的核心抽象，代表一个不可变、分区的分布式数据集合。

Debug_TheWorld·2025-04-19 15:23

使用 PySpark 批量清理 Hive 表历史分区

使用PySpark批量清理Hive表历史分区在大数据平台中，Hive表通常采用分区方式存储数据，以提升查询效率和数据管理的灵活性。

D愿你归来仍是少年·2025-04-19 15:23

Spark on K8s 在 vivo 大数据平台的混部实战与优化

一、SparkonK8s简介（一）定义与架构SparkonK8s是一种将Spark运行在Kubernetes（K8s）集群上的架构，由K8s直接创建Driver和Executor的Pod来运行Spark

N201871643·2025-04-19 15:22

使用pyspark 进行简单的算子运算时报Exception ignored in: ＜_io.BufferedRWPair object at 0x0000000001FFD680＞Traceb错误

错误具体截图如下代码如下我当时用的Python解析器版本3.13.2,pyspark版本3.5.5报的这个错，解决办法：1.将python版本降为3.10.10，pyspark版本没改2.在pycharm

菜鸟呼吸声·2025-04-19 14:13

机器学习：利用Spark MLlib实现分布式机器学习算法训练与预测。

作者：禅与计算机程序设计艺术1.背景介绍近年来，随着云计算、大数据、人工智能等技术的不断发展，基于大规模数据处理的机器学习算法也在迅速发展壮大。机器学习（MachineLearning）是一门融合了统计、模式识别、计算机科学、数据挖掘等多领域知识而成的交叉学科，其目的是利用已知的数据，对未知的数据进行预测、分类、聚类、降维等任务，从而提高计算机程序的学习能力，改善自身的决策能力，解决实际问题。随着

AI天才研究院·2025-04-18 12:56

Spark-SQL核心编程：DataFrame、DataSet与RDD深度解析

在大数据处理领域，Spark-SQL是极为重要的工具。今天就来深入探讨Spark-SQL中DataFrame、DataSet和RDD这三个关键数据结构。

不要天天开心·2025-04-18 11:51

spark-SQL核心编程

1.Spark-SQL简介起源与发展：Spark-SQL前身为Shark，因对Hive依赖制约Spark发展而被弃用。它汲取Shark优点重新开发，在数据兼容、性能优化和组件扩展方面表现出色。

桑榆0806·2025-04-18 10:16

Spark SQL架构工作原理及流程解析

SparkSQL架构工作原理及流程解析，sparksql从shark发展而来，Shark为了实现Hive兼容，在HQL方面重用了Hive中HQL的解析、逻辑执行计划翻译、执行计划优化等逻辑。

我想去吃ya·2025-04-18 06:47

Java中，spark提供的Dataset详解

小巫程序Demo日记：SparkDataset使用全解Java和scala的Dataset的创建方式有所不同，因为Java的API和类型系统与Scala不同。

小巫程序Demo日记·2025-04-18 03:00

大数据面试题目_综合面试_hadoop面试题_hive面试题_sqoop面试题_spark面试题_flume面试题_kafka面试题---大数据面试题007

大数据面试:1.说一下hadoop的集群部署模式有哪几种,完全分布式如何部署以及配置?2.hadoop的守护进程有哪些?2.之前的公司,为什么要离职?3.之前公司的待遇工资多少?4.用Flink处理过什么场景的业务,是如何实现的,说一下流程?5.有没有用过NIFI?6.做的时候后端是如何做的,用的什么框架?有没有了解过springcloudTencent?7.hadoop中的代理用户功能的作用,和

添柴程序猿·2025-04-18 03:00

[Spark]深入解密Spark SQL源码：Catalyst框架如何优雅地解析你的SQL

本文内容组织形式总结具体例子执行语句解析层优化层物理计划层执行层猜你喜欢PS总结先写个总结，接下来会分别产出各个部分的源码解析，SparkSQL主要分为以下五个执行部分。

darkchink·2025-04-17 20:41

Spark-Core编程

Spark-Core编程RDD转换算子Value类型：(1)map将处理的数据逐条进行映射转换，这里的转换可以是类型的转换，也可以是值的转换。

吹35度风·2025-04-17 19:39

Spark-SQL2

Spark-SQL一.Spark-SQL核心编程（二）利用IDEA开发Spark-SQL创建子模块Spark-SQL，并添加依赖org.apache.sparkspark-sql_2.123.0.0创建

戈云 1106·2025-04-17 14:37

Spark-SQL3

Spark-SQL一.Spark-SQL核心编程（四）1.数据加载与保存：1）通用方式：SparkSQL提供了通用的保存数据和数据加载的方式。

戈云 1106·2025-04-17 14:36

Spark-SQL核心编程实战：自定义函数与聚合函数详解

在大数据处理领域，Spark-SQL是极为重要的工具。今天和大家分享一下在Spark-SQL开发中的自定义函数和聚合函数的使用，这些都是基于实际项目开发经验的总结。

不要天天开心·2025-04-17 13:30

spark spark-sql提交方式及参数优化建议

Spark作为分布式的SQL查询引擎，官方测试结果比Hivesql快100倍。

爱折腾的小土豆·2025-04-17 12:25

Ubuntu16.04 Spark2.7.7伪分布式从零开始部署

因工作上的需要，尝试在一台Ubuntu16.04部署Spark，因为之前没有了解过Spark，故踩坑时部署了Local版和Standalone单机伪分布式版，现记录如下。

BaideS·2025-04-17 12:54

Spark-Sql编程（三）

一、数据加载与保存通用方式：使用spark.read.load和df.write.save，通过format指定数据格式（如csv、jdbc、json等），option设置特定参数（jdbc格式下的url

煤烦恼·2025-04-17 12:24

【无标题】spark SQL核心编程

MySQLSparkSQL可以通过JDBC从关系型数据库中读取数据的方式创建DataFrame，通过对DataFrame一系列的计算后，还可以将数据再写回关系型数据库中。

zzh-·2025-04-17 12:53

org.apache.spark.SparkException: Kryo serialization failed: Buffer overflow...

Spark异常：Kryoserializationfailed:Bufferoverflow.1、问题描述SparkSQL任务报错如下：org.apache.spark.SparkException:Kryoserializationfailed

对许·2025-04-16 15:33

阿里云 EMR Serverless Spark 在微财机器学习场景下的应用

作者：微财技术研发经理宋鑫微财介绍微财是一家创新型的金融科技企业，凭借多年积累的金融科技能力和数据处理优势，为客户提供消费分期等金融信息服务，致力于成为值得信赖的金融机构合作伙伴。旗下拥有好分期等品牌，为高成长用户提供信用分期借款过程中的综合性信息、技术以及辅助服务。业务挑战数据资源是金融科技企业的核心价值，微财依托大数据评估用户借款过程中的风险，随着微财业务的快速发展，积累了大量用户数据，大数据

Apache Spark中国社区·2025-04-16 15:02

spark-sql cli 参数及使用

原文地址https://www.cnblogs.com/mobiwangyue/p/9049928.html很难找到spark-sqlcli使用的教程，总结下一、启动方法/data/spark-1.4.0

千淘万漉·2025-04-16 15:01

spark-sql日志屏蔽

aliasmyspark-sql='spark-sql--driver-java-options"-Dlog4j.configuration=file:/spark/conf/log4j-warn.properties

jinruoqq·2025-04-16 14:00

使用Spark on YARN模式执行Spark Shell和Spark SQL编程

使用SparkonYARN模式执行SparkShell和SparkSQL编程Spark是一个强大的分布式计算框架，它提供了许多API和工具，可以用于大规模数据处理和分析。

海上的风浪·2025-04-16 14:29

spark core

RDD转换算子RDD根据数据处理方式的不同将算子整体上分为Value类型、双Value类型和Key-Value类型。Value类型：1、map函数签名defmap[U:ClassTag](f:T=>U):RDD[U]函数说明将处理的数据逐条进行映射转换，这里的转换可以是类型的转换，也可以是值的转换。2、mapPartitions函数签名defmapPartitions[U:ClassTag](f:

什么芮.·2025-04-16 14:29

spark- core

1、sortByKey函数签名defsortByKey(ascending:Boolean=true,numPartitions:Int=self.partitions.length):RDD[(K,V)]函数说明在一个(K,V)的RDD上调用，K必须实现Ordered接口(特质)，返回一个按照key进行排序2、join函数签名defjoin[W](other:RDD[(K,W)]):RDD[(K

什么芮.·2025-04-16 14:29

Spark-sql编程

创建子模块并添加依赖‌在IDEA中创建一个名为Spark-SQL的子模块。

神奇的黄豆·2025-04-16 14:28

spark-sql

实验内容：利用IDEA开发Spark-SQL。

什么芮.·2025-04-16 14:58

Spark中Maven的用法

在IDEA中去创建项目，并编写java代码来操作集群中的文件1.IDEA中创建Maven项目步骤一：点击File->New->Project，在弹出的窗口左侧选择Maven，点击Next：步骤二：填写项目的GroupId、ArtifactId、Version等信息（这些对应pom.xml中的关键配置），点击Next。步骤三：确认项目配置信息无误后，点击Finish，IDEA会自动生成Maven项目

Betty_蹄蹄boo·2025-04-16 11:40

Trino深度解析

与同类引擎（如Spark、Hive）相比，Trino具备以下显著优势：存算分离架构：通过连接器（Connector）抽象数据源，支持Hive、M

Debug_TheWorld·2025-04-16 08:15

KafkaSpark Streaming整合原理与代码实例讲解

Kafka-SparkStreaming整合原理与代码实例讲解1.背景介绍1.1实时数据处理的重要性在当今大数据时代,海量数据以前所未有的速度持续产生。

AGI大模型与大数据研究院·2025-04-16 08:14

spark-submit命令总览

pyspark可以使用pyspark命令在服务器黑窗口中进行spark代码的编写pyspark--masterlocal[2]本地模式pyspark--masterspark://bigdata01:7077standalone

zmd-zk·2025-04-16 01:59

spark-submit 提交spark程序示例

spark-submit\--masteryarn\--deploy-modeclient\--confspark.driver.maxResultSize=8g--confspark.driver.memory

probtions·2025-04-16 01:29

spark-submit 任务提交过程分析

文章目录一、spark-submit脚本分析二、Main类的作用三、SparkSubmit类提交任务的过程如何和ResourceManger建立连接spark任务配置的优先级client模式的真正运行方式一

疯狂哈丘·2025-04-16 01:28

Spark-shell和Spark-submit

Spark支持多种集群管理器（ClusterManager）,取决于传递给SparkContext的MASTER环境变量的值：local、spark、yarn，区别如下：一、Spark-shell引入：

飞Link·2025-04-16 00:56

spark-sql提交参数详解整理

#1.spark任务提交当SPARK-SQL开发完成后需要将其提交到大数据平台上去跑，提交的时候需要对要使用的资源参数进行设置，目的：a.让任务在正确的环境下运行b.根据任务自身情况，设置合理参数，提高运行效率

海阔天空_81·2025-04-15 23:15

spark python编程林子雨_林子雨编著《Spark编程基础(Python版)》教材第5章的命令行和代码...

林子雨、郑海山、赖永炫编著《Spark编程基础(Python版)》(教材官网)教材中的代码，在纸质教材中的印刷效果，可能会影响读者对代码的理解，为了方便读者正确理解代码或者直接拷贝代码用于上机实验，这里提供全书配套的所有代码

weixin_39790168·2025-04-15 09:51

spark编程基础python版实验报告_Spark课后实验报告

一、兼容问题Spark运行在Java8+，Python2.7+/3.4+和R3.1+上。对于ScalaAPI，Spark2.4.2使用Scala2.12。

weixin_39714191·2025-04-15 09:50

spark编程课后总结

RDD转换算子分类依据：RDD转换算子根据数据处理方式不同分为Value类型、双Value类型和Key-Value类型。这种分类有助于开发者针对不同的数据处理需求，快速选择合适的算子，提高开发效率。Value类型算子map算子：函数签名为defmap[U:ClassTag](f:T=>U):RDD[U]，它会对RDD中的每个元素逐一进行函数f的转换操作。如示例中，先将RDD[Int]中的每个元素乘

一元钱面包·2025-04-15 08:16

大数据Hadoop+HBase+Spark+Hive集群搭建教程：一站式掌握大数据技术

大数据Hadoop+HBase+Spark+Hive集群搭建教程：一站式掌握大数据技术【下载地址】大数据HadoopHBaseSparkHive集群搭建教程七月在线1本资源文件提供了关于如何搭建大数据集群的详细教程

贾诺翼·2025-04-15 06:01

SparkCore

一、SparkCorespark架构二、RDD1、RDD概念1.1、RDD是spark的核心概念，它是一个容错、可以并行执行的分布式数据集1.2、RDD包含5个特征：一个分区的列表对于每一个分区都有一个计算函数存在对其他

山大古巨基·2025-04-15 04:17

职业院校大数据开发与运维实训室建设可行性分析

Hadoop和Spark作为大数据处理的核心技术，已经广泛应用于金融、电信、互联网等多个领域。Hadoop凭借其高可靠性和低成本，成为大规模数据存储和处理的首选框架。Spark则以其

武汉唯众智创·2025-04-14 19:45

通过分治策略解决内存限制问题完成大型Hive表数据的去重的PySpark代码实现

在Hive集群中，有一张历史交易记录表，要从这张历史交易记录表中抽取一年的数据按某些字段进行Spark去重，由于这一年的数据超过整个集群的内存容量，需要分解成每个月的数据，分别用Spark去重，并保存为

weixin_30777913·2025-04-14 12:58

Azure databaricks spark 流式处理写入sql pool 参考地址

1、azure的文档并不好找，案例也不好用，我不知道别人是什么感受，我是这种感觉2、最合适的开发方式是在azuredatabaricks的netbook上面写spark代码,不要用idea3、欢迎一起吐槽

lbl251·2025-04-14 12:57

Spark Core(2)

以下是今天学习的知识点以及代码测试：SparkCoreSpark-Core编程（四）23)sortByKey➢函数签名defsortByKey(ascending:Boolean=true,numPartitions

[太阳]88·2025-04-14 05:40

推荐频道

********Spark