SparkSQL 第6页

spark性能调优 | 默认并行度

SparkSql默认并行度看官网，默认并行度200https://spark.apache.org/docs/2.4.5/sql-performance-tuning.html#other-configuration-options

Knight_AL·2023-11-19 18:04

企业spark案例 —— 出租车轨迹分析(Python)

第1关：SparkSql数据清洗#-*-coding:UTF-8-*-frompyspark.sqlimportSparkSessionif__name__=='__main__':spark=SparkSession.builder.appName

垫脚摸太阳·2023-11-19 07:35

SparkSQL中的自定义函数-UDF&UDAF

一、UDF（User-Defined-Function）用户自定义函数1、注册UDFudf对象=spark.udf.register(参数1，参数2，参数3)参数1：UDF名称，可用于SQL风格参数2：被注册成UDF的方法名参数3：声明UDF的返回值类型udf对象：返回值对象，是一个UDF对象，可用于DSL风格//获取系统时间valdf=newSimpleDateFormat("yyyy-MM-d

是阿威啊·2023-11-18 21:49

Spark（三）-- SparkSQL（三） -- Dataset和DataFrame

目录4.Dataset的特点4.1Dataset是什么?4.2即使使用Dataset的命令式API,执行计划也依然会被优化4.3Dataset的底层是什么?4.4可以获取Dataset对应的RDD表示5.DataFrame的作用和常见操作5.1DataFrame是什么?5.2通过隐式转换创建DataFrame5.3通过外部集合创建DataFrame5.4在DataFrame上可以使用的常规操作5.

HelloWorld闯天涯·2023-11-18 21:17

SparkSQL 之 DataFrame&DataSet

DataFrame创建DataFrame有三种方式：1.读外部设备的文件，返回DataFrame对象2.从RDD转换成DataFrame对象3.读取Hive中的表，返回DataFrame对象4.调用createDataFrame方法，返回DataFrame对象一、DataFrame的创建1、准备SparkSession环境SparkSession是Spark最新的SQL查询起始点历史版本已弃用pr

是阿威啊·2023-11-18 21:31

Flink原理与实现：详解Flink中的状态管理

硬刚大数据系列文章链接：2021年从零到大数据专家的学习指南(全面升级版)2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇2021年从零到大数据专家面试篇之SparkSQL篇2021

王知无(import_bigdata)·2023-11-18 19:59

Spark 优化 (一) --------- Spark 性能调优

Kryo序列化6.调节本地化等待时长二、算子调优1.mapPartitions2.foreachPartition优化数据库操作3.filter与coalesce的配合使用4.repartition解决SparkSQL

在森林中麋了鹿·2023-11-17 10:34

SparkSQL项目实战

1准备数据我们这次Spark-sql操作所有的数据均来自Hive，首先在Hive中创建表，并导入数据。一共有3张表：1张用户行为表，1张城市表，1张产品表。1）将city_info.txt、product_info.txt、user_visit_action.txt上传到/opt/module/data[atguigu@hadoop102module]$mkdirdata2）将创建对应的三张表hi

shangjg3·2023-11-16 06:47

MySQL、HiveSQL、SparkSQL的区别

1、用途角度1）MySQL是一种关系型数据库，主要用于存储和管理结构化数据2）HiveSQL是用于Hadoop平台上的一种SQL-like语言，主要用于对大数据进行查询和分析3）SparkSQL是一种基于

BaoZi969·2023-11-16 03:13

Spark SQL中Dataframe join操作含null值的列

SparkSQL中Dataframejoin操作含null值的列当在SparkSQL中对两个Dataframe使用join时，当作为连接的字段的值含有null值。

青春程序不迷路·2023-11-16 00:48

python中的join函数连接dataframe_Spark DataFrame中的join使用说明

sparksql中join的类型SparkDataFrame中join与SQL很像，都有innerjoin,leftjoin,rightjoin,fulljoin;类型说明innerjoin内连接leftjoin

冯慎行·2023-11-16 00:17

Spark DataFrame列的合并与拆分

版本说明：Spark-2.3.0使用SparkSQL在对数据进行处理的过程中，可能会遇到对一列数据拆分为多列，或者把多列数据合并为一列。

L.ZZ·2023-11-16 00:14

spark创建DataFrame的N种方式

注：本篇介绍基于scala（pyspark选择性参考）一、maven配置基础依赖scala-library（scala基础环境）spark-sql（sparksql执行环境）mysql（要访问mysql

阿民啊·2023-11-15 09:24

Spark SQL编程

1.SparkSQL概述1.1什么是SparkSQLSparkSQL是用于结构化数据处理的Spark模块。

shangjg3·2023-11-15 05:09

SparkSQL-数据的加载和保存(包含数据库)

一、文件读写1、read适配的文件类型spark.read.csvformatjdbcjsonloadoptionoptionsorcparquetschematabletexttextFile读文件时直接在文件上进行查询:文件格式.`文件路径`spark.sql("select*fromjson.`/opt/module/data/user.json`").show2、write写df.writ

是阿威啊·2023-11-15 05:38

sparkSql数据的加载与保存

sparkSQL加载数据1.read加载数据scala>spark.read.csvformatjdbcjsonloadoptionoptionsorcparquetschematabletexttextFile

大梁、·2023-11-15 05:08

SparkSQL加载文件与保存文件

sparkSQL加载文件与保存文件SparkSQL加载文件步骤：先获取sparkSession对象valspark=SparkSession.builder().appName("testload").

扎马尾的女孩·2023-11-15 05:37

SparkSQL 数据的加载和保存

一、通用加载和保存方式 SparkSQL提供了通用的保存数据和数据加载的方式。

落花雨时·2023-11-15 05:07

SparkSQL数据源

第1关：SparkSQL加载和保存代码：packagecom.educoder.bigData.sparksql2;importorg.apache.spark.sql.AnalysisException

小kamil·2023-11-15 05:06

SparkSQL的文件加载和保存

一、文件加载1.spark.read.load是加载数据的通用方法，默认加载和保存的是parquet格式文件read可读格式2.spark.read.format("…")[.option("…")].load("…")format("…")：指定加载的数据类型，包括"csv"、"jdbc"、"json"、"orc"、"parquet"和"textFile"。load("…")：在"csv"、"j

爱吃喵的虎·2023-11-15 05:35

SparkSQL数据的加载与保存

1读取和保存文件SparkSQL读取和保存的文件一般为三种，JSON文件、CSV文件和列式存储的文件，同时可以通过添加参数，来识别不同的存储和压缩格式。

shangjg3·2023-11-15 05:30

20210127_spark学习笔记

spark最基础的最核心的功能SparkSQL是SparkCore之上的一个组件，它引入了一个称为SchemaRDD的新数据抽

yehaver·2023-11-15 03:42

大数据应用之 --- SparkSQL和 Hive的集成

大数据应用之—SparkSQL和Hive的集成创建软链接ln-s/opt/hive-3.1.3/conf/hive-site.xml/opt/spark-3.2.1/conf/hive-site.xml

fa_lsyk·2023-11-15 03:10

sparkSQL读取Excel表格

转自：https://www.cnblogs.com/shenyuchong/p/10291604.html编码初始化SparkSessionstatic{System.setProperty("hadoop.home.dir",HADOOP_HOME);spark=SparkSession.builder().appName("test").master("local[*]").config("

风是外衣衣衣·2023-11-14 18:52

spark-excel依赖的问题

最近需要使用SparkSQL清洗Excel的数据，在网上找到了spark-excelcom.crealyticsspark-excel_2.120.13.7这个依赖包洗一些简单的Excel数据是没有问题的

乌啼·2023-11-14 18:52

大数据之Spark调优：Explain 查看执行计划

目录Explain查看执行计划准备测试用表和数据基本语法执行计划处理流程案例实操代码Explain查看执行计划Spark3.0大版本发布，SparkSQL的优化占比将近50%。

浊酒南街·2023-11-14 06:17

Spark SQL 每年的1月1日算当年的第一个自然周, 给出日期，计算是本年的第几周

一、问题按每年的1月1日算当年的第一个自然周(遇到跨年也不管，如果1月1日是周三，那么到1月5号（周日）算是本年的第一个自然周,如果按周一是一周的第一天)计算是本年的第几周，那么sparksql如何写?

_lizhiqiang·2023-11-14 06:02

Spark3.0中的AOE、DPP和Hint增强

AQE是SparkSQL的一种动态优化机制，在运行时，每当ShuffleMap阶段执行完毕，AQE都会结合这个阶段的统计信息，基于既定的规则动态地调整、修正尚未执行的逻辑计划和物理计划，来完成对原始查询语句的运行时优化

shangjg3·2023-11-14 06:32

SparkSQL之Analyzed LogicalPlan生成过程

经过AstBuilder的处理，得到了UnresolvedLogicalPlan。该逻辑算子树中未被解析的有UnresolvedRelation和UnresolvedAttribute两种对象。Analyzer所起到的主要作用就是将这两种节点或表达式解析成有类型的（Typed）对象。在此过程中，需要用到Catalog的相关信息。因为继承自RuleExecutor类，所以Analyzer执行

RainTicking·2023-11-14 01:48

大数据SparkSql创建临时表并查询数据

importorg.apache.spark.sql.{DataFrame,SparkSession}importorg.apache.spark.sql.types.{LongType,StringType,StructType}/***AuthorVincer*Date2019/09/2610:10*LanguageScala*/objectStreamingDS{defmain(args:A

Vincer_DB·2023-11-13 16:04

Dataset 的一些 Java api 操作

文章目录一、使用JavaAPI和JavaRDD在SparkSQL中向数据帧添加新列二、foreachPartition遍历Dataset三、Dataset自定义Partitioner四、Dataset重分区并且获取分区数五

小强签名设计·2023-11-13 12:29

spark sql读取hive数据直接写入doris，离线批量导入

一，sparksql读取hive表这里通过catalog查询表的字段信息，然后查询出来的字段colStr要给下面的doris使用。注意：我这里是直接拿取的hive表所有的字段。

黄瓜炖啤酒鸭·2023-11-13 12:36

进阶SQL——数据表中多列按照指定格式拼接，并将多行内容合并为map拼接

示例：str_to_map(concat_ws(',',collect_set(concat_ws(':',modelname,score))))asscore_map,这条语句是一个SparkSQL的语句

JingjingyiyiGuo·2023-11-12 22:25

软件开发学习资料大全

进入大数据SparkSQL的世界链接：https://pan.baidu.com/s/1_AINgCN8KaQEbnJRkWnKdw提取码：7j85Java深入微服务原理改造房产销售平台链接：https

时光如水_岁月如哥·2023-11-12 17:09

SparkSQL之Catelog体系

在SparkSQL系统中，Catalog主要用于各种函数资源信息和元数据信息（数据库、数据表、数据视图、数据分区与函数等）的统一管理。SparkSQL的Catalog体系涉及多个方面，不同

RainTicking·2023-11-12 12:07

SparkSQL之Rule体系

在UnresolvedLogicalPlan逻辑算子树的操作（如绑定、解析、优化等）中，主要方法都是基于规则（Rule）的，通过Scala语言模式匹配机制（Pattern-match）进行树结构的转换或节点改写。Rule是一个抽象类，子类需要复写apply(plan:TreeType)方法来制定特定的处理逻辑，基本定义如下。abstractclassRule[TreeTypevalbatchSta

RainTicking·2023-11-12 12:05

SparkSQL语法优化

SparkSQL在整个执行计划处理的过程中，使用了Catalyst优化器。

shangjg3·2023-11-12 05:22

Spark的执行计划

Spark3.0大版本发布，SparkSQL的优化占比将近50%。

shangjg3·2023-11-12 05:52

基于Docker快速安装Spark及基础使用

编排工具docker-compose安装使用官网指导方式安装（不推荐）使用国内镜像源安装(推荐)安装docker的spark镜像结果通过SparkShell进行交互分析基础操作新建RDDRDD的更多操作缓存SparkSQL

小小马里奥ぅ·2023-11-11 14:36

未整理的知识链接

【scala】下划线用法总结【scala】下划线用法总结_scala下划线-CSDN博客SparkSqlRow的解析SparkSqlRow的解析-简书sparkdataframeforeachsparkdataframeforeach_mob64ca12f0cf8f

刘文钊1·2023-11-11 08:46

使用spark进行递归的可行方案

展开方法有以下步骤：1.使用sparksql中sql直接递归展开：优点：可行，且效率很快缺点：一个sql炸到底层，无法添加在炸

刘文钊1·2023-11-11 08:12

第三阶段第一章——PySpark实战

它提供了一种高性能、通用、易用的计算引擎，支持数据并行处理、内存计算、迭代计算等多种计算模式，并提供了丰富的API，比如SparkSQL、SparkStreaming、Mlib和

WenJGo·2023-11-10 00:31

spark读取数据并打印_Spark读取和保存数据

读写Parquet(DataFrame)SparkSQL可以支持Parquet、JSON、Hive等数据源，并且可以通过JDBC连接外部数据源。

凌子卿·2023-11-09 14:57

SparkCore和SparkSql读取与保存hdfs文件的方法

第一种SparkCorevalconf=newSparkConf().setAppName(“File”).setMaster(“spark://IP地址:7077”)//这里你可以写local，我这样写是可以看做是在用spark-on-yarnvalsc=newSparkContext(conf);valdata=sc.textFile(“hdfs://IP地址:9000/文件路径”)//读取，

尘世壹俗人·2023-11-09 14:24

spark读取和保存本机文件

保存sparksql到本地要将SparkSQL中的数据导出到本地，可以使用DataFrame的`write`方码示例：1.导出为CSV文件：df.write.format("csv").option("

刘文钊1·2023-11-09 14:52

8.spark自适应查询-AQE之自适应调整Shuffle分区数量

目录概述主要功能自适应调整Shuffle分区数量原理默认环境配置修改配置结束概述自适应查询执行（AQE）是SparkSQL中的一种优化技术，它利用运行时统计信息来选择最高效的查询执行计划，自ApacheSpark3.2.0

流月up·2023-11-09 10:25

SparkSQL - 常见问题

1、广播超时参考资料：https://www.ai2news.com/blog/3041168/报错信息：Causedby:org.apache.spark.SparkException:Couldnotexecutebroadcastin300secs.Youcanincreasethetimeoutforbroadcastsviaspark.sql.broadcastTimeoutordisa

m0_46218511·2023-11-09 04:18

sparksql明明插入了但是表里数据是null

现象将数据插入表的时候，表里的数据是null代码原因建表语句的时候detail字段的类型写成了bigint，而要插入的数据类型是string，所以把建表语句的字段类型改了然后sql文件重跑就解决了

五月天的小迷弟·2023-11-08 20:29

SparkSql

SparkSqlpom.xmlSparkSQL01_Demopom.xml4.0.0org.examplespark_sql1.0-SNAPSHOTorg.apache.sparkspark-core_

program chef·2023-11-08 20:46

大数据之Spark:Spark 基础

在任何规模的数据计算中，Spark在性能和扩展性上都更具优势；在FullStack理想的指引下，Spark中的SparkSQL、S

浊酒南街·2023-11-08 06:40

推荐频道

SparkSQL