SparkSQL) 第10页

Spark SQL

SparkSQLSparkSQL的概述Hive的诞生，主要是因为开发MapReduce程序对Java要求比较高，为了让他们能够操作HDFS上的数据，推出了Hive。

奋斗的蛐蛐·2023-09-02 00:07

大数据平台的SQL查询引擎有哪些？

这就包括了Hive、Impala、Presto、SparkSQL等；在分布式数据库HBase也具有Impala、phoenix这样的SQL外观，可以通过SQL与HBase交互；另外分布式关系模型数据库(

守护石技术研究·2023-09-01 13:19

开源OLAP引擎测评报告(SparkSql、Presto、Impala、HAWQ、ClickHouse、GreenPlum)

开源OLAP引擎测评报告(SparkSql、Presto、Impala、HAWQ、ClickHouse、GreenPlum)易观CTO郭炜序现在大数据组件非常多，众说不一，在每个企业不同的使用场景里究竟应该使用哪个引擎呢

zxfBdd·2023-09-01 08:10

Spark SQL概述，DataFrames,创建DataFrames的案例，DataFrame常用操作（DSL风格语法），sql风格语法

一、SparkSQL1．SparkSQL概述1.1．什么是SparkSQLSparkSQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用

涂作权的博客·2023-09-01 06:03

13.108.Spark 优化、Spark优化与hive的区别、SparkSQL启动参数调优、四川任务优化实践：执行效率提升50%以上

13.108.Spark优化1.1.25.Spark优化与hive的区别1.1.26.SparkSQL启动参数调优1.1.27.四川任务优化实践：执行效率提升50%以上13.108.Spark优化：1.1.25

涂作权的博客·2023-09-01 06:24

大数据学习：impala基础

官方测试性能比hive快10到100倍，其sql查询比sparkSQL还要更加快速，号称是当前大数据领域最快的查询sq工具。

zui初的梦想·2023-09-01 04:05

Spark SQL 从入门到精通 - Spark SQL 行转列、列转行案例

SparkSQL行转列、列转行案例需求分析：⾏列之间的互相转换是ETL中的常见需求，在SparkSQL中，⾏转列有内建的PIVOT函数可⽤，没什么特别之处。⽽列转⾏要稍微⿇烦点。

Splicing·2023-08-31 06:37

创建DataFrame的几种方式（以及解决乱码的问题）

SparkSQL的数据源可以是JSON类型的字符串，JDBC,Parquent,Hive，HDFS等。

Splicing·2023-08-31 06:06

Spark SQL join的三种实现方式

对于Spark来说有3种Join的实现，每种Join对应的不同的应用场景(SparkSQL自动决策使用哪种实现范式)：1.BroadcastHashJoin：适合一张很小的表和一张大表进行Join；

软件开发随心记·2023-08-28 08:37

Spark 7：Spark SQL 函数定义

SparkSQL定义UDF函数方式1语法：udf对象=sparksession.udf.register(参数1，参数2，参数3）参数1：UDF名称，可用于SQL风格参数2：被注册成UDF的方法名参数3

ZhaoXiangmoStu·2023-08-27 09:27

sparksql报错：expression ‘a.id‘ is neither present in the group by,nor is it an aggregate function.

今天在运行带有groupby的spark时候发生了报错，运行语句如下：selecta.idasmodel_id,a.modelasmodel_name,count(a.model)astotal,sum(b.token)astokenfromchatnio_qaasaleftjoinmodel_countasbona.model=b.modelgroupby(a.model)这里发生了一个报错：e

唐僧爱吃唐僧肉·2023-08-26 18:28

大数据之Spark（5）- SparkSql

1SparkSQL概述1.1什么是SparkSQLSparkSQL是Spark用来处理结构化数据的一个模块，它提供了2个编程抽象：DataFrame和DataSet，并且作为分布式SQL查询引擎的作用。

jackyan163·2023-08-26 14:07

PyCharm整合Hive并通过SparkSQL执行引擎去操作Hive表

使用SparkSQL整合Hive其实就是让SparkSQL

小柒心得·2023-08-26 09:18

spark grpc 在master运行报错 exitcode13 User did not initialize spark context

程序使用sparksql以及protobufgrpc，执行报错ApplicationMaster:Finalappstatus:FAILED,exitCode:13,(reason:Uncaughtexception

peipei巴比·2023-08-26 09:14

spark sql 数据倾斜--join 同时开窗去重的问题优化

sparksql数据倾斜–join同时开窗去重的问题优化文章目录sparksql数据倾斜--join同时开窗去重的问题优化结论1.原方案：join步骤时，同时开窗去重数据倾斜2.优化2.1参数调优2.2SQL

千山暮雪CN·2023-08-25 12:59

Spark学习-事件日志EventLog

系统结构Spark开启ThriftServer进行SparkSQL查询，Spark的Jobhistory服务对应用的事件进行记录和保存，利用F

迷途思凡·2023-08-24 21:08

腾讯大佬三年大制作，大数据Hadoop和Spark的大集合

这两个主流技术进行讲解，主要内容包括Hadoop环境配置、分布式文件系统HDFS、分布式计算框架MapReduce、资源调度框架YARN与Hadoop新特性、大数据数据仓库Hive、离线处理辅助系统、SparkCore、SparkSQL

金光闪闪耶·2023-08-23 15:47

Hive Cli / HiveServer2 中使用 dayofweek 函数引发的BUG！

文章目录前言dayofweek函数官方说明BUG重现SparkSQL中的使用总结前言使用的集群环境为：hive3.1.2spark3.0.2dayofweek函数官方说明dayofweek(date)-

月亮给我抄代码·2023-08-23 05:10

目录-后期更新打算

目录点击不了的是我已经遇到了解决了，但是还没时间截图做文章呢（不愧是我），需要问题也可以直接在评论留下问题sqloraclesql转换成hivesqlsql函数用法sparksql报错问题Java知识点

00单00·2023-08-22 07:26

【笔记】Spark3 AQE(Adaptive Query Execution)

提效7倍，ApacheSpark自适应查询优化在网易的深度实践及改进PerformanceTuning配置SparkSQL开启AdaptiveExecution特性HowToUseSparkAdaptiveQueryExecution

TaiKuLaHa·2023-08-22 05:14

2021-10-14

第三章AglanceatSparkSQL逻辑计划阶段目标是把SQL转成完整的逻辑算子树LogicalPlan，其经历，构建未解析的逻辑算子树，绑定结点信息的逻辑算子树和优化后的逻辑算子树，逻辑算子树完整生成后

葉朝鈞·2023-08-20 17:22

Spark_day06

.目前的结构4.这是mode和我们的文件形式5.Parquet文件格式image.png5.读写分区为什么写成一个文件夹rdd支持分区,直接把每一个RDD分区,写成一个文件.hive分区写东西读取数据SparkSQL

c062197eecd2·2023-08-20 10:58

第一天：spark和Hadoop的比较和介绍

sparkVShadoop计算过程spark整体架构spark的特点sparkSQL和HivesparkstreamingVSstormspark的个人使用体会

GhostintheCode·2023-08-20 03:00

使用Scala基于词法单元的解析器定制EBNF范式文法解析

前言近期在做Oracle迁移到Spark平台的项目上遇到了一些平台公式翻译为SparkSQL(onHive)的需求，而Spark采用亲妈语言Scala进行开发。

·2023-08-19 21:55

pyspark中自定义函数的用法

pyspark中自定义函数比python中多了一部注册，整体流程是“定义-注册-调用”，其中注册和调用两步在sparksql和DSL中又有所区别，具体如下：frompyspark.sqlimportSparkSession

斯特兰奇·2023-08-19 19:18

SparkSQL源码分析系列02-编译环境准备

本文主要描述一些阅读Spark源码环境的准备工作，会涉及到源码编译，插件安装等。1.克隆代码。打开IDEA，在Git下的Clone中，输入https://github.com/apache/spark，克隆代码到本地，CheckOut到目标版本Spark3.42.安装maven。版本按照pom文件指定的版本安装，在IDEA中配置安装的路径。3.为IDEA安装ANTLR和Scala插件4.测试ANT

Empty-cup·2023-08-19 18:08

sparkSql的炸裂函数 explode

炸裂：将一行数据，炸裂为多行，也就是“列转行”例如：hive的订单表order_table有一个字段item_list,是一个列表结构的array>item_list中有多个商品信息，每个商品信息是一个结构体，那么如何将一个order_id对应的商品列表，转化为多行？即炸裂为多行使用explode()函数就可以实现valorder_item_df=spark.sql(s"selectorder_i

阿君聊风控·2023-08-19 10:38

Unrecognized Hadoop major version number: 3.0.0-cdh6.3.2

一.环境描述spark提交job到yarn报错，业务代码比较简单，通过接口调用获取数据，将数据通过sparksql将数据写入hive中，尝试各种替换hadoop版本，最后拿下1.hadoop环境2.项目

远方有海，小样不乖·2023-08-18 21:24

Spark SQL | DataFrame的各种玩法

啦～开始跟着梁云大佬打卡SparkSQL。

#苦行僧·2023-08-18 00:22

使用SparkSQL操作Elasticsearch - Spark入门教程

Hadoop允许Elasticsearch在Spark中以两种方式使用：通过自2.1以来的专用支持，或者通过自2.0以来的Map/Reduce桥接器。从5.0版本开始，elasticsearch-hadoop就支持Spark2.0。为Spark添加ES支持1、引入Mavenorg.apache.sparkspark-sql_${scala.version}${spark.version}testo

DreamsonMa·2023-08-17 10:56

Hue 之 SparkSql interpreters的配置及使用

1、环境说明：HDP2.4V3sandboxhue4.0.02、hue4.0.0编译及安装地址：https://github.com/cloudera/hue/releases/tag/release-4.1.0（也许是发版这弄错了吧，连接是4.1.0，内容版本是4.0.0）2.1修改%HUE_CODE_HOME%/hue/maven/pom.xml版本，如下：1232.7.12.7.11.6.0

zxfBdd·2023-08-16 19:15

【Hudi数据湖应用】Hudi-Spark-Bundle NoSuchMethodError(SessionHandler.setHttpOnly)异常修复

最近尝试在sparksql上对hudi表进行insert数据，会报java.lang.NoSuchMethodError:org.apache.hudi.org.apache.jetty.server.session.SessionHandler.setHttpOnly

大数据点灯人·2023-08-16 04:44

芒果 TV 基于 Flink 的实时数仓建设实践

一、芒果TV实时数仓建设历程芒果TV实时数仓的建设共分为三个阶段，14-19年为第一阶段，技术选型采用Storm/FlinkJava+SparkSQL

·2023-08-15 18:00

sparksql两种解决方式

objectTest02{defmain(args:Array[String]):Unit={valspark:SparkSession=SparkSession.builder().appName("aa").master("local[2]").getOrCreate()importspark.implicits._importorg.apache.spark.sql.functions._v

lcatake·2023-08-15 12:41

数据湖技术之Hudi 集成 Spark

数据湖技术之Hudi集成Spark数据湖框架Hudi，从诞生之初支持Spark进行操作，后期支持Flink，接下来先看看与Spark整合使用，并且在0.9.0版本中，提供SparkSQL支持，编写DDL

潘小磊·2023-08-13 02:51

SparkSQL操作Hudi指南

文章目录一、SparkSQL连接Hudi1.1Hive配置1.2SparkSQL连接Hudi二、创建表2.1常规的建表2.2CTAS三、插入数据四、查询数据五、更新数据5.1普通5.2MergeInto

王知无(import_bigdata)·2023-08-13 02:21

SparkSQL－从DataFrame说起

转自：http://hbasefly.com/2017/02/16/sparksql-dataframe/写在文章之前本着更好地理解大数据生态圈的本意以及工作的需要，前段时间熟悉了SQL查询引擎SparkSQL

严国华·2023-08-12 18:52

第三篇|Spark SQL编程指南

本文将讨论Spark的另外一个重要模块--SparkSQL，SparkSQL是在Shark的基础之上构建的，于2014年5月发布。

大数据技术与数仓·2023-08-12 13:47

Spark - Spark SQL中RBO, CBO与AQE简单介绍

SparkSQL核心是Catalyst,Catalyst执行流程主要分4个阶段,语句解析,逻辑计划与优化,物理计划与优化,代码生成前三个阶段都由Catalyst负责,其中,逻辑计划的优化采用RBO思路,

不住在隔壁的老王·2023-08-12 08:17

Spark基础解析

SparkSQL：是Spark用来操作结构化数据的程序包。通过SparkSQL，我们可以使用SQL或者ApacheHive版本的SQL方言(HQL)

TousandeG·2023-08-12 00:20

PySparkSQL脚本模板

PySpark模板分为shell脚本和python脚本两部分，通过shell脚本提交spark任务。shell脚本：test_submit.sh#!/bin/shsource/etc/profilesource/usr/local/ods_shell/shell_config.propertieslocate/bin/hiveif[$#-eq2];thenecho"参数个数为2，使用传入参数作为处

一只特立独行的猪1991·2023-08-11 22:22

解决python3和jupyter-notebook中的报错No module named pyspark和No module named ‘py4j’

pyspark可以正常启动，执行下列语句可正常显示frompyspark.sqlimportSparkSessionspark=SparkSession.builder.appName("PythonSparkSQLHiveintegrationexample

Nancy_张·2023-08-10 20:16

芒果 TV 基于 Flink 的实时数仓建设实践

一、芒果TV实时数仓建设历程芒果TV实时数仓的建设共分为三个阶段，14-19年为第一阶段，技术选型采用Storm/FlinkJava+SparkSQL

Apache Flink·2023-08-10 07:26

手把手教你在IDEA搭建 SparkSQL的开发环境

目录1.spark版本和scala版本如何选择1.1查看官网1.2如何获取pom依赖信息2.创建Maven项目、添加Scala插件、Scala的sdk3.配置pom.xml添加相关jar依赖3.1pom.xml示例(spark版本:3.3.2scala版本:2.12)4.运行官网测试案例5.设置日志级别5.1提交任务时，设置任务级别5.2修改环境默认日志级别6.FAQ6.1因Spark版本和Sca

广阔天地大有可为·2023-08-10 05:00

Spark使用parquet文件存储格式能带来哪些好处

1)如果说HDFS是大数据时代分布式文件系统首选标准，那么parquet则是整个大数据时代文件存储格式实时首选标准2)速度更快：从使用sparksql操作普通文件CSV和parquet文件速度对比上看，

小癫僧·2023-08-09 16:17

3、JSON数据的处理

3、JSON数据的处理3.1介绍JSON数据SparkSQLcanautomaticallyinfertheschemaofaJSONdatasetandloaditasaDataFrameSparkSQL

Wzideng·2023-08-09 15:58

Spark SQL & Elasticsearch

SparkSQL&Elasticsearch一、读取二、转换三、写入四、适配分析器方案五、示例一、读取使用spark-sql读取es数据如下代码所示：SparkSessionsession=SparkSession.builder

柴狗狗·2023-08-09 12:55

Flink1.10集成Hive快速入门

之后出现的SQL引擎，如SparkSQL、Impala等，都在一定程度上提供了与Hive集成的功能，从而方便用户使用现有的数据仓库、进行作业迁移等。

大数据技术与数仓·2023-08-09 10:12

Spark DataFrame中insertInto()与saveAsTable()区别及动态分区插入hive表使用设置

@Author:Spinach|GHB@Link:http://blog.csdn.net/bocai8058文章目录前言insertInto()saveAsTable()调用sparksql动态分区参数设置及代码实现前言在

小学僧来啦·2023-08-08 13:22

1、Spark SQL 概述

1、SparkSQL概述SparkSQL概念SparkSQLisApacheSpark’smoduleforworkingwithstructureddata.它是spark中用于处理结构化数据的一个模块

Wzideng·2023-08-07 13:13

推荐频道

SparkSQL)

Spark SQL

大数据平台的SQL查询引擎有哪些？

开源OLAP引擎测评报告(SparkSql、Presto、Impala、HAWQ、ClickHouse、GreenPlum)

Spark SQL概述，DataFrames,创建DataFrames的案例，DataFrame常用操作（DSL风格语法），sql风格语法

13.108.Spark 优化、Spark优化与hive的区别、SparkSQL启动参数调优、四川任务优化实践：执行效率提升50%以上

大数据学习：impala基础

Spark SQL 从入门到精通 - Spark SQL 行转列、列转行案例

创建DataFrame的几种方式（以及解决乱码的问题）

Spark SQL join的三种实现方式

Spark 7：Spark SQL 函数定义

sparksql报错：expression ‘a.id‘ is neither present in the group by,nor is it an aggregate function.

大数据之Spark（5）- SparkSql

PyCharm整合Hive并通过SparkSQL执行引擎去操作Hive表

spark grpc 在master运行报错 exitcode13 User did not initialize spark context

spark sql 数据倾斜--join 同时开窗去重的问题优化

Spark学习-事件日志EventLog

腾讯大佬三年大制作，大数据Hadoop和Spark的大集合

Hive Cli / HiveServer2 中使用 dayofweek 函数引发的BUG！

目录-后期更新打算

【笔记】Spark3 AQE(Adaptive Query Execution)

2021-10-14

Spark_day06

第一天：spark和Hadoop的比较和介绍

使用Scala基于词法单元的解析器定制EBNF范式文法解析

pyspark中自定义函数的用法

SparkSQL源码分析系列02-编译环境准备

sparkSql的炸裂函数 explode

Unrecognized Hadoop major version number: 3.0.0-cdh6.3.2

Spark SQL | DataFrame的各种玩法

使用SparkSQL操作Elasticsearch - Spark入门教程

Hue 之 SparkSql interpreters的配置及使用

【Hudi数据湖应用】Hudi-Spark-Bundle NoSuchMethodError(SessionHandler.setHttpOnly)异常修复

芒果 TV 基于 Flink 的实时数仓建设实践

sparksql两种解决方式

数据湖技术之Hudi 集成 Spark

SparkSQL操作Hudi指南

SparkSQL－从DataFrame说起

第三篇|Spark SQL编程指南

Spark - Spark SQL中RBO, CBO与AQE简单介绍

Spark基础解析

PySparkSQL脚本模板

解决python3和jupyter-notebook中的报错No module named pyspark和No module named ‘py4j’

芒果 TV 基于 Flink 的实时数仓建设实践

手把手教你 在IDEA搭建 SparkSQL的开发环境

Spark使用parquet文件存储格式能带来哪些好处

3、JSON数据的处理

Spark SQL & Elasticsearch

Flink1.10集成Hive快速入门

Spark DataFrame中insertInto()与saveAsTable()区别及动态分区插入hive表使用设置

1、Spark SQL 概述

手把手教你在IDEA搭建 SparkSQL的开发环境