E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
SparkSQL)
Spark SQL
SparkSQL
SparkSQL
的概述Hive的诞生,主要是因为开发MapReduce程序对Java要求比较高,为了让他们能够操作HDFS上的数据,推出了Hive。
奋斗的蛐蛐
·
2023-09-02 00:07
大数据平台的SQL查询引擎有哪些?
这就包括了Hive、Impala、Presto、
SparkSQL
等;在分布式数据库HBase也具有Impala、phoenix这样的SQL外观,可以通过SQL与HBase交互;另外分布式关系模型数据库(
守护石技术研究
·
2023-09-01 13:19
开源OLAP引擎测评报告(
SparkSql
、Presto、Impala、HAWQ、ClickHouse、GreenPlum)
开源OLAP引擎测评报告(
SparkSql
、Presto、Impala、HAWQ、ClickHouse、GreenPlum)易观CTO郭炜序现在大数据组件非常多,众说不一,在每个企业不同的使用场景里究竟应该使用哪个引擎呢
zxfBdd
·
2023-09-01 08:10
大数据
Spark SQL概述,DataFrames,创建DataFrames的案例,DataFrame常用操作(DSL风格语法),sql风格语法
一、
SparkSQL
1.
SparkSQL
概述1.1.什么是
SparkSQL
SparkSQL
是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用
涂作权的博客
·
2023-09-01 06:03
#
Spark(大数据分析引擎)
spark
13.108.Spark 优化、Spark优化与hive的区别、
SparkSQL
启动参数调优、四川任务优化实践:执行效率提升50%以上
13.108.Spark优化1.1.25.Spark优化与hive的区别1.1.26.
SparkSQL
启动参数调优1.1.27.四川任务优化实践:执行效率提升50%以上13.108.Spark优化:1.1.25
涂作权的博客
·
2023-09-01 06:24
#
Spark(大数据分析引擎)
大数据
Spark
大数据学习:impala基础
官方测试性能比hive快10到100倍,其sql查询比
sparkSQL
还要更加快速,号称是当前大数据领域最快的查询sq工具。
zui初的梦想
·
2023-09-01 04:05
大数据
大数据
学习
Spark SQL 从入门到精通 - Spark SQL 行转列、列转行案例
SparkSQL
行转列、列转行案例需求分析:⾏列之间的互相转换是ETL中的常见需求,在
SparkSQL
中,⾏转列有内建的PIVOT函数可⽤,没什么特别之处。⽽列转⾏要稍微⿇烦点。
Splicing
·
2023-08-31 06:37
Spark
spark
sql
scala
创建DataFrame的几种方式(以及解决乱码的问题)
SparkSQL
的数据源可以是JSON类型的字符串,JDBC,Parquent,Hive,HDFS等。
Splicing
·
2023-08-31 06:06
Spark
Spark SQL join的三种实现方式
对于Spark来说有3种Join的实现,每种Join对应的不同的应用场景(
SparkSQL
自动决策使用哪种实现范式):1.BroadcastHashJoin:适合一张很小的表和一张大表进行Join;
软件开发随心记
·
2023-08-28 08:37
spark
sql
大数据
Spark 7:Spark SQL 函数定义
SparkSQL
定义UDF函数方式1语法:udf对象=sparksession.udf.register(参数1,参数2,参数3)参数1:UDF名称,可用于SQL风格参数2:被注册成UDF的方法名参数3
ZhaoXiangmoStu
·
2023-08-27 09:27
spark
大数据
分布式
sparksql
报错:expression ‘a.id‘ is neither present in the group by,nor is it an aggregate function.
今天在运行带有groupby的spark时候发生了报错,运行语句如下:selecta.idasmodel_id,a.modelasmodel_name,count(a.model)astotal,sum(b.token)astokenfromchatnio_qaasaleftjoinmodel_countasbona.model=b.modelgroupby(a.model)这里发生了一个报错:e
唐僧爱吃唐僧肉
·
2023-08-26 18:28
大数据学习笔记
javascript
开发语言
ecmascript
spark
大数据之Spark(5)-
SparkSql
1
SparkSQL
概述1.1什么是
SparkSQL
SparkSQL
是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和DataSet,并且作为分布式SQL查询引擎的作用。
jackyan163
·
2023-08-26 14:07
PyCharm整合Hive并通过
SparkSQL
执行引擎去操作Hive表
使用
SparkSQL
整合Hive其实就是让
SparkSQL
小柒心得
·
2023-08-26 09:18
hive
pycharm
hadoop
spark grpc 在master运行报错 exitcode13 User did not initialize spark context
程序使用
sparksql
以及protobufgrpc,执行报错ApplicationMaster:Finalappstatus:FAILED,exitCode:13,(reason:Uncaughtexception
peipei巴比
·
2023-08-26 09:14
问题集锦
spark
大数据
分布式
gRpc
spark sql 数据倾斜--join 同时开窗去重的问题优化
sparksql
数据倾斜–join同时开窗去重的问题优化文章目录
sparksql
数据倾斜--join同时开窗去重的问题优化结论1.原方案:join步骤时,同时开窗去重数据倾斜2.优化2.1参数调优2.2SQL
千山暮雪CN
·
2023-08-25 12:59
spark
生产经验
大数据
spark
sql
大数据
Spark学习-事件日志EventLog
系统结构Spark开启ThriftServer进行
SparkSQL
查询,Spark的Jobhistory服务对应用的事件进行记录和保存,利用F
迷途思凡
·
2023-08-24 21:08
大数据技术
spark
flink
event
腾讯大佬三年大制作,大数据Hadoop和Spark的大集合
这两个主流技术进行讲解,主要内容包括Hadoop环境配置、分布式文件系统HDFS、分布式计算框架MapReduce、资源调度框架YARN与Hadoop新特性、大数据数据仓库Hive、离线处理辅助系统、SparkCore、
SparkSQL
金光闪闪耶
·
2023-08-23 15:47
Hive Cli / HiveServer2 中使用 dayofweek 函数引发的BUG!
文章目录前言dayofweek函数官方说明BUG重现
SparkSQL
中的使用总结前言使用的集群环境为:hive3.1.2spark3.0.2dayofweek函数官方说明dayofweek(date)-
月亮给我抄代码
·
2023-08-23 05:10
hive
sql
大数据
spark
sql
数据仓库
目录-后期更新打算
目录点击不了的是我已经遇到了解决了,但是还没时间截图做文章呢(不愧是我),需要问题也可以直接在评论留下问题sqloraclesql转换成hivesqlsql函数用法
sparksql
报错问题Java知识点
00单00
·
2023-08-22 07:26
目录
java
uni-app
hive
sql
vue
【笔记】Spark3 AQE(Adaptive Query Execution)
提效7倍,ApacheSpark自适应查询优化在网易的深度实践及改进PerformanceTuning配置
SparkSQL
开启AdaptiveExecution特性HowToUseSparkAdaptiveQueryExecution
TaiKuLaHa
·
2023-08-22 05:14
spark
笔记
spark
2021-10-14
第三章Aglanceat
SparkSQL
逻辑计划阶段目标是把SQL转成完整的逻辑算子树LogicalPlan,其经历,构建未解析的逻辑算子树,绑定结点信息的逻辑算子树和优化后的逻辑算子树,逻辑算子树完整生成后
葉朝鈞
·
2023-08-20 17:22
Spark_day06
.目前的结构4.这是mode和我们的文件形式5.Parquet文件格式image.png5.读写分区为什么写成一个文件夹rdd支持分区,直接把每一个RDD分区,写成一个文件.hive分区写东西读取数据
SparkSQL
c062197eecd2
·
2023-08-20 10:58
第一天:spark和Hadoop的比较和介绍
sparkVShadoop计算过程spark整体架构spark的特点
sparkSQL
和HivesparkstreamingVSstormspark的个人使用体会
GhostintheCode
·
2023-08-20 03:00
使用Scala基于词法单元的解析器定制EBNF范式文法解析
前言近期在做Oracle迁移到Spark平台的项目上遇到了一些平台公式翻译为
SparkSQL
(onHive)的需求,而Spark采用亲妈语言Scala进行开发。
·
2023-08-19 21:55
编译原理scala
pyspark中自定义函数的用法
pyspark中自定义函数比python中多了一部注册,整体流程是“定义-注册-调用”,其中注册和调用两步在
sparksql
和DSL中又有所区别,具体如下:frompyspark.sqlimportSparkSession
斯特兰奇
·
2023-08-19 19:18
pyspark
spark
数据分析
SparkSQL
源码分析系列02-编译环境准备
本文主要描述一些阅读Spark源码环境的准备工作,会涉及到源码编译,插件安装等。1.克隆代码。打开IDEA,在Git下的Clone中,输入https://github.com/apache/spark,克隆代码到本地,CheckOut到目标版本Spark3.42.安装maven。版本按照pom文件指定的版本安装,在IDEA中配置安装的路径。3.为IDEA安装ANTLR和Scala插件4.测试ANT
Empty-cup
·
2023-08-19 18:08
Spark
spark
sparkSql
的炸裂函数 explode
炸裂:将一行数据,炸裂为多行,也就是“列转行”例如:hive的订单表order_table有一个字段item_list,是一个列表结构的array>item_list中有多个商品信息,每个商品信息是一个结构体,那么如何将一个order_id对应的商品列表,转化为多行?即炸裂为多行使用explode()函数就可以实现valorder_item_df=spark.sql(s"selectorder_i
阿君聊风控
·
2023-08-19 10:38
hive/sparksql
Unrecognized Hadoop major version number: 3.0.0-cdh6.3.2
一.环境描述spark提交job到yarn报错,业务代码比较简单,通过接口调用获取数据,将数据通过
sparksql
将数据写入hive中,尝试各种替换hadoop版本,最后拿下1.hadoop环境2.项目
远方有海,小样不乖
·
2023-08-18 21:24
大数据
spark
大数据
分布式
Spark SQL | DataFrame的各种玩法
啦~开始跟着梁云大佬打卡
SparkSQL
。
#苦行僧
·
2023-08-18 00:22
#
Spark
spark
大数据
dataframe
sql
python
使用
SparkSQL
操作Elasticsearch - Spark入门教程
Hadoop允许Elasticsearch在Spark中以两种方式使用:通过自2.1以来的专用支持,或者通过自2.0以来的Map/Reduce桥接器。从5.0版本开始,elasticsearch-hadoop就支持Spark2.0。为Spark添加ES支持1、引入Mavenorg.apache.sparkspark-sql_${scala.version}${spark.version}testo
DreamsonMa
·
2023-08-17 10:56
Hue 之
SparkSql
interpreters的配置及使用
1、环境说明:HDP2.4V3sandboxhue4.0.02、hue4.0.0编译及安装地址:https://github.com/cloudera/hue/releases/tag/release-4.1.0(也许是发版这弄错了吧,连接是4.1.0,内容版本是4.0.0)2.1修改%HUE_CODE_HOME%/hue/maven/pom.xml版本,如下:1232.7.12.7.11.6.0
zxfBdd
·
2023-08-16 19:15
大数据
hadoop
java
hdfs
【Hudi数据湖应用】Hudi-Spark-Bundle NoSuchMethodError(SessionHandler.setHttpOnly)异常修复
最近尝试在
sparksql
上对hudi表进行insert数据,会报java.lang.NoSuchMethodError:org.apache.hudi.org.apache.jetty.server.session.SessionHandler.setHttpOnly
大数据点灯人
·
2023-08-16 04:44
Hudi
Spark
spark
大数据
芒果 TV 基于 Flink 的实时数仓建设实践
一、芒果TV实时数仓建设历程芒果TV实时数仓的建设共分为三个阶段,14-19年为第一阶段,技术选型采用Storm/FlinkJava+
SparkSQL
·
2023-08-15 18:00
后端flink大数据实时计算
sparksql
两种解决方式
objectTest02{defmain(args:Array[String]):Unit={valspark:SparkSession=SparkSession.builder().appName("aa").master("local[2]").getOrCreate()importspark.implicits._importorg.apache.spark.sql.functions._v
lcatake
·
2023-08-15 12:41
spark
spark
大数据
分布式
数据湖技术之Hudi 集成 Spark
数据湖技术之Hudi集成Spark数据湖框架Hudi,从诞生之初支持Spark进行操作,后期支持Flink,接下来先看看与Spark整合使用,并且在0.9.0版本中,提供
SparkSQL
支持,编写DDL
潘小磊
·
2023-08-13 02:51
数据湖
spark
大数据
mysql
SparkSQL
操作Hudi指南
文章目录一、
SparkSQL
连接Hudi1.1Hive配置1.2
SparkSQL
连接Hudi二、创建表2.1常规的建表2.2CTAS三、插入数据四、查询数据五、更新数据5.1普通5.2MergeInto
王知无(import_bigdata)
·
2023-08-13 02:21
hive
大数据
hadoop
spark
数据仓库
SparkSQL
-从DataFrame说起
转自:http://hbasefly.com/2017/02/16/
sparksql
-dataframe/写在文章之前本着更好地理解大数据生态圈的本意以及工作的需要,前段时间熟悉了SQL查询引擎
SparkSQL
严国华
·
2023-08-12 18:52
第三篇|Spark SQL编程指南
本文将讨论Spark的另外一个重要模块--
SparkSQL
,
SparkSQL
是在Shark的基础之上构建的,于2014年5月发布。
大数据技术与数仓
·
2023-08-12 13:47
Spark - Spark SQL中RBO, CBO与AQE简单介绍
SparkSQL
核心是Catalyst,Catalyst执行流程主要分4个阶段,语句解析,逻辑计划与优化,物理计划与优化,代码生成前三个阶段都由Catalyst负责,其中,逻辑计划的优化采用RBO思路,
不住在隔壁的老王
·
2023-08-12 08:17
Spark
spark
sql
大数据
Spark基础解析
SparkSQL
:是Spark用来操作结构化数据的程序包。通过
SparkSQL
,我们可以使用SQL或者ApacheHive版本的SQL方言(HQL)
TousandeG
·
2023-08-12 00:20
Py
SparkSQL
脚本模板
PySpark模板分为shell脚本和python脚本两部分,通过shell脚本提交spark任务。shell脚本:test_submit.sh#!/bin/shsource/etc/profilesource/usr/local/ods_shell/shell_config.propertieslocate/bin/hiveif[$#-eq2];thenecho"参数个数为2,使用传入参数作为处
一只特立独行的猪1991
·
2023-08-11 22:22
解决python3和jupyter-notebook中的报错No module named pyspark和No module named ‘py4j’
pyspark可以正常启动,执行下列语句可正常显示frompyspark.sqlimportSparkSessionspark=SparkSession.builder.appName("Python
SparkSQL
Hiveintegrationexample
Nancy_张
·
2023-08-10 20:16
pyspark
linux
python
python
linux
spark
芒果 TV 基于 Flink 的实时数仓建设实践
一、芒果TV实时数仓建设历程芒果TV实时数仓的建设共分为三个阶段,14-19年为第一阶段,技术选型采用Storm/FlinkJava+
SparkSQL
Apache Flink
·
2023-08-10 07:26
flink
大数据
手把手教你 在IDEA搭建
SparkSQL
的开发环境
目录1.spark版本和scala版本如何选择1.1查看官网1.2如何获取pom依赖信息2.创建Maven项目、添加Scala插件、Scala的sdk3.配置pom.xml添加相关jar依赖3.1pom.xml示例(spark版本:3.3.2scala版本:2.12)4.运行官网测试案例5.设置日志级别5.1提交任务时,设置任务级别5.2修改环境默认日志级别6.FAQ6.1因Spark版本和Sca
广阔天地大有可为
·
2023-08-10 05:00
#
Spark环境搭建
intellij-idea
scala
java
spark
maven
Spark使用parquet文件存储格式能带来哪些好处
1)如果说HDFS是大数据时代分布式文件系统首选标准,那么parquet则是整个大数据时代文件存储格式实时首选标准2)速度更快:从使用
sparksql
操作普通文件CSV和parquet文件速度对比上看,
小癫僧
·
2023-08-09 16:17
3、JSON数据的处理
3、JSON数据的处理3.1介绍JSON数据
SparkSQL
canautomaticallyinfertheschemaofaJSONdatasetandloaditasaDataFrame
SparkSQL
Wzideng
·
2023-08-09 15:58
#
spark
json
ajax
前端
Spark SQL & Elasticsearch
SparkSQL
&Elasticsearch一、读取二、转换三、写入四、适配分析器方案五、示例一、读取使用spark-sql读取es数据如下代码所示:SparkSessionsession=SparkSession.builder
柴狗狗
·
2023-08-09 12:55
Spark
elasticsearch
spark
Flink1.10集成Hive快速入门
之后出现的SQL引擎,如
SparkSQL
、Impala等,都在一定程度上提供了与Hive集成的功能,从而方便用户使用现有的数据仓库、进行作业迁移等。
大数据技术与数仓
·
2023-08-09 10:12
Spark DataFrame中insertInto()与saveAsTable()区别及动态分区插入hive表使用设置
@Author:Spinach|GHB@Link:http://blog.csdn.net/bocai8058文章目录前言insertInto()saveAsTable()调用
sparksql
动态分区参数设置及代码实现前言在
小学僧来啦
·
2023-08-08 13:22
Spark
hive
大数据
spark
scala
1、Spark SQL 概述
1、
SparkSQL
概述
SparkSQL
概念
SparkSQL
isApacheSpark’smoduleforworkingwithstructureddata.它是spark中用于处理结构化数据的一个模块
Wzideng
·
2023-08-07 13:13
#
spark
#
hive
spark
sql
大数据
上一页
6
7
8
9
10
11
12
13
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他