E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
SparkSQL
大数据学习(24)-spark on hive和hive on spark的区别
这里可以理解为Spark通过
SparkSQL
使用Hive语句操作Hive表,底层运行的还是SparkRDD。具体步骤如下:通过
SparkSQL
,加载Hi
viperrrrrrr
·
2023-11-29 17:30
大数据
学习
spark
大数据学习(26)-spark SQL核心总结
&&大数据学习&&系列专栏:哲学语录:承认自己的无知,乃是开启智慧的大门如果觉得博主的文章还不错的话,请点赞+收藏⭐️+留言支持一下博主哦
SparkSQL
是ApacheSpark的一个模块,它用于处理结构化数据
viperrrrrrr
·
2023-11-29 17:30
大数据
学习
spark
解决Spark SQL读数据库时不支持某些数据类型的问题
之前开发数据湖新版本时使用
SparkSQL
来完成ETL的工作,但是遇到了
SparkSQL
不支持某些数据类型(比如ORACLE中的TimestampwithlocalTimezone)的问题。
alexlee666
·
2023-11-28 20:49
StarRocks从入门到精通系列六:使用EXPORT、Spark、Flink从StarRocks中导出数据
StarRocks中导出数据一、使用EXPORT导出数据1.背景信息2.导出流程3.基本原理4.相关配置5.基本操作6.最佳实践二、使用Spark连接器读取数据1.前提条件2.通用参数3.数据样例4.使用
SparkSQL
最笨的羊羊
·
2023-11-28 11:38
大数据
日常分享专栏
大数据
StarRocks
EXPORT
Spark
Flink
SparkSQL
与parquet,处理decimal类型数据时遇到的问题及注意事项
SparkSQL
为了更好的性能,在读写Hivemetastoreparquet格式的表时,会默认使用自己的ParquetSerDe,而不是采用Hive的SerDe进行序列化和反序列化。
雾岛与鲸
·
2023-11-28 11:03
数据仓库
hive
spark
sparksql
自动DataSourceV2源
表模型明细模型:表中会存在主键重复的数据行,并且与导入的数据是完全对应的。您可以召回所导入的全部历史数据。聚合模型:表中不存在主键重复的数据行,主键满足唯一性约束。导入的数据中主键重复的数据行聚合为一行,即具有相同主键的指标列,会通过聚合函数进行聚合。您只能召回导入的全部历史数据的聚合结果,但是无法召回历史明细数据。主键模型和更新模型:表中不存在主键重复的数据行,主键满足唯一性约束。最新导入的数据
大数据启示录
·
2023-11-28 11:00
程序人生
Spark面试题集锦
包含Sparkcore、
Sparksql
、Sparkstreaming、SparkMLlib、sparkGraphX五个核心组件。2、Spark的核心组件是什么?
猿界零零七
·
2023-11-28 09:53
知识总结
spark
大数据
解决
SparkSQL
导致的JVM栈内存溢出方法_尚硅谷大数据培训
当
SparkSQL
的sql语句有成百上千的or关键字时,就可能会出现Driver端的JVM栈内存溢出。
尚硅谷铁粉
·
2023-11-27 16:52
jvm
大数据
java
(转)Spark DataFrame 开发指南
DataFrame是Spark在RDD之后新推出的一个数据集,从属于
SparkSQL
模块,适用于结构化数据。对于我们这些用惯了数据库表和散列/字典结构的人来说,尤为亲切。
达微
·
2023-11-27 06:40
SparkSQL
之catalyst
说到
SparkSQL
,我们不得不提到它的优化器(Catalyst),Catalyst是
Sparksql
的核心,它是针对于
SparkSQL
语句执行过程中的查询优化框架。
临界爵迹
·
2023-11-27 03:34
大数据
spark
利用
SparkSQL
Logical Plan Parse 打造大数据平台SQL诊断利器
前言对一个开源项目来说,虽然各种卷,动不动去深入研究源码啥的,但是没有真正去参与开发的话,了解里头的原理又少那么点感觉。实际情况来说很少机会去参与源码的改造吧,这里我提供一些思路,就是基于源码倒腾一些小工具,这样子有作用而且加深那些原理的理解!利用我们的源码,打造一款SQL的扫描工具~~原理篇Spark被大家津津乐道的经典SQL解析流程Sql语句经过Antlr4解析,生成UnresolvedLog
敏叔V587
·
2023-11-27 03:34
Spark
大数据
工具分享
big
data
spark
SparkSQL
源码解析 SparkPlanner
文章目录物理计划转换过程SparkPlan分类LeafExecNodeUnaryExecNodeBinaryExecNode其他类型的SparkPlanSparkPlannerPlanLaterplanSparkStrategy.applycollectPlaceholdersplaceholders解析prunePlans总结物理计划转换过程从OptimizedLogicalPlan传入到Spa
KD_
·
2023-11-27 03:03
Spark
Spark入门之五:
SparkSQL
的原理以及架构
1、
SparkSQL
的发展历程1.1HiveandShark
SparkSQL
的前身是Shark,给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具,Hive应运而生,它是当时唯一运行在
铁猴
·
2023-11-27 03:03
Spark
Spark入门简单学
Spark
SparkSQL
架构
SparkSQL
讲解
一
SparkSQL
是什么1.1
SparkSQL
的出现契机数据分析的方式数据分析的方式大致上可以划分为SQL和命令式两种:命令式在前面的RDD部分,非常明显可以感觉的到是命令式的,主要特征是通过一个算子,
北山璎珞
·
2023-11-27 03:32
Spark
SparkSQL
SparkSQL学习
sparkSQL
1.1入门之二:
sparkSQL
运行架构
在介绍
sparkSQL
之前,我们首先来看看,传统的关系型数据库是怎么运行的。
chuozhi7142
·
2023-11-27 03:02
scala
数据库
大数据
sparkSQL
1.1入门之二:
sparkSQL
执行架构
在介绍
sparkSQL
之前。我们首先来看看,传统的关系型数据库是怎么执行的。
aofan9566
·
2023-11-27 03:31
scala
数据库
大数据
SparkSQL
之Optimized LogicalPlan生成过程
经过Analyzer的处理,UnresolvedLogicalPlan已经解析成为AnalyzedLogicalPlan。AnalyzedLogicalPlan中自底向上节点分别对应Relation、Subquery、Filter和Project算子。 AnalyzedLogicalPlan基本上是根据UnresolvedLogicalPlan一对一转换过来的,对于SQL语句中的逻辑能够很好
RainTicking
·
2023-11-27 03:31
大数据
大数据
scala
window环境下安装spark
spark是大数据计算引擎,拥有
SparkSQL
、SparkStreaming、MLlib和GraphX四个模块。
FTDdata
·
2023-11-26 22:42
spark
spark
大数据
传统数仓和clickhouse对比
背景传统数仓一般都是Hive+
SparkSql
作为代表,不过也包括Kylin等,而clickhouse是实时OLAP的代表,我们简单看下他们的对比传统数仓和clickhouse对比Hive+
SparkSQL
lixia0417mul2
·
2023-11-26 19:06
clickhouse
clickhouse
DBT踩坑第二弹
考虑到开源组件Kyuubi也是基于Hiveserver2,使用的thrift协议,所以采用Kyuubi执行
SparkSQL
。
淡定一生2333
·
2023-11-26 10:02
DBT
数据库
掌握spark 3.0中的查询计划
本文翻译自MasteringQueryPlansinSpark3.0,能够很好的帮助学习
sparksql
理解sparkUI的计划,决定翻译记录一下。
鸿乃江边鸟
·
2023-11-26 09:16
Spark SQL输入输出
1、对于
SparkSQL
的输入需要使用sparkSession.read方法1)、通用模式sparkSession.read.format("json").load("path")支持类型:parquet
sinat_36710456
·
2023-11-26 09:37
大数据
Spark
SQL
输入
输出
Hadoop+Hive+Spark+Hbase开发环境练习
app/data/exam查看csv文件行数[root@kb129~]#hdfsdfs-cat/app/data/exam/meituan_waimai_meishi.csv|wc-l2.分别使用RDD和
SparkSQL
不吃香菜lw
·
2023-11-26 07:48
hadoop
hive
spark
spark Sql, dataframe, Dataset 和 Streaming编程指南
四:
sparkSql
,dataframe,Dataset4.1:
SparkSQL
的用法之一是执行SQL查询,它也可以从现有的Hive中读取数据SparkSession:Spark中所有功能的入口是SparkSession
醉舞经阁半卷书A
·
2023-11-25 10:57
Spark SQL 时间格式处理
初始化
SparkSql
packagepbcp_2023.clear_dataimportorg.apache.spark.SparkConfimportorg.apache.spark.sql.SparkSessionimportorg.apache.spark.sql.functions
小辉懂编程
·
2023-11-25 05:29
hive等)
spark
sql
大数据
云计算实验4 面向行业背景的大数据分析与处理综合实验
一、实验目的掌握分布式数据库接口
SparkSQL
基本操作,以及训练综合能力,包括:数据预处理、向量处理、大数据算法、预测和可视化等综合工程能力二、实验环境Linux的虚拟机环境和实验指导手册三、实验任务完成
MrNeoJeep
·
2023-11-25 04:06
#
云计算
云计算
数据分析
大数据
Spark UI实现原理与事件监听机制
在SparkUI中可以查看job、stage、storage、environment、excutors和
sparksql
等信息,那么这都是怎么实现的,这些信息都是怎么获取到的呢?
涛声依旧(竞涛)
·
2023-11-24 16:35
spark
Spark
UI
event
listener
source
Spark设计理念与基本架构
易于使用支持查询支持流式计算可用性高丰富的数据源支持模块:SparkCore+
SparkSQL
+S
whynotybb
·
2023-11-24 02:29
免费图书教材配套资料:Spark大数据技术与应用(第2版)
《Spark大数据技术与应用(第2版)》课程内容全面介绍了Spark大数据技术的相关知识,内容包含包括Spark概述、Scala基础、Spark编程、Spark编程进阶、
SparkSQL
结构化数据文件处理
泰迪智能科技
·
2023-11-23 14:36
图书教材推荐
大数据
spark
分布式
spark内置数据类型
在用scala编写spark的时候,假如我现在需要将我spark读的数据源的字段,做一个类型转换,因为需求中要拼接出sql的createtable语句,需要每个字段的sql中的类型,那么就需要去和
sparksql
后季暖
·
2023-11-23 12:41
spark
大数据
分布式
大数据开发之Hive优化篇6-Hive on spark
相较于其他诸如Impala、Shark(
SparkSQL
的前身)等引擎而言,Hive拥有更为广泛的用户基础以及对SQL语法更全面的支持。
只是甲
·
2023-11-23 12:06
大数据和数据仓库
#
Hive
hive
on
spark
hadoop
hive
spark
大数据最佳实践-hive on spark
目录HiveonSpark与
SparkSQL
Spark内存配置spark动态分配HiveHiveonSpark与
SparkSQL
Hive是Hadoop中的标准SQL引擎,也是最古老的引擎之一。
WakeUpCcc
·
2023-11-23 12:33
大数据
hive
spark
hadoop
数据仓库
sparkSql
遇见数组越界错误:java.lang.ArrayIndexOutOfBoundsException: 3
这里写自定义目录标题
sparkSql
遇见数组越界错误:java.lang.ArrayIndexOutOfBoundsException:3
sparkSql
遇见数组越界错误:java.lang.ArrayIndexOutOfBoundsException
找工作的大数据开发
·
2023-11-23 11:14
spark
SparkSession介绍
一、介绍SparkSession是Spark2.0中引入的新概念,它是
SparkSQL
、DataFrame和DatasetAPI的入口点,是Spark编程的统一API,也可看作是读取数据的统一入口;它将以前的
阿君聊风控
·
2023-11-23 08:24
hive/sparksql
spark
hadoop
数据倾斜(五):Spark是如何解决数据倾斜的
Spark数据倾斜表现Spark数据倾斜原理Spark数据倾斜例子Spark数据倾斜解决方案七、Spark解决数据倾斜具体方法7.1概述mapjoin设置rdd压缩合理设置driver的内存
SparkSql
longLiveData
·
2023-11-22 15:51
大数据处理技术Spark
大作业要求:伪分布式hadoop+pandas预处理数据+hdfs保存数据+spark从hdfs读取数据+
sparksql
处
我叫桃小夭
·
2023-11-22 13:54
大数据
hadoop
分布式
python
spark
spark简单数据查询与常见算子
DataBase,90Jim,Algorithm,60Jim,DataStructure,80该系总共有多少学生;vallines=sc.textFile("file:///usr/local/spark/
sparksql
data
背帆
·
2023-11-21 17:53
大数据
spark
大数据
scala
sql
基于Scala版本的TMDB大数据电影分析项目
所以在使用
SparkSQL
处理该数据集的时候,需要创建S
数仓白菜白
·
2023-11-21 17:20
Spark
SQL
big
data
scala
spark
[
SparkSQL
] 列转行lateral view explode函数和FlatMap算子两种方式实现炸裂
[
SparkSQL
]列转行lateralviewexplode函数和FlatMap算子两种方式实现炸裂我用了两种方法实现列转行,说一下我平时使用
SparkSQL
的习惯,我通常1)是先读取HDFS中的文件
林沐之森
·
2023-11-21 17:18
Spark
sparksql
spark
类转行
炸裂
flatmap
SparkSql
清洗Hive中数据并存入Mysql
一、准备数据因为数据目前在本地,所以先将数据上传至Hive,再进行清洗。上传步骤:1、将数据上传至虚拟机中:使用rz-E选择文件2、进入hive,选择数据库,并进行建表注意:建表的时候,要保证表的分隔符要和数据本身的分隔符相同,否则导入数据的时候会出现所有数据都插入到同一列。createtabledata(TRIP_IDstring,CALL_TYPEstring,ORIGIN_CALLstrin
修勾勾L
·
2023-11-21 10:36
Hive
Spark
hive
mysql
spark
pyspark案例系列5-Spark ETL将MySQL数据同步到Hive
数仓其它层:Spark可以通过
SparkSQL
直接运行hive的sql语句,所以用Spark来
只是甲
·
2023-11-21 10:33
大数据和数据仓库
#
Spark
hive
spark
mysql
大数据之使用Spark增量抽取MySQL的数据到Hive数据库(1)
目录前言题目:一、读题分析二、处理过程1.采用
SparkSQL
使用max函数找到最大的日期然后转换成时间类型在变成字符串2.这里提供除了SQL方法外的另一种过滤不满足条件的方法三、重难点分析总结前言本题来源于全国职业技能大赛之大数据技术赛项电商赛题
约定Da于配置
·
2023-11-21 10:29
大数据技术
大数据
hive
spark
mysql
scala
Spark 从Hive表中读数据或向Hive中写入数据
SparkSQL
支持在Hive中的数据读写,但是Hive中有大量的依赖在Spark中不存在,所以在使用过程中要配置这些依赖。
pageniao
·
2023-11-21 10:27
Spark
使用
sparksql
将hive数据导出至mysql
1.在pom文件添加mysqlmysql-connector-java5.1.34org.apache.sparkspark-hive_2.13${spark.version}2.完整代码如下importorg.apache.spark.sql.SparkSessionobjectHive2Mysql{defmain(args:Array[String]):Unit={valspark=Spark
有风入弦
·
2023-11-21 10:57
hive
mysql
大数据
拾贰
SparkSQL
:数据关联优化
在分布式环境中,Spark支持两类数据分发模式。一类是学过的Shuffle,Shuffle通过中间文件来完成Map阶段与Reduce阶段的数据交换,因此它会引入大量的磁盘与网络开销。另一类是我们介绍的广播变量(BroadcastVariables),广播变量在Driver端创建,并由Driver分发到各个Executors。因此,从数据分发模式的角度出发,数据关联又可以分为ShuffleJoin和
for your wish
·
2023-11-21 09:13
spark
Spark 从零到开发(六)HiveContext
SparkSQL
执行引擎的一个实例,它与存储在Hive中的数据集成在一起。从类路径上的hive-site.xml读取Hive的配置。
FantJ
·
2023-11-21 03:06
Spark 之 format
sparksql
默认写的文件格式如果是hive表,走的是这里'defgetDefaultStorage(conf:SQLConf):CatalogStorageFormat={//Torespecthive-site.xml
zhixingheyi_tian
·
2023-11-20 21:08
spark
spark
大数据
分布式
07-Hive优化---高级部分3
一、Hive优化大数据的学习:1、学习工具及其原理(50%~70%)2、学习重要的(java、scala、python、sql[mysql\hivesql\
sparksql
\flinksql])(30%
YuPangZa
·
2023-11-20 12:24
大数据
hive
hadoop
数据仓库
大数据常见面试题及答案
大特性:2、Hive分桶和分区的区别:3、Hive表动态分区和静态分区4、一个Hive表,数据量很大,分布在集群的100个节点,现在需要定期取top100,如何设计/实现:5、窗口函数6、hivesql和
sparksql
遐想者csdn
·
2023-11-20 01:18
大数据
hadoop
spark
hdfs
mapreduce
大数据
2011-2022年高职大数据竞赛-赛题内容
离线数据统计第五部分赛题模拟实现-数据采集与实时计算第六部分赛题模拟实现-数据可视化第一部分竞赛内容赛项以大数据技术与应用为核心内容和工作基础,重点考查参赛选手基于Spark、Flink平台环境下,充分利用SparkCore、
SparkSQL
xlw2003
·
2023-11-19 21:54
大数据
Spark
hadoop
flink
高职大数据竞赛
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他