E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
sparkSql
大数据实战:Spark + Hive 逐笔计算用户盈亏
通过本文你将会学到:如何使用
SparkSQL
API读取Hive数据源如何通过读取配置文件进行传参执行SQL如何将
SparkSQL
转换为JavaRDD进行处理如何
WuJiWeb3
·
2025-03-10 00:56
区块链链上数据分析
从0到1搭建区块链大数据平台
spark
hive
大数据
web3
区块链
hadoop
大数据计算框架深入:Spark SQL、DataFrame、RDD 性能优化
1.引言ApacheSpark是当前最流行的大数据计算框架之一,其中
SparkSQL
、DataFrame和RDD(ResilientDistributedDataset)是数据处理的三大核心API。
晴天彩虹雨
·
2025-03-08 10:48
大数据
spark
big
data
spark sql随记
1、
sparksql
访问hive将hive-site.xml放入到${SPARK_HOME}/conf下如果是sparkonyarn的cluster模式,由于driver是运行于哪个executor未知
cxy1991xm
·
2025-02-22 21:18
spark
【大数据分析】Spark SQL查询:使用SQL命令
在
SparkSQL
编写SQL命令时,它们将被转换为DataFrame上的操作。通过连接到Spark的Thrift服务器,它们可以通过标准的JDBC或ODBC协议从应用服务器连接到Spark。
sword_csdn
·
2025-02-21 02:58
Spark
spark
数据分析
sql
如何使用Spark SQL进行复杂的数据查询和分析
使用
SparkSQL
进行复杂的数据查询和分析是一个涉及多个步骤和技术的过程。
Java资深爱好者
·
2025-02-21 01:22
spark
sql
大数据
java获取hive表所有字段,Hive Sql从表中动态获取空列计数
我正在使用datastaxspark集成和
sparkSQL
thrift服务器,它为我提供了一个HiveSQL接口来查询Cassandra中的表.我的数据库中的表是动态创建的,我想要做的是仅根据表名在表的每列中获取空值的计数
拾亿年
·
2025-02-14 16:23
java获取hive表所有字段
Spark Container killed by YARN for exceeding memory limits. 11.1 GB of 11 GB physical memory used
公司
SparkSql
运行出现问题同事要求帮忙排查下原因日志:19-10-202110:12:06CSTSPARK_SQL-1632390310963INFO-SLF4J:Seehttp://www.slf4j.org
Called_Kingsley
·
2025-02-07 01:41
BigData
Spark
spark
yarn
PySpark学习笔记5-
SparkSQL
sparkSql
的数据抽象有两种。
兔子宇航员0301
·
2025-02-07 00:36
数据开发小白成长笔记
学习
笔记
Flink && Spark SQL提效神器双双更新
本次
SparkSQL
Helper主要更新了对于Hints的补全支持,Release版本为2025.2.0。
·
2025-02-06 13:32
flinkspark大数据
spark 算子例子_Spark性能调优方法
一般来说,如果有可能,用户应当尽可能多地使用
SparkSQL
以取得更好的性能。主要原因是
SparkSQL
是一种声明式编程风格,背后的计算引擎会自动做大量的性能优化工作。
不让爱你的人失望
·
2025-01-31 16:28
spark
算子例子
OLAP引擎比较
一,
sparksql
与dorisspark虽然是一个计算引擎,但
sparksql
也支持符合通用语法的sql查询,延迟为分钟级。doris是一个OLAP数据库,支持对大数据的复杂查询,延迟为秒级。
小手追梦
·
2025-01-31 10:30
hadoop
rpc
java
PySpark之金融数据分析(Spark RDD、SQL练习题)
目录一、数据来源二、PySparkRDD编程1、查询特定日期的资金流入和流出情况2、活跃用户分析三、Py
SparkSQL
编程1、按城市统计2014年3月1日的平均余额2、统计每个城市总流量前3高的用户四
唯余木叶下弦声
·
2025-01-26 04:02
大数据
大数据
spark
pyspark
python
数据分析
sql
2024年总结:大转向
职业转向今年我在职业上尝试做了一个转向,具体的结果可能需要比较长的时间来检验我选择是否正确,所以转向的细节我就不全部展开了,可以确定是我依然会专注在Infra和BigData,比如今年我发布了
SparkSQL
·
2025-01-17 20:11
年度总结
使用
SparkSql
进行表的分析与统计
背景我们的数据挖掘平台对数据统计有比较迫切的需求,而Spark本身对数据统计已经做了一些工作,希望梳理一下Spark已经支持的数据统计功能,后期再进行扩展。准备数据在参考文献6中下载鸢尾花数据,此处格式为iris.data格式,先将data后缀改为csv后缀(不影响使用,只是为了保证后续操作不需要修改)。数据格式如下:SepalLengthSepalWidthPetalLengthPetalWid
xingyuan8
·
2024-09-12 00:24
大数据
java
Spark SQL 结构化数据处理流程及原理是什么?
SparkSQL
结构化数据处理流程及原理是什么?
SparkSQL
可以使用现有的Hive元存储、SerDes和UDF。它可以使用JDBC/ODBC连接到现有的BI工具。
我想去吃ya
·
2024-08-31 16:18
spark
sql
hive
数据库
大数据
SparkSql
SparkSQL
基本介绍什么是
SparkSQL
?用于处理结构化数据的Spark模块。可以通过DataFrame和DataSet处理数据。
李思缘的大数据之路
·
2024-08-28 09:00
spark
sparksql
SparkSQL
优化查询性能的方法
一、PySpark如何提高程序的运行效率和性能PySpark的运行效率和性能受到多个因素的影响,包括数据大小、算法复杂度、硬件资源等。以下是一些提高PySpark程序运行效率和性能的方法:1.使用DataFrame而不是RDDDataFrame比RDD更高效,因为它们使用了更为优化的二进制编码格式和查询引擎。如果可能,尽量使用DataFrame而不是RDD。2.使用广播变量(BroadcastVa
大数据海中游泳的鱼
·
2024-08-28 09:57
Spark
大数据
优化
spark
大数据
Spark-第六周
1.
sparksql
运行流程【Spark精讲】一文讲透
SparkSQL
执行过程_
sparksql
执行过程-CSDN博客摸鱼大数据——
SparkSQL
——
SparkSQL
的运行机制-CSDN博客2.熟练使用
fightingD&W
·
2024-08-27 12:13
Spark
spark
大数据
分布式
PySpark,一个超级强大的 Python 库
也许能在危急时刻挽救我们于水深火热,一个新颖的思维方式,也许能激发我们无尽的创造力,一个独特的技巧,也许能成为我们的隐形盾牌……神奇的Python库之旅,第14章目录一、初识PySpark二、基本操作三、DataFrame和
SparkSQL
炒青椒不放辣
·
2024-08-26 22:18
Python
库之旅
python
Python
库之旅
PySpark
Spark从入门到精通29:Spark SQL:工作原理剖析以及性能优化
SparkSQL
工作原理剖析1.编写SQL语句只要是在数据库类型的技术里面,例如MySQL、Oracle等,包括现在大数据领域的数据仓库,例如Hive。
勇于自信
·
2024-03-11 00:20
Spark SQL编程指南
SparkSQL
编程指南
SparkSQL
是用于结构化数据处理的一个模块。同SparkRDD不同地方在于
SparkSQL
的API可以给Spark计算引擎提供更多地信息,例如:数据结构、计算算子等。
<>=
·
2024-02-26 05:46
spark
spark CTAS nuion all (union all的个数很多)导致超过spark.driver.maxResultSize配置(2G)
背景该sql运行在spark版本3.1.2下的thriftserver下现象在运行包含多个union的
sparksql
的时候报错(该sql包含了50多个uinon,且每个union字查询中会包含join
鸿乃江边鸟
·
2024-02-20 13:29
Quick introduction to Apache Spark
它还支持一组丰富的更高级别的工具,包括
SparkSQL
用户SQL和结构化数据处理,MLlib机器学习,GraphX用户图形处理下载从项目网站的下载页面获取Spark。
Liam_ml
·
2024-02-19 13:29
Structured Streaming
目录一、概述(一)基本概念(二)两种处理模型(三)StructuredStreaming和
SparkSQL
、SparkStreaming关系二、编写StructuredStreaming程序的基本步骤(
Francek Chen
·
2024-02-12 11:44
Spark编程基础
spark
zookeeper
kafka
Structured
Streaming
入门篇 - Spark简介
Spark核心模块image.pngSparkCore:提供了Spark最基础与最核心的功能,Spark其他的功能如:
SparkSQL
,SparkStreaming,GraphX,MLlib都是在SparkCore
君子何为
·
2024-02-12 10:22
Spark 使用之操作Hudi表
HudiSpark使用本篇为大家带来通过Sparkshell和
SparkSQL
操作Hudi表的方式。
AlienPaul
·
2024-02-11 14:52
SQL、Hive中的SQL和Spark中的SQL三者联系与区别
SQL、Hive中的SQL和Spark中的SQL(即
SparkSQL
)都是用于处理和分析数据的查询语言,但它们在实现、性能、应用场景等方面存在一些明显的区别和联系。
大数据SQLboy
·
2024-02-09 05:20
数据库
Spark
Hive
数据库
spark从入门到放弃二十八:Spark Sql (1)Data Set
文章地址:http://www.haha174.top/article/details/257834项目源码:https://github.com/haha174/spark.git1.简介
SparkSql
意浅离殇
·
2024-02-09 03:17
史上最全OLAP对比
目录1.什么是OLAP2.OLAP引擎的常见操作3.OLAP分类MOLAP的优点和缺点ROLAP的优点和缺点4.并发能力与查询延迟对比5.执行模型对比5.OLAP引擎的主要特点5.2
SparkSQL
、FlinkSQL5.3Clickhouse5.4Elasticsearch5.5Presto5.6Impala5.7Doris5.8Druid5.9Kylin
只会写demo的程序猿
·
2024-02-08 11:04
数仓
spark
hadoop
数据仓库
spark sql 数据类型转换_spark sql时间类型转换以及其他
1.
sparksql
的日期转换一般使用两种形式第一种使用to_timestamp(REACHTIME1,"yyyy-MM-ddHH24:mi:ss")//它将字符串时间转换为日期类型例如2018-10-
weixin_39535527
·
2024-02-08 10:02
spark
sql
数据类型转换
spark sql上线前的调试工作实现
背景每个公司应该都有大数据的平台的吧,平台的作用就是可以在上面执行各种
sparksql
以及定时任务,不过一般来说,由于这些
sparksql
的上线不经过测试,所以可能会影响到生产的数据,这种情况下大数据平台提供一个上线前的调试功能也就非常好了
lixia0417mul2
·
2024-02-07 05:22
spark
spark
sql
大数据
Spark Chapter 8 Spark SQL
【参考以慕课网日志分析为例进入大数据
Sparksql
】0导读SQL:MySQL,Oracle,DB2,SQLServer在大数据平台上实现大数据计算:Hive/
SparkSQL
/SparkCore直接使用
深海suke
·
2024-02-07 01:34
Spark简介
我用到的主要是SparkCore,
SparkSQL
,SparkStreaming。Spark以Rdd作为基础,Rdd是一个分布式的容器,类似于java中的String数组,但是它是分布式的。
麦克阿瑟99
·
2024-02-06 18:07
Spark视频第5期:Spark SQL架构和案例深入实战
SparkSQL
架构和案例深入实战视频下载:http://pan.baidu.com/share/link?
Rocky_wangjialin
·
2024-02-06 09:35
Spark培训
Spark企业内训
Spark公开课
Spark视频
王家林
SparkSQL
on K8s 在网易传媒的落地实践
网易传媒在2021年成功将
SparkSQL
部署到了K8s集群,并实现与部分在线业务的混合部署,到目前已经稳定运行了一年多。
wangyishufan
·
2024-02-06 06:02
kubernetes
大数据
数据分析
PySpark(四)PySpark SQL、Catalyst优化器、Spark SQL的执行流程
目录Py
SparkSQL
基础SparkSession对象DataFrame入门DataFrame构建DataFrame代码风格DSLSQL
SparkSQL
Shuffle分区数目DataFrame数据写出
独憩
·
2024-02-06 03:14
PySpark
sql
数据库
python
spark
SparkSql
---用户自定义函数UDF&&UDAF
文章目录1.UDF2.UDAF2.1UDF函数实现原理2.2需求:计算用户平均年龄2.2.1使用RDD实现2.2.2使用UDAF弱类型实现2.2.3使用UDAF强类型实现1.UDF用户可以通过spark.udf功能添加自定义函数,实现自定义功能。如:实现需求在用户name前加上"Name:"字符串,并打印在控制台defmain(args:Array[String]):Unit={//创建上下文环境
肥大毛
·
2024-02-05 20:08
scala
大数据
spark
spark
大数据
分布式
SparkSql
---RDD DataFrame DataSet
文章目录1.DataFrame2.DataSet3.RDD、DataFrame、DataSet三者的关系4.使用SQL操作DataFrame类型的数据4.1DSL语法4.2RDD转换为DataFrame4.3DataFrame转换为RDD5.使用SQL操作DataSet的数据5.1使用样例类序列创建DataSet5.2DataSet转换为RDD5.3DataSet和DataFrame相互转换1.D
肥大毛
·
2024-02-05 20:38
大数据
json
sql
hive
hadoop
spark
SparkSql
读取外部Hql文件的公共类开发
SparkSql
读取外部Hql文件的公共类开发
SparkSQL
与Hive的区别简介一、什么是
SparkSQL
?
岁月的眸
·
2024-02-05 09:27
#
Hive总结
#
Spark总结
大数据
hive
大数据
spark
Python调用pyspark报错整理
如果没有配置可参考大数据单机学习环境搭建(8)Linux单节点Anaconda安装和Pycharm连接Pycharm执行的脚本执行如下pyspark_model.py的python脚本,构建SparkSession来执行
sparksql
赫加青空
·
2024-02-05 07:52
Python
spark
大数据
python
开发语言
Fink CDC数据同步(三)Flink集成Hive
利用Flink来读写Hive的表Flink打通了与Hive的集成,如同使用
SparkSQL
或者Impala操作Hive中的数据一样,我们可以使用Flink直接读写Hive中的表。
苡~
·
2024-02-04 07:20
flink
hive
大数据
2019-03-16 Spark基本架构及运行原理
SparkSQL
:Spark处理结构化数据的库,就像HiveSQL,Mysql一样,企业中用来做报表统计。SparkStreaming:实时数据流处理组件,类似Storm。
做一只乐观的小猴子
·
2024-02-03 02:04
[Scala学习笔记] Spark开发小笔记
Spark开发小笔记:从0开始的Spark建图生活持续更新中……0.开发平台Zeppelin支持多种语言,默认是scala(背后是sparkshell),
SparkSQL
,Markdown和Shell。
Rinnki
·
2024-02-02 13:39
Scala笔记
学习笔记
Scala
Spark
图
【SparkML实践4】Pipeline实战scala版
DataFrame:这个机器学习API使用来自
SparkSQL
的DataFrame作为机器学习数据集,它可以包含多种数据类型。例如,一个DataFrame可以有不同的列存
周润发的弟弟
·
2024-02-02 13:36
Spark机器学习
spark-ml
scala
开发语言
Spark SQL 中org.apache.spark.sql.functions归纳
SparkSQL
中org.apache.spark.sql.functions归纳注意,这里使用的是scala2.12.12,spark版本是最新的3.0.1版本1.Sortfunctions/***Returnsasortexpressionbasedonascendingorderofthecolumn
闻香识代码
·
2024-02-01 09:13
spark
scala
dataframe
apache
spark
大数据
分布式计算
scala
spark
spark从入门到放弃三十九:Spark Sql(12)
SparkSql
工作原理以及性能优化
文章地址:http://www.haha174.top/article/details/2570731工作原理1.大家都知道,只要在数据库类型的技术里面,比如,最传统的mysql,Oracle包括现在大数据领域的数据仓库如Hive,他的基本Sql执行的模型,都是类似的,首先生成一条SQL语句的执行计划。例如Selectnamefromnames=>解析成从哪里去查询(names表在那个文件里面,从
意浅离殇
·
2024-01-31 20:42
window环境下安装spark
spark是大数据计算引擎,拥有
SparkSQL
、SparkStreaming、MLlib和GraphX四个模块。
FTDdata
·
2024-01-31 17:06
【Spark系列6】如何做SQL查询优化和执行计划分析
Apache
SparkSQL
使用Catalyst优化器来生成逻辑执行计划和物理执行计划。逻辑执行计划描述了逻辑上如何执行查询,而物理执行计划则是Spark实际执行的步骤。
周润发的弟弟
·
2024-01-31 08:01
spark
sql
大数据
003-90-16【
SparkSQL
&DF&DS】慈航寺庙山脚下八卦田旁油菜花海深处人家王二爷家女儿大红用GPT学习Rdd和Dataaset 以及DataFrame 的转换
003-90-16【
SparkSQL
&DF&DS】慈航寺庙山脚下八卦田旁油菜花海深处人家王二爷家女儿大红用GPT学习Rdd和Dataaset以及DataFrame的转换【
SparkSQL
&DF&DS】Dataset
一杯派蒙
·
2024-01-30 21:31
spark
gpt
学习
spark
大数据
分布式
SparkSQL
之函数解析
!!expr-Logicalnot.不的意思Examples:>SELECT!true;false>SELECT!false;true>SELECT!NULL;NULLSince:1.0.0!=expr1!=expr2-Returnstrueifexpr1isnotequaltoexpr2,orfalseotherwise.如果expr1不等于expr2则返回true,否则返回false。Argu
OnePandas
·
2024-01-30 21:00
Spark
spark
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他