E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark-sql
编程常用命令总结
编程命令大全1.软件环境变量的配置JavaScalaSparkHadoopHive2.大数据软件常用命令Spark基本命令
Spark-SQL
命令Hive命令HDFS命令YARN命令Zookeeper命令
Yellow0523
·
2024-09-13 02:42
Linux
BigData
大数据
spark任务优化参数整理
以下参数中有sql字眼的一般只有
spark-sql
模块生效,例外的时候会另行说明,此外由于总结这些参数是在不同时间段,当时使用的spark版本也不一样,因此要注意是否有效,如果本博主已经试过的会直接说明
尘世壹俗人
·
2024-09-06 09:08
大数据Spark技术
spark
大数据
分布式
Spark - SQL查询文件数据
那么我们可以利用
spark-sql
直接操作文件的特性处理这类的需求,姐姐再也不用担心我不会spark了,因为我就只会sql。使用方法csvspark.sql("select*fromcsv.
kikiki5
·
2024-09-03 07:39
Spark-sql
Adaptive Execution动态调整分区数量,调整输出文件数
看看这个参数如何运用:我们的
spark-sql
版本:[hadoop@666~]$spark-sql--versionWelcometo______/__
不想起的昵称
·
2024-03-02 15:03
hive
spark
hive
数据仓库
hive join中出现的数据暴增(数据重复)
我们来看一下案例:
spark-sql
>withtest1as>(select'10001'asuid,'xiaomi'asqid>unionall>select'10002'asuid,'huawei'asqid
不想起的昵称
·
2024-03-02 15:03
hive
大数据
hadoop
hive
记一次
spark-sql
数据倾斜解决方案
spark-sql
数据倾斜解决方案背景今天在做一张埋点事实表,需要关联几张维表,补充一些维度属性。
王糍粑的小夕
·
2024-01-10 08:20
spark
spark
sql
大数据
Spark - SQL查询文件数据
那么我们可以利用
spark-sql
直接操作文件的特性处理这类的需求,姐姐再也不用担心我不会spark了,因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.
kikiki4
·
2024-01-09 09:18
spark-sql
字段血缘实现
spark-sql
字段血缘实现背景ApacheSpark是一个开源的大数据处理框架,它提供了一种高效、易于使用的方式来处理大规模数据集。
王糍粑的小夕
·
2024-01-09 07:32
spark
spark
sql
大数据
Spark - SQL查询文件数据
那么我们可以利用
spark-sql
直接操作文件的特性处理这类的需求,姐姐再也不用担心我不会spark了,因为我就只会sql。使用方法csvspark.sql("select*fromcsv.
大猪大猪
·
2024-01-04 07:02
Spark - SQL查询文件数据
那么我们可以利用
spark-sql
直接操作文件的特性处理这类的需求,姐姐再也不用担心我不会spark了,因为我就只会sql。使用方法csvspark.sql("select*fromcsv.
kikiki2
·
2023-12-30 07:34
Spark - SQL查询文件数据
那么我们可以利用
spark-sql
直接操作文件的特性处理这类的需求,姐姐再也不用担心我不会spark了,因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.
kikiki4
·
2023-12-28 03:49
Java SparkSql 2.4.0 ArrayIndexOutOfBoundsException error
在spark-core/
spark-sql
之前添加以下依赖项为我解决了这个问题。com.thoughtworks.paranamerparanamer2.8
smileyboy2009
·
2023-12-26 10:56
spark
阻断血缘关系以及checkpoint文件清理
spark-sql
读写同一张表,报错Cannotoverwriteapaththatisalsobeingreadfrom1.增加checkpoint,设置检查点阻断血缘关系sparkSession.sparkContext.setCheckpointDir
Keep hunger
·
2023-12-25 04:21
Spark
spark
Spark - SQL查询文件数据
那么我们可以利用
spark-sql
直接操作文件的特性处理这类的需求,姐姐再也不用担心我不会spark了,因为我就只会sql。使用方法csvspark.sql("select*fromcsv.
kikiki5
·
2023-12-20 08:02
大数据基础知识
为了一场紧急考试,没有正经系统学习过大数据知识的我开始恶补概念涉及Hadoop、Hbase、Spark、Flink、Flume、Kafka、Sqoop、HDFS、Hive、Mapreduce、Impala、
Spark-Sql
偶余杭
·
2023-12-15 17:22
Spark - SQL查询文件数据
那么我们可以利用
spark-sql
直接操作文件的特性处理这类的需求,姐姐再也不用担心我不会spark了,因为我就只会sql。使用方法csvspark.sql("select*fromcsv.
kikiki2
·
2023-12-06 11:16
Spark - SQL查询文件数据
那么我们可以利用
spark-sql
直接操作文件的特性处理这类的需求,姐姐再也不用担心我不会spark了,因为我就只会sql。使用方法csvspark.sql("select*fromcsv.
kikiki2
·
2023-12-06 01:07
Spark - SQL查询文件数据
那么我们可以利用
spark-sql
直接操作文件的特性处理这类的需求,姐姐再也不用担心我不会spark了,因为我就只会sql。使用方法csvspark.sql("select*fromcsv.
kikiki2
·
2023-12-06 01:40
Hudi-集成Spark之
spark-sql
方式
Hudi集成Spark之
spark-sql
方式启动spark-sql#启动
spark-sql
之前需要先启动Hive的Metastorenohuphive--servicemetastore针对Spark3.2spark-sql
迷雾总会解
·
2023-12-04 02:01
大数据
数据库
spark
sql
大数据
hudi
spark-sql
指定metastore地址、读取mysql
spark-sql-hivespark-sql--databasesrc--hiveconfhive.metastore.uris=thrift://hdp02:2083-e"select*fromsrc_db2"--driver-java-options'-Djava.net.preferIPv4Stack=true'spark-sql-jdbc1.启动spark-sql##--driver-c
qzWsong
·
2023-12-04 02:00
spark
spark
sql
hive
【Spark九十四】
spark-sql
工具的使用
spark-sql
是Sparkbin目录下的一个可执行脚本,它的目的是通过这个脚本执行Hive的命令,即原来通过hive>输入的指令可以通过
spark-sql
>输入的指令来完成。
axxbc123
·
2023-12-04 02:59
Spark
大数据
数据库
高效率:使用DBeaver连接
spark-sql
提高运行效率一般采取底层使用spark引擎替换成hive引擎的方式提高效率,但替换引擎配置较为复杂考虑到兼容版本且容易出错,所以本篇将介绍使用DBeaver直接连接
spark-sql
快速操作hive数据库
open_test01
·
2023-12-01 14:48
SparkSQL-巩固篇
spark
sql
大数据
SPARK-SQL
中join问题
首先抛出Dataset的join算子在spark-sql_2.11版本2.3.0中所有重载方法:由于本人公司产品在执行挖掘任务时任务过长,划分stage过多,并且在过程中存在着关联关系,因此不得不进行数据关联。首次本人在编写代码时使用Seq的join方式:Datasetselect=json1.select("id","callID");SeqcallID=JavaConverters.asSca
marvinbb
·
2023-11-29 12:33
SPARK-SQL
SPARK
SPARK-SQL
Spark-sql
离线抽取全量数据到hive分区表中
先建立spark连接valspark:SparkSession=SparkSession.builder().appName("test").master("local[*]).enableHiveSupport().getOrCreate()控制日期格式并获取当前日期(这里做了-1)valdateStr=newSimpleDateFormat("yyyyMMdd")valcalendar=Cal
77zhi
·
2023-11-21 10:53
spark
hive
大数据
SPARK-SQL
- RDD/Dataset/DataFrame的互相转换
转换用到的方法如下rdd(),as(),toDF()代码示例importorg.apache.spark.api.java.JavaRDD;importorg.apache.spark.api.java.JavaSparkContext;importorg.apache.spark.rdd.RDD;importorg.apache.spark.sql.*;importpojo.Dog;import
小哇666
·
2023-11-18 21:50
#
spark
spark
SparkSQL项目实战
1准备数据我们这次
Spark-sql
操作所有的数据均来自Hive,首先在Hive中创建表,并导入数据。一共有3张表:1张用户行为表,1张城市表,1张产品表。
shangjg3
·
2023-11-16 06:47
Spark
spark
大数据
sql
spark创建DataFrame的N种方式
注:本篇介绍基于scala(pyspark选择性参考)一、maven配置基础依赖scala-library(scala基础环境)
spark-sql
(sparksql执行环境)mysql(要访问mysql
阿民啊
·
2023-11-15 09:24
SparkSql
spark
大数据
spark进行数据清洗时,如何读取xlsx表格类型文件
首先可以确定的是spark有专门对应excel表格读取的工具,在用
spark-sql
对xlsx类型文件进行读取的时候只需要再pom.xml文件里添加依赖就可以了添加依赖如下com.crealyticsspark-excel
枯槁橘子皮
·
2023-11-14 18:49
大数据
spark
excel
apache
大数据
hive和
spark-sql
中 日期和时间相关函数 测试对比
测试版本:hive2.3.4spark3.1.1hadoop2.7.71、增加月份add_months(timestampdate,intmonths)add_months(timestampdate,bigintmonths)Returntype:timestampusage:add_months(now(),1)2、增加日期adddate(timestampstartdate,intdays)
Data_IT_Farmer
·
2023-11-12 21:26
hive
hive
数据仓库
日期函数
时间函数
Spark-SQL
相关
相关链接DESCRIBETABLEhttps://spark.apache.org/docs/3.3.2/sql-ref-syntax-aux-describe-table.htmlSQLconceptSQL(StructureQueryLanguage)结构化查询语言DQL(dataquerylanguage)数据查询语言select操作。DQL即数据查询语言,实现数据的简单查询,主要操作命令有
zhixingheyi_tian
·
2023-10-27 08:01
Spark
Sql
sql
数据库
database
1024程序员节
Spark之DataFrame操作大全
一、DataFrame对象的生成
Spark-SQL
可以以其他RDD对象、parquet文件、json文件、Hive表,以及通过JDBC连
果粒多
·
2023-10-24 07:23
#
Spark
SparkSql读取Snappy Parquet压缩文件报错:java.lang.UnsatisfiedLinkError: org.xerial.snappy.SnappyNative.unc...
版本信息
Spark-sql
:2.2.0.cloudera2Spark-core:2.2.0.cloudera2JDK:1.8Scala:2.11.11问题描述在通过SparkSqlAPI读取SnappyParquet
Producer晨
·
2023-10-23 13:10
SparkSQL字段血缘关系的实现方式
说明:sparksql的字段血缘关系具体实现代码和使用方法见GitHub:RHobart/spark-lineage-parent:跟踪
Spark-sql
中的字段血缘关系(github.com)
一个懒散的人
·
2023-10-21 06:25
2020年美国新冠肺炎疫情数据分析案例总结
本案例出自于厦门大学数据库实验室,原采用的方法是PySpark,在此基础之上,我们通过
spark-sql
、zeppelin及可视化的方式加以改进。
胖波波玻璃球
·
2023-10-20 20:03
Structured API基本使用
示例如下:val spark = SparkSession.builder().appName("
Spark-SQL
").
shangjg3
·
2023-10-19 12:14
大数据计算引擎
Spark
大数据
spark
scala
Spark-SQL
详解
目录前言什么是SparkSQLDataFrameDataFrame基本操作SparkSession创建DataFrame1)通过Spark的数据源创建DSL语法风格(了解)2)RDD转化为DataFrame通过手动确定转换通过反射转化(用到样例类)3)通过hive创建RDD其它操作DataFrame转化为RDDDataSetDataSet基本操作创建RDD转换为DataSetDataSet转换为R
风吹我亦散
·
2023-10-19 08:56
spark
Spark-SQL
小结
目录一、RDD、DataFrame、DataSet的概念、区别联系、相互转换操作1.RDD概念2.DataFrame概念3.DataSet概念4.RDD、DataFrame、DataSet的区别联系5.RDD、DataFrame、DataSet的相互转换操作1RDD->DataFrame、DataSet2DataFrame->RDD,DataSet3DataSet->RDD,DataFrame二、
-我不是码农
·
2023-10-19 08:55
spark
sql
hive
Spark - SQL查询文件数据
那么我们可以利用
spark-sql
直接操作文件的特性处理这类的需求,姐姐再也不用担心我不会spark了,因为我就只会sql。使用方法csvspark.sql("select*fromcsv.
大猪大猪
·
2023-10-16 07:26
Spark-SQL
教程
目录创建SparkSession通过SparkSession创建SparkContextSparkContext读写文件的操作SparkSession文件读写sparkcatalog操作读取数据并生成DataFrame实例手动创建DataFrame使用sparkSession简化生成DataFrame生成dataFrame--createDataFrame(rdd,StructType(Struc
星瀚光晨
·
2023-10-16 06:03
spark系列
spark
大数据下一代变革之必研究数据湖技术Hudi原理实战双管齐下-下
Flink环境准备sql-clent使用启动插入数据流式读取Bucket索引HudiCatalog集成Spark开发Spark编程读写示例通过IDE如Idea编程实质上和前面的spark-shell和
spark-sql
IT小神
·
2023-10-12 15:56
大数据
数据仓库
大数据
scala
spark
flink
安装spark并配置高可用
并开启了
spark-sql
的配置,可以通过jdbc链接spark。
欧阳小伙
·
2023-10-10 04:14
大数据
spark
大数据
分布式
Spark - SQL查询文件数据
那么我们可以利用
spark-sql
直接操作文件的特性处理这类的需求,姐姐再也不用担心我不会spark了,因为我就只会sql。使用方法csvspark.sql("select*fromcsv.
大猪大猪
·
2023-10-10 00:31
大数据——Spark Streaming
之前我们接触的spark-core和
spark-sql
都是离线批处理任务,每天定时处理数据,对于数据的实时性要求不高,一般都是T+1的。
AIGC人工智残
·
2023-10-09 21:02
大数据
大数据
spark
分布式
Spark 之 DataType
TimestampTypespark-sql>createtableifnotexiststest_emr_date(>idint,>datetime1timestamp>);
spark-sql
>>insertintotest_emr_datevalues
zhixingheyi_tian
·
2023-10-09 15:06
spark
spark
javascript
服务器
【大数据面试题】Spark-Core&;
Spark-SQL
题解|#牛群排队#importjava.util.*;publicclassSolution{/***代码中的类名、方法名、参数名已经指定,请勿修改,题解|#计算一个数的阶乘##includeusingnamespacestd;intmain(){intn;cin&题解|#牛群喂食#importjava.util.*;publicclassSolution{/***代码中的类名、方法名、参数名已经
2301_78234743
·
2023-10-07 00:39
java
spark-sql
调优技巧
sparkSQL概述sparkSQL的前世今生==Shark是专门针对于spark的构建大规模数据仓库系统的一个框架==Shark与Hive兼容、同时也依赖于Spark版本Hivesql底层把sql解析成了mapreduce程序,Shark是把sql语句解析成了Spark任务随着性能优化的上限,以及集成SQL的一些复杂的分析功能,发现Hive的MapReduce思想限制了Shark的发展。最后Da
柱子z
·
2023-10-03 03:21
spark-sql
大数据
hadoop
spark
Spark初体验
Spark包含了几个比较重要的模块:
Spark-SQL
、Str
BIGrey
·
2023-09-29 14:09
spark3
spark-sql
explain 命令的执行过程
1.SparkSQLDriver对于每个SQL语句,除了CommandFactory定义的,如dfs之外,都创建一个SparkSQLDriver对象,然后调用他的init方法和run方法。overridedefrun(command:String):CommandProcessorResponse={try{valsubstitutorCommand=SQLConf.withExistingCon
houzhizhen
·
2023-09-20 05:45
spark
spark
sql
spark-sql
sql on yarn --deploy-mode cluster 改造
前言众所周知,
spark-sql
不能提交到远端并且使用cluster进行部署:huangyichun@bigdata130023:~#spark-sql--masteryarn--deploy-modeclusterExceptioninthread"main"org.apache.spark.SparkException
青冬
·
2023-09-19 12:09
hadoop
spark
sql
大数据
HDP服务器上
spark-sql
联通hive元数据库
问题描述:金山云大数据平台(基于HDP)服务器上跑批数据加工脚本时,发现当中通过
spark-sql
执行的脚本没有执行,提示没有找到数据库;新打session窗口测试,通过
spark-sql
连接yarn后
NightFall丶
·
2023-09-17 23:44
#
Spark
#
hive
hive
数据库
服务器
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他