E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
SparkSQL)
SparkSQL
的文件加载和保存
一、文件加载1.spark.read.load是加载数据的通用方法,默认加载和保存的是parquet格式文件read可读格式2.spark.read.format("…")[.option("…")].load("…")format("…"):指定加载的数据类型,包括"csv"、"jdbc"、"json"、"orc"、"parquet"和"textFile"。load("…"):在"csv"、"j
爱吃喵的虎
·
2023-11-15 05:35
大数据
spark
spark
mysql
SparkSQL
数据的加载与保存
1读取和保存文件
SparkSQL
读取和保存的文件一般为三种,JSON文件、CSV文件和列式存储的文件,同时可以通过添加参数,来识别不同的存储和压缩格式。
shangjg3
·
2023-11-15 05:30
Spark
spark
大数据
sql
20210127_spark学习笔记
spark最基础的最核心的功能
SparkSQL
是SparkCore之上的一个组件,它引入了一个称为SchemaRDD的新数据抽
yehaver
·
2023-11-15 03:42
spark
大数据应用之 ---
SparkSQL
和 Hive的集成
大数据应用之—
SparkSQL
和Hive的集成创建软链接ln-s/opt/hive-3.1.3/conf/hive-site.xml/opt/spark-3.2.1/conf/hive-site.xml
fa_lsyk
·
2023-11-15 03:10
spark
大数据应用
hadoop
大数据
hive
sparkSQL
读取Excel表格
转自:https://www.cnblogs.com/shenyuchong/p/10291604.html编码初始化SparkSessionstatic{System.setProperty("hadoop.home.dir",HADOOP_HOME);spark=SparkSession.builder().appName("test").master("local[*]").config("
风是外衣衣衣
·
2023-11-14 18:52
scala
小知识点
技术
sparkSQL读取excel
excel
spark-excel依赖的问题
最近需要使用
SparkSQL
清洗Excel的数据,在网上找到了spark-excelcom.crealyticsspark-excel_2.120.13.7这个依赖包洗一些简单的Excel数据是没有问题的
乌 啼
·
2023-11-14 18:52
数据开发bug
数据仓库
大数据
大数据之Spark调优:Explain 查看执行计划
目录Explain查看执行计划准备测试用表和数据基本语法执行计划处理流程案例实操代码Explain查看执行计划Spark3.0大版本发布,
SparkSQL
的优化占比将近50%。
浊酒南街
·
2023-11-14 06:17
Spark调优
大数据
spark
分布式
Spark SQL 每年的1月1日算当年的第一个自然周, 给出日期,计算是本年的第几周
一、问题按每年的1月1日算当年的第一个自然周(遇到跨年也不管,如果1月1日是周三,那么到1月5号(周日)算是本年的第一个自然周,如果按周一是一周的第一天)计算是本年的第几周,那么
sparksql
如何写?
_lizhiqiang
·
2023-11-14 06:02
spark
sql
Spark3.0中的AOE、DPP和Hint增强
AQE是
SparkSQL
的一种动态优化机制,在运行时,每当ShuffleMap阶段执行完毕,AQE都会结合这个阶段的统计信息,基于既定的规则动态地调整、修正尚未执行的逻辑计划和物理计划,来完成对原始查询语句的运行时优化
shangjg3
·
2023-11-14 06:32
Spark
大数据
spark
分布式
SparkSQL
之Analyzed LogicalPlan生成过程
经过AstBuilder的处理,得到了UnresolvedLogicalPlan。该逻辑算子树中未被解析的有UnresolvedRelation和UnresolvedAttribute两种对象。Analyzer所起到的主要作用就是将这两种节点或表达式解析成有类型的(Typed)对象。在此过程中,需要用到Catalog的相关信息。 因为继承自RuleExecutor类,所以Analyzer执行
RainTicking
·
2023-11-14 01:48
大数据
大数据
scala
大数据
SparkSql
创建临时表并查询数据
importorg.apache.spark.sql.{DataFrame,SparkSession}importorg.apache.spark.sql.types.{LongType,StringType,StructType}/***AuthorVincer*Date2019/09/2610:10*LanguageScala*/objectStreamingDS{defmain(args:A
Vincer_DB
·
2023-11-13 16:04
大数据
Scala
大数据
SparkSQL
Dataset 的一些 Java api 操作
文章目录一、使用JavaAPI和JavaRDD在
SparkSQL
中向数据帧添加新列二、foreachPartition遍历Dataset三、Dataset自定义Partitioner四、Dataset重分区并且获取分区数五
小强签名设计
·
2023-11-13 12:29
spark
Dataset
Spark
SQL
spark sql读取hive数据直接写入doris,离线批量导入
一,
sparksql
读取hive表这里通过catalog查询表的字段信息,然后查询出来的字段colStr要给下面的doris使用。注意:我这里是直接拿取的hive表所有的字段。
黄瓜炖啤酒鸭
·
2023-11-13 12:36
apache
doris
sparkSql写入doris
spark
写入
doris
doris
spark
doris
进阶SQL——数据表中多列按照指定格式拼接,并将多行内容合并为map拼接
示例:str_to_map(concat_ws(',',collect_set(concat_ws(':',modelname,score))))asscore_map,这条语句是一个
SparkSQL
的语句
JingjingyiyiGuo
·
2023-11-12 22:25
MySQL
sql
数据库
软件开发学习资料大全
进入大数据
SparkSQL
的世界链接:https://pan.baidu.com/s/1_AINgCN8KaQEbnJRkWnKdw提取码:7j85Java深入微服务原理改造房产销售平台链接:https
时光如水_岁月如哥
·
2023-11-12 17:09
others
开发
SparkSQL
之Catelog体系
在
SparkSQL
系统中,Catalog主要用于各种函数资源信息和元数据信息(数据库、数据表、数据视图、数据分区与函数等)的统一管理。
SparkSQL
的Catalog体系涉及多个方面,不同
RainTicking
·
2023-11-12 12:07
大数据
大数据
scala
SparkSQL
之Rule体系
在UnresolvedLogicalPlan逻辑算子树的操作(如绑定、解析、优化等)中,主要方法都是基于规则(Rule)的,通过Scala语言模式匹配机制(Pattern-match)进行树结构的转换或节点改写。Rule是一个抽象类,子类需要复写apply(plan:TreeType)方法来制定特定的处理逻辑,基本定义如下。abstractclassRule[TreeTypevalbatchSta
RainTicking
·
2023-11-12 12:05
大数据
大数据
scala
SparkSQL
语法优化
SparkSQL
在整个执行计划处理的过程中,使用了Catalyst优化器。
shangjg3
·
2023-11-12 05:22
Spark
大数据
spark
分布式
Spark的执行计划
Spark3.0大版本发布,
SparkSQL
的优化占比将近50%。
shangjg3
·
2023-11-12 05:52
Spark
spark
大数据
分布式
基于Docker快速安装Spark及基础使用
编排工具docker-compose安装使用官网指导方式安装(不推荐)使用国内镜像源安装(推荐)安装docker的spark镜像结果通过SparkShell进行交互分析基础操作新建RDDRDD的更多操作缓存
SparkSQL
小小马里奥ぅ
·
2023-11-11 14:36
大数据
spark
scala
docker
大数据
未整理的知识链接
【scala】下划线用法总结【scala】下划线用法总结_scala下划线-CSDN博客
SparkSql
Row的解析
SparkSql
Row的解析-简书sparkdataframeforeachsparkdataframeforeach_mob64ca12f0cf8f
刘文钊1
·
2023-11-11 08:46
大数据
spark
使用spark进行递归的可行方案
展开方法有以下步骤:1.使用
sparksql
中sql直接递归展开:优点:可行,且效率很快缺点:一个sql炸到底层,无法添加在炸
刘文钊1
·
2023-11-11 08:12
#
spark
spark
大数据
分布式
第三阶段第一章——PySpark实战
它提供了一种高性能、通用、易用的计算引擎,支持数据并行处理、内存计算、迭代计算等多种计算模式,并提供了丰富的API,比如
SparkSQL
、SparkStreaming、Mlib和
WenJGo
·
2023-11-10 00:31
Python之路
python
spark
spark读取数据并打印_Spark读取和保存数据
读写Parquet(DataFrame)
SparkSQL
可以支持Parquet、JSON、Hive等数据源,并且可以通过JDBC连接外部数据源。
凌子卿
·
2023-11-09 14:57
spark读取数据并打印
SparkCore和
SparkSql
读取与保存hdfs文件的方法
第一种SparkCorevalconf=newSparkConf().setAppName(“File”).setMaster(“spark://IP地址:7077”)//这里你可以写local,我这样写是可以看做是在用spark-on-yarnvalsc=newSparkContext(conf);valdata=sc.textFile(“hdfs://IP地址:9000/文件路径”)//读取,
尘世壹俗人
·
2023-11-09 14:24
大数据Spark技术
spark
大数据
spark读取和保存本机文件
保存
sparksql
到本地要将
SparkSQL
中的数据导出到本地,可以使用DataFrame的`write`方码示例:1.导出为CSV文件:df.write.format("csv").option("
刘文钊1
·
2023-11-09 14:52
spark
大数据
分布式
8.spark自适应查询-AQE之自适应调整Shuffle分区数量
目录概述主要功能自适应调整Shuffle分区数量原理默认环境配置修改配置结束概述自适应查询执行(AQE)是
SparkSQL
中的一种优化技术,它利用运行时统计信息来选择最高效的查询执行计划,自ApacheSpark3.2.0
流月up
·
2023-11-09 10:25
spark
spark
大数据
AQE
自适应查询
自适应调整Shuffle分区数
调优
SparkSQL
- 常见问题
1、广播超时参考资料:https://www.ai2news.com/blog/3041168/报错信息:Causedby:org.apache.spark.SparkException:Couldnotexecutebroadcastin300secs.Youcanincreasethetimeoutforbroadcastsviaspark.sql.broadcastTimeoutordisa
m0_46218511
·
2023-11-09 04:18
数据仓库
数据仓库
sparksql
明明插入了但是表里数据是null
现象将数据插入表的时候,表里的数据是null代码原因建表语句的时候detail字段的类型写成了bigint,而要插入的数据类型是string,所以把建表语句的字段类型改了然后sql文件重跑就解决了
五月天的小迷弟
·
2023-11-08 20:29
一些小坑
大数据
数据库
spark
数据仓库
SparkSql
SparkSql
pom.xml
SparkSQL
01_Demopom.xml4.0.0org.examplespark_sql1.0-SNAPSHOTorg.apache.sparkspark-core_
program chef
·
2023-11-08 20:46
#
3计算Spark
spark
大数据之Spark:Spark 基础
在任何规模的数据计算中,Spark在性能和扩展性上都更具优势;在FullStack理想的指引下,Spark中的
SparkSQL
、S
浊酒南街
·
2023-11-08 06:40
大数据系列三
spark
big
data
hadoop
Spark SQL自定义collect_list分组排序
想要在
sparksql
中对groupby+concat_ws()的字段进行排序,可以参考如下方法。
容若只如初见
·
2023-11-07 16:47
spark
sql
list
Spark知识点总结大全
sparksql
:使用sql对历史数据做交互式查询,用来操作结构化数据sparkStreaming:近实时计算对实时数据进行流式计算的组件sparkgraph
好好丁先森
·
2023-11-07 05:11
spark
大数据
分布式
Spark SQL
SparkSQL
本文来自B站黑马程序员-Spark教程:原地址第一章
SparkSql
快速入门1.1什么是
SparkSql
SparkSql
isSpark’smoduleforworkingwithstrutureddata.
SparkSql
Am98
·
2023-11-07 05:36
spark
sql
大数据
Spark知识点全总结
SparkSQL
是Spark用来操作结构化数据的程序包,可以
Poolweet_
·
2023-11-07 05:30
spark
大数据
知识点
spark
大数据
spark sql根据某个数字字段进行排序失效问题
举个例子,我的一个dataframe表里有uid,day,cnt三个字段,如果我要根据cnt进行倒序排列,首先要确保cnt的类型是integer,否则
sparksql
的orderbycnt是不会生效的。
机灵鬼鬼
·
2023-11-06 07:51
数据湖Iceberg介绍和使用(集成Hive、
SparkSQL
、FlinkSQL)
文章目录简介概述作用特性数据存储、计算引擎插件化实时流批一体数据表演化(TableEvolution)模式演化(SchemaEvolution)分区演化(PartitionEvolution)列顺序演化(SortOrderEvolution)隐藏分区(HiddenPartition)镜像数据查询(TimeTravel)支持事务(ACID)基于乐观锁的并发支持文件级数据剪裁其他数据湖框架的对比存储结
迷雾总会解
·
2023-11-05 22:25
大数据
数据库
hive
数据仓库
数据湖
lceberg
SparkSQL
1、Spark简介2、Spark-Core核心算子3、Spark-Core4、
SparkSQL
文章目录一、概述1、简介2、DataFrame、DataSet3、
SparkSQL
特点二、
SparkSQL
编程
ha_lydms
·
2023-11-05 21:11
大数据
scala
spark
sparksql
大数据
黑猴子的家:Spark SQL 的背景故事
1、
SparkSQL
的前身是Shark。
黑猴子的家
·
2023-11-05 12:08
SparkRDD转DataFrame的两种方式
SparkRDD转DataFrame映射的方式packagecom.gofun.
sparkSql
importorg.apache.log4j.
gofun
·
2023-11-05 10:19
陌陌-pyspark
使用陌陌案例数据,用
sparksql
进行需求实现需求说明字段说明代码实现#conding=utf-8importosos.environ['JAVA_HOME']='/export/server/jdk1.8.0
5:30
·
2023-11-04 21:42
hadoop
大数据
hive
Spark SQL
一.
SparkSql
SparkSQL
可以简化RDD的开发,提高开发效率.提供了2个编程抽象,类似SparkCore中的RDD➢DataFrame➢DataSet1.
SparkSQL
特点➢易整合无缝的整合了
ytzhyp
·
2023-11-04 04:23
spark
sql
大数据
通过IDEA编写Spark SQL, 以编程方式执行Spark SQL查询, 使用Scala语言操作Spark SQL 25
1.使用Scala语言操作
SparkSQL
,将RDD转为DataFrame前面我们学习了如何在SparkShell中使用SQL完成查询,现在我们通过IDEA编写
SparkSQL
查询程序。
啊策策
·
2023-11-04 04:21
Spark社区
通过IDEA编写Spark
SQL
以编程方式执行Spark
SQL查询
SQL
Spark3.2教程(七)IDEA下Java开发Spark SQL
上一篇文章中,我们使用了Scala语言调用
SparkSQL
接口进行了开发,本篇文章我们使用Java语言进行同样业务功能的处理,依然是对JSON、Txt文本进行处理。
Java朱老师
·
2023-11-04 04:43
Spark
intellij-idea
java
spark
Spark SQL之IDEA中的应用
2.123.0.0Test1packagetest.wyh.sqlimportorg.apache.spark.SparkConfimportorg.apache.spark.sql.SparkSessionobjectTestSQL{defmain(args:Array[String]):Unit={//创建
SparkSQL
QYHuiiQ
·
2023-11-04 04:43
大数据之Spark
spark
sql
Spark3.2教程(六)IDEA下Scala开发Spark SQL
SparkSQL
是为了提供对结构化数据处理而推出的技术。Spark自带的例子还是比较详尽而浅显易懂的。本次
SparkSQL
,我们通过研究Spark自带的教程demo来学习。
Java朱老师
·
2023-11-04 04:13
Spark
intellij-idea
scala
spark
SparkSQL
的3种Join实现
原文引言Join是SQL语句中的常用操作,良好的表结构能够将数据分散在不同的表中,使其符合某种范式,减少表冗余、更新容错等。而建立表和表之间关系的最佳方式就是Join操作。对于Spark来说有3中Join的实现,每种Join对应着不同的应用场景:BroadcastHashJoin:适合一张较小的表和一张大表进行joinShuffleHashJoin:适合一张小表和一张大表进行join,或者是两张小
麦子星星
·
2023-11-04 03:38
Spark的主要概念
文章目录博主介绍本文内容1.RDD2.
SparkSQL
3.SparkStreaming4.MLlib5.GraphX总结文章总结博主目标博主介绍我是廖志伟,一名Java开发工程师、Java领域优质创作者
我是廖志伟
·
2023-11-03 18:49
#
大数据开发
spark
大数据
分布式
利用文件模拟数据表
importorg.apache.spark.SparkConfimportorg.apache.spark.sql.SparkSessionobjectSparkApp{defmain(args:Array[String]):Unit={valconf=newSparkConf().setAppName("
SparkSql
Test
Jorvi
·
2023-11-02 05:20
Avro序列化Java中 的BigDecimal
背景由于业务需要,需要将
SparkSQL
中Array、Map、Struct使用avro序列化成一个大的字节数组进行存储。
TMH_ITBOY
·
2023-11-01 18:42
Spark
java
avro
bigdecimal
SparkSQL
上一页
2
3
4
5
6
7
8
9
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他