E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
SparkSQL
spark性能调优 | 默认并行度
SparkSql
默认并行度看官网,默认并行度200https://spark.apache.org/docs/2.4.5/sql-performance-tuning.html#other-configuration-options
Knight_AL
·
2023-11-19 18:04
Spark优化
spark
大数据
分布式
企业spark案例 —— 出租车轨迹分析(Python)
第1关:
SparkSql
数据清洗#-*-coding:UTF-8-*-frompyspark.sqlimportSparkSessionif__name__=='__main__':spark=SparkSession.builder.appName
垫脚摸太阳
·
2023-11-19 07:35
python
spark
python
javascript
SparkSQL
中的自定义函数-UDF&UDAF
一、UDF(User-Defined-Function)用户自定义函数1、注册UDFudf对象=spark.udf.register(参数1,参数2,参数3)参数1:UDF名称,可用于SQL风格参数2:被注册成UDF的方法名参数3:声明UDF的返回值类型udf对象:返回值对象,是一个UDF对象,可用于DSL风格//获取系统时间valdf=newSimpleDateFormat("yyyy-MM-d
是阿威啊
·
2023-11-18 21:49
spark基础知识学习和练习
scala
spark
Spark(三)--
SparkSQL
(三) -- Dataset和DataFrame
目录4.Dataset的特点4.1Dataset是什么?4.2即使使用Dataset的命令式API,执行计划也依然会被优化4.3Dataset的底层是什么?4.4可以获取Dataset对应的RDD表示5.DataFrame的作用和常见操作5.1DataFrame是什么?5.2通过隐式转换创建DataFrame5.3通过外部集合创建DataFrame5.4在DataFrame上可以使用的常规操作5.
HelloWorld闯天涯
·
2023-11-18 21:17
Spark
SparkSQL
之 DataFrame&DataSet
DataFrame创建DataFrame有三种方式:1.读外部设备的文件,返回DataFrame对象2.从RDD转换成DataFrame对象3.读取Hive中的表,返回DataFrame对象4.调用createDataFrame方法,返回DataFrame对象一、DataFrame的创建1、准备SparkSession环境SparkSession是Spark最新的SQL查询起始点历史版本已弃用pr
是阿威啊
·
2023-11-18 21:31
spark基础知识学习和练习
spark
大数据
Flink原理与实现:详解Flink中的状态管理
硬刚大数据系列文章链接:2021年从零到大数据专家的学习指南(全面升级版)2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇2021年从零到大数据专家面试篇之
SparkSQL
篇2021
王知无(import_bigdata)
·
2023-11-18 19:59
大数据成神之路
flink
big
data
spark
Spark 优化 (一) --------- Spark 性能调优
Kryo序列化6.调节本地化等待时长二、算子调优1.mapPartitions2.foreachPartition优化数据库操作3.filter与coalesce的配合使用4.repartition解决
SparkSQL
在森林中麋了鹿
·
2023-11-17 10:34
Spark
spark
大数据
分布式
SparkSQL
项目实战
1准备数据我们这次Spark-sql操作所有的数据均来自Hive,首先在Hive中创建表,并导入数据。一共有3张表:1张用户行为表,1张城市表,1张产品表。1)将city_info.txt、product_info.txt、user_visit_action.txt上传到/opt/module/data[atguigu@hadoop102module]$mkdirdata2)将创建对应的三张表hi
shangjg3
·
2023-11-16 06:47
Spark
spark
大数据
sql
MySQL、HiveSQL、
SparkSQL
的区别
1、用途角度1)MySQL是一种关系型数据库,主要用于存储和管理结构化数据2)HiveSQL是用于Hadoop平台上的一种SQL-like语言,主要用于对大数据进行查询和分析3)
SparkSQL
是一种基于
BaoZi969
·
2023-11-16 03:13
mysql
hive
hadoop
Spark SQL中Dataframe join操作含null值的列
SparkSQL
中Dataframejoin操作含null值的列当在
SparkSQL
中对两个Dataframe使用join时,当作为连接的字段的值含有null值。
青春程序不迷路
·
2023-11-16 00:48
Spark问题总结
spark
大数据
python中的join函数连接dataframe_Spark DataFrame中的join使用说明
sparksql
中join的类型SparkDataFrame中join与SQL很像,都有innerjoin,leftjoin,rightjoin,fulljoin;类型说明innerjoin内连接leftjoin
冯慎行
·
2023-11-16 00:17
Spark DataFrame列的合并与拆分
版本说明:Spark-2.3.0使用
SparkSQL
在对数据进行处理的过程中,可能会遇到对一列数据拆分为多列,或者把多列数据合并为一列。
L.ZZ
·
2023-11-16 00:14
Spark
大数据
spark
大数据
分布式
spark创建DataFrame的N种方式
注:本篇介绍基于scala(pyspark选择性参考)一、maven配置基础依赖scala-library(scala基础环境)spark-sql(
sparksql
执行环境)mysql(要访问mysql
阿民啊
·
2023-11-15 09:24
SparkSql
spark
大数据
Spark SQL编程
1.
SparkSQL
概述1.1什么是
SparkSQL
SparkSQL
是用于结构化数据处理的Spark模块。
shangjg3
·
2023-11-15 05:09
Spark
spark
sql
大数据
SparkSQL
-数据的加载和保存(包含数据库)
一、文件读写1、read适配的文件类型spark.read.csvformatjdbcjsonloadoptionoptionsorcparquetschematabletexttextFile读文件时直接在文件上进行查询:文件格式.`文件路径`spark.sql("select*fromjson.`/opt/module/data/user.json`").show2、write写df.writ
是阿威啊
·
2023-11-15 05:38
spark基础知识学习和练习
spark
hive
mysql
数据仓库
sparkSql
数据的加载与保存
sparkSQL
加载数据1.read加载数据scala>spark.read.csvformatjdbcjsonloadoptionoptionsorcparquetschematabletexttextFile
大梁、
·
2023-11-15 05:08
spark
sparkSql
SparkSQL
加载文件与保存文件
sparkSQL
加载文件与保存文件
SparkSQL
加载文件步骤:先获取sparkSession对象valspark=SparkSession.builder().appName("testload").
扎马尾的女孩
·
2023-11-15 05:37
spark
SparkSQL
数据的加载和保存
一、通用加载和保存方式
SparkSQL
提供了通用的保存数据和数据加载的方式。
落花雨时
·
2023-11-15 05:07
大数据
spark
yarn
big
data
大数据
SparkSQL
数据源
第1关:
SparkSQL
加载和保存代码:packagecom.educoder.bigData.
sparksql
2;importorg.apache.spark.sql.AnalysisException
小kamil
·
2023-11-15 05:06
大数据
spark
scala
SparkSQL
的文件加载和保存
一、文件加载1.spark.read.load是加载数据的通用方法,默认加载和保存的是parquet格式文件read可读格式2.spark.read.format("…")[.option("…")].load("…")format("…"):指定加载的数据类型,包括"csv"、"jdbc"、"json"、"orc"、"parquet"和"textFile"。load("…"):在"csv"、"j
爱吃喵的虎
·
2023-11-15 05:35
大数据
spark
spark
mysql
SparkSQL
数据的加载与保存
1读取和保存文件
SparkSQL
读取和保存的文件一般为三种,JSON文件、CSV文件和列式存储的文件,同时可以通过添加参数,来识别不同的存储和压缩格式。
shangjg3
·
2023-11-15 05:30
Spark
spark
大数据
sql
20210127_spark学习笔记
spark最基础的最核心的功能
SparkSQL
是SparkCore之上的一个组件,它引入了一个称为SchemaRDD的新数据抽
yehaver
·
2023-11-15 03:42
spark
大数据应用之 ---
SparkSQL
和 Hive的集成
大数据应用之—
SparkSQL
和Hive的集成创建软链接ln-s/opt/hive-3.1.3/conf/hive-site.xml/opt/spark-3.2.1/conf/hive-site.xml
fa_lsyk
·
2023-11-15 03:10
spark
大数据应用
hadoop
大数据
hive
sparkSQL
读取Excel表格
转自:https://www.cnblogs.com/shenyuchong/p/10291604.html编码初始化SparkSessionstatic{System.setProperty("hadoop.home.dir",HADOOP_HOME);spark=SparkSession.builder().appName("test").master("local[*]").config("
风是外衣衣衣
·
2023-11-14 18:52
scala
小知识点
技术
sparkSQL读取excel
excel
spark-excel依赖的问题
最近需要使用
SparkSQL
清洗Excel的数据,在网上找到了spark-excelcom.crealyticsspark-excel_2.120.13.7这个依赖包洗一些简单的Excel数据是没有问题的
乌 啼
·
2023-11-14 18:52
数据开发bug
数据仓库
大数据
大数据之Spark调优:Explain 查看执行计划
目录Explain查看执行计划准备测试用表和数据基本语法执行计划处理流程案例实操代码Explain查看执行计划Spark3.0大版本发布,
SparkSQL
的优化占比将近50%。
浊酒南街
·
2023-11-14 06:17
Spark调优
大数据
spark
分布式
Spark SQL 每年的1月1日算当年的第一个自然周, 给出日期,计算是本年的第几周
一、问题按每年的1月1日算当年的第一个自然周(遇到跨年也不管,如果1月1日是周三,那么到1月5号(周日)算是本年的第一个自然周,如果按周一是一周的第一天)计算是本年的第几周,那么
sparksql
如何写?
_lizhiqiang
·
2023-11-14 06:02
spark
sql
Spark3.0中的AOE、DPP和Hint增强
AQE是
SparkSQL
的一种动态优化机制,在运行时,每当ShuffleMap阶段执行完毕,AQE都会结合这个阶段的统计信息,基于既定的规则动态地调整、修正尚未执行的逻辑计划和物理计划,来完成对原始查询语句的运行时优化
shangjg3
·
2023-11-14 06:32
Spark
大数据
spark
分布式
SparkSQL
之Analyzed LogicalPlan生成过程
经过AstBuilder的处理,得到了UnresolvedLogicalPlan。该逻辑算子树中未被解析的有UnresolvedRelation和UnresolvedAttribute两种对象。Analyzer所起到的主要作用就是将这两种节点或表达式解析成有类型的(Typed)对象。在此过程中,需要用到Catalog的相关信息。 因为继承自RuleExecutor类,所以Analyzer执行
RainTicking
·
2023-11-14 01:48
大数据
大数据
scala
大数据
SparkSql
创建临时表并查询数据
importorg.apache.spark.sql.{DataFrame,SparkSession}importorg.apache.spark.sql.types.{LongType,StringType,StructType}/***AuthorVincer*Date2019/09/2610:10*LanguageScala*/objectStreamingDS{defmain(args:A
Vincer_DB
·
2023-11-13 16:04
大数据
Scala
大数据
SparkSQL
Dataset 的一些 Java api 操作
文章目录一、使用JavaAPI和JavaRDD在
SparkSQL
中向数据帧添加新列二、foreachPartition遍历Dataset三、Dataset自定义Partitioner四、Dataset重分区并且获取分区数五
小强签名设计
·
2023-11-13 12:29
spark
Dataset
Spark
SQL
spark sql读取hive数据直接写入doris,离线批量导入
一,
sparksql
读取hive表这里通过catalog查询表的字段信息,然后查询出来的字段colStr要给下面的doris使用。注意:我这里是直接拿取的hive表所有的字段。
黄瓜炖啤酒鸭
·
2023-11-13 12:36
apache
doris
sparkSql写入doris
spark
写入
doris
doris
spark
doris
进阶SQL——数据表中多列按照指定格式拼接,并将多行内容合并为map拼接
示例:str_to_map(concat_ws(',',collect_set(concat_ws(':',modelname,score))))asscore_map,这条语句是一个
SparkSQL
的语句
JingjingyiyiGuo
·
2023-11-12 22:25
MySQL
sql
数据库
软件开发学习资料大全
进入大数据
SparkSQL
的世界链接:https://pan.baidu.com/s/1_AINgCN8KaQEbnJRkWnKdw提取码:7j85Java深入微服务原理改造房产销售平台链接:https
时光如水_岁月如哥
·
2023-11-12 17:09
others
开发
SparkSQL
之Catelog体系
在
SparkSQL
系统中,Catalog主要用于各种函数资源信息和元数据信息(数据库、数据表、数据视图、数据分区与函数等)的统一管理。
SparkSQL
的Catalog体系涉及多个方面,不同
RainTicking
·
2023-11-12 12:07
大数据
大数据
scala
SparkSQL
之Rule体系
在UnresolvedLogicalPlan逻辑算子树的操作(如绑定、解析、优化等)中,主要方法都是基于规则(Rule)的,通过Scala语言模式匹配机制(Pattern-match)进行树结构的转换或节点改写。Rule是一个抽象类,子类需要复写apply(plan:TreeType)方法来制定特定的处理逻辑,基本定义如下。abstractclassRule[TreeTypevalbatchSta
RainTicking
·
2023-11-12 12:05
大数据
大数据
scala
SparkSQL
语法优化
SparkSQL
在整个执行计划处理的过程中,使用了Catalyst优化器。
shangjg3
·
2023-11-12 05:22
Spark
大数据
spark
分布式
Spark的执行计划
Spark3.0大版本发布,
SparkSQL
的优化占比将近50%。
shangjg3
·
2023-11-12 05:52
Spark
spark
大数据
分布式
基于Docker快速安装Spark及基础使用
编排工具docker-compose安装使用官网指导方式安装(不推荐)使用国内镜像源安装(推荐)安装docker的spark镜像结果通过SparkShell进行交互分析基础操作新建RDDRDD的更多操作缓存
SparkSQL
小小马里奥ぅ
·
2023-11-11 14:36
大数据
spark
scala
docker
大数据
未整理的知识链接
【scala】下划线用法总结【scala】下划线用法总结_scala下划线-CSDN博客
SparkSql
Row的解析
SparkSql
Row的解析-简书sparkdataframeforeachsparkdataframeforeach_mob64ca12f0cf8f
刘文钊1
·
2023-11-11 08:46
大数据
spark
使用spark进行递归的可行方案
展开方法有以下步骤:1.使用
sparksql
中sql直接递归展开:优点:可行,且效率很快缺点:一个sql炸到底层,无法添加在炸
刘文钊1
·
2023-11-11 08:12
#
spark
spark
大数据
分布式
第三阶段第一章——PySpark实战
它提供了一种高性能、通用、易用的计算引擎,支持数据并行处理、内存计算、迭代计算等多种计算模式,并提供了丰富的API,比如
SparkSQL
、SparkStreaming、Mlib和
WenJGo
·
2023-11-10 00:31
Python之路
python
spark
spark读取数据并打印_Spark读取和保存数据
读写Parquet(DataFrame)
SparkSQL
可以支持Parquet、JSON、Hive等数据源,并且可以通过JDBC连接外部数据源。
凌子卿
·
2023-11-09 14:57
spark读取数据并打印
SparkCore和
SparkSql
读取与保存hdfs文件的方法
第一种SparkCorevalconf=newSparkConf().setAppName(“File”).setMaster(“spark://IP地址:7077”)//这里你可以写local,我这样写是可以看做是在用spark-on-yarnvalsc=newSparkContext(conf);valdata=sc.textFile(“hdfs://IP地址:9000/文件路径”)//读取,
尘世壹俗人
·
2023-11-09 14:24
大数据Spark技术
spark
大数据
spark读取和保存本机文件
保存
sparksql
到本地要将
SparkSQL
中的数据导出到本地,可以使用DataFrame的`write`方码示例:1.导出为CSV文件:df.write.format("csv").option("
刘文钊1
·
2023-11-09 14:52
spark
大数据
分布式
8.spark自适应查询-AQE之自适应调整Shuffle分区数量
目录概述主要功能自适应调整Shuffle分区数量原理默认环境配置修改配置结束概述自适应查询执行(AQE)是
SparkSQL
中的一种优化技术,它利用运行时统计信息来选择最高效的查询执行计划,自ApacheSpark3.2.0
流月up
·
2023-11-09 10:25
spark
spark
大数据
AQE
自适应查询
自适应调整Shuffle分区数
调优
SparkSQL
- 常见问题
1、广播超时参考资料:https://www.ai2news.com/blog/3041168/报错信息:Causedby:org.apache.spark.SparkException:Couldnotexecutebroadcastin300secs.Youcanincreasethetimeoutforbroadcastsviaspark.sql.broadcastTimeoutordisa
m0_46218511
·
2023-11-09 04:18
数据仓库
数据仓库
sparksql
明明插入了但是表里数据是null
现象将数据插入表的时候,表里的数据是null代码原因建表语句的时候detail字段的类型写成了bigint,而要插入的数据类型是string,所以把建表语句的字段类型改了然后sql文件重跑就解决了
五月天的小迷弟
·
2023-11-08 20:29
一些小坑
大数据
数据库
spark
数据仓库
SparkSql
SparkSql
pom.xml
SparkSQL
01_Demopom.xml4.0.0org.examplespark_sql1.0-SNAPSHOTorg.apache.sparkspark-core_
program chef
·
2023-11-08 20:46
#
3计算Spark
spark
大数据之Spark:Spark 基础
在任何规模的数据计算中,Spark在性能和扩展性上都更具优势;在FullStack理想的指引下,Spark中的
SparkSQL
、S
浊酒南街
·
2023-11-08 06:40
大数据系列三
spark
big
data
hadoop
上一页
2
3
4
5
6
7
8
9
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他