E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
SparkSql
Spark DPP(动态分区裁剪)导致的DataSourceScanExec NullPointerException问题分析以及解决
背景本文基于spark3.1.2,且运行在yarn模式下最近在调试
sparksql
的时候遇到了空指针的问题,如下:Causedby:java.lang.NullPointerExceptionatorg.apache.spark.sql.execution.DataSourceScanExec
鸿乃江边鸟
·
2023-06-19 07:42
spark
大数据
分布式
spark
big
data
scala
【Spark手机流量日志处理】使用
SparkSQL
按月统计流量使用量最多的用户
作者:“大数据小禅”文章简介:本篇文章属于Spark系列文章,专栏将会记录从spark基础到进阶的内容内容涉及到Spark的入门集群搭建,核心组件,RDD,算子的使用,底层原理,SparkCore,
SparkSQL
大数据小禅
·
2023-06-19 05:44
Spark
spark
大数据
hive
spark-streaming笔记
SparkStreaming笔记框架的类型:1.离线批处理:mapreduce、hive、SparkCore、
Sparksql
=》mapreducespark2.SQL的交互式查询:hive、
SparkSQL
3
最美不过你回眸
·
2023-06-18 23:34
老师笔记
Spark 环境搭建 阿善没用
Spark任务提交到Yarn1.课程说明1.1课程安排整个Spark框架课程分为如下9个部分,如下图所示:第1章:Spark环境搭建第2章:SparkCore第3章:SparkStreaming第4章:
SparkSQL
okbin1991
·
2023-06-18 23:03
spark
大数据
hadoop
hive
scala
3.pyspark.sql.GroupedData
SparkSQL
和DataFrames重要的类有:pyspark.sql.SQLContext:DataFrame和SQL方法的主入口pyspark.sql.DataFrame:将分布式数据集分组到指定列名的数据框中
丫丫iii
·
2023-06-18 19:54
Spark从入门到精通31:Spark SQL:Hive On Spark
包括
SparkSQL
,HiveOnTez,HiveOnSpark等。1.
SparkSQL
与HiveOnSpark
SparkSQL
与HiveOnSpark是不一样的。
勇于自信
·
2023-06-17 23:24
Spark SQL 内置函数
文章目录一、
SparkSQL
内置函数(一)内置函数概述1、10类内置函数2、两种使用方式(二)内置函数演示1、通过编程方式使用内置函数upper()2、通过SQL语句的方式使用内置函数upper()3、
梁辰兴
·
2023-06-17 12:51
大数据处理
spark
sql
大数据
尚硅谷大数据技术Spark教程-笔记08【
SparkSQL
(介绍、特点、数据模型、核心编程、案例实操、总结)】
尚硅谷大数据技术-教程-学习路线-笔记汇总表【课程资料下载】视频地址:尚硅谷大数据Spark教程从入门到精通_哔哩哔哩_bilibili尚硅谷大数据技术Spark教程-笔记01【SparkCore(概述、快速上手、运行环境、运行架构)】尚硅谷大数据技术Spark教程-笔记02【SparkCore(核心编程,RDD-核心属性-执行原理-基础编程-并行度与分区-转换算子)】尚硅谷大数据技术Spark教
upward337
·
2023-06-17 07:12
#
Spark
大数据
spark
sparkSQL
sql
DataFrame
spark面试题总结(大数据面试)
1、核心组件SparkCore:核心部分包含Spark基本功能(任务调度内存管理容错机制等)
SparkSQL
:Spark中交互式处理模块Spa
404个问号
·
2023-06-16 22:43
大数据
大数据
java
spark
Spark高频面试题(建议收藏)
它内部的组成模块,包含SparkCore,
SparkSQL
,SparkStreaming,SparkMLlib,SparkGraghx等...它的特点:快Spark计算速度是MapReduce计算速度的
无精疯
·
2023-06-16 22:12
spark
面试
java
大数据
hadoop
Java-Spark系列6-Spark SQL编程实战
DataFrame1.1.1通过json文件创建DataFrame1.1.2通过CSV文件创建DataFrame1.1.3通过hivetable创建DataFrame1.1.4通过jdbc数据源创建DataFrame二.
SparkSQL
只是甲
·
2023-06-16 18:14
大数据和数据仓库
#
Spark
SparkSQL实战
DataFrame
API
Spark
SQL
Spark
简介高效性基于内存Spark比MapReduce快100倍易用性函数式编程代码体积小通用性用于批处理、交互式查询(
SparkSQL
)、实时流处理(SparkStreaming)、机器学习(SparkMLlib
mengml_smile
·
2023-06-16 12:46
bigdata
spark
大数据
hadoop
pandas与pyspark计算效率对比
日常工作中,主要还是应用HQL和
SparkSQL
,数据量大,分布式计算很快;本地数据处理,一般会使用python的pandas包,api丰富,写法比较简单,但只能利用单核性能跑数,数据量大可能会比较慢;
一个散步者的梦
·
2023-06-16 07:32
Spark
Python
pandas
python
pyspark
数据处理
加速大规模数据处理和多维分析:基于Lucene和Hadoop的开源项目
项目介绍https://github.com/arlixu/lucene-hadoopLucene-Hadoop利用Lucene和Hadoop的强大功能,提供了以下关键特性:
SparkSQL
杨五五
·
2023-06-16 06:58
lucene
hadoop
开源
spark
spark—SQL实战案例
学习内容一、
sparkSQL
在IDEA的使用1.环境配置2.快速入门二、
sparkSQL
实战案例1.数据准备2.案例分析3.功能实现4.代码实现一、
sparkSQL
在IDEA的使用1.环境配置配置pom.xml
王博1999
·
2023-06-16 06:15
大数据
spark
sql
大数据
Spark大数据处理技术
生态圈相关技术的技术书籍俯览未来大局,不失精细剖析,呈现一个现代大数据框架的架构原理和实现细节透彻讲解Spark原理和架构,以及部署模式、调度框架、存储管理及应用监控等重要模块Spark生态圈深度检阅:SQL处理Shark和
SparkSQL
weixin_33935777
·
2023-06-16 02:15
人工智能
大数据
ui
Spark大数据处理讲课笔记4.1 Spark SQL概述、数据帧与数据集
零、本讲学习目标了解
SparkSQL
的基本概念掌握DataFrame的基本概念掌握Dataset的基本概念会基于DataFrame执行SQL查询在很多情况下,开发工程师并不了解Scala语言,也不了解Spark
贫坤户~濰小城
·
2023-06-15 21:41
大数据
spark
hive
Spark大数据处理讲课笔记4.2 Spark SQL数据源 - 基本操作
零、本讲学习目标学会使用默认数据源学会手动指定数据源理解数据写入模式掌握分区自动推断
SparkSQL
支持通过DataFrame接口对各种数据源进行操作。
贫坤户~濰小城
·
2023-06-15 21:37
hadoop
spark
大数据
2.1 初识Spark
在Spark生态圈中包含了
SparkSQL
、SparkStreaming、GraphX、
不喜欢编程的我
·
2023-06-15 20:23
spark
大数据
分布式
zeppelin的介绍与使用
支持多种语言:Scala(ApacheSpark)、Python(ApacheSpark)、
SparkSQL
、Hive、Markdown、Shell等。开发者可以通过实现更多的解释器来为Zeppeli
lee_dalizi
·
2023-06-15 17:19
大数据
数据库
大数据
spark
hive
1024程序员节
Spark SQL数据源:JDBC
文章目录一、
SparkSQL
读取关系数据库二、
SparkSQL
JDBC连接属性三、创建数据库与表(一)创建数据库(二)创建学生表(二)创建成绩表四、读取和写入数据库表(一)利用`dbtable`属性读取数据表
梁辰兴
·
2023-06-15 11:23
大数据处理
sql
spark
大数据
Spark SQL数据源:Hive表
文章目录一、
SparkSQL
支持读写Hive二、Spark配置hive-site.xml三、准备工作(一)启动Hive的metastore(二)启动SparkShell四、Spark读写Hive数据(一
梁辰兴
·
2023-06-15 11:51
大数据处理
hive
spark
sql
Spark
运行架构基本概念架构设计Spark中各种概念之间的相互关系Spark运行基本流程RDD运行原理设计背景RDD概念RDD特性RDD之间的依赖关系Shuffle操作窄依赖和宽依赖stage的划分RDD运行过程
SparkSQL
so.far_away
·
2023-06-15 03:12
大数据技术原理与应用
spark
大数据
分布式
SparkSQL
性能优化终极篇
前言随着Spark版本的不断迭代,
SparkSQL
底层使用了各种优化技术,无论方便性、性能都已经超越了RDD。
SunnyRivers
·
2023-06-14 09:19
Spark最佳实战与性能优化
性能优化
spark
大数据
sparksql
调优
Spark大数据处理学习笔记2.1 初识Spark
文章目录一、学习目标二、spark概述(一)Spark的组件1、SparkCore2、
SparkSQL
3、SparkStreaming4、MLlib5、GraphX6、独立调度器、Yarn、Mesos(
人生苦短@我用python
·
2023-06-14 06:03
Spark大数据处理
spark
学习
笔记
Spring Boot企业级开发和Spark大数据实时处理课程总结
集成Swagger5.SpringBoot集成MyBatis6.SpringBoot集成Redis二、PySpark1.PySpark概述2.PySpark基础操作3.PySparkRDD编程4.Py
SparkSQL
越来越不懂!
·
2023-06-14 01:01
SpringBoot
大数据
spring
boot
spark
深入探索基于Webdriver的分层自动化框架搭建
我们现在基本就是用appscannet
sparksql
map扫描一下,修复了回归下就完事,但对安全专家来说,扫描通过的程序,他
自动化测试码元
·
2023-06-13 21:46
自动化测试
接口自动化测试
软件测试
自动化
运维
开发语言
单元测试
postman
BigData-基于代价优化
如若不知,强烈建议看官先行阅读前面两文-《
SparkSQL
–有必要坐下来聊聊Join》和《BigData–Join中竟然也有谓词下推!?》。
天地不仁以万物为刍狗
·
2023-06-13 17:32
概念
系统架构
大数据分析
方法论
性能调优
基于DataHub元数据血缘管理实施方案
4.1基于pull机制抽取元数据web端ui方式cli端yml方式yml解析yml模板4.2.RESET-API方式API-MEDTADA人工构建模板5.血缘元数据5.1基于push机制构建血缘元数据
SparkSql
只会写demo的程序猿
·
2023-06-13 01:02
大数据
Kyuubi基本安装与使用指南
本文为kyuubi入门文章,介绍了Kyuubi基本安装与使用,并以Spark引擎为例讲述如何提交第一个
SparkSQL
任务。
BigDataToAI
·
2023-06-13 01:10
Kyuubi
spark
big
data
hadoop
kyuubi
大二下学期总结
通过实践,我掌握了Spark的数据处理流程、RDD的操作和
SparkSQL
的使用。同时,我也学习了Spark的调优方法和如何使用Spark进行机器学习。
不喜欢编程的我
·
2023-06-13 01:24
数据库
系统架构
sparkcore分区_Spark Core 学习笔记
围绕着Spark还推出了
SparkSQL
、SparkStreaming、MLlib和GraphX等组件。
晋成公
·
2023-06-12 23:12
sparkcore分区
每周一书《Spark与Hadoop大数据分析》分享!
大数据分析比较系统地讲解了利用Hadoop和Spark及其生态系统里的一系列工具进行大数据分析的方法,既涵盖ApacheSpark和Hadoop的基础知识,又深入探讨所有Spark组件——SparkCore、
SparkSQL
BAO7988
·
2023-06-12 23:37
大数据
大数据
大数据分析
大数据开发
大数据学习
spark
Spark SQL数据帧与数据集
)DataFrame概述(二)将RDD转成DataFrame二、数据集-Dataset(一)Dataset概述(二)将RDD转成DataSet(三)DataFrame与Dataset的关系三、简单使用
SparkSQL
梁辰兴
·
2023-06-12 14:18
大数据处理
spark
sql
大数据
2.1 初识Spark
在Spark生态圈中包含了
SparkSQL
、SparkStreaming、GraphX、
zl202111
·
2023-06-12 00:02
spark
大数据
hadoop
Spark Explain:查看执行计划
SparkSQL
explain方法有simple、extended、codegen、cost、formatted参数,具体如下目录一、基本语法二、执行计划处理流程三、具体案例一、基本语法从3.0开始,explain
AcWare 学习笔记
·
2023-06-11 20:35
大数据应用
spark
大数据
java
(一)Spark SQL三种方式启动
SparkSQL
isApacheSpark'smoduleforworkingwithstructureddata.
SparkSQL
是一个处理结构化数据的Spark模块注意
SparkSQL
和HiveonSpark
白面葫芦娃92
·
2023-06-11 20:55
SQL exists 是什么?和in有什么不同?
oldSQLBoy了,第一次注意到有exists这个函数之前都是用innotin来处理逻辑,也没有什么问题但是看到exists在各大数据库,包括
SparkSQL
、FlinkSQL中也都有支持对这个函数产生了兴趣
oifengo
·
2023-06-10 12:55
数据分析
sql
spark
数据库
实验5 Spark SQL 编程初级实践
实验5
SparkSQL
编程初级实践一、实验目的(1)通过实验掌握
SparkSQL
的基本编程方法。(2)熟悉RDD到DataFrame的转化方法。(3)熟悉利用
SparkSQL
管理来自不同数据源的数据。
菜鸡努力学习中
·
2023-06-09 08:32
spark
大数据:
sparkSQL
,DataFrame,schema,toDF,createDataFrame,pandas,读取read.format.schema.load
大数据:
sparkSQL
2022找工作是学历、能力和运气的超强结合体,遇到寒冬,大厂不招人,可能很多算法学生都得去找开发,测开测开的话,你就得学数据库,sql,oracle,尤其sql要学,当然,像很多金融企业
冰露可乐
·
2023-06-09 03:21
数据挖掘
pandas
大数据
createDataFrame
schema.load
sparkSQL
大数据:
sparkSQL
编程语法,DSL风格,SQL风格,select,filter,where,groupBy,createTempView,sql.functions
大数据:
sparkSQL
编程语法2022找工作是学历、能力和运气的超强结合体,遇到寒冬,大厂不招人,可能很多算法学生都得去找开发,测开测开的话,你就得学数据库,sql,oracle,尤其sql要学,当然
冰露可乐
·
2023-06-09 03:21
数据挖掘
大数据
sql
functions
createTempView
filter
where
sparkSQL
大数据:
sparkSQL
,历史,DataSet,DataFrame,sparkSession
大数据:
sparkSQL
2022找工作是学历、能力和运气的超强结合体,遇到寒冬,大厂不招人,可能很多算法学生都得去找开发,测开测开的话,你就得学数据库,sql,oracle,尤其sql要学,当然,像很多金融企业
冰露可乐
·
2023-06-09 03:50
数据挖掘
大数据
数据库
数据挖掘
sparkSession
sparkSQL
Spark开发--Spark SQL--数据源(十六)
一、数据源
SparkSQL
的默认数据源格式为parquet格式。数据源为Parquet文件时,
SparkSQL
可以方便地进行读取,甚至可以直接在Parquet文件上执行查询操作。
无剑_君
·
2023-06-09 02:42
SparkSQL
优化器与执行流程
文章目录SparkRDD执行流程
SparkSQL
的自动优化Catalyst优化器
SparkSQL
的执行流程SparkRDD执行流程如图所示:上图为RDD执行流程,主要的执行过程就是RDD代码→DAG调度器逻辑任务
蜜桃上的小叮当
·
2023-06-08 11:58
Spark
大数据
spark
hive
SparkSQL
UDF函数
文章目录前言
SparkSQL
定义UDF函数
SparkSQL
UDF相关代码UDF返回Float类型UDF返回Array类型UDF返回Dict类型前言无论是Hive还是
SparkSQL
分析处理数据时,往往需要使用函数
蜜桃上的小叮当
·
2023-06-08 11:28
Spark
python
开发语言
spark
SparkSQL
实现窗口函数
文章目录开窗函数介绍开窗函数使用语法开窗函数代码示例开窗函数介绍开窗函数的引入是为了既显示聚合前的数据,又显示聚合后的数据。即在每一行的最后一列添加聚合函数的结果。开窗用于为定义一个窗口(指运算将要操作的行的集合),它对一组值进行操作,不需要使用GroupBY子句对数据进行分组,能够在同一行中同时返回基础行的列和聚合列。聚合函数和开窗函数的区别:聚合函数是多行变一行;如果要显示其他列必须加入到gr
蜜桃上的小叮当
·
2023-06-08 11:28
Spark
sql
数据库
SparkSQL
优化
执行计划查看执行计划explain():只展示物理执行计划。(使用较多)explain(mode="simple"):只展示物理执行计划。`explain(mode=“extended”):展示物理执行计划和逻辑执行计划。explain(mode="codegen"):展示要Codegen生成的可执行Java代码。(使用较多)explain(mode="cost"):展示优化后的逻辑执行计划以及相
一个散步者的梦
·
2023-06-08 11:01
Spark
SQL
SparkSQL
Spark简介和三种部署方式
是专为大规模数据处理而设计的快速通用的计算引擎Spark可以完成各种运算,包括SQL查询、文本处理、机器学习等Spark由Scala语言开发,能够和Scala紧密结合1.2Spark组件SparkCore核心底层部分基于RDD支持多种语言
SparkSQL
不会编程的小小怪
·
2023-06-08 05:38
Spark
spark
scala
大数据
spark sql(四)物理计划解析
1、流程解析在该系列第二篇文章中介绍了
sparksql
整体的解析流程,我们知道整体的sql解析分为未解析的逻辑计划(UnresolvedLogicalPlan)、解析后的逻辑计划(LogicalPlan
Interest1_wyt
·
2023-06-07 18:57
spark
大数据
spark
sql
Hudi表创建时HDFS上的变化
SparkSQL
建Hudi表语句:CREATETABLEt71(dsBIGINT,utSTRING,pkBIGINT,f0BIGINT,f1BIGINT,f2BIGINT,f3BIGINT,f4BIGINT
一见
·
2023-06-07 18:56
hudi
flink
spark
hdfs
hadoop
hudi
上一页
9
10
11
12
13
14
15
16
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他