E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
SparkSQL)
3、JSON数据的处理
3.1介绍JSON数据
SparkSQL
canautomaticallyinfertheschemaofaJSONdatasetandloaditasaDataFrame
SparkSQL
能够自动将JSON
Wzideng
·
2023-08-05 15:25
#
spark
json
ajax
前端
Spark、RDD、Hive 、Hadoop-Hive 和传统关系型数据库区别
在离线计算功能上类似于mapreduce的作用MapReduce的缺点运行速度慢(没有充分利用内存)接口比较简单,仅支持MapReduce功能比较单一只能做离线计算Spark优势运行速度快自身生态比较完整
sparksql
sparkstreamingsparkmllibSparkMLap
Wzideng
·
2023-08-05 15:22
#
spark
hadoop
spark
hive
六万字!Spark Core、Spark SQL、Spark Streaming一锅端
分区Shuffle过程RDD创建方式算子常用的转换算子(Scala版)常用的转换算子(Java版)常用的动作算子(Scala)RDD持久化RDD共享变量RDD分区设计数据倾斜示例:WordCount四、
SparkSQL
Shark
菜鸟也学大数据
·
2023-08-05 02:16
菜鸟也学大数据
Spark
大数据
分布式
hadoop
spark
Spark RDD详解
它旨在执行批处理(类似于MapReduce)和提供新的工作特性,例如流计算,
SparkSQL
交互式查询
丿沐染烟忱丶
·
2023-08-04 18:03
Spark
spark
分布式
大数据
PySpark 之
SparkSQL
编程
表示一种不可变的、分区储存的集合,可以进行并行操作DataFrame是一种以列对数据进行分组表达的分布式集合,DataFrame等同于
SparkSQL
中的关系表。
风老魔
·
2023-08-04 18:33
大数据
大数据
sparksql
sparksql
中使用with子查询,insert overwrite table的正确用法示例
sethive.exec.dynamic.partition=true;--是否允许动态分区sethive.exec.dynamic.partition.mode=nonstrict;--分区模式设置setspark.sql.adaptive.enabled=true;setspark.sql.adaptive.shuffle.targetPostShuffleInputSize=128MB;wi
qq_43193797
·
2023-08-03 10:49
sql
Spark-Hbase重点知识回顾
在离线计算功能上类似于mapreduce的作用MapReduce的缺点运行速度慢(没有充分利用内存)接口比较简单,仅支持MapReduce功能比较单一只能做离线计算Spark优势运行速度快自身生态比较完整
sparksql
sparkstreamingsparkmllibSparkMLap
Wzideng
·
2023-08-02 14:35
#
HBase
#
spark
大数据学习
spark
hbase
大数据
分布式
Spark性能调优指南来了!
SparkSQL
:是Spark用来操作结构化数据的程序包。通过
SparkSQL
,
笑看风云路
·
2023-07-31 15:44
spark
大数据
性能调优
Spark SQL快速入门
1.了解
SparkSQL
1.1什么是
SparkSQL
SparkSQL
是spark的一个模块,用于处理海量的结构化数据。1.2
SparkSQL
有什么特点?优点是什么?
CodeRanger
·
2023-07-31 00:54
大数据
python初学
spark
大数据
分布式
了解下
SparkSQL
中的笛卡尔积
虽然应该尽量避免使用笛卡尔积,因为要全量匹配,所以运算的效率十分低下,但是有些业务有必须得用,所以在此了解下
SparkSQL
中的笛卡尔积。
淡定一生2333
·
2023-07-30 23:28
Spark学习
java
数据库
前端
spark_SQL 学习
历经版本迭代更新,
sparksql
中原本带有模式信息的RDD即SchemaRDD,在spark1.3之后变成了新的数据结构DataFrameRDD是风不是的java对象的集合,RDD无法知道RDD内部存储的数据结构的详细模式信息
BitGuo
·
2023-07-30 12:27
独孤九剑-Spark面试80连击(下)
SparkSQL
和StructuredStreaming会另起专题介绍,欢迎持续关注。39.Spark的UDF?
嘻哈吼嘿呵
·
2023-07-30 05:36
#
Spark
ERROR Executor: Exception in task 0.0 in stage 1.0 (TID 1) java.sql.BatchUpdateException: Duplicate
sparksql
把JDBC从关系型数据库中读取数据的方式创建DataFrame报错:20/08/2615:29:37ERRORExecutor:Exceptionintask0.0instage1.0(
x我有辣条跟我走。
·
2023-07-29 18:14
sparksql
参数
Spark参数场景配置参数类型参数参数说明平台默认值场景与建议资源申请spark.executor.memoryExecutorJava进程的堆内存大小即ExecutorJava进程的Xmx值2g默认设置,或者同时等比例增大,最高不超过默认值的3倍,超过的单独拿出来看下(注意作业是否数据倾斜)可根据单个文件大小进行预估若是orc格式,需乘以2-3倍spark.yarn.executor.memor
莫待花无空折枝
·
2023-07-29 14:23
spark
大数据
大数据处理框架-Spark DataFrame构造、join和null空值填充
1、SparkDataFrame介绍DataFrame是
SparkSQL
中的一个概念,它是一个分布式的数据集合,可以看作是一张表。
申子辰林
·
2023-07-29 11:06
Scala
Spark
BigData
spark
大数据
分布式
spark结构化流处理引擎
结构化流基于
SparkSQL
引擎,使用DataFrame和DataSet作为数据抽象,支持SQL查询、流式数据转
yyyyjinying
·
2023-07-29 07:18
spark
spark
大数据
spark结构化流
spark3.0版本--
SparkSQL
spark3.0版本--
SparkSQL
第1章
SparkSQL
概述1.1什么是
SparkSQL
1.2为什么要有
SparkSQL
1.3
SparkSQL
原理1.3.1什么是DataFrame1.3.2什么是
旧城里的阳光
·
2023-07-29 04:48
大数据
spark3.0
大数据
spark
153-184-spark-核心编程-
sparksql
153-spark-核心编程-
sparksql
:
SparkSQL
是Spark用于结构化数据(structureddata)处理的Spark模块。
镇魂Boby
·
2023-07-29 04:48
java
大数据
spark
spark
大数据
分布式
Spark编程-Spark中的Row
Spark中的RowSpark中的Row是
SparkSQL
中的一种数据结构,用于表示一行数据。
Matrix70
·
2023-07-29 04:18
Spark
spark
ajax
大数据
Spark SQL
第1章
SparkSQL
概述1.1什么是
SparkSQL
SparkSQL
是Spark用于结构化数据(structureddata)处理的Spark模块。
水花一直飞
·
2023-07-29 04:47
spark
spark
sql
hive
Spark编程-
SparkSQL
SparkSql
能做些啥
SparkSQL
的核心概念是DataFrame,它是一个分布式的数据集合,类似于关系数据库中的表。
Matrix70
·
2023-07-29 04:16
Spark
spark
大数据
分布式
一、Spark基础解析
SparkSQL
:是Spark
清风686
·
2023-07-29 03:21
spark sql读写hive的过程
Sparksql
读写hive需要hive相关的配置,所以一般将hive-site.xml文件放到spark的conf目录下。代码调用都是简单的,关键是源码分析过程,spark是如何与hive交互的。
sf_www
·
2023-07-28 03:53
spark
hive
hive
spark
sql
Spark SQL是如何选择join策略的?
前言我们都知道,
SparkSQL
上主要有三种实现join的策略,分别是Broadcasthashjoin、Shufflehashjoin、Sortmergejoin。
LittleMagic
·
2023-07-27 06:17
Kyuubi入门简介
官方简介HOME—ApacheKyuubi二、概述1、一个企业级数据湖探索平台2、一个高性能的通用JDBC和SQL执行引擎3、一个基于spark的查询引擎服务三、优点1、提供hiveserver2查询
sparksql
偷代码的猫
·
2023-07-27 06:02
大数据
Spark Join优化-BucketJoin实现
偶然读取到了字节跳动关于Spark做的一些优化,发现其中一项被称为BuckedtJoin的优化项传送门:
SparkSQL
在字节跳动数据仓库领域的优化实践而我曾经也实现过一个类似的解决方案,现在才知道这种方案有一个专业的名词
蠟筆小噺没有烦恼
·
2023-07-26 21:36
SparkSQL
知识点总结
一、
SparkSql
的概述1.1
SparkSql
是什么1.
SparkSql
是Spark生态体系中的一个基于SparkCore的SQL处理模块2.用途是处理具有结构化的数据文件的3.前身叫Shark,由于
南潇如梦
·
2023-07-26 10:33
大数据那些事
hive
big
data
spark
HiveSQL &
SparkSQL
中常用知识点记录
中选出最新一个分区中新增和变化的数据3.Hive中使用sort_array函数解决collet_list列表排序混乱问题4.SQL中对小数位数很多的数值转换成文本的时候不使用科学计数法5.HiveSQL&
SparkSQL
电光闪烁
·
2023-07-26 10:27
开发随笔
大数据
SparkSQL
HiveSQL
SparkSQL
Broadcast join实例
最近做
sparksql
的优化,需要用到
sparksql
broadcastjoin,之前在网上找了好多资料,发现介绍理论的偏多,实际操作案例较少,在此记录:Broadcastjoin:大表关联小表时使用.
地球人是我哈
·
2023-07-26 06:01
spark
大数据
Spark从入门到精通47:Spark Streaming:与Spark SQL结合使用之top3热门商品实时统计案例实战
SparkStreaming最强大的地方在于,可以与SparkCore、
SparkSQL
整合使用,之前已经通过transform、foreachRDD等算子看到,如何将DStream中的RDD使用SparkCore
勇于自信
·
2023-07-26 04:23
第2章
SparkSQL
核心编程
第2章
SparkSQL
核心编程2.1新的起点2.2DataFrame2.2.1创建DataFrame2.2.2SQL语法2.2.3DSL语法2.2.4RDD转换为DataFrame2.2.5DataFrame
Wzideng
·
2023-07-25 14:13
#
spark
#
scala
前端
javascript
spark
SparkPipeline: java.io.ObjectInputStream$BlockDataInputStream.readUnsignedShort
当遇到:
sparksql
atjava.io.ObjectInputStream$BlockDataInputStream.readUnsignedShort这样的问题。
Andy_想想妈妈
·
2023-07-24 20:07
spark笔记
Spark核心编程1.1RDD1.1.1RDD原理1.1.2RDD转换算子1.1.3RDD行动算子1.1.4RDD依赖关系1.1.5RDD序列化,持久化1.2累加器1.3广播变量2.Spark_SQL2.1
SparkSQL
好记性+烂笔头
·
2023-07-24 18:27
#
计算Spark
spark
笔记
大数据
HBase&Spark集成 -- DataFrame
Apache
SparkSQL
提供了基本过滤和插入数据的强大支持。hbase-connectors子项目提供了HBase与
SparkSQL
的集成。hbase-spark集成利用Spark-1.2.
小中.
·
2023-07-23 04:48
HBase
Spark
hbase-spark
hbase
spark
HiveSQL和
SparkSQL
的区别和联系
一、
SparkSQL
和Hive对比二、HiveSQL和
SparkSQL
的对比sql生成mapreduce程序必要的过程:解析(Parser)、优化(Optimizer)、执行(Execution)三、spark
万里长江横渡
·
2023-07-22 14:52
大数据
hive
hadoop
大数据
Spark_SQL性能调优
性能调优选项选型默认值用途spark.sql.codegenfalse设为true时,
SparkSQL
会把每条查询词语在运行时编译为Java二进制代码。
码上行舟
·
2023-07-22 14:22
spark
spark
sql
大数据
SparkSql
常用参数配置
SparkSql
常用参数配置:1、常用持久化:RDD层面:持久化cache:内存MEMORY_ONLY_SER:序列化(启用sparkkryo序列化)有效降低内存占用,但耗费更多cpu性能序列化,而且还要注册需要序列化的类
weixin_42754171
·
2023-07-22 14:51
spark
spark优化(二)--参数调优
1.调优逻辑spark调优顺序依次是代码规范,资源参数,数据倾斜,shuffle调优,业务层面等2.代码规范2.1能使用dataframe或者dataset,优先使用(
sparksql
有catalyst
一只咸鱼va
·
2023-07-22 14:13
spark
spark
大数据
hadoop
SparkSQL
详细的调优步骤及参数配置?
1.合理设置executor的内存大小:在spark-defaults.conf文件中设置spark.executor.memory参数,该参数控制executor的内存大小,一般设置为每个executor的内存大小,可以根据实际情况调整。2.调整executor的数量:在spark-defaults.conf文件中设置spark.executor.instances参数,该参数控制executo
abxzq19870214
·
2023-07-22 14:13
spark
大数据
分布式
【基本功】Spark常用参数详解
一、Hadoop&Hive&Spark官方文档官网文档永远是最好的指导手册hive1.2.1参数配置官方文档spark2.2参数配置官方文档/
sparksql
参数配置文档/spark最新版本官方文档hadoop2.7.1
小马过河@大数据
·
2023-07-22 14:41
Spark
spark
大数据
hadoop
hdfs
hive
大数据_面试_ETL组件常见问题_spark&flink
spark与flink的主要区别flinkcdc如何确保幂等与一致性FlinkSQLCDC实践以及一致性分析-阿里云开发者社区spark3.0AQE动态优化hbasememorystoreblockcache
sparksql
高达一号
·
2023-07-22 08:37
大数据
Spark
Flink
大数据
etl
spark
深入学习Spark SQL :
SparkSQL
执行流程
主要参考书籍:《
SparkSQL
内核剖析》(资源见评论)参考博客:http://hbasefly.com/2017/03/01/
sparksql
-catalyst/http://www.uml.org.cn
Icedzzz
·
2023-07-21 23:42
Spark
大数据
spark
sql
第1章
SparkSQL
概述
1.1
SparkSQL
是什么
SparkSQL
是Spark用于结构化数据(structureddata)处理的Spark模块。
SparkSQL
是ApacheSpark中的一个模块,用于处理结构化数据。
Wzideng
·
2023-07-20 15:48
#
spark
SQL
大数据
spark
hive
Spark(31):Spark性能调优之算子调优
目录0.相关文章链接1.mapPartitions2.foreachPartition优化数据库操作3.filter与coalesce的配合使用4.repartition解决
SparkSQL
低并行度问题
电光闪烁
·
2023-07-19 17:12
#
Spark
spark
大数据
分布式
bigdata
sparksql
自定义udf、udaf、udtf函数详细案例
sparksql
自定义udf、udaf、udtf函数详细案例1、udf函数//注册函数spark.udf.register("prefix1",(name:String)=>{"Name:"+name}
undo_try
·
2023-07-18 13:13
#
spark
scala
spark
开发语言
SparkSQL
中开窗函数DSL编程
SparkSQL
中开窗函数DSL编程代码示例:packagecom.yyds.tags.test.sparkimportorg.apache.spark.sql.expressions.Windowimportorg.apache.spark.sql
undo_try
·
2023-07-18 13:43
#
spark
hive
spark
big
data
sparksql
自定义数据源
sparksql
自定义数据源
SparkSQL
开放了一系列接入外部数据源的接口,来让开发者可以实现,接口在org.apache.spark.sql.sources包下:interfaces.scala。
undo_try
·
2023-07-18 13:42
#
spark
hbase
spark
scala
Spark 离线开发框架设计与实现
SparkSQL
使用标准的数据连接,与Hive兼容,易与其它语言API整合,表达清晰、简单易上手、学习成本低,是开发者开发简单数据处理的首选语言,但对
Xiaohong0716
·
2023-07-18 02:14
spark
大数据
分布式
Spark-SQL连接JDBC的方式及代码写法
目录一、数据加载与保存通用方式:加载数据:保存数据:二、Parquet加载数据:保存数据:三、JSON四、CSV五、MySQL一、数据加载与保存通用方式:
SparkSQL
提供了通用的保存数据和数据加载的方式
羙橘
·
2023-07-16 23:13
spark
学习
大数据
sql
hive
【大数据处理框架】Spark大数据处理框架,包括其底层原理、架构、编程模型、生态圈
文章目录Spark框架的底层原理Spark框架的架构SparkCore
SparkSQL
SparkStreamingSparkMLlibSparkGraphXSpark框架采用的编程模型Spark生态圈Spark
我是廖志伟
·
2023-07-16 21:25
#
大数据开发
spark
架构
大数据
上一页
7
8
9
10
11
12
13
14
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他