E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
SparkSQl
DBT踩坑第二弹
考虑到开源组件Kyuubi也是基于Hiveserver2,使用的thrift协议,所以采用Kyuubi执行
SparkSQL
。
淡定一生2333
·
2023-11-26 10:02
DBT
数据库
掌握spark 3.0中的查询计划
本文翻译自MasteringQueryPlansinSpark3.0,能够很好的帮助学习
sparksql
理解sparkUI的计划,决定翻译记录一下。
鸿乃江边鸟
·
2023-11-26 09:16
Spark SQL输入输出
1、对于
SparkSQL
的输入需要使用sparkSession.read方法1)、通用模式sparkSession.read.format("json").load("path")支持类型:parquet
sinat_36710456
·
2023-11-26 09:37
大数据
Spark
SQL
输入
输出
Hadoop+Hive+Spark+Hbase开发环境练习
app/data/exam查看csv文件行数[root@kb129~]#hdfsdfs-cat/app/data/exam/meituan_waimai_meishi.csv|wc-l2.分别使用RDD和
SparkSQL
不吃香菜lw
·
2023-11-26 07:48
hadoop
hive
spark
spark Sql, dataframe, Dataset 和 Streaming编程指南
四:
sparkSql
,dataframe,Dataset4.1:
SparkSQL
的用法之一是执行SQL查询,它也可以从现有的Hive中读取数据SparkSession:Spark中所有功能的入口是SparkSession
醉舞经阁半卷书A
·
2023-11-25 10:57
Spark SQL 时间格式处理
初始化
SparkSql
packagepbcp_2023.clear_dataimportorg.apache.spark.SparkConfimportorg.apache.spark.sql.SparkSessionimportorg.apache.spark.sql.functions
小辉懂编程
·
2023-11-25 05:29
hive等)
spark
sql
大数据
云计算实验4 面向行业背景的大数据分析与处理综合实验
一、实验目的掌握分布式数据库接口
SparkSQL
基本操作,以及训练综合能力,包括:数据预处理、向量处理、大数据算法、预测和可视化等综合工程能力二、实验环境Linux的虚拟机环境和实验指导手册三、实验任务完成
MrNeoJeep
·
2023-11-25 04:06
#
云计算
云计算
数据分析
大数据
Spark UI实现原理与事件监听机制
在SparkUI中可以查看job、stage、storage、environment、excutors和
sparksql
等信息,那么这都是怎么实现的,这些信息都是怎么获取到的呢?
涛声依旧(竞涛)
·
2023-11-24 16:35
spark
Spark
UI
event
listener
source
Spark设计理念与基本架构
易于使用支持查询支持流式计算可用性高丰富的数据源支持模块:SparkCore+
SparkSQL
+S
whynotybb
·
2023-11-24 02:29
免费图书教材配套资料:Spark大数据技术与应用(第2版)
《Spark大数据技术与应用(第2版)》课程内容全面介绍了Spark大数据技术的相关知识,内容包含包括Spark概述、Scala基础、Spark编程、Spark编程进阶、
SparkSQL
结构化数据文件处理
泰迪智能科技
·
2023-11-23 14:36
图书教材推荐
大数据
spark
分布式
spark内置数据类型
在用scala编写spark的时候,假如我现在需要将我spark读的数据源的字段,做一个类型转换,因为需求中要拼接出sql的createtable语句,需要每个字段的sql中的类型,那么就需要去和
sparksql
后季暖
·
2023-11-23 12:41
spark
大数据
分布式
大数据开发之Hive优化篇6-Hive on spark
相较于其他诸如Impala、Shark(
SparkSQL
的前身)等引擎而言,Hive拥有更为广泛的用户基础以及对SQL语法更全面的支持。
只是甲
·
2023-11-23 12:06
大数据和数据仓库
#
Hive
hive
on
spark
hadoop
hive
spark
大数据最佳实践-hive on spark
目录HiveonSpark与
SparkSQL
Spark内存配置spark动态分配HiveHiveonSpark与
SparkSQL
Hive是Hadoop中的标准SQL引擎,也是最古老的引擎之一。
WakeUpCcc
·
2023-11-23 12:33
大数据
hive
spark
hadoop
数据仓库
sparkSql
遇见数组越界错误:java.lang.ArrayIndexOutOfBoundsException: 3
这里写自定义目录标题
sparkSql
遇见数组越界错误:java.lang.ArrayIndexOutOfBoundsException:3
sparkSql
遇见数组越界错误:java.lang.ArrayIndexOutOfBoundsException
找工作的大数据开发
·
2023-11-23 11:14
spark
SparkSession介绍
一、介绍SparkSession是Spark2.0中引入的新概念,它是
SparkSQL
、DataFrame和DatasetAPI的入口点,是Spark编程的统一API,也可看作是读取数据的统一入口;它将以前的
阿君聊风控
·
2023-11-23 08:24
hive/sparksql
spark
hadoop
数据倾斜(五):Spark是如何解决数据倾斜的
Spark数据倾斜表现Spark数据倾斜原理Spark数据倾斜例子Spark数据倾斜解决方案七、Spark解决数据倾斜具体方法7.1概述mapjoin设置rdd压缩合理设置driver的内存
SparkSql
longLiveData
·
2023-11-22 15:51
大数据处理技术Spark
大作业要求:伪分布式hadoop+pandas预处理数据+hdfs保存数据+spark从hdfs读取数据+
sparksql
处
我叫桃小夭
·
2023-11-22 13:54
大数据
hadoop
分布式
python
spark
spark简单数据查询与常见算子
DataBase,90Jim,Algorithm,60Jim,DataStructure,80该系总共有多少学生;vallines=sc.textFile("file:///usr/local/spark/
sparksql
data
背帆
·
2023-11-21 17:53
大数据
spark
大数据
scala
sql
基于Scala版本的TMDB大数据电影分析项目
所以在使用
SparkSQL
处理该数据集的时候,需要创建S
数仓白菜白
·
2023-11-21 17:20
Spark
SQL
big
data
scala
spark
[
SparkSQL
] 列转行lateral view explode函数和FlatMap算子两种方式实现炸裂
[
SparkSQL
]列转行lateralviewexplode函数和FlatMap算子两种方式实现炸裂我用了两种方法实现列转行,说一下我平时使用
SparkSQL
的习惯,我通常1)是先读取HDFS中的文件
林沐之森
·
2023-11-21 17:18
Spark
sparksql
spark
类转行
炸裂
flatmap
SparkSql
清洗Hive中数据并存入Mysql
一、准备数据因为数据目前在本地,所以先将数据上传至Hive,再进行清洗。上传步骤:1、将数据上传至虚拟机中:使用rz-E选择文件2、进入hive,选择数据库,并进行建表注意:建表的时候,要保证表的分隔符要和数据本身的分隔符相同,否则导入数据的时候会出现所有数据都插入到同一列。createtabledata(TRIP_IDstring,CALL_TYPEstring,ORIGIN_CALLstrin
修勾勾L
·
2023-11-21 10:36
Hive
Spark
hive
mysql
spark
pyspark案例系列5-Spark ETL将MySQL数据同步到Hive
数仓其它层:Spark可以通过
SparkSQL
直接运行hive的sql语句,所以用Spark来
只是甲
·
2023-11-21 10:33
大数据和数据仓库
#
Spark
hive
spark
mysql
大数据之使用Spark增量抽取MySQL的数据到Hive数据库(1)
目录前言题目:一、读题分析二、处理过程1.采用
SparkSQL
使用max函数找到最大的日期然后转换成时间类型在变成字符串2.这里提供除了SQL方法外的另一种过滤不满足条件的方法三、重难点分析总结前言本题来源于全国职业技能大赛之大数据技术赛项电商赛题
约定Da于配置
·
2023-11-21 10:29
大数据技术
大数据
hive
spark
mysql
scala
Spark 从Hive表中读数据或向Hive中写入数据
SparkSQL
支持在Hive中的数据读写,但是Hive中有大量的依赖在Spark中不存在,所以在使用过程中要配置这些依赖。
pageniao
·
2023-11-21 10:27
Spark
使用
sparksql
将hive数据导出至mysql
1.在pom文件添加mysqlmysql-connector-java5.1.34org.apache.sparkspark-hive_2.13${spark.version}2.完整代码如下importorg.apache.spark.sql.SparkSessionobjectHive2Mysql{defmain(args:Array[String]):Unit={valspark=Spark
有风入弦
·
2023-11-21 10:57
hive
mysql
大数据
拾贰
SparkSQL
:数据关联优化
在分布式环境中,Spark支持两类数据分发模式。一类是学过的Shuffle,Shuffle通过中间文件来完成Map阶段与Reduce阶段的数据交换,因此它会引入大量的磁盘与网络开销。另一类是我们介绍的广播变量(BroadcastVariables),广播变量在Driver端创建,并由Driver分发到各个Executors。因此,从数据分发模式的角度出发,数据关联又可以分为ShuffleJoin和
for your wish
·
2023-11-21 09:13
spark
Spark 从零到开发(六)HiveContext
SparkSQL
执行引擎的一个实例,它与存储在Hive中的数据集成在一起。从类路径上的hive-site.xml读取Hive的配置。
FantJ
·
2023-11-21 03:06
Spark 之 format
sparksql
默认写的文件格式如果是hive表,走的是这里'defgetDefaultStorage(conf:SQLConf):CatalogStorageFormat={//Torespecthive-site.xml
zhixingheyi_tian
·
2023-11-20 21:08
spark
spark
大数据
分布式
07-Hive优化---高级部分3
一、Hive优化大数据的学习:1、学习工具及其原理(50%~70%)2、学习重要的(java、scala、python、sql[mysql\hivesql\
sparksql
\flinksql])(30%
YuPangZa
·
2023-11-20 12:24
大数据
hive
hadoop
数据仓库
大数据常见面试题及答案
大特性:2、Hive分桶和分区的区别:3、Hive表动态分区和静态分区4、一个Hive表,数据量很大,分布在集群的100个节点,现在需要定期取top100,如何设计/实现:5、窗口函数6、hivesql和
sparksql
遐想者csdn
·
2023-11-20 01:18
大数据
hadoop
spark
hdfs
mapreduce
大数据
2011-2022年高职大数据竞赛-赛题内容
离线数据统计第五部分赛题模拟实现-数据采集与实时计算第六部分赛题模拟实现-数据可视化第一部分竞赛内容赛项以大数据技术与应用为核心内容和工作基础,重点考查参赛选手基于Spark、Flink平台环境下,充分利用SparkCore、
SparkSQL
xlw2003
·
2023-11-19 21:54
大数据
Spark
hadoop
flink
高职大数据竞赛
spark性能调优 | 默认并行度
SparkSql
默认并行度看官网,默认并行度200https://spark.apache.org/docs/2.4.5/sql-performance-tuning.html#other-configuration-options
Knight_AL
·
2023-11-19 18:04
Spark优化
spark
大数据
分布式
企业spark案例 —— 出租车轨迹分析(Python)
第1关:
SparkSql
数据清洗#-*-coding:UTF-8-*-frompyspark.sqlimportSparkSessionif__name__=='__main__':spark=SparkSession.builder.appName
垫脚摸太阳
·
2023-11-19 07:35
python
spark
python
javascript
SparkSQL
中的自定义函数-UDF&UDAF
一、UDF(User-Defined-Function)用户自定义函数1、注册UDFudf对象=spark.udf.register(参数1,参数2,参数3)参数1:UDF名称,可用于SQL风格参数2:被注册成UDF的方法名参数3:声明UDF的返回值类型udf对象:返回值对象,是一个UDF对象,可用于DSL风格//获取系统时间valdf=newSimpleDateFormat("yyyy-MM-d
是阿威啊
·
2023-11-18 21:49
spark基础知识学习和练习
scala
spark
Spark(三)--
SparkSQL
(三) -- Dataset和DataFrame
目录4.Dataset的特点4.1Dataset是什么?4.2即使使用Dataset的命令式API,执行计划也依然会被优化4.3Dataset的底层是什么?4.4可以获取Dataset对应的RDD表示5.DataFrame的作用和常见操作5.1DataFrame是什么?5.2通过隐式转换创建DataFrame5.3通过外部集合创建DataFrame5.4在DataFrame上可以使用的常规操作5.
HelloWorld闯天涯
·
2023-11-18 21:17
Spark
SparkSQL
之 DataFrame&DataSet
DataFrame创建DataFrame有三种方式:1.读外部设备的文件,返回DataFrame对象2.从RDD转换成DataFrame对象3.读取Hive中的表,返回DataFrame对象4.调用createDataFrame方法,返回DataFrame对象一、DataFrame的创建1、准备SparkSession环境SparkSession是Spark最新的SQL查询起始点历史版本已弃用pr
是阿威啊
·
2023-11-18 21:31
spark基础知识学习和练习
spark
大数据
Flink原理与实现:详解Flink中的状态管理
硬刚大数据系列文章链接:2021年从零到大数据专家的学习指南(全面升级版)2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇2021年从零到大数据专家面试篇之
SparkSQL
篇2021
王知无(import_bigdata)
·
2023-11-18 19:59
大数据成神之路
flink
big
data
spark
Spark 优化 (一) --------- Spark 性能调优
Kryo序列化6.调节本地化等待时长二、算子调优1.mapPartitions2.foreachPartition优化数据库操作3.filter与coalesce的配合使用4.repartition解决
SparkSQL
在森林中麋了鹿
·
2023-11-17 10:34
Spark
spark
大数据
分布式
SparkSQL
项目实战
1准备数据我们这次Spark-sql操作所有的数据均来自Hive,首先在Hive中创建表,并导入数据。一共有3张表:1张用户行为表,1张城市表,1张产品表。1)将city_info.txt、product_info.txt、user_visit_action.txt上传到/opt/module/data[atguigu@hadoop102module]$mkdirdata2)将创建对应的三张表hi
shangjg3
·
2023-11-16 06:47
Spark
spark
大数据
sql
MySQL、HiveSQL、
SparkSQL
的区别
1、用途角度1)MySQL是一种关系型数据库,主要用于存储和管理结构化数据2)HiveSQL是用于Hadoop平台上的一种SQL-like语言,主要用于对大数据进行查询和分析3)
SparkSQL
是一种基于
BaoZi969
·
2023-11-16 03:13
mysql
hive
hadoop
Spark SQL中Dataframe join操作含null值的列
SparkSQL
中Dataframejoin操作含null值的列当在
SparkSQL
中对两个Dataframe使用join时,当作为连接的字段的值含有null值。
青春程序不迷路
·
2023-11-16 00:48
Spark问题总结
spark
大数据
python中的join函数连接dataframe_Spark DataFrame中的join使用说明
sparksql
中join的类型SparkDataFrame中join与SQL很像,都有innerjoin,leftjoin,rightjoin,fulljoin;类型说明innerjoin内连接leftjoin
冯慎行
·
2023-11-16 00:17
Spark DataFrame列的合并与拆分
版本说明:Spark-2.3.0使用
SparkSQL
在对数据进行处理的过程中,可能会遇到对一列数据拆分为多列,或者把多列数据合并为一列。
L.ZZ
·
2023-11-16 00:14
Spark
大数据
spark
大数据
分布式
spark创建DataFrame的N种方式
注:本篇介绍基于scala(pyspark选择性参考)一、maven配置基础依赖scala-library(scala基础环境)spark-sql(
sparksql
执行环境)mysql(要访问mysql
阿民啊
·
2023-11-15 09:24
SparkSql
spark
大数据
Spark SQL编程
1.
SparkSQL
概述1.1什么是
SparkSQL
SparkSQL
是用于结构化数据处理的Spark模块。
shangjg3
·
2023-11-15 05:09
Spark
spark
sql
大数据
SparkSQL
-数据的加载和保存(包含数据库)
一、文件读写1、read适配的文件类型spark.read.csvformatjdbcjsonloadoptionoptionsorcparquetschematabletexttextFile读文件时直接在文件上进行查询:文件格式.`文件路径`spark.sql("select*fromjson.`/opt/module/data/user.json`").show2、write写df.writ
是阿威啊
·
2023-11-15 05:38
spark基础知识学习和练习
spark
hive
mysql
数据仓库
sparkSql
数据的加载与保存
sparkSQL
加载数据1.read加载数据scala>spark.read.csvformatjdbcjsonloadoptionoptionsorcparquetschematabletexttextFile
大梁、
·
2023-11-15 05:08
spark
sparkSql
SparkSQL
加载文件与保存文件
sparkSQL
加载文件与保存文件
SparkSQL
加载文件步骤:先获取sparkSession对象valspark=SparkSession.builder().appName("testload").
扎马尾的女孩
·
2023-11-15 05:37
spark
SparkSQL
数据的加载和保存
一、通用加载和保存方式
SparkSQL
提供了通用的保存数据和数据加载的方式。
落花雨时
·
2023-11-15 05:07
大数据
spark
yarn
big
data
大数据
SparkSQL
数据源
第1关:
SparkSQL
加载和保存代码:packagecom.educoder.bigData.
sparksql
2;importorg.apache.spark.sql.AnalysisException
小kamil
·
2023-11-15 05:06
大数据
spark
scala
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他