E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark.sql
python-sql-spark常用操作
2.尽量使用
spark.sql
,而不是rdd。sql处理groupby会快很多。基本上10min的rdd,sql只需2min。所以基本除了复杂函数,都用sql解决。
竹竹竹~
·
2024-02-06 03:32
MySQL
python学习
数据处理
python
sql
spark
spark写hive的ORC表,count(*)没数据
使用spark向hive中插入数据,hive表是ORC表
spark.sql
("insertoverwritetableods.ods_aaapartition(pt,id)\n"+"select\n"+
青云游子
·
2024-01-30 09:49
Spark
spark
hive
大数据
Spark—shell,Hbase—shell
Spark:SPARKSQLresults=
spark.sql
("SELECT*FROMpeople")//读取JSON文件valuserScoreDF=spark.read.json("hdfs://
꧁༺朝花夕逝༻꧂
·
2024-01-18 07:21
spark
大数据
分布式
Spark - SQL查询文件数据
##使用方法csv```
spark.sql
("select*fromcsv.`/tmp/demo.csv`").sho
kikiki4
·
2024-01-09 09:18
Spark - SQL查询文件数据
##使用方法csv```
spark.sql
("select*fromcsv.`/tmp/demo.csv`").sho
kikiki4
·
2023-12-28 03:49
Spark系列之:使用spark合并hive数据库多个分区的数据到一个分区中
Spark系列之:使用spark合并hive数据库多个分区的数据到一个分区中把两个分区的数据合并到同一个分区下把其中一个分区的数据通过append方式添加到另一个分区即可%sparkvaldf=
spark.sql
最笨的羊羊
·
2023-12-22 11:37
大数据
Spark系列
合并hive数据库
多个分区的数据到一个分区中
Hudi-集成Spark之spark-sql方式
servicemetastore针对Spark3.2spark-sql\--conf'spark.serializer=org.apache.spark.serializer.KryoSerializer'\--conf'
spark.sql
迷雾总会解
·
2023-12-04 02:01
大数据
数据库
spark
sql
大数据
hudi
SparkSQL-数据的加载和保存(包含数据库)
`文件路径`
spark.sql
("select*fromjson.`/opt/module/data/user.json`").show2、write写df.writ
是阿威啊
·
2023-11-15 05:38
spark基础知识学习和练习
spark
hive
mysql
数据仓库
配置好hivemetastore后使用show databases命令报错FAILED: SemanticException org.apache.hadoop.hive.ql.metadata.Hi
我的hive版本为2.3.9,mysql为5.7问题描述:首先,我是前面已经使用配置了mysql为hive的metastore并正常使用了一段时间,但是因为业务需要,在使用
spark.sql
操作hive
倾斜的二叉树
·
2023-11-15 03:12
hive
hive
big
data
Spark-submit 提交 报错 org.apache.spark.sql.execution.datasources.orc.OrcFileFormat could not be instant
错误场景如下代码:
spark.sql
("selecte.empno,e.ename,e.job,e.mgr,e.commfromempejoindeptdone.deptno=d.deptno").filter
路飞DD
·
2023-10-11 10:53
大数据
Spark
SparkSQL
Hadoop
Hive
Spark
spark·-submit
提交报错
Spark
版本冲突
Spark 之 UDF
Defineandregisteraone-argumentUDFvalplusOne=udf((x:Int)=>x+1)spark.udf.register("plusOne",plusOne)
spark.sql
zhixingheyi_tian
·
2023-10-09 15:06
spark
spark
java
前端
Spark Catalog深入理解与实战
(TestSparkHive.class.getSimpleName()).master("local[*]").enableHiveSupport().getOrCreate();Listlist=
spark.sql
鸨哥学JAVA
·
2023-10-09 14:58
Java
程序员
编程
spark
hive
大数据
Spark sql 从hive中读取数据
"five")//从hive中读取数据的关键配置.enableHiveSupport()//本地执行.master("local[2]").getOrCreate()之后就是很简单的//如果使用的集群
spark.sql
The_Boy_le
·
2023-10-09 05:02
spark
hive
大数据
解决执行
spark.sql
时版本不兼容的一种方式
场景描述hive数据表的导入导出功能部分代码如下所示,使用assemble将Java程序和spark相关依赖一起打成jar包,最后spark-submit提交jar到集群执行。publicclassSparkHiveApplication{publicstaticvoidmain(String[]args){longstart=System.currentTimeMillis();Stringwr
骑着蜗牛向前跑
·
2023-08-19 17:17
大数据
spark
大数据
spark.sql
sparkSql的炸裂函数 explode
即炸裂为多行使用explode()函数就可以实现valorder_item_df=
spark.sql
(s"selectorder_i
阿君聊风控
·
2023-08-19 10:38
hive/sparksql
Spark 指定分区数、文件并行读写、Spark IO读写常用处理方法
一、小文件管理之指定分区数1、配置spark.sql.shuffle.partitions,适用场景
spark.sql
()合并分区spark.conf.set("spark.sql.shuffle.partitions
Just Jump
·
2023-08-11 18:19
Spark权威指南
spark
spark
合并分区
spark写入写出
spark合并小文件
sparksql 自定义udf、udaf、udtf函数详细案例
自定义udf、udaf、udtf函数详细案例1、udf函数//注册函数spark.udf.register("prefix1",(name:String)=>{"Name:"+name})//使用函数
spark.sql
undo_try
·
2023-07-18 13:13
#
spark
scala
spark
开发语言
Spark - SQL查询文件数据
##使用方法csv```
spark.sql
("select*fromcsv.`/tmp/demo.csv`").sho
kikiki4
·
2023-07-13 16:36
Spark创建Hive表
实习生:就下面一个简单的sql语句啊
spark.sql
("""CREATEEXTERNALTABLEifnotexiststb(idint,namestring)PARTITI
SunnyRivers
·
2023-06-23 20:02
Spark最佳实战与性能优化
spark
hive
大数据
外部表
内部表
Spark - SQL查询文件数据
##使用方法csv```
spark.sql
("select*fromcsv.`/tmp/demo.csv`").sho
kikiki4
·
2023-06-15 18:44
从Hive源码解读大数据开发为什么可以脱离SQL、Java、Scala
谈到大数据开发,占据绝大多数人口的就是SQLBoy,不接受反驳,毕竟大数据主要就是为机器学习和统计报表服务的,自然从Oracle数据库开发转过来并且还是只会写几句SQL的人不在少数,个别会Python写个
spark.sql
虎鲸不是鱼
·
2023-04-12 20:43
笔记
云计算大数据
大数据
hive
scala
java
thrift
pyspark null类型 在 json.dumps(null) 之后,会变为字符串‘null‘
字符串,这时我们只需在使用json函数之前对值进行判断即可,当值为null时,直接返回null,当值非null时,则使用json函数1正常情况在pyspark中执行如下代码history_loc_df=
spark.sql
小何才露尖尖角
·
2023-04-09 16:20
Hive
Spark
json
hive
大数据
null
字符串
null
Spark SQL 小文件问题
2、小文件产生的原因在使用sparksql处理数据的过程中,如果有shuffle产生,依赖于
spark.sql
Tate小白
·
2023-04-05 16:29
Spark优化
spark
大数据
spark 使用记录case
示例如下:
spark.sql
("""REFRESHTABLE****""")或者spark.catalog.refreshTable("my_ta
点点渔火
·
2023-04-01 06:51
SPARKSQL3.0-DataFrameAPI与
spark.sql
()区别源码分析
一、前言:阅读本节需要先掌握spark-sql内部执行的基本知识:SessionStateUnresolved阶段Analyzer阶段中queryExecution的介绍二、区别
spark.sql
的执行顺序为
高世之智
·
2023-03-31 11:54
spark
sql
大数据
sparksql
DataFrame
Spark sql 解析原理
image-20201119131907082.png引用:SparkSQL架构和原理SparkSQL性能优化再进一步CBO基于代价的优化SparkSQLjoin的三种实现方式总结首先用户使用
spark.sql
你值得拥有更好的12138
·
2023-03-14 07:38
spark开发demo
spark-demo累加计算金额–开窗累计所有数据valamountRdd=
spark.sql
("""|select|end_time,|amountindex_val,|amount+${t1Amount
IDONTCARE8
·
2023-02-04 08:10
大数据学习
spark
pyspark sql大数据处理常用操作
常用建表语句,设置分区并设置表内容存储方式:
spark.sql
(f"""CREATETABLEIFNOTEXISTStable_name(`key`string,`value`string)PARTITIONEDBY
JingjingyiyiGuo
·
2023-01-13 13:14
MySQL
spark
sql
大数据
spark sql 生成指定区间的日期
sparksql生成指定连续区间的日期,如2021-12-29到2021-12-31之间的日期,也可指定具体的开始和结束日期,只需修改开始时间和结束时间即可
spark.sql
("""|selectdate_add
永远相信神话
·
2022-12-15 11:42
bigData
spark
sql
Spark sql 单引号'' 使用问题
sparksql中单引号意味着要某个变量所代表的值如varq=111spark.sql(s"select'$q'ast").show()+---+|t|+---+|111|+---+去掉单引号
spark.sql
楓尘林间
·
2022-12-15 11:36
DateFrame
Spark
SQL
spark sql在当前的时间戳下增加8个小时
sparksql在当前的时间戳下增加8个小时话不多说,如图示:
spark.sql
("selectdate_format(current_timestamp(),'yyyy-MM-ddHH:mm:ss')
善皮之
·
2022-12-15 11:05
Spark程序
Spark.SQL
时间序列缺失值填充与异常值处理
PySpark时间序列缺失值填充与异常值处理1缺失值填充1.就近填充2.同周期填充2异常值处理1.特殊事件标注2.业务常识约束3.分位数(quantile)盖帽4.n-sigma盖帽5.平滑方法3.总结本文为销量预测第3篇:缺失值填充与异常值处理第1篇:PySpark与DataFrame简介第2篇:PySpark时间序列数据统计描述,分布特性与内部特性第4篇:时间序列特征工程第5篇:特征选择第6篇
fitzgerald0
·
2022-11-21 22:45
机器学习
PySpark销量预测实战
机器学习
大数据
python
spark代码连接hive_Spark SQL连接 Hive源码深度剖析
(”CREATETABLEIFNOTEXISTSsrc(keyINT,valueSTRING)”)
spark.sql
("LOADDATALOCALINPATH’kvl.txt'INTOTABLEsrc”
weixin_39636707
·
2022-10-30 19:49
spark代码连接hive
spark sql读取hive底层_原创-spark sql 写入hive较慢优化思路
hive较慢原因分析》中已经分析了sparksql写入hive分区文件慢的原因,笔者提供几种优化思路供参考:(1)spark直接生成hive库表底层分区文件,然后再使用addpartion语句添加分区信息
spark.sql
TLOTF
·
2022-10-30 19:48
spark
sql读取hive底层
SPARK-SQL-之UDF、UDAF
SPARK-SQL-之UDF、UDAF1、UDF使用//注册函数spark.udf.register("prefix1",(name:String)=>{"Name:"+name})//使用函数
spark.sql
稳哥的哥
·
2022-08-18 20:21
SparkSQL
spark
sql
scala
Spark Catalog深入理解与实战——《DEEPNOVA开发者社区》
(TestSparkHive.class.getSimpleName()).master("local[*]").enableHiveSupport().getOrCreate();Listlist=
spark.sql
·
2022-08-17 10:04
数据库
Spark - SQL查询文件数据
##使用方法csv```
spark.sql
("select*fromcsv.`/tmp/demo.csv`").sho
kikiki4
·
2021-05-02 23:59
Spark - SQL查询文件数据
##使用方法csv```
spark.sql
("select*fromcsv.`/tmp/demo.csv`").sho
kikiki4
·
2021-04-25 08:51
Spark - SQL查询文件数据
##使用方法csv```
spark.sql
("select*fromcsv.`/tmp/demo.csv`").sho
kikiki4
·
2021-04-22 21:26
DataFrame常用操作
在spark-shell状态下查看sql内置函数:
spark.sql
("showfunctions").show(1000)比如:SUBSTR(columnName,0,1)='B'show,take,
sparkle123
·
2021-04-21 00:48
pySpark学习笔记N——数据的存储
在下载用户及item特征的时候出现问题,
spark.sql
得到的数据已经是dataframe了,但是我用.withColumn增加列后选择了分user或item存储在hdfs,这是种分片存储的方式(不知道我说的啥
VideoRec
·
2021-01-26 15:20
Recommendation
spark
csv
dataframe
hdfs
Spark SQL 解析-UDF,UDAF,开窗函数
1.UDF函数(用户自定义函数)•注册一个UDF函数spark.udf.register("addname",(x:String)=>"name:"+x)•
spark.sql
("selectaddname
似梦似意境
·
2020-09-17 05:32
#
Spark
scala
spark
PySpark
spark.sql
使用substring及其他sql函数,提示NameError: name 'substring' is not defined
4.PySparkspark.sql使用substring及其他sql函数,提示NameError:name'substring'isnotdefined解决办法,导入如下的包即可。pyspark导入此贴来自汇总贴的子问题,只是为了方便查询。总贴请看置顶帖:pyspark及Spark报错问题汇总及某些函数用法。https://blog.csdn.net/qq0719/article/details
元元的李树
·
2020-09-15 17:30
spark 导入文件到hive出现多小文件的问题
解决方法:SJTable=
spark.sql
("select*from"+tablename+"_tmpwhereatt='1E'")datanum=SJTa
shdqiu
·
2020-09-15 14:23
spark
hive
Spark SQL 操作 Hive 表数据
spark-shell方式操作Hiveshowtablesselect*fromempjoin操作总结:和HQL语法一毛一样,只是记得使用如下格式
spark.sql
("xxxxxx").show即可如果嫌麻烦
路飞DD
·
2020-09-11 05:47
SparkSQL
Spark
大数据
Hive
Hadoop
Spark
SparkSQL
操作
Hive
SparkSQL
保存
parquet
到
hdfs
SparkSession
操作
Hive
SparkSession
02 ,将年月提取出来,按照年月拆表,spark 指定输出文件名,不要读取压缩文件
一,基恩操作:1,共几条:1.8亿条
spark.sql
("selectcount(1)fromkv").show(20)2,卖货日期的最值:两个奇怪的日期最大值:78190820最小值:00181030
孙砚秋
·
2020-09-11 02:47
利用spark进行机器学习时模型序列化存储到hive解决方案
中load出来进行预测1.模型存储到hive存储很简单,将要存储的模型调用如下spark的序列化方法defserialize(spark:SparkSession)序列化后再转换拼装成sql,然后执行
spark.sql
HelloData
·
2020-08-24 14:54
序列化
spark
model
机器学习
人工智能
Spark - SQL查询文件数据
##使用方法csv```
spark.sql
("select*fromcsv.`/tmp/demo.csv`").sho
kikiki4
·
2020-08-23 00:25
Spark - SQL查询文件数据
##使用方法csv```
spark.sql
("select*fromcsv.`/tmp/demo.csv`").sho
kikiki4
·
2020-08-21 15:41
Spark - SQL查询文件数据
##使用方法csv```
spark.sql
("select*fromcsv.`/tmp/demo.csv`").sho
kikiki4
·
2020-08-21 14:21
上一页
1
2
3
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他