E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark-SQL
大数据下一代变革之必研究数据湖技术Hudi原理实战双管齐下-下
集成Spark开发Spark编程读写示例通过IDE如Idea编程实质上和前面的spark-shell和
spark-sql
相似,其他都是Spark编程的知识,下面以scala语言为示例,idea新建scala
jh035512
·
2023-03-19 11:47
大数据
scala
spark
spark jdbc java_spark之JDBC开发(实战)
一、概述SparkCore、
Spark-SQL
与Spark-Streaming都是相同的,编写好之后打成jar包使用spark-submit命令提交到集群运行应用$SPARK_HOME/bin#.
weixin_39937312
·
2023-03-15 08:26
spark
jdbc
java
Spark读取elasticsearch数据指南
Spark相关依赖包的版本为2.3.2,如spark-core、
spark-sql
。Elasticsearch数据schema{"settings":{"number_of_replicas":
sherlockyb
·
2023-01-28 16:05
Spark基础篇-Spark-Core核心模型(一)
Spark系列文章目录第一章初识Spark第二章Spark-Core核心模型(一)第二章Spark-Core核心模型(二)第三章Spark-Core编程进阶(一)第三章Spark-Core编程进阶(二)第四章
Spark-SQL
angeliacmm
·
2023-01-24 20:56
Spark
大数据
spark
hadoop
【大数据笔记】-
Spark-SQL
读写MySQL
Spark-SQL
很强大,可以读写各种JDBC的库,先来一弹MySQL的,超简单:1.MySQL库建测试表和数据:CREATETABLEt_realtime.test_spark2mysql(idbigint
菜鸟老胡~
·
2022-12-21 23:24
技术学习
spark
mysql
big
data
大数据
数据仓库
个人总结-
Spark-SQL
之DataFrame的使用
DataFrame详解环境:spark2.4.0slaca:2.12以上创建DataFrame的几种方式第一种:rdd转DFimportsession.implict._valdf=rdd.toDF(#columnName)第二种/***创建一个空的DataFrame,代表用户*有四列,分别代表ID、名字、年龄、生日*/valcolNames=Array("id","name","age","bi
豪猪不挡道
·
2022-12-18 19:12
大数据
大数据
spark
dataframe
Spark-sql
Spark-SparkSql基础、DataFrame、DataSet
Spark-SQL
概述SparkSQL是Spark用于结构化数据(structureddata)处理的Spark模块。
魔笛Love
·
2022-12-18 19:11
spark
big
data
hive
大数据系列篇-
spark-sql
使用SQL加DSL方式与RDD-DATAFRAME-DATASET转换
大数据系列篇-
spark-sql
使用SQL加DSL方式与RDD-DATAFRAME-DATASET转换packagecom.testimportorg.apache.spark.SparkConfimportorg.apache.spark.sql.SparkSession
dong-123456
·
2022-12-18 19:11
分布式
大数据
spark
spark
sql
big
data
scala
Sbt打包出现依赖异常问题
scalaVersion:="2.11.11"ThisBuild/organization:="com.wtx.job014"libraryDependencies++=Seq("org.apache.spark"%%"
spark-sql
帅气多汁你天哥
·
2022-12-15 11:39
Hadoop
爬坑指南
实战项目讲解
maven
spark
大数据
kafka
SPARK-SQL
内置时间日期类函数
一、获取当前时间1.current_date获取当前日期SELECTcurrent_date();2018-04-092.current_timestamp/now()获取当前时间SELECTcurrent_timestamp();SELECTnow();2018-04-0915:20:49.247二、从日期时间中提取字段1.year,month,day/dayofmonth,hour,minut
扫地增
·
2022-12-15 11:52
spark
spark
spark3.3.1 for CDH6.3.2 打包
spark3.3.1CDH打包因为CDH在6.3.2之后开始收费,而自带的spark版本太低,还阉割了
spark-sql
功能。
青冬
·
2022-12-15 11:51
cdh
hadoop
spark
cdh
CDH6.3.2集成
spark-sql
完整版本
下载spark-2.4.0-bin-hadoop2.7.tgz并上传至gateway节点地址:https://archive.apache.org/dist/spark/spark-2.4.0/spark-2.4.0-bin-hadoop2.7.tgz解压spark-4.0-bin-hadoop2.7.tgz到/opt/cloudera/parcels/CDH/lib/spark2中替换conf的
奇科.zhang
·
2022-12-15 11:50
CDH
spark
sql
hadoop
SPARK-SQL
内置函数之时间日期类
转载:http://www.cnblogs.com/feiyumo/p/8760846.html一、获取当前时间1.current_date获取当前日期2018-04-092.current_timestamp/now()获取当前时间2018-04-0915:20:49.247二、从日期时间中提取字段1.year,month,day/dayofmonth,hour,minute,secondExa
小陈菜奈-
·
2022-12-15 11:18
Scala&Spark
spark
scala
大数据
Spark-sql
常用日期函数
current_date()当前日期selectcurrent_date();--2022-02-22now()或current_timestamp()当前时间selectnow();selectcurrent_timestamp();--2022-02-2222:22:22datediff(endDate,startDate)日期相差天数selectdatediff('2022-02-22','
ZenPower
·
2022-12-15 11:17
Spark
spark
Spark SQL 函数全集
除UDF函数,均可在
spark-sql
中直接使用。经过importorg.apache.spark.sql.functions._,也可以用于Dataframe,Dataset。
weixin_43946446
·
2022-12-12 07:20
大数据
Spark_SparkSQL 函数全集_基于 2.3.0
除UDF函数,均可在
spark-sql
中直接使用。经过importorg.apache.spark.sql.functions._,也可以用于D
高达一号
·
2022-12-12 07:46
Spark
大数据下一代变革之必研究数据湖技术Hudi原理实战双管齐下-中
INSERTOVERWRIT写流程Key生成策略删除策略写流程归纳数据读集成Spark使用环境准备spark-shell使用启动插入数据查询数据更新数据时间旅行查询增量查询指定时间点查询删除数据覆盖数据
spark-sql
IT小神
·
2022-11-26 00:00
大数据
数据仓库
大数据
java
数据库
spark-sql
sparkSql使用sql来进行操作,简化rdd的开发DataFrame是一种以rdd为基础的分布式数据集,也就类似于二维表格,只关心数据的含义,提供详细的结构信息DataSet是分布式数据集合,,是DataFrame的一个扩展sparkcore中的上下文环境对象是sparkContext,sparksql中的上下文就用的sparksession简单演示新建一个user.jsonspark读取的j
爱吃鸡的小鸡
·
2022-11-22 20:13
spark
scala
开发语言
spark
学习
大数据
spark-sql
字段级血缘关系实现
1.背景:血缘关系非常重要,因为有了字段间的血缘关系,便可以知道数据的来源去处,以及字段之间的转换关系,这样对数据的质量,治理有很大的帮助。SparkSQL相对于Hive来说通常情况下效率会比较高,对于运行时间、资源的使用上面等都会有较大的收益。所以考虑将采用MapReduce引擎执行的sql进行迭代,以spark引擎执行。但同时也需要实现字段血缘的功能。hive血缘关系实现较为简单,攻略也比较多
Chocolate?
·
2022-11-22 16:28
大数据
spark
Spark on Hive & Hive on Spark,傻傻分不清楚
上车前需知Sparkonhive与HiveonSpark的区别SparkonhiveSpark通过
Spark-SQL
使用hive语句,操作hive,底层运行的还是sparkrdd。
王知无(import_bigdata)
·
2022-11-20 10:42
大数据成神之路
hive
spark
big
data
spark on hive 和 hive on spark
**sparkonhive**sparkonhive的话就是通过
spark-sql
使用hive语句,操作hive,底层运行的还是sparkrdd。
qq_42915325
·
2022-11-20 10:11
spark 写代码的三种方式、spark 整合 Hive
目录spark写代码的方式1、在IDEA中将代码编写好然后打包上传到集群中运行(使用最多)2、sparkshell(REPL--交互式的命令行)3、
spark-sql
(spark的SQL命令行)在进入
spark-sql
赤兔胭脂小吕布
·
2022-11-20 10:08
spark
hive
大数据
hadoop
hdfs
spark sql读取hive底层_
Spark-SQL
读不到Hive数据库的新坑指北
背景本文讲的是
spark-sql
这个命令行工具读取hive数据的情况:Spark是2.3.1,HDP发行版Hive是3.1.0,HDPSparkSQL和Hive3的交互问题,用Sparksql读取处理hive
唯伟老师
·
2022-10-30 19:48
spark
sql读取hive底层
Spark系列—Spark SQL执行过程解析
今天来讲讲
spark-sql
的执行计划,有助于我们理解spark的运行原理。
数据小白的进阶之路
·
2022-10-25 21:04
Spark
spark
Spark异常总结及解决办法2
Spark-sql
问题:spark-sqlonyarn运行报错TransportClient:331-FailedtosendRPC***java.nio.channels.ClosedChannelException
灵佑666
·
2022-09-23 21:59
Spark
Apache Spark启动
spark-sql
报错
UnrecognizedHadoopmajorversionnumber4解决Thedir:/tmp/hiveonHDFSshouldbewritable问题参考资料一、问题出现版本:ApacheSpark2.4.0ApacheSpark3.0.0安装好spark后,执行
spark-sql
终回首
·
2022-09-21 13:06
#
Apache
Spark
spark
hive
大数据
spark整合hive后
spark-sql
启动报错
通过
spark-sql
来访问hive的元数据,hive元数据信息存储在mysql但是启动的时候是报如下的错误,检查过配置,metastore已经配置,并且启动,用hive启动可以正常使用,但是
spark-sql
yala说
·
2022-09-21 13:03
spark
spark-sql
史上最简单的spark教程第十二章-SparkSQL编程Java案例实践(四)
Spark-SQL
的Java实践案例(四)数据源:(读取与存储数据,JDBC服务器)史上最简单的spark教程所有代码示例地址:https://github.com/Mydreamandreality/
李时珍皮啊
·
2022-09-09 09:56
#
spark
#
大数据
拥抱大数据
大数据
2020.11.23(
spark-sql
、复杂SQL、函数、自定义函数)
写SQL的时候都会遇到一个东西,函数。尤其写SQL的时候有两类场景,OLTP和OLAP,OLTP的时候也会写函数,但是多数情况属于时间函数、日期函数、金额函数,OLTP就是平常CRUD的时候,对着数据库发起的快速的,返回结果的。OLAP趋向于分析型的,时间粒度,OLAP会比OLTP复杂度高一点,分析的时候会卡在对数据,不是简单的一个单元格的值的修正,可能要做很多分组的值的转换,关联的操作,OLTP
超可爱慕之
·
2022-08-22 23:36
大数据
基于spingboot通过
spark-sql
进行大批量插入clickhous分布式数据库
1.所需依赖org.apache.sparkspark-core_2.112.4.3org.apache.sparkspark-sql_2.112.4.3ru.yandex.clickhouseclickhouse-jdbc0.1.53>listdata=newArrayList>();Stringname="测试";Stringage="22";Stringadress="广东深圳";Strin
杨宇sss
·
2022-08-22 23:15
clickhouse
hadoop
spark
spark
分布式
数据库
iceberg系列(1):存储详解-初探1
/bin/
spark-sql
\--packagesorg.apache.iceberg:iceberg-spark3-runtime:0.12.1\--confspark.sql.extensions=
九剑问天
·
2022-07-13 08:11
数据湖
大数据
hive
spark
iceberg
解决Hive on Spark与Spark on Hive之间表数据不互通问题
解决HiveonSpark与SparkonHive之间表数据不互通问题问题描述通过Ambari2.7.5安装HDP3.1.5集群后,
spark-sql
和hive虽然已经实现了整合,无论在hive还是
spark-sql
勇远有李
·
2022-07-11 13:07
Hive
hive
spark
big
data
漫谈大数据 - Spark on Hive & Hive on Spark
转成MapReduce执行速度慢HiveOnSpark优化Hive元数据库的功能Hive开启MetaStore服务Sparkonhive与HiveonSpark的区别SparkonhiveSpark通过
Spark-SQL
昊昊该干饭了
·
2022-07-11 13:06
大数据
mysql
sql
hive
spark
HIVE 生成过多小文件的问题
生成大量小文件小文件的危害为什么会生成多个小文件不同的数据加载方式生成文件的区别解决小文件过多的问题今天运维人员突然发来了告警,有一张表生成的小文件太多,很疑惑,然后排查记录了下HIVE的版本2.x,使用的引擎是MR;注意:HIVEONSPARK或
SPARK-SQL
半吊子Kyle
·
2022-07-11 13:34
Hive
hive
Spark-sql
入门案例-wordcount
文章目录一描述二数据准备三环境准备四编码实现总结一描述对按照空格切分的文本文件中的内容进行解析,读取,按照单词进行统计,最后按照统计结果进行排序,保存到文件具体的步骤:初始化
Spark-sql
对象读取文件内容对一行的数据进行处理分组统计结果排序保存至文件二数据准备三环境准备新建
Master_slaves
·
2022-06-16 00:09
大数据
Spark-SQL
常用内置日期时间函数
Spark-SQL
常用内置日期时间函数一、获取当前时间1、current_date获取当前日期时间格式:yyyy-MM-ddspark.sql("selectcurrent_date").show(false
绿萝蔓蔓绕枝生
·
2022-04-24 14:38
Spark
sql
spark
Spark-Sql
之DataFrame实战详解
在Spark-1.3新加的最重要的新特性之一DataFrame的引入,很类似在R语言中的DataFrame的操作,使得
Spark-Sql
更稳定高效。
kwu_ganymede
·
2022-04-22 08:11
Spark
spark
sql
dataframe
关于sparksql操作hive,读取本地csv文件并以parquet的形式装入hive中
说明:spark版本:2.2.0hive版本:1.2.1需求:有本地csv格式的一个文件,格式为${当天日期}visit.txt,例如20180707visit.txt,现在需要将其通过
spark-sql
weixin_30892889
·
2022-02-27 14:33
大数据
java
开发工具
springboot集成spark并使用
spark-sql
的示例详解
首先添加相关依赖:4.0.0org.springframework.bootspring-boot-starter-parent1.5.6.RELEASEcom.cordspark-example1.0-SNAPSHOTspark-examplehttp://www.example.comUTF-8UTF-81.82.10.31.81.8org.springframework.bootspring
·
2022-02-19 16:24
Spark - SQL查询文件数据
那么我们可以利用
spark-sql
直接操作文件的特性处理这类的需求,姐姐再也不用担心我不会spark了,因为我就只会sql。使用方法csvspark.sql("select*fromcsv.
大猪大猪
·
2022-02-10 12:57
Spark-Sql
常用API
学习一门开源技术一般有两种入门方法,一种是去看官网文档,比如GettingStarted-Spark3.2.0Documentation(apache.org),另一种是去看官网的例子,也就是%SPARK_HOME%\examples下面的代码。打开IDEA,选择File-Open...跟前面文章中方法一样导入jars目录到classpath。Spark解析json字符串第一个例子是读取并解析Js
山不在高水不在深
·
2021-12-03 19:00
Spark-Sql
入门程序示例详解
spark-sql
是用来处理结构化数据的模块,是入门spark的首要模块。技术的学习无非就是去了解它的API,但是Spark有点难,因为它的例子和网上
·
2021-12-03 13:42
Spark整合Hive
spark-sql
写代码方式1、idea里面将代码编写好打包上传到集群中运行,上线使用spark-submit提交2、sparkshell(repl)里面使用sqlContext测试使用,简单任务使用spark-shell
糟糟张
·
2021-11-13 22:00
Spark 架构,计算
3、
spark-sql
:通过sql的方式操作spark作业。sql相关的学习、测试、生产环境研发均可以使用该直接操作交互方式。
JIE_ling8
·
2021-11-12 00:10
总结
spark
架构
scala
Spark基础与数仓应用调优
计算引擎的发展了解SparkSpark核心理念数据应用Spark-sqlSpark四大组件
Spark-sql
使用与优化Spark中的基本概念使用
Spark-sql
参数优化问题点本文主要是认识、了解Spark
别停下思考
·
2021-06-21 13:16
Spark-sql
与hive整合运行在Yarn上,经典错误解决方案!
1.版本spark2.3.0hive1.2.12.错误现象jar通过spark-submit提交到yarn运行时报错如下:org.apache.hadoop.hive.ql.metadata.HiveException:org.apache.thrift.TApplicationException:Invalidmethodname:'get_all_functions'atorg.apache.
文儿哥
·
2021-06-13 20:42
Spark - SQL查询文件数据
那么我们可以利用
spark-sql
直接操作文件的特性处理这类的需求,姐姐再也不用担心我不会spark了,因为我就只会sql。使用方法csvspark.sql("select*fromcsv.
kikiki2
·
2021-06-13 13:34
spark中DataFrame的使用方法
到目前为止,我感觉DataFrame的很多使用方法是跟pandas的DataFrame很像的;如果想看比较全面的操作,可以看这个文章,
Spark-SQL
之DataFrame操作大全-一片黑-博客园。
VChao
·
2021-06-10 19:05
SparkSQL的shell命令
driver-java-options"-Dspark.driver.port=4050"--confspark.sql.warehouse.dir=hdfs://ip:8020/user/hive/warehouse或者最简单的
spark-sql
汤圆毛毛
·
2021-06-10 05:50
[喵咪大数据]Presto查询引擎
如果大家正在按照笔者的教程尝试使用大数据组件还是之前有使用过相关的组件,大家会发现一个问题HIVE在负责的查询下调用Mapreduce会很慢,在这个场景下就涌现出很多查询引擎来优化,比如大家熟悉的
Spark-SQL
文振熙
·
2021-06-06 13:53
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他