spark-SQL 第3页

大数据下一代变革之必研究数据湖技术Hudi原理实战双管齐下-下

集成Spark开发Spark编程读写示例通过IDE如Idea编程实质上和前面的spark-shell和spark-sql相似，其他都是Spark编程的知识，下面以scala语言为示例，idea新建scala

jh035512·2023-03-19 11:47

spark jdbc java_spark之JDBC开发（实战）

一、概述SparkCore、Spark-SQL与Spark-Streaming都是相同的,编写好之后打成jar包使用spark-submit命令提交到集群运行应用$SPARK_HOME/bin#.

weixin_39937312·2023-03-15 08:26

Spark读取elasticsearch数据指南

sherlockyb·2023-01-28 16:05

Spark基础篇-Spark-Core核心模型（一）

Spark系列文章目录第一章初识Spark第二章Spark-Core核心模型（一）第二章Spark-Core核心模型（二）第三章Spark-Core编程进阶（一）第三章Spark-Core编程进阶（二）第四章Spark-SQL

angeliacmm·2023-01-24 20:56

【大数据笔记】- Spark-SQL读写MySQL

Spark-SQL很强大，可以读写各种JDBC的库，先来一弹MySQL的，超简单：1.MySQL库建测试表和数据：CREATETABLEt_realtime.test_spark2mysql(idbigint

菜鸟老胡~·2022-12-21 23:24

个人总结-Spark-SQL之DataFrame的使用

DataFrame详解环境：spark2.4.0slaca:2.12以上创建DataFrame的几种方式第一种：rdd转DFimportsession.implict._valdf=rdd.toDF(#columnName)第二种/***创建一个空的DataFrame，代表用户*有四列，分别代表ID、名字、年龄、生日*/valcolNames=Array("id","name","age","bi

豪猪不挡道·2022-12-18 19:12

Spark-SparkSql基础、DataFrame、DataSet

Spark-SQL概述SparkSQL是Spark用于结构化数据(structureddata)处理的Spark模块。

魔笛Love·2022-12-18 19:11

大数据系列篇-spark-sql使用SQL加DSL方式与RDD-DATAFRAME-DATASET转换

大数据系列篇-spark-sql使用SQL加DSL方式与RDD-DATAFRAME-DATASET转换packagecom.testimportorg.apache.spark.SparkConfimportorg.apache.spark.sql.SparkSession

dong-123456·2022-12-18 19:11

Sbt打包出现依赖异常问题

scalaVersion:="2.11.11"ThisBuild/organization:="com.wtx.job014"libraryDependencies++=Seq("org.apache.spark"%%"spark-sql

帅气多汁你天哥·2022-12-15 11:39

SPARK-SQL内置时间日期类函数

一、获取当前时间1.current_date获取当前日期SELECTcurrent_date();2018-04-092.current_timestamp/now()获取当前时间SELECTcurrent_timestamp();SELECTnow();2018-04-0915:20:49.247二、从日期时间中提取字段1.year,month,day/dayofmonth,hour,minut

扫地增·2022-12-15 11:52

spark3.3.1 for CDH6.3.2 打包

spark3.3.1CDH打包因为CDH在6.3.2之后开始收费，而自带的spark版本太低，还阉割了spark-sql功能。

青冬·2022-12-15 11:51

CDH6.3.2集成spark-sql完整版本

下载spark-2.4.0-bin-hadoop2.7.tgz并上传至gateway节点地址:https://archive.apache.org/dist/spark/spark-2.4.0/spark-2.4.0-bin-hadoop2.7.tgz解压spark-4.0-bin-hadoop2.7.tgz到/opt/cloudera/parcels/CDH/lib/spark2中替换conf的

奇科.zhang·2022-12-15 11:50

SPARK-SQL内置函数之时间日期类

转载：http://www.cnblogs.com/feiyumo/p/8760846.html一、获取当前时间1.current_date获取当前日期2018-04-092.current_timestamp/now()获取当前时间2018-04-0915:20:49.247二、从日期时间中提取字段1.year,month,day/dayofmonth,hour,minute,secondExa

小陈菜奈-·2022-12-15 11:18

Spark-sql常用日期函数

current_date()当前日期selectcurrent_date();--2022-02-22now()或current_timestamp()当前时间selectnow();selectcurrent_timestamp();--2022-02-2222:22:22datediff(endDate,startDate)日期相差天数selectdatediff('2022-02-22','

ZenPower·2022-12-15 11:17

Spark SQL 函数全集

除UDF函数，均可在spark-sql中直接使用。经过importorg.apache.spark.sql.functions._，也可以用于Dataframe，Dataset。

weixin_43946446·2022-12-12 07:20

Spark_SparkSQL 函数全集_基于 2.3.0

除UDF函数，均可在spark-sql中直接使用。经过importorg.apache.spark.sql.functions._，也可以用于D

高达一号·2022-12-12 07:46

大数据下一代变革之必研究数据湖技术Hudi原理实战双管齐下-中

INSERTOVERWRIT写流程Key生成策略删除策略写流程归纳数据读集成Spark使用环境准备spark-shell使用启动插入数据查询数据更新数据时间旅行查询增量查询指定时间点查询删除数据覆盖数据spark-sql

IT小神·2022-11-26 00:00

spark-sql

sparkSql使用sql来进行操作,简化rdd的开发DataFrame是一种以rdd为基础的分布式数据集,也就类似于二维表格,只关心数据的含义,提供详细的结构信息DataSet是分布式数据集合,,是DataFrame的一个扩展sparkcore中的上下文环境对象是sparkContext,sparksql中的上下文就用的sparksession简单演示新建一个user.jsonspark读取的j

爱吃鸡的小鸡·2022-11-22 20:13

spark-sql字段级血缘关系实现

1.背景：血缘关系非常重要，因为有了字段间的血缘关系，便可以知道数据的来源去处，以及字段之间的转换关系，这样对数据的质量，治理有很大的帮助。SparkSQL相对于Hive来说通常情况下效率会比较高，对于运行时间、资源的使用上面等都会有较大的收益。所以考虑将采用MapReduce引擎执行的sql进行迭代，以spark引擎执行。但同时也需要实现字段血缘的功能。hive血缘关系实现较为简单，攻略也比较多

Chocolate？·2022-11-22 16:28

Spark on Hive & Hive on Spark，傻傻分不清楚

上车前需知Sparkonhive与HiveonSpark的区别SparkonhiveSpark通过Spark-SQL使用hive语句,操作hive,底层运行的还是sparkrdd。

王知无(import_bigdata)·2022-11-20 10:42

spark on hive 和 hive on spark

**sparkonhive**sparkonhive的话就是通过spark-sql使用hive语句，操作hive,底层运行的还是sparkrdd。

qq_42915325·2022-11-20 10:11

spark 写代码的三种方式、spark 整合 Hive

目录spark写代码的方式1、在IDEA中将代码编写好然后打包上传到集群中运行(使用最多)2、sparkshell(REPL--交互式的命令行)3、spark-sql(spark的SQL命令行)在进入spark-sql

赤兔胭脂小吕布·2022-11-20 10:08

spark sql读取hive底层_Spark-SQL读不到Hive数据库的新坑指北

背景本文讲的是spark-sql这个命令行工具读取hive数据的情况：Spark是2.3.1，HDP发行版Hive是3.1.0，HDPSparkSQL和Hive3的交互问题，用Sparksql读取处理hive

唯伟老师·2022-10-30 19:48

Spark系列—Spark SQL执行过程解析

今天来讲讲spark-sql的执行计划，有助于我们理解spark的运行原理。

数据小白的进阶之路·2022-10-25 21:04

Spark异常总结及解决办法2

Spark-sql问题：spark-sqlonyarn运行报错TransportClient:331-FailedtosendRPC***java.nio.channels.ClosedChannelException

灵佑666·2022-09-23 21:59

Apache Spark启动spark-sql报错

UnrecognizedHadoopmajorversionnumber4解决Thedir:/tmp/hiveonHDFSshouldbewritable问题参考资料一、问题出现版本：ApacheSpark2.4.0ApacheSpark3.0.0安装好spark后，执行spark-sql

终回首·2022-09-21 13:06

spark整合hive后spark-sql启动报错

通过spark-sql来访问hive的元数据，hive元数据信息存储在mysql但是启动的时候是报如下的错误，检查过配置,metastore已经配置，并且启动，用hive启动可以正常使用，但是spark-sql

yala说·2022-09-21 13:03

史上最简单的spark教程第十二章-SparkSQL编程Java案例实践(四)

Spark-SQL的Java实践案例(四)数据源:(读取与存储数据,JDBC服务器)史上最简单的spark教程所有代码示例地址:https://github.com/Mydreamandreality/

李时珍皮啊·2022-09-09 09:56

2020.11.23(spark-sql、复杂SQL、函数、自定义函数)

写SQL的时候都会遇到一个东西，函数。尤其写SQL的时候有两类场景，OLTP和OLAP，OLTP的时候也会写函数，但是多数情况属于时间函数、日期函数、金额函数，OLTP就是平常CRUD的时候，对着数据库发起的快速的，返回结果的。OLAP趋向于分析型的，时间粒度，OLAP会比OLTP复杂度高一点，分析的时候会卡在对数据，不是简单的一个单元格的值的修正，可能要做很多分组的值的转换，关联的操作，OLTP

超可爱慕之·2022-08-22 23:36

基于spingboot通过spark-sql进行大批量插入clickhous分布式数据库

1.所需依赖org.apache.sparkspark-core_2.112.4.3org.apache.sparkspark-sql_2.112.4.3ru.yandex.clickhouseclickhouse-jdbc0.1.53>listdata=newArrayList>();Stringname="测试";Stringage="22";Stringadress="广东深圳";Strin

杨宇sss·2022-08-22 23:15

iceberg系列（1）：存储详解-初探1

/bin/spark-sql\--packagesorg.apache.iceberg:iceberg-spark3-runtime:0.12.1\--confspark.sql.extensions=

九剑问天·2022-07-13 08:11

解决Hive on Spark与Spark on Hive之间表数据不互通问题

解决HiveonSpark与SparkonHive之间表数据不互通问题问题描述通过Ambari2.7.5安装HDP3.1.5集群后，spark-sql和hive虽然已经实现了整合，无论在hive还是spark-sql

勇远有李·2022-07-11 13:07

漫谈大数据 - Spark on Hive & Hive on Spark

转成MapReduce执行速度慢HiveOnSpark优化Hive元数据库的功能Hive开启MetaStore服务Sparkonhive与HiveonSpark的区别SparkonhiveSpark通过Spark-SQL

昊昊该干饭了·2022-07-11 13:06

HIVE 生成过多小文件的问题

生成大量小文件小文件的危害为什么会生成多个小文件不同的数据加载方式生成文件的区别解决小文件过多的问题今天运维人员突然发来了告警，有一张表生成的小文件太多，很疑惑，然后排查记录了下HIVE的版本2.x，使用的引擎是MR；注意：HIVEONSPARK或SPARK-SQL

半吊子Kyle·2022-07-11 13:34

Spark-sql入门案例-wordcount

文章目录一描述二数据准备三环境准备四编码实现总结一描述对按照空格切分的文本文件中的内容进行解析，读取，按照单词进行统计，最后按照统计结果进行排序，保存到文件具体的步骤：初始化Spark-sql对象读取文件内容对一行的数据进行处理分组统计结果排序保存至文件二数据准备三环境准备新建

Master_slaves·2022-06-16 00:09

Spark-SQL常用内置日期时间函数

Spark-SQL常用内置日期时间函数一、获取当前时间1、current_date获取当前日期时间格式：yyyy-MM-ddspark.sql("selectcurrent_date").show(false

绿萝蔓蔓绕枝生·2022-04-24 14:38

Spark-Sql之DataFrame实战详解

在Spark-1.3新加的最重要的新特性之一DataFrame的引入，很类似在R语言中的DataFrame的操作，使得Spark-Sql更稳定高效。

kwu_ganymede·2022-04-22 08:11

关于sparksql操作hive，读取本地csv文件并以parquet的形式装入hive中

说明：spark版本：2.2.0hive版本：1.2.1需求：有本地csv格式的一个文件，格式为${当天日期}visit.txt,例如20180707visit.txt，现在需要将其通过spark-sql

weixin_30892889·2022-02-27 14:33

springboot集成spark并使用spark-sql的示例详解

·2022-02-19 16:24

Spark - SQL查询文件数据

那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。使用方法csvspark.sql("select*fromcsv.

大猪大猪·2022-02-10 12:57

Spark-Sql常用API

学习一门开源技术一般有两种入门方法，一种是去看官网文档，比如GettingStarted-Spark3.2.0Documentation(apache.org)，另一种是去看官网的例子，也就是%SPARK_HOME%\examples下面的代码。打开IDEA，选择File-Open...跟前面文章中方法一样导入jars目录到classpath。Spark解析json字符串第一个例子是读取并解析Js

山不在高水不在深·2021-12-03 19:00

Spark-Sql入门程序示例详解

spark-sql是用来处理结构化数据的模块，是入门spark的首要模块。技术的学习无非就是去了解它的API，但是Spark有点难，因为它的例子和网上

·2021-12-03 13:42

Spark整合Hive

spark-sql写代码方式1、idea里面将代码编写好打包上传到集群中运行，上线使用spark-submit提交2、sparkshell(repl)里面使用sqlContext测试使用，简单任务使用spark-shell

糟糟张·2021-11-13 22:00

Spark 架构，计算

3、spark-sql:通过sql的方式操作spark作业。sql相关的学习、测试、生产环境研发均可以使用该直接操作交互方式。

JIE_ling8·2021-11-12 00:10

Spark基础与数仓应用调优

计算引擎的发展了解SparkSpark核心理念数据应用Spark-sqlSpark四大组件Spark-sql使用与优化Spark中的基本概念使用Spark-sql参数优化问题点本文主要是认识、了解Spark

别停下思考·2021-06-21 13:16

Spark-sql与hive整合运行在Yarn上，经典错误解决方案！

1.版本spark2.3.0hive1.2.12.错误现象jar通过spark-submit提交到yarn运行时报错如下：org.apache.hadoop.hive.ql.metadata.HiveException:org.apache.thrift.TApplicationException:Invalidmethodname:'get_all_functions'atorg.apache.

文儿哥·2021-06-13 20:42

Spark - SQL查询文件数据

那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。使用方法csvspark.sql("select*fromcsv.

kikiki2·2021-06-13 13:34

spark中DataFrame的使用方法

到目前为止，我感觉DataFrame的很多使用方法是跟pandas的DataFrame很像的；如果想看比较全面的操作，可以看这个文章，Spark-SQL之DataFrame操作大全-一片黑-博客园。

VChao·2021-06-10 19:05

SparkSQL的shell命令

driver-java-options"-Dspark.driver.port=4050"--confspark.sql.warehouse.dir=hdfs://ip:8020/user/hive/warehouse或者最简单的spark-sql

汤圆毛毛·2021-06-10 05:50

[喵咪大数据]Presto查询引擎

如果大家正在按照笔者的教程尝试使用大数据组件还是之前有使用过相关的组件,大家会发现一个问题HIVE在负责的查询下调用Mapreduce会很慢,在这个场景下就涌现出很多查询引擎来优化,比如大家熟悉的Spark-SQL

文振熙·2021-06-06 13:53

推荐频道

spark-SQL

大数据下一代变革之必研究数据湖技术Hudi原理实战双管齐下-下

spark jdbc java_spark之JDBC开发（实战）

Spark读取elasticsearch数据指南

Spark基础篇-Spark-Core核心模型（一）

【大数据笔记】- Spark-SQL读写MySQL

个人总结-Spark-SQL之DataFrame的使用

Spark-SparkSql基础、DataFrame、DataSet

大数据系列篇-spark-sql使用SQL加DSL方式与RDD-DATAFRAME-DATASET转换

Sbt打包出现依赖异常问题

SPARK-SQL内置时间日期类函数

spark3.3.1 for CDH6.3.2 打包

CDH6.3.2集成spark-sql完整版本

SPARK-SQL内置函数之时间日期类

Spark-sql常用日期函数

Spark SQL 函数全集

Spark_SparkSQL 函数全集_基于 2.3.0

大数据下一代变革之必研究数据湖技术Hudi原理实战双管齐下-中

spark-sql

spark-sql字段级血缘关系实现

Spark on Hive & Hive on Spark，傻傻分不清楚

spark on hive 和 hive on spark

spark 写代码的三种方式、spark 整合 Hive

spark sql读取hive底层_Spark-SQL读不到Hive数据库的新坑指北

Spark系列—Spark SQL执行过程解析

Spark异常总结及解决办法2

Apache Spark启动spark-sql报错

spark整合hive后spark-sql启动报错

史上最简单的spark教程第十二章-SparkSQL编程Java案例实践(四)

2020.11.23(spark-sql、复杂SQL、函数、自定义函数)

基于spingboot通过spark-sql进行大批量插入clickhous分布式数据库

iceberg系列（1）：存储详解-初探1

解决Hive on Spark与Spark on Hive之间表数据不互通问题

漫谈大数据 - Spark on Hive & Hive on Spark

HIVE 生成过多小文件的问题

Spark-sql入门案例-wordcount

Spark-SQL常用内置日期时间函数

Spark-Sql之DataFrame实战详解

关于sparksql操作hive，读取本地csv文件并以parquet的形式装入hive中

springboot集成spark并使用spark-sql的示例详解

Spark - SQL查询文件数据

Spark-Sql常用API

Spark-Sql入门程序示例详解

Spark整合Hive

Spark 架构，计算

Spark基础与数仓应用调优

Spark-sql与hive整合运行在Yarn上，经典错误解决方案！

Spark - SQL查询文件数据

spark中DataFrame的使用方法

SparkSQL的shell命令

[喵咪大数据]Presto查询引擎