Spark-SQL 第3页

spark第五章：SparkSQL实例

实例文章目录系列文章目录前言一、数据准备1.数据导入二、项目实例1.需求简介2.需求分析3.功能实现4.代码实现总结前言上一次我们介绍了一下SparkSQL的基本操作,这次我们来完成一个项目实例.一、数据准备我们这次Spark-sql

超哥--·2023-04-09 13:47

Spark参数配置和调优，Spark-SQL、Config

一、Hive-SQL/Spark-SQL参数配置和调优#设置计算引擎sethive.execution.engine=spark;#设置spark提交模式setspark.master=yarn-cluster

Just Jump·2023-04-09 02:55

Spark-SQL数据的加载与保存|加载数据|保存数据|默认数据源

通用的加载和保存spark.read.load是加载数据的通用方法df.write.save是保存数据的通用方法加载数据直接加载数据spark.read.json("/opt/module/spark-local/examples/src/main/resources/people.json").showformat指定加载数据类型spark.read.format("json").load("/

SmallScorpion·2023-04-08 01:33

第五章 Spark-SQL进阶（三）之SQL函数

第五章Spark-SQL进阶（三）3.SQL函数3.1内置函数3.1.1数学函数3.1.2集合函数3.1.3类型转换函数3.1.4日期函数3.1.5条件函数3.1.6字符函数3.1.7聚合函数3.1.8

angeliacmm·2023-04-06 11:31

Spark - SQL查询文件数据

那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。使用方法csvspark.sql("select*fromcsv.

kikiki4·2023-04-06 06:43

三十二、《大数据项目实战之用户行为分析》Spark SQL操作Hive的几种方式

例如，列出当前所有数据库，代码如下：spark-sql>showdatabases;defaultTimetaken:3.66seconds,Fetched1row(s)可以看到，默认有一个名为defa

大数据张老师·2023-04-05 23:12

SPARK -SQL 小文件问题

SPARK小文件问题spark-sql小文件生成原因设置参数减少小文件的生成spark-sql小文件生成原因spark-sql提交任务默认shuffle数量是200如果数据量过小会造成每一个shuffle

hjmbt·2023-04-05 16:30

Spark-SQL连接Hive 的五种方法

目录一、Spark-SQL是什么二、HiveandSparkSQL三、Spark-SQL特点四、Spark-SQL连接Hive1）内嵌的HIVE2）外部的HIVE3）运行Sparkbeeline4）运行

羙橘·2023-04-04 07:35

Pyspark让pandas特征工程代码在集群上飞起来——天猫复购率baseline

天猫复购率baseline环境与数据准备导包创建spark应用第一种特征工程方式：pyspark.pandas.dataframe第二种特征工程方式：pyspark.dataframe第三种特征工程方式：spark-SQL

初淅沥以萧飒·2023-04-04 01:57

Spark-SQL连接Hive 的五种方法

Spark-SQL连接HiveApacheHive是Hadoop上的SQL引擎，SparkSQL编译时可以包含Hive支持，也可以不包含。

谷谷奇·2023-04-03 06:03

hive on spark 集成（spark-sql 整合hive）

SparkSQL整合hive就是获取hive表中的元数据信息（在mysql中），然后通过SparkSQL来操作数据。整合步骤：1、拷贝hive配置文件到spark查看hive目录中conf目录下的配置文件，hive-site.xml，可以发现之前配置的hive的元数据信息在master的mysql数据库中。javax.jdo.option.ConnectionURLjdbc:mysql://loc

Siobhan. 明鑫·2023-04-03 06:26

spark-sql 能够读取hive表

在服务器中直接使用spark-sql来读取hive表的数据，使用spark引擎进行hive表数据查询，既快又方便。

上杉仓南·2023-04-03 06:19

spark-shell & spark-sql 使用

2]\--jars/opt/module/hive-1.2.2/lib/mysql-connector-java-5.1.27-bin.jar通过spark-shell操作hiveWebUI查看任务：spark-sql

路飞DD·2023-04-03 06:16

Spark-SQL连接Hive的五种方法

一、内嵌的Hive若使用Spark内嵌的Hive，直接使用即可，什么都不需要做（在实际生产活动中，很少会使用这一模式）二、外部的Hive步骤：将Hive中conf/下的hive-site.xml拷贝到Spark的conf/目录下；把Mysql的驱动copy到jars/目录下；如果访问不到hdfs，则将core-site.xml和hdfs-site.xml拷贝到conf/目录下；重启spark-sh

CREATE^_^·2023-04-03 06:39

hive（spark-sql） -e -f -d以及传参数, sh并行

1、统计hive一个库下的表的个数hive-e"usedatabases;showtables;--showtableslike'edw*';"|grep-vtmp|wc-l1、hive-e"usedatabasesshowtables;">database_name_tables.txt2、统计量wc-ldatabase_name_tables.txt1.使用“spark-sql-e”与“Hiv

四月天03·2023-04-03 06:02

hive安装、配置及spark-sql远程连接hive服务

一、最小集群安装1、Hive安装及配置（1）把apache-hive-1.2.1-bin.tar.gz上传到linux的/opt/software目录下（2）解压apache-hive-1.2.1-bin.tar.gz到/opt/module/目录下面tar-zxvfapache-hive-1.2.1-bin.tar.gz-C/opt/module/（3）修改apache-hive-1.2.1-b

柳奕坤·2023-04-03 05:54

原生spark-sql连接原生hive问题

报错22/02/2210:24:20INFOClient:Applicationreportforapplication_1642757441712_0012(state:FAILED)22/02/2210:24:20INFOClient:clienttoken:N/Adiagnostics:Applicationapplication_1642757441712_0012failed2times

jzy3711·2023-04-03 05:23

Spark-SQL连接Hive

Spark-SQL连接HiveApacheHive是Hadoop上的SQL引擎，SparkSQL编译时可以包含Hive支持，也可以不包含。

Aricya·2023-04-03 05:03

Spark-sql读取hive分区表限制分区过滤条件及限制分区数量

问题描述在开发过程中使用spark去读取hive分区表的过程中（或者使用hiveonspark、nodepad开发工具），部分开发人员未注意添加分区属性过滤导致在执行过程中加载了全量数据，引起任务执行效率低、磁盘IO大量损耗等问题解决办法1、自定义规则CheckPartitionTable类，实现RuletypeExtensionsBuilder=SparkSessionExtensions=>U

海轩_fan·2023-04-02 18:43

SPARKSQL3.0-DataFrameAPI与spark.sql()区别源码分析

一、前言：阅读本节需要先掌握spark-sql内部执行的基本知识：SessionStateUnresolved阶段Analyzer阶段中queryExecution的介绍二、区别spark.sql的执行顺序为

高世之智·2023-03-31 11:54

SparkSQL 项目实战

SparkSQL项目实战1.1数据准备我们这次Spark-sql操作中所有的数据均来自Hive，首先在Hive中创建表,，并导入数据。

翁老师的教学团队·2023-03-23 22:39

SparkSQL项目实战：TopN

文章目录数据准备需求描述数据准备这次Spark-SQL操作所有的数据均来自Hive，所以首先需要在Hive中创建表,并导入数据。

塞上江南o·2023-03-23 21:59

springboot mybatis和spark-sql、SDB对接

springbootmybatis和spark-sql对接本次将在已经部署了spark、hive和SequoiaDB的环境中，通过实验来实现springboot、mybatis框架与spark-sql的整合

YauChungYin·2023-03-22 12:02

Flink-cdc写入hudi并使用hive和spark-sql查询(基于flink1.13.5和hudi0.10.0，flink-cdc2.1.1)

一、环境准备flink1.13.5flink-cdc2.1.1hudi-0.10.0spark-3.1.2、hadoop-2.6.5、hive-1.1.0(cdh5.16版本)jar包:hudi-spark3-bundle_2.12-0.10.0.jarhudi-flink-bundle_2.11-0.10.0.jarflink-sql-connector-mysql-cdc-2.1.1.jar二

小三你妹·2023-03-19 11:32

flink-cdc写入hudi，使用hive或者spark-sql统计分析hudi的数据

一、环境准备：flink1.12.2_2.11hudi-0.9.0(master分支)spark-2.4.5、hadoop-3.1.3、hive-3.1.2(选择的是阿里云emr-2.4.5)二、flink-cdc写入hudi1、mysql建表语句createtableusers(idbigintauto_incrementprimarykey,namevarchar(20)null,birthd

明喆_sama·2023-03-19 11:55

大数据下一代变革之必研究数据湖技术Hudi原理实战双管齐下-下

集成Spark开发Spark编程读写示例通过IDE如Idea编程实质上和前面的spark-shell和spark-sql相似，其他都是Spark编程的知识，下面以scala语言为示例，idea新建scala

jh035512·2023-03-19 11:47

spark jdbc java_spark之JDBC开发（实战）

一、概述SparkCore、Spark-SQL与Spark-Streaming都是相同的,编写好之后打成jar包使用spark-submit命令提交到集群运行应用$SPARK_HOME/bin#.

weixin_39937312·2023-03-15 08:26

Spark读取elasticsearch数据指南

sherlockyb·2023-01-28 16:05

Spark基础篇-Spark-Core核心模型（一）

Spark系列文章目录第一章初识Spark第二章Spark-Core核心模型（一）第二章Spark-Core核心模型（二）第三章Spark-Core编程进阶（一）第三章Spark-Core编程进阶（二）第四章Spark-SQL

angeliacmm·2023-01-24 20:56

【大数据笔记】- Spark-SQL读写MySQL

Spark-SQL很强大，可以读写各种JDBC的库，先来一弹MySQL的，超简单：1.MySQL库建测试表和数据：CREATETABLEt_realtime.test_spark2mysql(idbigint

菜鸟老胡~·2022-12-21 23:24

个人总结-Spark-SQL之DataFrame的使用

DataFrame详解环境：spark2.4.0slaca:2.12以上创建DataFrame的几种方式第一种：rdd转DFimportsession.implict._valdf=rdd.toDF(#columnName)第二种/***创建一个空的DataFrame，代表用户*有四列，分别代表ID、名字、年龄、生日*/valcolNames=Array("id","name","age","bi

豪猪不挡道·2022-12-18 19:12

Spark-SparkSql基础、DataFrame、DataSet

Spark-SQL概述SparkSQL是Spark用于结构化数据(structureddata)处理的Spark模块。

魔笛Love·2022-12-18 19:11

大数据系列篇-spark-sql使用SQL加DSL方式与RDD-DATAFRAME-DATASET转换

大数据系列篇-spark-sql使用SQL加DSL方式与RDD-DATAFRAME-DATASET转换packagecom.testimportorg.apache.spark.SparkConfimportorg.apache.spark.sql.SparkSession

dong-123456·2022-12-18 19:11

Sbt打包出现依赖异常问题

scalaVersion:="2.11.11"ThisBuild/organization:="com.wtx.job014"libraryDependencies++=Seq("org.apache.spark"%%"spark-sql

帅气多汁你天哥·2022-12-15 11:39

SPARK-SQL内置时间日期类函数

一、获取当前时间1.current_date获取当前日期SELECTcurrent_date();2018-04-092.current_timestamp/now()获取当前时间SELECTcurrent_timestamp();SELECTnow();2018-04-0915:20:49.247二、从日期时间中提取字段1.year,month,day/dayofmonth,hour,minut

扫地增·2022-12-15 11:52

spark3.3.1 for CDH6.3.2 打包

spark3.3.1CDH打包因为CDH在6.3.2之后开始收费，而自带的spark版本太低，还阉割了spark-sql功能。

青冬·2022-12-15 11:51

CDH6.3.2集成spark-sql完整版本

下载spark-2.4.0-bin-hadoop2.7.tgz并上传至gateway节点地址:https://archive.apache.org/dist/spark/spark-2.4.0/spark-2.4.0-bin-hadoop2.7.tgz解压spark-4.0-bin-hadoop2.7.tgz到/opt/cloudera/parcels/CDH/lib/spark2中替换conf的

奇科.zhang·2022-12-15 11:50

SPARK-SQL内置函数之时间日期类

转载：http://www.cnblogs.com/feiyumo/p/8760846.html一、获取当前时间1.current_date获取当前日期2018-04-092.current_timestamp/now()获取当前时间2018-04-0915:20:49.247二、从日期时间中提取字段1.year,month,day/dayofmonth,hour,minute,secondExa

小陈菜奈-·2022-12-15 11:18

Spark-sql常用日期函数

current_date()当前日期selectcurrent_date();--2022-02-22now()或current_timestamp()当前时间selectnow();selectcurrent_timestamp();--2022-02-2222:22:22datediff(endDate,startDate)日期相差天数selectdatediff('2022-02-22','

ZenPower·2022-12-15 11:17

Spark SQL 函数全集

除UDF函数，均可在spark-sql中直接使用。经过importorg.apache.spark.sql.functions._，也可以用于Dataframe，Dataset。

weixin_43946446·2022-12-12 07:20

Spark_SparkSQL 函数全集_基于 2.3.0

除UDF函数，均可在spark-sql中直接使用。经过importorg.apache.spark.sql.functions._，也可以用于D

高达一号·2022-12-12 07:46

大数据下一代变革之必研究数据湖技术Hudi原理实战双管齐下-中

INSERTOVERWRIT写流程Key生成策略删除策略写流程归纳数据读集成Spark使用环境准备spark-shell使用启动插入数据查询数据更新数据时间旅行查询增量查询指定时间点查询删除数据覆盖数据spark-sql

IT小神·2022-11-26 00:00

spark-sql

sparkSql使用sql来进行操作,简化rdd的开发DataFrame是一种以rdd为基础的分布式数据集,也就类似于二维表格,只关心数据的含义,提供详细的结构信息DataSet是分布式数据集合,,是DataFrame的一个扩展sparkcore中的上下文环境对象是sparkContext,sparksql中的上下文就用的sparksession简单演示新建一个user.jsonspark读取的j

爱吃鸡的小鸡·2022-11-22 20:13

spark-sql字段级血缘关系实现

1.背景：血缘关系非常重要，因为有了字段间的血缘关系，便可以知道数据的来源去处，以及字段之间的转换关系，这样对数据的质量，治理有很大的帮助。SparkSQL相对于Hive来说通常情况下效率会比较高，对于运行时间、资源的使用上面等都会有较大的收益。所以考虑将采用MapReduce引擎执行的sql进行迭代，以spark引擎执行。但同时也需要实现字段血缘的功能。hive血缘关系实现较为简单，攻略也比较多

Chocolate？·2022-11-22 16:28

Spark on Hive & Hive on Spark，傻傻分不清楚

上车前需知Sparkonhive与HiveonSpark的区别SparkonhiveSpark通过Spark-SQL使用hive语句,操作hive,底层运行的还是sparkrdd。

王知无(import_bigdata)·2022-11-20 10:42

spark on hive 和 hive on spark

**sparkonhive**sparkonhive的话就是通过spark-sql使用hive语句，操作hive,底层运行的还是sparkrdd。

qq_42915325·2022-11-20 10:11

spark 写代码的三种方式、spark 整合 Hive

目录spark写代码的方式1、在IDEA中将代码编写好然后打包上传到集群中运行(使用最多)2、sparkshell(REPL--交互式的命令行)3、spark-sql(spark的SQL命令行)在进入spark-sql

赤兔胭脂小吕布·2022-11-20 10:08

spark sql读取hive底层_Spark-SQL读不到Hive数据库的新坑指北

背景本文讲的是spark-sql这个命令行工具读取hive数据的情况：Spark是2.3.1，HDP发行版Hive是3.1.0，HDPSparkSQL和Hive3的交互问题，用Sparksql读取处理hive

唯伟老师·2022-10-30 19:48

Spark系列—Spark SQL执行过程解析

今天来讲讲spark-sql的执行计划，有助于我们理解spark的运行原理。

数据小白的进阶之路·2022-10-25 21:04

Spark异常总结及解决办法2

Spark-sql问题：spark-sqlonyarn运行报错TransportClient:331-FailedtosendRPC***java.nio.channels.ClosedChannelException

灵佑666·2022-09-23 21:59

推荐频道

Spark-SQL

spark第五章：SparkSQL实例

Spark参数配置和调优，Spark-SQL、Config

Spark-SQL数据的加载与保存|加载数据|保存数据|默认数据源

第五章 Spark-SQL进阶（三）之SQL函数

Spark - SQL查询文件数据

三十二、《大数据项目实战之用户行为分析》Spark SQL操作Hive的几种方式

SPARK -SQL 小文件问题

Spark-SQL连接Hive 的五种方法

Pyspark让pandas特征工程代码在集群上飞起来——天猫复购率baseline

Spark-SQL连接Hive 的五种方法

hive on spark 集成（spark-sql 整合hive）

spark-sql 能够读取hive表

spark-shell & spark-sql 使用

Spark-SQL连接Hive的五种方法

hive（spark-sql） -e -f -d以及传参数, sh并行

hive安装、配置及spark-sql远程连接hive服务

原生spark-sql连接原生hive问题

Spark-SQL连接Hive

Spark-sql读取hive分区表限制分区过滤条件及限制分区数量

SPARKSQL3.0-DataFrameAPI与spark.sql()区别源码分析

SparkSQL 项目实战

SparkSQL项目实战：TopN

springboot mybatis和spark-sql、SDB对接

Flink-cdc写入hudi并使用hive和spark-sql查询(基于flink1.13.5和hudi0.10.0，flink-cdc2.1.1)

flink-cdc写入hudi，使用hive或者spark-sql统计分析hudi的数据

大数据下一代变革之必研究数据湖技术Hudi原理实战双管齐下-下

spark jdbc java_spark之JDBC开发（实战）

Spark读取elasticsearch数据指南

Spark基础篇-Spark-Core核心模型（一）

【大数据笔记】- Spark-SQL读写MySQL

个人总结-Spark-SQL之DataFrame的使用

Spark-SparkSql基础、DataFrame、DataSet

大数据系列篇-spark-sql使用SQL加DSL方式与RDD-DATAFRAME-DATASET转换

Sbt打包出现依赖异常问题

SPARK-SQL内置时间日期类函数

spark3.3.1 for CDH6.3.2 打包

CDH6.3.2集成spark-sql完整版本

SPARK-SQL内置函数之时间日期类

Spark-sql常用日期函数

Spark SQL 函数全集

Spark_SparkSQL 函数全集_基于 2.3.0

大数据下一代变革之必研究数据湖技术Hudi原理实战双管齐下-中

spark-sql

spark-sql字段级血缘关系实现

Spark on Hive & Hive on Spark，傻傻分不清楚

spark on hive 和 hive on spark

spark 写代码的三种方式、spark 整合 Hive

spark sql读取hive底层_Spark-SQL读不到Hive数据库的新坑指北

Spark系列—Spark SQL执行过程解析

Spark异常总结及解决办法2