E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Spark-SQL
spark第五章:SparkSQL实例
实例文章目录系列文章目录前言一、数据准备1.数据导入二、项目实例1.需求简介2.需求分析3.功能实现4.代码实现总结前言上一次我们介绍了一下SparkSQL的基本操作,这次我们来完成一个项目实例.一、数据准备我们这次
Spark-sql
超哥--
·
2023-04-09 13:47
spark
spark
大数据
hive
Spark参数配置和调优,
Spark-SQL
、Config
一、Hive-SQL/
Spark-SQL
参数配置和调优#设置计算引擎sethive.execution.engine=spark;#设置spark提交模式setspark.master=yarn-cluster
Just Jump
·
2023-04-09 02:55
spark
spark
sql
参数配置和调优
Spark-SQL
数据的加载与保存|加载数据|保存数据|默认数据源
通用的加载和保存spark.read.load是加载数据的通用方法df.write.save是保存数据的通用方法加载数据直接加载数据spark.read.json("/opt/module/spark-local/examples/src/main/resources/people.json").showformat指定加载数据类型spark.read.format("json").load("/
SmallScorpion
·
2023-04-08 01:33
Spark模块化学习
大数据
spark
json
第五章
Spark-SQL
进阶(三)之SQL函数
第五章
Spark-SQL
进阶(三)3.SQL函数3.1内置函数3.1.1数学函数3.1.2集合函数3.1.3类型转换函数3.1.4日期函数3.1.5条件函数3.1.6字符函数3.1.7聚合函数3.1.8
angeliacmm
·
2023-04-06 11:31
Spark
Scala
大数据
spark
Spark - SQL查询文件数据
那么我们可以利用
spark-sql
直接操作文件的特性处理这类的需求,姐姐再也不用担心我不会spark了,因为我就只会sql。使用方法csvspark.sql("select*fromcsv.
kikiki4
·
2023-04-06 06:43
三十二、《大数据项目实战之用户行为分析》Spark SQL操作Hive的几种方式
例如,列出当前所有数据库,代码如下:
spark-sql
>showdatabases;defaultTimetaken:3.66seconds,Fetched1row(s)可以看到,默认有一个名为defa
大数据张老师
·
2023-04-05 23:12
#
hive
大数据
spark
Spark
SQL操作Hive
SparkSQL
SPARK -SQL 小文件问题
SPARK小文件问题
spark-sql
小文件生成原因设置参数减少小文件的生成
spark-sql
小文件生成原因
spark-sql
提交任务默认shuffle数量是200如果数据量过小会造成每一个shuffle
hjmbt
·
2023-04-05 16:30
spark
sql
Spark-SQL
连接Hive 的五种方法
目录一、
Spark-SQL
是什么二、HiveandSparkSQL三、
Spark-SQL
特点四、
Spark-SQL
连接Hive1)内嵌的HIVE2)外部的HIVE3)运行Sparkbeeline4)运行
羙橘
·
2023-04-04 07:35
hive
spark
sql
大数据
学习
Pyspark让pandas特征工程代码在集群上飞起来——天猫复购率baseline
天猫复购率baseline环境与数据准备导包创建spark应用第一种特征工程方式:pyspark.pandas.dataframe第二种特征工程方式:pyspark.dataframe第三种特征工程方式:
spark-SQL
初淅沥以萧飒
·
2023-04-04 01:57
pyspark
python
spark
大数据
Spark-SQL
连接Hive 的五种方法
Spark-SQL
连接HiveApacheHive是Hadoop上的SQL引擎,SparkSQL编译时可以包含Hive支持,也可以不包含。
谷谷奇
·
2023-04-03 06:03
hive
spark
sql
hive on spark 集成(
spark-sql
整合hive)
SparkSQL整合hive就是获取hive表中的元数据信息(在mysql中),然后通过SparkSQL来操作数据。整合步骤:1、拷贝hive配置文件到spark查看hive目录中conf目录下的配置文件,hive-site.xml,可以发现之前配置的hive的元数据信息在master的mysql数据库中。javax.jdo.option.ConnectionURLjdbc:mysql://loc
Siobhan. 明鑫
·
2023-04-03 06:26
大数据环境搭建
hive
spark
sql
spark-sql
能够读取hive表
在服务器中直接使用
spark-sql
来读取hive表的数据,使用spark引擎进行hive表数据查询,既快又方便。
上杉仓南
·
2023-04-03 06:19
hive
spark
sql
spark-shell &
spark-sql
使用
2]\--jars/opt/module/hive-1.2.2/lib/mysql-connector-java-5.1.27-bin.jar通过spark-shell操作hiveWebUI查看任务:
spark-sql
路飞DD
·
2023-04-03 06:16
SparkSQL
Spark
大数据
Hadoop
Hive
Spark
spark
spark-shell
spark
sql
spark读取hive数据
spark
整合
hive
Spark-SQL
连接Hive的五种方法
一、内嵌的Hive若使用Spark内嵌的Hive,直接使用即可,什么都不需要做(在实际生产活动中,很少会使用这一模式)二、外部的Hive步骤:将Hive中conf/下的hive-site.xml拷贝到Spark的conf/目录下;把Mysql的驱动copy到jars/目录下;如果访问不到hdfs,则将core-site.xml和hdfs-site.xml拷贝到conf/目录下;重启spark-sh
CREATE^_^
·
2023-04-03 06:39
hive
spark
hive(
spark-sql
) -e -f -d以及传参数, sh并行
1、统计hive一个库下的表的个数hive-e"usedatabases;showtables;--showtableslike'edw*';"|grep-vtmp|wc-l1、hive-e"usedatabasesshowtables;">database_name_tables.txt2、统计量wc-ldatabase_name_tables.txt1.使用“spark-sql-e”与“Hiv
四月天03
·
2023-04-03 06:02
Hive
Spark
sql
hive
spark
hive安装、配置及
spark-sql
远程连接hive服务
一、最小集群安装1、Hive安装及配置(1)把apache-hive-1.2.1-bin.tar.gz上传到linux的/opt/software目录下(2)解压apache-hive-1.2.1-bin.tar.gz到/opt/module/目录下面tar-zxvfapache-hive-1.2.1-bin.tar.gz-C/opt/module/(3)修改apache-hive-1.2.1-b
柳奕坤
·
2023-04-03 05:54
大数据
hive
mysql
hadoop
原生
spark-sql
连接原生hive问题
报错22/02/2210:24:20INFOClient:Applicationreportforapplication_1642757441712_0012(state:FAILED)22/02/2210:24:20INFOClient:clienttoken:N/Adiagnostics:Applicationapplication_1642757441712_0012failed2times
jzy3711
·
2023-04-03 05:23
大数据
hive
spark
hive
spark
sql
Spark-SQL
连接Hive
Spark-SQL
连接HiveApacheHive是Hadoop上的SQL引擎,SparkSQL编译时可以包含Hive支持,也可以不包含。
Aricya
·
2023-04-03 05:03
hive
spark
sql
大数据
Spark-sql
读取hive分区表限制分区过滤条件及限制分区数量
问题描述在开发过程中使用spark去读取hive分区表的过程中(或者使用hiveonspark、nodepad开发工具),部分开发人员未注意添加分区属性过滤导致在执行过程中加载了全量数据,引起任务执行效率低、磁盘IO大量损耗等问题解决办法1、自定义规则CheckPartitionTable类,实现RuletypeExtensionsBuilder=SparkSessionExtensions=>U
海轩_fan
·
2023-04-02 18:43
SPARKSQL3.0-DataFrameAPI与spark.sql()区别源码分析
一、前言:阅读本节需要先掌握
spark-sql
内部执行的基本知识:SessionStateUnresolved阶段Analyzer阶段中queryExecution的介绍二、区别spark.sql的执行顺序为
高世之智
·
2023-03-31 11:54
spark
sql
大数据
sparksql
DataFrame
SparkSQL 项目实战
SparkSQL项目实战1.1数据准备我们这次
Spark-sql
操作中所有的数据均来自Hive,首先在Hive中创建表,,并导入数据。
翁老师的教学团队
·
2023-03-23 22:39
sparksql
SparkSQL项目实战:TopN
文章目录数据准备需求描述数据准备这次
Spark-SQL
操作所有的数据均来自Hive,所以首先需要在Hive中创建表,并导入数据。
塞上江南o
·
2023-03-23 21:59
Spark
spark
springboot mybatis和
spark-sql
、SDB对接
springbootmybatis和
spark-sql
对接本次将在已经部署了spark、hive和SequoiaDB的环境中,通过实验来实现springboot、mybatis框架与
spark-sql
的整合
YauChungYin
·
2023-03-22 12:02
Sequoiadb学习笔记
数据库
spring
java
Flink-cdc写入hudi并使用hive和
spark-sql
查询(基于flink1.13.5和hudi0.10.0,flink-cdc2.1.1)
一、环境准备flink1.13.5flink-cdc2.1.1hudi-0.10.0spark-3.1.2、hadoop-2.6.5、hive-1.1.0(cdh5.16版本)jar包:hudi-spark3-bundle_2.12-0.10.0.jarhudi-flink-bundle_2.11-0.10.0.jarflink-sql-connector-mysql-cdc-2.1.1.jar二
小三你妹
·
2023-03-19 11:32
大数据
hive
spark
sql
flink
linux
flink-cdc写入hudi,使用hive或者
spark-sql
统计分析hudi的数据
一、环境准备:flink1.12.2_2.11hudi-0.9.0(master分支)spark-2.4.5、hadoop-3.1.3、hive-3.1.2(选择的是阿里云emr-2.4.5)二、flink-cdc写入hudi1、mysql建表语句createtableusers(idbigintauto_incrementprimarykey,namevarchar(20)null,birthd
明喆_sama
·
2023-03-19 11:55
hudi
数据湖
大数据下一代变革之必研究数据湖技术Hudi原理实战双管齐下-下
集成Spark开发Spark编程读写示例通过IDE如Idea编程实质上和前面的spark-shell和
spark-sql
相似,其他都是Spark编程的知识,下面以scala语言为示例,idea新建scala
jh035512
·
2023-03-19 11:47
大数据
scala
spark
spark jdbc java_spark之JDBC开发(实战)
一、概述SparkCore、
Spark-SQL
与Spark-Streaming都是相同的,编写好之后打成jar包使用spark-submit命令提交到集群运行应用$SPARK_HOME/bin#.
weixin_39937312
·
2023-03-15 08:26
spark
jdbc
java
Spark读取elasticsearch数据指南
Spark相关依赖包的版本为2.3.2,如spark-core、
spark-sql
。Elasticsearch数据schema{"settings":{"number_of_replicas":
sherlockyb
·
2023-01-28 16:05
Spark基础篇-Spark-Core核心模型(一)
Spark系列文章目录第一章初识Spark第二章Spark-Core核心模型(一)第二章Spark-Core核心模型(二)第三章Spark-Core编程进阶(一)第三章Spark-Core编程进阶(二)第四章
Spark-SQL
angeliacmm
·
2023-01-24 20:56
Spark
大数据
spark
hadoop
【大数据笔记】-
Spark-SQL
读写MySQL
Spark-SQL
很强大,可以读写各种JDBC的库,先来一弹MySQL的,超简单:1.MySQL库建测试表和数据:CREATETABLEt_realtime.test_spark2mysql(idbigint
菜鸟老胡~
·
2022-12-21 23:24
技术学习
spark
mysql
big
data
大数据
数据仓库
个人总结-
Spark-SQL
之DataFrame的使用
DataFrame详解环境:spark2.4.0slaca:2.12以上创建DataFrame的几种方式第一种:rdd转DFimportsession.implict._valdf=rdd.toDF(#columnName)第二种/***创建一个空的DataFrame,代表用户*有四列,分别代表ID、名字、年龄、生日*/valcolNames=Array("id","name","age","bi
豪猪不挡道
·
2022-12-18 19:12
大数据
大数据
spark
dataframe
Spark-sql
Spark-SparkSql基础、DataFrame、DataSet
Spark-SQL
概述SparkSQL是Spark用于结构化数据(structureddata)处理的Spark模块。
魔笛Love
·
2022-12-18 19:11
spark
big
data
hive
大数据系列篇-
spark-sql
使用SQL加DSL方式与RDD-DATAFRAME-DATASET转换
大数据系列篇-
spark-sql
使用SQL加DSL方式与RDD-DATAFRAME-DATASET转换packagecom.testimportorg.apache.spark.SparkConfimportorg.apache.spark.sql.SparkSession
dong-123456
·
2022-12-18 19:11
分布式
大数据
spark
spark
sql
big
data
scala
Sbt打包出现依赖异常问题
scalaVersion:="2.11.11"ThisBuild/organization:="com.wtx.job014"libraryDependencies++=Seq("org.apache.spark"%%"
spark-sql
帅气多汁你天哥
·
2022-12-15 11:39
Hadoop
爬坑指南
实战项目讲解
maven
spark
大数据
kafka
SPARK-SQL
内置时间日期类函数
一、获取当前时间1.current_date获取当前日期SELECTcurrent_date();2018-04-092.current_timestamp/now()获取当前时间SELECTcurrent_timestamp();SELECTnow();2018-04-0915:20:49.247二、从日期时间中提取字段1.year,month,day/dayofmonth,hour,minut
扫地增
·
2022-12-15 11:52
spark
spark
spark3.3.1 for CDH6.3.2 打包
spark3.3.1CDH打包因为CDH在6.3.2之后开始收费,而自带的spark版本太低,还阉割了
spark-sql
功能。
青冬
·
2022-12-15 11:51
cdh
hadoop
spark
cdh
CDH6.3.2集成
spark-sql
完整版本
下载spark-2.4.0-bin-hadoop2.7.tgz并上传至gateway节点地址:https://archive.apache.org/dist/spark/spark-2.4.0/spark-2.4.0-bin-hadoop2.7.tgz解压spark-4.0-bin-hadoop2.7.tgz到/opt/cloudera/parcels/CDH/lib/spark2中替换conf的
奇科.zhang
·
2022-12-15 11:50
CDH
spark
sql
hadoop
SPARK-SQL
内置函数之时间日期类
转载:http://www.cnblogs.com/feiyumo/p/8760846.html一、获取当前时间1.current_date获取当前日期2018-04-092.current_timestamp/now()获取当前时间2018-04-0915:20:49.247二、从日期时间中提取字段1.year,month,day/dayofmonth,hour,minute,secondExa
小陈菜奈-
·
2022-12-15 11:18
Scala&Spark
spark
scala
大数据
Spark-sql
常用日期函数
current_date()当前日期selectcurrent_date();--2022-02-22now()或current_timestamp()当前时间selectnow();selectcurrent_timestamp();--2022-02-2222:22:22datediff(endDate,startDate)日期相差天数selectdatediff('2022-02-22','
ZenPower
·
2022-12-15 11:17
Spark
spark
Spark SQL 函数全集
除UDF函数,均可在
spark-sql
中直接使用。经过importorg.apache.spark.sql.functions._,也可以用于Dataframe,Dataset。
weixin_43946446
·
2022-12-12 07:20
大数据
Spark_SparkSQL 函数全集_基于 2.3.0
除UDF函数,均可在
spark-sql
中直接使用。经过importorg.apache.spark.sql.functions._,也可以用于D
高达一号
·
2022-12-12 07:46
Spark
大数据下一代变革之必研究数据湖技术Hudi原理实战双管齐下-中
INSERTOVERWRIT写流程Key生成策略删除策略写流程归纳数据读集成Spark使用环境准备spark-shell使用启动插入数据查询数据更新数据时间旅行查询增量查询指定时间点查询删除数据覆盖数据
spark-sql
IT小神
·
2022-11-26 00:00
大数据
数据仓库
大数据
java
数据库
spark-sql
sparkSql使用sql来进行操作,简化rdd的开发DataFrame是一种以rdd为基础的分布式数据集,也就类似于二维表格,只关心数据的含义,提供详细的结构信息DataSet是分布式数据集合,,是DataFrame的一个扩展sparkcore中的上下文环境对象是sparkContext,sparksql中的上下文就用的sparksession简单演示新建一个user.jsonspark读取的j
爱吃鸡的小鸡
·
2022-11-22 20:13
spark
scala
开发语言
spark
学习
大数据
spark-sql
字段级血缘关系实现
1.背景:血缘关系非常重要,因为有了字段间的血缘关系,便可以知道数据的来源去处,以及字段之间的转换关系,这样对数据的质量,治理有很大的帮助。SparkSQL相对于Hive来说通常情况下效率会比较高,对于运行时间、资源的使用上面等都会有较大的收益。所以考虑将采用MapReduce引擎执行的sql进行迭代,以spark引擎执行。但同时也需要实现字段血缘的功能。hive血缘关系实现较为简单,攻略也比较多
Chocolate?
·
2022-11-22 16:28
大数据
spark
Spark on Hive & Hive on Spark,傻傻分不清楚
上车前需知Sparkonhive与HiveonSpark的区别SparkonhiveSpark通过
Spark-SQL
使用hive语句,操作hive,底层运行的还是sparkrdd。
王知无(import_bigdata)
·
2022-11-20 10:42
大数据成神之路
hive
spark
big
data
spark on hive 和 hive on spark
**sparkonhive**sparkonhive的话就是通过
spark-sql
使用hive语句,操作hive,底层运行的还是sparkrdd。
qq_42915325
·
2022-11-20 10:11
spark 写代码的三种方式、spark 整合 Hive
目录spark写代码的方式1、在IDEA中将代码编写好然后打包上传到集群中运行(使用最多)2、sparkshell(REPL--交互式的命令行)3、
spark-sql
(spark的SQL命令行)在进入
spark-sql
赤兔胭脂小吕布
·
2022-11-20 10:08
spark
hive
大数据
hadoop
hdfs
spark sql读取hive底层_
Spark-SQL
读不到Hive数据库的新坑指北
背景本文讲的是
spark-sql
这个命令行工具读取hive数据的情况:Spark是2.3.1,HDP发行版Hive是3.1.0,HDPSparkSQL和Hive3的交互问题,用Sparksql读取处理hive
唯伟老师
·
2022-10-30 19:48
spark
sql读取hive底层
Spark系列—Spark SQL执行过程解析
今天来讲讲
spark-sql
的执行计划,有助于我们理解spark的运行原理。
数据小白的进阶之路
·
2022-10-25 21:04
Spark
spark
Spark异常总结及解决办法2
Spark-sql
问题:spark-sqlonyarn运行报错TransportClient:331-FailedtosendRPC***java.nio.channels.ClosedChannelException
灵佑666
·
2022-09-23 21:59
Spark
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他