E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Spark-SQL
Spark-SQL
查看执行计划API
举个例子:scala>spark.sql(“selectcount(1)asnumsfromgdm.gdm_m03_glb_item_sku_dawheredt=‘2020-06-08’”).explain(true)在Spark.sql()方法后加explain,入参为true返回类型为Unit//解析逻辑执行计划==ParsedLogicalPlan=='Project['count(1)AS
Cold丶kl
·
2020-06-29 06:31
大数据之禅
Spark-SQL
之DataFrame操作大全
一、DataFrame对象的生成
Spark-SQL
可以以其他RDD对象、parquet文件、json文件、hive表,以及通过JDBC连接到
weixin_30355437
·
2020-06-27 18:50
Spark中使用kyro序列化
spark-sql
中默认使用的是kyro的序
wangweislk
·
2020-06-27 13:03
Spark
Spark-SQL
从MySQL中加载数据以及将数据写入到mysql中(Spark Shell方式,Spark SQL程序)
1.JDBCSparkSQL可以通过JDBC从关系型数据库中读取数据的方式创建DataFrame,通过对DataFrame一系列的计算后,还可以将数据再写回关系型数据库中。1.1.从MySQL中加载数据(SparkShell方式)1.启动SparkShell,必须指定mysql连接驱动jar包[
[email protected]
]#bin/spark-she
to.to
·
2020-06-26 20:06
#
Spark(大数据分析引擎)
spark-sql
实现Kudu同步数据到mysql
Kudu同步数据到mysql实施方案简介目前kudu导出到mysql没有比较好的方案,临时借助
spark-sql
进行数据导出,处理逻辑是会把老的数据给删除再导入,已经完成了生产环境的上线。
tianjun2012
·
2020-06-26 19:04
spark
入门大数据---Spark_Structured API的基本使用
示例如下:valspark=SparkSession.builder().appName("
Spark-SQL
").master(
一线大数据
·
2020-06-26 15:00
Spark - SQL查询文件数据
那么我们可以利用
spark-sql
直接操作文件的特性处理这类的需求,姐姐再也不用担心我不会spark了,因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.
kikiki4
·
2020-06-25 23:22
简述hive的架构
一般做数仓进行脚本开发都是通过hive与beeline进行开发,当然也有
spark-sql
。2、hive-webui:这个本人目前没用过,但是HUE组件是可以通过WEBUI对hive进行操作。
走在路上的大神
·
2020-06-25 11:22
HIVE
Spark-SQL
处理小文件问题
一、小文件产生的原因1、在使用sparksql处理数据的过程中,如果有shuffle产生,依赖于spark.sql.shuffle.partitions配置信息,默认为200,当处理的数据量比较大时,通常会把该值调大,以避免单个分区处理的数据太大出现异常或者拖慢整个任务的执行时间。2、如果没有shuffle产生,文件的数量依赖于数据源的文件数量以及文件是否可切分等特性决定任务的并发度即task数量
九指码农
·
2020-06-24 23:25
spark及问题解决
spark-sql
Spark-SQL
adaptive 自适应框架
一、自适应框架能解决什么问题1、目前SparkSQL中reduce阶段的task个数取决于固定参数spark.sql.shuffle.partition(默认值200),一个作业一旦设置了该参数,它运行过程中的所有阶段的reduce个数都是同一个值。而对于不同的作业,以及同一个作业内的不同reduce阶段,实际的数据量大小可能相差很大,比如reduce阶段要处理的数据可能是10MB,也有可能是10
九指码农
·
2020-06-24 23:25
spark-sql
spark
hive
自适应框架
adaptive
spark-sql
测试总结
spark-sql
测试总结最近倒腾
spark-sql
,原来测试都是很小的数据,由于自己的是6个虚拟机资源有限,也不能太大,于是在找了帖子。
富兰克林008
·
2020-06-24 18:13
spark-sql
10.1
spark-sql
10亿级数据交互式秒级查询可行性
当前版本:saprk2.4cdh数据演示为10亿,41列sparksql提供了类sql的标准,支持数学函数,聚合函数,时间函数,字符串函数,支持已经很完善了参考:https://spark.apache.org/docs/2.4.0/api/sql/index.htmlOneuseofSparkSQListoexecuteSQLqueries.SparkSQLcanalsobeusedtoread
我的海_
·
2020-06-24 01:28
spark-sql
部署实现与Hive交互
spark-sql
部署版本Hadoop-2.5.0-cdh5.3.2Hive-0.13.1-cdh5.3.2Spark-1.5.1以CNSH001节点为例sparkmaster在CNSH001上:spark
developerinit
·
2020-06-23 03:52
spark1.63升级到spark2.3.1环境变量配置
由于spark2.3需要jdk1.8的支持,因此spark-submit与
spark-sql
需要指定jdk版本,具体方式见测试用例1.修改个人用户配置文件.bashrc,注释以前的spark环境与java
cjlion
·
2020-06-22 23:08
spark
Spark-sql
计算某行值占累加总数的百分比
先看原数据结构和数据样例SparkSessionspark=SparkSession.builder().master("local[*]").getOrCreate();Datasettable=spark.read().json("src/main/data/transfer_line_count.json");table.printSchema();table.show();root|--f
小白鸽
·
2020-06-22 16:14
Spark
Spark2.2(五)SparkSQL读写Hive
SparkSQL读写Hive添加依赖libraryDependencies++=Seq("org.apache.spark"%%"spark-core"%"2.2.0","org.apache.spark"%%"
spark-sql
H_w
·
2020-06-22 08:30
Spark
Error while instantiating 'org.apache.spark.sql.hive.HiveSessionState'
我在windows下面用idea运行
spark-sql
程序的时候,报了上面的那个错误,我尝试了很多方法,都没有啥效果,后来我往下继续阅读错误,发现了这个实质性错误Exceptioninthread"main"java.lang.UnsatisfiedLinkError
TheManOfCoding
·
2020-06-22 06:40
spark
大数据实战项目之新闻话题分析 学习笔记(十)
文章目录第21章:SparkSQL快速离线数据分析SparkSQL概述及特点SparkSQL服务架构SparkSQL与Hive集成(Spark-Shell)SparkSQL与Hive集成(
Spark-sql
爱学习的Neehong
·
2020-06-22 05:50
技术学习
Spark - SQL查询文件数据
那么我们可以利用
spark-sql
直接操作文件的特性处理这类的需求,姐姐再也不用担心我不会spark了,因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.
kikiki4
·
2020-06-22 02:32
Spark - SQL查询文件数据
那么我们可以利用
spark-sql
直接操作文件的特性处理这类的需求,姐姐再也不用担心我不会spark了,因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.
kikiki4
·
2020-06-21 12:58
通过 spark sql 支持 elasticsearch 的多表(两表或以上) sql 关联查询
目前针对SQLonElasticSearch已经有了比较好的解决方案:elasticsearch-sql,其实
Spark-SQL
也可以满足一些基本的ES数据探查的需求,实现起来也相对简单。
丧心病狂の程序员
·
2020-06-21 09:01
database
spark
elasticsearch
Spark - SQL查询文件数据
那么我们可以利用
spark-sql
直接操作文件的特性处理这类的需求,姐姐再也不用担心我不会spark了,因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.
kikiki4
·
2020-06-21 03:12
Spark - SQL查询文件数据
那么我们可以利用
spark-sql
直接操作文件的特性处理这类的需求,姐姐再也不用担心我不会spark了,因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.
kikiki4
·
2020-04-13 12:41
spark无法同时启动thriftserver和
spark-sql
CLi的解决办法
报错如下:Initialjobhasnotacceptedanyresources:Investigatingtheclusterstate查看spark的8080页面发现,两个任务资源不够用(借用的图,忘记截屏了,但是意思一样)spark主要是因为spark默认为应用有一个初始分配资源的配置,如果机器配置不合理,就会导致资源申请失败需要修改spark-defaults.conf下的两个参数:sp
nicklbx
·
2020-04-12 11:48
Spark - SQL查询文件数据
那么我们可以利用
spark-sql
直接操作文件的特性处理这类的需求,姐姐再也不用担心我不会spark了,因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.
kikiki4
·
2020-04-11 13:12
Spark - SQL查询文件数据
那么我们可以利用
spark-sql
直接操作文件的特性处理这类的需求,姐姐再也不用担心我不会spark了,因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.
kikiki5
·
2020-04-06 21:15
Spark - SQL查询文件数据
那么我们可以利用
spark-sql
直接操作文件的特性处理这类的需求,姐姐再也不用担心我不会spark了,因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.
kikiki4
·
2020-04-06 10:35
使用
spark-sql
报错 “Metastore contains multiple versions”
1、背景:进入spark集群,cd/spark,执bin/
spark-sql
,报错image.png2、解决方法2.1、是hive元数据的问题,进入spark/conf/hive-site.xml,找到
wendy0101
·
2020-04-02 15:03
Spark - SQL查询文件数据
那么我们可以利用
spark-sql
直接操作文件的特性处理这类的需求,姐姐再也不用担心我不会spark了,因为我就只会sql。使用方法csvspark.sql("select*fromcsv.
kikiki4
·
2020-03-31 04:54
Spark on Hive-derby数据库-thriftserver-多客户端使用
--sparkonhive:是spark通过
spark-sql
使用hive语句操作hive,底层运行的还是sparkrdd。
铁虫_bcde
·
2020-03-26 10:05
spark-streaming中使用
spark-sql
做关联查询
实现:首先基于topic,创建出kafka的DStream流valsparkConf=newSparkConf().setAppName(appParams.appName)valsc=newSparkContext(sparkConf)valstreamingContext=newStreamingContext(sc,Seconds(appParams.batchProcInterval))v
lsnl8480
·
2020-03-24 04:19
Spark - SQL查询文件数据
那么我们可以利用
spark-sql
直接操作文件的特性处理这类的需求,姐姐再也不用担心我不会spark了,因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.
kikiki4
·
2020-03-23 14:33
Hadoop、hive、spark、
spark-sql
基本操作
本教程适用于已经安装好hadoop,spark集群,需要利用的集群做简单的sql数据分析的用户。终端显示快捷ctrl+alt+t#启动hadoop后,查看Hadoop的网站http://localhost:50070/dfshealth.html#查看磁盘容量df-l#截图软件安装sudoapt-getinstallshutter1#任务管理器gnome-system-monitorimage.p
至极L
·
2020-03-19 03:43
Spark-SQL
之DataFrame基本操作
这篇文章将带大家一起学习Spark中DataFrame的基本操作。1、创建DataFrame本文所使用的DataFrame是通过读取mysql数据库获得的,代码如下:valspark=SparkSession.builder().appName("SparkSQLbasicexample").enableHiveSupport()//.config("spark.some.config.optio
文哥的学习日记
·
2020-03-14 21:00
Spark 之 Spark-SQL-HBASE Error java.lang.IllegalStateException: unread block data
最近遇到这样一个业务场景:业务数据存储于Hbase中,并在Hive表中建立了HBASE映射表,已实现在Hive及Impala中可查,现想通过
Spark-SQL
进行查询,其中Spark集群基于Yarn。
步闲
·
2020-03-08 04:49
spark word count环境搭建(scala)
build.sbtname:="ScalaHelloWorld"version:="1.0"scalaVersion:="2.12.2"libraryDependencies+="org.apache.spark"%%"
spark-sql
null0007
·
2020-03-07 08:51
8.Spark SQL
弹性分布式数据集6RDD持久性7spark共享变量8SparkSQL9SparkStreaming原文链接:http://blogxinxiucan.sh1.newtouch.com/2017/07/23/
Spark-SQL
全能程序猿
·
2020-03-03 11:42
spark-sql
是 cbo 的吗?
spark-sql
的优化器是cost-based的吗?这是一个很有意思的问题。
liprails
·
2020-02-26 09:20
MySQL+关联(上)
飞谷云MySQL第3讲MySQL+表连接课程概要:回顾第二讲表关联文件关联把数据导入
Spark-SQL
(DataFrame)一、回顾第二讲1、数据库基本内容表列主键索引行2、数据导入(出)mysqlsql
LuCh1Monster
·
2020-02-23 12:05
Oozie Kerberos环境下提交
Spark-Sql
任务
spark-sqlOozie暂时没有像hiveAction那样调用HiveCli实现类似的原生Action,sparkAction实现的是基于spark-submit提交自定义的Jar包,实现
Spark-Sql
拔刺的少年
·
2020-02-22 09:26
Hive优化的十大原则
Hive在极大数据或者数据不平衡等情况下,表现往往一般,因此也出现了presto、
spark-sql
等替代品。今天不谈其它,就来说说关于hive,个人的一点心得。
liuzx32
·
2020-02-11 13:17
【ElasticSearch】使用
Spark-SQL
进行ElasticSearch数据探查
目前针对SQLonElasticSearch已经有了比较好的解决方案:elasticsearch-sql,其实
Spark-SQL
也可以满足一些基本的ES数据探查的需求,实现起来也相对简单。
PowerMe
·
2020-02-08 09:35
Hive优化的十大方法
Hive在极大数据或者数据不平衡等情况下,表现往往一般,因此也出现了presto、
spark-sql
等替代品。
王知无
·
2020-02-06 06:26
spark-sql
spark-sql
伪分布式的的安装:在安装之前先确保Hadoop能够运行,有hive,有mysql-connect-Java-jar这个包。
数据时代的下的程序猿
·
2020-02-06 00:42
寒假第九天
交互式编程更加了解和RDD以及对于编写独立应用程序sbt的打包编程去重也有了了解之前安装完sbt后对于后面的打包需要下载一些文件一直失败,后来我把在网上查询解决方案,找了很久终于教程里spark-core换成了
spark-sql
张利杰j
·
2020-02-03 12:00
spark-sql
简单使用
最近迷上了spark,写一些博客,记录一下自己的所得。先学一下sparkdocument上的样例。代码:valsqlContext=neworg.apache.spark.sql.SQLContext(sc)caseclassPerson(name:String,age:Long)valpeople=sc.textFile("examples/src/main/resources/people.t
lsnl8480
·
2020-02-01 23:41
Spark-SQL
面试准备 2
SparkKnowledgeNO.211.RDD缓存:Spark可以使用persist和cache方法将任意RDD缓存到内存、磁盘文件系统中。缓存是容错的,如果一个RDD分片丢失,可以通过构建它的transformation自动重构。被缓存的RDD被使用的时,存取速度会被大大加速。一般的executor内存60%做cache,剩下的40%做task。Spark中,RDD类可以使用cache()和p
金戈拉斯
·
2020-01-20 14:48
SparkSQL
Spark - SQL查询文件数据
那么我们可以利用
spark-sql
直接操作文件的特性处理这类的需求,姐姐再也不用担心我不会spark了,因为我就只会sql。使用方法csvspark.sql("select*fromcsv.
大猪大猪
·
2020-01-06 16:36
Spark SQL中Kryo反序列化问题分析
1问题描述当使用
Spark-sql
执行HiveUDF时会发生NullPointerException(NPE),从而导致作业异常终止。
荒湖
·
2020-01-01 02:57
spark-sql
thriftserver 方式使用hive udf函数
1、在hive中注册udf函数addjarhdfs://hdp-hdfs01/apps/udf.jar;--添加jar,jar存放在hdfs上createfunctionyour_udf_nameas'com.alibaba.udf.UDFgetuuid';--创建函数2、在start-thriftserver.sh中添加jarsstart-thriftserver.sh--jars/apps/u
赵简书
·
2019-12-30 04:41
上一页
3
4
5
6
7
8
9
10
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他