E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark-sql
spark-sql
之 Caused by: MetaException(message:Version information not found in metastore. )
试着使用
spark-sql
访问hive表,启动后spark-sql--driver-class-path/home/hadoop/bigdata/hive/lib/mysql-connector-java.jar
Heavbird
·
2020-07-28 23:10
大数据
spark-sql
中数据类型比较(double vs decimal)
为什么80%的码农都做不了架构师?>>>1、创建表,数据类型是double和decimalcreateexternaltabletmp.tmp_test(amt1double,amt3decimal(20,8))STOREDASparquetlocation'hdfs://reh/user/hive/dev/tmp_dev/tmp_test';2、测试数据为“111111.1232”,查询显示正常
weixin_33964094
·
2020-07-28 18:21
SPARK-SQL
内置函数之时间日期类
转载请注明转自:http://www.cnblogs.com/feiyumo/p/8760846.html一、获取当前时间1.current_date获取当前日期2018-04-092.current_timestamp/now()获取当前时间2018-04-0915:20:49.247二、从日期时间中提取字段1.year,month,day/dayofmonth,hour,minute,seco
weixin_30886233
·
2020-07-28 17:09
presto,dremio,
spark-sql
与ranger的整合记录
dremio,
spark-sql
,presto和ranger的整合当前,ranger没有现成的插件来管理dremio,
spark-sql
,presto。
weixin_30420305
·
2020-07-28 16:27
spark-sql
性能优化之——多线程实现多Job并发执行
直接上代码valspark=SparkSession.builder().appName("name").master("local[2]").getOrCreate()valdf=spark.read.json("src\\main\\resources\\json.txt")df.show()//没有多线程处理的情况,连续执行两个Action操作,生成两个Jobdf.rdd.saveAsTex
weixin_30407613
·
2020-07-28 16:46
spark on yarn的理解
最近在安装调测CDH5.5,发现官方文档明确不支持
spark-sql
(需要自己去编译)和sparkR。
富兰克林008
·
2020-07-28 04:42
spark
CDH5
spark-sql
操作array和map和struct类型数据
原文链接(很nice的一篇文章):https://blog.csdn.net/wang_wbq/article/details/79678168数组\列表array、字典map这两种数据类型的索引首先我们还是先构造数据结构与DataFrame:scala>caseclassA(a:String,b:Int)definedclassAscala>caseclassB(c:List[A],d:Map[
Morgan_Mu
·
2020-07-28 04:39
spark-sql
spark-sql
只显示默认数据库default问题
通过命令行在hive命令,在命令行showdatabases;显示初了default库之外数据库(正常)当是在spark安装目录下bin启动
spark-sql
只是显示default;查看好多配置配置文件
sz_jack
·
2020-07-28 00:12
spark
Spark-Sql
数组array类型转string
原数据和表结构+----------+------------+------------+-------+--------+-----------+|train_code|station_name|station_code|is_late|late_min|arrive_date|+----------+------------+------------+-------+--------+----
小白鸽
·
2020-07-27 19:30
Spark
spark-sql
性能优化之——动态实现多个列应用同一个函数
在对一个dataframe的多个列实现应用同一个函数时,是否能动态的指定?例如:对A,B,C三列实现分组统计1.初始化spark,构建DFvalspark=SparkSession.builder().appName("name").master("local[2]").getOrCreate()valdf=spark.read.json("src\\main\\resources\\json.t
weixin_30539625
·
2020-07-27 13:52
Spark kyro Serialization
spark-sql
中默认使用的是kyro的序
breeze_lsw
·
2020-07-27 12:13
Spark
spark-sql
手动动态指定控制台输出日志级别
转载来自:https://blog.csdn.net/xueba207/article/details/50436684/搜了很多,还是这个靠谱,记录下(1)首先配置好spark,hadoop,hive的权限,然后来到A用户,配置好环境变量(2)把spark/conf/log4j.properties.template复制到A用户家目录(改名为log4j.properties),修改:为如下:(3
人蠢多读书
·
2020-07-16 06:03
大数据运维之spark日常
spark-sql
操作hive和hdfs
情况一:
spark-sql
直接操作hive样例数据head-5u.user1|24|M|technician|857112|53|F|other|940433|23|M|writer|320674|24
老赵家的大姑娘
·
2020-07-16 06:27
spark
spark
spark-sql
控制台修改日志级别
spark-sql
控制台修改日志级别这个我找了好久的解决方法修改文件conf/log4j.properties#Seteverythingtobeloggedtotheconsolelog4j.rootCategory
小晨ll
·
2020-07-16 04:23
spark
大数据
spark-sql
中文字符使用问题
那么在
spark-sql
环境,只要正确的字符集编码和正确的客户端语言环境设置,显示,使用中文,完全不是困难。
富兰克林008
·
2020-07-16 04:05
spark
spark-sql
spark-sql
cli客户端搭建
网上关于
spark-sql
的资料很少,刚开始用spark-sqlcli时我也好奇怎么还能使用这样的方式?
yala说
·
2020-07-15 22:24
spark-sql学习
Spark-SQL
运行流程
SprakSQL也是有lazy特性的,当你调用sql()执行SQL语句时,默认执行第一步-->>就是用SqlParser组件对SQL生成一个UnresolvedLogicalPlan(调用了SqlParser的apply()方法,通过语法解析器,将SQL各部分组装成LogicalPlan,它是一课语法树---Tree)然后将UL和SQLContext自身的实例(this),封装为一个DataFra
S_Running_snail
·
2020-07-15 18:17
spark
Spark-sql
支持的sql语法
版本:1.3.0protectedvalABS=Keyword("ABS")protectedvalALL=Keyword("ALL")protectedvalAND=Keyword("AND")protectedvalAPPROXIMATE=Keyword("APPROXIMATE")protectedvalAS=Keyword("AS")protectedvalASC=Keyword("ASC
Rosen_Luo
·
2020-07-15 18:55
spark
Spark调优 | Spark SQL参数调优
前言SparkSQL里面有很多的参数,而且这些参数在Spark官网中没有明确的解释,可能是太多了吧,可以通过在
spark-sql
中使用set-v命令显示当前
spark-sql
版本支持的参数。
seagle01
·
2020-07-15 16:51
spark交流
Spark-SQL
导出查询结果的两种方式
为了分析数据的需要,我们需要导出
Spark-SQL
的查询结果,通过SparkSQLCLI有两种方式。
蚁方阵
·
2020-07-15 16:10
Spark
SQL
Spark SQL 客户端查询
首先打开shell,会发现在bin目录下会有一个叫
spark-sql
,那除了用
spark-sql
外,还可以用spark-shell,那它们有什么区别呢,
spark-sql
仅仅类似于hive客户端,只是支持
one111a
·
2020-07-15 14:24
spark
调整
spark-sql
控制台日志输出级别
问题:每次
spark-sql
操作都会打印大量的INFO信息,这样我们查看结果就会很麻烦,解决:调整Spark日志级别的配置文件是在$SPARK_HOME/conf/目录下的log4j.properties.template
jiezou12138
·
2020-07-15 14:52
Spark
在Shell 中
Spark-SQL
的调试
对于熟悉Scala开发的人来说,对于
spark-sql
的使用,直接jar包中写入代码处理就能轻松实现动态语句的执行。
张超_
·
2020-07-14 22:17
SparkSQL
Spark
Spark-Streaming与
Spark-Sql
整合实现实时股票排行---通过kafka列队数据
Spark-Streaming与
Spark-Sql
整合实现实时股票排行---通过kafka列队数据,前端数据通过kafka队列传递,外层还有flume的实时收集。
rolin-刘瑞
·
2020-07-13 14:41
spark
streaming
hive优化十大原则
hive在极大数据或者数据不平衡等情况下,表现往往一般,因此也出现了presto、
spark-sql
等替代品。今天不谈其它,就来说说关于hive,个人的一点心得。
Simon_Sun_1984
·
2020-07-13 14:06
Hive
人人都懂
Spark-SQL
基础操作(Scala版)
SparkSQL简单的说SparkSQL是spark用来操作结构化和半结构化数据的接口。本文来讲述一下它的一些基本操作。SparkSQL的特性无缝地将SQL查询和spark程序混合,与常规的Python/Java/scala代码高度整合,包含了连接RDD与SQL表、公开的自定义SQL函数接口等。可以从各种结构化数据源中读取数据,如(JSON、HIVE等)可以通过JDBC或者ODBC连接,Spark
数据山谷
·
2020-07-13 10:09
Spark
Spark-SQL
优化案例---股票点击实时排行
Spark-SQL
优化案例---股票点击实时排行,需求每天股票点击统计排列统计、每小时股票统计排列统计,及天与小时的环比变化。
kwu_ganymede
·
2020-07-13 06:21
Spark
spark-sql
排行
优化
Spark - SQL查询文件数据
那么我们可以利用
spark-sql
直接操作文件的特性处理这类的需求,姐姐再也不用担心我不会spark了,因为我就只会sql。使用方法csvspark.sql("select*fromcsv.
大猪大猪
·
2020-07-12 21:21
spark sql实战—拆分数据
在
spark-sql
中提供了多个函数用来进行数据拆分。数据拆分的函数splitexplodepostexplodesubs
一 铭
·
2020-07-12 19:00
spark
sql实战
spark
【Spark】Expected only partition pruning predicates
在Hive向Spark迁移时,我们可能直接将HSQL语句直接运行在
Spark-SQL
上,如果查询时针对的是Hive分区表(非DataSource表,DataSource表无此问题),使用分区字段过滤时分区字段为大写
PowerMe
·
2020-07-12 05:51
Spark-SQL
简介
分享到...复制网址邮件QQ空间新浪微博腾讯微博微信人人网易信网易微博搜狐微博QQ好友开心网飞信豆瓣一键分享查看更多(122)这是什么工具?JiaThis石山园博客园首页新闻新随笔联系管理订阅随笔-83文章-0评论-140Spark入门实战系列--6.SparkSQL(上)--SparkSQL简介【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送--Spark入门实战系列》获取1、Spa
reb12345reb
·
2020-07-10 01:53
Hadoop
hive/
spark-sql
: Cannot find DistCp
最近发现
spark-sql
执行insertoverwrite等操作时最后move文件是一个一个的操作,效率较低而且还会存在bug(具体bug其余文章讲解)。因此进行了修改,修改后发现如下报错。
一日两点水
·
2020-07-09 12:53
错误总结
重新编译spark 增加
spark-sql
适配CDH
参考资料让clouderamanager装的spark支持hqlApacheSpark学习:将Spark部署到Hadoop2.2.0上CDH内嵌spark版本不支持
spark-sql
,可能是因为cloudera
Dino系我
·
2020-07-09 05:12
spark
Spark-Sql
的UDF功能实际运用、
Spark-Sql
中使用if返回多条件查询结果、Mysql中case-when多条件查询
项目实战之
Spark-Sql
的UDF功能实际运用、
Spark-Sql
中使用if返回多条件查询结果、Mysql中case-when多条件查询1、
Spark-Sql
的UDF功能实际运用通过spark.udf.register
坚强的小土豆
·
2020-07-08 21:02
Spark-Sql
整合hive,在
spark-sql
命令和spark-shell命令下执行sql命令和整合调用hive
1.安装hive如果想创建一个数据库用户,并且为数据库赋值权限,可以参考:http://blog.csdn.net/tototuzuoquan/article/details/527855042.将配置好的hive-site.xml、core-site.xml、hdfs-site.xml放入$SPARK_HOME/conf目录下[root@hadoop1conf]#cd/home/tuzq/sof
to.to
·
2020-07-08 07:14
#
Spark(大数据分析引擎)
cdh5.9添加sparksql cli直接操作hive
由于项目需要,需要在cloudera的spark中直接用sparksql操作hive,但是cloudera的spark中没有sparksqlcli(也就是没有
spark-sql
命令),有关解决方案网上比较多
tianjun2012
·
2020-07-08 07:19
cdh
在Yarn上运行spark-shell和
spark-sql
命令行
有时候在做开发测试的时候,需要使用spark-shell和
spark-sql
命令行,除了Local和Sparkstandalone模式,spark-shell和
spark-sql
也可以运行在yarn上,
smile_lty
·
2020-07-08 06:14
spark
【平台运维】监控进程资源使用
在做
Spark-SQL
压测时,需要监控Driver进程和Executor进程的CPU和内存的使用情况,以观察两种进程的压力,用了一个命令:pidstat找到Driver或者Executor的进程号,比如
PowerMe
·
2020-07-07 07:50
Spark2.3.0集成hive3.1.1遇到的一个坑HikariCP
Spark2.3.0集成hive3.1.1遇到的一个坑HikariCPhive.metastore.schema.verificationfalse启动
spark-sql
或者创建相关对象,都会报错,错误如下
weixin_44166276
·
2020-07-06 05:35
spark
hive/
spark-sql
经典笔试面试题(一)累加计算
问题描述在数据仓库中有这样一张表,记录了每个月的营业额,数据如下:表名:test:字段:1、month;2、money需要统计截止到每个月份的营业总额,如:截止到2019年1月份营业总额为10元截止到2019年2月份营业总额为10+10=20元截止到2019年3月份营业总额为10+10+10=30元以此类推…先贴出最终结果的样子:方案一简单粗暴计算直接使用where条件过滤符合的数据,使用sum函
波波菜鸟
·
2020-07-06 04:35
spark
Hive
赫拉(hera)分布式任务调度系统之架构,基本功能(一)
文章目录为数据平台打造的任务调度系统全部文章前言架构设计目标支持任务的定时调度、依赖调度、手动调度、手动恢复支持丰富的任务类型:shell,hive,python,
spark-sql
,java可视化的任务
甄情
·
2020-07-05 13:52
java
任务调度系统
分布式任务调度系统
赫拉调度
赫拉分布式任务调度
spark-sql
流程解析
最近想来,大数据相关技术与传统型数据库技术很多都是相互融合、互相借鉴的。传统型数据库强势在于其久经考验的SQL优化器经验,弱势在于分布式领域的高可用性、容错性、扩展性等,假以时日,让其经过一定的改造,比如引入Paxos、raft等,强化自己在分布式领域的能力,相信一定会在大数据系统中占有一席之地。相反,大数据相关技术优势在于其天生的扩展性、可用性、容错性等,但其SQL优化器经验却基本全部来自于传统
壹禅
·
2020-07-05 10:49
spark
Spark SQL合并小文件的一种方法
可通过如下调整,使其自适应的合并小文件(本人测试环境从原来的200个小文件合并成一个文件)解决方法:
spark-sql
>setspark.sql.adaptive.enabled=true;启用AdaptiveExe
微步229
·
2020-07-02 08:03
Spark
秋名山老司机从上车到翻车的悲痛经历,带你深刻了解什么是 Spark on Hive!| 原力计划...
上车前需知Sparkonhive与hiveonspark的区别1.Sparkonhive是spark通过
Spark-SQL
使用hive语句,操作hive,底层运行的还是sparkrdd。
CSDN资讯
·
2020-07-01 02:51
SparkSql 项目实战
第1章准备数据我们这次
Spark-sql
操作中所有的数据均来自Hive.首先在Hive中创建表,并导入数据.一共有3张表:1张用户行为表,1张城市表,1张产品表CREATETABLE`user_visit_action
zfq-0314
·
2020-06-30 13:44
SparkSQL
大数据
spark-sql
中视图关联表结果不匹配问题
在sparkSQL中将计算结果保存为视图,关联其他表后出现结果匹配错误,通过分析发现,是因为sql语句中使用了表达式row_number()over(orderby1)其实该表达式并没有执行,真正执行的时候是需要触发action(例如show,count,top.......)算子的。或者在保存为视图之前,将结果持久化到内存中。(1)结果不匹配println("--------增加自增列,保存为视
脆皮软心
·
2020-06-30 10:00
spark-sql
中视图关联表结果不匹配问题
在sparkSQL中将计算结果保存为视图,关联其他表后出现结果匹配错误,通过分析发现,是因为sql语句中使用了表达式row_number()over(orderby1)其实该表达式并没有执行,真正执行的时候是需要触发action(例如show,count,top.......)算子的。或者在保存为视图之前,将结果持久化到内存中。(1)结果不匹配println("--------增加自增列,保存为视
菩提本无树,明镜亦非台
·
2020-06-30 10:00
Spark--Spark SQL
Spark-Sql
介绍及使用SparkSql概述Sparksql的前世今生什么是SparkSql为什么要学习SparkSQLDataFrame什么是DataFrameDataFrame与RDD的区别DataFrame
youAreRidiculous
·
2020-06-30 08:28
详解
代码实现
EMR
Spark-SQL
性能极致优化揭秘 Native Codegen Framework
作者:周克勇,花名一锤,阿里巴巴计算平台事业部EMR团队技术专家,大数据领域技术爱好者,对Spark有浓厚兴趣和一定的了解,目前主要专注于EMR产品中开源计算引擎的优化工作。背景和动机SparkSQL多年来的性能优化集中在Optimizer和Runtime两个领域。前者的目的是为了获得最优的执行计划,后者的目的是针对既定的计划尽可能执行的更快。相比于Runtime,Optimizer是更加通用的、
weixin_45906054
·
2020-06-29 16:10
hive/
spark-sql
经典笔试面试题(二)连续登录天数最大
问题描述在数据仓库中存在这样一张表,记录了2019年所有用户在哪天登录了我司的网站或者app。数据如下:表名:test2字段:idstring,pdaystring需求:统计用户在本年中连续登录天数最大是几天?如:用户A在7月1、2、3、4日连续登录了4天;6、7、8日连续3天;11、12连续2天。用户A的当年最大连续登录天数是4天用户B在6月29日,6月30日,7月1日连续登录3天。用户B的当年
波波菜鸟
·
2020-06-29 09:14
spark
上一页
2
3
4
5
6
7
8
9
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他