spark-SQL 第6页

spark-sql之 Caused by: MetaException(message:Version information not found in metastore. )

试着使用spark-sql访问hive表，启动后spark-sql--driver-class-path/home/hadoop/bigdata/hive/lib/mysql-connector-java.jar

Heavbird·2020-07-28 23:10

spark-sql中数据类型比较（double vs decimal）

为什么80%的码农都做不了架构师？>>>1、创建表，数据类型是double和decimalcreateexternaltabletmp.tmp_test(amt1double,amt3decimal(20,8))STOREDASparquetlocation'hdfs://reh/user/hive/dev/tmp_dev/tmp_test';2、测试数据为“111111.1232”，查询显示正常

weixin_33964094·2020-07-28 18:21

SPARK-SQL内置函数之时间日期类

转载请注明转自：http://www.cnblogs.com/feiyumo/p/8760846.html一、获取当前时间1.current_date获取当前日期2018-04-092.current_timestamp/now()获取当前时间2018-04-0915:20:49.247二、从日期时间中提取字段1.year,month,day/dayofmonth,hour,minute,seco

weixin_30886233·2020-07-28 17:09

presto,dremio,spark-sql与ranger的整合记录

dremio,spark-sql,presto和ranger的整合当前，ranger没有现成的插件来管理dremio,spark-sql,presto。

weixin_30420305·2020-07-28 16:27

spark-sql性能优化之——多线程实现多Job并发执行

直接上代码valspark=SparkSession.builder().appName("name").master("local[2]").getOrCreate()valdf=spark.read.json("src\\main\\resources\\json.txt")df.show()//没有多线程处理的情况，连续执行两个Action操作，生成两个Jobdf.rdd.saveAsTex

weixin_30407613·2020-07-28 16:46

spark on yarn的理解

最近在安装调测CDH5.5,发现官方文档明确不支持spark-sql（需要自己去编译）和sparkR。

富兰克林008·2020-07-28 04:42

spark-sql操作array和map和struct类型数据

原文链接（很nice的一篇文章）：https://blog.csdn.net/wang_wbq/article/details/79678168数组\列表array、字典map这两种数据类型的索引首先我们还是先构造数据结构与DataFrame：scala>caseclassA(a:String,b:Int)definedclassAscala>caseclassB(c:List[A],d:Map[

Morgan_Mu·2020-07-28 04:39

spark-sql只显示默认数据库default问题

通过命令行在hive命令，在命令行showdatabases;显示初了default库之外数据库（正常）当是在spark安装目录下bin启动spark-sql只是显示default；查看好多配置配置文件

sz_jack·2020-07-28 00:12

Spark-Sql数组array类型转string

小白鸽·2020-07-27 19:30

spark-sql性能优化之——动态实现多个列应用同一个函数

在对一个dataframe的多个列实现应用同一个函数时，是否能动态的指定？例如：对A,B,C三列实现分组统计1.初始化spark，构建DFvalspark=SparkSession.builder().appName("name").master("local[2]").getOrCreate()valdf=spark.read.json("src\\main\\resources\\json.t

weixin_30539625·2020-07-27 13:52

Spark kyro Serialization

spark-sql中默认使用的是kyro的序

breeze_lsw·2020-07-27 12:13

spark-sql手动动态指定控制台输出日志级别

转载来自：https://blog.csdn.net/xueba207/article/details/50436684/搜了很多，还是这个靠谱，记录下（1）首先配置好spark，hadoop，hive的权限，然后来到A用户，配置好环境变量（2）把spark/conf/log4j.properties.template复制到A用户家目录（改名为log4j.properties），修改:为如下：（3

人蠢多读书·2020-07-16 06:03

spark-sql操作hive和hdfs

情况一：spark-sql直接操作hive样例数据head-5u.user1|24|M|technician|857112|53|F|other|940433|23|M|writer|320674|24

老赵家的大姑娘·2020-07-16 06:27

spark-sql 控制台修改日志级别

spark-sql控制台修改日志级别这个我找了好久的解决方法修改文件conf/log4j.properties#Seteverythingtobeloggedtotheconsolelog4j.rootCategory

小晨ll·2020-07-16 04:23

spark-sql中文字符使用问题

那么在spark-sql环境，只要正确的字符集编码和正确的客户端语言环境设置，显示，使用中文，完全不是困难。

富兰克林008·2020-07-16 04:05

spark-sql cli客户端搭建

网上关于spark-sql的资料很少，刚开始用spark-sqlcli时我也好奇怎么还能使用这样的方式？

yala说·2020-07-15 22:24

Spark-SQL运行流程

SprakSQL也是有lazy特性的，当你调用sql()执行SQL语句时，默认执行第一步-->>就是用SqlParser组件对SQL生成一个UnresolvedLogicalPlan（调用了SqlParser的apply()方法，通过语法解析器，将SQL各部分组装成LogicalPlan，它是一课语法树---Tree）然后将UL和SQLContext自身的实例(this)，封装为一个DataFra

S_Running_snail·2020-07-15 18:17

Spark-sql支持的sql语法

版本：1.3.0protectedvalABS=Keyword("ABS")protectedvalALL=Keyword("ALL")protectedvalAND=Keyword("AND")protectedvalAPPROXIMATE=Keyword("APPROXIMATE")protectedvalAS=Keyword("AS")protectedvalASC=Keyword("ASC

Rosen_Luo·2020-07-15 18:55

Spark调优 | Spark SQL参数调优

前言SparkSQL里面有很多的参数，而且这些参数在Spark官网中没有明确的解释，可能是太多了吧，可以通过在spark-sql中使用set-v命令显示当前spark-sql版本支持的参数。

seagle01·2020-07-15 16:51

Spark-SQL导出查询结果的两种方式

为了分析数据的需要，我们需要导出Spark-SQL的查询结果，通过SparkSQLCLI有两种方式。

蚁方阵·2020-07-15 16:10

Spark SQL 客户端查询

首先打开shell，会发现在bin目录下会有一个叫spark-sql,那除了用spark-sql外，还可以用spark-shell，那它们有什么区别呢，spark-sql仅仅类似于hive客户端，只是支持

one111a·2020-07-15 14:24

调整spark-sql控制台日志输出级别

问题：每次spark-sql操作都会打印大量的INFO信息，这样我们查看结果就会很麻烦，解决：调整Spark日志级别的配置文件是在$SPARK_HOME/conf/目录下的log4j.properties.template

jiezou12138·2020-07-15 14:52

在Shell 中 Spark-SQL 的调试

对于熟悉Scala开发的人来说，对于spark-sql的使用，直接jar包中写入代码处理就能轻松实现动态语句的执行。

张超_·2020-07-14 22:17

Spark-Streaming与Spark-Sql整合实现实时股票排行---通过kafka列队数据

Spark-Streaming与Spark-Sql整合实现实时股票排行---通过kafka列队数据，前端数据通过kafka队列传递，外层还有flume的实时收集。

rolin-刘瑞·2020-07-13 14:41

hive优化十大原则

hive在极大数据或者数据不平衡等情况下，表现往往一般，因此也出现了presto、spark-sql等替代品。今天不谈其它，就来说说关于hive，个人的一点心得。

Simon_Sun_1984·2020-07-13 14:06

人人都懂Spark-SQL基础操作（Scala版）

SparkSQL简单的说SparkSQL是spark用来操作结构化和半结构化数据的接口。本文来讲述一下它的一些基本操作。SparkSQL的特性无缝地将SQL查询和spark程序混合，与常规的Python/Java/scala代码高度整合，包含了连接RDD与SQL表、公开的自定义SQL函数接口等。可以从各种结构化数据源中读取数据，如（JSON、HIVE等）可以通过JDBC或者ODBC连接，Spark

数据山谷·2020-07-13 10:09

Spark-SQL优化案例---股票点击实时排行

Spark-SQL优化案例---股票点击实时排行，需求每天股票点击统计排列统计、每小时股票统计排列统计，及天与小时的环比变化。

kwu_ganymede·2020-07-13 06:21

Spark - SQL查询文件数据

那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。使用方法csvspark.sql("select*fromcsv.

大猪大猪·2020-07-12 21:21

spark sql实战—拆分数据

在spark-sql中提供了多个函数用来进行数据拆分。数据拆分的函数splitexplodepostexplodesubs

一铭·2020-07-12 19:00

【Spark】Expected only partition pruning predicates

在Hive向Spark迁移时，我们可能直接将HSQL语句直接运行在Spark-SQL上，如果查询时针对的是Hive分区表（非DataSource表，DataSource表无此问题），使用分区字段过滤时分区字段为大写

PowerMe·2020-07-12 05:51

Spark-SQL简介

分享到...复制网址邮件QQ空间新浪微博腾讯微博微信人人网易信网易微博搜狐微博QQ好友开心网飞信豆瓣一键分享查看更多(122)这是什么工具?JiaThis石山园博客园首页新闻新随笔联系管理订阅随笔-83文章-0评论-140Spark入门实战系列--6.SparkSQL（上）--SparkSQL简介【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送--Spark入门实战系列》获取1、Spa

reb12345reb·2020-07-10 01:53

hive/spark-sql : Cannot find DistCp

最近发现spark-sql执行insertoverwrite等操作时最后move文件是一个一个的操作，效率较低而且还会存在bug(具体bug其余文章讲解)。因此进行了修改，修改后发现如下报错。

一日两点水·2020-07-09 12:53

重新编译spark 增加spark-sql适配CDH

参考资料让clouderamanager装的spark支持hqlApacheSpark学习：将Spark部署到Hadoop2.2.0上CDH内嵌spark版本不支持spark-sql,可能是因为cloudera

Dino系我·2020-07-09 05:12

Spark-Sql的UDF功能实际运用、Spark-Sql中使用if返回多条件查询结果、Mysql中case-when多条件查询

项目实战之Spark-Sql的UDF功能实际运用、Spark-Sql中使用if返回多条件查询结果、Mysql中case-when多条件查询1、Spark-Sql的UDF功能实际运用通过spark.udf.register

坚强的小土豆·2020-07-08 21:02

Spark-Sql整合hive，在spark-sql命令和spark-shell命令下执行sql命令和整合调用hive

1.安装hive如果想创建一个数据库用户，并且为数据库赋值权限，可以参考：http://blog.csdn.net/tototuzuoquan/article/details/527855042.将配置好的hive-site.xml、core-site.xml、hdfs-site.xml放入$SPARK_HOME/conf目录下[root@hadoop1conf]#cd/home/tuzq/sof

to.to·2020-07-08 07:14

cdh5.9添加sparksql cli直接操作hive

由于项目需要，需要在cloudera的spark中直接用sparksql操作hive，但是cloudera的spark中没有sparksqlcli（也就是没有spark-sql命令），有关解决方案网上比较多

tianjun2012·2020-07-08 07:19

在Yarn上运行spark-shell和spark-sql命令行

有时候在做开发测试的时候，需要使用spark-shell和spark-sql命令行，除了Local和Sparkstandalone模式，spark-shell和spark-sql也可以运行在yarn上，

smile_lty·2020-07-08 06:14

【平台运维】监控进程资源使用

在做Spark-SQL压测时，需要监控Driver进程和Executor进程的CPU和内存的使用情况，以观察两种进程的压力，用了一个命令：pidstat找到Driver或者Executor的进程号，比如

PowerMe·2020-07-07 07:50

Spark2.3.0集成hive3.1.1遇到的一个坑HikariCP

Spark2.3.0集成hive3.1.1遇到的一个坑HikariCPhive.metastore.schema.verificationfalse启动spark-sql或者创建相关对象，都会报错，错误如下

weixin_44166276·2020-07-06 05:35

hive/spark-sql经典笔试面试题（一）累加计算

问题描述在数据仓库中有这样一张表，记录了每个月的营业额，数据如下：表名：test：字段：1、month；2、money需要统计截止到每个月份的营业总额，如：截止到2019年1月份营业总额为10元截止到2019年2月份营业总额为10+10=20元截止到2019年3月份营业总额为10+10+10=30元以此类推…先贴出最终结果的样子:方案一简单粗暴计算直接使用where条件过滤符合的数据，使用sum函

波波菜鸟·2020-07-06 04:35

赫拉(hera)分布式任务调度系统之架构，基本功能(一)

文章目录为数据平台打造的任务调度系统全部文章前言架构设计目标支持任务的定时调度、依赖调度、手动调度、手动恢复支持丰富的任务类型：shell,hive,python,spark-sql,java可视化的任务

甄情·2020-07-05 13:52

spark-sql流程解析

壹禅·2020-07-05 10:49

Spark SQL合并小文件的一种方法

可通过如下调整，使其自适应的合并小文件(本人测试环境从原来的200个小文件合并成一个文件)解决方法：spark-sql>setspark.sql.adaptive.enabled=true;启用AdaptiveExe

微步229·2020-07-02 08:03

秋名山老司机从上车到翻车的悲痛经历，带你深刻了解什么是 Spark on Hive！| 原力计划...

上车前需知Sparkonhive与hiveonspark的区别1.Sparkonhive是spark通过Spark-SQL使用hive语句，操作hive,底层运行的还是sparkrdd。

CSDN资讯·2020-07-01 02:51

SparkSql 项目实战

第1章准备数据我们这次Spark-sql操作中所有的数据均来自Hive.首先在Hive中创建表,并导入数据.一共有3张表:1张用户行为表,1张城市表,1张产品表CREATETABLE`user_visit_action

zfq-0314·2020-06-30 13:44

spark-sql中视图关联表结果不匹配问题

在sparkSQL中将计算结果保存为视图，关联其他表后出现结果匹配错误，通过分析发现，是因为sql语句中使用了表达式row_number()over(orderby1)其实该表达式并没有执行，真正执行的时候是需要触发action(例如show,count,top.......)算子的。或者在保存为视图之前，将结果持久化到内存中。（1）结果不匹配println("--------增加自增列,保存为视

脆皮软心·2020-06-30 10:00

spark-sql中视图关联表结果不匹配问题

在sparkSQL中将计算结果保存为视图，关联其他表后出现结果匹配错误，通过分析发现，是因为sql语句中使用了表达式row_number()over(orderby1)其实该表达式并没有执行，真正执行的时候是需要触发action(例如show,count,top.......)算子的。或者在保存为视图之前，将结果持久化到内存中。（1）结果不匹配println("--------增加自增列,保存为视

菩提本无树，明镜亦非台·2020-06-30 10:00

Spark--Spark SQL

Spark-Sql介绍及使用SparkSql概述Sparksql的前世今生什么是SparkSql为什么要学习SparkSQLDataFrame什么是DataFrameDataFrame与RDD的区别DataFrame

youAreRidiculous·2020-06-30 08:28

EMR Spark-SQL性能极致优化揭秘 Native Codegen Framework

作者：周克勇，花名一锤，阿里巴巴计算平台事业部EMR团队技术专家，大数据领域技术爱好者，对Spark有浓厚兴趣和一定的了解，目前主要专注于EMR产品中开源计算引擎的优化工作。背景和动机SparkSQL多年来的性能优化集中在Optimizer和Runtime两个领域。前者的目的是为了获得最优的执行计划，后者的目的是针对既定的计划尽可能执行的更快。相比于Runtime，Optimizer是更加通用的、

weixin_45906054·2020-06-29 16:10

hive/spark-sql经典笔试面试题（二）连续登录天数最大

问题描述在数据仓库中存在这样一张表，记录了2019年所有用户在哪天登录了我司的网站或者app。数据如下：表名：test2字段：idstring，pdaystring需求：统计用户在本年中连续登录天数最大是几天？如：用户A在7月1、2、3、4日连续登录了4天；6、7、8日连续3天；11、12连续2天。用户A的当年最大连续登录天数是4天用户B在6月29日，6月30日，7月1日连续登录3天。用户B的当年

波波菜鸟·2020-06-29 09:14

推荐频道

spark-SQL

spark-sql之 Caused by: MetaException(message:Version information not found in metastore. )

spark-sql中数据类型比较（double vs decimal）

SPARK-SQL内置函数之时间日期类

presto,dremio,spark-sql与ranger的整合记录

spark-sql性能优化之——多线程实现多Job并发执行

spark on yarn的理解

spark-sql操作array和map和struct类型数据

spark-sql只显示默认数据库default问题

Spark-Sql数组array类型转string

spark-sql性能优化之——动态实现多个列应用同一个函数

Spark kyro Serialization

spark-sql手动动态指定控制台输出日志级别

spark-sql操作hive和hdfs

spark-sql 控制台修改日志级别

spark-sql中文字符使用问题

spark-sql cli客户端搭建

Spark-SQL运行流程

Spark-sql支持的sql语法

Spark调优 | Spark SQL参数调优

Spark-SQL导出查询结果的两种方式

Spark SQL 客户端查询

调整spark-sql控制台日志输出级别

在Shell 中 Spark-SQL 的调试

Spark-Streaming与Spark-Sql整合实现实时股票排行---通过kafka列队数据

hive优化十大原则

人人都懂Spark-SQL基础操作（Scala版）

Spark-SQL优化案例---股票点击实时排行

Spark - SQL查询文件数据

spark sql实战—拆分数据

【Spark】Expected only partition pruning predicates

Spark-SQL简介

hive/spark-sql : Cannot find DistCp

重新编译spark 增加spark-sql适配CDH

Spark-Sql的UDF功能实际运用、Spark-Sql中使用if返回多条件查询结果、Mysql中case-when多条件查询

Spark-Sql整合hive，在spark-sql命令和spark-shell命令下执行sql命令和整合调用hive

cdh5.9添加sparksql cli直接操作hive

在Yarn上运行spark-shell和spark-sql命令行

【平台运维】监控进程资源使用

Spark2.3.0集成hive3.1.1遇到的一个坑HikariCP

hive/spark-sql经典笔试面试题（一）累加计算

赫拉(hera)分布式任务调度系统之架构，基本功能(一)

spark-sql流程解析

Spark SQL合并小文件的一种方法

秋名山老司机从上车到翻车的悲痛经历，带你深刻了解什么是 Spark on Hive！| 原力计划...

SparkSql 项目实战

spark-sql中视图关联表结果不匹配问题

spark-sql中视图关联表结果不匹配问题

Spark--Spark SQL

EMR Spark-SQL性能极致优化揭秘 Native Codegen Framework

hive/spark-sql经典笔试面试题（二）连续登录天数最大