Spark-SQL 第7页

Spark-SQL 查看执行计划API

举个例子：scala>spark.sql(“selectcount(1)asnumsfromgdm.gdm_m03_glb_item_sku_dawheredt=‘2020-06-08’”).explain(true)在Spark.sql()方法后加explain,入参为true返回类型为Unit//解析逻辑执行计划==ParsedLogicalPlan=='Project['count(1)AS

Cold丶kl·2020-06-29 06:31

Spark-SQL之DataFrame操作大全

一、DataFrame对象的生成Spark-SQL可以以其他RDD对象、parquet文件、json文件、hive表，以及通过JDBC连接到

weixin_30355437·2020-06-27 18:50

Spark中使用kyro序列化

spark-sql中默认使用的是kyro的序

wangweislk·2020-06-27 13:03

Spark-SQL从MySQL中加载数据以及将数据写入到mysql中（Spark Shell方式，Spark SQL程序）

1．JDBCSparkSQL可以通过JDBC从关系型数据库中读取数据的方式创建DataFrame，通过对DataFrame一系列的计算后，还可以将数据再写回关系型数据库中。1.1．从MySQL中加载数据（SparkShell方式）1.启动SparkShell，必须指定mysql连接驱动jar包[[email protected]]#bin/spark-she

to.to·2020-06-26 20:06

spark-sql实现Kudu同步数据到mysql

Kudu同步数据到mysql实施方案简介目前kudu导出到mysql没有比较好的方案，临时借助spark-sql进行数据导出，处理逻辑是会把老的数据给删除再导入，已经完成了生产环境的上线。

tianjun2012·2020-06-26 19:04

入门大数据---Spark_Structured API的基本使用

示例如下：valspark=SparkSession.builder().appName("Spark-SQL").master(

一线大数据·2020-06-26 15:00

Spark - SQL查询文件数据

那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.

kikiki4·2020-06-25 23:22

简述hive的架构

一般做数仓进行脚本开发都是通过hive与beeline进行开发，当然也有spark-sql。2、hive-webui：这个本人目前没用过，但是HUE组件是可以通过WEBUI对hive进行操作。

走在路上的大神·2020-06-25 11:22

Spark-SQL处理小文件问题

一、小文件产生的原因1、在使用sparksql处理数据的过程中，如果有shuffle产生，依赖于spark.sql.shuffle.partitions配置信息，默认为200，当处理的数据量比较大时，通常会把该值调大，以避免单个分区处理的数据太大出现异常或者拖慢整个任务的执行时间。2、如果没有shuffle产生，文件的数量依赖于数据源的文件数量以及文件是否可切分等特性决定任务的并发度即task数量

九指码农·2020-06-24 23:25

Spark-SQL adaptive 自适应框架

一、自适应框架能解决什么问题1、目前SparkSQL中reduce阶段的task个数取决于固定参数spark.sql.shuffle.partition(默认值200)，一个作业一旦设置了该参数，它运行过程中的所有阶段的reduce个数都是同一个值。而对于不同的作业，以及同一个作业内的不同reduce阶段，实际的数据量大小可能相差很大，比如reduce阶段要处理的数据可能是10MB，也有可能是10

九指码农·2020-06-24 23:25

spark-sql测试总结

spark-sql测试总结最近倒腾spark-sql，原来测试都是很小的数据，由于自己的是6个虚拟机资源有限，也不能太大，于是在找了帖子。

富兰克林008·2020-06-24 18:13

10.1 spark-sql 10亿级数据交互式秒级查询可行性

当前版本:saprk2.4cdh数据演示为10亿,41列sparksql提供了类sql的标准,支持数学函数,聚合函数,时间函数,字符串函数,支持已经很完善了参考:https://spark.apache.org/docs/2.4.0/api/sql/index.htmlOneuseofSparkSQListoexecuteSQLqueries.SparkSQLcanalsobeusedtoread

我的海_·2020-06-24 01:28

spark-sql部署实现与Hive交互

spark-sql部署版本Hadoop-2.5.0-cdh5.3.2Hive-0.13.1-cdh5.3.2Spark-1.5.1以CNSH001节点为例sparkmaster在CNSH001上：spark

developerinit·2020-06-23 03:52

spark1.63升级到spark2.3.1环境变量配置

由于spark2.3需要jdk1.8的支持，因此spark-submit与spark-sql需要指定jdk版本，具体方式见测试用例1.修改个人用户配置文件.bashrc，注释以前的spark环境与java

cjlion·2020-06-22 23:08

Spark-sql 计算某行值占累加总数的百分比

先看原数据结构和数据样例SparkSessionspark=SparkSession.builder().master("local[*]").getOrCreate();Datasettable=spark.read().json("src/main/data/transfer_line_count.json");table.printSchema();table.show();root|--f

小白鸽·2020-06-22 16:14

Spark2.2（五）SparkSQL读写Hive

SparkSQL读写Hive添加依赖libraryDependencies++=Seq("org.apache.spark"%%"spark-core"%"2.2.0","org.apache.spark"%%"spark-sql

H_w·2020-06-22 08:30

Error while instantiating 'org.apache.spark.sql.hive.HiveSessionState'

我在windows下面用idea运行spark-sql程序的时候，报了上面的那个错误，我尝试了很多方法，都没有啥效果，后来我往下继续阅读错误，发现了这个实质性错误Exceptioninthread"main"java.lang.UnsatisfiedLinkError

TheManOfCoding·2020-06-22 06:40

大数据实战项目之新闻话题分析学习笔记（十）

文章目录第21章：SparkSQL快速离线数据分析SparkSQL概述及特点SparkSQL服务架构SparkSQL与Hive集成（Spark-Shell）SparkSQL与Hive集成（Spark-sql

爱学习的Neehong·2020-06-22 05:50

Spark - SQL查询文件数据

那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.

kikiki4·2020-06-22 02:32

Spark - SQL查询文件数据

那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.

kikiki4·2020-06-21 12:58

通过 spark sql 支持 elasticsearch 的多表（两表或以上） sql 关联查询

目前针对SQLonElasticSearch已经有了比较好的解决方案：elasticsearch-sql，其实Spark-SQL也可以满足一些基本的ES数据探查的需求，实现起来也相对简单。

丧心病狂の程序员·2020-06-21 09:01

Spark - SQL查询文件数据

那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.

kikiki4·2020-06-21 03:12

Spark - SQL查询文件数据

那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.

kikiki4·2020-04-13 12:41

spark无法同时启动thriftserver和spark-sql CLi的解决办法

报错如下：Initialjobhasnotacceptedanyresources:Investigatingtheclusterstate查看spark的8080页面发现，两个任务资源不够用（借用的图，忘记截屏了，但是意思一样）spark主要是因为spark默认为应用有一个初始分配资源的配置，如果机器配置不合理，就会导致资源申请失败需要修改spark-defaults.conf下的两个参数：sp

nicklbx·2020-04-12 11:48

Spark - SQL查询文件数据

那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.

kikiki4·2020-04-11 13:12

Spark - SQL查询文件数据

那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.

kikiki5·2020-04-06 21:15

Spark - SQL查询文件数据

那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.

kikiki4·2020-04-06 10:35

使用spark-sql报错 “Metastore contains multiple versions”

1、背景：进入spark集群，cd/spark,执bin/spark-sql,报错image.png2、解决方法2.1、是hive元数据的问题，进入spark/conf/hive-site.xml，找到

wendy0101·2020-04-02 15:03

Spark - SQL查询文件数据

那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。使用方法csvspark.sql("select*fromcsv.

kikiki4·2020-03-31 04:54

Spark on Hive-derby数据库-thriftserver-多客户端使用

--sparkonhive：是spark通过spark-sql使用hive语句操作hive，底层运行的还是sparkrdd。

铁虫_bcde·2020-03-26 10:05

spark-streaming中使用spark-sql做关联查询

实现：首先基于topic，创建出kafka的DStream流valsparkConf=newSparkConf().setAppName(appParams.appName)valsc=newSparkContext(sparkConf)valstreamingContext=newStreamingContext(sc,Seconds(appParams.batchProcInterval))v

lsnl8480·2020-03-24 04:19

Spark - SQL查询文件数据

那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.

kikiki4·2020-03-23 14:33

Hadoop、hive、spark、spark-sql基本操作

本教程适用于已经安装好hadoop，spark集群，需要利用的集群做简单的sql数据分析的用户。终端显示快捷ctrl+alt+t#启动hadoop后，查看Hadoop的网站http://localhost:50070/dfshealth.html#查看磁盘容量df-l#截图软件安装sudoapt-getinstallshutter1#任务管理器gnome-system-monitorimage.p

至极L·2020-03-19 03:43

Spark-SQL之DataFrame基本操作

这篇文章将带大家一起学习Spark中DataFrame的基本操作。1、创建DataFrame本文所使用的DataFrame是通过读取mysql数据库获得的，代码如下:valspark=SparkSession.builder().appName("SparkSQLbasicexample").enableHiveSupport()//.config("spark.some.config.optio

文哥的学习日记·2020-03-14 21:00

Spark 之 Spark-SQL-HBASE Error java.lang.IllegalStateException: unread block data

最近遇到这样一个业务场景：业务数据存储于Hbase中，并在Hive表中建立了HBASE映射表，已实现在Hive及Impala中可查，现想通过Spark-SQL进行查询，其中Spark集群基于Yarn。

步闲·2020-03-08 04:49

spark word count环境搭建（scala）

build.sbtname:="ScalaHelloWorld"version:="1.0"scalaVersion:="2.12.2"libraryDependencies+="org.apache.spark"%%"spark-sql

null0007·2020-03-07 08:51

8.Spark SQL

弹性分布式数据集6RDD持久性7spark共享变量8SparkSQL9SparkStreaming原文链接：http://blogxinxiucan.sh1.newtouch.com/2017/07/23/Spark-SQL

全能程序猿·2020-03-03 11:42

spark-sql 是 cbo 的吗？

spark-sql的优化器是cost-based的吗？这是一个很有意思的问题。

liprails·2020-02-26 09:20

MySQL+关联（上）

飞谷云MySQL第3讲MySQL+表连接课程概要：回顾第二讲表关联文件关联把数据导入Spark-SQL(DataFrame)一、回顾第二讲1、数据库基本内容表列主键索引行2、数据导入（出）mysqlsql

LuCh1Monster·2020-02-23 12:05

Oozie Kerberos环境下提交Spark-Sql任务

spark-sqlOozie暂时没有像hiveAction那样调用HiveCli实现类似的原生Action，sparkAction实现的是基于spark-submit提交自定义的Jar包，实现Spark-Sql

拔刺的少年·2020-02-22 09:26

Hive优化的十大原则

Hive在极大数据或者数据不平衡等情况下，表现往往一般，因此也出现了presto、spark-sql等替代品。今天不谈其它，就来说说关于hive，个人的一点心得。

liuzx32·2020-02-11 13:17

【ElasticSearch】使用Spark-SQL进行ElasticSearch数据探查

目前针对SQLonElasticSearch已经有了比较好的解决方案：elasticsearch-sql，其实Spark-SQL也可以满足一些基本的ES数据探查的需求，实现起来也相对简单。

PowerMe·2020-02-08 09:35

Hive优化的十大方法

Hive在极大数据或者数据不平衡等情况下，表现往往一般，因此也出现了presto、spark-sql等替代品。

王知无·2020-02-06 06:26

spark-sql

spark-sql伪分布式的的安装：在安装之前先确保Hadoop能够运行，有hive，有mysql-connect-Java-jar这个包。

数据时代的下的程序猿·2020-02-06 00:42

寒假第九天

交互式编程更加了解和RDD以及对于编写独立应用程序sbt的打包编程去重也有了了解之前安装完sbt后对于后面的打包需要下载一些文件一直失败，后来我把在网上查询解决方案，找了很久终于教程里spark-core换成了spark-sql

张利杰j·2020-02-03 12:00

spark-sql简单使用

最近迷上了spark，写一些博客，记录一下自己的所得。先学一下sparkdocument上的样例。代码：valsqlContext=neworg.apache.spark.sql.SQLContext(sc)caseclassPerson(name:String,age:Long)valpeople=sc.textFile("examples/src/main/resources/people.t

lsnl8480·2020-02-01 23:41

Spark-SQL 面试准备 2

SparkKnowledgeNO.211.RDD缓存：Spark可以使用persist和cache方法将任意RDD缓存到内存、磁盘文件系统中。缓存是容错的，如果一个RDD分片丢失，可以通过构建它的transformation自动重构。被缓存的RDD被使用的时，存取速度会被大大加速。一般的executor内存60%做cache，剩下的40%做task。Spark中，RDD类可以使用cache()和p

金戈拉斯·2020-01-20 14:48

Spark - SQL查询文件数据

那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。使用方法csvspark.sql("select*fromcsv.

大猪大猪·2020-01-06 16:36

Spark SQL中Kryo反序列化问题分析

1问题描述当使用Spark-sql执行HiveUDF时会发生NullPointerException(NPE)，从而导致作业异常终止。

荒湖·2020-01-01 02:57

spark-sql thriftserver 方式使用hive udf函数

1、在hive中注册udf函数addjarhdfs://hdp-hdfs01/apps/udf.jar;--添加jar，jar存放在hdfs上createfunctionyour_udf_nameas'com.alibaba.udf.UDFgetuuid';--创建函数2、在start-thriftserver.sh中添加jarsstart-thriftserver.sh--jars/apps/u

赵简书·2019-12-30 04:41

推荐频道

Spark-SQL

Spark-SQL 查看执行计划API

Spark-SQL之DataFrame操作大全

Spark中使用kyro序列化

Spark-SQL从MySQL中加载数据以及将数据写入到mysql中（Spark Shell方式，Spark SQL程序）

spark-sql实现Kudu同步数据到mysql

入门大数据---Spark_Structured API的基本使用

Spark - SQL查询文件数据

简述hive的架构

Spark-SQL处理小文件问题

Spark-SQL adaptive 自适应框架

spark-sql测试总结

10.1 spark-sql 10亿级数据交互式秒级查询可行性

spark-sql部署实现与Hive交互

spark1.63升级到spark2.3.1环境变量配置

Spark-sql 计算某行值占累加总数的百分比

Spark2.2（五）SparkSQL读写Hive

Error while instantiating 'org.apache.spark.sql.hive.HiveSessionState'

大数据实战项目之新闻话题分析 学习笔记（十）

Spark - SQL查询文件数据

Spark - SQL查询文件数据

通过 spark sql 支持 elasticsearch 的多表（两表或以上） sql 关联查询

Spark - SQL查询文件数据

Spark - SQL查询文件数据

spark无法同时启动thriftserver和spark-sql CLi的解决办法

Spark - SQL查询文件数据

Spark - SQL查询文件数据

Spark - SQL查询文件数据

使用spark-sql报错 “Metastore contains multiple versions”

Spark - SQL查询文件数据

Spark on Hive-derby数据库-thriftserver-多客户端使用

spark-streaming中使用spark-sql做关联查询

Spark - SQL查询文件数据

Hadoop、hive、spark、spark-sql基本操作

Spark-SQL之DataFrame基本操作

Spark 之 Spark-SQL-HBASE Error java.lang.IllegalStateException: unread block data

spark word count环境搭建（scala）

8.Spark SQL

spark-sql 是 cbo 的吗？

MySQL+关联（上）

Oozie Kerberos环境下提交Spark-Sql任务

Hive优化的十大原则

【ElasticSearch】使用Spark-SQL进行ElasticSearch数据探查

Hive优化的十大方法

spark-sql

寒假第九天

spark-sql简单使用

Spark-SQL 面试准备 2

Spark - SQL查询文件数据

Spark SQL中Kryo反序列化问题分析

spark-sql thriftserver 方式使用hive udf函数

大数据实战项目之新闻话题分析学习笔记（十）