Spark-SQL 第5页

2018-11-28

针对spark-sql操作hive生成分区表，结果文件目录包含_success空文件，可以设置参数：mapreduce.fileoutputcommitter.marksuccessfuljobs因此可以在程序中设置

宇智波_佐助·2020-08-21 16:42

Spark - SQL查询文件数据

那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.

kikiki4·2020-08-21 15:41

Spark - SQL查询文件数据

那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.

kikiki4·2020-08-21 14:21

Spark - SQL查询文件数据

那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.

kikiki4·2020-08-21 12:11

spark错误记录：Container on host: was preempted（没有彻底解决，只是理解这个问题）

（作者：陈玓玏data-master)spark-sql任务跑着跑着，碰到一个bug：Containeronhost:waspreempted又是一个新鲜的bug呢！！

小白白白又白cdllp·2020-08-20 19:11

Spark - SQL查询文件数据

那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.

kikiki4·2020-08-20 17:20

spark-sql使用

spark-sqlspark-sql在cli端的操作使用spark-sql编程需要配置jar包通过反射推断schema通过structtype指定schema通过spark-shell从mysql中加载数据将数据保存到

metooman·2020-08-20 17:15

Spark-SQL之DataFrame操作大全

一、DataFrame对象的生成Spark-SQL可以以其他RDD对象、parquet文件、json文件、hive表，以及通过JDB

SunnyMore·2020-08-20 14:35

Spark - SQL查询文件数据

那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.

kikiki4·2020-08-19 21:28

streamsets自定义插件部署方案

2.部署步骤2.1cm界面操作2.2上传驱动包2.3上传插件2.4选择pipeline2.5pipeline配置3.启动界面1.背景简介由于sdc缺少由kudu到mysql的upsert操作，前期通过spark-sql

tianjun2012·2020-08-18 22:54

同一个sql 在Hive和spark-sql 跑出结果不一样记录

表Schemahive>descgdm.dim_category;namestring分类名称org_codestring分类codehive>selectname,org_codefromgdm.dim_categorylimit2;OK鞋_8_鞋/男_8_21_hive>descgdm.dim_product_brand;brand_idbigint品牌IDch_namestring品牌中文名

阿武z·2020-08-18 12:25

大数据开发之Spark篇----idea上使用SparkSQL对Hive上的数据

SparkSQL连接到Hive上将hive-site.xml存储到项目上的resources目录上既然我们要在idea上使用spark来访问Hive上的数据，那我们也要有元数据地址才行嘛，所以这和使用spark-sql

豆豆总·2020-08-18 12:55

HDP3.1中spark2.3无法读取Hive3.0数据

通过Ambari2.7安装好HDP3.1后，发现在spark-sql中无法读到hive命令行创建的数据库和表。

MiniCoder丨·2020-08-18 12:45

Spark-SQL应用解析

文章目录一、概述DataFrameDataSet二、数据转换1.RDDDataFrameRDD->DataFrameDataFrame->RDD2.RDDDataSetRDD->DataSetDataSet->RDD3.DataFrameDataSetDataFrame->DataSetDataSet->DataFrame三、SparkSQL简单操作四、SQL的执行模式DSL模式SQL模式五、自定

2NaCl·2020-08-18 11:05

Spark-SQL在IDEA中创建SparkSQL程序|DF风格编程|RDD转换为DF

POMorg.apache.sparkspark-core_2.112.1.1org.apache.sparkspark-sql_2.112.1.1SparkCoreTestnet.alchim31.mavenscala-maven-plugin3.3.2compiletestCompileDF风格编程代码实现//1.创建SparkSession对象valspark:SparkSession=Sp

SmallScorpion·2020-08-18 11:55

spark-sql 2.3.1版本的，集群上的hive连接不上，求解

Exceptioninthread"main"java.lang.ClassNotFoundException:java.lang.NoClassDefFoundError:org/apache/hadoop/fs/CanUnbufferwhencreatingHiveclientusingclasspath:file:/E:/development/Java/jre/lib/charsets.j

qq_36687028·2020-08-18 11:08

2.2、配置Spark-sql(连接Hive)

一、复制Hadoop目录下的hdfs-site.xml和Hive目录下的hive-site.xml到/usr/spark/spark-2.1.0/conf目录下二、cpspark-env.sh.templatespark-env.sh，编辑spark-env.sh文件添加如下内容：exportJAVA_HOME=/usr/java/jdk1.8.0_102exportCLASSPATH=CLASS

恶魔的步伐·2020-08-18 11:55

Spark-Sql版本升级对应的新特性汇总

Spark-Sql版本升级对应的新特性汇总SparkSQL的前身是Shark。由于Shark自身的不完善，2014年6月1日ReynoldXin宣布：停止对Shark的开发。

kwu_ganymede·2020-08-18 11:24

Spark 电商分析 Spark-sql 统计各区域热门商品统计需求、设计、数据库

一、需求分析1、根据用户指定的日期范围，统计各个区域下的最热门的top3商品区域信在哪里？各个城市信息不怎么变化，存储在mysql中hive用户行为数据，hive和mysql城市信息join（Hive和mysql异构数据源使用，技术点1）关联之后是RDD，RDD转换成DataFrame，注册临时表，第二个技术点各个区域下各个商品的点击量，保留每个区域的城市列表数据？自定义UDAF函数，group_

chixushuchu·2020-08-18 11:00

Spark-streaming 和spark-sql 基本概念

Spark-streaming和spark-sql基本概念spark-streaming是spark体系中一个流式处理的框架spark-core是核心的计算引擎，streaming是其中一个功能streaming

000000_cy·2020-08-18 10:28

Spark通过Dataframe操作hive

1.1、创建一个SQLContext,SQLContext（及其子类，如本节的HiveContext）是SparkSQL所有功能的入口SqlContext:应该是对应spark-sql这个project

chbxw·2020-08-18 10:39

SPARK-SQL - DataFrame创建方式汇总

创建DataFrame的方式从JavaRDD与类类型中创建从List与类类型中创建从JavaRDD与schema中创建从List与schema中创建从外部数据源中创建如spark.read().json等importorg.apache.spark.api.java.JavaRDD;importorg.apache.spark.api.java.JavaSparkContext;importorg

小哇666·2020-08-18 10:37

Spark问题记录

问题1问题描述项目中使用CDH5.8,在测试环境上使用spark-sql将数据写到Mysql时，一直报错如下java.lang.ClassNotFoundException:com.mysql.jdbc.Driver

灰灰鲁伊·2020-08-16 07:07

Mac单机Hadoop2.7下安装Spark2.2+配置SparkSQL查询Hive表+spark-sql CLI 查询

下面简单记录mac单机spark安装测试的过程已安装好单机的伪分布式Hadoop，见Mac单机Hadoop安装备忘已安装好单机的hive，见Mac-单机Hive安装与测试单机Mac安装spark并做简单yarn模式shell测试配置SparkSQL查询Hivespark-sqlCLI查询Hive一、安装Spark1-下载安装scalahttps://www.scala-lang.org/downl

hjw199089·2020-08-11 21:11

SPARK-SQL 基础应用入门1-sparkSession，Dataset，DataFrame，select，groupBy等

小哇666·2020-08-11 05:56

Spark-SQL概述、特点|DataFrame简介|DataSet简介|SparkSession

Spark-SQLSparkSQL是Spark用于结构化数据(structureddata)处理的Spark模块。与基本的SparkRDDAPI不同，SparkSQL的抽象数据类型为Spark提供了关于数据结构和正在执行的计算的更多信息。在内部，SparkSQL使用这些额外的信息去做一些额外的优化，有多种方式与SparkSQL进行交互，比如:SQL和DatasetAPI。当计算结果的时候，使用的是

SmallScorpion·2020-08-11 05:21

大数据学习之路84-SparkSQL基本使用与RDD对比（涉及自定义排序）

我们使用spark-sql，会加快我们的开发效率，在spark底层会把我们所写的sql转换成RDD去执行。得到我们想要的结果。

爱米酱·2020-08-11 05:48

Spark-SQL中DataFrame与DataSet的互操作|DataFrame转为DataSet|Dataset转为DataFrame|RDD、DataFrame和DataSet之间的关系

DataFrame转为DataSet使用as方法，转成Dataset，这在数据类型是DataFrame又需要针对各个字段处理时极为方便。在使用一些特殊的操作时，一定要加上importspark.implicits._不然toDF、toDS无法使用。valdf=spark.read.json("/opt/module/spark-local/examples/src/main/resources/p

SmallScorpion·2020-08-11 05:56

【大数据学习】之用spark-sql和spark-shell操作hive里面的表数据

SparkSQL与Hive的交互有两种方式，一种是spark-sql,另一种是spark-shell。

奔走觅衣粮·2020-08-11 03:11

Spark 读写Hive 表

Spark操作Hive可以采用两种方式，一种是在Spark-sql中操作Hive表，另一种是通过Hive的MetaStore在IDEA中操作Hive表，接下来分别介绍这两种方式Spark-Shell操作

Nice_N·2020-08-11 02:02

SPARK-SQL 读取外部数据源 csv文件的读写

准备person.json文件{"name":"Michael","age":29}{"name":"Andy","age":30}{"name":"Justin","age":19}csv文件读写操作示例importorg.apache.spark.sql.*;importorg.apache.spark.sql.types.DataTypes;importorg.apache.spark.sq

小哇666·2020-08-10 12:52

spark-sql读写elasticsearch的坑

//写elasticsearch的代码ds.write.format("org.elasticsearch.spark.sql").option("es.nodes.wan.only","true").option("es.mapping.id","_id").option("es.mapping.exclude","_id").option("es.nodes",host).option("es

隔壁寝室老吴·2020-08-09 23:40

已解决：spark报错SecurityException：class javax.servlet.FilterRegistration冲突

更新一下由于我的代码引入了spark-sql，他自己带有hadoop的传递依赖，而我又自己引入了和传递依赖不同版本的hadoop，所以冲突了可以在spark-sql依赖中加入标签排除冲突的hadoop依赖

我拿Buff，谢谢·2020-08-06 11:58

Spark-SQL官网翻译--Getting Started

SparkSQL,DataFramesandDatasetsGuideSparkSQLisaSparkmoduleforstructureddataprocessing.UnlikethebasicSparkRDDAPI,theinterfacesprovidedbySparkSQLprovideSparkwithmoreinformationaboutthestructureofboththed

s127838498·2020-08-04 00:22

Yarn-Client 模式下执行spark任务， Error initializing SparkContext. Failed to connect to driver!

redhat7.3系统大数据集群4台机器--集群外1台机器通过集群外的机器向大数据集群提交spark-sql任务，任务如下：任务执行失败。

Ru_ach·2020-08-03 20:27

Spark-Sql源码解析之六 PrepareForExecution: spark plan -> executed Plan

在SparkPlan中插入Shuffle的操作，如果前后2个SparkPlan的outputPartitioning不一样的话，则中间需要插入Shuffle的动作，比分说聚合函数，先局部聚合，然后全局聚合，局部聚合和全局聚合的分区规则是不一样的，中间需要进行一次Shuffle。比方说sql语句：selectSUM(id)fromtestgroupbydev_chnid其从逻辑计划转换为的物理计划如

亮亮-AC米兰·2020-08-03 08:25

Spark-Sql源码解析之三 Analyzer：Unresolved logical plan –> analyzed logical plan

Analyzer主要职责就是将通过SqlParser未能Resolved的LogicalPlan给Resolved掉。lazyvalanalyzed:LogicalPlan=analyzer.execute(logical)//分析过的LogicalPlanprotected[sql]lazyvalanalyzer:Analyzer=newAnalyzer(catalog,functionRegi

亮亮-AC米兰·2020-08-03 08:24

Spark-Sql源码解析之四 Optimizer: analyzed logical plan –> optimized logical plan

Optimizer的主要职责是将Analyzer给Resolved的LogicalPlan根据不同的优化策略Batch，来对语法树进行优化，优化逻辑计划节点(LogicalPlan)以及表达式(Expression)，也是转换成物理执行计划的前置。它的工作原理和analyzer一致，也是通过其下的batch里面的Rule[LogicalPlan]来进行处理的。objectDefaultOptimi

亮亮-AC米兰·2020-08-03 08:53

spark-sql执行流程分析

spark-sql架构图1图1是sparksql的执行架构，主要包括逻辑计划和物理计划几个阶段，下面对流程详细分析。

weixin_34187822·2020-08-03 07:43

Spark-Sql源码简单走读

简述自从Spark统一了RDD和DataFrame(DataSet)后，批处理上对DataFrame的使用频率上也大大超过了原始RDD，同样的SparkSql的使用也越来越频繁，因此对其中的执行过程进行简单了解是必不可少的，本文就对SparkSql源码进行简单的流程走读，涉及复杂内容的地方做到知其作用目的即可，不予深究。从一条sql开始在新版本中，SparkSession早已经作为统一入口，下面就

御街打码·2020-08-03 05:08

Spark SQL的执行计划

SparkSQL的架构实例分析spark-sql>explainextendedselect*fromempeinnerjoindeptdone.deptno=d.deptnowheree.deptno

senga07·2020-08-03 00:27

spark-sql cli模式下driver内存溢出

采用spark-sql启动编程，编写sql执行，但是数据量很少，不到一百条，执行时显示内存溢出,并且是已经显示stage进度条；如果是在编译过程中提示内存溢出，极有可能是driver内存分配的太小，而sql

yala说·2020-08-02 23:26

Spark-Sql源码解析之五 Spark Planner：optimized logical plan –> spark plan

前面描述的主要是逻辑计划，即sql如何被解析成logicalplan，以及logicalplan如何被analyzer以及optimzer，接下来主要介绍逻辑计划如何被翻译成物理计划，即SparkPlan。lazyvalsparkPlan:SparkPlan={SparkPlan.currentContext.set(self)planner.plan(optimizedPlan).next()}

亮亮-AC米兰·2020-08-02 21:25

Spark-SQL 在字节跳动的应用实践

本文来自6月16日上海Spark+AI16thMeetup，参见https://www.slidestalk.com/m/35。分享者白泉，字节跳动数据平台工程师，专注于Spark/Hive在企业内的平台化服务化建设以及SparkSQL引擎的优化。面对大量复杂的数据分析需求，提供一套稳定、高效、便捷的企业级查询分析服务具有重大意义。本次演讲介绍了字节跳动基于SparkSQL建设大数据查询统一服务T

Hadoop技术博文·2020-07-31 15:03

Spark-Streaming与Spark-Sql整合实现实时股票排行---通过kafka列队数据

Spark-Streaming与Spark-Sql整合实现实时股票排行---通过kafka列队数据，前端数据通过kafka队列传递，外层还有flume的实时收集。

kwu_ganymede·2020-07-30 15:31

Java版SparkStreaming读取Kafka实现实时的单词统计

1.开发工具：IDEA2.sbt依赖：version:="0.1"scalaVersion:="2.11.8"libraryDependencies+="org.apache.spark"%%"spark-sql

cy_wtt_ysys·2020-07-30 14:45

使用Azkaban调度执行spark-sql任务的小Demo

1、准备数据准备表dm_action_log数据如下：bdp_dayactionuv20190101click1117320190101exit1110920190101install1113920190101launch1108320190101login1122020190101page_enter_h51101620190101page_enter_native1107620190101pa

塔城就是个弟弟·2020-07-30 05:34

Sentry ： Spark-sql 读取hive数据权限问题

经测试Spark-sql只支持Sentry表、库权限，不支持Sentry对Hive列权限读的控制，设置列权限读，Spark-sql是无权限读取的对hive表某一列有读权限设置代码如下，jast_column

jast_zsh·2020-07-29 02:48

spark+hive运行时没有写权限

当使用spark连接hive时，无论是通过spark-submit提交作业，还是使用spark-shell,spark-sql都会报以下错误：Exceptioninthread"main"java.lang.RuntimeException

yangbosos·2020-07-29 01:45

大数据SQL执行工具调研总结

下面是这几天来我对于hiveonmr/hiveonspark/impala/presto/spark-sql做的调研之后做的总结，见以下矩阵：武器库优点缺点HiveSql支持度UDF支持hiveonmr

唔系小老虎·2020-07-29 00:35

推荐频道

Spark-SQL

2018-11-28

Spark - SQL查询文件数据

Spark - SQL查询文件数据

Spark - SQL查询文件数据

spark错误记录：Container on host: was preempted（没有彻底解决，只是理解这个问题）

Spark - SQL查询文件数据

spark-sql使用

Spark-SQL之DataFrame操作大全

Spark - SQL查询文件数据

streamsets自定义插件部署方案

同一个sql 在Hive和spark-sql 跑出结果不一样记录

大数据开发之Spark篇----idea上使用SparkSQL对Hive上的数据

HDP3.1中spark2.3无法读取Hive3.0数据

Spark-SQL应用解析

Spark-SQL在IDEA中创建SparkSQL程序|DF风格编程|RDD转换为DF

spark-sql 2.3.1版本的，集群上的hive连接不上，求解

2.2、配置Spark-sql(连接Hive)

Spark-Sql版本升级对应的新特性汇总

Spark 电商分析 Spark-sql 统计各区域热门商品统计 需求、设计、数据库

Spark-streaming 和spark-sql 基本概念

Spark通过Dataframe操作hive

SPARK-SQL - DataFrame创建方式汇总

Spark问题记录

Mac单机Hadoop2.7下安装Spark2.2+配置SparkSQL查询Hive表+spark-sql CLI 查询

SPARK-SQL 基础应用入门1-sparkSession，Dataset，DataFrame，select，groupBy等

Spark-SQL概述、特点|DataFrame简介|DataSet简介|SparkSession

大数据学习之路84-SparkSQL基本使用与RDD对比（涉及自定义排序）

Spark-SQL中DataFrame与DataSet的互操作|DataFrame转为DataSet|Dataset转为DataFrame|RDD、DataFrame和DataSet之间的关系

【大数据学习】之 用spark-sql和spark-shell操作hive里面的表数据

Spark 读写Hive 表

SPARK-SQL 读取外部数据源 csv文件的读写

spark-sql读写elasticsearch的坑

已解决：spark报错SecurityException：class javax.servlet.FilterRegistration冲突

Spark-SQL官网翻译--Getting Started

Yarn-Client 模式下执行spark任务， Error initializing SparkContext. Failed to connect to driver!

Spark-Sql源码解析之六 PrepareForExecution: spark plan -> executed Plan

Spark-Sql源码解析之三 Analyzer：Unresolved logical plan –> analyzed logical plan

Spark-Sql源码解析之四 Optimizer: analyzed logical plan –> optimized logical plan

spark-sql执行流程分析

Spark-Sql源码简单走读

Spark SQL的执行计划

spark-sql cli模式下driver内存溢出

Spark-Sql源码解析之五 Spark Planner：optimized logical plan –> spark plan

Spark-SQL 在字节跳动的应用实践

Spark-Streaming与Spark-Sql整合实现实时股票排行---通过kafka列队数据

Java版SparkStreaming读取Kafka实现实时的单词统计

使用Azkaban调度执行spark-sql任务的小Demo

Sentry ： Spark-sql 读取hive数据 权限问题

spark+hive运行时没有写权限

大数据SQL执行工具调研总结

Spark 电商分析 Spark-sql 统计各区域热门商品统计需求、设计、数据库

【大数据学习】之用spark-sql和spark-shell操作hive里面的表数据

Sentry ： Spark-sql 读取hive数据权限问题