E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark-SQL
2018-11-28
针对
spark-sql
操作hive生成分区表,结果文件目录包含_success空文件,可以设置参数:mapreduce.fileoutputcommitter.marksuccessfuljobs因此可以在程序中设置
宇智波_佐助
·
2020-08-21 16:42
Spark - SQL查询文件数据
那么我们可以利用
spark-sql
直接操作文件的特性处理这类的需求,姐姐再也不用担心我不会spark了,因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.
kikiki4
·
2020-08-21 15:41
Spark - SQL查询文件数据
那么我们可以利用
spark-sql
直接操作文件的特性处理这类的需求,姐姐再也不用担心我不会spark了,因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.
kikiki4
·
2020-08-21 14:21
Spark - SQL查询文件数据
那么我们可以利用
spark-sql
直接操作文件的特性处理这类的需求,姐姐再也不用担心我不会spark了,因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.
kikiki4
·
2020-08-21 12:11
spark错误记录:Container on host: was preempted(没有彻底解决,只是理解这个问题)
(作者:陈玓玏data-master)
spark-sql
任务跑着跑着,碰到一个bug:Containeronhost:waspreempted又是一个新鲜的bug呢!!
小白白白又白cdllp
·
2020-08-20 19:11
大数据
Spark - SQL查询文件数据
那么我们可以利用
spark-sql
直接操作文件的特性处理这类的需求,姐姐再也不用担心我不会spark了,因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.
kikiki4
·
2020-08-20 17:20
spark-sql
使用
spark-sqlspark-sql在cli端的操作使用
spark-sql
编程需要配置jar包通过反射推断schema通过structtype指定schema通过spark-shell从mysql中加载数据将数据保存到
metooman
·
2020-08-20 17:15
大数据
Spark-SQL
之DataFrame操作大全
一、DataFrame对象的生成
Spark-SQL
可以以其他RDD对象、parquet文件、json文件、hive表,以及通过JDB
SunnyMore
·
2020-08-20 14:35
Spark - SQL查询文件数据
那么我们可以利用
spark-sql
直接操作文件的特性处理这类的需求,姐姐再也不用担心我不会spark了,因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.
kikiki4
·
2020-08-19 21:28
streamsets自定义插件部署方案
2.部署步骤2.1cm界面操作2.2上传驱动包2.3上传插件2.4选择pipeline2.5pipeline配置3.启动界面1.背景简介由于sdc缺少由kudu到mysql的upsert操作,前期通过
spark-sql
tianjun2012
·
2020-08-18 22:54
数据采集
同一个sql 在Hive和
spark-sql
跑出结果不一样记录
表Schemahive>descgdm.dim_category;namestring分类名称org_codestring分类codehive>selectname,org_codefromgdm.dim_categorylimit2;OK鞋_8_鞋/男_8_21_hive>descgdm.dim_product_brand;brand_idbigint品牌IDch_namestring品牌中文名
阿武z
·
2020-08-18 12:25
Hive
大数据开发之Spark篇----idea上使用SparkSQL对Hive上的数据
SparkSQL连接到Hive上将hive-site.xml存储到项目上的resources目录上既然我们要在idea上使用spark来访问Hive上的数据,那我们也要有元数据地址才行嘛,所以这和使用
spark-sql
豆豆总
·
2020-08-18 12:55
HDP3.1中spark2.3无法读取Hive3.0数据
通过Ambari2.7安装好HDP3.1后,发现在
spark-sql
中无法读到hive命令行创建的数据库和表。
MiniCoder丨
·
2020-08-18 12:45
spark
hive
Spark-SQL
应用解析
文章目录一、概述DataFrameDataSet二、数据转换1.RDDDataFrameRDD->DataFrameDataFrame->RDD2.RDDDataSetRDD->DataSetDataSet->RDD3.DataFrameDataSetDataFrame->DataSetDataSet->DataFrame三、SparkSQL简单操作四、SQL的执行模式DSL模式SQL模式五、自定
2NaCl
·
2020-08-18 11:05
Spark
Spark-SQL
在IDEA中创建SparkSQL程序|DF风格编程|RDD转换为DF
POMorg.apache.sparkspark-core_2.112.1.1org.apache.sparkspark-sql_2.112.1.1SparkCoreTestnet.alchim31.mavenscala-maven-plugin3.3.2compiletestCompileDF风格编程代码实现//1.创建SparkSession对象valspark:SparkSession=Sp
SmallScorpion
·
2020-08-18 11:55
Spark
零
spark-sql
2.3.1版本的,集群上的hive连接不上,求解
Exceptioninthread"main"java.lang.ClassNotFoundException:java.lang.NoClassDefFoundError:org/apache/hadoop/fs/CanUnbufferwhencreatingHiveclientusingclasspath:file:/E:/development/Java/jre/lib/charsets.j
qq_36687028
·
2020-08-18 11:08
2.2、配置
Spark-sql
(连接Hive)
一、复制Hadoop目录下的hdfs-site.xml和Hive目录下的hive-site.xml到/usr/spark/spark-2.1.0/conf目录下二、cpspark-env.sh.templatespark-env.sh,编辑spark-env.sh文件添加如下内容:exportJAVA_HOME=/usr/java/jdk1.8.0_102exportCLASSPATH=CLASS
恶魔的步伐
·
2020-08-18 11:55
Spark总结
Spark-Sql
版本升级对应的新特性汇总
Spark-Sql
版本升级对应的新特性汇总SparkSQL的前身是Shark。由于Shark自身的不完善,2014年6月1日ReynoldXin宣布:停止对Shark的开发。
kwu_ganymede
·
2020-08-18 11:24
Spark
Spark 电商分析
Spark-sql
统计各区域热门商品统计 需求、设计、数据库
一、需求分析1、根据用户指定的日期范围,统计各个区域下的最热门的top3商品区域信在哪里?各个城市信息不怎么变化,存储在mysql中hive用户行为数据,hive和mysql城市信息join(Hive和mysql异构数据源使用,技术点1)关联之后是RDD,RDD转换成DataFrame,注册临时表,第二个技术点各个区域下各个商品的点击量,保留每个区域的城市列表数据?自定义UDAF函数,group_
chixushuchu
·
2020-08-18 11:00
实战
spark
Spark-streaming 和
spark-sql
基本概念
Spark-streaming和
spark-sql
基本概念spark-streaming是spark体系中一个流式处理的框架spark-core是核心的计算引擎,streaming是其中一个功能streaming
000000_cy
·
2020-08-18 10:28
spark
Spark通过Dataframe操作hive
1.1、创建一个SQLContext,SQLContext(及其子类,如本节的HiveContext)是SparkSQL所有功能的入口SqlContext:应该是对应
spark-sql
这个project
chbxw
·
2020-08-18 10:39
#
spark
SPARK-SQL
- DataFrame创建方式汇总
创建DataFrame的方式从JavaRDD与类类型中创建从List与类类型中创建从JavaRDD与schema中创建从List与schema中创建从外部数据源中创建如spark.read().json等importorg.apache.spark.api.java.JavaRDD;importorg.apache.spark.api.java.JavaSparkContext;importorg
小哇666
·
2020-08-18 10:37
#
spark
Spark问题记录
问题1问题描述项目中使用CDH5.8,在测试环境上使用
spark-sql
将数据写到Mysql时,一直报错如下java.lang.ClassNotFoundException:com.mysql.jdbc.Driver
灰灰鲁伊
·
2020-08-16 07:07
大数据
spark
大数据
Mac单机Hadoop2.7下安装Spark2.2+配置SparkSQL查询Hive表+
spark-sql
CLI 查询
下面简单记录mac单机spark安装测试的过程已安装好单机的伪分布式Hadoop,见Mac单机Hadoop安装备忘已安装好单机的hive,见Mac-单机Hive安装与测试单机Mac安装spark并做简单yarn模式shell测试配置SparkSQL查询Hivespark-sqlCLI查询Hive一、安装Spark1-下载安装scalahttps://www.scala-lang.org/downl
hjw199089
·
2020-08-11 21:11
[3]Spark
SPARK-SQL
基础应用入门1-sparkSession,Dataset,DataFrame,select,groupBy等
相关的测试数据和pojo类,查看博文https://blog.csdn.net/qq_41712271/article/details/107812188//导入相关的包importstaticorg.apache.spark.sql.functions.col;publicstaticvoidmain(String[]args){//0:sparksql程序入口SparkSessionspark
小哇666
·
2020-08-11 05:56
#
spark
Spark-SQL
概述、特点|DataFrame简介|DataSet简介|SparkSession
Spark-SQLSparkSQL是Spark用于结构化数据(structureddata)处理的Spark模块。与基本的SparkRDDAPI不同,SparkSQL的抽象数据类型为Spark提供了关于数据结构和正在执行的计算的更多信息。在内部,SparkSQL使用这些额外的信息去做一些额外的优化,有多种方式与SparkSQL进行交互,比如:SQL和DatasetAPI。当计算结果的时候,使用的是
SmallScorpion
·
2020-08-11 05:21
Spark
大数据学习之路84-SparkSQL基本使用与RDD对比(涉及自定义排序)
我们使用
spark-sql
,会加快我们的开发效率,在spark底层会把我们所写的sql转换成RDD去执行。得到我们想要的结果。
爱米酱
·
2020-08-11 05:48
大数据生态圈从入门到精通
Spark-SQL
中DataFrame与DataSet的互操作|DataFrame转为DataSet|Dataset转为DataFrame|RDD、DataFrame和DataSet之间的关系
DataFrame转为DataSet使用as方法,转成Dataset,这在数据类型是DataFrame又需要针对各个字段处理时极为方便。在使用一些特殊的操作时,一定要加上importspark.implicits._不然toDF、toDS无法使用。valdf=spark.read.json("/opt/module/spark-local/examples/src/main/resources/p
SmallScorpion
·
2020-08-11 05:56
Spark
【大数据学习】之 用
spark-sql
和spark-shell操作hive里面的表数据
SparkSQL与Hive的交互有两种方式,一种是
spark-sql
,另一种是spark-shell。
奔走觅衣粮
·
2020-08-11 03:11
Spark
SQL
Spark 读写Hive 表
Spark操作Hive可以采用两种方式,一种是在
Spark-sql
中操作Hive表,另一种是通过Hive的MetaStore在IDEA中操作Hive表,接下来分别介绍这两种方式Spark-Shell操作
Nice_N
·
2020-08-11 02:02
Spark系列
SPARK-SQL
读取外部数据源 csv文件的读写
准备person.json文件{"name":"Michael","age":29}{"name":"Andy","age":30}{"name":"Justin","age":19}csv文件读写操作示例importorg.apache.spark.sql.*;importorg.apache.spark.sql.types.DataTypes;importorg.apache.spark.sq
小哇666
·
2020-08-10 12:52
#
spark
spark
spark-sql
读写elasticsearch的坑
//写elasticsearch的代码ds.write.format("org.elasticsearch.spark.sql").option("es.nodes.wan.only","true").option("es.mapping.id","_id").option("es.mapping.exclude","_id").option("es.nodes",host).option("es
隔壁寝室老吴
·
2020-08-09 23:40
已解决:spark报错SecurityException:class javax.servlet.FilterRegistration冲突
更新一下由于我的代码引入了
spark-sql
,他自己带有hadoop的传递依赖,而我又自己引入了和传递依赖不同版本的hadoop,所以冲突了可以在
spark-sql
依赖中加入标签排除冲突的hadoop依赖
我拿Buff,谢谢
·
2020-08-06 11:58
bug
其他
spark
Spark-SQL
官网翻译--Getting Started
SparkSQL,DataFramesandDatasetsGuideSparkSQLisaSparkmoduleforstructureddataprocessing.UnlikethebasicSparkRDDAPI,theinterfacesprovidedbySparkSQLprovideSparkwithmoreinformationaboutthestructureofboththed
s127838498
·
2020-08-04 00:22
大数据
Spark
Sql
官网翻译
大数据
Yarn-Client 模式下执行spark任务, Error initializing SparkContext. Failed to connect to driver!
redhat7.3系统大数据集群4台机器--集群外1台机器通过集群外的机器向大数据集群提交
spark-sql
任务,任务如下:任务执行失败。
Ru_ach
·
2020-08-03 20:27
Spark-Sql
源码解析之六 PrepareForExecution: spark plan -> executed Plan
在SparkPlan中插入Shuffle的操作,如果前后2个SparkPlan的outputPartitioning不一样的话,则中间需要插入Shuffle的动作,比分说聚合函数,先局部聚合,然后全局聚合,局部聚合和全局聚合的分区规则是不一样的,中间需要进行一次Shuffle。比方说sql语句:selectSUM(id)fromtestgroupbydev_chnid其从逻辑计划转换为的物理计划如
亮亮-AC米兰
·
2020-08-03 08:25
源码解析
Spark
Spark
SQL
1.4.1
详解
Spark-Sql
源码解析之三 Analyzer:Unresolved logical plan –> analyzed logical plan
Analyzer主要职责就是将通过SqlParser未能Resolved的LogicalPlan给Resolved掉。lazyvalanalyzed:LogicalPlan=analyzer.execute(logical)//分析过的LogicalPlanprotected[sql]lazyvalanalyzer:Analyzer=newAnalyzer(catalog,functionRegi
亮亮-AC米兰
·
2020-08-03 08:24
Spark
Spark
SQL
1.4.1
详解
Spark-Sql
源码解析之四 Optimizer: analyzed logical plan –> optimized logical plan
Optimizer的主要职责是将Analyzer给Resolved的LogicalPlan根据不同的优化策略Batch,来对语法树进行优化,优化逻辑计划节点(LogicalPlan)以及表达式(Expression),也是转换成物理执行计划的前置。它的工作原理和analyzer一致,也是通过其下的batch里面的Rule[LogicalPlan]来进行处理的。objectDefaultOptimi
亮亮-AC米兰
·
2020-08-03 08:53
Spark
Spark
SQL
1.4.1
详解
spark-sql
执行流程分析
spark-sql
架构图1图1是sparksql的执行架构,主要包括逻辑计划和物理计划几个阶段,下面对流程详细分析。
weixin_34187822
·
2020-08-03 07:43
Spark-Sql
源码简单走读
简述自从Spark统一了RDD和DataFrame(DataSet)后,批处理上对DataFrame的使用频率上也大大超过了原始RDD,同样的SparkSql的使用也越来越频繁,因此对其中的执行过程进行简单了解是必不可少的,本文就对SparkSql源码进行简单的流程走读,涉及复杂内容的地方做到知其作用目的即可,不予深究。从一条sql开始在新版本中,SparkSession早已经作为统一入口,下面就
御街打码
·
2020-08-03 05:08
Spark-Sql源码
Spark SQL的执行计划
SparkSQL的架构实例分析
spark-sql
>explainextendedselect*fromempeinnerjoindeptdone.deptno=d.deptnowheree.deptno
senga07
·
2020-08-03 00:27
spark-sql
cli模式下driver内存溢出
采用
spark-sql
启动编程,编写sql执行,但是数据量很少,不到一百条,执行时显示内存溢出,并且是已经显示stage进度条;如果是在编译过程中提示内存溢出,极有可能是driver内存分配的太小,而sql
yala说
·
2020-08-02 23:26
大数据学习
Spark-Sql
源码解析之五 Spark Planner:optimized logical plan –> spark plan
前面描述的主要是逻辑计划,即sql如何被解析成logicalplan,以及logicalplan如何被analyzer以及optimzer,接下来主要介绍逻辑计划如何被翻译成物理计划,即SparkPlan。lazyvalsparkPlan:SparkPlan={SparkPlan.currentContext.set(self)planner.plan(optimizedPlan).next()}
亮亮-AC米兰
·
2020-08-02 21:25
Spark
Spark
SQL
1.4.1
详解
Spark-SQL
在字节跳动的应用实践
本文来自6月16日上海Spark+AI16thMeetup,参见https://www.slidestalk.com/m/35。分享者白泉,字节跳动数据平台工程师,专注于Spark/Hive在企业内的平台化服务化建设以及SparkSQL引擎的优化。面对大量复杂的数据分析需求,提供一套稳定、高效、便捷的企业级查询分析服务具有重大意义。本次演讲介绍了字节跳动基于SparkSQL建设大数据查询统一服务T
Hadoop技术博文
·
2020-07-31 15:03
Spark-Streaming与
Spark-Sql
整合实现实时股票排行---通过kafka列队数据
Spark-Streaming与
Spark-Sql
整合实现实时股票排行---通过kafka列队数据,前端数据通过kafka队列传递,外层还有flume的实时收集。
kwu_ganymede
·
2020-07-30 15:31
Spark
Java版SparkStreaming读取Kafka实现实时的单词统计
1.开发工具:IDEA2.sbt依赖:version:="0.1"scalaVersion:="2.11.8"libraryDependencies+="org.apache.spark"%%"
spark-sql
cy_wtt_ysys
·
2020-07-30 14:45
使用Azkaban调度执行
spark-sql
任务的小Demo
1、准备数据准备表dm_action_log数据如下:bdp_dayactionuv20190101click1117320190101exit1110920190101install1113920190101launch1108320190101login1122020190101page_enter_h51101620190101page_enter_native1107620190101pa
塔城就是个弟弟
·
2020-07-30 05:34
spark
Sentry :
Spark-sql
读取hive数据 权限问题
经测试
Spark-sql
只支持Sentry表、库权限,不支持Sentry对Hive列权限读的控制,设置列权限读,
Spark-sql
是无权限读取的对hive表某一列有读权限设置代码如下,jast_column
jast_zsh
·
2020-07-29 02:48
sentry
spark
spark+hive运行时没有写权限
当使用spark连接hive时,无论是通过spark-submit提交作业,还是使用spark-shell,
spark-sql
都会报以下错误:Exceptioninthread"main"java.lang.RuntimeException
yangbosos
·
2020-07-29 01:45
spark
hive
大数据SQL执行工具调研总结
下面是这几天来我对于hiveonmr/hiveonspark/impala/presto/
spark-sql
做的调研之后做的总结,见以下矩阵:武器库优点缺点HiveSql支持度UDF支持hiveonmr
唔系小老虎
·
2020-07-29 00:35
分布式计算
自己总结心得
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他