E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Spark-SQL
Spark - SQL查询文件数据
那么我们可以利用
spark-sql
直接操作文件的特性处理这类的需求,姐姐再也不用担心我不会spark了,因为我就只会sql。使用方法csvspark.sql("select*fromcsv.
kikiki2
·
2021-05-11 12:03
spark实时处理hdfs流数据
项目说明Spark构建一个实时数据处理及展示系统流数据数据处理:scala调用
spark-SQL
:python如图:Paste_Image.png问题总结1、spark-streaming流处理2、sbt
gk4030
·
2021-05-09 13:15
spark-sql_on_yarn.md
[TOC]
spark-sql
提交到yarn后只占用3个core,4480mimage.png修改参数
旺达丨
·
2021-05-03 18:53
Spark - SQL查询文件数据
那么我们可以利用
spark-sql
直接操作文件的特性处理这类的需求,姐姐再也不用担心我不会spark了,因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.
kikiki4
·
2021-05-02 23:59
Spark - SQL查询文件数据
那么我们可以利用
spark-sql
直接操作文件的特性处理这类的需求,姐姐再也不用担心我不会spark了,因为我就只会sql。使用方法csvspark.sql("select*fromcsv.
kikiki2
·
2021-04-30 12:27
【Spark】SparkOptimizer 优化:OptimizeIn(In to InSet)
最近在调试
Spark-SQL
的时候看了一个OptimizeIn优化规则,该规则做了两个事情:去除In中重复的Literal条件;如果In中Literal条件数目大于optimizerInSetConversionThreshold
PowerMe
·
2021-04-29 03:30
Spark - SQL查询文件数据
那么我们可以利用
spark-sql
直接操作文件的特性处理这类的需求,姐姐再也不用担心我不会spark了,因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.
kikiki4
·
2021-04-25 08:51
Spark - SQL查询文件数据
那么我们可以利用
spark-sql
直接操作文件的特性处理这类的需求,姐姐再也不用担心我不会spark了,因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.
kikiki4
·
2021-04-22 21:26
大数据-序篇
,从基础再次着手,开始巩固定学习.java很核心,但个人一般,javaweb每一段都能自主开发,但不核心scala,python都可以玩,但不够精通大数据中,hive,spark-streaming,
spark-sql
太菜了-Andy
·
2021-04-02 18:51
大数据
spark数据查询语句select_Spark-SQL之DataFrame操作大全
一、DataFrame对象的生成
Spark-SQL
可以以其他RDD对象、parquet文件、json文件、Hive表,以及通过JDBC连接到
weixin_39888082
·
2020-12-21 13:55
大数据——
Spark-SQL
自定义函数UDF、UDAF、UDTF
Spark-SQL
自定义函数UDF、UDAF、UDTF自定义函数分类UDFUDAFUDTF自定义函数分类类似有Hive当中的自定义函数,Spark同样可以使用自定义的函数来实现新的功能Spark中的自定义函数有三类
蜂蜜柚子加苦茶
·
2020-11-17 19:56
大数据
hive
spark
scala
如何创建 SparkContext,SQLContext,StreamingContext 的几种方式?
需要用到spark-core,
spark-sql
,spark-streaming的jar包,pom文件如下:2.1.02.11org.apache.sparkspark-core_${scala.version
曲健磊
·
2020-09-15 16:01
【Spark】
spark-core 和
spark-sql
的区别
转自:http://www.cnblogs.com/zlslch/p/6685679.htmlSparkSQL构建在SparkCore之上,专门用来处理结构化数据(不仅仅是SQL)。即SparkSQL是SparkCore封装而来的!SparkSQL在SparkCore的基础上针对结构化数据处理进行很多优化和改进,简单来讲:SparkSQL支持很多种结构化数据源,可以让你跳过复杂的读取过程,轻松从各
光圈1001
·
2020-09-15 16:39
spark
大数据
scala
SPARK-SQL
读取外部数据源 txt文件的读写
相关的资源文件地址链接:https://pan.baidu.com/s/1QGQIrVwg56g9eF16ERSLwQ提取码:7v8ntxt文件读写示例importorg.apache.spark.sql.Dataset;importorg.apache.spark.sql.Row;importorg.apache.spark.sql.SaveMode;importorg.apache.spark
小哇666
·
2020-09-15 14:44
#
spark
spark
spark-sql
执行报错No suitable driver found for jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=
未指定--driver-class-path正确指令:spark-sqllocal[2]--jars~/software/mysql-connector-java-5.1.27-bin.jar--driver-class-path~/software/mysql-connector-java-5.1.27-bin.jar
wzng
·
2020-09-15 14:19
spark
Spark-SQL
连接MySql关系型数据库
本文主要分析SparkSQL官方文档中有关于JDBCToOtherDatabases部分,以MySQL数据库为例,结合数据读写操作的实例代码进行详细的分析。本文中的代码需要使用到MysqlJDBC连接jar包。一、从mysql读取数据1、单表查询完整程序如下:packagecom.ckm.spark.sqlimportjava.util.Propertiesimportorg.apache.spa
weixin_30885111
·
2020-09-15 08:17
大数据
数据库
spark-sql
读取嵌套json数据
SparkSql版本为2.2.0sparksql解析json格式的数据源首先,获取操作sparkSql的SparkSession操作实例:valsession=SparkSession.builder().master(“local[*]”).appName(this.getClass.getSimpleName).getOrCreate()//导入隐式转换和functionsimportsess
qq_43193797
·
2020-09-15 08:46
spark
spark部署:在YARN上运行Spark
相关内容Spark中文手册-编程指南Spark之一个快速的例子Spark之基本概念Spark之基本概念Spark之基本概念(2)Spark之基本概念(3)
Spark-sql
由入门到精通
Spark-sql
奔跑的小象
·
2020-09-15 03:21
Spark
spark-sql
(不包含hive-sql)查询编程
spark-sql
(不包含hive-sql)查询编程//1:将json格式的数据转化为dataFramevaldf=sqlContext.read.json("hdfs://localhost:9000
jacksoom
·
2020-09-15 02:38
spark
Spark-sql
连接hive中遇到的问题
在使用
spark-sql
的时候发现,可以连接上hive并可以使用showtables的语句查询到表,但是后来尝试发现没法做其他更多的操作,通过log信息发现,是metadata无法连接的问题,联想到前天在配置
nuobuye19950728
·
2020-09-15 02:28
hive
spar
metadata
权限
spark-sql
使用hive的自定函数配置
1、
spark-sql
可以直接使用hive的自定义函数,而不需要重新写一套
spark-sql
的自定义函数,这里较大家一个简单的配置方式即可2、将hive的自定义函数jar拷贝到/usr/lib/spark-current
明喆_sama
·
2020-09-15 02:59
spark
hive
##公司合作项目--基于质差指标筛选结果的
spark-sql
查询系统Demo
一系统简介数据简介系统功能二处理流程数据处理
spark-sql
使用流程一.系统简介1.数据简介:本Demo系统所用数据是某省某运营商IPTV用户数据,基于此数据,经过一系列的数据清洗与数学建模,最终得到了三个质差用户指标
just-天之蓝
·
2020-09-14 13:03
spark
数据
运营商
数学建模
通过Spark访问Hbase的Hive外部表(hive on hbase的表)
首先集群已经可以通过
spark-sql
读取hive的数据,然后进行如下配置。
levy_cui
·
2020-09-14 10:22
Spark
spark-sql
on hve配置文件
hive-site.xmlhive.insert.into.multilevel.dirstrue允许生成多级目录hive.exec.stagingdirhdfs://mini:9000/hive_tmp/cachespark-sql任务临时文件暂放目录javax.jdo.option.ConnectionURLjdbc:mysql://mini:3306/hive?createDatabaseI
蜗牛.~
·
2020-09-14 05:22
spark
spark-sql
分区小文件合并
spark-sql
执行任务小文件生成规则示例数据元数据:{数据库名称:mydb,表名称:t30,字段列表:aint,bintcint}主数据:[1,4,2;3,4,6;4,6,7]1.使用
spark-sql
蜗牛.~
·
2020-09-14 05:21
代码优化
spark
spark-sql
on yarn 、spark-shell on yarn 详解
有时候在做开发测试的时候,需要使用spark-shell和
spark-sql
命令行,除了Local和Sparkstandalone模式,spark-shell和
spark-sql
也可以运行在yarn上,
wang2leee
·
2020-09-14 01:16
容器
spark
yarn
spark-sql
Spark-Sql
启动报错:Error creating transactional connection factory
/bin/
spark-sql
报错Errorcreatingtr
午后的红茶meton
·
2020-09-13 20:09
Spark使用
实现CDH支持Spark SQL功能
CDH内嵌spark版本不支持
spark-sql
,可能是因为cloudera在推自己的impala;如果上线spark却不能使用sql这种结构化语言,对于大部分分析人员其实是很不爽的!
sunyang098
·
2020-09-13 18:22
spark
spark:报错com.esotericsoftware.kryo.KryoException: Buffer underflow.
场景
spark-sql
跑一个较大的任务(几亿条数据),数据落盘时报错:com.esotericsoftware.kryo.KryoException:Bufferunderflow.探索查看抛出这个报错的源码
x950913
·
2020-09-13 10:41
spark
spark-sql
子查询的字段名在父查询中无法解析
场景:多表join、union时,发生如下报错:Errorinquery:Resolvedattribute(s)complex_flag_code#6549,quantity#6551L,pay_time_date#6547,sales_price#6553,oms_code#6548,retail_price#6550,promotion_sku_code#6552missingfromret
x950913
·
2020-09-13 10:11
hive
spark
spark
大数据
hive
大数据:缓慢变化维
因为HDFS的不可修改数据的特性,hive和
spark-sql
不能像传统数据库一样使用update修改数据的。通常对于变化
x950913
·
2020-09-13 10:11
spark
spark-sql
读取不到parquet格式的hive表
当向Hivemetastore中读写Parquet表时,SparkSQL将使用SparkSQL自带的ParquetSerDe(SerDe:Serialize/Deserilize的简称,目的是用于序列化和反序列化),而不是用Hive的SerDe,SparkSQL自带的SerDe拥有更好的性能。这个优化的配置参数为spark.sql.hive.convertMetastoreParquet,默认值为
x950913
·
2020-09-13 10:10
spark
spark-SQL
综合练习每日关键字的UV统计-scala
spark-SQL
综合练习每日关键字的UV统计-scala1.开发环境说明2.运行环境说明3.实现的需求如下4.实现代码如下5.分步输出的结果如下6.。。。。。。
xuanwenchao
·
2020-09-11 11:26
Spark
spark-sql
关联问题
spark-sql
使用不等关联不出数据,的解决办法2017-10-20计划
spark-sql
取出join后另外一个字段匹配不上的记录select*fromap1ajoinap2bona.id=b.idanda.name
per_time
·
2020-09-11 06:05
spark
Spark SQL 操作 Hive 表数据
方式操作Hiveshowtablesselect*fromempjoin操作总结:和HQL语法一毛一样,只是记得使用如下格式spark.sql("xxxxxx").show即可如果嫌麻烦,还可以直接使用
spark-sql
路飞DD
·
2020-09-11 05:47
SparkSQL
Spark
大数据
Hive
Hadoop
Spark
SparkSQL
操作
Hive
SparkSQL
保存
parquet
到
hdfs
SparkSession
操作
Hive
SparkSession
hive使用spark引擎的几种情况
使用spark引擎查询hive有以下几种方式:1>使用
spark-sql
(sparksqlcli)2>使用spark-thrift提交查询sql3>使用hiveonspark(即hive本身设置执行引擎为
weixin_30275415
·
2020-09-11 04:26
在Zeppelin上运行Spark程序
前言不得不说,Spark在Zeppelin上的使用还是比较方便的,比你在终端启动一个spark-shell或者
spark-sql
强太多了。闲话少说,我们一起来看一看吧!
AaronLwx
·
2020-09-10 21:25
Spark SQL快速入门系列之Hive
.hive和sparksql的集成方式(面试可能会问到)二.spark_shell和spark_sql操作spark_shellspark_sql使用hiveserver2+beeline三.脚本使用
spark-sql
大数据技术与架构
·
2020-09-10 18:26
Spark-sql
读hbase
SparkSQL是指整合了Hive的spark-sqlcli,本质上就是通过Hive访问HBase表,具体就是通过hive-hbase-handler拷贝HBase的相关jar包到Spark节点上的$SPARK_HOME/lib目录下,清单如下:在ambari上配置Spark节点的$SPARK_HOME/conf/spark-env.sh,将上面的jar包添加到SPARK_CLASSPATH,如下
chenla5762
·
2020-08-24 13:28
Spark-SQL
之自定义数据源的构建
自定义数据源的构建常见的trait下面是interfaces.scala中常见的一些接口:下面各种类、方法,在源码里面都有详细的注释。//BaseRelation是Spark提供的一个标准的接口//由于是抽象类,如果要实现自己的外部数据源,必须要实现它里面的一些方法//这个里面是含有schema的元组集合(字段:字段类型)//继承了BaseRelation的类,必须以StructType这个形式产
Try Everything、
·
2020-08-24 12:59
Spark
Spark - SQL查询文件数据
那么我们可以利用
spark-sql
直接操作文件的特性处理这类的需求,姐姐再也不用担心我不会spark了,因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.
kikiki4
·
2020-08-23 00:25
sparkSQL1.1入门之七:ThriftServer和CLI
1:令人惊讶的CLI刚部署好spark1.1就迫不及待地先测试CLI(bin/
spark-sql
),对于习
mmicky20110730
·
2020-08-22 21:06
spark1.1.0
spark学习路线
Spark SQL/Hive 同一列的多行记录合并为一行
(第一列用户id,第二列商店id,第三列地区id,第四列日期)
spark-sql
>select*fromtest;10277654822172201510281027765482217220151026881482482217220151129102776
光于前裕于后
·
2020-08-22 20:14
大数据动物园
Spark
Hive
Spark-sql
结果保存指定位置
//1.读取数据,将每一行的数据使用列分隔符分割vallineRDD=sc.textFile("hdfs://node1.itcast.cn:9000/person.txt",1).map(_.split(""))//2.定义caseclass(相当于表的schema)caseclassPerson(id:Int,name:String,age:Int)//3.导入隐式转换,在当前版本中可以不用导
绛门人
·
2020-08-22 19:42
spark
【运行
spark-sql
报错】:java.lang.NoSuchMethodError: scala.Product.$init$(Lscala/Product;)V 解决办法
scala版本对不上所以着重对这方面的检查.直到我看到pom.xml文件得配置.....大概就知道是什么原因了org.apache.sparkspark-sql_2.112.3.0显然我Maven里面配置的
spark-sql
佩奇配骑
·
2020-08-22 19:00
环境
spark1.4版本与CDH5.1.3版本hive整合
场景介绍:在
spark-sql
中,读取hive的数据配置步骤如下:1、找到hive的hive-site.xml文件和hive-log4j.properties文件放入spark的conf目录下。
重拾梦想
·
2020-08-22 17:16
hadoop
spark
hive
sparkstreaming的参数解读
1:spark.default.parallelism设置sparkstreaming程序的并行度:2:spark.sql.shuffle.partitions设置
spark-sql
程序的并行度3:spark.scheduler.listenerbus.eventqueue.size
csy_666
·
2020-08-22 16:33
spark
sparksql两种方式的执行效率
方式一:/**使用
spark-sql
实现的*/defrhVisitor(ss:SparkSession,dt:String,per_hour:String,merchant:String):Unit={
ZH519080
·
2020-08-22 16:54
spark
解决spark driver端cpu使用率超过3000%问题
我们一部分批处理任务用的是
spark-sql
,默认只有yarnclient模式,使用yarnclient模式时driver端会成为瓶颈,有时候晚上跑批的时候大量etl任务同时跑,cpu负载过高导致机器告警
L13763338360
·
2020-08-22 16:23
spark
spark-sql
:自定义UDF函数进行敏感字段加密解密
需求一些用户数据中包含诸如用户手机号等信息,直接暴露出来的话,是违法的。。。需要对数据进行脱敏,如果单纯的将手机号替换为***号,那么就意味着丢失用户的手机号数据了,因为无法再将***变回手机号。所以需要自定义UDF函数,实现敏感数据的加密解密。这里实现了两个UDF函数,一个用于加密,一个用于解密。使用Java自带的crypto模块实现AES加密。在代码中将两个UDF函数中的SecureRando
x950913
·
2020-08-22 15:39
spark
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他