E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Spark-SQL
Spark - SQL查询文件数据
那么我们可以利用
spark-sql
直接操作文件的特性处理这类的需求,姐姐再也不用担心我不会spark了,因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.
kikiki4
·
2019-12-27 02:54
无标题文章
最近失业在家,搞点好玩的,于是看看能不能给apachespark做个ruby的api,毕竟python都有了,ruby应该也能做,何况还有JRuby.因为用
spark-sql
比较多,就先试试
spark-sql
liprails
·
2019-11-04 20:04
Spark kyro Serialization
spark-sql
中默认使用的是kyro的序
breeze_lsw
·
2019-11-01 08:17
Spark 系列(九)—— Spark SQL 之 Structured API
示例如下:valspark=SparkSession.builder().appName("
Spark-SQL
").master(
heibaiying
·
2019-09-23 08:36
Spark
Spark
记一次Spark中 Container killed by YARN for exceeding memory limits的解决过程
:ContainerkilledbyYARNforexceedingmemorylimits使用spark命令:/opt/software/spark-2.2.0-bin-hadoop2.6/bin/
spark-sql
微步229
·
2019-09-16 10:55
Container
killed
by
YARN
for
e
Spark
Spark
生产案例
8.推荐系统之Spark Streaming
一.sparkStreaming概述1.1SparkStreaming它是一个可扩展,高吞吐具有容错性的流式计算框架吞吐量:单位时间内成功传输数据的数量之前学习过的spark-core和
spark-sql
Sssssss_A
·
2019-08-27 11:39
推荐系统
hive优化
hive在极大数据或者数据不平衡等情况下,表现往往一般,因此也出现了presto、
spark-sql
等替代品。今天不谈其它,就来说说关于hive,个人的一点心得。
ChinaJoeEE
·
2019-08-13 10:12
hadoop
hive优化
hive在极大数据或者数据不平衡等情况下,表现往往一般,因此也出现了presto、
spark-sql
等替代品。今天不谈其它,就来说说关于hive,个人的一点心得。
ChinaJoeEE
·
2019-08-13 10:12
hadoop
Spark 系列(九)—— Spark SQL 之 Structured API
示例如下:valspark=SparkSession.builder().appName("
Spark-SQL
").master(
黑白影
·
2019-08-13 07:00
Spark-SQL-Python编程
使用Pycharm来实现
Spark-SQL
。
dlphay
·
2019-08-11 16:28
大数据
pyspark
SQL
SQL-DQL
我们在MySQL和
Spark-SQL
使用过程中,常用的DQL如下。
dlphay
·
2019-08-09 16:13
大数据
SQL
【2019-07-29】spark 1.5不支持函数replace
问题描述spark1.5中,使用
spark-sql
无法使用replace函数问题原因目前版本兼容性问题解决措施spark不支持replace函数。使用regexp_replace替代。
学师大术
·
2019-07-30 10:11
【scala报错】报错Error:scalac: missing or invalid dependency detected while loading class file '**.class'
在idea里写好scala,
spark-sql
的脚本,运行时报这个错是说maven配依赖时下载那个Dataset.class文件时出错,
spark-sql
在1.6版本及之后就是Dataset,那就是关键的函数包没下载好了
Jacquelin_1
·
2019-06-03 17:33
scala
Spark-SQL
性能优化
性能优化1、设置Shuffle过程中的并行度:spark.sql.shuffle.partitions(SQLContext.setConf())2、在Hive数据仓库建设过程中,合理设置数据类型,比如能设置为INT的,就不要设置为BIGINT。减少数据类型导致的不必要的内存开销。3、编写SQL时,尽量给出明确的列名,比如selectnamefromstudents。不要写select*的方式。4
S_Running_snail
·
2019-04-13 14:43
spark
Spark-SQL
之JDBC数据源
JDBC数据源SparkSQL支持使用JDBC从关系型数据库(比如MySQL)中读取数据。读取的数据,依然由DataFrame表示,可以很方便地使用SparkCore提供的各种算子进行处理。创建方式:查询时连接Mysql:用SparkSQL处理JDBC中的数据是非常有用的。比如说,你的MySQL业务数据库中,有大量的数据,比如1000万,然后,你现在需要编写一个程序,对线上的脏数据某种复杂业务逻辑
S_Running_snail
·
2019-04-13 13:56
spark
Spark-SQL
之RDD转换为DataFrame
案例:(最下面)一、以编程方式动态指定元数据,将RDD转换为DataFrame-->>RDD2DataFrameProgrammatically二、使用反射的方式将RDD->>DataFrame-->>RDD2DataFrameReflectRDD转换为DataFrame之后的话,我们就可以直接针对HDFS等任何可以构建为RDD的数据,使用SparkSQL进行SQL查询了。这个功能是无比强大的。这
S_Running_snail
·
2019-04-13 13:04
spark
史上最简单的spark教程第九章-SparkSQL编程Java案例实践(一)斗图王来辣
Spark-SQL
的Java实践案例史上最简单的spark教程所有代码示例地址:https://github.com/Mydreamandreality/sparkResearch(提前声明:文章由作者
李时珍皮啊
·
2019-03-27 18:52
#
spark
#
大数据
拥抱大数据
CHD的impala实现hive和hbase数据查询
cdh版本安装
spark-sql
比较复杂,cdh主推impala,可以方便进行查询启动命令:impala-shell可以直接进行hive操作。
jin6872115
·
2019-03-01 10:14
Hbase
hive
集群小文件太多问题(
spark-sql
优化)
hive外部分区表,每个分区下有200个小文件某张表有三个分区字段(partition_brand,partition_date,partition_rssc)则生成小文件个数:2*26*8*200=83,200这个表还算一般,如果按照年月日进行分区的话,小文件就太多了先查看集群动态资源配置:再查看执行spark程序配置资源:--driver-memory30g\--executor-memory
lhxsir
·
2019-02-22 17:26
spark
Spark-Sql
一行变多行explode使用
原数据如下:+--------------+------------+----------+|from_city_name|to_city_name|search_num|+--------------+------------+----------+|无锡市|漯河市|3||南部县|库尔勒市|3||石家庄市|开封市|2||深圳市|成都市|55||贵阳市|丽水市|7||东营市|淄博市|1||南充市|
小白鸽
·
2019-01-30 11:49
Spark
org.apache.spark.sql.catalyst.errors.package$TreeNodeException: execute, tree:
举个例子:用
spark-sql
读取hive和hbase相互映射的表,如果不一步步排查,那么就会抱着个错,可以选择什么都不做,直接select*fromtablename
Mr_Peter_c
·
2019-01-24 11:09
Linux
spark-sql
的进阶案例
(1)骨灰级案例--UDTF求wordcount数据格式:每一行都是字符串并且以空格分开。代码实现:objectSparkSqlTest{defmain(args:Array[String]):Unit={//屏蔽多余的日志Logger.getLogger("org.apache.hadoop").setLevel(Level.WARN)Logger.getLogger("org.apache.s
原生zzy
·
2019-01-05 23:41
spark
sql
实战
spark
spark-sql
自定义函数
(1)自定义UDFobjectSparkSqlTest{defmain(args:Array[String]):Unit={//屏蔽多余的日志Logger.getLogger("org.apache.hadoop").setLevel(Level.WARN)Logger.getLogger("org.apache.spark").setLevel(Level.WARN)Logger.getLogg
原生zzy
·
2019-01-05 22:14
spark
sql
自定义
spark
Spark-SQL
的具体编程场景
入门案例:objectSparkSqlTest{defmain(args:Array[String]):Unit={//屏蔽多余的日志Logger.getLogger("org.apache.hadoop").setLevel(Level.WARN)Logger.getLogger("org.apache.spark").setLevel(Level.WARN)Logger.getLogger("
原生zzy
·
2019-01-05 20:30
Spark
SQL
编程
spark
spark-sql
的概述以及编程模型的介绍
1、sparksql的概述(1)sparksql的介绍: SparkSQL是Spark用来处理结构化数据(结构化数据可以来自外部结构化数据源也可以通过RDD获取)的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。 外部的结构化数据源包括JSON、Parquet(默认)、RMDBS、Hive等。当前SparkSQL使用Catalyst优化器来对SQL进行优
原生zzy
·
2019-01-05 12:09
spark
sql
spark
Spark SQL和Hive在处理日期/时间上的差异
但是SQL开发好在程序执行时通过
Spark-SQL
来运行的,SQL可以成功执行,没有报出任何语法错误,但是没有任何结果数据!在经过仔细查询
bluishglc
·
2018-12-27 12:22
大数据专题
spark-sql
的几种创建方式
Spark1.x//sparksql用来处理结构化数据类似数据库中的表一样存储数据Spark1.xvalsc=newSparkContext(conf)valsqlContext=newSQLContext(sc)//将RDD和schema信息关联到一起,1.RDD和caseclass2.RDD和StructType//caseclassPerson将RDD中的数据转换成caseclass属性相对
LJ2415
·
2018-12-15 21:14
spark-sql
spark-shell与
spark-sql
的访问hive
1.spark-shell的使用:安装完spark之后,将spark/bin的路径配置到本地文件,即可不需要进入spark/bin目录下启动任务1)直接打开,运行以下命令会发现无法访问hive表的数据:spark-shell--masterlocal[2]spark.sql("showtables").show()2)将hive/conf目录下的hive-site.xml文件拷贝到spark/co
翰文不是瀚
·
2018-11-22 23:10
hive
spark
Spark-SQL
解析
文章目录
Spark-SQL
解析Antlr4一、简介1.词法分析阶段(lexicalanalysis)2.解析阶段二、语法三、编译四、遍历模式1.Listener(观察者模式)2.Visitor(访问者模式
Echo Lee.
·
2018-10-30 19:04
spark
Spark2.3.1使用技巧
Spark2.3.1使用技巧
Spark-SQL
读取JSON文件时反射表头caseclassStudentInfo(id:Long,name:String,age:Int)valexample=spark.read.json
笨兔儿
·
2018-10-09 00:00
spark
Spark DataFrame常用操作
Spark-SQL
之DataFrame操作大全下面是其中没有包含的内容,工作中比较常用,总结在这里:1、正则匹配valapp_
简之
·
2018-09-21 23:39
大数据
spark dataframe 全局排名优化
原文开源中国osenlinApacheSparkspark提供给我们的全局排序,默认情况下只有
spark-sql
提供的窗口函数,但如果窗口是整个表eg:row_number()over(orderbya
我还在等你回家
·
2018-09-03 16:39
spark-sql
执行hivesql
spark提交命令有spark-shell、spark-submit、
spark-sql
,
spark-sql
的提交命令很少见吧,不过已经被我发掘出来了。
大灰狼学编程
·
2018-08-27 14:02
大数据
spring-boot集成spark并使用
spark-sql
首先添加相关依赖:4.0.0org.springframework.bootspring-boot-starter-parent1.5.6.RELEASEcom.cordspark-example1.0-SNAPSHOTspark-examplehttp://www.example.comUTF-8UTF-81.82.10.31.81.8org.springframework.bootspring
堕落门徒
·
2018-08-24 16:00
在IDEA中调试运行Spark SQL
2016年08月04日11:07:35阅读数:4630昨晚想通过调试的方式阅读一下SparkSQL的源码,用
spark-sql
命令行需要跨进程调试,太麻烦,于是尝试了一下在IDEA中运行和调试.结果不出所料
cjlion
·
2018-07-27 11:29
Spark之DataFrame操作大全
一、DataFrame对象的生成
Spark-SQL
可以以其他RDD对象、parquet文件、json文件、Hive表,以及通过JDBC连
SuperBoy_Liang
·
2018-07-23 17:31
spark
Hadoop相关
14.4
Spark-SQL
基于Cassandra数据分析编程实例
14.4Spark-SQL基于Cassandra数据分析编程实例“卜算子·大数据”一个开源、成体系的大数据学习教程。——每周日更新本节主要内容:Spark对Canssandra数据库数据的处理,通过SparkSQL对结构化数据进行数据分析。创建Gradle项目,引入依赖创建SparkSession连接写入Cassandra数据库读取Cassandra数据库Spark注册SQL临时视图执行Disti
王小雷-多面手
·
2018-07-15 22:39
Spark
Cassandra
大数据
14.3
Spark-SQL
基于PostgreSQL数据分析编程实例
14.3Spark-SQL基于PostgreSQL数据分析编程实例“卜算子·大数据”一个开源、成体系的大数据学习教程。——每周日更新本节主要内容:Spark对PostgreSQL数据源数据的处理,通过SparkSQL对结构化数据进行数据分析。创建Gradle项目,引入依赖创建连接读数据库写数据库完整源码Spark2PostgreSQL.java完整项目源码14.3.1引入依赖compilegrou
王小雷-多面手
·
2018-07-15 22:35
Spark
大数据
[Spark]-结构化数据查询之数据源篇
7.数据源
Spark-SQL
支持通过Dataframe接口对各种数据源进行操作各种数据源的加载&保存数据转换(relationaltransformations)注册临时视图(temporaryview
weixin_30323631
·
2018-07-05 00:00
json
数据库
java
HBase实战(6):使用Spark 2.2.1 直接操作HBASE 1.2.0数据库
点击打开链接使用
spark-sql
工具通过Hive间接操作Hbase的数据。点击打开链接使用Hive-sql操作Hbase数据。点击打
段智华
·
2018-06-15 15:37
AI
&
Big
Data案例实战课程
SPARK2.2 DATAFRAME的一些算子操作
一、DataFrame对象的生成
Spark-SQL
可以以其他RDD对象、parquet文件、json文件、Hive表,以及通过JDBC连
DemonHunter211
·
2018-05-25 16:32
Hadoop
Spark实战(6)_
spark-sql
-e -f -i命令的整合和
spark-sql
日常作业开发流程总结
背景介绍在日常工作中,我们可以在一个shell脚本里面利用spark-sql-e执行sql脚本,而且可以传参数,但是存在一个问题,shell脚本对格式要求严格,而且shell脚本和
spark-sql
的脚本混在一起
padluo
·
2018-05-24 21:58
Hadoop
Hadoop
Spark 2.3.0 Spark SQL, Datasets, and DataFrames 学习笔记
你也可以通过使用
spark-sql
命令行或jdbc/odbc服务进行sql操作。1.2Datasets和DataFramesDat
hjbbjh0521
·
2018-05-24 15:58
spark
(RDD)Cache 缓存使用详解
A:spark-code里面的cache是lazy的,
spark-sql
里面的是legal的3)缓存类型NONE:什么类型都不是DISK_ONLY:磁盘DISK_ONLY_2:磁盘双副
qq_30130043
·
2018-05-14 21:20
spark-sql
学习——官网文档
综述
spark-sql
是spark生态圈中操作结构化数据的一个模块。
FisherWang_CN
·
2018-04-20 14:03
spark
SparkSession中出现Exception in thread "main" java.lang.AbstractMethodError
SparkSession时,出现异常:Exceptioninthread"main"java.lang.AbstractMethodError2.查看pom.xml文件,是否是因为spark-core和
spark-sql
LittleLawson
·
2018-04-17 21:39
Spark
spark -SQL 配置参数
Spark-Sql
的参数调优:官网:http://spark.apache.org/docs/latest/sql-programming-guide.html缓存表参考:https://blog.csdn.net
点点渔火
·
2018-04-15 17:41
spark -
Spark-sql
, DataFrame,DataSet名词解释
阅读更多1.什么是
spark-sql
?
功夫小当家
·
2018-04-07 16:00
spark
sql
dataframe
api
Spark SQL 函数全集
除UDF函数,均可在
spark-sql
中直接使用。经过importorg.apache.spark.sql.functions._,也可以用于Dataframe,
liam08
·
2018-03-23 09:01
Spark
[Spark] Spark LogicalPlan 逆向生成SQL语句
在使用spark进行sql分析过程中,一般是将sql语句解析成LogicalPlan查看执行计划,LogicalPlan能够帮助我们了解
Spark-SQL
的解析,转换,优化,映射和执行的机制。
PowerMe
·
2018-03-15 10:36
上一页
4
5
6
7
8
9
10
11
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他