spark-sql 第8页

Spark - SQL查询文件数据

那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.

kikiki4·2019-12-27 02:54

无标题文章

最近失业在家，搞点好玩的，于是看看能不能给apachespark做个ruby的api,毕竟python都有了，ruby应该也能做，何况还有JRuby.因为用spark-sql比较多，就先试试spark-sql

liprails·2019-11-04 20:04

Spark kyro Serialization

spark-sql中默认使用的是kyro的序

breeze_lsw·2019-11-01 08:17

Spark 系列（九）—— Spark SQL 之 Structured API

示例如下：valspark=SparkSession.builder().appName("Spark-SQL").master(

heibaiying·2019-09-23 08:36

记一次Spark中 Container killed by YARN for exceeding memory limits的解决过程

：ContainerkilledbyYARNforexceedingmemorylimits使用spark命令：/opt/software/spark-2.2.0-bin-hadoop2.6/bin/spark-sql

微步229·2019-09-16 10:55

8.推荐系统之Spark Streaming

一.sparkStreaming概述1.1SparkStreaming它是一个可扩展，高吞吐具有容错性的流式计算框架吞吐量：单位时间内成功传输数据的数量之前学习过的spark-core和spark-sql

Sssssss_A·2019-08-27 11:39

hive优化

hive在极大数据或者数据不平衡等情况下，表现往往一般，因此也出现了presto、spark-sql等替代品。今天不谈其它，就来说说关于hive，个人的一点心得。

ChinaJoeEE·2019-08-13 10:12

hive优化

hive在极大数据或者数据不平衡等情况下，表现往往一般，因此也出现了presto、spark-sql等替代品。今天不谈其它，就来说说关于hive，个人的一点心得。

ChinaJoeEE·2019-08-13 10:12

Spark 系列（九）—— Spark SQL 之 Structured API

示例如下：valspark=SparkSession.builder().appName("Spark-SQL").master(

黑白影·2019-08-13 07:00

Spark-SQL-Python编程

使用Pycharm来实现Spark-SQL。

dlphay·2019-08-11 16:28

SQL-DQL

我们在MySQL和Spark-SQL使用过程中，常用的DQL如下。

dlphay·2019-08-09 16:13

【2019-07-29】spark 1.5不支持函数replace

问题描述spark1.5中，使用spark-sql无法使用replace函数问题原因目前版本兼容性问题解决措施spark不支持replace函数。使用regexp_replace替代。

学师大术·2019-07-30 10:11

【scala报错】报错Error:scalac: missing or invalid dependency detected while loading class file '**.class'

在idea里写好scala，spark-sql的脚本，运行时报这个错是说maven配依赖时下载那个Dataset.class文件时出错，spark-sql在1.6版本及之后就是Dataset，那就是关键的函数包没下载好了

Jacquelin_1·2019-06-03 17:33

Spark-SQL性能优化

性能优化1、设置Shuffle过程中的并行度：spark.sql.shuffle.partitions（SQLContext.setConf()）2、在Hive数据仓库建设过程中，合理设置数据类型，比如能设置为INT的，就不要设置为BIGINT。减少数据类型导致的不必要的内存开销。3、编写SQL时，尽量给出明确的列名，比如selectnamefromstudents。不要写select*的方式。4

S_Running_snail·2019-04-13 14:43

Spark-SQL之JDBC数据源

JDBC数据源SparkSQL支持使用JDBC从关系型数据库（比如MySQL）中读取数据。读取的数据，依然由DataFrame表示，可以很方便地使用SparkCore提供的各种算子进行处理。创建方式：查询时连接Mysql：用SparkSQL处理JDBC中的数据是非常有用的。比如说，你的MySQL业务数据库中，有大量的数据，比如1000万，然后，你现在需要编写一个程序，对线上的脏数据某种复杂业务逻辑

S_Running_snail·2019-04-13 13:56

Spark-SQL之RDD转换为DataFrame

案例：（最下面）一、以编程方式动态指定元数据，将RDD转换为DataFrame-->>RDD2DataFrameProgrammatically二、使用反射的方式将RDD->>DataFrame-->>RDD2DataFrameReflectRDD转换为DataFrame之后的话，我们就可以直接针对HDFS等任何可以构建为RDD的数据，使用SparkSQL进行SQL查询了。这个功能是无比强大的。这

S_Running_snail·2019-04-13 13:04

史上最简单的spark教程第九章-SparkSQL编程Java案例实践(一)斗图王来辣

Spark-SQL的Java实践案例史上最简单的spark教程所有代码示例地址:https://github.com/Mydreamandreality/sparkResearch(提前声明:文章由作者

李时珍皮啊·2019-03-27 18:52

CHD的impala实现hive和hbase数据查询

cdh版本安装spark-sql比较复杂，cdh主推impala，可以方便进行查询启动命令：impala-shell可以直接进行hive操作。

jin6872115·2019-03-01 10:14

集群小文件太多问题（spark-sql优化）

hive外部分区表，每个分区下有200个小文件某张表有三个分区字段（partition_brand,partition_date,partition_rssc）则生成小文件个数：2*26*8*200=83,200这个表还算一般，如果按照年月日进行分区的话，小文件就太多了先查看集群动态资源配置：再查看执行spark程序配置资源：--driver-memory30g\--executor-memory

lhxsir·2019-02-22 17:26

Spark-Sql一行变多行explode使用

原数据如下：+--------------+------------+----------+|from_city_name|to_city_name|search_num|+--------------+------------+----------+|无锡市|漯河市|3||南部县|库尔勒市|3||石家庄市|开封市|2||深圳市|成都市|55||贵阳市|丽水市|7||东营市|淄博市|1||南充市|

小白鸽·2019-01-30 11:49

org.apache.spark.sql.catalyst.errors.package$TreeNodeException: execute, tree:

举个例子：用spark-sql读取hive和hbase相互映射的表，如果不一步步排查，那么就会抱着个错，可以选择什么都不做，直接select*fromtablename

Mr_Peter_c·2019-01-24 11:09

spark-sql的进阶案例

（1）骨灰级案例--UDTF求wordcount数据格式：每一行都是字符串并且以空格分开。代码实现：objectSparkSqlTest{defmain(args:Array[String]):Unit={//屏蔽多余的日志Logger.getLogger("org.apache.hadoop").setLevel(Level.WARN)Logger.getLogger("org.apache.s

原生zzy·2019-01-05 23:41

spark-sql 自定义函数

（1）自定义UDFobjectSparkSqlTest{defmain(args:Array[String]):Unit={//屏蔽多余的日志Logger.getLogger("org.apache.hadoop").setLevel(Level.WARN)Logger.getLogger("org.apache.spark").setLevel(Level.WARN)Logger.getLogg

原生zzy·2019-01-05 22:14

Spark-SQL的具体编程场景

入门案例：objectSparkSqlTest{defmain(args:Array[String]):Unit={//屏蔽多余的日志Logger.getLogger("org.apache.hadoop").setLevel(Level.WARN)Logger.getLogger("org.apache.spark").setLevel(Level.WARN)Logger.getLogger("

原生zzy·2019-01-05 20:30

spark-sql的概述以及编程模型的介绍

1、sparksql的概述（1）sparksql的介绍： SparkSQL是Spark用来处理结构化数据（结构化数据可以来自外部结构化数据源也可以通过RDD获取）的一个模块，它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。外部的结构化数据源包括JSON、Parquet(默认)、RMDBS、Hive等。当前SparkSQL使用Catalyst优化器来对SQL进行优

原生zzy·2019-01-05 12:09

Spark SQL和Hive在处理日期/时间上的差异

但是SQL开发好在程序执行时通过Spark-SQL来运行的，SQL可以成功执行，没有报出任何语法错误，但是没有任何结果数据！在经过仔细查询

bluishglc·2018-12-27 12:22

spark-sql的几种创建方式

Spark1.x//sparksql用来处理结构化数据类似数据库中的表一样存储数据Spark1.xvalsc=newSparkContext(conf)valsqlContext=newSQLContext(sc)//将RDD和schema信息关联到一起,1.RDD和caseclass2.RDD和StructType//caseclassPerson将RDD中的数据转换成caseclass属性相对

LJ2415·2018-12-15 21:14

spark-shell与spark-sql的访问hive

1.spark-shell的使用：安装完spark之后，将spark/bin的路径配置到本地文件，即可不需要进入spark/bin目录下启动任务1）直接打开，运行以下命令会发现无法访问hive表的数据：spark-shell--masterlocal[2]spark.sql("showtables").show()2）将hive/conf目录下的hive-site.xml文件拷贝到spark/co

翰文不是瀚·2018-11-22 23:10

Spark-SQL解析

文章目录Spark-SQL解析Antlr4一、简介1.词法分析阶段（lexicalanalysis)2.解析阶段二、语法三、编译四、遍历模式1.Listener（观察者模式）2.Visitor（访问者模式

Echo Lee.·2018-10-30 19:04

Spark2.3.1使用技巧

Spark2.3.1使用技巧Spark-SQL读取JSON文件时反射表头caseclassStudentInfo(id:Long,name:String,age:Int)valexample=spark.read.json

笨兔儿·2018-10-09 00:00

Spark DataFrame常用操作

Spark-SQL之DataFrame操作大全下面是其中没有包含的内容，工作中比较常用，总结在这里：1、正则匹配valapp_

简之·2018-09-21 23:39

spark dataframe 全局排名优化

原文开源中国osenlinApacheSparkspark提供给我们的全局排序，默认情况下只有spark-sql提供的窗口函数，但如果窗口是整个表eg：row_number()over(orderbya

我还在等你回家·2018-09-03 16:39

spark-sql执行hivesql

spark提交命令有spark-shell、spark-submit、spark-sql，spark-sql的提交命令很少见吧，不过已经被我发掘出来了。

大灰狼学编程·2018-08-27 14:02

spring-boot集成spark并使用spark-sql

堕落门徒·2018-08-24 16:00

在IDEA中调试运行Spark SQL

2016年08月04日11:07:35阅读数：4630昨晚想通过调试的方式阅读一下SparkSQL的源码，用spark-sql命令行需要跨进程调试，太麻烦，于是尝试了一下在IDEA中运行和调试.结果不出所料

cjlion·2018-07-27 11:29

Spark之DataFrame操作大全

一、DataFrame对象的生成Spark-SQL可以以其他RDD对象、parquet文件、json文件、Hive表，以及通过JDBC连

SuperBoy_Liang·2018-07-23 17:31

14.4 Spark-SQL基于Cassandra数据分析编程实例

14.4Spark-SQL基于Cassandra数据分析编程实例“卜算子·大数据”一个开源、成体系的大数据学习教程。——每周日更新本节主要内容：Spark对Canssandra数据库数据的处理，通过SparkSQL对结构化数据进行数据分析。创建Gradle项目，引入依赖创建SparkSession连接写入Cassandra数据库读取Cassandra数据库Spark注册SQL临时视图执行Disti

王小雷-多面手·2018-07-15 22:39

14.3 Spark-SQL基于PostgreSQL数据分析编程实例

14.3Spark-SQL基于PostgreSQL数据分析编程实例“卜算子·大数据”一个开源、成体系的大数据学习教程。——每周日更新本节主要内容：Spark对PostgreSQL数据源数据的处理，通过SparkSQL对结构化数据进行数据分析。创建Gradle项目，引入依赖创建连接读数据库写数据库完整源码Spark2PostgreSQL.java完整项目源码14.3.1引入依赖compilegrou

王小雷-多面手·2018-07-15 22:35

[Spark]-结构化数据查询之数据源篇

7.数据源Spark-SQL支持通过Dataframe接口对各种数据源进行操作各种数据源的加载&保存数据转换(relationaltransformations)注册临时视图(temporaryview

weixin_30323631·2018-07-05 00:00

HBase实战（6）：使用Spark 2.2.1 直接操作HBASE 1.2.0数据库

点击打开链接使用spark-sql工具通过Hive间接操作Hbase的数据。点击打开链接使用Hive-sql操作Hbase数据。点击打

段智华·2018-06-15 15:37

SPARK2.2 DATAFRAME的一些算子操作

一、DataFrame对象的生成Spark-SQL可以以其他RDD对象、parquet文件、json文件、Hive表，以及通过JDBC连

DemonHunter211·2018-05-25 16:32

Spark实战（6）_spark-sql -e -f -i命令的整合和spark-sql日常作业开发流程总结

背景介绍在日常工作中，我们可以在一个shell脚本里面利用spark-sql-e执行sql脚本，而且可以传参数，但是存在一个问题，shell脚本对格式要求严格，而且shell脚本和spark-sql的脚本混在一起

padluo·2018-05-24 21:58

Spark 2.3.0 Spark SQL, Datasets, and DataFrames 学习笔记

你也可以通过使用spark-sql命令行或jdbc/odbc服务进行sql操作。1.2Datasets和DataFramesDat

hjbbjh0521·2018-05-24 15:58

（RDD）Cache 缓存使用详解

A：spark-code里面的cache是lazy的，spark-sql里面的是legal的3）缓存类型NONE:什么类型都不是DISK_ONLY：磁盘DISK_ONLY_2：磁盘双副

qq_30130043·2018-05-14 21:20

spark-sql学习——官网文档

综述spark-sql是spark生态圈中操作结构化数据的一个模块。

FisherWang_CN·2018-04-20 14:03

SparkSession中出现Exception in thread "main" java.lang.AbstractMethodError

SparkSession时，出现异常：Exceptioninthread"main"java.lang.AbstractMethodError2.查看pom.xml文件，是否是因为spark-core和spark-sql

LittleLawson·2018-04-17 21:39

spark -SQL 配置参数

Spark-Sql的参数调优：官网：http://spark.apache.org/docs/latest/sql-programming-guide.html缓存表参考：https://blog.csdn.net

点点渔火·2018-04-15 17:41

spark - Spark-sql， DataFrame，DataSet名词解释

阅读更多1.什么是spark-sql？

功夫小当家·2018-04-07 16:00

Spark SQL 函数全集

除UDF函数，均可在spark-sql中直接使用。经过importorg.apache.spark.sql.functions._，也可以用于Dataframe，

liam08·2018-03-23 09:01

[Spark] Spark LogicalPlan 逆向生成SQL语句

在使用spark进行sql分析过程中，一般是将sql语句解析成LogicalPlan查看执行计划，LogicalPlan能够帮助我们了解Spark-SQL的解析，转换，优化，映射和执行的机制。

PowerMe·2018-03-15 10:36

推荐频道

spark-sql

Spark - SQL查询文件数据

无标题文章

Spark kyro Serialization

Spark 系列（九）—— Spark SQL 之 Structured API

记一次Spark中 Container killed by YARN for exceeding memory limits的解决过程

8.推荐系统之Spark Streaming

hive优化

hive优化

Spark 系列（九）—— Spark SQL 之 Structured API

Spark-SQL-Python编程

SQL-DQL

【2019-07-29】spark 1.5不支持函数replace

【scala报错】报错Error:scalac: missing or invalid dependency detected while loading class file '**.class'

Spark-SQL性能优化

Spark-SQL之JDBC数据源

Spark-SQL之RDD转换为DataFrame

史上最简单的spark教程第九章-SparkSQL编程Java案例实践(一)斗图王来辣

CHD的impala实现hive和hbase数据查询

集群小文件太多问题（spark-sql优化）

Spark-Sql一行变多行explode使用

org.apache.spark.sql.catalyst.errors.package$TreeNodeException: execute, tree:

spark-sql的进阶案例

spark-sql 自定义函数

Spark-SQL的具体编程场景

spark-sql的概述以及编程模型的介绍

Spark SQL和Hive在处理日期/时间上的差异

spark-sql的几种创建方式

spark-shell与spark-sql的访问hive

Spark-SQL解析

Spark2.3.1使用技巧

Spark DataFrame常用操作

spark dataframe 全局排名优化

spark-sql执行hivesql

spring-boot集成spark并使用spark-sql

在IDEA中调试运行Spark SQL

Spark之DataFrame操作大全

14.4 Spark-SQL基于Cassandra数据分析编程实例

14.3 Spark-SQL基于PostgreSQL数据分析编程实例

[Spark]-结构化数据查询之数据源篇

HBase实战（6）：使用Spark 2.2.1 直接操作HBASE 1.2.0数据库

SPARK2.2 DATAFRAME的一些算子操作

Spark实战（6）_spark-sql -e -f -i命令的整合和spark-sql日常作业开发流程总结

Spark 2.3.0 Spark SQL, Datasets, and DataFrames 学习笔记

（RDD）Cache 缓存使用详解

spark-sql学习——官网文档

SparkSession中出现Exception in thread "main" java.lang.AbstractMethodError

spark -SQL 配置参数

spark - Spark-sql， DataFrame，DataSet名词解释

Spark SQL 函数全集

[Spark] Spark LogicalPlan 逆向生成SQL语句