Spark-SQL 第9页

Spark SQL 函数全集

除UDF函数，均可在spark-sql中直接使用。经过importorg.apache.spark.sql.functions._，也可以用于Dataframe，

liam08·2018-03-23 09:01

[Spark] Spark LogicalPlan 逆向生成SQL语句

在使用spark进行sql分析过程中，一般是将sql语句解析成LogicalPlan查看执行计划，LogicalPlan能够帮助我们了解Spark-SQL的解析，转换，优化，映射和执行的机制。

PowerMe·2018-03-15 10:36

Spark-SQL常用的时间处理函数

Spark-SQL常用的时间处理函数Spark-SQL函数对大小写不敏感姊妹篇：Mysql常用时间处理函数yearselectyear('2018-03-0320:30:34');//2018monthselectmonth

A6__6A·2018-03-13 20:56

Mysql常用的时间处理函数

Mysql常用的时间处理函数MySQL函数对大小写不敏感姊妹篇：spark-sql常用的时间处理函数yearselectyear('2018-03-0320:30:34');//2018monthselectmonth

A6__6A·2018-03-06 22:53

HiveContext和SQLContext

org.apache.spark.SparkContext)extendsorg.apache.spark.sql.SQLContextwithorg.apache.spark.Logging{SqlContext:应该是对应spark-sql

leebhing·2018-02-25 10:31

spark-sql读取映射hbase数据的hive外部表

1.拷贝如下jar包到sparkhome/jars（spark2.0之前是sparkhome/jars（spark2.0之前是{spark_home}/lib):hbase-protocol-1.2.0-cdh5.10.2.jarhbase-client-1.2.0-cdh5.10.2.jarhbase-common-1.2.0-cdh5.10.2.jarhbase-server-1.2.0-cd

qq_37184313·2018-01-25 18:49

spark-sql读取映射hbase数据的hive外部表

之前在业务处理中建立的一个hive映射hbase数据的外部表，通过hive查询成功，但是通过spark-sql去查询报了如下错误：Error:java.lang.RuntimeException:org.apache.hadoop.hive.ql.metadata.HiveException

Sir_yuan·2017-12-27 17:35

spark-sql(四)---读写elasticsearch数据

sparksql读写elasticsearchsparksql将elasticsearch数据转换成RDD进行计算，测试下sparksql对elasticsearch的读和写的操作。1环境1.1软件环境hadoop2.7.3spark2.2elasticsearch5.6.4jdk1.81.2机器环境节点配置组件角色node1124core、16g、1块硬盘、千兆网卡hadoop、es、spark

敲码的汉子·2017-12-07 14:05

spark-sql(一)---cli模式

spark-sql是由spark官方维护，在hive的基础上修改了sql解析任务和执行任务的部分。安装环境hadoop环境（自行安装）spark2.2安装安装很简单，spark开箱即用。

敲码的汉子·2017-11-28 11:23

Spark SQL架构

通过执行计划理解上图spark-sql(default)>explainextended>select>a.key*(4+5),>b.value>from>aaajoinaab>ona.key=b.keyanda.key

A_ChunUnique·2017-11-22 20:21

每日问题记录20171114

spark-shell如果打印一个string变量，会阶段，需要使用println(xx)才能打印出全部的数值===============spark-sql如何写入数据到hive中？

轩脉刃·2017-11-14 22:00

Spark - ERROR Executor: java.lang.OutOfMemoryError: unable to create new native thread

Exceptionintaskxxxinstagexxxjava.lang.OutOfMemoryError:unabletocreatenewnativethread那么可能性非常大的原因是你当前通过spark-submit或spark-sql

chenjieit619·2017-11-06 16:06

spark 工作目录及数据本地化配置

执行spark-sql时，查询数据量超过1.7亿行，数据量大小38G，出现系统盘占用突然变高的情况检查为/tmp目录下，spark生成的临时目录占用了大量的磁盘空间，生成的spark临时文件超过15G了

ZhaoYingChao88·2017-11-03 18:58

CDH支持Spark-sql

之前用CDH5.2进行集群的搭建，现需要将CDH支持spark-sql，具体搭建请见CDH离线安装一：准备环境jdk1.7.0_79scala2.10.4maven3.3.9spark-1.1.0.tgz

Bloo_m·2017-10-23 19:29

spark-sql调优

sparksql性能调优性能优化参数在spark中，SparkSQL性能调优只要是通过下面的一些选项进行优化的：1spark.sql.codegen默认值为false，当它设置为true时，SparkSQL会把每条查询的语句在运行时编译为java的二进制代码。这有什么作用呢？它可以提高大型查询的性能，但是如果进行小规模的查询的时候反而会变慢，就是说直接用查询反而比将它编译成为java的二进制代码快

ZhaoYingChao88·2017-10-21 19:41

Spark Parquet使用

SparkSQL下的Parquet使用最佳实践和代码实战分类：spark-sql（1）一、SparkSQL下的Parquet使用最佳实践1）过去整个业界对大数据的分析的技术栈的Pipeline一般分为以下两种方式

ZhaoYingChao88·2017-10-18 15:26

CDH5.7.6支持SparkSQLThriftServer

我的场景：社区免费版CDH5.7.6、Spark要onYarn；CDH从5.5开始Sparkdistro不带ThriftServer分布式SQL引擎、以及spark-sql脚本。

DeepLearningZ·2017-09-12 18:59

spark-sql like查询

当时遇到使用两个表，需要用到like的时候，建议使用mapsidejoin或者使用sparksql的broadcastjoinsqlContext.sql("""|select*fromleftA,rightBwhereA.urllikecontact(B.url,'%')""".stripMargin)valimportantBroad=sc.broadcast(important)valpri

九指码农·2017-08-27 14:47

Spark-sql[1]-antrl4的入门以及在spark中的实现

weareallinthegutter,butsomeofusarelookingatthestars.--王尔德JustForM为了更方便分析人员使用平台，越来越多的计算框架都实现了Sql接口，有的是类sql，有的标准的sql规范，其目的就是更好的服务于分析人员。比如hive使用了antlr3实现了自己的HQL,Flink使用ApacheCalcite,而Calcite的解析器是使用JavaCC

PunyGod·2017-08-23 00:25

Spark-sql[1]-antrl4的入门以及在spark中的实现

weareallinthegutter,butsomeofusarelookingatthestars.--王尔德JustForM为了更方便分析人员使用平台，越来越多的计算框架都实现了Sql接口，有的是类sql，有的标准的sql规范，其目的就是更好的服务于分析人员。比如hive使用了antlr3实现了自己的HQL,Flink使用ApacheCalcite,而Calcite的解析器是使用JavaCC

PunyGod·2017-08-23 00:25

Spark-SQL之DataFrame创建

本篇介绍Spark-SQL之DataFrame的创建，正如学习永无止境，本篇也将不断的迭代更新。SparkSQL中的DataFrame类似于一张关系型数据表。

文哥的学习日记·2017-08-16 00:53

Spark-SQL从MySQL中加载数据以及将数据写入到mysql中（Spark Shell方式，Spark SQL程序）

1．JDBCSparkSQL可以通过JDBC从关系型数据库中读取数据的方式创建DataFrame，通过对DataFrame一系列的计算后，还可以将数据再写回关系型数据库中。1.1．从MySQL中加载数据（SparkShell方式）1.启动SparkShell，必须指定mysql连接驱动jar包[[email protected]]#bin/spark-she

toto1297488504·2017-07-11 18:32

Spark SQL RDD与DataFrames相互转换

一、spark-SQL的DataFrame与RDD的相互转换通常有两种(spark1.6.x)：第一种方式是使用反射机制推断RDD中schema和类型信息。

风筝中有风·2017-06-17 14:28

spark-sql case when 问题

SELECTCASE(pmod(datediff(f0.`4168388__c_0`,'1970-01-04'),7)+1)WHEN'1'THEN'星期日'WHEN'2'THEN'星期一'WHEN'3'THEN'星期二'WHEN'4'THEN'星期三'WHEN'5'THEN'星期四'WHEN'6'THEN'星期五'WHEN'7'THEN'星期六'ELSE'星期六'ENDASd_4168393FRO

去买大白兔·2017-05-19 21:02

spark-sql读取hive挂载alluxio

Alluxio是一个基于内存的分布式文件系统，它是架构在底层分布式文件系统和上层分布式计算框架之间的一个中间件，主要职责是以文件形式在内存或其它存储设施中提供数据的存取服务。Alluxio的前身为Tachyon在大数据领域，最底层的是分布式文件系统，如AmazonS3、ApacheHDFS等，而较高层的应用则是一些分布式计算框架，如Spark、MapReduce、Flink等，这些分布式框架，往往

九指码农·2017-05-04 07:07

Spark SQL，DataFrames和Datasets学习

在所有工作开始前，也就是在官网文档中也没有介绍的就是，在pom文件里面添加spark-sql的依赖。不知为何官网没有把这个写进去。不过google下就知道了。

shohokuooo·2017-04-23 10:34

Spark-SQL编程总结

概览SparkSQL用于处理结构化数据，与SparkRDDAPI不同，它提供更多关于数据结构信息和计算任务运行信息的接口，SparkSQL内部使用这些额外的信息完成特殊优化。可以通过SQL、DataFramesAPI、DatasetsAPI与SparkSQL进行交互，无论使用何种方式，SparkSQL使用统一的执行引擎记性处理。用户可以根据自己喜好，在不同API中选择合适的进行处理。本章中所有用例

ZhaoYingChao88·2017-03-23 12:39

Spark(四): Spark-sql 读hbase

SparkSQL是指整合了Hive的spark-sqlcli,本质上就是通过Hive访问HBase表，具体就是通过hive-hbase-handler,具体配置参见：Hive(五):hive与hbase整合目录：SparkSql访问hbase配置测试验证SparkSql访问hbase配置:拷贝HBase的相关jar包到Spark节点上的$SPARK_HOME/lib目录下，清单如下：guava-1

SunWuKong_Hadoop·2016-12-30 10:35

Spark-SQL和Hive on Spark, SqlContext和HiveContext

HiveonSpark和SparkSQL是不同的东西HiveonSpark:是除了DataBricks之外的其他几个公司搞的，想让Hive跑在Spark上;SparkSQL:Shark的后继产品,解除了不少Hive的依赖，且让SQL更加抽象通用化,支持json,parquet等格式;关于Catelog和SchemaCatelog是目录的意思，从数据库方向说，相当于就是所有数据库的集合;Schema

美伊小公主的奶爸·2016-12-22 15:53

基于spark2.0整合spark-sql + mysql + parquet + HDFS

一、概述spark2.0做出的改变大家可以参考官网以及其他资料，这里不再赘述由于spark1.x的sqlContext在spark2.0中被整合到sparkSession，故而利用spark-shell客户端操作会有些许不同，具体如下文所述二、spark额外配置1.正常配置不再赘述，这里如果需要读取MySQL数据，则需要在当前用户下的环境变量里额外加上JDBC的驱动jar包例如我的是：mysql-

CaramelCapucchino·2016-11-22 12:11

构建Scala的Maven项目

spark的scala项目Maven构建和使用一、使用spark-sql使用spark-sql--masteryarn--num-executors30--executor-memory12g二、建立项目

风行者之倾覆天下·2016-11-18 14:25

spark-sql读取hive

Spark-1.3.1与Hive整合实现查询分析操作步骤1.我们可以通过指定SPARK_CLASSPATH变量，将需要访问Hive的元数据存储MySQL的驱动包加入进去，然后直接启动SparkSQLShell即可。SPARK_CLASSPATH="$SPARK_CLASSPATH:/app/apache-hive-1.2.1-bin/lib/mysql-connector-java-5.1.38-

csdncjh·2016-11-16 15:31

Spark-sql Join优化=>(cache+BroadCast)

Spark-sqlJoin优化背景spark-sql或者hive-sql很多业务场景都会有表关联的的操作，在hive中有mapsidejoin优化，对应的在spark-sql中也有mapsidejoin

ChaosJ·2016-10-29 14:05

spark-thrift-server 执行spark-sql 的OOM GC异常.

场景: 在前端页面提交一个spark-sql,然后通过spark-thrift-server调用来执行.sql逻辑很简单,就是使用join关联两表(一个大表90G,一个小表3G)查询,前台界面执行出错

Andree·2016-10-19 10:03

spark-sql 性能测试

select*fromtw_stock_dwheret_date='20160810'2.08secondsselect*fromtw_stock_dwheret_date='20160623'2secondsselect*fromtw_stock_dwheret_date='20160810'unionallselect*fromtw_stock_dwheret_date='20160623'3

燃烧的岁月_·2016-10-19 03:37

Yarn application has already exited with state FINISHED

如果在运行spark-sql时遇到如下这样的错误，可能是因为yarn-site.xml中的配置项yarn.nodemanager.vmem-pmem-ratio值偏小，它的默认值为2.1，可以尝试改大一点再试

一见·2016-10-13 11:48

Spark-SQL之DataFrame操作大全

一、DataFrame对象的生成Spark-SQL可以以其他RDD对象、parquet文件、json文件、hive表，以及通过JDBC连接到

dabokele·2016-10-12 23:35

Spark-Sql源码解析之八 Codegen

Codegen，动态字节码技术，那么什么是动态字节码技术呢？先看来一段代码，假设SparkPlan为SortcaseclassSort(sortOrder:Seq[SortOrder],global:Boolean,child:SparkPlan)extendsUnaryNode{overridedefrequiredChildDistribution:Seq[Distribution]=if(g

亮亮-AC米兰·2016-08-12 13:58

实现CDH支持Spark SQL功能

CDH内嵌spark版本不支持spark-sql,可能是因为cloudera在推自己的impala；如果上线spark却不能使用sql这种结构化语言，对于大部分分析人员其实是很不爽的！

a822631129·2016-08-11 13:00

在IDEA中调试运行Spark SQL

昨晚想通过调试的方式阅读一下SparkSQL的源码，用spark-sql命令行需要跨进程调试，太麻烦，于是尝试了一下在IDEA中运行和调试.结果不出所料，虽然最终可以在IDEA中成功运行了，不过中间还是遇到了不少问题

美伊小公主的奶爸·2016-08-04 11:35

spark MetaException(message:Version information not found in metastore. )

bitcarmanlee·2016-07-25 17:01

Spark-Sql创建多数据源Join实例——涉及关系库数据源

Spark-Sql创建多数据源Join实例——涉及关系库数据源1、Spark-Sql数据来源有多种，Hive，Kakfa，RDD及关系库等。

kwu_ganymede·2016-05-26 16:55

Spark-Sql创建多数据源Join实例——涉及关系库数据源

Spark-Sql创建多数据源Join实例——涉及关系库数据源1、Spark-Sql数据来源有多种，Hive，Kakfa，RDD及关系库等。

kwu_ganymede·2016-05-26 16:00

Spark SQL/Hive 同一列的多行记录合并为一行

（第一列用户id，第二列商店id，第三列地区id，第四列日期）spark-sql>select*fromtest;10277654822172201510281027765482217220151026881482482217220151129102776

光于前裕于后·2016-05-26 16:21

Spark On Yarn中spark.yarn.jar属性的使用

SparkOnYarn中spark.yarn.jar属性的使用http://www.cnblogs.com/luogankun/p/4191796.html今天在测试spark-sql运行在yarn上的过程中

SIMONE·2016-05-26 14:00

Spark中文手册7：Spark-sql由入门到精通【续】

问题导读1.sqlContext.cacheTable("tableName")与sqlContext.uncacheTable("tableName")它们的作用是什么？2.SparkSQLCLI的作用是什么？3.SparkSQL数据类型有哪些。如何访问它们？性能调优对于某些工作负载，可以在通过在内存中缓存数据或者打开一些实验选项来提高性能。在内存中缓存数据SparkSQL可以通过调用sqlCo

wanmeilingdu·2016-05-09 21:00

Spark中文手册6：Spark-sql由入门到精通

问题导读1、什么是SparkContext？2、如何配置Parquet？3、如何高效的从ApacheHive中读出和写入数据？（一）开始Spark中所有相关功能的入口点是SQLContext类或者它的子类，创建一个SQLContext的所有需要仅仅是一个SparkContext。valsc:SparkContext//AnexistingSparkContext.valsqlContext=new

wanmeilingdu·2016-05-09 21:00

Spark-Sql之DataFrame实战详解

在Spark-1.3新加的最重要的新特性之一DataFrame的引入，很类似在R语言中的DataFrame的操作，使得Spark-Sql更稳定高效。

kwu_ganymede·2016-05-07 15:00

spark读取oracle的

刚开始使用spark-sql，首先看了一部分的源码。然后开始着手程序的编写。

九指码农·2016-05-05 15:18

spark读取oracle的

刚开始使用spark-sql，首先看了一部分的源码。然后开始着手程序的编写。

qq_14950717·2016-05-05 15:00

推荐频道

Spark-SQL

Spark SQL 函数全集

[Spark] Spark LogicalPlan 逆向生成SQL语句

Spark-SQL常用的时间处理函数

Mysql常用的时间处理函数

HiveContext和SQLContext

spark-sql读取映射hbase数据的hive外部表

spark-sql读取映射hbase数据的hive外部表

spark-sql(四)---读写elasticsearch数据

spark-sql(一)---cli模式

Spark SQL架构

每日问题记录20171114

Spark - ERROR Executor: java.lang.OutOfMemoryError: unable to create new native thread

spark 工作目录及数据本地化配置

CDH支持Spark-sql

spark-sql调优

Spark Parquet使用

CDH5.7.6支持SparkSQLThriftServer

spark-sql like查询

Spark-sql[1]-antrl4的入门以及在spark中的实现

Spark-sql[1]-antrl4的入门以及在spark中的实现

Spark-SQL之DataFrame创建

Spark-SQL从MySQL中加载数据以及将数据写入到mysql中（Spark Shell方式，Spark SQL程序）

Spark SQL RDD与DataFrames相互转换

spark-sql case when 问题

spark-sql读取hive挂载alluxio

Spark SQL，DataFrames和Datasets学习

Spark-SQL编程总结

Spark(四): Spark-sql 读hbase

Spark-SQL和Hive on Spark, SqlContext和HiveContext

基于spark2.0整合spark-sql + mysql + parquet + HDFS

构建Scala的Maven项目

spark-sql读取hive

Spark-sql Join优化=>(cache+BroadCast)

spark-thrift-server 执行spark-sql 的OOM GC异常.

spark-sql 性能测试

Yarn application has already exited with state FINISHED

Spark-SQL之DataFrame操作大全

Spark-Sql源码解析之八 Codegen

实现CDH支持Spark SQL功能

在IDEA中调试运行Spark SQL

spark MetaException(message:Version information not found in metastore. )

Spark-Sql创建多数据源Join实例——涉及关系库数据源

Spark-Sql创建多数据源Join实例——涉及关系库数据源

Spark SQL/Hive 同一列的多行记录合并为一行

Spark On Yarn中spark.yarn.jar属性的使用

Spark中文手册7：Spark-sql由入门到精通【续】

Spark中文手册6：Spark-sql由入门到精通

Spark-Sql之DataFrame实战详解

spark读取oracle的

spark读取oracle的