Spark-SQL 第4页

SparkSQL的shell命令

driver-java-options"-Dspark.driver.port=4050"--confspark.sql.warehouse.dir=hdfs://ip:8020/user/hive/warehouse或者最简单的spark-sql

汤圆毛毛·2021-06-10 05:50

[喵咪大数据]Presto查询引擎

如果大家正在按照笔者的教程尝试使用大数据组件还是之前有使用过相关的组件,大家会发现一个问题HIVE在负责的查询下调用Mapreduce会很慢,在这个场景下就涌现出很多查询引擎来优化,比如大家熟悉的Spark-SQL

文振熙·2021-06-06 13:53

Spark - SQL查询文件数据

那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。使用方法csvspark.sql("select*fromcsv.

kikiki2·2021-05-11 12:03

spark实时处理hdfs流数据

项目说明Spark构建一个实时数据处理及展示系统流数据数据处理：scala调用spark-SQL：python如图：Paste_Image.png问题总结1、spark-streaming流处理2、sbt

gk4030·2021-05-09 13:15

spark-sql_on_yarn.md

[TOC]spark-sql提交到yarn后只占用3个core，4480mimage.png修改参数

旺达丨·2021-05-03 18:53

Spark - SQL查询文件数据

那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.

kikiki4·2021-05-02 23:59

Spark - SQL查询文件数据

那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。使用方法csvspark.sql("select*fromcsv.

kikiki2·2021-04-30 12:27

【Spark】SparkOptimizer 优化：OptimizeIn（In to InSet）

最近在调试Spark-SQL的时候看了一个OptimizeIn优化规则，该规则做了两个事情：去除In中重复的Literal条件；如果In中Literal条件数目大于optimizerInSetConversionThreshold

PowerMe·2021-04-29 03:30

Spark - SQL查询文件数据

那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.

kikiki4·2021-04-25 08:51

Spark - SQL查询文件数据

那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.

kikiki4·2021-04-22 21:26

大数据-序篇

，从基础再次着手，开始巩固定学习.java很核心，但个人一般，javaweb每一段都能自主开发，但不核心scala,python都可以玩，但不够精通大数据中，hive,spark-streaming,spark-sql

太菜了-Andy·2021-04-02 18:51

spark数据查询语句select_Spark-SQL之DataFrame操作大全

一、DataFrame对象的生成Spark-SQL可以以其他RDD对象、parquet文件、json文件、Hive表，以及通过JDBC连接到

weixin_39888082·2020-12-21 13:55

大数据——Spark-SQL自定义函数UDF、UDAF、UDTF

Spark-SQL自定义函数UDF、UDAF、UDTF自定义函数分类UDFUDAFUDTF自定义函数分类类似有Hive当中的自定义函数，Spark同样可以使用自定义的函数来实现新的功能Spark中的自定义函数有三类

蜂蜜柚子加苦茶·2020-11-17 19:56

如何创建 SparkContext，SQLContext，StreamingContext 的几种方式？

需要用到spark-core，spark-sql，spark-streaming的jar包，pom文件如下：2.1.02.11org.apache.sparkspark-core_${scala.version

曲健磊·2020-09-15 16:01

spark-core 和spark-sql的区别

转自：http://www.cnblogs.com/zlslch/p/6685679.htmlSparkSQL构建在SparkCore之上，专门用来处理结构化数据(不仅仅是SQL)。即SparkSQL是SparkCore封装而来的！SparkSQL在SparkCore的基础上针对结构化数据处理进行很多优化和改进，简单来讲：SparkSQL支持很多种结构化数据源，可以让你跳过复杂的读取过程，轻松从各

光圈1001·2020-09-15 16:39

SPARK-SQL 读取外部数据源 txt文件的读写

小哇666·2020-09-15 14:44

spark-sql执行报错No suitable driver found for jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=

未指定--driver-class-path正确指令：spark-sqllocal[2]--jars~/software/mysql-connector-java-5.1.27-bin.jar--driver-class-path~/software/mysql-connector-java-5.1.27-bin.jar

wzng·2020-09-15 14:19

Spark-SQL连接MySql关系型数据库

本文主要分析SparkSQL官方文档中有关于JDBCToOtherDatabases部分，以MySQL数据库为例，结合数据读写操作的实例代码进行详细的分析。本文中的代码需要使用到MysqlJDBC连接jar包。一、从mysql读取数据1、单表查询完整程序如下：packagecom.ckm.spark.sqlimportjava.util.Propertiesimportorg.apache.spa

weixin_30885111·2020-09-15 08:17

spark-sql读取嵌套json数据

SparkSql版本为2.2.0sparksql解析json格式的数据源首先，获取操作sparkSql的SparkSession操作实例：valsession=SparkSession.builder().master(“local[*]”).appName(this.getClass.getSimpleName).getOrCreate()//导入隐式转换和functionsimportsess

qq_43193797·2020-09-15 08:46

spark部署：在YARN上运行Spark

奔跑的小象·2020-09-15 03:21

spark-sql(不包含hive-sql)查询编程

spark-sql(不包含hive-sql)查询编程//1：将json格式的数据转化为dataFramevaldf=sqlContext.read.json("hdfs://localhost:9000

jacksoom·2020-09-15 02:38

Spark-sql 连接hive中遇到的问题

在使用spark-sql的时候发现，可以连接上hive并可以使用showtables的语句查询到表，但是后来尝试发现没法做其他更多的操作，通过log信息发现，是metadata无法连接的问题，联想到前天在配置

nuobuye19950728·2020-09-15 02:28

spark-sql使用hive的自定函数配置

1、spark-sql可以直接使用hive的自定义函数，而不需要重新写一套spark-sql的自定义函数，这里较大家一个简单的配置方式即可2、将hive的自定义函数jar拷贝到/usr/lib/spark-current

明喆_sama·2020-09-15 02:59

##公司合作项目--基于质差指标筛选结果的 spark-sql 查询系统Demo

一系统简介数据简介系统功能二处理流程数据处理spark-sql使用流程一.系统简介1.数据简介：本Demo系统所用数据是某省某运营商IPTV用户数据，基于此数据，经过一系列的数据清洗与数学建模，最终得到了三个质差用户指标

just-天之蓝·2020-09-14 13:03

通过Spark访问Hbase的Hive外部表（hive on hbase的表）

首先集群已经可以通过spark-sql读取hive的数据，然后进行如下配置。

levy_cui·2020-09-14 10:22

spark-sql on hve配置文件

hive-site.xmlhive.insert.into.multilevel.dirstrue允许生成多级目录hive.exec.stagingdirhdfs://mini:9000/hive_tmp/cachespark-sql任务临时文件暂放目录javax.jdo.option.ConnectionURLjdbc:mysql://mini:3306/hive?createDatabaseI

蜗牛.~·2020-09-14 05:22

spark-sql 分区小文件合并

spark-sql执行任务小文件生成规则示例数据元数据:{数据库名称:mydb,表名称:t30,字段列表:aint,bintcint}主数据:[1,4,2;3,4,6;4,6,7]1.使用spark-sql

蜗牛.~·2020-09-14 05:21

spark-sql on yarn 、spark-shell on yarn 详解

有时候在做开发测试的时候，需要使用spark-shell和spark-sql命令行，除了Local和Sparkstandalone模式，spark-shell和spark-sql也可以运行在yarn上，

wang2leee·2020-09-14 01:16

Spark-Sql启动报错：Error creating transactional connection factory

/bin/spark-sql报错Errorcreatingtr

午后的红茶meton·2020-09-13 20:09

实现CDH支持Spark SQL功能

CDH内嵌spark版本不支持spark-sql,可能是因为cloudera在推自己的impala；如果上线spark却不能使用sql这种结构化语言，对于大部分分析人员其实是很不爽的！

sunyang098·2020-09-13 18:22

spark：报错com.esotericsoftware.kryo.KryoException: Buffer underflow.

场景spark-sql跑一个较大的任务（几亿条数据），数据落盘时报错：com.esotericsoftware.kryo.KryoException:Bufferunderflow.探索查看抛出这个报错的源码

x950913·2020-09-13 10:41

spark-sql子查询的字段名在父查询中无法解析

场景：多表join、union时，发生如下报错：Errorinquery:Resolvedattribute(s)complex_flag_code#6549,quantity#6551L,pay_time_date#6547,sales_price#6553,oms_code#6548,retail_price#6550,promotion_sku_code#6552missingfromret

x950913·2020-09-13 10:11

大数据：缓慢变化维

因为HDFS的不可修改数据的特性，hive和spark-sql不能像传统数据库一样使用update修改数据的。通常对于变化

x950913·2020-09-13 10:11

spark-sql读取不到parquet格式的hive表

当向Hivemetastore中读写Parquet表时，SparkSQL将使用SparkSQL自带的ParquetSerDe（SerDe：Serialize/Deserilize的简称,目的是用于序列化和反序列化），而不是用Hive的SerDe，SparkSQL自带的SerDe拥有更好的性能。这个优化的配置参数为spark.sql.hive.convertMetastoreParquet，默认值为

x950913·2020-09-13 10:10

spark-SQL综合练习每日关键字的UV统计-scala

spark-SQL综合练习每日关键字的UV统计-scala1.开发环境说明2.运行环境说明3.实现的需求如下4.实现代码如下5.分步输出的结果如下6.。。。。。。

xuanwenchao·2020-09-11 11:26

spark-sql 关联问题

spark-sql使用不等关联不出数据，的解决办法2017-10-20计划spark-sql取出join后另外一个字段匹配不上的记录select*fromap1ajoinap2bona.id=b.idanda.name

per_time·2020-09-11 06:05

Spark SQL 操作 Hive 表数据

方式操作Hiveshowtablesselect*fromempjoin操作总结：和HQL语法一毛一样，只是记得使用如下格式spark.sql("xxxxxx").show即可如果嫌麻烦，还可以直接使用spark-sql

路飞DD·2020-09-11 05:47

hive使用spark引擎的几种情况

使用spark引擎查询hive有以下几种方式：1>使用spark-sql(sparksqlcli)2>使用spark-thrift提交查询sql3>使用hiveonspark(即hive本身设置执行引擎为

weixin_30275415·2020-09-11 04:26

在Zeppelin上运行Spark程序

前言不得不说，Spark在Zeppelin上的使用还是比较方便的，比你在终端启动一个spark-shell或者spark-sql强太多了。闲话少说，我们一起来看一看吧！

AaronLwx·2020-09-10 21:25

Spark SQL快速入门系列之Hive

.hive和sparksql的集成方式(面试可能会问到)二.spark_shell和spark_sql操作spark_shellspark_sql使用hiveserver2+beeline三.脚本使用spark-sql

大数据技术与架构·2020-09-10 18:26

Spark-sql 读hbase

SparkSQL是指整合了Hive的spark-sqlcli,本质上就是通过Hive访问HBase表，具体就是通过hive-hbase-handler拷贝HBase的相关jar包到Spark节点上的$SPARK_HOME/lib目录下，清单如下：在ambari上配置Spark节点的$SPARK_HOME/conf/spark-env.sh,将上面的jar包添加到SPARK_CLASSPATH，如下

chenla5762·2020-08-24 13:28

Spark-SQL之自定义数据源的构建

自定义数据源的构建常见的trait下面是interfaces.scala中常见的一些接口：下面各种类、方法，在源码里面都有详细的注释。//BaseRelation是Spark提供的一个标准的接口//由于是抽象类，如果要实现自己的外部数据源，必须要实现它里面的一些方法//这个里面是含有schema的元组集合（字段:字段类型）//继承了BaseRelation的类，必须以StructType这个形式产

Try Everything、·2020-08-24 12:59

Spark - SQL查询文件数据

那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.

kikiki4·2020-08-23 00:25

sparkSQL1.1入门之七：ThriftServer和CLI

1：令人惊讶的CLI刚部署好spark1.1就迫不及待地先测试CLI（bin/spark-sql），对于习

mmicky20110730·2020-08-22 21:06

Spark SQL/Hive 同一列的多行记录合并为一行

（第一列用户id，第二列商店id，第三列地区id，第四列日期）spark-sql>select*fromtest;10277654822172201510281027765482217220151026881482482217220151129102776

光于前裕于后·2020-08-22 20:14

Spark-sql结果保存指定位置

//1.读取数据，将每一行的数据使用列分隔符分割vallineRDD=sc.textFile("hdfs://node1.itcast.cn:9000/person.txt",1).map(_.split(""))//2.定义caseclass（相当于表的schema）caseclassPerson(id:Int,name:String,age:Int)//3.导入隐式转换,在当前版本中可以不用导

绛门人·2020-08-22 19:42

【运行spark-sql报错】:java.lang.NoSuchMethodError: scala.Product.$init$(Lscala/Product;)V 解决办法

scala版本对不上所以着重对这方面的检查.直到我看到pom.xml文件得配置.....大概就知道是什么原因了org.apache.sparkspark-sql_2.112.3.0显然我Maven里面配置的spark-sql

佩奇配骑·2020-08-22 19:00

spark1.4版本与CDH5.1.3版本hive整合

场景介绍：在spark-sql中，读取hive的数据配置步骤如下：1、找到hive的hive-site.xml文件和hive-log4j.properties文件放入spark的conf目录下。

重拾梦想·2020-08-22 17:16

sparkstreaming的参数解读

1：spark.default.parallelism设置sparkstreaming程序的并行度:2：spark.sql.shuffle.partitions设置spark-sql程序的并行度3：spark.scheduler.listenerbus.eventqueue.size

csy_666·2020-08-22 16:33

sparksql两种方式的执行效率

方式一：/**使用spark-sql实现的*/defrhVisitor(ss:SparkSession,dt:String,per_hour:String,merchant:String):Unit={

ZH519080·2020-08-22 16:54

推荐频道

Spark-SQL

SparkSQL的shell命令

[喵咪大数据]Presto查询引擎

Spark - SQL查询文件数据

spark实时处理hdfs流数据

spark-sql_on_yarn.md

Spark - SQL查询文件数据

Spark - SQL查询文件数据

【Spark】SparkOptimizer 优化：OptimizeIn（In to InSet）

Spark - SQL查询文件数据

Spark - SQL查询文件数据

大数据-序篇

spark数据查询语句select_Spark-SQL之DataFrame操作大全

大数据——Spark-SQL自定义函数UDF、UDAF、UDTF

如何创建 SparkContext，SQLContext，StreamingContext 的几种方式？

spark-core 和spark-sql的区别

SPARK-SQL 读取外部数据源 txt文件的读写

spark-sql执行报错No suitable driver found for jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=

Spark-SQL连接MySql关系型数据库

spark-sql读取嵌套json数据

spark部署：在YARN上运行Spark

spark-sql(不包含hive-sql)查询编程

Spark-sql 连接hive中遇到的问题

spark-sql使用hive的自定函数配置

##公司合作项目--基于质差指标筛选结果的 spark-sql 查询系统Demo

通过Spark访问Hbase的Hive外部表（hive on hbase的表）

spark-sql on hve配置文件

spark-sql 分区小文件合并

spark-sql on yarn 、spark-shell on yarn 详解

Spark-Sql启动报错：Error creating transactional connection factory

实现CDH支持Spark SQL功能

spark：报错com.esotericsoftware.kryo.KryoException: Buffer underflow.

spark-sql子查询的字段名在父查询中无法解析

大数据：缓慢变化维

spark-sql读取不到parquet格式的hive表

spark-SQL综合练习每日关键字的UV统计-scala

spark-sql 关联问题

Spark SQL 操作 Hive 表数据

hive使用spark引擎的几种情况

在Zeppelin上运行Spark程序

Spark SQL快速入门系列之Hive

Spark-sql 读hbase

Spark-SQL之自定义数据源的构建

Spark - SQL查询文件数据

sparkSQL1.1入门之七：ThriftServer和CLI

Spark SQL/Hive 同一列的多行记录合并为一行

Spark-sql结果保存指定位置

【运行spark-sql报错】:java.lang.NoSuchMethodError: scala.Product.$init$(Lscala/Product;)V 解决办法

spark1.4版本与CDH5.1.3版本hive整合

sparkstreaming的参数解读

sparksql两种方式的执行效率