spark-SQL 第4页

Spark - SQL查询文件数据

那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。使用方法csvspark.sql("select*fromcsv.

kikiki2·2021-05-11 12:03

spark实时处理hdfs流数据

项目说明Spark构建一个实时数据处理及展示系统流数据数据处理：scala调用spark-SQL：python如图：Paste_Image.png问题总结1、spark-streaming流处理2、sbt

gk4030·2021-05-09 13:15

spark-sql_on_yarn.md

[TOC]spark-sql提交到yarn后只占用3个core，4480mimage.png修改参数

旺达丨·2021-05-03 18:53

Spark - SQL查询文件数据

那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.

kikiki4·2021-05-02 23:59

Spark - SQL查询文件数据

那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。使用方法csvspark.sql("select*fromcsv.

kikiki2·2021-04-30 12:27

【Spark】SparkOptimizer 优化：OptimizeIn（In to InSet）

最近在调试Spark-SQL的时候看了一个OptimizeIn优化规则，该规则做了两个事情：去除In中重复的Literal条件；如果In中Literal条件数目大于optimizerInSetConversionThreshold

PowerMe·2021-04-29 03:30

Spark - SQL查询文件数据

那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.

kikiki4·2021-04-25 08:51

Spark - SQL查询文件数据

那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.

kikiki4·2021-04-22 21:26

大数据-序篇

，从基础再次着手，开始巩固定学习.java很核心，但个人一般，javaweb每一段都能自主开发，但不核心scala,python都可以玩，但不够精通大数据中，hive,spark-streaming,spark-sql

太菜了-Andy·2021-04-02 18:51

spark数据查询语句select_Spark-SQL之DataFrame操作大全

一、DataFrame对象的生成Spark-SQL可以以其他RDD对象、parquet文件、json文件、Hive表，以及通过JDBC连接到

weixin_39888082·2020-12-21 13:55

大数据——Spark-SQL自定义函数UDF、UDAF、UDTF

Spark-SQL自定义函数UDF、UDAF、UDTF自定义函数分类UDFUDAFUDTF自定义函数分类类似有Hive当中的自定义函数，Spark同样可以使用自定义的函数来实现新的功能Spark中的自定义函数有三类

蜂蜜柚子加苦茶·2020-11-17 19:56

如何创建 SparkContext，SQLContext，StreamingContext 的几种方式？

需要用到spark-core，spark-sql，spark-streaming的jar包，pom文件如下：2.1.02.11org.apache.sparkspark-core_${scala.version

曲健磊·2020-09-15 16:01

spark-core 和spark-sql的区别

转自：http://www.cnblogs.com/zlslch/p/6685679.htmlSparkSQL构建在SparkCore之上，专门用来处理结构化数据(不仅仅是SQL)。即SparkSQL是SparkCore封装而来的！SparkSQL在SparkCore的基础上针对结构化数据处理进行很多优化和改进，简单来讲：SparkSQL支持很多种结构化数据源，可以让你跳过复杂的读取过程，轻松从各

光圈1001·2020-09-15 16:39

SPARK-SQL 读取外部数据源 txt文件的读写

小哇666·2020-09-15 14:44

spark-sql执行报错No suitable driver found for jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=

未指定--driver-class-path正确指令：spark-sqllocal[2]--jars~/software/mysql-connector-java-5.1.27-bin.jar--driver-class-path~/software/mysql-connector-java-5.1.27-bin.jar

wzng·2020-09-15 14:19

Spark-SQL连接MySql关系型数据库

本文主要分析SparkSQL官方文档中有关于JDBCToOtherDatabases部分，以MySQL数据库为例，结合数据读写操作的实例代码进行详细的分析。本文中的代码需要使用到MysqlJDBC连接jar包。一、从mysql读取数据1、单表查询完整程序如下：packagecom.ckm.spark.sqlimportjava.util.Propertiesimportorg.apache.spa

weixin_30885111·2020-09-15 08:17

spark-sql读取嵌套json数据

SparkSql版本为2.2.0sparksql解析json格式的数据源首先，获取操作sparkSql的SparkSession操作实例：valsession=SparkSession.builder().master(“local[*]”).appName(this.getClass.getSimpleName).getOrCreate()//导入隐式转换和functionsimportsess

qq_43193797·2020-09-15 08:46

spark部署：在YARN上运行Spark

奔跑的小象·2020-09-15 03:21

spark-sql(不包含hive-sql)查询编程

spark-sql(不包含hive-sql)查询编程//1：将json格式的数据转化为dataFramevaldf=sqlContext.read.json("hdfs://localhost:9000

jacksoom·2020-09-15 02:38

Spark-sql 连接hive中遇到的问题

在使用spark-sql的时候发现，可以连接上hive并可以使用showtables的语句查询到表，但是后来尝试发现没法做其他更多的操作，通过log信息发现，是metadata无法连接的问题，联想到前天在配置

nuobuye19950728·2020-09-15 02:28

spark-sql使用hive的自定函数配置

1、spark-sql可以直接使用hive的自定义函数，而不需要重新写一套spark-sql的自定义函数，这里较大家一个简单的配置方式即可2、将hive的自定义函数jar拷贝到/usr/lib/spark-current

明喆_sama·2020-09-15 02:59

##公司合作项目--基于质差指标筛选结果的 spark-sql 查询系统Demo

一系统简介数据简介系统功能二处理流程数据处理spark-sql使用流程一.系统简介1.数据简介：本Demo系统所用数据是某省某运营商IPTV用户数据，基于此数据，经过一系列的数据清洗与数学建模，最终得到了三个质差用户指标

just-天之蓝·2020-09-14 13:03

通过Spark访问Hbase的Hive外部表（hive on hbase的表）

首先集群已经可以通过spark-sql读取hive的数据，然后进行如下配置。

levy_cui·2020-09-14 10:22

spark-sql on hve配置文件

hive-site.xmlhive.insert.into.multilevel.dirstrue允许生成多级目录hive.exec.stagingdirhdfs://mini:9000/hive_tmp/cachespark-sql任务临时文件暂放目录javax.jdo.option.ConnectionURLjdbc:mysql://mini:3306/hive?createDatabaseI

蜗牛.~·2020-09-14 05:22

spark-sql 分区小文件合并

spark-sql执行任务小文件生成规则示例数据元数据:{数据库名称:mydb,表名称:t30,字段列表:aint,bintcint}主数据:[1,4,2;3,4,6;4,6,7]1.使用spark-sql

蜗牛.~·2020-09-14 05:21

spark-sql on yarn 、spark-shell on yarn 详解

有时候在做开发测试的时候，需要使用spark-shell和spark-sql命令行，除了Local和Sparkstandalone模式，spark-shell和spark-sql也可以运行在yarn上，

wang2leee·2020-09-14 01:16

Spark-Sql启动报错：Error creating transactional connection factory

/bin/spark-sql报错Errorcreatingtr

午后的红茶meton·2020-09-13 20:09

实现CDH支持Spark SQL功能

CDH内嵌spark版本不支持spark-sql,可能是因为cloudera在推自己的impala；如果上线spark却不能使用sql这种结构化语言，对于大部分分析人员其实是很不爽的！

sunyang098·2020-09-13 18:22

spark：报错com.esotericsoftware.kryo.KryoException: Buffer underflow.

场景spark-sql跑一个较大的任务（几亿条数据），数据落盘时报错：com.esotericsoftware.kryo.KryoException:Bufferunderflow.探索查看抛出这个报错的源码

x950913·2020-09-13 10:41

spark-sql子查询的字段名在父查询中无法解析

场景：多表join、union时，发生如下报错：Errorinquery:Resolvedattribute(s)complex_flag_code#6549,quantity#6551L,pay_time_date#6547,sales_price#6553,oms_code#6548,retail_price#6550,promotion_sku_code#6552missingfromret

x950913·2020-09-13 10:11

大数据：缓慢变化维

因为HDFS的不可修改数据的特性，hive和spark-sql不能像传统数据库一样使用update修改数据的。通常对于变化

x950913·2020-09-13 10:11

spark-sql读取不到parquet格式的hive表

当向Hivemetastore中读写Parquet表时，SparkSQL将使用SparkSQL自带的ParquetSerDe（SerDe：Serialize/Deserilize的简称,目的是用于序列化和反序列化），而不是用Hive的SerDe，SparkSQL自带的SerDe拥有更好的性能。这个优化的配置参数为spark.sql.hive.convertMetastoreParquet，默认值为

x950913·2020-09-13 10:10

spark-SQL综合练习每日关键字的UV统计-scala

spark-SQL综合练习每日关键字的UV统计-scala1.开发环境说明2.运行环境说明3.实现的需求如下4.实现代码如下5.分步输出的结果如下6.。。。。。。

xuanwenchao·2020-09-11 11:26

spark-sql 关联问题

spark-sql使用不等关联不出数据，的解决办法2017-10-20计划spark-sql取出join后另外一个字段匹配不上的记录select*fromap1ajoinap2bona.id=b.idanda.name

per_time·2020-09-11 06:05

Spark SQL 操作 Hive 表数据

方式操作Hiveshowtablesselect*fromempjoin操作总结：和HQL语法一毛一样，只是记得使用如下格式spark.sql("xxxxxx").show即可如果嫌麻烦，还可以直接使用spark-sql

路飞DD·2020-09-11 05:47

hive使用spark引擎的几种情况

使用spark引擎查询hive有以下几种方式：1>使用spark-sql(sparksqlcli)2>使用spark-thrift提交查询sql3>使用hiveonspark(即hive本身设置执行引擎为

weixin_30275415·2020-09-11 04:26

在Zeppelin上运行Spark程序

前言不得不说，Spark在Zeppelin上的使用还是比较方便的，比你在终端启动一个spark-shell或者spark-sql强太多了。闲话少说，我们一起来看一看吧！

AaronLwx·2020-09-10 21:25

Spark SQL快速入门系列之Hive

.hive和sparksql的集成方式(面试可能会问到)二.spark_shell和spark_sql操作spark_shellspark_sql使用hiveserver2+beeline三.脚本使用spark-sql

大数据技术与架构·2020-09-10 18:26

Spark-sql 读hbase

SparkSQL是指整合了Hive的spark-sqlcli,本质上就是通过Hive访问HBase表，具体就是通过hive-hbase-handler拷贝HBase的相关jar包到Spark节点上的$SPARK_HOME/lib目录下，清单如下：在ambari上配置Spark节点的$SPARK_HOME/conf/spark-env.sh,将上面的jar包添加到SPARK_CLASSPATH，如下

chenla5762·2020-08-24 13:28

Spark-SQL之自定义数据源的构建

自定义数据源的构建常见的trait下面是interfaces.scala中常见的一些接口：下面各种类、方法，在源码里面都有详细的注释。//BaseRelation是Spark提供的一个标准的接口//由于是抽象类，如果要实现自己的外部数据源，必须要实现它里面的一些方法//这个里面是含有schema的元组集合（字段:字段类型）//继承了BaseRelation的类，必须以StructType这个形式产

Try Everything、·2020-08-24 12:59

Spark - SQL查询文件数据

那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.

kikiki4·2020-08-23 00:25

sparkSQL1.1入门之七：ThriftServer和CLI

1：令人惊讶的CLI刚部署好spark1.1就迫不及待地先测试CLI（bin/spark-sql），对于习

mmicky20110730·2020-08-22 21:06

Spark SQL/Hive 同一列的多行记录合并为一行

（第一列用户id，第二列商店id，第三列地区id，第四列日期）spark-sql>select*fromtest;10277654822172201510281027765482217220151026881482482217220151129102776

光于前裕于后·2020-08-22 20:14

Spark-sql结果保存指定位置

//1.读取数据，将每一行的数据使用列分隔符分割vallineRDD=sc.textFile("hdfs://node1.itcast.cn:9000/person.txt",1).map(_.split(""))//2.定义caseclass（相当于表的schema）caseclassPerson(id:Int,name:String,age:Int)//3.导入隐式转换,在当前版本中可以不用导

绛门人·2020-08-22 19:42

【运行spark-sql报错】:java.lang.NoSuchMethodError: scala.Product.$init$(Lscala/Product;)V 解决办法

scala版本对不上所以着重对这方面的检查.直到我看到pom.xml文件得配置.....大概就知道是什么原因了org.apache.sparkspark-sql_2.112.3.0显然我Maven里面配置的spark-sql

佩奇配骑·2020-08-22 19:00

spark1.4版本与CDH5.1.3版本hive整合

场景介绍：在spark-sql中，读取hive的数据配置步骤如下：1、找到hive的hive-site.xml文件和hive-log4j.properties文件放入spark的conf目录下。

重拾梦想·2020-08-22 17:16

sparkstreaming的参数解读

1：spark.default.parallelism设置sparkstreaming程序的并行度:2：spark.sql.shuffle.partitions设置spark-sql程序的并行度3：spark.scheduler.listenerbus.eventqueue.size

csy_666·2020-08-22 16:33

sparksql两种方式的执行效率

方式一：/**使用spark-sql实现的*/defrhVisitor(ss:SparkSession,dt:String,per_hour:String,merchant:String):Unit={

ZH519080·2020-08-22 16:54

解决spark driver端cpu使用率超过3000%问题

我们一部分批处理任务用的是spark-sql，默认只有yarnclient模式，使用yarnclient模式时driver端会成为瓶颈，有时候晚上跑批的时候大量etl任务同时跑，cpu负载过高导致机器告警

L13763338360·2020-08-22 16:23

spark-sql：自定义UDF函数进行敏感字段加密解密

需求一些用户数据中包含诸如用户手机号等信息，直接暴露出来的话，是违法的。。。需要对数据进行脱敏，如果单纯的将手机号替换为***号，那么就意味着丢失用户的手机号数据了，因为无法再将***变回手机号。所以需要自定义UDF函数，实现敏感数据的加密解密。这里实现了两个UDF函数，一个用于加密，一个用于解密。使用Java自带的crypto模块实现AES加密。在代码中将两个UDF函数中的SecureRando

x950913·2020-08-22 15:39

推荐频道

spark-SQL

Spark - SQL查询文件数据

spark实时处理hdfs流数据

spark-sql_on_yarn.md

Spark - SQL查询文件数据

Spark - SQL查询文件数据

【Spark】SparkOptimizer 优化：OptimizeIn（In to InSet）

Spark - SQL查询文件数据

Spark - SQL查询文件数据

大数据-序篇

spark数据查询语句select_Spark-SQL之DataFrame操作大全

大数据——Spark-SQL自定义函数UDF、UDAF、UDTF

如何创建 SparkContext，SQLContext，StreamingContext 的几种方式？

spark-core 和spark-sql的区别

SPARK-SQL 读取外部数据源 txt文件的读写

spark-sql执行报错No suitable driver found for jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=

Spark-SQL连接MySql关系型数据库

spark-sql读取嵌套json数据

spark部署：在YARN上运行Spark

spark-sql(不包含hive-sql)查询编程

Spark-sql 连接hive中遇到的问题

spark-sql使用hive的自定函数配置

##公司合作项目--基于质差指标筛选结果的 spark-sql 查询系统Demo

通过Spark访问Hbase的Hive外部表（hive on hbase的表）

spark-sql on hve配置文件

spark-sql 分区小文件合并

spark-sql on yarn 、spark-shell on yarn 详解

Spark-Sql启动报错：Error creating transactional connection factory

实现CDH支持Spark SQL功能

spark：报错com.esotericsoftware.kryo.KryoException: Buffer underflow.

spark-sql子查询的字段名在父查询中无法解析

大数据：缓慢变化维

spark-sql读取不到parquet格式的hive表

spark-SQL综合练习每日关键字的UV统计-scala

spark-sql 关联问题

Spark SQL 操作 Hive 表数据

hive使用spark引擎的几种情况

在Zeppelin上运行Spark程序

Spark SQL快速入门系列之Hive

Spark-sql 读hbase

Spark-SQL之自定义数据源的构建

Spark - SQL查询文件数据

sparkSQL1.1入门之七：ThriftServer和CLI

Spark SQL/Hive 同一列的多行记录合并为一行

Spark-sql结果保存指定位置

【运行spark-sql报错】:java.lang.NoSuchMethodError: scala.Product.$init$(Lscala/Product;)V 解决办法

spark1.4版本与CDH5.1.3版本hive整合

sparkstreaming的参数解读

sparksql两种方式的执行效率

解决spark driver端cpu使用率超过3000%问题

spark-sql：自定义UDF函数进行敏感字段加密解密