SparkSQL) 第7页

SparkSQL & ClickHouse RoaringBitmap使用实践

文章目录简介ClickHouse简介RoaringBitmap（RBM）原理ClickHouse中使用RBM存在的问题RoaringBitmap（RBM）定制序列化实现ClickHouse中RoaringBitmap的结构解析Spark中RoaringBitmap的实现定制RBM序列化方式以兼容ClickHouseByte(1)-类型标识生成VarInt(SerializedSizeInBytes

涛声依旧（竞涛）·2023-11-01 07:17

真实大数据简历模版（一）【大数据-4年经验】在线教育

抗压能力强，能自我激励，善于沟通与团队协作3.具备扎实的Java相关知识，熟练使用Java和Scala语言编程4.掌握Spark及其组件SparkCore、SparkSQL、SparkStreaming

大模型Maynor·2023-10-30 03:25

spark day06 + day07 + day08

目录1.sparkSQL基本信息1.什么是sparksql2.strucrureddata3.sparksql特征4.概述1.sparksql性能比sparkrdd高2.SparkSQLincluding3

姚circle·2023-10-29 08:15

Spark学习笔记01-基础

除常见的MapReduce运算外，还支持图、机器学习、SparkSQL等计算方式。特性高效Speed，因为很多数据都在内存中，

GreenWang·2023-10-28 21:04

SparkSQL综合案例-省份维度的销售情况统计分析

一、项目背景二、项目需求（1）需求①各省销售指标，每个省份的销售额统计②TOP3销售省份中，有多少家店铺日均销售额1000+③TOP3省份中，各个省份的平均单价④TOP3省份中，各个省份的支付类型比例（2）要求①将需求结果写出到mysql②将数据写入到SparkOnHive中三、代码实现（1）需求1：#cording:utf8'''要求1：各省销售额统计要求2：TOP3销售省份中，有多少店铺达到过

吗喽也是命·2023-10-28 18:19

0302 Data Sources

转载请注明出处，谢谢合作～该篇中的示例暂时只有Scala版本～数据源SparkSQL支持通过DataFrame接口操作多种数据源。

Whaatfor·2023-10-28 18:41

sparksql动态分区数超上限报错

sethive.exec.dynamic.partition=true;(查看语句：sethive.exec.dynamic.partition;)sethive.exec.dynamic.partition.mode=nonstrict;注：该属性默认是strict，即限制模式，避免全部分区字段都是动态的。应该必须至少一个分区字段是指定有值即静态的，且必须放在最前面。设置为nonstrict之后

小战牛·2023-10-28 03:48

Could not write class xxx because it exceeds JVM code size limits...too large

:CouldnotwriteclassxxxbecauseitexceedsJVMcodesizelimits...toolarge问题描述开发环境报错原因解决方法参考文献问题描述自己写了一个很普通的sparksql

钓的不是鱼·2023-10-27 20:10

Spark SQL和Hive中的函数（一）：字符串函数

本系列文章主要介绍SparkSQL/Hive中常用的函数，主要分为字符串函数、JSON函数、时间函数、开窗函数以及在编写SparkSQL代码应用时实用的函数算子五个模块。

大数据学习与分享·2023-10-27 15:47

【spark客户端】Spark SQL CLI详解：怎么执行sql文件、注释怎么写，支持的文件路径协议、交互式模式使用细节

文章目录一.SparkSQLCommandLineOptions(命令行参数)二.ThehivercFile1.withoutthe-i2..hiverc介绍三.支持的路径协议四.支持的注释类型五.SparkSQLCLI

roman_日积跬步-终至千里·2023-10-27 10:13

Hudi数据湖-基于Flink、Spark湖仓一体、实时入湖保姆级教学

目录Hudi源码编译Hudi扫盲基于Spark-shell集成Hudi基于Spark-Hive集成Hudi手动创建HIVE表基于SparkSQL集成Hudi自动创建HIVE表基于FlinkSQL集成Hudi

笑一笑、·2023-10-27 01:04

Spark 入门

目前，Spark生态系统已经发展成为一个包含多个子项目的集合，其中包含SparkSQL、SparkStreami

janlle·2023-10-26 22:22

大数据系列之Spark集群环境部署

Spark作为一种大数据分布式计算框架，已经构建SparkStreaming、SparkSQL、SparkML等组件，与文件系统HDFS、资源调度YARN一起，构建了Spark生态体系，如下图所示：以下部分将主要介绍

solihawk·2023-10-26 04:51

SparkSQL执行流程与Catalyst优化器

目录一、SparkSQL运行流程与Catalyst优化器（1）RDD运行流程（2）SparkSQL自动优化（3）Catalyst优化器流程（4）Catalyst优化器总结（5）SparkSQL执行流程一

吗喽也是命·2023-10-25 23:21

Spark_SQL函数定义（定义UDF函数、使用窗口函数）

Spark支持定义函数（3）定义UDF函数（4）定义返回Array类型的UDF（5）定义返回字典类型的UDF二、窗口函数（1）开窗函数简述（2）窗口函数的语法一、UDF函数定义（1）函数定义无论Hive还是SparkSQL

吗喽也是命·2023-10-25 23:51

Spark_SQL-DataFrame数据写出以及读写数据库（以MySQl为例）

一、数据写出（1）SparkSQL统一API写出DataFrame数据二、写出MySQL数据库一、数据写出（1）SparkSQL统一API写出DataFrame数据统一API写法：常见源写出：#cording

吗喽也是命·2023-10-25 23:50

Hadoop+Hive+Spark+Hbase开发环境练习

app/data/exam查看csv文件行数[root@kb129~]#hdfsdfs-cat/app/data/exam/meituan_waimai_meishi.csv|wc-l2.分别使用RDD和SparkSQL

不吃香菜lw·2023-10-24 23:45

Spark简单回顾

Spark1.1Spark入门1.1.1Spark部署模式1.1.2常用端口1.2SparkCore1.2.1RDD不可变和五大属性1.2.2RDD的弹性1.2.3cache和Checkpoint的区别1.2.4算子1.3SparkSQL

星光下的赶路人star·2023-10-24 11:32

SparkSQL之LogicalPlan概述

SparkSQL逻辑计划在实现层面被定义为LogicalPlan类。从SQL语句经过SparkSqlPa

RainTicking·2023-10-24 11:03

Spark SQL概述与基本操作

目录一、SparkSQL概述（1）概念（2）特点（3）SparkSQL与Hive异同（4）Spark的数据抽象二、SparkSession对象执行环境构建(1)SparkSession对象（2）代码演示三

菜鸟一千零八十六号·2023-10-24 08:22

SparkSQL的Shuffle分区设定及异常数据处理API（去重、缺失值处理）

一、SparkSQL的Shuffle分区数目设定在允许spark程序时，查看WEBUI监控页面发现，某个Stage中有200个Task任务，也就是说RDD有200分区Partion。

菜鸟一千零八十六号·2023-10-24 08:49

Mongo+Spark

通用性：我们可以使用SparkSQL来执行常规分析，SparkStreaming来流数据处理，以及用Mlib来执行机器学习等。Java，python，scala及R语言的支持也是其通用性的表现之一。

亮亮-AC米兰·2023-10-23 14:15

SparkSql读取Snappy Parquet压缩文件报错：java.lang.UnsatisfiedLinkError: org.xerial.snappy.SnappyNative.unc...

版本信息Spark-sql：2.2.0.cloudera2Spark-core：2.2.0.cloudera2JDK：1.8Scala：2.11.11问题描述在通过SparkSqlAPI读取SnappyParquet

Producer晨·2023-10-23 13:10

大数据——PySpark入口架构及Jupyter Notebook集成环境搭建

PySpark-Configuration集成PySparkPySpark简介PySpark包介绍使用PySpark处理数据PySpark中使用匿名函数SparkContext.addPyFile在PySpark中使用SparkSQLSpark

蜂蜜柚子加苦茶·2023-10-22 10:25

SparkSQL入门

概述两种模式SparkonHive:语法是SparkSQL语法，实际上是在IDEA上编写java叠加SQL的代码。HiveonSpark:只是替换了Hadoop的MR，改为了Spark的计算引擎。

十七✧ᐦ̤·2023-10-21 07:40

大数据平台开发经验

数据存储和处理：精通大数据存储系统，如HDFS，以及数据处理框架，如SparkSQL、Hive等。实时数据处理：了解实时数据处理

三思而后行，慎承诺·2023-10-21 07:04

SparkSQL字段血缘关系的实现方式

说明：sparksql的字段血缘关系具体实现代码和使用方法见GitHub：RHobart/spark-lineage-parent:跟踪Spark-sql中的字段血缘关系(github.com)

一个懒散的人·2023-10-21 06:25

sparkSql外部数据源

1、读取json2、读取csv和tsv3、ObjectFile4、读取hdfs中的数据5、读取Parquet文件6、读取Hive和mysql读取json文件defmain(args:Array[String]):Unit={valconf=newSparkConf().setMaster("local[*]").setAppName(this.getClass.getName)valsc=newS

Aluha_f289·2023-10-20 19:25

Window 窗口函数 (Spark Sql)

在SparkSQL中，Window函数是一种用于在查询结果集中执行聚合、排序和分析操作的强大工具。它允许你在查询中创建一个窗口，然后对窗口内的数据进行聚合计算。

小辉懂编程·2023-10-20 11:51

Spark DataFrame 的窗口函数使用的两种形式介绍

窗口函数常多用于sql，sparksql也集成了，同样，sparkdataframe也有这种函数，sparksql的窗口函数与sparkdataframe的写法不太一样。

Data_IT_Farmer·2023-10-20 07:10

Java动态生成parquet格式数据并导入Hive

前言：在实际项目中，分别使用Hive、SparkSQL、Impala对ORC、Parquet格式数据进行性能查询测试后（Impala3.1版本之后才可以使用ORC格式），发现Impala对Parquet

Slience_92·2023-10-20 03:35

Spark-SQL详解

目录前言什么是SparkSQLDataFrameDataFrame基本操作SparkSession创建DataFrame1）通过Spark的数据源创建DSL语法风格(了解)2）RDD转化为DataFrame

风吹我亦散·2023-10-19 08:56

Antlr4 - 自定义SparkSQL解析

>Antlr4是一个强大的解析器的生成器，可以用来读取、处理、执行或翻译结构化文本，ANTLR可以从语法上来生成一个可以构建和遍历解析树的解析器，最出名的Spark计算引擎2.x就是用它来解析SQL的，是一个牛到没朋友的家伙。##IDEA测试**IDEA语法分析插件**下载[antlr-v4-grammar-plugin](https://plugins.jetbrains.com/files/7

kikiki4·2023-10-19 05:22

Spark2x基于内存的分布式计算

RDD的依赖关系RDD的Stage划分Spark重要角色SparkonYarn-client的运行流程SparkonYarn-cluster的运行流程Yarn-client与Yarn-cluster的区别SparkSQL

温暖会追上来的.·2023-10-19 05:09

《Spark大数据分析》一书的书评和采访

\\t了解SparkCore及加载项库，包括SparkSQL、SparkStreaming、GraphX、Mllib和SparkML。

H_MZ·2023-10-19 05:30

4.SparkSQL—项目实战—各区域热门商品 Top3—需求简介、需求分析、功能实现 (注: Hive on Spark 用的较多)

本文目录如下：第4章SparkSQL项目实战4.1数据准备4.1.1数据库表准备4.1.2在IDEA中创建数据库表并导入数据4.2需求：各区域热门商品Top34.2.1需求简介4.2.2需求分析4.2.3

页川叶川·2023-10-19 05:57

Spark SQL编程之DataFrame

SparkSQL特性易整合统一的数据访问方式兼容hive标准的数据链接SparkSQL是Spark用来处理结构化数据的一个模块，它提供了2个编程抽象：DataFrame和DataSet，并且作为分布式SQL

涟漪海洋·2023-10-19 04:27

Spark on Hive 和 Hive on Spark的区别与实现

这里可以理解为Spark通过SparkSQL使用Hive语句操作Hive表,底层运行的还是SparkRDD。

Alex_81D·2023-10-19 02:53

Hive引擎MR、Tez、Spark

SparkonHive就是通过sparksql，加载hive的配置文件，获取到hive的元数据信

西奥斯·2023-10-19 02:23

关于SparkRdd和SparkSql的几个指标统计，scala语言，打包上传到spark集群，yarn模式运行

需求：❖要求:分别用SparkRDD,SparkSQL两种编程方式完成下列数据分析,结合webUI监控比较性能优劣并给出结果的合理化解释.1、分别统计用户，性别，职业的个数：2、查看统计年龄分布情况（按照年龄分段为

宇文智·2023-10-18 09:58

SparkSql中多个Stage的并发执行

写一篇水水的技术文，总结一下sparksql中不同stage的并行执行相关，也是来自于一位群友的提问：我们群里有很多技术很棒并且很热心的大佬，哈哈~Hive中Job并发执行hive中，同一sql里，如果涉及到多个

小萝卜算子·2023-10-18 07:59

Spark工作原理及基础概念（超详细！）

目录一、Spark概述（1）概述（2）Spark整体架构（3）Spark特性（4）Spark与MR（5）SparkStreaming与Storm（6）SparkSQL与Hive二、Spark基本原理（1

bhegi_seg·2023-10-18 07:21

2023_Spark_实验十四：SparkSQL入门操作

1、将emp.csv、dept.csv文件上传到分布式环境，再用hdfsdfs-putdept.csv/input/hdfsdfs-putemp.csv/input/将本地文件put到hdfs文件系统的input目录下2、或者调用本地文件也可以。区别：sc.textFile("file:///D:\\temp\\emp.csv")import org.apache.spark.sql.SparkS

pblh123·2023-10-17 06:07

JDBC数据源

SparkSQL支持使用JDBC从关系型数据库（比如MySQL）中读取数据。读取的数据，依然由DataFrame表示，可以很方便地使用Sparksql提供的各种算子进行处理。

一个人一匹马·2023-10-16 17:46

java spark 消费kafka_spark streaming消费kafka数据写入hdfs避免文件覆盖方案(java版)

1.写在前面在sparkstreaming+kafka对流式数据处理过程中，往往是sparkstreaming消费kafka的数据写入hdfs中，再进行hive映射形成数仓，当然也可以利用sparkSQL

吴羽舒·2023-10-16 11:40

Spark SQL-数据源

一、通用加载/保存方法1.手动指定选项SparkSQL的DataFrame接口支持多种数据源的操作。一个DataFrame可以进行RDDs方式的操作，也可以被注册为临时表。

我是星星我会发光i·2023-10-16 06:33

carbondata优化小姐

一，carbondata高效原因carbondata文件是hdfs的列式存储格式查询速度是sparkSQL的10倍，通过多种索引技术和多次pushdown优化，对TB级别数据快速响应高效的压缩，使用轻量级和和重量级压缩组合的方式

不吃饭的猪·2023-10-15 08:54

30. Spark SQL case when用法：

30.SparkSQLcasewhen用法：https://sparkbyexamples.com/spark-case-when-otherwise-example/howtowritecasewithwhenconditioninsparksqlusingscala-StackOverflowscala-SPARKSQL

元元的李树·2023-10-15 05:29

carbondata测试报告

carbondata测试报告此文档是测试carbondata（1.4）与parquet(1.10)在sparksql搜索引擎上执行的对比情况硬件配置CPU：Intel(R)Xeon(R)CPUE5-2603v4

君子慎独焉·2023-10-15 03:27

Spark入门

目录Spark入门:概述+历史+概述SparkCore：RDDSparkSQL:SparkStreamingSpark内核调优Spark概述回顾：Hadoop=HDFS存储+MR分析计算+YARN调度Hadoop

十七✧ᐦ̤·2023-10-14 12:21

推荐频道

SparkSQL)