E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
sparksql
SparkSQL
& ClickHouse RoaringBitmap使用实践
文章目录简介ClickHouse简介RoaringBitmap(RBM)原理ClickHouse中使用RBM存在的问题RoaringBitmap(RBM)定制序列化实现ClickHouse中RoaringBitmap的结构解析Spark中RoaringBitmap的实现定制RBM序列化方式以兼容ClickHouseByte(1)-类型标识生成VarInt(SerializedSizeInBytes
涛声依旧(竞涛)
·
2023-11-01 07:17
spark
spark
clickhouse
roaringbitmap
bitmap
uv
真实大数据简历模版(一)【大数据-4年经验】在线教育
抗压能力强,能自我激励,善于沟通与团队协作3.具备扎实的Java相关知识,熟练使用Java和Scala语言编程4.掌握Spark及其组件SparkCore、
SparkSQL
、SparkStreaming
大模型Maynor
·
2023-10-30 03:25
#
大数据面试辅导
大数据
spark day06 + day07 + day08
目录1.
sparkSQL
基本信息1.什么是
sparksql
2.strucrureddata3.
sparksql
特征4.概述1.
sparksql
性能比sparkrdd高2.
SparkSQL
including3
姚circle
·
2023-10-29 08:15
spark
spark
大数据
分布式
Spark学习笔记01-基础
除常见的MapReduce运算外,还支持图、机器学习、
SparkSQL
等计算方式。特性高效Speed,因为很多数据都在内存中,
GreenWang
·
2023-10-28 21:04
SparkSQL
综合案例-省份维度的销售情况统计分析
一、项目背景二、项目需求(1)需求①各省销售指标,每个省份的销售额统计②TOP3销售省份中,有多少家店铺日均销售额1000+③TOP3省份中,各个省份的平均单价④TOP3省份中,各个省份的支付类型比例(2)要求①将需求结果写出到mysql②将数据写入到SparkOnHive中三、代码实现(1)需求1:#cording:utf8'''要求1:各省销售额统计要求2:TOP3销售省份中,有多少店铺达到过
吗喽也是命
·
2023-10-28 18:19
spark
0302 Data Sources
转载请注明出处,谢谢合作~该篇中的示例暂时只有Scala版本~数据源
SparkSQL
支持通过DataFrame接口操作多种数据源。
Whaatfor
·
2023-10-28 18:41
sparksql
动态分区数超上限报错
sethive.exec.dynamic.partition=true;(查看语句:sethive.exec.dynamic.partition;)sethive.exec.dynamic.partition.mode=nonstrict;注:该属性默认是strict,即限制模式,避免全部分区字段都是动态的。应该必须至少一个分区字段是指定有值即静态的,且必须放在最前面。设置为nonstrict之后
小战牛
·
2023-10-28 03:48
Could not write class xxx because it exceeds JVM code size limits...too large
:CouldnotwriteclassxxxbecauseitexceedsJVMcodesizelimits...toolarge问题描述开发环境报错原因解决方法参考文献问题描述自己写了一个很普通的
sparksql
钓的不是鱼
·
2023-10-27 20:10
java
spark
scala
java
maven
jvm
Spark SQL和Hive中的函数(一):字符串函数
本系列文章主要介绍
SparkSQL
/Hive中常用的函数,主要分为字符串函数、JSON函数、时间函数、开窗函数以及在编写
SparkSQL
代码应用时实用的函数算子五个模块。
大数据学习与分享
·
2023-10-27 15:47
Hive
Spark
hive
sparksql
大数据
函数
SQL
【spark客户端】Spark SQL CLI详解:怎么执行sql文件、注释怎么写,支持的文件路径协议、交互式模式使用细节
文章目录一.
SparkSQL
CommandLineOptions(命令行参数)二.ThehivercFile1.withoutthe-i2..hiverc介绍三.支持的路径协议四.支持的注释类型五.
SparkSQL
CLI
roman_日积跬步-终至千里
·
2023-10-27 10:13
spark
spark
sql
大数据
Hudi数据湖-基于Flink、Spark湖仓一体、实时入湖保姆级教学
目录Hudi源码编译Hudi扫盲基于Spark-shell集成Hudi基于Spark-Hive集成Hudi手动创建HIVE表基于
SparkSQL
集成Hudi自动创建HIVE表基于FlinkSQL集成Hudi
笑一笑、
·
2023-10-27 01:04
BigData
spark
flink
big
data
Spark 入门
目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含
SparkSQL
、SparkStreami
janlle
·
2023-10-26 22:22
大数据系列之Spark集群环境部署
Spark作为一种大数据分布式计算框架,已经构建SparkStreaming、
SparkSQL
、SparkML等组件,与文件系统HDFS、资源调度YARN一起,构建了Spark生态体系,如下图所示:以下部分将主要介绍
solihawk
·
2023-10-26 04:51
大数据系列
#
spark
大数据
spark
SparkSQL
执行流程与Catalyst优化器
目录一、
SparkSQL
运行流程与Catalyst优化器(1)RDD运行流程(2)
SparkSQL
自动优化(3)Catalyst优化器流程(4)Catalyst优化器总结(5)
SparkSQL
执行流程一
吗喽也是命
·
2023-10-25 23:21
大数据
Spark_SQL函数定义(定义UDF函数、使用窗口函数)
Spark支持定义函数(3)定义UDF函数(4)定义返回Array类型的UDF(5)定义返回字典类型的UDF二、窗口函数(1)开窗函数简述(2)窗口函数的语法一、UDF函数定义(1)函数定义无论Hive还是
SparkSQL
吗喽也是命
·
2023-10-25 23:51
1024程序员节
Spark_SQL-DataFrame数据写出以及读写数据库(以MySQl为例)
一、数据写出(1)
SparkSQL
统一API写出DataFrame数据二、写出MySQL数据库一、数据写出(1)
SparkSQL
统一API写出DataFrame数据统一API写法:常见源写出:#cording
吗喽也是命
·
2023-10-25 23:50
1024程序员节
Hadoop+Hive+Spark+Hbase开发环境练习
app/data/exam查看csv文件行数[root@kb129~]#hdfsdfs-cat/app/data/exam/meituan_waimai_meishi.csv|wc-l2.分别使用RDD和
SparkSQL
不吃香菜lw
·
2023-10-24 23:45
hadoop
hive
spark
hbase
Spark简单回顾
Spark1.1Spark入门1.1.1Spark部署模式1.1.2常用端口1.2SparkCore1.2.1RDD不可变和五大属性1.2.2RDD的弹性1.2.3cache和Checkpoint的区别1.2.4算子1.3
SparkSQL
星光下的赶路人star
·
2023-10-24 11:32
Spark
1024程序员节
大数据
spark
SparkSQL
之LogicalPlan概述
SparkSQL
逻辑计划在实现层面被定义为LogicalPlan类。从SQL语句经过
SparkSql
Pa
RainTicking
·
2023-10-24 11:03
大数据
scala
大数据
Spark SQL概述与基本操作
目录一、
SparkSQL
概述(1)概念(2)特点(3)
SparkSQL
与Hive异同(4)Spark的数据抽象二、SparkSession对象执行环境构建(1)SparkSession对象(2)代码演示三
菜鸟一千零八十六号
·
2023-10-24 08:22
spark
sql
大数据
SparkSQL
的Shuffle分区设定及异常数据处理API(去重、缺失值处理)
一、
SparkSQL
的Shuffle分区数目设定在允许spark程序时,查看WEBUI监控页面发现,某个Stage中有200个Task任务,也就是说RDD有200分区Partion。
菜鸟一千零八十六号
·
2023-10-24 08:49
ajax
前端
javascript
Mongo+Spark
通用性:我们可以使用
SparkSQL
来执行常规分析,SparkStreaming来流数据处理,以及用Mlib来执行机器学习等。Java,python,scala及R语言的支持也是其通用性的表现之一。
亮亮-AC米兰
·
2023-10-23 14:15
Spark
Mongo
Spark
SparkSql
读取Snappy Parquet压缩文件报错:java.lang.UnsatisfiedLinkError: org.xerial.snappy.SnappyNative.unc...
版本信息Spark-sql:2.2.0.cloudera2Spark-core:2.2.0.cloudera2JDK:1.8Scala:2.11.11问题描述在通过
SparkSql
API读取SnappyParquet
Producer晨
·
2023-10-23 13:10
大数据——PySpark入口架构及Jupyter Notebook集成环境搭建
PySpark-Configuration集成PySparkPySpark简介PySpark包介绍使用PySpark处理数据PySpark中使用匿名函数SparkContext.addPyFile在PySpark中使用
SparkSQL
Spark
蜂蜜柚子加苦茶
·
2023-10-22 10:25
python
大数据
spark
SparkSQL
入门
概述两种模式SparkonHive:语法是
SparkSQL
语法,实际上是在IDEA上编写java叠加SQL的代码。HiveonSpark:只是替换了Hadoop的MR,改为了Spark的计算引擎。
十七✧ᐦ̤
·
2023-10-21 07:40
sparksql
spark
sql
大数据平台开发经验
数据存储和处理:精通大数据存储系统,如HDFS,以及数据处理框架,如
SparkSQL
、Hive等。实时数据处理:了解实时数据处理
三思而后行,慎承诺
·
2023-10-21 07:04
架构
大数据
SparkSQL
字段血缘关系的实现方式
说明:
sparksql
的字段血缘关系具体实现代码和使用方法见GitHub:RHobart/spark-lineage-parent:跟踪Spark-sql中的字段血缘关系(github.com)
一个懒散的人
·
2023-10-21 06:25
sparkSql
外部数据源
1、读取json2、读取csv和tsv3、ObjectFile4、读取hdfs中的数据5、读取Parquet文件6、读取Hive和mysql读取json文件defmain(args:Array[String]):Unit={valconf=newSparkConf().setMaster("local[*]").setAppName(this.getClass.getName)valsc=newS
Aluha_f289
·
2023-10-20 19:25
Window 窗口函数 (Spark Sql)
在
SparkSQL
中,Window函数是一种用于在查询结果集中执行聚合、排序和分析操作的强大工具。它允许你在查询中创建一个窗口,然后对窗口内的数据进行聚合计算。
小辉懂编程
·
2023-10-20 11:51
spark
ajax
前端
javascript
Spark DataFrame 的窗口函数使用的两种形式介绍
窗口函数常多用于sql,
sparksql
也集成了,同样,sparkdataframe也有这种函数,
sparksql
的窗口函数与sparkdataframe的写法不太一样。
Data_IT_Farmer
·
2023-10-20 07:10
sparksql
DataFrame
Spark
spark
scala
dataframe
窗口函数
Java动态生成parquet格式数据并导入Hive
前言:在实际项目中,分别使用Hive、
SparkSQL
、Impala对ORC、Parquet格式数据进行性能查询测试后(Impala3.1版本之后才可以使用ORC格式),发现Impala对Parquet
Slience_92
·
2023-10-20 03:35
数仓
hive
java
hadoop
parquet
Spark-SQL详解
目录前言什么是
SparkSQL
DataFrameDataFrame基本操作SparkSession创建DataFrame1)通过Spark的数据源创建DSL语法风格(了解)2)RDD转化为DataFrame
风吹我亦散
·
2023-10-19 08:56
spark
Antlr4 - 自定义
SparkSQL
解析
>Antlr4是一个强大的解析器的生成器,可以用来读取、处理、执行或翻译结构化文本,ANTLR可以从语法上来生成一个可以构建和遍历解析树的解析器,最出名的Spark计算引擎2.x就是用它来解析SQL的,是一个牛到没朋友的家伙。##IDEA测试**IDEA语法分析插件**下载[antlr-v4-grammar-plugin](https://plugins.jetbrains.com/files/7
kikiki4
·
2023-10-19 05:22
Spark2x基于内存的分布式计算
RDD的依赖关系RDD的Stage划分Spark重要角色SparkonYarn-client的运行流程SparkonYarn-cluster的运行流程Yarn-client与Yarn-cluster的区别
SparkSQL
温暖会追上来的.
·
2023-10-19 05:09
大数据基本
《Spark大数据分析》一书的书评和采访
\\t了解SparkCore及加载项库,包括
SparkSQL
、SparkStreaming、GraphX、Mllib和SparkML。
H_MZ
·
2023-10-19 05:30
scala
运维
数据库
4.
SparkSQL
—项目实战—各区域热门商品 Top3—需求简介、需求分析、功能实现 (注: Hive on Spark 用的较多)
本文目录如下:第4章
SparkSQL
项目实战4.1数据准备4.1.1数据库表准备4.1.2在IDEA中创建数据库表并导入数据4.2需求:各区域热门商品Top34.2.1需求简介4.2.2需求分析4.2.3
页川叶川
·
2023-10-19 05:57
SparkSQL学习笔记
大数据
spark
sparkSQL
Spark SQL编程之DataFrame
SparkSQL
特性易整合统一的数据访问方式兼容hive标准的数据链接
SparkSQL
是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和DataSet,并且作为分布式SQL
涟漪海洋
·
2023-10-19 04:27
技术实战
开发问题
DataFrame
sparksql
Spark
Spark on Hive 和 Hive on Spark的区别与实现
这里可以理解为Spark通过
SparkSQL
使用Hive语句操作Hive表,底层运行的还是SparkRDD。
Alex_81D
·
2023-10-19 02:53
大数据从入门到精通
big
data
Hive引擎MR、Tez、Spark
SparkonHive就是通过
sparksql
,加载hive的配置文件,获取到hive的元数据信
西奥斯
·
2023-10-19 02:23
大数据
hive
spark
hadoop
关于SparkRdd和
SparkSql
的几个指标统计,scala语言,打包上传到spark集群,yarn模式运行
需求:❖要求:分别用SparkRDD,
SparkSQL
两种编程方式完成下列数据分析,结合webUI监控比较性能优劣并给出结果的合理化解释.1、分别统计用户,性别,职业的个数:2、查看统计年龄分布情况(按照年龄分段为
宇文智
·
2023-10-18 09:58
scala
spark
开发语言
SparkSql
中多个Stage的并发执行
写一篇水水的技术文,总结一下
sparksql
中不同stage的并行执行相关,也是来自于一位群友的提问:我们群里有很多技术很棒并且很热心的大佬,哈哈~Hive中Job并发执行hive中,同一sql里,如果涉及到多个
小萝卜算子
·
2023-10-18 07:59
spark源码精读分析系列
hive
大数据
hadoop
spark
数据仓库
Spark工作原理及基础概念(超详细!)
目录一、Spark概述(1)概述(2)Spark整体架构(3)Spark特性(4)Spark与MR(5)SparkStreaming与Storm(6)
SparkSQL
与Hive二、Spark基本原理(1
bhegi_seg
·
2023-10-18 07:21
面试
学习路线
阿里巴巴
spark
big
data
scala
c++
java
2023_Spark_实验十四:
SparkSQL
入门操作
1、将emp.csv、dept.csv文件上传到分布式环境,再用hdfsdfs-putdept.csv/input/hdfsdfs-putemp.csv/input/将本地文件put到hdfs文件系统的input目录下2、或者调用本地文件也可以。区别:sc.textFile("file:///D:\\temp\\emp.csv")import org.apache.spark.sql.SparkS
pblh123
·
2023-10-17 06:07
Spark实验
spark
大数据
分布式
JDBC数据源
SparkSQL
支持使用JDBC从关系型数据库(比如MySQL)中读取数据。读取的数据,依然由DataFrame表示,可以很方便地使用
Sparksql
提供的各种算子进行处理。
一个人一匹马
·
2023-10-16 17:46
java spark 消费kafka_spark streaming消费kafka数据写入hdfs避免文件覆盖方案(java版)
1.写在前面在sparkstreaming+kafka对流式数据处理过程中,往往是sparkstreaming消费kafka的数据写入hdfs中,再进行hive映射形成数仓,当然也可以利用
sparkSQL
吴羽舒
·
2023-10-16 11:40
java
spark
消费kafka
Spark SQL-数据源
一、通用加载/保存方法1.手动指定选项
SparkSQL
的DataFrame接口支持多种数据源的操作。一个DataFrame可以进行RDDs方式的操作,也可以被注册为临时表。
我是星星我会发光i
·
2023-10-16 06:33
Spark
Spark
SQL-数据源
carbondata优化小姐
一,carbondata高效原因carbondata文件是hdfs的列式存储格式查询速度是
sparkSQL
的10倍,通过多种索引技术和多次pushdown优化,对TB级别数据快速响应高效的压缩,使用轻量级和和重量级压缩组合的方式
不吃饭的猪
·
2023-10-15 08:54
大数据
30. Spark SQL case when用法:
30.
SparkSQL
casewhen用法:https://sparkbyexamples.com/spark-case-when-otherwise-example/howtowritecasewithwhenconditionin
sparksql
usingscala-StackOverflowscala-
SPARKSQL
元元的李树
·
2023-10-15 05:29
Spark
carbondata测试报告
carbondata测试报告此文档是测试carbondata(1.4)与parquet(1.10)在
sparksql
搜索引擎上执行的对比情况硬件配置CPU:Intel(R)Xeon(R)CPUE5-2603v4
君子慎独焉
·
2023-10-15 03:27
Spark入门
目录Spark入门:概述+历史+概述SparkCore:RDD
SparkSQL
:SparkStreamingSpark内核调优Spark概述回顾:Hadoop=HDFS存储+MR分析计算+YARN调度Hadoop
十七✧ᐦ̤
·
2023-10-14 12:21
spark
大数据
分布式
上一页
3
4
5
6
7
8
9
10
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他