E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
SparkSQl
SparkSQL
& ClickHouse RoaringBitmap64格式支持
ClickHouse新版使用roaring64map(https://github.com/RoaringBitmap/CRoaring/blob/af9fafb72edcfb88f7adc781eaea4e7e95f68d01/cpp/roaring64map.hh)来支持64位Int计算,采用了和之前不同的序列化和反序列化方式(https://github.com/ClickHouse/Cli
fz1989
·
2023-12-15 08:47
Spark Structured Streaming使用教程
文章目录1、输入数据源2、输出模式3、sink输出结果4、时间窗口4.1、时间窗口4.2、时间水印(Watermarking)5、使用例子StructuredStreaming是一个基于
SparkSQL
penngo
·
2023-12-14 19:17
java
大数据
spark
大数据
SparkSQL
运行流程浅析
写了有相当长一段时间的
SparkSQL
了,所以结合网上其他大神的分析,写一篇文章,谈谈我对
SparkSQL
整个运行流程的一个简单的理解。哈哈,毕竟程序员要做到知其然,还要知其所以然不是。
淡定一生2333
·
2023-12-06 21:08
Spark学习
Spark面试题汇总
问题汇总
SparkSQL
调优:场景是怎样的?怎么发现的?怎么定位的?怎么解决的?达到了一个怎样的效果?引申下还有哪些更好的优化方案?UDF怎么管理的,如何避免重复的UDF的提交?
话数Science
·
2023-12-06 21:04
Spark
大数据
面试
spark
大数据
大数据实战项目_电商推荐系统
一、项目介绍Hadoop+Spark+(Python)Scala+
SparkSQL
+SparkStreaming+MongoDB+Redis+Kafka+Flume+(SpringMVC+vue)1项目介绍
Guff_hys
·
2023-12-06 20:28
大数据开发学习
大数据
服务器
hadoop
spark
zookeeper
flume
kafka
spark sql基于CBO的优化
前言
sparksql
基于CBO的优化是建立在物理计划层面的,原理是计算出所有可能的物理执行计划,并挑选成代价最小的物理执行计划。
!@123
·
2023-12-06 07:02
大数据
spark
sql
大数据
Spark-03: Spark SQL 基础编程
目录1.
SparkSQL
简介2.SparkSession3.
SparkSQL
数据的读写3.1读写TXT文件3.2读写CSV文件3.3读写JSON文件3.4读写Parquet文件3.5读写ORC文件3.6
m0_37559973
·
2023-12-05 18:17
Spark
spark
黑马一站制造数仓实战1
1.项目目标一站制造企业中项目开发的落地:代码开发代码开发:SQL【DSL+SQL】SparkCore
SparkSQL
数仓的一些实际应用:分层体系、建模实现2.内容目标项目业务介绍:背景、需求项目技术架构
ZhaoXiangmoStu
·
2023-12-05 15:20
Python
制造
大数据
spark sql基于RBO的优化
讲解RBO之前必须对
sparksql
的执行计划做一个简单的介绍。
!@123
·
2023-12-05 10:57
大数据
spark
sql
大数据
SparkSQL
中RDD和DF之间相互转换
packagecom.huc.
sparkSql
importorg.apache.spark.rdd.RDDimportorg.apache.spark.sql.
huchao7
·
2023-12-05 06:55
笔记
spark
sql
scala
如何理解
SparkSQL
中的partitionColumn, lowerBound, upperBound, numPartitions
如何理解
SparkSQL
中的partitionColumn,lowerBound,upperBound,numPartitions在
SparkSQL
中,读取数据的时候可以分块读取。
肿么肥四啊哈
·
2023-12-04 20:43
Spark
spark
大数据分析与应用实验任务十
大数据分析与应用实验任务十实验目的:通过实验掌握
sparkSQL
的基本编程方法;熟悉RDD到DataFrame的转化方法;通过实验熟悉
sparkSQL
管理不同数据源的方法。
陈希瑞
·
2023-12-04 12:00
数据分析
spark
【Spark九十四】spark-sql工具的使用
spark-sql可以使用内置的Hivemetadata-store,也可以使用已经独立安装的Hive的metadatastore关于HivebuildintoSpark1.
SparkSQL
canbebuiltwithor
axxbc123
·
2023-12-04 02:59
Spark
大数据
数据库
推荐系统大规模特征工程与FEDB的Spark基于LLVM优化
大规模推荐系统特征工程介绍
SparkSQL
与FESQL架构设计基于LLVM的Spark性能优化推荐系统与Spark优化总结大规模推荐系统特征工程介绍推荐系统在新闻推荐、搜索引擎、广告投放以及最新很火的短视频
第四范式开发者社区
·
2023-12-03 18:06
Spark
python
hadoop
spark
大数据
flink
基于hadoop的商品推荐系统_推荐系统大规模特征工程与FEDB的Spark基于LLVM优化
大规模推荐系统特征工程介绍
SparkSQL
与FESQL架构设计基于LLVM的Spark性能优化推荐系统与Spark优化总结大规模推荐系统特征工程介绍推荐系统在新闻推荐、搜索引擎、广告投放以及最新很火的短视频
weixin_39541212
·
2023-12-03 18:05
基于hadoop的商品推荐系统
【
SparkSQL
】基础入门(重点:
SparkSQL
和Hive的异同、
SparkSQL
数据抽象)
【大家好,我是爱干饭的猿,本文重点介绍
SparkSQL
的定义、特点、发展历史、与hive的区别、数据抽象、SparkSession对象。
爱干饭的猿
·
2023-12-03 06:13
spark
hive
hadoop
数据仓库
spark
Antlr4 - 自定义
SparkSQL
解析
IDEA测试IDEA语法分析插件下载antlr-v4-grammar-plugin插件安装antlr-v4-grammar分析插件g4语法文件使用的是
sparkSQL
的SqlB
大猪大猪
·
2023-12-02 11:03
spark RDD与DataFrame的相互转换
一、RDD与DataFrame的区别RDD转DataFrame原因及方式可以将RDD转成DataFrame之后,借用
sparksql
和sql以及HQL语句快速方便的使用sql语句统计和查询,比如说分组排名
火树银花之处
·
2023-12-02 10:47
Spark
spark
SparkSQL
学习笔记----将RDD转换成DataFrame
一、RDD转换成DataFrame1、为什么要将RDD转换成DataFrame转换成DataFrame之后就可以直接针对HDFS等任何可以构建为RDD的数据,进行
SparkSQL
进行SQL查询了。
PZ~浪味仙
·
2023-12-02 10:46
Spark
SQL
SparkSQL
-MR、RDD、DataFrame三个编程模型演进
转载自:http://hbasefly.com/2017/02/16/
sparksql
-dataframe/
SparkSQL
历史回顾对
SparkSQL
了解的童鞋或多或少听说过Shark,不错,Shark
扎克begod
·
2023-12-02 10:12
Spark
spark
SparkSQL
数据库时间类型之间的转换魔法
我们将探讨在数据库中时间戳(timestamp)、日期(date)、日期时间(datetime)和字符串之间的转换技巧,覆盖主流数据库如MySQL、Oracle、SQLServer、PostgreSQL以及
SparkSQL
theskylife
·
2023-12-01 11:49
数据分析
数据库
sql
mysql
后端
数据库
spark
SparkSQL
多次检索大表
业务需要检索一个大表的几个字段。方法一:一次性检索出需要的字段,然后cache。方法二:多次检索,每次只检索一个字段。(推荐)先过滤再计算并且在处理中,应该用最小数据量计算,不要携带多余数据。数据处理完再和需要join的表进行join。不要在计算之前就join。join也分为三种方式。详情百度
坐在你的树下
·
2023-11-30 14:41
Spark---
SparkSQL
介绍
一、
SparkSQL
介绍1、SharkShark是基于Spark计算框架之上且兼容Hive语法的SQL执行引擎,由于底层的计算采用了Spark,性能比MapReduce的Hive普遍快2倍以上,当数据全部
30岁老阿姨
·
2023-11-30 13:52
Spark
spark
大数据
分布式
sparkSQL
1.1
Spark1.1.0中变化较大是
sparkSQL
和MLlib,
sparkSQL
1.1.0主要
ryantotti
·
2023-11-30 02:42
本地
sparksql
调试遇到的一些问题
本地
sparksql
调试遇到的一些问题1.报错:HivesupportisrequiredtoCREATEHiveTABLE(ASSELECT)解决办法:在spark中添加.enableHiveSupport
码大哈的园子
·
2023-11-30 02:10
IDEA使用
sparkSQL
方式操作Hudi
环境与依赖对表进行操作打包提交集群运行环境与依赖添加依赖:org.apache.sparkspark-core_2.123.2.2org.apache.sparkspark-sql_2.123.2.2org.apache.sparkspark-hive_2.123.2.2org.apache.hivehive-exec1.2.1mysqlmysql-connector-java5.1.27org.
open_test01
·
2023-11-30 02:37
Hudi
intellij-idea
大数据
hive
解决idea运行时控制台打印日志问题(spark运行时)
今天创建一个
sparkSQL
工程,运行第一个
sparkSQL
程序控制台打印了许多冗余的info级别的日志信息解决方案:在工程项目的资源resources目录下配置一下log4j日志配置文件log4j.rootCategory
CHSN
·
2023-11-30 02:07
学习笔记
学习
idea对spark程序进行远程提交和调试
程序进行远程提交和调试环境利用虚拟机搭建拥有3台主机的spark集群hadoop102hadoop103hadoop104IntelliJIDEA2020.3.2(UltimateEdition)背景知识若要把
SparkSQL
akenseren
·
2023-11-30 02:06
大数据
spark
hive
大数据
SparkSQL
远程调试(IDEA)
启动IntellijIDEA,打开spark源码项目,配置远程调试Run->EditConfiguration启动远程spark-sqlspark-sql--verbose--driver-java-options"-Xdebug-Xrunjdwp:transport=dt_socket,server=y,suspend=y,address=5005"运行远程调试,RUN->Debug‘spark
RainTicking
·
2023-11-30 02:33
大数据
大数据
spark
Spark_spark参数配置优先级
总结:优先级低-》优先级高spark-submit提交的优先级
sparkSQLhintsparksubmit中提交参数#!
高达一号
·
2023-11-29 22:32
Spark
spark
大数据
分布式
Structured Streaming: Apache Spark的流处理引擎
StructuredStreaming是基于Apache
SparkSQL
引擎构建的高级流处理框架。它允许用户使用SQ
俺会hello我的
·
2023-11-29 21:07
spark的一些操作
linq
c#
spark
大数据学习(24)-spark on hive和hive on spark的区别
这里可以理解为Spark通过
SparkSQL
使用Hive语句操作Hive表,底层运行的还是SparkRDD。具体步骤如下:通过
SparkSQL
,加载Hi
viperrrrrrr
·
2023-11-29 17:30
大数据
学习
spark
大数据学习(26)-spark SQL核心总结
&&大数据学习&&系列专栏:哲学语录:承认自己的无知,乃是开启智慧的大门如果觉得博主的文章还不错的话,请点赞+收藏⭐️+留言支持一下博主哦
SparkSQL
是ApacheSpark的一个模块,它用于处理结构化数据
viperrrrrrr
·
2023-11-29 17:30
大数据
学习
spark
解决Spark SQL读数据库时不支持某些数据类型的问题
之前开发数据湖新版本时使用
SparkSQL
来完成ETL的工作,但是遇到了
SparkSQL
不支持某些数据类型(比如ORACLE中的TimestampwithlocalTimezone)的问题。
alexlee666
·
2023-11-28 20:49
StarRocks从入门到精通系列六:使用EXPORT、Spark、Flink从StarRocks中导出数据
StarRocks中导出数据一、使用EXPORT导出数据1.背景信息2.导出流程3.基本原理4.相关配置5.基本操作6.最佳实践二、使用Spark连接器读取数据1.前提条件2.通用参数3.数据样例4.使用
SparkSQL
最笨的羊羊
·
2023-11-28 11:38
大数据
日常分享专栏
大数据
StarRocks
EXPORT
Spark
Flink
SparkSQL
与parquet,处理decimal类型数据时遇到的问题及注意事项
SparkSQL
为了更好的性能,在读写Hivemetastoreparquet格式的表时,会默认使用自己的ParquetSerDe,而不是采用Hive的SerDe进行序列化和反序列化。
雾岛与鲸
·
2023-11-28 11:03
数据仓库
hive
spark
sparksql
自动DataSourceV2源
表模型明细模型:表中会存在主键重复的数据行,并且与导入的数据是完全对应的。您可以召回所导入的全部历史数据。聚合模型:表中不存在主键重复的数据行,主键满足唯一性约束。导入的数据中主键重复的数据行聚合为一行,即具有相同主键的指标列,会通过聚合函数进行聚合。您只能召回导入的全部历史数据的聚合结果,但是无法召回历史明细数据。主键模型和更新模型:表中不存在主键重复的数据行,主键满足唯一性约束。最新导入的数据
大数据启示录
·
2023-11-28 11:00
程序人生
Spark面试题集锦
包含Sparkcore、
Sparksql
、Sparkstreaming、SparkMLlib、sparkGraphX五个核心组件。2、Spark的核心组件是什么?
猿界零零七
·
2023-11-28 09:53
知识总结
spark
大数据
解决
SparkSQL
导致的JVM栈内存溢出方法_尚硅谷大数据培训
当
SparkSQL
的sql语句有成百上千的or关键字时,就可能会出现Driver端的JVM栈内存溢出。
尚硅谷铁粉
·
2023-11-27 16:52
jvm
大数据
java
(转)Spark DataFrame 开发指南
DataFrame是Spark在RDD之后新推出的一个数据集,从属于
SparkSQL
模块,适用于结构化数据。对于我们这些用惯了数据库表和散列/字典结构的人来说,尤为亲切。
达微
·
2023-11-27 06:40
SparkSQL
之catalyst
说到
SparkSQL
,我们不得不提到它的优化器(Catalyst),Catalyst是
Sparksql
的核心,它是针对于
SparkSQL
语句执行过程中的查询优化框架。
临界爵迹
·
2023-11-27 03:34
大数据
spark
利用
SparkSQL
Logical Plan Parse 打造大数据平台SQL诊断利器
前言对一个开源项目来说,虽然各种卷,动不动去深入研究源码啥的,但是没有真正去参与开发的话,了解里头的原理又少那么点感觉。实际情况来说很少机会去参与源码的改造吧,这里我提供一些思路,就是基于源码倒腾一些小工具,这样子有作用而且加深那些原理的理解!利用我们的源码,打造一款SQL的扫描工具~~原理篇Spark被大家津津乐道的经典SQL解析流程Sql语句经过Antlr4解析,生成UnresolvedLog
敏叔V587
·
2023-11-27 03:34
Spark
大数据
工具分享
big
data
spark
SparkSQL
源码解析 SparkPlanner
文章目录物理计划转换过程SparkPlan分类LeafExecNodeUnaryExecNodeBinaryExecNode其他类型的SparkPlanSparkPlannerPlanLaterplanSparkStrategy.applycollectPlaceholdersplaceholders解析prunePlans总结物理计划转换过程从OptimizedLogicalPlan传入到Spa
KD_
·
2023-11-27 03:03
Spark
Spark入门之五:
SparkSQL
的原理以及架构
1、
SparkSQL
的发展历程1.1HiveandShark
SparkSQL
的前身是Shark,给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具,Hive应运而生,它是当时唯一运行在
铁猴
·
2023-11-27 03:03
Spark
Spark入门简单学
Spark
SparkSQL
架构
SparkSQL
讲解
一
SparkSQL
是什么1.1
SparkSQL
的出现契机数据分析的方式数据分析的方式大致上可以划分为SQL和命令式两种:命令式在前面的RDD部分,非常明显可以感觉的到是命令式的,主要特征是通过一个算子,
北山璎珞
·
2023-11-27 03:32
Spark
SparkSQL
SparkSQL学习
sparkSQL
1.1入门之二:
sparkSQL
运行架构
在介绍
sparkSQL
之前,我们首先来看看,传统的关系型数据库是怎么运行的。
chuozhi7142
·
2023-11-27 03:02
scala
数据库
大数据
sparkSQL
1.1入门之二:
sparkSQL
执行架构
在介绍
sparkSQL
之前。我们首先来看看,传统的关系型数据库是怎么执行的。
aofan9566
·
2023-11-27 03:31
scala
数据库
大数据
SparkSQL
之Optimized LogicalPlan生成过程
经过Analyzer的处理,UnresolvedLogicalPlan已经解析成为AnalyzedLogicalPlan。AnalyzedLogicalPlan中自底向上节点分别对应Relation、Subquery、Filter和Project算子。 AnalyzedLogicalPlan基本上是根据UnresolvedLogicalPlan一对一转换过来的,对于SQL语句中的逻辑能够很好
RainTicking
·
2023-11-27 03:31
大数据
大数据
scala
window环境下安装spark
spark是大数据计算引擎,拥有
SparkSQL
、SparkStreaming、MLlib和GraphX四个模块。
FTDdata
·
2023-11-26 22:42
spark
spark
大数据
传统数仓和clickhouse对比
背景传统数仓一般都是Hive+
SparkSql
作为代表,不过也包括Kylin等,而clickhouse是实时OLAP的代表,我们简单看下他们的对比传统数仓和clickhouse对比Hive+
SparkSQL
lixia0417mul2
·
2023-11-26 19:06
clickhouse
clickhouse
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他