E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Spark3
Spark编程实验五:Spark Structured Streaming编程
目录一、目的与要求二、实验内容三、实验步骤1、Syslog介绍2、通过Socket传送Syslog到
Spark3
、Syslog日志拆分为DateFrame4、对Syslog进行查询四、结果分析与实验体会一
Francek Chen
·
2024-02-13 05:49
Spark编程基础
spark
大数据
分布式
syslog
kyuubi 接入starrocks | doris
环境Hadoop集群组件版本Hadoop3.1.1spark3.Xzookeeper3.XHive3.Xkyuubi版本1.7.1starrocks2.X 已将kyuubi部署到yarn上,并且接入了
spark3
甜甜的巧克力阿
·
2024-02-07 09:48
大数据相关
大数据
kyuubi
starrocks
doris
CDH6.3.2 多 Spark 版本共存
一部署Spark客户端1.1部署
spark3
客户端tar-zxvfspark-3.3.1-bin-3.0.0-cdh6.3.2.tgz-C/opt/cloudera/parcels/CDH/libcd/
大数据AI
·
2024-02-05 09:56
大数据从入门到精通
spark
cdh
Iceberg从入门到精通系列之二十一:Spark集成Iceberg
Iceberg从入门到精通系列之二十一:Spark集成Iceberg一、在
Spark3
中使用Iceberg二、添加目录三、创建表四、写五、读六、Catalogs七、目录配置八、使用目录九、替换会话目录十
最笨的羊羊
·
2024-02-02 12:20
日常分享专栏
Iceberg
从入门到精通系列之二十一
Spark集成Iceberg
Spark3
内核源码与优化
文章目录一、Spark内核原理1、Spark内核概述1.1简介1.2Spark核心组件1.3Spark通用运行流程概述2、Spark部署模式2.1YARNCluster模式(重点)2.2YARNClient模式2.3StandaloneCluster模式2.4StandaloneClient模式3、Spark通讯架构3.1Spark通信架构概述3.2Spark通讯架构解析4、Spark任务调度机制
魅Lemon
·
2024-01-26 15:38
大数据
spark
Spark3
学习笔记
文章目录一、Spark基础1、Spark概述1.1Spark简介1.2SparkVSHadoop1.3Spark特点1.4Spark入门Demo2、Spark运行模式2.1概述2.2Local模式2.3Standalone模式2.4配置高可用(Standalone+HA)2.5Yarn模式2.6K8S&Mesos模式2.7Windows模式2.8部署模式对比2.9端口号3、Spark运行架构3.1
魅Lemon
·
2024-01-26 15:38
大数据
spark
Spark 读excel报错,scala.MatchError
Spark3
详细报错:scala.MatchError:Map(treatemptyvaluesasnulls->true,location->viewfs://path.xlsx,inferschema
CoderOnly
·
2024-01-13 10:35
Spark
spark
scala
Apache Kyuubi 讲解与实战操作
Hadoop基础环境安装1)hadoop下载部署包2)创建网络3)部署MySQL4)部署HadoopHive四、SparkKyuubi安装1)下载Kyuubi2)下载Spark32)配置Kyuubi(
Spark3
大数据老司机
·
2023-12-21 02:02
Kyuubi
大数据
Spark
Kyuubi
大数据
Spark3
on Yarn分布式集群安装部署(YARN模式)
Spark3onYarn分布式集群安装部署一、配置spark-defaults.conf二、配置spark-env.sh三、配置yarn-site.xml四、启动Hadoop和Spark集群五、基于YARN的client模式提交命令六、基于YARN的cluster模式提交命令七、关闭Spark、Hadoop集群一、配置spark-defaults.confvim/moudle/spark-3.0.
最笨的羊羊
·
2023-11-30 03:57
大数据
Spark3.0.1
分布式集群搭建
Spark3
分布式集群安装部署(YARN模式)
Spark3
分布式集群安装部署(YARN模式)一、解压
Spark3
二、重命名三、配置
Spark3
环境变量四、修改spark-defaults.conf五、配置yarn-site.xml六、从节点配置七、
最笨的羊羊
·
2023-11-30 02:32
大数据
大数据平台二次开发
Spark3
分布式集群
安装部署(YARN模式)
大数据Hadoop之——Spark on Hive 和 Hive on Spark的区别与实现
文章目录一、SparkonHive和HiveonSpark的区别1)SparkonHive2)HiveonSpark(本章实现)二、HiveonSpark实现1)先下载hive源码包查看spark版本2)下载
spark3
大数据老司机
·
2023-11-10 15:22
spark
hadoop
大数据
spark
hadoop
大数据
Hive3 on
Spark3
配置
1、软件环境1.1大数据组件环境大数据组件版本Hive3.1.2Sparkspark-3.0.0-bin-hadoop3.21.2操作系统环境OS版本MacOSMonterey12.1Linux-CentOS7.62、大数据组件搭建2.1Hive环境搭建1)HiveonSpark说明Hive引擎包括:默认mr、spark、Tez。HiveonSpark:Hive既作为存储元数据又负责SQL的解析优
江畔独步
·
2023-11-10 13:37
Hive
hive
基于k8s搭建spark
standalone模式搭建spark集群helmrepoaddmy-repohttps://charts.bitnami.com/bitnamihelminstallmy-releasemy-repo/
spark3
Rory602
·
2023-10-29 19:48
大数据
spark
基础架构系列篇-基于win10安装
SPARK3
与HADOOP环境
基础架构系列篇-基于win10安装
SPARK3
与HADOOP环境(这里版本是spark-3.1.2hadoop-3.2.0)目录1.下载安装spark(这里版本是spark-3.1.2-bin-hadoop3.2
dong-123456
·
2023-10-26 20:12
大数据
知识点
分布式
big
data
spark
hadoop
hdfs
windows
spark3
使用hive zstd压缩格式总结
ZSTD(全称为Zstandard)是一种开源的无损数据压缩算法,其压缩性能和压缩比均优于当前Hadoop支持的其他压缩格式,本特性使得Hive支持ZSTD压缩格式的表。Hive支持基于ZSTD压缩的存储格式有常见的ORC,RCFile,TextFile,JsonFile,Parquet,Squence,CSV。ZSTD压缩格式的建表方式如下:ORC存储格式建表时可指定TBLPROPERTIES(
雾岛与鲸
·
2023-10-10 19:11
spark
数据仓库
大数据
hive
spark3
spark-sql explain 命令的执行过程
1.SparkSQLDriver对于每个SQL语句,除了CommandFactory定义的,如dfs之外,都创建一个SparkSQLDriver对象,然后调用他的init方法和run方法。overridedefrun(command:String):CommandProcessorResponse={try{valsubstitutorCommand=SQLConf.withExistingCon
houzhizhen
·
2023-09-20 05:45
spark
spark
sql
Spark String Decimal类型引起的问题
问题背景从Spark2到
Spark3
这期间,Spark对于String和Decimal类型的比较会自动转换为Double类型。
wankunde
·
2023-09-09 04:33
spark
spark
big
data
Spark3
中Catalog组件设计和自定义扩展Catalog实现
文章目录
Spark3
中Catalog组件设计catalog管理类继承关系Catalog初始化过程测试自定义Catalog编译和打包测试类切换catalog测试自定义JDBC和Kafka数据源的Catalog
wankunde
·
2023-09-09 04:03
spark
【笔记】
Spark3
AQE(Adaptive Query Execution)
提效7倍,ApacheSpark自适应查询优化在网易的深度实践及改进PerformanceTuning配置SparkSQL开启AdaptiveExecution特性HowToUseSparkAdaptiveQueryExecution(AQE)inKyuubi【spark系列3】spark3.0.1AQE(AdaptiveQueryExection)分析玩转SparkSql优化之3.0特性AQE(
TaiKuLaHa
·
2023-08-22 05:14
spark
笔记
spark
spark3
使用zstd压缩
confspark.sql.files.maxPartitionBytes=2147483648--confspark.sql.files.openCostInBytes=2147483648写出的文件使用zstd压缩,
spark3
荣晓
·
2023-07-27 08:57
spark
spark
Spark3
新特性
SparkAQE自适应查询优化:实现运行时优化,纠正因统计信息不准确导致生成的逻辑计划不完善或有误的问题动态调整JOIN策略:类似于mapjoin优化,将sortMergejoin转换成broadcasthashjoin,也就是将小表当作广播变量分发到另一个表的所有节点上,如此可以减少大量的网络IO。map后将数据量更大的分区分割成若干个较小的分区spark3.0动态分区裁剪:与逻辑计划的谓词下推
February13
·
2023-07-23 06:16
spark
基于Flume+Kafka+Spark-Streaming的实时流式处理完整流程
环境准备,四台测试服务器spark集群三台,spark1,spark2,spark3kafka集群三台,spark1,spark2,spark3zookeeper集群三台,spark1,spark2,
spark3
玩家_7a4c
·
2023-07-21 23:33
基于
Spark3
的个性化推荐系统——理论知识
本博客整理自慕课网实战《基于Spark2.x的个性化推荐系统》目录一.推荐系统的生态介绍1.生态概述2.常见问题3.效果评测二.协同过滤推荐算法原理1.基于用户的协同过滤2.基于物品的协同过滤3.基于模型的协同过滤4.缺失值填充三.ALS算法原理一.推荐系统的生态介绍1.生态概述数据算法基于关联的推荐算法:如购买鞋子的顾客,会有10%的顾客会买袜子。有Apriori算法和FP-Growth算法。基
程研板
·
2023-07-21 13:08
#
推荐系统
推荐系统
算法
协同过滤
机器学习
大数据期末总结
文章目录一、这学期分别学习了Scala、spark、spring、SpringMvc、SpringBoot1、scala2、
spark3
、spring4、SpringMvc5、SpringBoot二、总结一
人生苦短@我用python
·
2023-06-14 06:01
大数据
实践数据湖iceberg 第十六课 通过
spark3
打开iceberg的认知之门
系列文章目录实践数据湖iceberg第一课入门实践数据湖iceberg第二课iceberg基于hadoop的底层数据格式实践数据湖iceberg第三课在sqlclient中,以sql方式从kafka读数据到iceberg实践数据湖iceberg第四课在sqlclient中,以sql方式从kafka读数据到iceberg(升级版本到flink1.12.7)实践数据湖iceberg第五课hivecat
*星星之火*
·
2023-04-14 03:51
iceberg
spark
数据湖
iceberg
spark
flink
实践数据湖iceberg 第十七课 hadoop2.7,
spark3
on yarn运行iceberg配置
系列文章目录实践数据湖iceberg第一课入门实践数据湖iceberg第二课iceberg基于hadoop的底层数据格式实践数据湖iceberg第三课在sqlclient中,以sql方式从kafka读数据到iceberg实践数据湖iceberg第四课在sqlclient中,以sql方式从kafka读数据到iceberg(升级版本到flink1.12.7)实践数据湖iceberg第五课hivecat
*星星之火*
·
2023-04-14 03:51
iceberg
spark
数据湖
iceberg
yarn
spark
实践数据湖iceberg 第十五课
spark3
安装与集成iceberg0.13 (jersey包冲突,安装完成)
系列文章目录实践数据湖iceberg第一课入门实践数据湖iceberg第二课iceberg基于hadoop的底层数据格式实践数据湖iceberg第三课在sqlclient中,以sql方式从kafka读数据到iceberg实践数据湖iceberg第四课在sqlclient中,以sql方式从kafka读数据到iceberg(升级版本到flink1.12.7)实践数据湖iceberg第五课hivecat
*星星之火*
·
2023-04-14 03:50
iceberg
flink
spark
数据湖
iceberg
Spark3
每个job之间任务间隔过长
公司的跑批引擎从impala改成
Spark3
已经有一个多月了。不得不说,跑批稳定了好多。资源控制有相对稳定了很多。
Spark3
比CDH的hiveonspark2.4.0要快不少。
黑眼圈@~@
·
2023-03-30 02:28
Spark
hive
hadoop
大数据
spark
iceberg-Spark3.0SQL 测试案例
点击下载spark2.4和
spark3
的驱动包。
黑眼圈@~@
·
2023-03-30 02:57
iceberg
Kyuubi 解锁 Spark SQL on CDH 6
随着Spark3.0的重磅发布,在性能方面又迎来了一次飞跃,本文将描述把
Spark3
集成到CDH6.3.1(未开启Kerberos)的过程,并使用Kyuubi替换HiveServer2,实现OLAP、ETL
517001e7cb6e
·
2023-01-28 19:10
Hive支持的计算引擎
目前Hive支持MapReduce、Tez和
Spark3
种计算引擎。MapReduce计算引擎在Hive2.0之后不推荐MR作为计算引擎。
zhuhaiqin
·
2022-12-29 13:39
hive
大数据
hive
Spark安装
参考
Spark3
的详细安装步骤_Mercury_春秋的博客-CSDN博客_
spark3
安装下载Indexof/apache/spark要根据字节的hadoop版本来选择因为我这里使用的是3.3的hadoop
赶圩归来阿理理
·
2022-12-06 23:15
大数据
spark
big
data
scala
通过
spark3
打开iceberg的认知之门
(试过spark3.2.1不行)测试spark操作iceberg增删改查以及时间旅游功能1.安装
spark3
安装前准备:hadoop已经安装,并配置HADOOP_HOME,HADOOP_CONF_DIR
sizhi_xht
·
2022-11-24 16:24
大数据
spark
大数据
hadoop
cento7
spark3
安装 anaconda安装
一、Spark部署安装1.SparkLocal模式搭建文档在本地使用单机多线程模拟Spark集群中的各个角色1.1安装包下载目前Spark最新稳定版本:课程中使用目前Spark最新稳定版本:3.1.x系列https://spark.apache.org/docs/3.1.2/index.html注意1:Spark3.0+基于Scala2.12http://spark.apache.org/down
小柒心得
·
2022-11-22 02:36
spark
大数据
hadoop
spark3
总结——分区数对带有初始值聚合操作的影响
主题在sparkRDD的转换操作中,有几个比较特殊的聚合操作,很容易受到分区数的影响,很容易迷惑初学者,比如fold,aggregate等,他们都有初始值zeroValue,在多分区数据集的情况下,初始值的加入和分区数的变化,会导致不同的计算结果。因为他们在分区内部做一次带有zeroValue的聚合后,在对不同分区聚合结果进行合并的时候,会再做一次带有zeroValue的聚合。我们看如下代码pac
肥猪猪爸
·
2022-09-28 07:12
大数据
spark
大数据
scala
Spark3.0 使用域名连接ElasticSearch
希望我把数据写进这个地址然后使用
spark3
进行连接,后面发现连接不上,报错如下HadoopIllegalArgumentEXceptio
pete1223
·
2022-02-28 11:47
spark
elasticsearch
spark
第四十天(4月30日)
1学习时间一个番茄钟2学习内容
spark3
学习总结晚上聚餐未学习,下午学习了大概1个小时,未开番茄钟,学习效率一般
forrse
·
2022-02-20 04:10
第三十七天(4月27日)(补)
1学习时间学了一个番茄钟的spark2学习内容
spark3
学习总结很勉强的学习了一会,学习效果一般
forrse
·
2022-02-17 02:24
黑猴子的家:sample 随机抽样
1、Codevalsamplerdd=sc.makeRDD(Array("spark1","spark2","
spark3
","spark4","spark5","hadoop1","hadoop2",
黑猴子的家
·
2022-02-15 19:08
Spark3
学习【基于Java】3. Spark-Sql常用API
学习一门开源技术一般有两种入门方法,一种是去看官网文档,比如GettingStarted-Spark3.2.0Documentation(apache.org),另一种是去看官网的例子,也就是%SPARK_HOME%\examples下面的代码。打开IDEA,选择File-Open...跟前面文章中方法一样导入jars目录到classpath。Spark解析json字符串第一个例子是读取并解析Js
山不在高水不在深
·
2021-12-03 19:00
Spark3
学习入门【基于Java】
Spark是离线数据处理的一种大数据技术,和Flick相比数据处理要延后,因为Flick是实时数据处理,而Spark需要先读取数据到内存。Spark的库是基于Scala写的,虽然Scala也是运行在jvm上的,但是Spark提供的Javaapi的能力和原生api并不完全相同,据说执行效率也有微弱差异。但是scala语法比较难,编码也不如Java规范,用的人和企业越来越少。为了更好推广和更好交接,我
山不在高水不在深
·
2021-12-03 11:00
hudi clustering 数据聚集(三 zorder使用)
环境1、直接下载master分支进行编译,本地使用
spark3
,所以使用编译命令:mvncleanpackage-DskipTests-Dspark32、启动spark-shell,需要指定编译出来的jar
努力爬呀爬
·
2021-11-13 15:00
最简单的-flume-ng-集群搭建
hadoop集群搭建方案hive单机搭建方案hbase集群搭建方案storm集群搭建方案flume集群搭建方案
spark3
集群搭建方案机器:10.211.55.67master10.211.55.68slave110.211.55.69slave2
夜幕.思年华
·
2020-09-13 19:51
大数据
Spark_Streaming 对接Kafka的好多坑
不过现在还没提交到集群运行)Kafka0.8.2.10.8.Spark_Streaming://创建Receiver流的一个要点//“zookeeper.connect”->“spark1:2181,spark2:2181,
spark3
Garb_v2
·
2020-09-11 03:56
spark
【Spark】大数据+AI mettup【视频笔记】
1.概述
spark3
多了一个自适应处理逻辑,就是在执行几个execuplain之后,spark已经能够收集到机器的一些信息,然后就可以自适应,优化,该自适应优化,不是一次性优化完,是逐步随着运行,逐渐优化的
九师兄
·
2020-08-23 18:59
大数据-spark
Flink安装部署
spark1作为master,spark2为work1,
spark3
为worker2。另
weixin_33985679
·
2020-08-18 12:14
Spark3
Mac单机环境搭建
Spark3.0Mac单机环境搭建1相关准备1.1JDK安装1.2Scala安装2Spark安装配置2.1Spark下载2.2Spark环境配置2.2.1配置spark-env文件2.2.2环境变量配置3Local模式测试1相关准备 若已配置JDK和Scala,可跳过此步骤。1.1JDK安装 Spark需要JDK版本8以上,以下以JDK8安装为例JDK下载地址:https://www.orac
猫新人
·
2020-07-15 00:54
centos通过脚本文件ssh其他机器无法jps,提示命令找不到
/usr/bin/bashecho"showjps"foriin{"spark1","spark2","
spark3
"};doecho"#####
秋裤侠呀
·
2020-07-12 13:42
传音非洲发布会,与国内真的不一样
此次新品发布会,传音用了“点燃时间(Timetolightup),来发布其新机
SPARK3
,卖点为人工智能美颜。TECNO成立于2006年,总部位于深圳,业务遍及全球50多个国家。它现在是非洲三大
梦境长安
·
2020-07-10 17:23
浪尖以案例聊聊
spark3
的动态分区裁剪
动态分区裁剪,其实就牵涉到谓词下推,希望在读本文之前,你已经掌握了什么叫做谓词下推执行。SparkSql中外连接查询中的谓词下推规则动态分区裁剪比谓词下推更复杂点,因为他会整合维表的过滤条件,生成filterset,然后用于事实表的过滤,从而减少join。当然,假设数据源能直接下推执行就更好了,下推到数据源处,是需要有索引和预计算类似的内容。1.静态数据集分区谓词下推执行下面sql是为例SELEC
大数据星球-浪尖
·
2020-07-10 01:48
上一页
1
2
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他