E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark技术篇
【
Spark
】Ubuntu16.04
spark
集群安装 (standalone模式)
一、前言目前Apache
Spark
支持三种分布式部署方式,分别是:standalone
spark
onmesos
spark
onYARN其中,第一种类似于MapReduce1.0所采用的模式,内部实现了容错性和资源管理
w1992wishes
·
2023-11-26 11:50
DBT踩坑第二弹
总结下dbt-
spark
踩到的坑,连接方式采用的是thrift连接+Kerberos认证。
淡定一生2333
·
2023-11-26 10:02
DBT
数据库
掌握
spark
3.0中的查询计划
本文翻译自MasteringQueryPlansin
Spark
3.0,能够很好的帮助学习
spark
sql理解
spark
UI的计划,决定翻译记录一下。
鸿乃江边鸟
·
2023-11-26 09:16
AIGC创作系统ChatGPT网站源码、支持最新GPT-4-Turbo模型、GPT-4图片对话能力+搭建部署教程
一、AI创作系统
Spark
Ai创作系统是基于ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统,支持OpenAI-GPT全模型+国内AI全模型。
白云如幻
·
2023-11-26 09:50
人工智能
ChatGPT
软件源码
chatgpt
AIGC
人工智能
(转载)
Spark
任务输出文件过程详解
一、
Spark
任务输出文件的总过程当一个Job开始执行后,输出文件的相关过程大概如下:1、Job启动时创建一个目录:${output.dir}/_temporary/${appAttemptId}作为本次运行的输出临时目录
淡定一生2333
·
2023-11-26 09:09
Spark学习
Spark
任务输出文件过程详解
文章目录一、
Spark
任务输出文件的总过程二、Commit细节分析1、commitTask介绍1.1、判断是否需要commit1.2、task的commit细节2、commitJob介绍三、V1和V2commiter
疯狂哈丘
·
2023-11-26 09:07
spark
大数据
spark输出文件
spark
spark任务性能优化
简略
Spark
输出
http://blog.jobbole.com/86232/
Spark
(和Py
Spark
)的执行可以特别详细,很多INFO日志消息都会打印到屏幕。
chenlongzhen_tech
·
2023-11-26 09:37
python
python
Spark
SQL输入输出
1、对于
Spark
SQL的输入需要使用
spark
Session.read方法1)、通用模式
spark
Session.read.format("json").load("path")支持类型:parquet
sinat_36710456
·
2023-11-26 09:37
大数据
Spark
SQL
输入
输出
spark
输出结果压缩(gz)
如果不想往下看,可以直接看结果:maxCallRdd.repartition(3).saveAsTextFile(path,GzipCodec.class);恩,没错。就只这么一行简单的代码实现了gz压缩,但是为什么网上一直没找到呢,这个我不太清楚,可能是他们没碰到吧。最近项目的需求,其实很简单,就是将输出结果以.gz的格式压缩,每个压缩包的大小不能超过100M,而且压缩包的名称也有要求,就是要以
fjr_huoniao
·
2023-11-26 09:00
spark
spark
gz压缩
【
spark
】控制日志输出的方法
目录一、控制日志输出方法二、代码测试一、控制日志输出方法1、使用
spark
默认的log4j配置文件设置日志输出级别Logger.getLogger("org.apache.
spark
").setLevel
郝少
·
2023-11-26 09:30
大数据
Spark技术经验
spark
日志
Spark
Streaming(四)——输出
输出操作如下:1)print():在运行流程序的驱动结点上打印DStream中每一批次数据的最开始10个元素。这用于开发和调试。2)saveAsTextFiles(prefix,[suffix]):以text文件形式存储这个DStream的内容。每一批次的存储文件名基于参数中的prefix和suffix。”prefix-Time_IN_MS[.suffix]”。3)saveAsObjectFile
爱喝水的绿萝
·
2023-11-26 09:29
spark
streaming
spark
大数据
big
data
Spark
导出
3
Spark
导出在使用
Spark
之前,先将编译好的classes导出为jar比较好,可以$sbt/sbtassembly将
Spark
及其依赖包导出为jar,放在core/target/
spark
-core-assembly
a2261504394
·
2023-11-26 09:59
Spark
多文件输出的两种形式
#所需环境版本jdk=1.8scala.version=2.11.0
spark
.version=2.3.2hadoop.verison=2.7.2importorg.apache.hadoop.io.
一只咸鱼va
·
2023-11-26 09:58
spark
spark
scala
大数据
使用
Spark
进行结构化流处理并将结果输出到终端或指定位置
使用
Spark
进行结构化流处理并将结果输出到终端或指定位置
Spark
是一个强大的大数据处理框架,提供了许多功能强大的组件,其中包括StructuredStreaming,它是
Spark
的流处理引擎。
心之所向,或千或百
·
2023-11-26 09:24
spark
linq
大数据
Hadoop+Hive+
Spark
+Hbase开发环境练习
app/data/exam查看csv文件行数[root@kb129~]#hdfsdfs-cat/app/data/exam/meituan_waimai_meishi.csv|wc-l2.分别使用RDD和
Spark
SQL
不吃香菜lw
·
2023-11-26 07:48
hadoop
hive
spark
滑动窗口rolling详解
文章目录引言PandasDataFrame参数详解Py
Spark
Dataframe基本程序参数详解参考文献引言为了提升数据的准确性,将某个点的取值扩大到包含这个点的一段区间,用区间来进行判断,这个区间就是窗口
安替-AnTi
·
2023-11-26 03:37
机器学习
pandas
rolling
滑动窗口
pyspark
Spark
Streaming + Kafka Integration Guide 位置策略和消费策略
新的Kafka消费者API可以预获取消息缓存到缓冲区,因此
Spark
整合Kafka让消费者在executor上进行缓存对性能是非常有助的,可以调度消费者所在主机位置的分区。
七_seven
·
2023-11-26 02:55
使用
spark
读取SQLserver数据
com.microsoft.sqlserversqljdbc44.0关于依赖参考链接https://www.cnblogs.com/benfly/p/12671965.htmlimportorg.apache.
spark
.sql.
Spark
SessionobjectSqlServerR
都教授2000
·
2023-11-25 22:22
大数据
数据库
日志关键信息处理
spark
任务异常失败后,需要重启任务任务需要一个时间参数dhdh是动态的向后流动的因此每次重启的任务这个参数都是不同的如何知道上次失败的时候dh执行到了何处需要借助任务执行日志来确定思路:从日志文件中根据关键词
都教授2000
·
2023-11-25 22:46
大数据
shell
linux
spark
Day68 Kafka 快速实战 核心原理
Storm/
Spark
流式处理引擎web/nginx,访问日志消息服务开放统一接口给consumerhadoop,hbase等.装载到hadoop,数仓etl做离线分析和数据挖掘.ScreenShot2022
小周爱吃瓜
·
2023-11-25 21:31
spark
资源动态释放
通过
spark
-submit会固定占用一占的资源,有什么办法,在任务不运作的时候将资源释放,让其它任务使用呢,yarn新版本默认已经支持了,我们使用的是HDP。
kikiki2
·
2023-11-25 19:37
基于centos7的hadoop2.7、zookeeper3.5、hbase1.3、
spark
2.3、scala2.11、kafka2.11、hive3.1、flume1.8、sqoop1.4组件部署
部署前准备修改主机名1、修改主机名(6台机器都要操作,以Master为举例)hostnamectlset-hostnameMaster(永久修改主机名)reboot(重启系统)修改hosts将第一行127.0.0.1xxxx注释掉,加上:195.168.2.127master195.168.2.128slave1195.168.2.129slave2确认网卡信息vi/etc/sysconfig/n
luoz_python
·
2023-11-25 19:42
大数据平台运维
hadoop
大数据
spark
flume
kafka
Scala深海奇遇记-当case class遇到了
Spark
的聚集函数
自从知道有caseclass这个东西以后,一直都比较常用这个东西。但是,最近在测试的时候,突然发现,其实这个东西并不简单,它导致了一个看起来很无厘头的错误,并且花了我两天的时间来调试。在这篇文章里,我会详细记录调试的过程,以及结论。致谢在调试的过程中,得到了我们Hadoop组老大,项目组老大,以及其他同事的深度支持与帮助,非常感谢他们。结论先说结论。如果有朋友不感兴趣,不想深究原理,只是想知道怎么
AlstonWilliams
·
2023-11-25 18:58
在dss中运行scala任务报java.lang.NullPointerException: null
版本信息:dss:1.1.1linkis1.1.1hadoop:3.1.3hive:3.1.2
spark
:3.0.0修改文件:
Spark
ScalaExecutor.scala修改文件内容如下:上图红色标记内容
heheha_zj
·
2023-11-25 18:18
dss
or
linkis
Kafka系列 - Kafka一篇入门
很多分布式处理系统,例如
Spark
,Flink等都支持与Kafka集成。Kafka使用场景消息系统:Kafka实现了消息顺序性保证和回溯消费。
胡桃姓胡,蝴蝶也姓胡
·
2023-11-25 17:01
Kafka庖丁解牛
kafka
分布式
HBase探索篇 _ OpenJdk15编译并部署CDH版HBase
javax.annotation不存在3.4maven-shade-plugin升级版本3.5程序包javax.xml.ws.http不存在3.6SomeEnforcerruleshavefailed.3.7hbase-
spark
大猿小猿向前冲
·
2023-11-25 14:20
HBase专题
hbase
Hadoop发行版 Cloudera CDH 6.3.2及CM 安装包下载(阿里云盘 不限速)
全称Cloudera’sDistribution,includingApacheHadoop)是由Cloudera公司构建的Hadoop稳定发行版,不仅含有ApacheHadoop,还整合了Hive、
Spark
风情客家__
·
2023-11-25 14:11
大数据框架
CDH
6.3.2
告别百度网盘,搭建自己的专属网盘 ——Cloudreve,不限制下载速度!
支持多家云存储驱动的公有云文件系统.演示站•讨论社区•文档•下载•Telegram群组•许可证:
spark
les:特性:cloud:支持本机、从机、七牛、阿里云OSS、腾讯云COS、又拍云、OneDrive
顺哥博客
·
2023-11-25 13:51
宝塔面板
服务器
nginx
Spark
项目报错。SLF4J: Class path contains multiple SLF4J bindings.
此问题出现是因为有依赖包冲突,解决方案是将org/apache/logging/log4j/log4j-slf4j-impl/2.4.1依赖包删除。在本地Maven仓库找到相应的目录,删除,重新运行项目就可以了。1、删除包2、正常运行
Enjoy404
·
2023-11-25 11:05
报错合集
大数据
spark
Sql, dataframe, Dataset 和 Streaming编程指南
四:
spark
Sql,dataframe,Dataset4.1:
Spark
SQL的用法之一是执行SQL查询,它也可以从现有的Hive中读取数据
Spark
Session:
Spark
中所有功能的入口是
Spark
Session
醉舞经阁半卷书A
·
2023-11-25 10:57
spark
资源动态释放
通过
spark
-submit会固定占用一占的资源,有什么办法,在任务不运作的时候将资源释放,让其它任务使用呢,yarn新版本默认已经支持了,我们使用的是HDP。
kikiki2
·
2023-11-25 09:13
玩转人工智能(11)使用Py
spark
上手机器学习
文件系统HDFSHadoopDistributedFileSystem,简称HDFS,是一个分布式文件系统。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。GlusterFS是一个集群的文件系统,支持PB级的数据量。GlusterFS通过RDMA和TCP/IP方式将分布到不同服务器上的存储空间汇集成一个大的网络化并行文件系统。
Moscar_M
·
2023-11-25 07:10
(二)大数据---Hadoop组件介绍,区别
文章目录文件系统数据存储内存技术数据搜集消息系统数据处理查询引擎分析和报告工具调度与管理服务机器学习开发平台Hive,Impala,pig区别HDFS:分布式文件系统YARN:分布式资源管理MapReduce、
Spark
(─__─)
·
2023-11-25 07:37
Hadoop
hadoop
big
data
大数据
Spark
SQL 时间格式处理
初始化
Spark
Sqlpackagepbcp_2023.clear_dataimportorg.apache.
spark
.
Spark
Confimportorg.apache.
spark
.sql.
Spark
Sessionimportorg.apache.
spark
.sql.functions
小辉懂编程
·
2023-11-25 05:29
hive等)
spark
sql
大数据
最新Midjourney绘画提示词Prompt教程无需魔法
最新Midjourney绘画提示词Prompt教程无需魔法使用一、AI绘画工具
Spark
Ai【无需魔法使用】:
Spark
Ai是目前国内一款的ChatGPT对接OpenAI软件系统。
白云如幻
·
2023-11-25 05:27
人工智能
教程
chatgpt
midjourney
AIGC
人工智能
AI作画
prompt
最新AIGC创作系统ChatGPT网站源码,Midjourney绘画系统,支持GPT-4图片对话能力(上传图片并识图理解对话),支持DALL-E3文生图
一、AI创作系统
Spark
Ai创作系统是基于OpenAI很火的ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统,支持OpenAI-GPT全模型+国内AI全模型。
白云如幻
·
2023-11-25 05:21
人工智能
AIGC
软件源码
chatgpt
人工智能
AIGC
midjourney
云计算实验4 面向行业背景的大数据分析与处理综合实验
一、实验目的掌握分布式数据库接口
Spark
SQL基本操作,以及训练综合能力,包括:数据预处理、向量处理、大数据算法、预测和可视化等综合工程能力二、实验环境Linux的虚拟机环境和实验指导手册三、实验任务完成
MrNeoJeep
·
2023-11-25 04:06
#
云计算
云计算
数据分析
大数据
大数据分析与应用实验任务八
大数据分析与应用实验任务八实验目的进一步熟悉py
spark
程序运行方式;熟练掌握pysaprkRDD基本操作相关的方法、函数。
陈希瑞
·
2023-11-25 04:05
spark
大数据分析与应用实验任务九
大数据分析与应用实验任务九实验目的进一步熟悉py
spark
程序运行方式;熟练掌握pysaprkRDD基本操作相关的方法、函数,解决基本问题。
陈希瑞
·
2023-11-25 04:31
数据分析
数据挖掘
spark
(建模
技术篇
)
针对这段时间大家比较好奇的3D人像摄影馆火热现状,我们在上一篇文章中讲述了目前3D打印技术已经成熟的状态,也介绍了制作真人模型之前的步骤,也就是数据获取的过程。今天我们继续挖掘这个生意的下一个环节:如何制作真人3D模型。真人建模技术在获取了真人影像之后就要做建模,对这件事有过调研的朋友会知道,只要肯学习,借助一台能够带动复杂算法的计算机,使用专业软件就能制作三维模型,软件里包含对整个一组真人影像进
博雅弘拓科技
·
2023-11-25 03:23
3d
flink中Task、SubTask的理解
Task对照
Spark
中的Stage阶段;SubTask对照
Spark
中的task
xuning_et
·
2023-11-25 01:34
flink
大数据
Spark
---
Spark
Core(一)
一、术语与宽窄依赖1、术语解释1、Master(standalone):资源管理的主节点(进程)2、ClusterManager:在集群上获取资源的外部服务(例如:standalone,Mesos,Yarn)3、WorkerNode(standalone):资源管理的从节点(进程)或者说管理本机资源的进程4、DriverProgram:用于连接工作进程(Worker)的程序5、Executor:是
30岁老阿姨
·
2023-11-25 01:20
Spark
spark
大数据
分布式
Spark
---补充算子
一、
Spark
补充Transformation算子1、join,leftOuterJoin,rightOuterJoin,fullOuterJoin作用在K,V格式的RDD上。
30岁老阿姨
·
2023-11-25 01:50
Spark
spark
大数据
分布式
spark
任务提交方式yarn-client和yarn-cluster对比
spark
中yarn模式有两种任务提交方式,分别是yarn-client模式和yarn-cluster模式,其区别如下:一、yarn-client任务提交方式1、yarn-client模式提交任务后,会在客户端启动
伊一cherry大数据
·
2023-11-25 01:18
spark
大数据
hadoop
Spark
-----第 2 章
Spark
部署模式
Spark
支持多种集群管理器(ClusterManager),分别为:Standalone:独立模式,
Spark
原生的简单集群管理器,自带完整的服务,可单独部署到一个集群中,无需依赖任何其他资源管理系统
Wzideng
·
2023-11-25 01:18
#
spark
spark
大数据
分布式
spark
yarn 提交_
Spark
系列--提交任务流程
1.
Spark
基于StandaLone的任务提交模式StandaLone提交任务有两种模式,一种是基于客户端Client提交任务,另一种是集群cluster提交任务。
谷俊丽
·
2023-11-25 01:18
spark
yarn
提交
Spark
on YARN运行过程,YARN-Client和YARN-Cluster
Spark
onYARN运行过程YARN是一种统一资源管理机制,在其上面可以运行多套计算框架。
高个子男孩
·
2023-11-25 01:17
Spark
spark
大数据
hadoop
Spark
on yarn——
Spark
提交任务到yarn集群源码分析
目录一、入口类——
Spark
Submit二、
Spark
Application启动——JavaMainApplication、YarnClusterApplication三、
Spark
Context初始化四
编程小王子啊
·
2023-11-25 01:17
CSDN大数据专栏
spark
大数据
hdfs
java
架构
实战py
spark
基于yarn模式提交任务成功踩坑
1.背景最近的项目使用yarn提交py
spark
的任务,遇到了不少坑,目前已经成功地跑通了基于client和cluster两种模式的任务提交。特此记录一下。
euler1983
·
2023-11-25 01:16
pyspark
spark
大数据
hadoop
spark
submit——yarn模式参数调优
spark
官网上的参数默认值设置:https://
spark
.apache.org/docs/latest/configuration.html#
spark
-streaming此处记录一下最近整理的
spark
凌寒独自开
·
2023-11-25 01:16
大数据
spark
yarn
大数据
上一页
40
41
42
43
44
45
46
47
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他