E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
——Spark
Spark
调优之 --
Spark
的并行度深入理解(别再让资源浪费了)
1.并行度理解
Spark
作业中,各个stage的task的数量,代表
Spark
作业在各个阶段stage的并行度。
erainm
·
2023-10-01 19:36
Spark
spark
spark
SQL 任务参数调优1
1.背景要了解
spark
参数调优,首先需要清楚一部分背景资料
Spark
SQL的执行原理,方便理解各种参数对任务的具体影响。
浩海紫冰
·
2023-10-01 19:06
大数据
大数据
spark
24Hibench
HiBenchisabigdatabenchmarksuitethathelpsevaluatedifferentbigdataframeworksintermsofspeed,throughputandsystemresourceutilizations.ItcontainsasetofHadoop,
Spark
andstreamingworkloads
sorry_maker
·
2023-10-01 17:29
hibench
Spark
性能监测+集群配置
spark
-dashboard参考链接架构图
Spark
官网中提供了一系列的接口可以查看任务运行时的各种指标运行卸载dockerhttps://blog.csdn.net/wangerrong/article
sorry_maker
·
2023-10-01 17:28
spark
大数据
分布式
spark-dashboard
集群配置
Linux上怎样检查我的
spark
版本
1、先找到你安装
spark
的根目录2、进入bin目录就可以进入
spark
的shell了。退出命令::quit
你的保护色
·
2023-10-01 17:37
123
zookeeper第一章:集群搭建
zookeeper第一章:集群搭建文章目录系列文章目录前言一、软件下载二、单机模式三、集群模式四、启动脚本总结前言zookeeper是apache基金会下的一个分布式管理框架,可以用来管理Hadoop,
spark
超哥--
·
2023-10-01 16:36
zookeeper
java-zookeeper
zookeeper
分布式
Hudi第二章:集成
Spark
(二)
系列文章目录Hudi第一章:编译安装Hudi第二章:集成
Spark
Hudi第二章:集成
Spark
(二)文章目录系列文章目录前言一、IDEA1.环境准备2.代码编写1.插入数据2.查询数据3.更新数据4.
超哥--
·
2023-10-01 15:34
Hudi学习专栏
spark
大数据
分布式
第3.8章:StarRocks数据导入--
Spark
Load
Spark
Load是通过外部的
Spark
资源实现对导入数据的预处理,进而提高StarRocks大数据量的导入性能,同时也可以节省StarRocks集群的计算资源。
流木随风
·
2023-10-01 12:42
StarRocks
spark
hadoop
big
data
数据仓库
StarRocks从入门到精通系列五:导入数据
StarRocks从入门到精通系列五:导入数据一、导入总览二、从ApacheKafka®持续导入三、使用Apache
Spark
™批量导入四、从ApacheFlink持续导入一、导入总览下图详细展示了在各种数据源场景下
最笨的羊羊
·
2023-10-01 12:42
大数据
StarRocks
从入门到精通系列
导入数据
spark
练习案例_
spark
模式体育课案例
自2001年课程改革以来体育课堂教学异彩纷呈,呈现出了百花齐放的良好态势,体育课教学质量有了很大的提高,新的教育教学理念深入人心,三维健康观,三维评价观在课堂教学中得以凸显,在新课程理念的引领下广大体育教师的教育教学能力、综合素养也得到提升。特别是这几年的优质课评比、展示课和教学能手比赛等活动,为我们一线体育教师搭建了一个展示自己教学风采和观摩学习的平台,从中走出了一大批优秀教师。在实际教学中大家
苟渝
·
2023-10-01 09:18
spark练习案例
spark
driver打包程Jar包提交到集群上之后抛了以下异常:Exceptioninthread"main"java.lang.SecurityException:InvalidsignaturefiledigestforManifestmainattributesatsun.security.util.SignatureFileVerifier.processImpl(SignatureFileVer
Gpwner
·
2023-10-01 04:30
spark
spark
Antlr4
Antlr4是一个强大的解析器的生成器,可以用来读取、处理、执行或翻译结构化文本,ANTLR可以从语法上来生成一个可以构建和遍历解析树的解析器,最出名的
Spark
计算引擎2.x就是用它来解析SQL的,是一个牛到没朋友的家伙
大猪大猪
·
2023-10-01 03:59
Spark
运行模式----Standalone模式
构建一个由Master+Slave构成的
Spark
集群,
Spark
运行在集群中。
_云起
·
2023-10-01 01:02
Spark
调优
Spark
参数调优:num-executors建议:一般设置50~100左右executors-memory建议:4G8G,不超过整个集群资源的1/31/2executor-cores每个Excutor
你值得拥有更好的12138
·
2023-10-01 00:20
OSCAR开源产业大会重磅来袭,六大亮点抢先看!
云计算与云原生领域的OpenStack,Kubernetes及Docker,大数据和人工智能领域的Hadoop,
Spark
,TensorFlow等更是凭借开源模式,在各
开源社
·
2023-09-30 22:14
大数据
人工智能
区块链
微软
编程语言
Hudi第二章:集成
Spark
系列文章目录Hudi第一章:编译安装Hudi第二章:集成
Spark
文章目录系列文章目录前言一、安装
Spark
1、安装
Spark
2.安装hive二、
spark
-shell1.启动命令2.插入数据3.查询数据
超哥--
·
2023-09-30 20:39
Hudi学习专栏
spark
大数据
分布式
2020-02-07
spark
归档镜像地址
https://archive.apache.org/dist/
spark
/
spark
-2.1.1/
燕青在简书
·
2023-09-30 20:33
spark
sql操作数据
文章目录1、创建Dataset2、实现反射机制推断schema3、编程方式定义Schema4、
spark
操作mysql数据库在windows操作5、
spark
操作Hive数据出现bug1无法访问/export
侬本多情。
·
2023-09-30 20:31
spark数据分析
spark
sql
hive
Spark
SQL 介绍
文章目录
Spark
SQL1、Hiveon
Spark
SQL2、
Spark
SQL优点3、
Spark
SQL特点1)容易整合2)统一的数据访问3)兼容Hive4)标准的数据连接4、DataFrame是什么5、DataSet
气质&末雨
·
2023-09-30 20:30
spark
spark
sql
数据库
Spark
SQL
Spark
SQL一、
Spark
SQL概述二、准备
Spark
SQL的编程环境三、
Spark
SQL程序编程的入口四、DataFrame的创建五、DataFrame的编程风格六、DataSet的创建和使用七、
Augenstern K
·
2023-09-30 20:29
Spark
spark
sql
大数据
Hive09---字符串拼接,转json等
Intro 常用hive字符串拼接函数,转json等操作importpy
spark
importpy
spark
.sql.functionsfrompy
spark
.sqlimport
Spark
Session
维格堂406小队
·
2023-09-30 16:50
#
★★Hive
hive
20211005
了解了在
spark
-shell中,初始化了
spark
session,️
spark
session又创建了
spark
context名为sc,用
spark
session(
spark
)读文本为
spark
.read.textFile
Sophie12138
·
2023-09-30 16:22
Flume入门(sink配置kafka)
环境分析:上一节我们的服务日志最终用logger打印,这个只是一个测试,生成环境不能这样使用,那么生产环境一般会把日志保存在hdfs中或通过kafka传送给实时计算框架比如
spark
streaming进行实时计算
南山小和尚
·
2023-09-30 15:49
ChatGPT详细搭建教程+支持AI绘画
一、AI创作系统
Spark
Ai系统是基于很火的GPT提问进行开发的Ai智能问答系统。本期针对源码系统整体测试下来非常完美,可以说
Spark
Ai是目前国内一款的ChatGPT对接OpenAI软件系统。
只恨天高
·
2023-09-30 14:58
人工智能
教程
chatgpt
人工智能
最新AI写作系统ChatGPT源码/支持GPT4.0+GPT联网提问/支持ai绘画Midjourney+Prompt+MJ以图生图+思维导图生成
一、AI创作系统
Spark
Ai系统是基于很火的GPT提问进行开发的Ai智能问答系统。本期针对源码系统整体测试下来非常完美,可以说
Spark
Ai是目前国内一款的ChatGPT对接OpenAI软件系统。
只恨天高
·
2023-09-30 14:58
人工智能
教程
程序源码
人工智能
chatgpt
源码软件
midjourney
别再人云亦云了!!!你真的搞懂了RDD、DF、DS的区别吗?
对于
Spark
来说,有三套API。分别是:RDDDataFrameDataSet三套的API,开发人员就要学三套。不过,从
Spark
2.2开始,DataFrame和DataSe
Jimmy2019
·
2023-09-30 13:28
Hbase - 自定义Rowkey规则
中我们有时候需要分析数据1点到2点的范围,可是经过Region又比较慢,这时候我们就可以定制TableInputFormat来实现我们的需求了,我们还可以采用Flink的DataSet的方式读取,另外下面还有
Spark
kikiki2
·
2023-09-30 12:50
Spark
RDD 编程指南(官方文档中文版+补充)
Spark
RDD编程指南(官方文档中文版+补充)1.总览
Spark
提供的主要抽象是弹性分布式数据集(RDD),它是跨集群节点划分的元素的集合,可以并行操作。
袭明
·
2023-09-30 08:55
大数据——
Spark
GraphX介绍
一、GraphX介绍
Spark
GraphX是一个分布式图处理框架,它是基于
Spark
平台提供对图计算和图挖掘简洁易用的而丰富的接口,极大的方便了对分布式图处理的需求。
Vicky_Tang
·
2023-09-30 08:43
大数据
spark
graphx
py
spark
笔记(RDD,DataFrame和
Spark
SQL)
https://github.com/QInzhengk/Math-Model-and-Machine-LearningPy
Spark
RDD和DataFrame1.
Spark
Session介绍2.
Spark
Session
qq742234984
·
2023-09-30 05:51
sql
spark
大数据
26Hbase介绍及其数据模型和架构(hbase学习1)
Hbase介绍Hadoop生态系统
spark
已经替代mahouthbase简介:非关系型数据库知识面扩展cassandra、hbase、mongodb(文档型数据库)、rediscouchdb,文件存储数据库
文茶君
·
2023-09-30 03:08
【
Spark
】Job触发流程原理
1.通过例子分析下:vallines=sc.textFile()首先,hadoopFile()方法的调用,会创建一个HadoopRDD,其中的元素是(key,value)pair,key是HDFS或文本文件的每一行的offset,value就是文本行。然后对HadoopRDD调用map()方法,会剔除key,只保留value,然后会获得一个MapPartitionRDD,MapPartitionR
果果小姚
·
2023-09-30 01:22
spark
工作原理和介绍
https://zhuanlan.zhihu.com/p/34436165https://zhuanlan.zhihu.com/p/704246131.介绍
Spark
是专为大规模数据处理而设计的快速通用的计算引擎
摩V羯座
·
2023-09-30 01:06
Scala
目前
Spark
是新一代的内存型大数据计算框架,是目前大数据技术生态圈中非常主流的一门技术。
_Levi__
·
2023-09-30 00:05
大数据工程师零基础起步——成长路线引入
即学即写,持续更新中大数据开发基础1编程语言1.1JAVA1.2Scala(优先级靠后,有遇到需要用的时候再学,如
Spark
)2数据结构和算法3计算机网络4操作系统5数据库基础6设计模式7LINUX系统
ElsaWu1998
·
2023-09-29 22:16
大数据工程师
大数据
hadoop
6个人如何维护上千规模的大数据集群?
其中6人的离线团队需要维护大数据集群规模如下:Hadoop集群规模1300+HDFS存量数据40+PB,Read3.5PB+/天,Write500TB+/天14WMRJob/天,10W
Spark
Job/
Alukar
·
2023-09-29 22:41
浅谈UE4的序列化
【U
Spark
le专栏】如果你深怀绝技,爱“搞点研究”,乐于分享也博采众长,我们期待你的加入,让智慧的火花碰撞交织,让知识的传递生生不息!
UWA
·
2023-09-29 22:15
U
Sparkle
精华来稿
ue4
java
算法
spark
使用snakeyaml读取配置时,总是找不到对象
spark
读取配置文件的时候使用到了snakeyaml包.读取配置时总是报错如下图org.yamlsnakeyaml1.26image.png解决://错误的写法,在本地测试可以使用valyaml=newYaml
wangliang938
·
2023-09-29 20:12
Hadoop、
Spark
、Storm、Flink区别及选择
hadoop、
spark
、storm、flink如何选择hadoop和
spark
是更偏向于对大量离线数据进行批量计算,提高计算速度storm和flink适用于实时在线数据,即针对源源不断产生的数据进行实时处理
墨痕诉清风
·
2023-09-29 19:52
大数据
hadoop
spark
storm
Scala写入文件时乱码解决
今天在需要将
spark
操作后的数据保存到本地文件时出现乱码问题,现在记录下来valwriter=newPrintWriter(newFile("E://data/gps_bus_data01.txt")
鬼古神月
·
2023-09-29 17:32
py
spark
检测任务输出目录是否空,避免读取报错
前言在跑调度任务时候,有时候子任务需要依赖前置任务的输出,但类似读取Parquet或者Orc文件时,如果不判断目录是否为空,在输出为空时会报错,所以需要check一下,此外Hadoop通常在写入数据时会在目录中生成一个名为_SUCCESS的文件来表示写入操作已成功完成,我们在检测时要排除这个文件HDFSAPI判断frompy4j.java_gatewayimportjava_importfromp
三劫散仙
·
2023-09-29 16:49
Hadoop
Java
python
python
java
hadoop
hdfs
spark
基础学习(一)
spark
就是处理大数据的一个重要的技术。本系列文章主要由浅入深,从基础到复杂来介绍
spark
技术的各个方面。本文简要介绍
spark
的基本组件,并从
spark
对数据的核心抽
senju
·
2023-09-29 15:58
Spark
初体验
Spark
是大数据领域一款很流行的云计算系统。之前主要是做Hive,但是Hive相对于
Spark
来说就显得有点慢了,很多公司都渐渐的在使用
Spark
来替换Hive进行大数据分析。
BIGrey
·
2023-09-29 14:09
docer安装hadoop
基于Docker构建Hadoop平台0.绪论使⽤Docker搭建Hadoop技术平台,包括安装Docker、Java、Scala、Hadoop、Hbase、
Spark
。
汉卿HanQ
·
2023-09-29 13:59
hadoop
eureka
大数据
《从0到1学习
Spark
》--DataFrame和Dataset探秘
昨天小强带着大家了解了
Spark
SQL的由来、
Spark
SQL的架构和
Spark
SQL四大组件:
Spark
SQL、DataSourceApi、DataFrameApi和DatasetApi。
小强的进阶之路
·
2023-09-29 10:53
本地
Spark
连接服务器hive测试HADOOP_HOME and hadoop.home.dir are unset 报错处理
一般是windows才会出现这个问题请看下面的解决方案:第一步:下载winutils-master.zip蓝奏云:https://www.lanzous.com/i55ccnc如果你安装的hadoop版本是:3.1.2或者3.2.0就用winutils-master里面的hadoop-3.0.0配置环境变量吧!第二步:配置环境变量1,新建系统变量2,编辑path变量第三步:重启idea或者ecli
MnerX
·
2023-09-29 07:53
数据仓库
Spark
Hive
apache
spark
hive
hadoop
历史服务器
二、配置历史服务器在
spark
-3.1.1-bin-hadoop2.7/conf/
spark
-defaults.conf添加以下配置,其中d:/log/
spark
为日志保存位置
spark
.eventLog.enabledtrue
spark
.eventLog.dirfile
qq_40135006
·
2023-09-29 06:14
服务器
spark
大数据知识图谱笔记
大数据组件繁多,五花八门,这里花了几天时间针对以前笔记的Hadoop、
Spark
两大生态圈的相关组件进行了分类整理,用简短的几句话对相关特性进行了总结描述,强化记忆,供学习、选型、面试。
*沧海明月*
·
2023-09-29 06:59
大数据
hadoop
spark
大数据
hive
hdfs
spark
笔记
spark
分布式计算框架
spark
不是部署分布式的只是client而已=》hive
spark
支持分布式部署=》standalone1.
spark
产生背景?
qq_47721411
·
2023-09-29 06:59
spark
spark
学习笔记
文章目录1,
spark
架构2,
spark
部署模式3,
spark
单机模式4,standalone模式5,
spark
onyarn6,idea写代码直接提交yarn7,RDD缓存持久化8,
spark
从mysql
大数据男
·
2023-09-29 06:27
hadoop实战
spark
scala
big
data
上一页
71
72
73
74
75
76
77
78
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他