E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
大数据处理Spark
什么是
Spark
开发?
1、核心开发:离线批处理/延迟性的交互式数据处理2、SQL查询:底层都是RDD和计算操作3、实时计算:底层都是RDD和计算操作
一个人一匹马
·
2023-12-27 17:54
Flink实时电商数仓之Doris框架(七)
主要实现的功能有:实时看板面向企业内部分析师和管理者的报表面向用户或者客户的高并发报表分析即席查询统一数仓构建:替换了原来由
Spark
,Hive,Kudu,Hbase等旧框架数据湖联邦查询:通过外表的方式联邦分析位于
十七✧ᐦ̤
·
2023-12-27 16:47
flink
大数据
doris
Spark
使用mariadb驱动读取AWS Aurora所有结果数据行都是列名
目录一、使用mariadb驱动读取AWSAurora二、df.show()的内容三、解决办法一、使用mariadb驱动读取AWSAuroraval
spark
=
Spark
Session.builder()
瞎胡侃
·
2023-12-27 15:28
大数据
spark
mariadb
aws
java.lang.IllegalArgumentException: requirement failed: No output operations registered, so nothi...
Spark
Streaming报错java.lang.IllegalArgumentException:requirementfailed:Nooutputoperationsregistered,sonothingtoexecute
扣篮的左手
·
2023-12-27 14:58
Spark
与Hadoop的关系和区别
在大数据领域,
Spark
和Hadoop是两个备受欢迎的分布式数据处理框架,它们在处理大规模数据时都具有重要作用。本文将深入探讨
Spark
与Hadoop之间的关系和区别,以帮助大家的功能和用途。
晓之以理的喵~~
·
2023-12-27 12:13
Spark
spark
hadoop
大数据
Spark
生产集群各种使用
1.环境配置1.1版本说明要求版本是否必须其他事项Hadoop3.3.4是hadoop3.3.0之后原生支持国内主要对象存储Hive3.1.3否实测没有Hive也可以使用
spark
sql,使用hive更好的管理
tuoluzhe8521
·
2023-12-27 10:15
hive相关
spark
大数据
分布式
七牛云存储
Flink on K8S集群搭建及StreamPark平台安装
1.环境准备1.1介绍在使用Flink&
Spark
时发现从编程模型,启动配置到运维管理都有很多可以抽象共用的地方,目前streampark提供了一个flink一站式的流处理作业开发管理平台,从流处理作业开发到上线全生命周期都做了支持
tuoluzhe8521
·
2023-12-27 10:45
flink
flink
kubernetes
大数据
StreamPark
Harbor
删除azkaban的执行历史
azkaban通常用在大数据任务调度场景,把任务提交之后,如果任务是
spark
,hive,hadoop,flink等任务的话,
飞有飞言
·
2023-12-27 07:09
Spark
的生态系统概览:
Spark
SQL、
Spark
Streaming
Apache
Spark
是一个强大的分布式计算框架,用于大规模数据处理。
Spark
的生态系统包括多个组件,其中两个重要的组件是
Spark
SQL和
Spark
Streaming。
晓之以理的喵~~
·
2023-12-27 06:35
Spark
spark
sql
大数据
[
spark
] 存储到hdfs时指定分区
在
Spark
SQL中指定多个分区字段进行数据存储:类似hive分区存储文章目录代码示例代码importorg.apache.
spark
.sql.
Spark
Sessionval
spark
=
Spark
Session.builder
言之。
·
2023-12-27 06:33
spark
hdfs
大数据
米哈游大数据云原生实践
以
Spark
为例,在云上运行
Spark
可以充分享有公共云的弹性资源、运维管控和存储服务等,并且业界也涌现了不少
Spark
onKubernetes的优秀实践。
阿里云云原生
·
2023-12-27 06:31
大数据
云原生
[
spark
] DataFrame 的 checkpoint
在Apache
Spark
中,DataFrame的checkpoint方法用于强制执行一个物理计划并将结果缓存到分布式文件系统,以防止在计算过程中临时数据丢失。
言之。
·
2023-12-27 06:29
spark
大数据
分布式
[
spark
] dataframe的cache方法
在Apache
Spark
中,DataFrame的cache方法用于将DataFrame的计算结果缓存到内存中,以便在后续的操作中能够更快地访问这些数据。
言之。
·
2023-12-27 06:59
spark
大数据
分布式
doris基本操作,03-导入数据-Broker Load
因为Doris表里的数据是有序的,所以Brokerload在导入数据的时是要利用doris集群资源对数据进行排序,相对于
Spark
load来完成海量历史数据迁移,对Doris的集群资源占用要比较大,这种方式是在用户没有
车前猛跑
·
2023-12-27 05:46
数据开发
doris
数据开发
orc小文件合并趣谈
这里增量数据采用
Spark
SQL以动态分区增量写入的方
艾伦_alan
·
2023-12-27 01:02
分布式系统面试连环炮
他们有共同的一个问题,就是都没怎么搞过分布式系统,现在互联网公司,一般都是做分布式的系统,大家都不是做底层的分布式系统、分布式存储系统hadoophdfs、分布式计算系统hadoopmapreduce/
spark
Java机械师
·
2023-12-26 23:13
为什么
Spark
比MapReduce快?
MapReduce慢是因为模型很呆板,频繁的Io操作
Spark
快的话不仅是因为它是内存迭代计算吧?具体什么是内存迭代计算?
tracy_668
·
2023-12-26 23:00
NET中使用SQLSugar操作sqlserver数据库
主要特点:简单易用、功能齐全、高性能、轻量级、服务齐全、支持全自动分表组件,SAAS分库,
大数据处理
的ORM。二、迁移和建表安装包:SqlSugar
我是一只小小鱼~
·
2023-12-26 21:22
WebApi
.Net
core
.netcore
Java 已死、前端已凉
让我们来详细探讨一下这个话题:Java的地位:Java作为一种编程语言和平台,自1995年推出以来,一直在企业级应用、Android应用开发、
大数据处理
等领域占据重要地位。
终将老去的穷苦程序员
·
2023-12-26 17:18
java
前端
开发语言
【
Spark
-HDFS小文件合并】使用
Spark
实现 HDFS 小文件合并
【
Spark
-HDFS小文件合并】使用
Spark
实现HDFS小文件合并1)导入依赖2)代码实现2.1.HDFSUtils2.2.MergeFilesApplication需求描述:1、使用
Spark
做小文件合并压缩处理
bmyyyyyy
·
2023-12-26 17:15
Spark
spark
hdfs
大数据
#HDFS小文件合并
datasophon组件安装时踩坑记录
identifiedby'xxxx';1.安装hdfs后有一个namenode进程未启动解决:在那个未启动的节点上执行hdfsnamenode-bootstrapStandby之后在web页面重启hdfs2.hiveon
spark
州周
·
2023-12-26 17:56
hadoop
hdfs
大数据
主流级显卡的新选择,
Spark
le(撼与科技)Intel Arc A750兽人体验分享
如果要在ArcA系列当中选一个性能不俗,能够满足生产力与游戏需求,价格方面又不会太高的显卡,那么我手上的这张
Spark
le(撼与科技)的IntelArcA750兽人OC显卡就是一个不错的选择。
资讯看点
·
2023-12-26 14:48
业界资讯
六:
Spark
集群安装和部署
ubuntu16.04系统;(2)Master节点:内存分配2g;Slave1节点:内存分配512MB;Slave2节点:内存分配512MB;2.安装路径:(1)Hadoop2.6.5:/usr/local/;(2)
Spark
2.6.0
玉成226
·
2023-12-26 10:21
spark
大数据
Spark
实战高手之路职业学习路线图
从零起步,分阶段无任何障碍逐步掌握大数据统一计算平台
Spark
,从
Spark
框架编写和开发语言Scala开始,到
Spark
企业级开发,再到
Spark
框架源码解析、
Spark
与Hadoop的融合、商业案例和企业面试
smileyboy2009
·
2023-12-26 10:56
hadoop
spark
spark
hadoop
hadoop3.0x 后要比
spark
快10倍!
Apachehadoop项目组最新消息,hadoop3.x以后将会调整方案架构,将Mapreduce基于内存+io+磁盘,共同处理数据其实最大改变的是hdfs,hdfs通过最近black块计算,根据最近计算原则,本地black块,加入到内存,先计算,通过IO,共享内存计算区域,最后快速形成计算结果。hadoop3.0后会大改mapreduce计算模型,就让我们拭目以待吧!目前hadoop版本是2.
smileyboy2009
·
2023-12-26 10:56
hadoop
spark
内存
mapreduce
spark
hdfs
hadoop
Java
Spark
Sql 2.4.0 ArrayIndexOutOfBoundsException error
在
spark
2.4中报ArrayIndexOutOfBoundsException原因是
Spark
2.4.0中引用的paranamer版本是2.7导致问题。
smileyboy2009
·
2023-12-26 10:56
spark
Iceberg1.4.2 java 表管理(DDL和DML)操作
既然是一种开放的表管理格式,那就不应该依赖hadoop,hive,
spark
,flink
smileyboy2009
·
2023-12-26 10:26
java
开发语言
spark
和flink对比
最近网上和各大公司在对比
spark
和flink,也有一部分人,演讲时不分析代码原理,不根据事实,直接吹嘘flink比
spark
好,flink能干掉
spark
的话,今天就跟大家从技术,应用和未来发展角度对两个产品进行对比
smileyboy2009
·
2023-12-26 10:25
spark
flink
数据仓库
大数据
iceberg1.4.2+
spark
3.4.2+minio
在idea里面编写iceberg的数据写入和创建表动作,虽然简单,但是官网没有给出完整例子,包括jar包的依赖。最大的坑就是版本不兼容。通过下面完整例子,编写Iceberg的完整代码。pom.xml文件需要引入的包org.scala-langscala-library${scala.version}junitjunit4.4testorg.specsspecs1.2.5testorg.apache
smileyboy2009
·
2023-12-26 10:25
spark
idea开发delta.io数据湖
通过idea的
spark
操作delta.ideamaven的pom.xmlio.miniominio8.5.7org.apache.
spark
spark
-core_2.123.5.0o
smileyboy2009
·
2023-12-26 10:52
intellij-idea
java
ide
pycharm连接虚拟机
前言:我们默认用户已经在虚拟机上安装好了
spark
等相关集群和生态,是可以在虚拟机中运行相关的操作,比如mapper,reducer操作,rdd,dataframe等等杂七杂八的东西的(主要我也没太明白
俺会hello我的
·
2023-12-26 07:22
pycharm
ide
spark
:RDD编程(Python版)
RDD运行原理RDD设计背景许多选代目前的MapReduce框架都是把中间结果写入到稳定存储(比如磁盘)中带来了大量的数据复制、磁盘IO和序列化开销RDD就是为了满足这种需求而出现的,它提供了一个抽象的数据架构,我们不必担心底层数据的分布式特性,只需将具体的应用逻辑表达为一系列转换处理,不同RDD之间的转换操作形成依赖关系,可以实现管道化,避免中间数据存储。RDD概念一个RDD就是一个分布式对象集
Mineba
·
2023-12-26 07:43
大数据技术
spark
python
SpringBoot 2 集成
Spark
3
*+
Spark
3.*,如果还未安装相关环境,请参考:
Spark
初始CentOS7安装Hadoop3单机版SpringBoot2集成
Spark
3pom.xmlSpringBootCaseorg.example1.0
在奋斗的大道
·
2023-12-26 06:12
Java架构专栏
深蓝计划
hadoop
spark
大数据
分布式
iceberg1.4.2 +minio通过
spark
创建表,插入数据
下层支持hadoop,s3,对象存储,上层支持hive,
spark
,flink等应用。实现在中间把两部分隔离开来,实现一种对接和数据管理的标准。有这个标准,不管是谁建的表,都可以操作和访问。
smileyboy2009
·
2023-12-26 06:39
spark
大数据
分布式
count distinct在
spark
中的运行机制
(*),SUM(items),COUNT(DISTINCTproduct),COUNT(DISTINCTcategory)FROMorders;假设源数据分布在两个1核的结点上,数据就8行Expand
spark
SLUMBER_PARTY_
·
2023-12-26 06:08
spark
大数据
【Linux系统基础】(6)在Linux上大数据NoSQL数据库HBase集群部署、分布式内存计算
Spark
环境及Flink环境部署详细教程
大数据NoSQL数据库HBase集群部署简介HBase是一种分布式、可扩展、支持海量数据存储的NoSQL数据库。和Redis一样,HBase是一款KeyValue型存储的数据库。不过和Redis设计方向不同Redis设计为少量数据,超快检索HBase设计为海量数据,快速检索HBase在大数据领域应用十分广泛,现在我们来在node1、node2、node3上部署HBase集群。安装HBase依赖Zo
老牛源码
·
2023-12-26 06:13
Linux教程
大数据
分布式
linux
Spark
Core
一、RDD详解1.1什么是RDDRDD(ResilientDistributedDataset)叫做弹性分布式数据集,是
Spark
中最基本的数据抽象,代表一个不可变、可分区、里面的元素可并行计算的集合。
weixin_50458070
·
2023-12-26 06:40
大数据
大数据
Hadoop——分布式计算
分布式计算常见的2种工作模式分散->汇总(MapReduce就是这种模式)将数据分片,多台服务器各自负责一部分数据处理然后将各自的结果,进行汇总处理最终得到想要的计算结果中心调度->步骤执行(大数据体系的
Spark
weixin_50458070
·
2023-12-26 06:38
大数据
hadoop
大数据
分布式
最新ChatGPT商业运营网站程序源码,支持Midjourney绘画,GPT语音对话+DALL-E3文生图+文档对话总结
一、前言
Spark
Ai创作系统是基于ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统,支持OpenAI-GPT全模型+国内AI全模型。
白云如幻
·
2023-12-26 06:23
人工智能
AIGC
ChatGPT
人工智能
chatgpt
语音识别
midjourney
AI作画
毕业设计选题 - 计算机毕业设计(论文)选题合集
目录前言选题背景意义毕业设计选题深度学习与神经网络计算机视觉与图像处理机器学习与数据挖掘数据分析和
大数据处理
选题迷茫选题的重要性更多选题指导最后前言大四是整个大学期间最忙碌的时光,一边要忙着准备考研,考公
weixin_55149953
·
2023-12-26 02:37
毕业设计
人工智能
毕业设计
毕设
目标跟踪
计算机视觉
大数据
算法
LabVIEW在齿轮箱故障诊断中的应用
利用LabVIEW强
大数据处理
和仿真能力,开发了一个先进的齿轮箱故障诊断系统。该系统主要采用小波包的独立分量分析(ICA)方法,有效地提取齿轮箱的故障特征频段。
LabVIEW开发
·
2023-12-26 00:36
labview
LabVIEW开发
LabVIEW
LabVIEW编程
spark
运行时异常:org.apache.
spark
.
Spark
Exception: Could not find CoarseGrainedScheduler.
org.apache.
spark
.
Spark
Exception:CouldnotfindCoarseGrainedScheduler.atorg.apache.
spark
.rpc.netty.Dispatcher.postMessage
安安DE爸爸
·
2023-12-25 23:00
大数据
yarn
spark
spark
大数据
spark
启动程序命令
/
spark
-submit--master
spark
://hive01:7077--deploy-modeclient--classorg.apache.
spark
.examples.
Spark
Pi..
安安DE爸爸
·
2023-12-25 23:00
spark
hadoop
yarn
spark
yarn
client
cluster
黑猴子的家:
Spark
RDD 之 Hadoop 输入输出(数据读取与保存的主要方式之一)
1、hadoopRDD和newHadoopRDD
Spark
的整个生态系统与Hadoop是完全兼容的,所以对于Hadoop所支持的文件类型或者数据库类型,
Spark
也同样支持.另外,由于Hadoop的API
黑猴子的家
·
2023-12-25 23:05
计算机毕业设计之
Spark
+SpringBoot+Vue.js数字迎新系统小程序App 新生报到系统小程序App 新生缴费系统小程序App 大数据毕业设计
开发技术前端:vue.jsecharts后端:springboot+mybatis数据分析:
Spark
数据库:mysql配套资料配置教程、说明书、操作手册、源代码手册配套资料完整源码资料完整资料创新点Excel
计算机毕业设计大神
·
2023-12-25 21:35
Spark
数据倾斜解决方案四:使用随机Key进行双重聚合
在使用reduceByKey,groupByKey算子时,都是针对PairRDD进行操作,那么,我们就可以PairRDD的每个元素的Key加上一个随机数前缀,这样的话,之前存在的大量相同而导致数据倾斜问题的Key就会被重新打散,从而避免数据倾斜。在进行第一轮聚合之前,先把原先的Key加上一个随机数前缀(10以内的就可以),然后对随机的Key进行聚合操作,这是可以看到,之前相同的Key都会被分到一个
hipeer
·
2023-12-25 20:55
【早安心语】
【2021-4-6】早安春夏秋冬Everyonehastimeswhentheyfeelthattheyarenotgoodenoughandwhentheyadmirethe
spark
lesofothers
壹典心理咨询
·
2023-12-25 19:26
机器学习或深度学习的数据读取工作(
大数据处理
)
机器学习或深度学习的数据读取工作(
大数据处理
)主要是.split和re.findall和glob.glob运用。
xiaiming0
·
2023-12-25 18:19
机器学习
深度学习
人工智能
Spark
- 动态注册UDF
昨天有位大哥问小弟一个
Spark
问题,他们想在不停
Spark
程序的情况下动态更新UDF的逻辑,他一问我这个问题的时候,本猪心里一惊,
Spark
**还能这么玩?
kikiki2
·
2023-12-25 16:04
2023_
Spark
_实验三十三:配置Standalone模式
Spark
3.4.2集群
实验目的:掌握
Spark
Standalone部署模式实验方法:基于centos7部署
Spark
standalone模式集群实验步骤:一、下载
spark
软件下载的时候下载与自己idea里对应版本的
spark
News
pblh123
·
2023-12-25 15:42
Spark实验
Linux
Spark
spark
大数据
分布式
上一页
27
28
29
30
31
32
33
34
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他