E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Spark安装部署
【头歌实训】
Spark
完全分布式的安装和部署
文章目录第1关:Standalone分布式集群搭建任务描述相关知识课程视频
Spark
分布式安装模式示例集群信息配置免密登录准备
Spark
安装包配置环境变量修改
spark
-env.sh配置文件修改slaves
撕得失败的标签
·
2023-12-27 20:56
【头歌实训】
分布式
spark
大数据
头歌实训
【头歌实训】
Spark
完全分布式的安装和部署(新)
文章目录第1关:Standalone分布式集群搭建任务描述相关知识课程视频
Spark
分布式安装模式主机映射免密登录准备
Spark
安装包配置环境变量修改
spark
-env.sh配置文件修改slaves文件分发安装包启动
撕得失败的标签
·
2023-12-27 20:56
【头歌实训】
分布式
spark
wpf
头歌实训
【头歌实训】Py
Spark
Streaming 入门
文章目录第1关:
Spark
Streaming基础与套接字流任务描述相关知识
Spark
Streaming简介Python与
Spark
StreamingPython
Spark
StreamingAPI
Spark
Streaming
撕得失败的标签
·
2023-12-27 20:54
【头歌实训】
pyspark
streaming
头歌实训
【知乎大数据技术】用Flink取代
Spark
Streaming!知乎实时数仓架构演进
“数据智能”(DataIntelligence)有一个必须且基础的环节,就是数据仓库的建设,同时,数据仓库也是公司数据发展到一定规模后必然会提供的一种基础服务。从智能商业的角度来讲,数据的结果代表了用户的反馈,获取结果的及时性就显得尤为重要,快速的获取数据反馈能够帮助公司更快的做出决策,更好的进行产品迭代,实时数仓在这一过程中起到了不可替代的作用。本文主要讲述知乎的实时数仓实践以及架构的演进,这包
yoku酱
·
2023-12-27 19:34
Impala 基于hive的交互式实时分析工具(一) 概念及原理介绍
技术背景impala是参照谷歌的新三篇论文(caffeine-网络搜索引擎,pregel-图形数据库,dremel-瞬时类sql查询)当中的dremel而来,号称是当前大数据领域最快的sql查询工具,比
spark
sql
章云邰
·
2023-12-27 19:59
Spark
与Py
Spark
(1.概述、框架、模块)
目录1.
Spark
概念2.Hadoop和
Spark
的对比3.
Spark
特点3.1运行速度快3.2简单易用3.3通用性强3.4可以允许运行在很多地方4.
Spark
框架模块4.1
Spark
Core4.2
Spark
SQL4.3
Spark
Streaming4.4MLlib4.5GraphX5
还是那个同伟伟
·
2023-12-27 18:06
Spark
spark
大数据
分布式
python
什么是
Spark
开发?
1、核心开发:离线批处理/延迟性的交互式数据处理2、SQL查询:底层都是RDD和计算操作3、实时计算:底层都是RDD和计算操作
一个人一匹马
·
2023-12-27 17:54
Flink实时电商数仓之Doris框架(七)
主要实现的功能有:实时看板面向企业内部分析师和管理者的报表面向用户或者客户的高并发报表分析即席查询统一数仓构建:替换了原来由
Spark
,Hive,Kudu,Hbase等旧框架数据湖联邦查询:通过外表的方式联邦分析位于
十七✧ᐦ̤
·
2023-12-27 16:47
flink
大数据
doris
Spark
使用mariadb驱动读取AWS Aurora所有结果数据行都是列名
目录一、使用mariadb驱动读取AWSAurora二、df.show()的内容三、解决办法一、使用mariadb驱动读取AWSAuroraval
spark
=
Spark
Session.builder()
瞎胡侃
·
2023-12-27 15:28
大数据
spark
mariadb
aws
java.lang.IllegalArgumentException: requirement failed: No output operations registered, so nothi...
Spark
Streaming报错java.lang.IllegalArgumentException:requirementfailed:Nooutputoperationsregistered,sonothingtoexecute
扣篮的左手
·
2023-12-27 14:58
Spark
与Hadoop的关系和区别
在大数据领域,
Spark
和Hadoop是两个备受欢迎的分布式数据处理框架,它们在处理大规模数据时都具有重要作用。本文将深入探讨
Spark
与Hadoop之间的关系和区别,以帮助大家的功能和用途。
晓之以理的喵~~
·
2023-12-27 12:13
Spark
spark
hadoop
大数据
Spark
生产集群各种使用
1.环境配置1.1版本说明要求版本是否必须其他事项Hadoop3.3.4是hadoop3.3.0之后原生支持国内主要对象存储Hive3.1.3否实测没有Hive也可以使用
spark
sql,使用hive更好的管理
tuoluzhe8521
·
2023-12-27 10:15
hive相关
spark
大数据
分布式
七牛云存储
Flink on K8S集群搭建及StreamPark平台安装
1.环境准备1.1介绍在使用Flink&
Spark
时发现从编程模型,启动配置到运维管理都有很多可以抽象共用的地方,目前streampark提供了一个flink一站式的流处理作业开发管理平台,从流处理作业开发到上线全生命周期都做了支持
tuoluzhe8521
·
2023-12-27 10:45
flink
flink
kubernetes
大数据
StreamPark
Harbor
docker部署elasticsearch:8.6.2, kibana,logstash 版本以及kibana的使用
elasticsearch服务2.3访问验证2.4建一个索引试试,此索引名为my-book,有六个字段2.5用GET命令获取索引信息试试,如下,符合预期2.6再试试批量导入一笔数据,从这个地址下载数据文件2.7docker
安装部署
HappyLearnerL
·
2023-12-27 08:08
elasticsearch
docker
java
删除azkaban的执行历史
azkaban通常用在大数据任务调度场景,把任务提交之后,如果任务是
spark
,hive,hadoop,flink等任务的话,
飞有飞言
·
2023-12-27 07:09
Spark
的生态系统概览:
Spark
SQL、
Spark
Streaming
Apache
Spark
是一个强大的分布式计算框架,用于大规模数据处理。
Spark
的生态系统包括多个组件,其中两个重要的组件是
Spark
SQL和
Spark
Streaming。
晓之以理的喵~~
·
2023-12-27 06:35
Spark
spark
sql
大数据
[
spark
] 存储到hdfs时指定分区
在
Spark
SQL中指定多个分区字段进行数据存储:类似hive分区存储文章目录代码示例代码importorg.apache.
spark
.sql.
Spark
Sessionval
spark
=
Spark
Session.builder
言之。
·
2023-12-27 06:33
spark
hdfs
大数据
米哈游大数据云原生实践
以
Spark
为例,在云上运行
Spark
可以充分享有公共云的弹性资源、运维管控和存储服务等,并且业界也涌现了不少
Spark
onKubernetes的优秀实践。
阿里云云原生
·
2023-12-27 06:31
大数据
云原生
[
spark
] DataFrame 的 checkpoint
在Apache
Spark
中,DataFrame的checkpoint方法用于强制执行一个物理计划并将结果缓存到分布式文件系统,以防止在计算过程中临时数据丢失。
言之。
·
2023-12-27 06:29
spark
大数据
分布式
[
spark
] dataframe的cache方法
在Apache
Spark
中,DataFrame的cache方法用于将DataFrame的计算结果缓存到内存中,以便在后续的操作中能够更快地访问这些数据。
言之。
·
2023-12-27 06:59
spark
大数据
分布式
doris基本操作,03-导入数据-Broker Load
因为Doris表里的数据是有序的,所以Brokerload在导入数据的时是要利用doris集群资源对数据进行排序,相对于
Spark
load来完成海量历史数据迁移,对Doris的集群资源占用要比较大,这种方式是在用户没有
车前猛跑
·
2023-12-27 05:46
数据开发
doris
数据开发
【大数据HA】HAProxy实现thrift协议HMS服务的高可用-附Chatgpt协助截图
背景之前安装了HMS(Hivemetastoreservice),独立于hive运行,
安装部署
过程见我下面列出的另一篇文章,需要为它建立HA高可用功能。防止在访问时出现单点故障问题。
秦拿希
·
2023-12-27 05:08
hive
大数据
metastore
HMS
HAProxy
MongoDB ReplicaSet 部署
1.环境准备单机MongoDB
安装部署
,可参考MongoDB单机部署文档。IPHostnameRole172.16.104
Bing@DBA
·
2023-12-27 04:21
mongodb
数据库
orc小文件合并趣谈
这里增量数据采用
Spark
SQL以动态分区增量写入的方
艾伦_alan
·
2023-12-27 01:02
分布式系统面试连环炮
他们有共同的一个问题,就是都没怎么搞过分布式系统,现在互联网公司,一般都是做分布式的系统,大家都不是做底层的分布式系统、分布式存储系统hadoophdfs、分布式计算系统hadoopmapreduce/
spark
Java机械师
·
2023-12-26 23:13
为什么
Spark
比MapReduce快?
MapReduce慢是因为模型很呆板,频繁的Io操作
Spark
快的话不仅是因为它是内存迭代计算吧?具体什么是内存迭代计算?
tracy_668
·
2023-12-26 23:00
Linux(Centos7)下
安装部署
clickhouse(详细版)
1.clickhouse简介ClickHouse是俄罗斯的Yandex于2016年开源的列式存储数据库(DBMS),使用C++语言编写,主要用于在线分析处理查询(OLAP),能够使用SQL查询实时生成分析数据报告。2.ClickHouse的安装2.1确定防火墙处于关闭状态2.2CentOS取消打开文件数限制在/etc/security/limits.conf文件的末尾加入以下内容vim/etc/s
不爱吃香菜23.0
·
2023-12-26 22:16
linux
clickhouse
运维
DolphinScheduler 2.0.5详解
DolphinScheduler1.2DolphinScheduler特性1.3配置建议1.3.1Linux操作系统版本要求1.3.2服务器建议配置1.3.3生产环境1.3.4网络要求1.3.5客户端Web浏览器要求第二章DolphinScheduler
安装部署
大数据东哥(Aidon)
·
2023-12-26 22:05
大数据
任务调度
DS
DolphinSchedule
dolphinschedule
阿里云ECS
安装部署
nginx,前端在linux服务器安装使用nginx
记录一下阿里云ECS部署nginx,以及一些小小的坑。对于本篇文章大家有不理解的可以留言或私信,大家一起探讨共同进步!肯定是要先买个服务器了,我只是想玩玩,就买最便宜的就好了,够用。注意:买完需要重置一下密码,连接服务器需要输入密码;使用Xshell和Xftp或者MobaXterm连接服务器。服务器的系统我选择的是centOS,这里我是用的是MobaXterm,注意ip地址一定是公网ip,端口一般
大王在路上
·
2023-12-26 17:49
nginx
服务器
linux
前端
阿里云
【
Spark
-HDFS小文件合并】使用
Spark
实现 HDFS 小文件合并
【
Spark
-HDFS小文件合并】使用
Spark
实现HDFS小文件合并1)导入依赖2)代码实现2.1.HDFSUtils2.2.MergeFilesApplication需求描述:1、使用
Spark
做小文件合并压缩处理
bmyyyyyy
·
2023-12-26 17:15
Spark
spark
hdfs
大数据
#HDFS小文件合并
datasophon组件安装时踩坑记录
identifiedby'xxxx';1.安装hdfs后有一个namenode进程未启动解决:在那个未启动的节点上执行hdfsnamenode-bootstrapStandby之后在web页面重启hdfs2.hiveon
spark
州周
·
2023-12-26 17:56
hadoop
hdfs
大数据
主流级显卡的新选择,
Spark
le(撼与科技)Intel Arc A750兽人体验分享
如果要在ArcA系列当中选一个性能不俗,能够满足生产力与游戏需求,价格方面又不会太高的显卡,那么我手上的这张
Spark
le(撼与科技)的IntelArcA750兽人OC显卡就是一个不错的选择。
资讯看点
·
2023-12-26 14:48
业界资讯
kafka
安装部署
1、Kafka概述1.1.Kafka简介ApacheKafka是一个开源消息系统、一个开源分布式流平台,由Scala写成。是由Apache软件基金会开发的一个开源消息系统项目。Kafka最初是由LinkedIn开发,并于2011年初开源。2012年10月从ApacheIncubator毕业。该项目设计目标是为处理实时数据提供一个统一、高吞吐量、低等待的平台。Kafka是一个分布式消息队列:生产者、
Guff_hys
·
2023-12-26 14:00
kafka
分布式
spark
后端
大数据
开发语言
Hive01_
安装部署
Hive的安装上传安装包解压tarzxvfapache-hive-3.1.2-bin.tar.gzmvapache-hive-3.1.2-binhive解决Hive与Hadoop之间guava版本差异cd/export/software/hive/rm-rflib/guava-19.0.jarcpcp/export/software/hadoop/hadoop-3.3.0/share/hadoop
程序喵猴
·
2023-12-26 12:47
hive
hive
Windows搭建HDFS 2.6.0(附加搭建Hadoop)
Windows7JDK版本:1.8.0_221Hadoop版本:2.6.02.下载Hadoop官网下载image.pngimage.png3.前期准备3.1.配置JAVA环境变量image.pngimage.png4.
安装部署
夹胡碰
·
2023-12-26 11:20
六:
Spark
集群安装和部署
ubuntu16.04系统;(2)Master节点:内存分配2g;Slave1节点:内存分配512MB;Slave2节点:内存分配512MB;2.安装路径:(1)Hadoop2.6.5:/usr/local/;(2)
Spark
2.6.0
玉成226
·
2023-12-26 10:21
spark
MySQL 5.6 ,5.7 ,8.0在
安装部署
的异同
5.6.44二进制包
安装部署
解压到以下目录[root@oldboy~]#ll/usr/local/mysql56/drwxr-xr-x.2rootroot4096Jun311:20bin-rw-r--r
hanyist
·
2023-12-26 10:57
大数据
Spark
实战高手之路职业学习路线图
从零起步,分阶段无任何障碍逐步掌握大数据统一计算平台
Spark
,从
Spark
框架编写和开发语言Scala开始,到
Spark
企业级开发,再到
Spark
框架源码解析、
Spark
与Hadoop的融合、商业案例和企业面试
smileyboy2009
·
2023-12-26 10:56
hadoop
spark
spark
hadoop
hadoop3.0x 后要比
spark
快10倍!
Apachehadoop项目组最新消息,hadoop3.x以后将会调整方案架构,将Mapreduce基于内存+io+磁盘,共同处理数据其实最大改变的是hdfs,hdfs通过最近black块计算,根据最近计算原则,本地black块,加入到内存,先计算,通过IO,共享内存计算区域,最后快速形成计算结果。hadoop3.0后会大改mapreduce计算模型,就让我们拭目以待吧!目前hadoop版本是2.
smileyboy2009
·
2023-12-26 10:56
hadoop
spark
内存
mapreduce
spark
hdfs
hadoop
Java
Spark
Sql 2.4.0 ArrayIndexOutOfBoundsException error
在
spark
2.4中报ArrayIndexOutOfBoundsException原因是
Spark
2.4.0中引用的paranamer版本是2.7导致问题。
smileyboy2009
·
2023-12-26 10:56
spark
Iceberg1.4.2 java 表管理(DDL和DML)操作
既然是一种开放的表管理格式,那就不应该依赖hadoop,hive,
spark
,flink
smileyboy2009
·
2023-12-26 10:26
java
开发语言
spark
和flink对比
最近网上和各大公司在对比
spark
和flink,也有一部分人,演讲时不分析代码原理,不根据事实,直接吹嘘flink比
spark
好,flink能干掉
spark
的话,今天就跟大家从技术,应用和未来发展角度对两个产品进行对比
smileyboy2009
·
2023-12-26 10:25
spark
flink
数据仓库
大数据
iceberg1.4.2+
spark
3.4.2+minio
在idea里面编写iceberg的数据写入和创建表动作,虽然简单,但是官网没有给出完整例子,包括jar包的依赖。最大的坑就是版本不兼容。通过下面完整例子,编写Iceberg的完整代码。pom.xml文件需要引入的包org.scala-langscala-library${scala.version}junitjunit4.4testorg.specsspecs1.2.5testorg.apache
smileyboy2009
·
2023-12-26 10:25
spark
idea开发delta.io数据湖
通过idea的
spark
操作delta.ideamaven的pom.xmlio.miniominio8.5.7org.apache.
spark
spark
-core_2.123.5.0o
smileyboy2009
·
2023-12-26 10:52
intellij-idea
java
ide
pycharm连接虚拟机
前言:我们默认用户已经在虚拟机上安装好了
spark
等相关集群和生态,是可以在虚拟机中运行相关的操作,比如mapper,reducer操作,rdd,dataframe等等杂七杂八的东西的(主要我也没太明白
俺会hello我的
·
2023-12-26 07:22
pycharm
ide
CentOS环境下Nacos2.3集成PostgreSQL
PostgreSQLdate:2023-12-2119:15:00categories:Nacosdescription:CentOS环境下Nacos2.3集成PostgreSQL1.目录1.目录2.简介3.
安装部署
王老邪
·
2023-12-26 07:05
云原生
Linux
centos
postgresql
linux
spark
:RDD编程(Python版)
RDD运行原理RDD设计背景许多选代目前的MapReduce框架都是把中间结果写入到稳定存储(比如磁盘)中带来了大量的数据复制、磁盘IO和序列化开销RDD就是为了满足这种需求而出现的,它提供了一个抽象的数据架构,我们不必担心底层数据的分布式特性,只需将具体的应用逻辑表达为一系列转换处理,不同RDD之间的转换操作形成依赖关系,可以实现管道化,避免中间数据存储。RDD概念一个RDD就是一个分布式对象集
Mineba
·
2023-12-26 07:43
大数据技术
spark
python
SpringBoot 2 集成
Spark
3
*+
Spark
3.*,如果还未安装相关环境,请参考:
Spark
初始CentOS7安装Hadoop3单机版SpringBoot2集成
Spark
3pom.xmlSpringBootCaseorg.example1.0
在奋斗的大道
·
2023-12-26 06:12
Java架构专栏
深蓝计划
hadoop
spark
大数据
分布式
iceberg1.4.2 +minio通过
spark
创建表,插入数据
下层支持hadoop,s3,对象存储,上层支持hive,
spark
,flink等应用。实现在中间把两部分隔离开来,实现一种对接和数据管理的标准。有这个标准,不管是谁建的表,都可以操作和访问。
smileyboy2009
·
2023-12-26 06:39
spark
大数据
分布式
count distinct在
spark
中的运行机制
(*),SUM(items),COUNT(DISTINCTproduct),COUNT(DISTINCTcategory)FROMorders;假设源数据分布在两个1核的结点上,数据就8行Expand
spark
SLUMBER_PARTY_
·
2023-12-26 06:08
spark
大数据
上一页
42
43
44
45
46
47
48
49
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他