E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Spark集群部署
docker数据科学与
spark
镜像源与使用常见问题疑难解答
以下是一些与数据挖掘和数据科学相关的Docker镜像源:jupyter/all-
spark
-notebook:此镜像包含JupyterNotebook和
Spark
的完整环境,用于
Spark
开发和学习。
DreamNotOver
·
2024-02-08 01:16
eureka
java
spring
cloud
用docker 配置scala
spark
环境
要使用Docker配置Scala和
Spark
环境,您可以按照以下步骤进行操作。以下是一个基本的示例,您可能需要根据您的具体需求进行调整。安装Docker:在您的系统上安装Docker。
DreamNotOver
·
2024-02-08 01:14
python
数据挖掘
docker
docker
scala
spark
容器
Spark
Standalone 集群配置
集群管理类型
Spark
支持三种集群管理类型:Standalone-
Spark
附带的一个简单的集群管理器,可以轻松地设置集群。
董可伦
·
2024-02-07 23:01
Spark
spark
大数据
分布式
RDD vs DataFrame vs Dataset
RDD是
Spark
最基础的数据结构。RDD允许开发者使用容错的形式在集群中使用内存计算,这样可以提高计算速度。1.2DataFrameDataFrame是使用数据组成命名
一生逍遥一生
·
2024-02-07 22:20
Hadoop系统应用之Zookeeper分布式
集群部署
一、Zoopkeeper安装包下载安装【Zookeeper版本型号为3.4.10】1.下载Zookeeper安装包(地址)https://archive.apache.org/dist/zookeeper/zookeeper-3.4.10/2.上传安装包(SecureCRT&FX)通过软件FX将安装包上传到linux系统的/export/software/目录下3.解压Zookeeper安装包执行
-牧心-
·
2024-02-07 22:31
分布式
hadoop
java-zookeeper
RabbitMQ之七生产
集群部署
个人专题目录1.RabbitMQ集群搭建实际生产应用中都会采用消息队列的集群方案,出于MQ中间件本身的可靠性、并发性、吞吐量和消息堆积能力等问题的考虑,在生产环境上一般都会考虑使用RabbitMQ的集群方案。1.1集群方案的原理RabbitMQ这款消息队列中间件产品本身是基于Erlang编写,Erlang语言天生具备分布式特性(通过同步Erlang集群各节点的magiccookie来实现)。因此,
Java及SpringBoot
·
2024-02-07 21:21
黑猴子的家:
Spark
SQL 的性能
1、内存列存储(In-MemoryColumnarStorage)内存列存储来说,将所有原生数据类型的列采用原生数组来存储,将Hive支持的复杂数据类型(如array、map等)先序列化后拼接成一个字节数组来存储。这样,每个列创建一个JVM对象,从而导致可以快速的GC和紧凑的数据存储。额外的,还可以用低廉CPU开销的高效压缩方法来降低内存开销。更有趣的是,对于分析查询中频繁使用的聚合特定列,性能会
黑猴子的家
·
2024-02-07 18:48
简单使用
Spark
、Scala完成对天气数据的指标统计
目录一、前言&什么是
Spark
?
db_lcz_2014
·
2024-02-07 18:33
spark
scala
大数据
《向量数据库指南》——Milvus Cloud 「部署」:简化部署一直在路上
“大家MilvusCloud
集群部署
有没有实践过比较好的方案?”作为一个开源数据库,是否能够进行快速部署,是所有工作的前提。在简化部署的道路上,社区从来没有停止过脚步。
LCHub低代码社区
·
2024-02-07 17:54
《向量数据库指南》
数据库
milvus
向量数据库
Milvus
Cloud
Milvus
ModaHub
应用集群(1)-节点间的文件同步策略
首先我们在研发7代产品时,已经兼顾了
集群部署
,但总还有一些遗漏的地方。趁着这个机会梳理出来,并附上解决方案。今天先谈下集群中应用文件的同步问题。应用文件指的是保存在应用节点下的文件。
成勐
·
2024-02-07 14:42
集群
redis
消息队列
【Iceberg学习一】什么是Iceberg?
Iceberg为包括
Spark
、Trino、PrestoDB、Flink、Hive和Impala在内的计算引擎增加了表格功能,使用一种高性能的表格格式,其工作方式就像一个SQL表一样。
周润发的弟弟
·
2024-02-07 10:56
Iceberg
学习
RDD任务切分之Stage任务划分(图解和源码)
RDD任务切分中间分为:Application、Job、Stage和Task(1)Application:初始化一个
Spark
Context即生成一个Application;(2)Job:一个Action
大数据左右手
·
2024-02-07 09:34
大数据
大数据
spark
stage切分
任务划分
kyuubi 接入starrocks | doris
kyuubi接入starrocks一、环境Hadoop集群组件版本Hadoop3.1.1
spark
3.Xzookeeper3.XHive3.Xkyuubi版本1.7.1starrocks2.X 已将kyuubi
甜甜的巧克力阿
·
2024-02-07 09:48
大数据相关
大数据
kyuubi
starrocks
doris
Hive Sql优化记录
日常检查ETLjob时发现一段sql采用hiveonmr执行比hiveon
spark
要快70%,与正常的认知正好相反,所以对该sql进行了详细分析。
风筝flying
·
2024-02-07 07:40
Spark
JDBC读写数据库实战
默认的操作代码valdf=
spark
.read.format("jdbc").option("url","jdbc:postgresql://localhost:5432/testdb").option
SunnyRivers
·
2024-02-07 07:41
Spark最佳实战与性能优化
spark
jdbc
数据库
IDEA 本地运行
Spark
IDEA本地运行
Spark
1、背景2、环境准备3、具体流程3.1IDEA创建maven项目3.2pom.xml配置3.3Demo程序示例3.4结果输出4、总结改进1、背景主要用于本地阅读
Spark
源码,
fir_dameng
·
2024-02-07 06:41
大数据开发
spark
Spark
Scala大数据编程实例
一、Scala1.1、Scala简介Scala是一门现代的多范式编程语言,平滑地集成了面向对象和函数式语言的特性,旨在以简练、优雅的方式来表达常用编程模式。Scala的设计吸收借鉴了许多种编程语言的思想,只有很少量特点是Scala自己独有的。Scala语言的名称来自于“可伸展的语言”,从写个小脚本到建立个大系统的编程任务均可胜任。Scala运行于Java平台(JVM,Java虚拟机)上,并兼容现有
一直de不完的bug
·
2024-02-07 06:38
Hadoop
spark
大数据
hadoop
win10
spark
scala 本地运行wordcount
hadoopcommon,可以从github下载zip,解包以后设置HADOOP_HOME环境变量指向它,然后在PATH里加上HADOOP_HOME\bin,特别注意,hadoopcommon的版本要和
spark
疯琴
·
2024-02-07 06:06
大数据
java/scala
flink/spark
Scala与java
目录Scala简介Scala和java的区别
Spark
选择Scala的原因Scala:Object与Class的区别Scala样例类和普通类的区别Scala中的None,Nothing,Null,NilScala
K. Bob
·
2024-02-07 06:05
Spark
Spark
scala如何本地运行
Spark
scala如何本地运行
Spark
任务调试太费时间啦
Spark
Scala本地运行
Spark
任务调试太费时间啦Apache
Spark
是一个开源的大数据处理框架,它提供了一个接口用于编程大规模分布式计算
HanhahnaH
·
2024-02-07 06:03
Spark
spark
scala
大数据
Zeppelin结合Flink查询hudi数据
目前ApacheZeppelin支持Apache
Spark
、ApacheFlink、Python、R、JDBC、
BigDataToAI
·
2024-02-07 05:38
hudi
flink
zeppelin
flink
python
big
data
Nacos的集群配置、NacosRule负载均衡、权重设置、namespace
,有8081、8082、8083端口三个实例),我们在同一个机房部署所有的服务很不安全,应对突发状况时,就像鸡蛋放在一个篮子里;很不安全,很不友好,所有我们需要分开部署机房与服务器;一个服务可以分多个
集群部署
茂桑
·
2024-02-07 05:05
spring-cloud
spring
cloud
ribbon
Apache Zeppelin 整合
Spark
和 Hudi
一环境信息1.1组件版本组件版本
Spark
3.2.3Hudi0.14.0Zeppelin0.11.0-SNAPSHOT1.2环境准备Zeppelin整合
Spark
参考:ApacheZeppelin一文打尽
大数据AI
·
2024-02-07 05:03
大数据从入门到精通
spark
hudi
zeppelin
大数据
一篇带你了解私有仓库 Harbor 的搭建
Harbor是由VMware公司开源的企业级的DockerRegistry管理项目,相比docker官方拥有更丰富的权限权利和完善的架构设计,适用大规模docker
集群部署
提供仓库服务。
AAA小肥杨
·
2024-02-07 05:32
容器技术
harbor
spark
sql上线前的调试工作实现
背景每个公司应该都有大数据的平台的吧,平台的作用就是可以在上面执行各种
spark
sql以及定时任务,不过一般来说,由于这些
spark
sql的上线不经过测试,所以可能会影响到生产的数据,这种情况下大数据平台提供一个上线前的调试功能也就非常好了
lixia0417mul2
·
2024-02-07 05:22
spark
spark
sql
大数据
zookeeper
集群部署
第一步下载、配置找到官网地址快速部署zk的文档:http://zookeeper.apache.org/doc/r3.4.14/zookeeperStarted.html主要是对conf/zoo.cfg文件的配置这里配置还没有完成,需要制定myid文件,来指定当前机器所属集群的节点编号注意这里的myid文件一定要在每个zk节点机器的dataDir文件夹下myid文件的内容第一台机器myid文件内容
机灵鬼鬼
·
2024-02-07 05:05
Kuberntes DNS
kubectlgetendpointsNAMEENDPOINTSAGEdocker-registry172.17.0.10:500019dkubernetes10.0.2.41:844319drouter10.0.2.41:1936,10.0.2.41:80,10.0.2.41:44319d
spark
thrift-headless172.17.0.12
zhixingheyi_tian
·
2024-02-07 03:02
DNS
kubernetes
Spark
RDD的学习(JAVA)
注:本文是跟着《
Spark
快速大数据分析》一书学习的笔记式总结,不喜勿喷。RDD(ResilientDistributedDataset)弹性分布式数据集是
Spark
对数据的核心抽象。
啊其11
·
2024-02-07 02:47
Spark
Chapter 8
Spark
SQL
【参考以慕课网日志分析为例进入大数据
Spark
sql】0导读SQL:MySQL,Oracle,DB2,SQLServer在大数据平台上实现大数据计算:Hive/
Spark
SQL/
Spark
Core直接使用
深海suke
·
2024-02-07 01:34
Spark
大数据分析与实战笔记(第三章
Spark
RDD弹性分布式数据集-01)
文章目录每日一句正能量第3章
Spark
RDD弹性分布式数据集章节概要3.1RDD简介3.2RDD的创建方式3.2.1从文件系统加载数据创建RDD3.2.2通过并行集合创建RDD每日一句正能量学如积薪,后来者居上
想你依然心痛
·
2024-02-07 01:53
分布式
spark
数据分析
kubeadm部署kubernetes1.29.0版本集群
使用Kubeadm工具快速部署,部署过程分为四个部分,第一部分,kubernetes集群节点准备,第二部分docker-ce及cri-docker准备,第三部分,kubernetes1.29.0
集群部署
运维潇哥
·
2024-02-06 23:17
kubernetes
kubernetes
云原生
运维
k8s
StarRocks入门
目录一、连接StarRocks二、建表1.创建非分区表2.创建动态分区表3.修改表字段类型三、数据导入1.
Spark
load2.Brokerload3.Streamload4.Routineload5.
jingyu鲸鱼
·
2024-02-06 22:42
doris
大数据
数据库
spark
的数据倾斜和解决方案
#数据倾斜##4.1.什么是数据倾斜,现象是什么?所谓数据倾斜(dataskew),其实说白了,由于数据分布不均匀造成计算时间差异很大,产生了一些列异常现象。常见的现象有两种:1.个别task作业运行缓慢大多数的task运行都很快速,但是极个别的task运行非常缓慢,甚至是正常task运行时间好多倍。莫名其妙的OOM异常这是一种相对比较少见的现象,正常运行的task作业,突发发生了一个OOM异常。
XLMN
·
2024-02-06 18:32
Spark
简介
Spark
作为第二代大数据处理工具,跟hadoop对比,它是基于内存的,所以在迭代计算方便速度有了很大提升。我用到的主要是
Spark
Core,
Spark
SQL,
Spark
Streaming。
麦克阿瑟99
·
2024-02-06 18:07
Spark
编程实现简例
对于两个输入文件A和B,编写
Spark
独立应用程序,对两个文件进行合并,并剔除其中重复的内容,得到一个新文件C。下面是输入文件和输出文件的一个样例,供参考。
哲子带你学编程
·
2024-02-06 16:34
spark
大数据
分布式
linux etcd,etcd
集群部署
详解
简介Etcd是一个高可用的Key/Value存储系统,主要用于分享配置和服务发现。●简单:支持curl方式的用户API(HTTP+JSON)●安全:可选SSL客户端证书认证●快速:单实例可达每秒1000次写操作●可靠:使用Raft实现分布式环境:nodeIPOSetcd_versionetcd010.1.2.61etcd3.0.14etcd110.1.2.172centos7.0etcd3.0.1
突驰
·
2024-02-06 15:16
linux
etcd
h2数据库
集群部署
,备份及恢复
h2数据库
集群部署
一.环境准备准备两台机器,分别为Server1,Server2二.h2数据库安装下载地址http://h2database.com/html/download.html将下载的压缩包解压到指定目录
运维那些事儿
·
2024-02-06 14:43
h2数据库
数据库
linux
java
rocketMQ
集群部署
rocketMQ
集群部署
rocketMQ安装包下载wgethttps://github.com/alibaba/RocketMQ/archive/v3.5.8.tar.gz//注:到github下载为未编译的包
戏 剧
·
2024-02-06 14:04
rocketMQ
rocketMQ
java
demo
kafka-splunk数据通路实践
目的:鉴于目前网络上没有完整的kafka数据投递至splunk教程,通过本文操作步骤,您将实现kafka数据投递至splunk日志系统实现思路:创建kafka
集群部署
splunk,设置HTTP事件收集器部署
exp1997
·
2024-02-06 12:17
中间件
kafka
分布式
k8s部署zk集群
k8s部署zk集群1.环境介绍使用helm进行部署zookeeper:3.72.zk
集群部署
helmrepoaddbitnamihttps://charts.bitnami.com/bitnami3.创建
包泽旭
·
2024-02-06 12:34
云原生
linux
zookeeper
mysql
docker
java
决胜大数据时代:Hadoop&Yarn&
Spark
企业级最佳实践(8天完整版脱产式培训版本)...
Hadoop、Yarn、
Spark
是企业构建生产环境下大数据中心的关键技术,也是大数据处理的核心技术,是每个云计算大数据工程师必修课。
weixin_30273931
·
2024-02-06 09:08
java
人工智能
移动开发
Spark
视频第5期:
Spark
SQL架构和案例深入实战
Spark
SQL架构和案例深入实战视频下载:http://pan.baidu.com/share/link?
Rocky_wangjialin
·
2024-02-06 09:35
Spark培训
Spark企业内训
Spark公开课
Spark视频
王家林
RDD 依赖关系
packagecom.atguigu.bigdata.
spark
.core.rdd.depimportorg.apache.
spark
.
zmx_messi
·
2024-02-06 09:08
大数据
spark
转换算子小案例
2)需求描述统计出每一个省份每个广告被点击数量排行的Top33)需求分析4)功能实现整体思路代码实现packagecom.atguigu.bigdata.
spark
.core.rdd.operator.transformimportorg.apache.
spark
zmx_messi
·
2024-02-06 09:37
spark
大数据
Spark
SQL调优实战
1、新添参数说明//Driver和Executor内存和CPU资源相关配置--是否开启executor动态分配,开启时
spark
.executor.instances不生效
spark
.dynamicAllocation.enabled
sighting_info
·
2024-02-06 09:06
spark
sql
大数据
Python学习路线 - Python高阶技巧 - Py
Spark
案例实战
Python学习路线-Python高阶技巧-Py
Spark
案例实战前言介绍
Spark
是什么PythonOn
Spark
Py
Spark
WhyPy
Spark
基础准备Py
Spark
库的安装构建Py
Spark
执行环境入口对象
mry6
·
2024-02-06 09:34
Python
python
FlinkCDC-Hudi:Mysql数据实时入湖全攻略五:FlinkSQL同时输出到kafka与hudi的几种实现
前序:FlinkCDC-Hudi系列文章:FlinkCDC-Hudi:Mysql数据实时入湖全攻略一:初试风云FlinkCDC-Hudi:Mysql数据实时入湖全攻略二:Hudi与
Spark
整合时所遇异常与解决方案
大数据点灯人
·
2024-02-06 08:25
Flink
Kafka
Hudi
kafka
mysql
spark
【Flink入门修炼】1-1 为什么要学习 Flink?
一、批处理和流处理早些年,大数据处理还主要为批处理,一般按天或小时定时处理数据,代表性的框架为MapReduce、Hive、
Spark
等。
大数据王小皮
·
2024-02-06 07:29
Flink
入门修炼
flink
学习
大数据
MSR架构:推动数据中台进入2.0时代
语义层基于业务对象视图面向业务端用户提供语义化的业务逻辑表达式,支持业务端用户自助开发业务逻辑,业务端的开发者只关注于业务逻辑本身,不需要考虑后台是何种数据计算处理框架(MR、
SPARK
、FLINK、SQL
Trident敏捷数据开发平台
·
2024-02-06 07:54
架构
大数据
数据仓库
数据库开发
PiflowX新增Apache Beam引擎支持
参考资料:ApacheBeam架构原理及应用实践-腾讯云开发者社区-腾讯云(tencent.com)在之前的文章中有介绍过,PiflowX是支持
spark
和flink计算引擎,其架构图如下所示:在piflow
PiflowX
·
2024-02-06 07:54
flink
大数据
上一页
4
5
6
7
8
9
10
11
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他