E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
大数据集群
大数据平台建设方法论集合
文章目录从0到1建设大数据解决方案
大数据集群
的方法论数据集成方法论机器学习算法平台方法论BI建设的方法论云原生大数据的方法论低代码数据中台的方法论大数据SRE运维方法论批流一体化建设的方法论数据治理的方法论湖仓一体化建设的方法论数据分析挖掘方法论数字化转型方法论数据服务建设方法论元数据管理方法论知识图谱建设方法论数仓建模的方法论人工智能建设方法论从
猿与禅
·
2023-04-03 23:19
大数据
大数据
方法论
建设方案
数据中台
数据治理
hadoop 3.x
大数据集群
搭建系列7-安装Hudi
编译环境准备软件版本Hadoop3.3.2Hive3.1.2Spark3.3.1Flink1.15.2一.下载并解压hudicd/home/softwarewgethttps://mirrors.tuna.tsinghua.edu.cn/apache/hudi/0.12.0/hudi-0.12.0.src.tgz--no-check-certificatetar-xvfhudi-0.12.0.sr
只是甲
·
2023-04-03 03:55
数据湖架构Hudi(三)Hudi核心概念
三、ApacheHudi核心概念3.1基本概念Hudi提供了Hudi表的概念,这些表支持CRUD操作,可以利用现有的
大数据集群
比如HDFS做数据文件存储,然后使用SparkSQL或Hive等分析引擎进行数据分析查询
undo_try
·
2023-04-01 23:09
#
spark_sql
大数据
hadoop
如何估算集群所需的存储、计算资源?
最近有位朋友在群里问:怎么预估
大数据集群
所需的内存容量?这个问题是大数据架构师的高频面试题,但是更关键的是在项目中更是必备的技能。因为这会涉及到服务器的选择和成本核算。
大数据架构师Evan
·
2023-04-01 22:47
java
运维
hadoop
数据分析
大数据
网络配置、防火墙 (
大数据集群
环境)Linux防火墙
1.
大数据集群
环境,形成集群局域网,使用机器名替代真实IP,如何完成IP地址与机器名的映射?
zwb_jianshu
·
2023-04-01 14:58
【公测中】阿里云发布国内首个大数据双活容灾服务,满足高要求大数据灾备场景
在6月上旬举行的云栖大会上海峰会上,阿里云发布了国内首个
大数据集群
双活容灾产品-混合云容灾服务下的混合云大数据容灾服务(HDRforBigData,简称HDR-BD),并已经在7月份开始邀测。
许此一生
·
2023-04-01 04:37
YARN组件
YARN组件在生产环境中的
大数据集群
,所有作业或系统运行所需的资源,都不是直接向操作系统申请,而是交由资源管理器和调度框架代为申请。每个作业或系统所需的资源都是由资源管理和调度框架统一分配、协调。
zhuhaiqin
·
2023-03-31 17:13
bigdata
大数据
字节跳动 Flink 大规模云原生化实践
大规模使用YARN管理的
大数据集群
,有效提升了Flink
Apache Flink
·
2023-03-31 00:57
Flink
大数据
实时计算
云原生
flink
大数据
kubernetes
运维
搭建
大数据集群
操作实战
准备工作:准备三台装有linux系统的虚拟机。集群搭建暂时使用奇数台。一:配置静态IP,时间同步,SSH服务.二:安装JDK三:搭建hadoop集群
Carter强
·
2023-03-30 11:21
Spark零基础入门实战(七)Spark生态系统架构
要想对这些大量的数据进行离线或实时分析,需要使用数据传输工具将其导入Hadoop平台或其他
大数据集群
中。数据传输层数据传输工具常用的有Flume、Sqo
大数据张老师
·
2023-03-29 18:35
Spark3.X
零基础入门实战
spark
大数据
分布式
数据清洗平台Streamsets
Mysql到Hbase数据如何实时同步,强大的Streamsets告诉你Java小可爱2小时前很多情况
大数据集群
需要获取业务数据,用于分析。
华木公子
·
2023-03-19 08:14
知名大厂大数据平台搭建案例分享
淘宝的大数据平台基本也是分成三个部分,上面是数据源与数据同步;中间是云梯1,也就是淘宝的Hadoop
大数据集群
;下面是大数据的应用,使用
大数据集群
的计算结果。
zhouyanjun_
·
2023-03-18 07:34
数据库
可视化
大数据
hadoop
spark
大数据集群
hadoop环境搭建
1、集群规划统一环境配置[所有节点]IP地址设置修改Ip地址vi/etc/sysconfig/network-scripts/ifcfg-ens33TYPE="Ethernet"PROXY_METHOD="none"BROWSER_ONLY="no"BOOTPROTO="static"#设置为静态ipstaticDEFROUTE="yes"IPV4_FAILURE_FATAL="no"NAME="
南极找南
·
2023-03-15 12:16
数据工厂
大数据
Hadoop
大数据
JVM性能调优与实战进阶篇-上
大数据集群
如HBase的性能。特性ZGC(TheZGarbageCollector)为JDK11推出一款低延迟的垃圾回收器。STW即停顿时间低于1ms,且不会随着堆的大小
IT小神
·
2023-03-15 08:43
经验分享
Java
java
开发语言
后端
二十分钟带你了解JVM性能调优与实战进阶
大数据集群
如HBase的性能。特性ZGC(TheZGarbageCollector)为JDK11推出一款低延迟的垃圾回收器。STW即停顿时间低于1ms,且不会随着堆的大小
喜欢软测的小北葵
·
2023-03-15 07:13
软件测试
数据库
网络
java
开发语言
hadoop 3.x
大数据集群
搭建系列11- 配置Hive metastore及hive-server2
一.Hive配置文件修改--修改后同步到其它节点cd$HIVE_HOME/confvihive-site.xml#增加如下内容hive.server2.thrift.bind.hosthp5hive.server2.thrift.port10000PortnumberofHiveServer2Thriftinterfacewhenhive.server2.transport.modeis'bina
只是甲
·
2023-03-10 04:19
centos7搭建
大数据集群
环境(hadoop3+hive3)
持续更新中...软件环境:jdk8,hadoop-3.3.1.tar.gz,apache-hive-3.1.2-bin.tar.gz硬件环境:3台服务器(192.1.168.1.201,192.1.168.1.202,192.1.168.1.203)1.服务器准备1.1.安装centos7系统;给机器安装centos7系统,注意不要安装最小化系统。image.png1.2.安装java8环境;到h
GuanYZ
·
2023-03-09 09:16
【离线数仓-5-数据仓库环境准备】
模拟数据准备离线数仓-5-数据仓库环境准备1.数据仓库运行环境数仓之外需要做的事情:数据安全认证:在大数据层面:1.用户认证:Kerberos来管理认证2.用户授权:Ranger来管理授权数据质量监控
大数据集群
Apache Minor Trend
·
2023-02-24 18:28
数据仓库
大数据
数据治理
数据仓库
大数据
大数据集群
迁移
准备两套集群,我这使用apache集群和CDH集群。启动集群:启动完毕后,将apache集群中,hive库里dwd、dws、ads三个库的数据迁移到CDH集群。在apache集群里hosts加上CDHNamenode对应域名并分发给各机器。[root@hadoop101~]#vim/etc/hosts
wespten
·
2023-02-04 17:54
Hadoop
Hive
Spark
大数据安全
大数据
hadoop
分布式
大数据集群
监控框架
一、监控框架Bigdata1Bigdata2Bigdata3Zabbixzabbix-serverzabbix-agentzabbix-agentzabbix-agentGangliaganglia二、Zabbix4.2.82.1概念Zabbix是一款能够监控各种网络参数以及服务器健康性和完整性的软件。Zabbix使用灵活的通知机制,允许用户为几乎任何事件配置基于邮件的告警。这样可以快速反馈服务器
CJ21
·
2023-02-02 05:29
大数据集群
搭建
目录一、安装jdk二、安装tomcat三、安装mysql四、搭建集群(三台)4.1新增linux系统4.2关闭防火墙4.3关闭selinux4.4配置hosts文件4.5scp远程文件拷贝4.5.1本地机器内容拷贝到远程机器4.5.2远程机器内容拷贝到本地机器4.6ssh远程登录4.6.1使用ssh基于密码的远程登录(了解)4.6.2使用ssh基于秘钥的免密码登录(掌握)4.7三台机器时钟同步4.
铁疙瘩掉了俩
·
2023-01-30 15:48
大数据
大数据
linux
大数据平台安装部署(适用虚拟机级真实服务器,亲测)
大数据集群
搭建一、基础环境准备(虚拟环境or服务器环境)1.虚拟环境准备(服务器安装跳过此步骤)1.1安装vmware注意:安装centos8系统及以上需要高版本vmware,实测vmware12.x会出现错误
小崔编码
·
2023-01-30 04:06
Hadoop
hadoop
spark
zookeeper
大数据
系统安装
国产自研开源大数据管理平台DataSophon Manager安装教程
简介DataSophon是近日开源的一款国产自研大数据管理平台,致力于快速实现部署、管理、监控以及自动化运维大数据服务组件和节点的能力,帮助你快速构建起稳定、高效的
大数据集群
服务。
浮世Talk
·
2023-01-30 03:29
分享
开源
大数据
hadoop
centos离线安装CDH(4.1): 安装
大数据集群
微信:18520269913备注:阿里巴巴淘系技术部-大数据
大数据集群
安装配置修改进入配置界面的方式:管理->设置配置parcel的地址配置parcel地址,能够让我们在后续安装的时候不从外网下载parcel
丁华0301
·
2023-01-28 04:00
大数据集群
搭建
0.在做
大数据集群
开发环境的时候,前提是先把网络环境配置好,也就是把虚拟机配置好。
destinyLee
·
2023-01-27 22:27
实战|Hadoop
大数据集群
搭建
实验环境:主机名IP地址角色qll251192.168.1.251NameNodeqll252192.168.1.252DataNode1qll253192.168.1.253DataNode2所需软件包:hadoop-2.9.2.tar.gzjdk-8u241-linux-x64.tar.gz软件包下载地址:Hadoop软件包官方下载地址:https://hadoop.apache.org/re
Dark_Ice_
·
2023-01-21 09:11
大数据技术
分布式
hadoop
大数据
linux
大数据集群
搭建之Linux安装hadoop3
dfs.namenode.http-address.ns1.hadoop002hadoop002:9870dfs.ha.automatic-failover.enabled.ns1truedfs.client.failover.proxy.provider.ns1org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyPro
m0_67613962
·
2023-01-21 09:07
Java
经验分享
架构
java
饿了么大数据计算引擎实践与应用
其中6人的离线团队需要维护
大数据集群
规模如下:Hadoop集群规模1300+HDFS存量数据40+PB,Read3.5PB+/天,Write500TB+/天14WMRJob/天,10WSparkJob/
Simple_Zz
·
2022-12-29 13:00
大厂设计
大数据
计算引擎
大数据架构
使用 PowerFlex 在 Kubernetes 平台上部署 Microsoft SQL Server
大数据集群
简介MicrosoftSQLServer2019通过SQLServer2019
大数据集群
(BigDataClusters,BDC)推出了突破性的数据平台。
申耀的科技观察
·
2022-12-24 14:44
microsoft
kubernetes
大数据
容器
云原生
Apache Http Server安全漏洞解决
场景:公司使用的
大数据集群
云服务器,安全扫描出严重漏洞,扫描漏洞如下:安全漏洞扫描报告端口协议服务严重等级漏洞–ICMP–弱ICMPtimestamp请求响应漏洞–UDP–弱允许Traceroute探测
百夜﹍悠ゼ
·
2022-12-17 10:57
centos
服务器
Spark论文思想之-总结
在
大数据集群
计算的困难部分(容错、调度、多租户),这种小而通用抽象更能适应需求的快速变化。可以看出,集群应用在朝着复杂化的方向发展,
初心江湖路
·
2022-12-15 11:05
大数据
Spark
Spark
总结
Kerberos异常之unnable to obtain password from user
unnableobtainpasswordfromuser问题描述在
大数据集群
开启kerberos认证后,使用kerberos票据进行kinit认证通过。
Dennis985
·
2022-12-15 11:58
Kerberos
hive
kerberos
zookeeper
ambari
分布式
大数据集群
搭建
kafka:消息队列Redis:内存数据库zookeeper:
大数据集群
管理hadoop:hdfs(分布式存储)mapreduce(分布式离线计算)yarn(资源调度管理)存储模型:HDFS是一个主从(
NO PAIN_NO GAIN
·
2022-12-02 13:01
环境配置
人工智能
服务器
hadoop 3.3
大数据集群
搭建系列3-安装Hive
一.下载hivecd/home/softwarewgethttps://mirrors.tuna.tsinghua.edu.cn/apache/hive/hive-3.1.2/apache-hive-3.1.2-bin.tar.gz--no-check-certificate二.解压将下载下来的安装包解压到/home目录tar-zxvfapache-hive-3.1.2-bin.tar.gz-C/
只是甲
·
2022-12-01 09:52
37手游基于云平台的大数据建设实践
我们之前是自建的
大数据集群
,考虑到集群未来的扩展性、稳定性以及成本问题,决定大数据全部上云,今天的分享就是基于IDC集群上云的建设实践。一、云平台大数据建设背景首先看一下这张图,做大数据的同学对
Apache Flink
·
2022-11-03 10:44
Flink
大数据
实时计算
大数据
编程语言
数据库
人工智能
flink
大数据集群
监控体系架构
背景企业级的数据集群往往有PB级的数据、成百上千的各类型运算任务在一套集群上运行。所以它的维护是充满挑战的:庞大的数据量、复杂的运算逻辑、相互关联的大数据组件、数以万计的运行任务都是要克服的难点。SRE如果不想被动的话,就必须做好各式监控。预防风险、提前发现风险、然后分析问题、进而针对性的处理问题。凡是成体量的分布式系统,一旦出现性能问题,往往很难在短时间内作出有效处理。所以监控要前置,有趋势预测
好未来技术团队
·
2022-10-31 15:03
大数据
大数据集群
环境搭建:Hadoop、Spark、Flink分布式集群环境
大数据集群
环境搭建:Hadoop、Spark、Flink分布式集群环境一、安装虚拟机二、修改主机名三、配置hosts文件四、配置静态IP五、配置防火墙六、集群各节点禁用SELinux七、安装基本工具八、
勇敢羊羊在飞奔
·
2022-10-24 18:57
大数据
Centos7服务器
搭建Spark分布式集群环境
搭建Flink分布式集群环境
搭建Hadoop分布式集群环境
37手游基于云平台的大数据建设实践
我们之前是自建的
大数据集群
,考虑到集群未来的扩展性、稳定性以及成本问题,决定大数据全部上云,今天的分享就是基于IDC集群上云的建设实践。一、云平台大数据建设背景首先看一下这张图,做大数据的同学对
·
2022-10-13 18:40
flink大数据实时计算
【Flink】flink on k8s 部署方案
1.HDFS部署(k8s)hdfs的作用是用户保存flink的检查点与保持点但是
大数据集群
目前还是建议单独使用CDH或者HDP部署目前文中的这种hdfsonk8s方式做高可用不太方便1.1配置文件hdfs-conf.yamlapiVersion
我的浪漫与极端
·
2022-09-25 20:33
云原生
flink
多台linux时钟同步
随后在输入界面键入以下内容,每隔一分钟就去连接阿里云时间同步服务器,进行时钟同步*/1****/usr/sbin/ntpdatentp4.aliyun.com;方式二:通过某一台机器进行同步在业务环境中,有时候为了安全,
大数据集群
的节点不允许连接外网
心宇激扬
·
2022-09-25 01:59
bigdata
linux
运维
stm32
大数据平台 CDP 中如何配置 hive 作业的 YARN 队列以确保SLA?
大家知道,在生产环境的
大数据集群
中,在向资源管理器YARN提交作业时,我们一般会将作业提交到管理员指定的队列去执行,以利用YARN队列的资源隔离性确保作业能够获得足够的资源进行执行,从而确保SLA。
·
2022-09-22 16:40
hiveyarn大数据
EMR重磅发布智能运维诊断系统(EMR Doctor)——开源大数据平台运维利器
简介:E-MapReduce推出面向开源
大数据集群
的智能运维诊断系统E-MapReduceDoctor,有效提升
大数据集群
运维效率,辅助EMR用户完善集群监控体系。
·
2022-09-16 16:43
后端
开启 Kerberos 安全的大数据环境中,Yarn Container 启动失败导致 spark/hive 作业失败
最近在若干个不同客户现场,都遇到了
大数据集群
中开启Kerberos后,spark/hive作业提交到YARN后,因YARNContainer启动失败作业无法执行的情况,在此总结下背后的知识点,跟大家分享下
·
2022-09-16 15:17
EMR重磅发布智能运维诊断系统(EMR Doctor)——开源大数据平台运维利器
大数据运维的挑战—如何保证集群稳定与运行效率企业级
大数据集群
通常拥有海量的数据存储、日常运算成干上万的计算任务,需要满足各类上层业务的计算需求。
·
2022-09-15 16:57
大数据运维spark数据安全
全网最详细的Hadoop
大数据集群
搭建并进行项目分析(基于完全分布式)-----第一部分
##心路历程:这是大学时期做的项目,这个项目对我印象特别的深,当时没有记录在博客上,今后会积极分享自己做项目的历程与经验,希望能帮到需要的朋友,有什么问题或者建议欢迎在评论区留言,废话不多说,咱们就开始干!##所有需要的资料全部已上传到百度网盘上,请自行下载##获取镜像,https://pan.baidu.com/s/1ho4hMrvIu1V6W4wWdH8nIA,提取码:ygyg获取Xshell
Yang三少喜欢撸铁
·
2022-09-09 07:29
Hadoop集群搭建与运用
mysql
hive
hadoop
sqoop
大数据
大数据集群
环境配置从JDK /Hadoop /zookeeper /Hive /Flume / KafKa /Mysql /Tomcat
文章目录
大数据集群
配置1.0Hadoop安装1.1克隆虚拟机102,103,1041.2伪分布式的测试1.3完全分布式搭建1.4对配置文件进行配置2.0zookeeper安装2.1解压安装2.2文件配置
Fang GL
·
2022-09-05 07:58
#
大数据技术
hadoop
大数据
hbase
大数据面经吐血总结【阿里提问+答案解析】
个人基本信息(2)工作履历工作时间、公司名称、任职岗位、主要工作内容、工作业绩、离职原因(3)深度沟通(也叫压力面试)刨根问底下沉式追问(注意是下沉式,而不是发散式的)基本技巧:往自己熟悉的方向说2你自己搭过
大数据集群
吗
create17
·
2022-08-24 12:28
大数据
分布式
hadoop
数据库
spark
yum install报failure: repodata/repomd.xml from cloudera-manager: [Errno 256] No more mirrors to try.
解决:yuminstall报failure:repodata/repomd.xmlfromcloudera-manager:[Errno256]Nomoremirrorstotry.报错在CDH
大数据集群
中报错
LBJ_小松鼠
·
2022-08-04 02:29
大数据常见Bug
Linux基础-使用故障排查
五、Linux实用故障排查1,基础故障排查规则
大数据集群
运行在linux系统上总会遇见各种各样的问题,我们要定位问题,基本从这几个方面入手排查:CPU,内存,磁盘IO,网络,GC等等0,Centos自带的网页监控工具
·
2022-08-03 15:42
运维linux
大数据运维架构师培训(5):大数据管理平台(Cloudera CM/CDH/CDP)
课程目标:本套风哥大数据运维架构师实战培训课程,分5个阶段,分别是大数据Hadoop核心架构运维实战、大数据存储管理与查询分析实战、大数据计算框架与消息搜索实战、大数据安全调度与数据采集实战、
大数据集群
管理平台运维实战
风哥2号
·
2022-07-29 09:16
cdh
cdh集群安装
cdh大数据平台安装
大数据
hadoop
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他