大数据集群第4页

大数据平台建设方法论集合

文章目录从0到1建设大数据解决方案大数据集群的方法论数据集成方法论机器学习算法平台方法论BI建设的方法论云原生大数据的方法论低代码数据中台的方法论大数据SRE运维方法论批流一体化建设的方法论数据治理的方法论湖仓一体化建设的方法论数据分析挖掘方法论数字化转型方法论数据服务建设方法论元数据管理方法论知识图谱建设方法论数仓建模的方法论人工智能建设方法论从

猿与禅·2023-04-03 23:19

hadoop 3.x大数据集群搭建系列7-安装Hudi

编译环境准备软件版本Hadoop3.3.2Hive3.1.2Spark3.3.1Flink1.15.2一.下载并解压hudicd/home/softwarewgethttps://mirrors.tuna.tsinghua.edu.cn/apache/hudi/0.12.0/hudi-0.12.0.src.tgz--no-check-certificatetar-xvfhudi-0.12.0.sr

只是甲·2023-04-03 03:55

数据湖架构Hudi（三）Hudi核心概念

三、ApacheHudi核心概念3.1基本概念Hudi提供了Hudi表的概念，这些表支持CRUD操作，可以利用现有的大数据集群比如HDFS做数据文件存储，然后使用SparkSQL或Hive等分析引擎进行数据分析查询

undo_try·2023-04-01 23:09

如何估算集群所需的存储、计算资源？

最近有位朋友在群里问：怎么预估大数据集群所需的内存容量？这个问题是大数据架构师的高频面试题，但是更关键的是在项目中更是必备的技能。因为这会涉及到服务器的选择和成本核算。

大数据架构师Evan·2023-04-01 22:47

网络配置、防火墙（大数据集群环境）Linux防火墙

1.大数据集群环境，形成集群局域网，使用机器名替代真实IP，如何完成IP地址与机器名的映射？

zwb_jianshu·2023-04-01 14:58

【公测中】阿里云发布国内首个大数据双活容灾服务，满足高要求大数据灾备场景

在6月上旬举行的云栖大会上海峰会上，阿里云发布了国内首个大数据集群双活容灾产品-混合云容灾服务下的混合云大数据容灾服务（HDRforBigData,简称HDR-BD），并已经在7月份开始邀测。

许此一生·2023-04-01 04:37

YARN组件

YARN组件在生产环境中的大数据集群，所有作业或系统运行所需的资源，都不是直接向操作系统申请，而是交由资源管理器和调度框架代为申请。每个作业或系统所需的资源都是由资源管理和调度框架统一分配、协调。

zhuhaiqin·2023-03-31 17:13

字节跳动 Flink 大规模云原生化实践

大规模使用YARN管理的大数据集群，有效提升了Flink

Apache Flink·2023-03-31 00:57

搭建大数据集群操作实战

准备工作：准备三台装有linux系统的虚拟机。集群搭建暂时使用奇数台。一:配置静态IP，时间同步，SSH服务.二:安装JDK三:搭建hadoop集群

Carter强·2023-03-30 11:21

Spark零基础入门实战（七）Spark生态系统架构

要想对这些大量的数据进行离线或实时分析，需要使用数据传输工具将其导入Hadoop平台或其他大数据集群中。数据传输层数据传输工具常用的有Flume、Sqo

大数据张老师·2023-03-29 18:35

数据清洗平台Streamsets

Mysql到Hbase数据如何实时同步，强大的Streamsets告诉你Java小可爱2小时前很多情况大数据集群需要获取业务数据，用于分析。

华木公子·2023-03-19 08:14

知名大厂大数据平台搭建案例分享

淘宝的大数据平台基本也是分成三个部分，上面是数据源与数据同步；中间是云梯1，也就是淘宝的Hadoop大数据集群；下面是大数据的应用，使用大数据集群的计算结果。

zhouyanjun_·2023-03-18 07:34

大数据集群hadoop环境搭建

1、集群规划统一环境配置[所有节点]IP地址设置修改Ip地址vi/etc/sysconfig/network-scripts/ifcfg-ens33TYPE="Ethernet"PROXY_METHOD="none"BROWSER_ONLY="no"BOOTPROTO="static"#设置为静态ipstaticDEFROUTE="yes"IPV4_FAILURE_FATAL="no"NAME="

南极找南·2023-03-15 12:16

JVM性能调优与实战进阶篇-上

大数据集群如HBase的性能。特性ZGC（TheZGarbageCollector）为JDK11推出一款低延迟的垃圾回收器。STW即停顿时间低于1ms，且不会随着堆的大小

IT小神·2023-03-15 08:43

二十分钟带你了解JVM性能调优与实战进阶

大数据集群如HBase的性能。特性ZGC（TheZGarbageCollector）为JDK11推出一款低延迟的垃圾回收器。STW即停顿时间低于1ms，且不会随着堆的大小

喜欢软测的小北葵·2023-03-15 07:13

hadoop 3.x大数据集群搭建系列11- 配置Hive metastore及hive-server2

一.Hive配置文件修改--修改后同步到其它节点cd$HIVE_HOME/confvihive-site.xml#增加如下内容hive.server2.thrift.bind.hosthp5hive.server2.thrift.port10000PortnumberofHiveServer2Thriftinterfacewhenhive.server2.transport.modeis'bina

只是甲·2023-03-10 04:19

centos7搭建大数据集群环境(hadoop3+hive3)

持续更新中...软件环境：jdk8,hadoop-3.3.1.tar.gz,apache-hive-3.1.2-bin.tar.gz硬件环境：3台服务器(192.1.168.1.201,192.1.168.1.202,192.1.168.1.203)1.服务器准备1.1.安装centos7系统;给机器安装centos7系统，注意不要安装最小化系统。image.png1.2.安装java8环境;到h

GuanYZ·2023-03-09 09:16

【离线数仓-5-数据仓库环境准备】

模拟数据准备离线数仓-5-数据仓库环境准备1.数据仓库运行环境数仓之外需要做的事情：数据安全认证：在大数据层面：1.用户认证：Kerberos来管理认证2.用户授权:Ranger来管理授权数据质量监控大数据集群

Apache Minor Trend·2023-02-24 18:28

大数据集群迁移

准备两套集群，我这使用apache集群和CDH集群。启动集群：启动完毕后，将apache集群中，hive库里dwd、dws、ads三个库的数据迁移到CDH集群。在apache集群里hosts加上CDHNamenode对应域名并分发给各机器。[root@hadoop101~]#vim/etc/hosts

wespten·2023-02-04 17:54

大数据集群监控框架

一、监控框架Bigdata1Bigdata2Bigdata3Zabbixzabbix-serverzabbix-agentzabbix-agentzabbix-agentGangliaganglia二、Zabbix4.2.82.1概念Zabbix是一款能够监控各种网络参数以及服务器健康性和完整性的软件。Zabbix使用灵活的通知机制，允许用户为几乎任何事件配置基于邮件的告警。这样可以快速反馈服务器

CJ21·2023-02-02 05:29

大数据集群搭建

目录一、安装jdk二、安装tomcat三、安装mysql四、搭建集群(三台)4.1新增linux系统4.2关闭防火墙4.3关闭selinux4.4配置hosts文件4.5scp远程文件拷贝4.5.1本地机器内容拷贝到远程机器4.5.2远程机器内容拷贝到本地机器4.6ssh远程登录4.6.1使用ssh基于密码的远程登录(了解)4.6.2使用ssh基于秘钥的免密码登录(掌握)4.7三台机器时钟同步4.

铁疙瘩掉了俩·2023-01-30 15:48

大数据平台安装部署（适用虚拟机级真实服务器，亲测）

大数据集群搭建一、基础环境准备（虚拟环境or服务器环境）1.虚拟环境准备（服务器安装跳过此步骤）1.1安装vmware注意：安装centos8系统及以上需要高版本vmware,实测vmware12.x会出现错误

小崔编码·2023-01-30 04:06

国产自研开源大数据管理平台DataSophon Manager安装教程

简介DataSophon是近日开源的一款国产自研大数据管理平台，致力于快速实现部署、管理、监控以及自动化运维大数据服务组件和节点的能力，帮助你快速构建起稳定、高效的大数据集群服务。

浮世Talk·2023-01-30 03:29

centos离线安装CDH（4.1）: 安装大数据集群

微信:18520269913备注:阿里巴巴淘系技术部-大数据大数据集群安装配置修改进入配置界面的方式：管理->设置配置parcel的地址配置parcel地址，能够让我们在后续安装的时候不从外网下载parcel

丁华0301·2023-01-28 04:00

大数据集群搭建

0.在做大数据集群开发环境的时候，前提是先把网络环境配置好，也就是把虚拟机配置好。

destinyLee·2023-01-27 22:27

实战｜Hadoop大数据集群搭建

实验环境：主机名IP地址角色qll251192.168.1.251NameNodeqll252192.168.1.252DataNode1qll253192.168.1.253DataNode2所需软件包：hadoop-2.9.2.tar.gzjdk-8u241-linux-x64.tar.gz软件包下载地址：Hadoop软件包官方下载地址：https://hadoop.apache.org/re

Dark_Ice_·2023-01-21 09:11

大数据集群搭建之Linux安装hadoop3

dfs.namenode.http-address.ns1.hadoop002hadoop002:9870dfs.ha.automatic-failover.enabled.ns1truedfs.client.failover.proxy.provider.ns1org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyPro

m0_67613962·2023-01-21 09:07

饿了么大数据计算引擎实践与应用

其中6人的离线团队需要维护大数据集群规模如下：Hadoop集群规模1300+HDFS存量数据40+PB，Read3.5PB+/天，Write500TB+/天14WMRJob/天，10WSparkJob/

Simple_Zz·2022-12-29 13:00

使用 PowerFlex 在 Kubernetes 平台上部署 Microsoft SQL Server 大数据集群

简介MicrosoftSQLServer2019通过SQLServer2019大数据集群(BigDataClusters,BDC)推出了突破性的数据平台。

申耀的科技观察·2022-12-24 14:44

Apache Http Server安全漏洞解决

场景：公司使用的大数据集群云服务器，安全扫描出严重漏洞，扫描漏洞如下：安全漏洞扫描报告端口协议服务严重等级漏洞–ICMP–弱ICMPtimestamp请求响应漏洞–UDP–弱允许Traceroute探测

百夜﹍悠ゼ·2022-12-17 10:57

Spark论文思想之-总结

在大数据集群计算的困难部分（容错、调度、多租户），这种小而通用抽象更能适应需求的快速变化。可以看出，集群应用在朝着复杂化的方向发展，

初心江湖路·2022-12-15 11:05

Kerberos异常之unnable to obtain password from user

unnableobtainpasswordfromuser问题描述在大数据集群开启kerberos认证后，使用kerberos票据进行kinit认证通过。

Dennis985·2022-12-15 11:58

分布式大数据集群搭建

kafka：消息队列Redis：内存数据库zookeeper：大数据集群管理hadoop：hdfs(分布式存储)mapreduce(分布式离线计算)yarn(资源调度管理)存储模型：HDFS是一个主从(

NO PAIN_NO GAIN·2022-12-02 13:01

hadoop 3.3大数据集群搭建系列3-安装Hive

一.下载hivecd/home/softwarewgethttps://mirrors.tuna.tsinghua.edu.cn/apache/hive/hive-3.1.2/apache-hive-3.1.2-bin.tar.gz--no-check-certificate二.解压将下载下来的安装包解压到/home目录tar-zxvfapache-hive-3.1.2-bin.tar.gz-C/

只是甲·2022-12-01 09:52

37手游基于云平台的大数据建设实践

我们之前是自建的大数据集群，考虑到集群未来的扩展性、稳定性以及成本问题，决定大数据全部上云，今天的分享就是基于IDC集群上云的建设实践。一、云平台大数据建设背景首先看一下这张图，做大数据的同学对

Apache Flink·2022-11-03 10:44

大数据集群监控体系架构

背景企业级的数据集群往往有PB级的数据、成百上千的各类型运算任务在一套集群上运行。所以它的维护是充满挑战的：庞大的数据量、复杂的运算逻辑、相互关联的大数据组件、数以万计的运行任务都是要克服的难点。SRE如果不想被动的话，就必须做好各式监控。预防风险、提前发现风险、然后分析问题、进而针对性的处理问题。凡是成体量的分布式系统，一旦出现性能问题，往往很难在短时间内作出有效处理。所以监控要前置，有趋势预测

好未来技术团队·2022-10-31 15:03

大数据集群环境搭建：Hadoop、Spark、Flink分布式集群环境

大数据集群环境搭建：Hadoop、Spark、Flink分布式集群环境一、安装虚拟机二、修改主机名三、配置hosts文件四、配置静态IP五、配置防火墙六、集群各节点禁用SELinux七、安装基本工具八、

勇敢羊羊在飞奔·2022-10-24 18:57

37手游基于云平台的大数据建设实践

我们之前是自建的大数据集群，考虑到集群未来的扩展性、稳定性以及成本问题，决定大数据全部上云，今天的分享就是基于IDC集群上云的建设实践。一、云平台大数据建设背景首先看一下这张图，做大数据的同学对

·2022-10-13 18:40

【Flink】flink on k8s 部署方案

1.HDFS部署(k8s)hdfs的作用是用户保存flink的检查点与保持点但是大数据集群目前还是建议单独使用CDH或者HDP部署目前文中的这种hdfsonk8s方式做高可用不太方便1.1配置文件hdfs-conf.yamlapiVersion

我的浪漫与极端·2022-09-25 20:33

多台linux时钟同步

随后在输入界面键入以下内容，每隔一分钟就去连接阿里云时间同步服务器，进行时钟同步*/1****/usr/sbin/ntpdatentp4.aliyun.com;方式二：通过某一台机器进行同步在业务环境中，有时候为了安全，大数据集群的节点不允许连接外网

心宇激扬·2022-09-25 01:59

大数据平台 CDP 中如何配置 hive 作业的 YARN 队列以确保SLA?

大家知道，在生产环境的大数据集群中，在向资源管理器YARN提交作业时，我们一般会将作业提交到管理员指定的队列去执行，以利用YARN队列的资源隔离性确保作业能够获得足够的资源进行执行，从而确保SLA。

·2022-09-22 16:40

EMR重磅发布智能运维诊断系统(EMR Doctor)——开源大数据平台运维利器

简介：E-MapReduce推出面向开源大数据集群的智能运维诊断系统E-MapReduceDoctor，有效提升大数据集群运维效率，辅助EMR用户完善集群监控体系。

·2022-09-16 16:43

开启 Kerberos 安全的大数据环境中，Yarn Container 启动失败导致 spark/hive 作业失败

最近在若干个不同客户现场，都遇到了大数据集群中开启Kerberos后，spark/hive作业提交到YARN后，因YARNContainer启动失败作业无法执行的情况，在此总结下背后的知识点，跟大家分享下

·2022-09-16 15:17

EMR重磅发布智能运维诊断系统(EMR Doctor)——开源大数据平台运维利器

大数据运维的挑战—如何保证集群稳定与运行效率企业级大数据集群通常拥有海量的数据存储、日常运算成干上万的计算任务，需要满足各类上层业务的计算需求。

·2022-09-15 16:57

全网最详细的Hadoop大数据集群搭建并进行项目分析(基于完全分布式)-----第一部分

##心路历程：这是大学时期做的项目，这个项目对我印象特别的深，当时没有记录在博客上，今后会积极分享自己做项目的历程与经验，希望能帮到需要的朋友，有什么问题或者建议欢迎在评论区留言，废话不多说，咱们就开始干！##所有需要的资料全部已上传到百度网盘上，请自行下载##获取镜像，https://pan.baidu.com/s/1ho4hMrvIu1V6W4wWdH8nIA，提取码：ygyg获取Xshell

Yang三少喜欢撸铁·2022-09-09 07:29

大数据集群环境配置从JDK /Hadoop /zookeeper /Hive /Flume / KafKa /Mysql /Tomcat

文章目录大数据集群配置1.0Hadoop安装1.1克隆虚拟机102,103,1041.2伪分布式的测试1.3完全分布式搭建1.4对配置文件进行配置2.0zookeeper安装2.1解压安装2.2文件配置

Fang GL·2022-09-05 07:58

大数据面经吐血总结【阿里提问+答案解析】

个人基本信息(2)工作履历工作时间、公司名称、任职岗位、主要工作内容、工作业绩、离职原因(3)深度沟通(也叫压力面试)刨根问底下沉式追问(注意是下沉式，而不是发散式的)基本技巧：往自己熟悉的方向说2你自己搭过大数据集群吗

create17·2022-08-24 12:28

yum install报failure: repodata/repomd.xml from cloudera-manager: [Errno 256] No more mirrors to try.

解决:yuminstall报failure:repodata/repomd.xmlfromcloudera-manager:[Errno256]Nomoremirrorstotry.报错在CDH大数据集群中报错

LBJ_小松鼠·2022-08-04 02:29

Linux基础-使用故障排查

五、Linux实用故障排查1，基础故障排查规则大数据集群运行在linux系统上总会遇见各种各样的问题，我们要定位问题，基本从这几个方面入手排查：CPU,内存，磁盘IO，网络，GC等等0,Centos自带的网页监控工具

·2022-08-03 15:42

大数据运维架构师培训（5）：大数据管理平台（Cloudera CM/CDH/CDP）

课程目标：本套风哥大数据运维架构师实战培训课程，分5个阶段，分别是大数据Hadoop核心架构运维实战、大数据存储管理与查询分析实战、大数据计算框架与消息搜索实战、大数据安全调度与数据采集实战、大数据集群管理平台运维实战

风哥2号·2022-07-29 09:16

推荐频道

大数据集群

大数据平台建设方法论集合

hadoop 3.x大数据集群搭建系列7-安装Hudi

数据湖架构Hudi（三）Hudi核心概念

如何估算集群所需的存储、计算资源？

网络配置、防火墙 （大数据集群环境）Linux防火墙

【公测中】阿里云发布国内首个大数据双活容灾服务，满足高要求大数据灾备场景

YARN组件

字节跳动 Flink 大规模云原生化实践

搭建大数据集群操作实战

Spark零基础入门实战（七）Spark生态系统架构

数据清洗平台Streamsets

知名大厂大数据平台搭建案例分享

大数据集群hadoop环境搭建

JVM性能调优与实战进阶篇-上

二十分钟带你了解JVM性能调优与实战进阶

hadoop 3.x大数据集群搭建系列11- 配置Hive metastore及hive-server2

centos7搭建大数据集群环境(hadoop3+hive3)

【离线数仓-5-数据仓库环境准备】

大数据集群迁移

大数据集群监控框架

大数据集群搭建

大数据平台安装部署（适用虚拟机级真实服务器，亲测）

国产自研开源大数据管理平台DataSophon Manager安装教程

centos离线安装CDH（4.1）: 安装大数据集群

大数据集群搭建

实战｜Hadoop大数据集群搭建

大数据集群搭建之Linux安装hadoop3

饿了么大数据计算引擎实践与应用

使用 PowerFlex 在 Kubernetes 平台上部署 Microsoft SQL Server 大数据集群

Apache Http Server安全漏洞解决

Spark论文思想之-总结

Kerberos异常之unnable to obtain password from user

分布式大数据集群搭建

hadoop 3.3大数据集群搭建系列3-安装Hive

37手游基于云平台的大数据建设实践

大数据集群监控体系架构

大数据集群环境搭建：Hadoop、Spark、Flink分布式集群环境

37手游基于云平台的大数据建设实践

【Flink】flink on k8s 部署方案

多台linux时钟同步

大数据平台 CDP 中如何配置 hive 作业的 YARN 队列以确保SLA?

EMR重磅发布智能运维诊断系统(EMR Doctor)——开源大数据平台运维利器

开启 Kerberos 安全的大数据环境中，Yarn Container 启动失败导致 spark/hive 作业失败

EMR重磅发布智能运维诊断系统(EMR Doctor)——开源大数据平台运维利器

全网最详细的Hadoop大数据集群搭建并进行项目分析(基于完全分布式)-----第一部分

大数据集群环境配置从JDK /Hadoop /zookeeper /Hive /Flume / KafKa /Mysql /Tomcat

大数据面经吐血总结【阿里提问+答案解析】

yum install报failure: repodata/repomd.xml from cloudera-manager: [Errno 256] No more mirrors to try.

Linux基础-使用故障排查

大数据运维架构师培训（5）：大数据管理平台（Cloudera CM/CDH/CDP）

网络配置、防火墙（大数据集群环境）Linux防火墙