大数据集群第3页

hive3.1.4源码编译兼容spark3.0.0 hive on spark hadoop3.x修改源码依赖步骤详细

hive编译自从CDH宣布收费之后，公司决定使用开源的组件，对现有的大数据集群进行替换。

薛定谔的猫不吃猫粮·2023-08-26 09:49

大数据项目实战-招聘网站职位分析

目录第一章：项目概述1.1项目需求和目标1.2预备知识1.3项目架构设计及技术选取1.4开发环境和开发工具1.5项目开发流程第二章：搭建大数据集群环境2.1安装准备2.2Hadoop集群搭建2.3Hive

L卡夫卡·2023-08-25 09:43

大数据项目实战（安装准备）

一，搭建大数据集群环境1.1安装准备1.1.1虚拟机安装与克隆1.虚拟机的安装和设置以及启动虚拟机并安装操作系统（以下仅供参考）安装一台虚拟机主机名为：hadoop01的虚拟机备用VMware虚拟机安装

瑾寰·2023-08-25 08:12

Hadoop集群运维相关笔记 hdfs参数设置调优等

HadoopBalancer平衡的速度2.HBASE2.1master服务无法启动errororinterruptwhilesplittinglogs描述分析解决Ref本篇博客将持续更新一些遇到过的Hadoop大数据集群的问题

小鹅鹅·2023-08-20 21:08

hadoop 3.x大数据集群搭建系列9-配置pyspark

一.问题描述之前的文章，我们已经安装完成Spark，然后配置了Spark相关的环境变量，但是运行pyspark报错[root@hp7~]#pysparkenv:python3:没有那个文件或目录从报错可以看到，spark默认需要python3版本，而centos7.8默认的是python2版本。二.升级python升级python--下载pythonwgethttps://npm.taobao.o

只是甲·2023-08-19 06:52

大数据集群搭建全部过程（Vmware虚拟机、hadoop、zookeeper、hive、flume、hbase、spark、yarn）

大数据集群搭建进度及问题总结所有资料在评论区那里可以得到第一章：1.网关配置（参照文档）注意事项：第一台虚拟机改了，改为centos101，地址为192.168.181.130网关依然是192.168.181.2

舒寒拽少·2023-08-18 06:25

hadoop环境准备-大数据Week5-DAY6-1-hadoop

1.安装VMware2.通过Vmware安装第一台linux机器3.为我们创建的linux虚拟机挂载操作系统4.为我们的linux虚拟机设置网络配置5.克隆第一台机器6.更改克隆机器的IP地址2.安装大数据集群前的环境准备

低调的小哥哥·2023-08-18 06:55

大数据平台中元数据库—MySQL的异常故障解决

通过日志分析、工具检测和专家指导等一系列方法，最终确定问题的根源是大数据集群中租户的不规范使用所导致，并逐步解决了这个问题。

LinkSLA·2023-08-15 06:29

国产开源ambari之DataSophon部署

主要特性有:快速部署,可快速完成300个节点的大数据集群部署兼容复杂环境,极少的依赖使其很容易适配各种复杂环境监控指标全面丰富，基于生产实践展示用户最关心的监控指标灵活便捷的告警服务，可实现用户自定义告警组和告警指标可扩展性强

贾斯汀玛尔斯·2023-08-13 09:34

2018-12-01 大数据学习

今天完成这两天完成的不多，主要是调通搭建的那个用于测试的大数据集群，完成了将数据写入hbase的部分。

Bitson·2023-08-13 04:38

Zookeeper在Linux虚拟机下的安装部署

ApacheZooKeeper是Apache软件基金会的一个开源分布式软件项目，大数据集群服务器的管理者协调者。

程序终结者·2023-08-08 06:46

Ubuntu-Docker安装和使用

Dcker安装使用及大数据集群搭建安装VMwareToolsDockerdocker安装docker基本命令查看信息创建容器启动容器初始化容器内root密码进入正在运行的容器查看容器删除容器文件拷贝大数据集群搭建创建

律为·2023-08-07 10:43

Python---pyspark中的数据输出（collect，reduce，take，count，saveAsTextFile），了解PySpark代码在大数据集群上运行

1.Spark的编程流程就是：将数据加载为RDD（数据输入）对RDD进行计算（数据计算）将RDD转换为Python对象（数据输出）2.数据输出的方法将RDD的结果输出为Python对象的各类方法collect：将RDD内容转换为listreduce：对RDD内容进行自定义聚合take：取出RDD的前N个元素组成list返回count：统计RDD元素个数返回collect算子：将RDD各个分区内的数

三月七（爱看动漫的程序员）·2023-08-06 16:57

python自动化部署hadoop集群_大数据集群的自动化运维实现思路

原标题：大数据集群的自动化运维实现思路|作者简介王晓伟知数堂《大数据实战就业》课程讲师六年大数据相关工作经验清华大学软件工程硕士曾就职于网易、搜狗等互联网企业从事大数据及数据仓库的开发管理工作拥有丰富的数据平台建设

weixin_39869959·2023-08-04 19:11

大数据学习教程：Linux高级教程（下）

四、大数据集群服务器搭建1.新增Linux服务器1.1、克隆虚拟机学习环境中，一般使用VMware虚拟机克隆Linux系统，用来进行集群服务器的搭建。

Blue92120·2023-08-03 12:44

java HiveMetaStoreClient kerberos 亲测通过

本地验证麻烦的地方有三点:本地代码连大数据集群，xml文件怎么配置。kerberos认证怎么做。java依赖包的不兼容。

骑着蜗牛向前跑·2023-08-02 03:30

Java操作HDFS示例

1.环境准备大数据集群一套，没有的可以自己本地搭建一套（参考地址：https://www.jianshu.com/p/2c2ae6490fa0）本地安装JDK本地安装IDEA或者Eclipse2.样例代码

代良晨_Lancer·2023-08-01 11:35

使用IDEA-Big Data Tools连接远程Spark服务器

HowtosubmitcodetoaremoteSparkclusterfromIntelliJIDEA（并没有答案）Big-Data-Tools:RunapplicationswithSparkSubmit使用Docker快速部署Spark+Hadoop大数据集群场景使用主机

LittleSeedling·2023-07-27 03:59

入门篇 - RDD 介绍

分布式:数据存储在大数据集群不同节点上数据集:RDD封装了计

君子何为·2023-07-23 16:26

Datasophon添加第三方组件--FLINKSTANDALONE

重启datasophon-manager服务页面安装存在问题Datasophon简介DataSophon（点击访问官网）是致力于自动化监控、运维、管理大数据基础组件和节点的，帮助您快速构建起稳定，高效的大数据集群

Sherwy·2023-07-23 08:31

大数据之就业岗位

数据部门的组织架构运维组1.负责分析大数据平台各个组件运行状态，负责大数据平台运行故障的分析，定位和解决，并根据业务场景进行定制优化2.负责业务集群日常问题的解答、汇总整理、跟踪解决等；3.参与大数据集群自动化运维工具的设计与实施

（YSY_YSY）·2023-07-22 06:20

【HDFS】大数据集群坏盘问题的一种处理实践

大数据集群坏盘问题的一种处理实践前言正文思路描述实现记录修复脚本服务端脚本试行结果优化思路结语前言在规模比较大的HDFS集群里，每天最容易出现的问题便是磁盘问题，我们的大集群1700+的DataNode

Meepoljd·2023-07-19 17:41

【Go】实现一个代理Kerberos环境部分组件控制台的Web服务

环境部分组件控制台的Web服务背景安全措施引入的问题SSO单点登录过程整体设计路由反向代理登录会话组件代理YarnHbase结果背景首先要说明下我们目前有部分集群的环境使用的是HDP-3.1.5.0的大数据集群

Meepoljd·2023-07-19 17:38

开源组件系列（6）：分布式文件系统（HDFS）

为了应为数据存储的管理和扩展问题，大数据集群通常采用横向扩展的方式来满足数据增长的需求，即以网络互连的节点为单位扩大存储容量。为了构建横向扩展的分布式文

晓阳的数据小站·2023-07-17 09:44

万字长文 | Hadoop 上云：存算分离架构设计与迁移实践

一面数据原有的技术架构是在线下机房中使用CDH构建的大数据集群。自公司成立以来，每年都保持着高速增长，业务的增长带来了数据量的剧增。

Juicedata·2023-07-15 11:01

hive启动一直失败 org.apache.hadoop.hive.metastore.HiveMetaException: Failed to load driver

好不容把大数据集群装好了，但是hive始终启动不了。

罗亚方舟·2023-07-14 19:00

知识点16--spring boot整合kafka

没有kafka集群的去我主页找各类型大数据集群搭建文档–>大数据原生集群本地测试环境搭建三第一步：首先导入pom依赖org.springframework.kafkaspring-kafka第二步：修改

尘世壹俗人·2023-07-14 05:34

Sqoop ---- Sqoop的简单使用案例

的简单使用案例1.导入数据1.RDBMS到HDFS2.RDBMS到Hive3.RDBMS到Hbase2.导出数据1.HIVE/HDFS到RDBMS3.脚本打包1.导入数据在Sqoop中，“导入”概念指：从非大数据集群

在人间负债^·2023-06-22 13:20

大数据离线集群数据迁移实战项目

随着近年来社交电商的火爆，有赞大数据集群一直处于快速增长的状态。

岁月的眸·2023-06-22 03:10

基于小米球（Ngrok）实现内网穿透

一、前言在公司部署了一套大数据集群。为了方便测试。所以需要弄个内网穿透实现在家里访问公司内部网络，但是不想付费。所以整了个免费的内网穿透工具。

njpkhuan·2023-06-20 07:10

hadoop 3.x大数据集群搭建系列4-安装Spark

一.下载spark和scala并解压cd/home/softwarewgethttps://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-3.3.1/spark-3.3.1-bin-hadoop3.tgz--no-check-certificatetar-xvfspark-3.3.1-bin-hadoop3.tgz-C/home/cd/home/s

只是甲·2023-06-17 19:38

存算分离实践：JuiceFS 在中国电信日均 PB 级数据场景的应用

01-大数据运营的挑战&升级思考大数据运营面临的挑战中国电信大数据集群每日数据量庞大，单个业务单日量级可达到PB级别，且存在大量过期数据（冷数据）、冗余数据，存储压力大；每个省公司都有自己的集群，以及多个收集全国各省级业务信息的集团大数据集群

·2023-06-14 18:13

基于Hadoop + Hive框架进行电子商务数据分析的设计与实现

大数据存储，处理和处理的研究已是企业未来发展的趋势，因此，将开展基于Hadoop+Hive框架进行电子商务数据分析，搭建一个大数据集群平台，用于通过电商案例的存储，处理，分析和可视化展示的实验迎向困难该挑战数仓的总体设计数据仓库概念

悟空打码·2023-06-14 10:44

尚硅谷大数据项目【电商数仓5.0】学习笔记

尚硅谷大数据项目【电商数仓5.0】学习笔记大数据学习基础基础shell编程：大数据之基础shell集群快速安装教程：大数据集群快速安装教程注：如果您已经有大数据学习基础，可以通过上面教程快速搭建学习环境

yiluohan0307·2023-06-13 16:40

Linux 虚拟机：大数据集群基础环境搭建（Hadoop、Spark、Flink、Hive、Zookeeper、Kafka、Nginx）

基本信息：Centos-7.9、Java-1.8、Python-3.9、Scala-2.12、Hadoop-3.2.1、Spark-3.1.2、Flink-1.13.1、Hive-3.1.3、Zookeeper-3.8.0、Kafka-3.2.0、Nginx-1.23.1目录一、相关文件下载地址二、虚拟机基础配置三、语言环境安装1.Java环境安装2.Python环境安装3.Scala环境安装四、

AcWare 学习笔记·2023-06-11 20:05

小知识点：ARM 架构 Linux 大数据集群基础环境搭建（Hadoop、MySQL、Hive、Spark、Flink、ZK、Kafka、Nginx、Node）

换了M2芯片的Mac，以前x86版本的Linux大数据集群基础环境搭建在ARM架构的虚拟机集群上有些用不了了，现在重新写一份基于ARM架构的，少数不兼容之外其他都差不多，相当于更新一版以前的部分和x86

AcWare 学习笔记·2023-06-11 20:34

Hadoop环境搭建（保姆级教学）

知识讲解简单说明：VMware版本：linux版本：1、linux系统的安装：1、安装VMware2、linux虚拟机配置ios3、linux虚拟机设置网络配置4、克隆虚拟机5、克隆机更改ip地址2、安装大数据集群环境基本配置

Nuyoahㅤㅤ·2023-06-11 07:19

火山引擎云原生大数据在金融行业的实践

作者｜张云尧-火山引擎云原生计算研发工程师▌金融行业大数据需求云原生相比Hadoop的优势传统大数据集群通常基于Hadoop系统构建，传统大数据作业通

字节跳动云原生计算·2023-06-09 07:52

自建大数据集群因kerberos认证无法进入hdfs Web UI问题

关于mac本机访问webdfs的kerberos认证问题的解决方式问题如下：在配置kerberos认证后hdfs无法访问目录文件，用户无此权限，需要进行用户认证。解决方案：获取到生成的keytab文件到本地。创建/etc/krb5.conf[libdefaults]dns_lookup_realm=falsedns_lookup_kdc=falseticket_lifetime=1hrenew_l

Flakej·2023-06-08 18:38

基于Docker搭建大数据集群（一）Docker环境部署

本篇文章是基于Docker搭建大数据集群系列的开篇之作主要内容docker搭建docker部署CentOS容器免密钥通信容器保存成镜像docker镜像发布环境Linux7.6一、Docker安装安装工具包

njpkhuan·2023-06-08 14:52

克隆虚拟机

上一篇我们已经讲过了启动虚拟机并安装Linux系统，下面我们来讲一下如何通过已经创建好的虚拟机spark01克隆出spark02和spark03来，从而满足搭建大数据集群环境需要多台虚拟机的需求。

想你依然心痛·2023-06-08 10:42

亚马逊云科技赋能敦煌网集团上云，云上新架构带来价值

之前传统IDC大数据集群，维护成本高、无法实现弹性伸缩

生活博谈·2023-06-08 07:53

大数据集群将root用户切换至普通用户使用

集群组件root用户启动切换到普通用户启动步骤1.创建用户useraddampthonpasswdampthon2.给此用户配置免密登录2.1所有机器切换至ampthon用户后，执行ssh-keygen–trsa2.2配置免密,在所有机器上执行cat~/.ssh/id_rsa.pub|sshampthon@nna‘cat~/.ssh/authorized_keys’命令，将公钥拷贝到nna服务器上

春_·2023-04-21 12:16

HDFS集群部署成功但网页无法打开如何解决（显示配置通过浏览器访问hdfs的端口）

在学习黑马2023大数据教程过程中，首先依照视频完成了如下配置：【必须】【黑马2023大数据实战教程】大数据集群环境准备过程记录（3台虚拟机）黑马2023大数据实战教程】VMWare虚拟机部署HDFS集群详细过程最后

锵锵锵锵~蒋·2023-04-21 10:12

【黑马2023大数据实战教程】大数据集群环境准备过程记录（3台虚拟机）

文章目录1.设置三台Linux虚拟机的主机名和固定IP2.在Linux系统以及本机系统中配置了主机名映射3.配置了三台服务器之间root用户的SSH免密互通4.配置jdk环境5.关闭防火墙和SELinux6.修改时区并配置自动时间同步7.设置快照保存状态8.下一篇HDFS集群部署1.设置三台Linux虚拟机的主机名和固定IP忘了记录，原视频链接在这：2023新版黑马程序员大数据入门到实战教程，大数

锵锵锵锵~蒋·2023-04-21 09:49

CDH6.3.2大数据集群生产环境安装(九)之部署flink1.13.2客户端

添加flink用户（可选，这里是因为公司需要这个参数所以才添加；所有节点都添加上，省事）29.1.添加useraddflink部署flink客户端选择一个集群节点作为客户端部署节点，这里选择zcpt-prd-bigdata-worker-01节点30.1.上传资源flink-1.13.2-bin-scala_2.12.tgz30.2.解压并改名文件夹为flink，并授权flink用户chown-R

日复一日伐树的熊哥·2023-04-20 05:05

大数据集群搭建

第一部分：Linux环境安装Hadoop是运行在Linux，虽然借助工具也可以运行在Windows上，但是建议还是运行在Linux系统上，第一部分介绍Linux环境的安装、配置、JavaJDK安装等。第二部分：Hadoop本地模式安装Hadoop本地模式只是用于本地开发调试，或者快速安装体验Hadoop，这部分做简单的介绍。第三部分：Hadoop伪分布式模式安装学习Hadoop一般是在伪分布式模式

张明洋_4b13·2023-04-18 03:13

hadoop 读取orc文件和读取lzo文件

orc文件，有“org.apache.hadoop.hive.ql.io.orc.OrcInputFormat”和“org.apache.orc.mapred.OrcInputFormat”方式读取，大数据集群默认不提供对应

行走荷尔蒙·2023-04-17 06:07

【Kafka-Kerberos下执行shell命令】Kafka在Kerberos环境下如何操作shell命令

【Kafka-Kerberos下执行shell命令】Kafka在Kerberos环境下如何操作shell命令1）jaas.conf2）client.properties3）执行命令当大数据集群部署了Kerberos

bmyyyyyy·2023-04-16 07:10

CDH6.3.2大数据集群生产环境安装(八)之各组件参数调优，yarn参数调优，hdfs参数调优等

yarn资源调优主要涉及到了ResourceManager、NodeManager这几个概念，相关的优化也要紧紧围绕着这几方面来开展。这里还有一个Container的概念，现在可以先把它理解为运行map/reducetask的容器28.1.内存堆栈等配置原值调优值

日复一日伐树的熊哥·2023-04-14 17:44

推荐频道

大数据集群

hive3.1.4源码编译兼容spark3.0.0 hive on spark hadoop3.x修改源码依赖 步骤详细