Hadoop大数据相关第30页

2.X版本的一个通病问题

【概述】对于配置了HA模式的RM或者NN，客户端如果向standby的节点发送请求，会因为不可连接或standby拒绝提供服务导致请求失败，转而向Active的节点发送请求，这个转换是hadoop客户端内部自动完成的

陈猿解码·2023-12-28 13:29

HDFS2.x之RPC流程分析

HDFS2.x之RPC流程分析1概述Hadoop提供了一个统一的RPC机制来处理client-namenode,namenode-dataname,client-dataname之间的通信。

can007·2023-12-28 13:59

探究Presto SQL引擎(1)-巧用Antlr

vivo互联网技术·2023-12-28 12:14

Hadoop安装笔记_单机/伪分布式配置_Hadoop3.1.3——备赛笔记——2024全国职业院校技能大赛“大数据应用开发”赛项——任务2：离线数据处理

将下发的ds_db01.sql数据库文件放置mysql中12、编写Scala代码，使用Spark将MySQL的ds_db01库中表user_info的全量数据抽取到Hive的ods库中表user_info。字段名称、类型不变，同时添加静态分区，分区字段为etl_date，类型为String，且值为当前日期的前一天日期（分区字段格式为yyyyMMdd）。使用hivecli执行showpartitio

Stitch .·2023-12-28 12:32

「Kafka」入门篇

「Kafka」入门篇基础架构Kafka快速入门集群规划集群部署官方下载地址：http://kafka.apache.org/downloads.html解压安装包：[atguigu@hadoop102software

小成同学_·2023-12-28 12:30

Hadoop之HDFS 详细教程

1、HDFS概述Hadoop分布式系统框架中，首要的基础功能就是文件系统，在Hadoop中使用FileSystem这个抽象类来表示我们的文件系统，这个抽象类下面有很多子实现类，究竟使用哪一种，需要看我们具体的实现类

白鸽呀·2023-12-28 11:29

hadoop hive spark flink 安装

下载地址Indexof/distubuntu安装hadoop集群准备IP地址主机名称192.168.1.21node1192.168.1.22node2192.168.1.23node3上传hadoop

nsa65223·2023-12-28 11:59

Spark从入门到精通23：Spark SQL简介

我们知道Hive是Hadoop生态中的一个数据分析引擎，它可以将HiveSQL转换成MapReduce任务提交到Hadoop集群中执行，大大简化了编写MapReduce程序的

金字塔下的小蜗牛·2023-12-28 09:20

构建高效数据中台：集群规划与搭建的最佳实践指南

然而，Hadoop也支持通过调整队列的权重和使用抢占策略来优化资源的使用。例如&

数据与后端架构提升之路·2023-12-28 04:20

win7配置hadoop-2.7.7详细教程

Date:2019/09/27Version:hadoop2.7.7;java1.8.0_221;流程安装java下载并解压hadoop压缩包修改配置文件下载winutil，并覆盖启动hadoop0.安装

pluo1717·2023-12-28 04:02

Hive

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表(类似于RDBMS中的表)，并提供类SQL查询功能；Hive是由Facebook开源，用于解决海量结构化日志的数据统计。

之古·2023-12-28 02:58

Hadoop集成对象存储和HDFS磁盘文件存储

1.环境配置1.1版本说明组件版本是否必须其他事项Hadoop3.3.0+是hadoop3.3.0之后原生支持国内主要对象存储Hive3.1.3否实测没有Hive也可以使用sparksql，使用hive

tuoluzhe8521·2023-12-28 02:38

Hadoop集群找不到native-hadoop

1.问题描述========hive运行中的问题，需要把把native复制进去/usr/lib2023-02-1519:59:42,165WARNscheduler.TaskSetManager:Losttask11.0instage1.0(TID3,common4,executor2):java.lang.RuntimeException:HiveRuntimeErrorwhileclosing

tuoluzhe8521·2023-12-28 02:38

EMR集群迁移自建Hadoop(元数据及HDFS数据）

1.背景老集群采用的腾讯emr集群，使用过程中磁盘扩容成本费用高且开源组件兼容性存在问题，因此决定采用自建hadoop集群，需要将emr的元数据和hdfs基础数据迁移过来。

tuoluzhe8521·2023-12-28 02:37

大数据开发之Sqoop详细介绍

测试环境CDH6.3.1Sqoop1.4.7一.Sqoop概述ApacheSqoop（SQL-to-Hadoop）项目旨在协助RDBMS与Hadoop之间进行高效的大数据交流。

lcz-2000·2023-12-27 23:31

Hive 部署

Hive构建在ApacheHadoop之上，并通过hdfs支持S3，adls，gs等存储。Hive允许用户使用SQL读取、写入和管理PB级数据。官网地址二、架构Hive中主要包

有人看我吗·2023-12-27 23:54

大数据-Zookeeper 安装步骤(亲测保成功）

第2章Zookeeper本地安装步骤1.上传到hadoop01上面的apps包下面[root@hadoop01current]#cd/opt/apps2.解压该文件tar-zxvfzookeeper-3.4.6

王哪跑nn·2023-12-27 21:39

Hadoop集群shell常用命令

1.启动hadoop所有进程start-all.sh#等价于start-dfs.sh+start-yarn.sh但是一般不推荐使用start-all.sh(因为开源框架中内部命令启动有很多问题)。

Youngmon·2023-12-27 21:10

MATLAB入门

设计和问题求解而设计的桌面环境用于可视化数据的图形和用于创建自定义绘图的工具用于曲线拟合、数据分类、信号分析、控制系统优化和许多其他任务的APP用于各种工程和科学应用程序的附加功能工具箱用于构建包含自定义用户界面的应用程序的工具用于C/C++、Java、Net、Python、SQL、Hadoop

Litle_Pudding·2023-12-27 21:39

Hadoop期末考试自用

绪论大数据定义从字面意思来看，大数据指的是巨量数据最早提出“大数据”这一概念的是全球知名咨询公司麦肯锡，他是这样定义大数据的：一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型以及价值密度四大特征。大数据的基本特点大量（Volume）多样（Varity）时效性（Velocity）结果准确性（Veracity）价

Yolo_jin·2023-12-27 20:04

【大数据存储与处理】开卷考试总复习笔记

7.hadoop批量数据导入before三、MongoDB数据库操作0.

friklogff·2023-12-27 20:31

Spark与PySpark(1.概述、框架、模块)

目录1.Spark概念2.Hadoop和Spark的对比3.Spark特点3.1运行速度快3.2简单易用3.3通用性强3.4可以允许运行在很多地方4.Spark框架模块4.1SparkCore4.2SparkSQL4.3SparkStreaming4.4MLlib4.5GraphX5

还是那个同伟伟·2023-12-27 18:06

将本地镜像推送到阿里云

文章目录创建仓库镜像登录并上传下载上传的创建仓库镜像利用下面的脚本进行配置登录并上传[root@hadoop100~]#dockerlogin--username=13thmregistry.cn-hangzhou.aliyuncs.comPassword

我是小水水啊·2023-12-27 16:18

Gearman-任务分发系统

简介Gearman是一个分发任务的程序框架，可以用在各种场合，与Hadoop相比，Gearman更偏向于任务分发功能。

瞎胡侃·2023-12-27 15:58

There are 4 missing blocks. The following files may be corrupted

Thereare4missingblocks.ThefollowingfilesmaybecorruptedPleasecheckthelogsorrunfsckinordertoidentifythemissingblocks.SeetheHadoopFAQforcommoncausesandpotentialsolutions

玖玖1704·2023-12-27 14:53

Spark与Hadoop的关系和区别

在大数据领域，Spark和Hadoop是两个备受欢迎的分布式数据处理框架，它们在处理大规模数据时都具有重要作用。本文将深入探讨Spark与Hadoop之间的关系和区别，以帮助大家的功能和用途。

晓之以理的喵~~·2023-12-27 12:13

Hadoop生产集群各种维护命令

1.HDFS运维1.1HDFS集群操作命令#HDFS集群启停start-dfs.shstop-dfs.sh#获取HDFS集群信息hdfsdfsadmin-report#namenode和datanode启动停止命令hdfs--daemonstopdatanodehdfs--daemonstopnamenodehdfs--daemonstartnamenodehdfs--daemonstartdat

tuoluzhe8521·2023-12-27 12:12

Hadoop真的要死了吗？

10月3日，Hortonworks宣布将与其主要竞争对手Cloudera合作创建一家年收入约为7.3亿美元、拥有2,500名客户、市场估值达52亿美元的公司，这令很多人感到意外。SpliceMachine首席执行官MonteZweben表示：“我认为对于我们来说，这是个好消息。我们已经看到了运营由这两家公司和其他公司部署的所有数据湖的巨大机会，而这样的机会在两年前可能连想都不敢想”。Conflue

伯雅之英·2023-12-27 11:23

Spark生产集群各种使用

1.环境配置1.1版本说明要求版本是否必须其他事项Hadoop3.3.4是hadoop3.3.0之后原生支持国内主要对象存储Hive3.1.3否实测没有Hive也可以使用sparksql，使用hive更好的管理

tuoluzhe8521·2023-12-27 10:15

Hadoop-3.3.4集群部分lib缺失问题

1.问题描述(base)[hadoop@hadoop1native]$hadoopchecknative2023-12-2514:20:21,615INFObzip2.Bzip2Factory:Successfullyloaded

tuoluzhe8521·2023-12-27 10:13

【Hadoop】简单说下Zookeeper选举过程？

选票的时候，当一个服务器收到超过半数服务器以上的选票的时候，该服务器就被选举为Leader。首先需要知道在选举的过程中，服务器投票的时候会交换选票信息，这个选票信息就包括三个值：Epoch：每个Leader任期的代号。也就是一个逻辑时钟值。每投完一次票这个数据就会增加。所以每一轮选举的Epoch都不一样，如果Epoch值不是最大的，说明这次选票信息是过期的，也就不能参加本次选举ZXID：事务ID。

不怕娜·2023-12-27 10:40

Zookeeper特性与节点数据类型详解

客户端常见命令2.3可视化工具3.Zookeeper数据结构3.1节点分类3.2监听机制3.3节点特性3.4应用场景1.初识ZookeeperZooKeeper是一个开源的分布式协调框架，是ApacheHadoop

瑜伽娃娃·2023-12-27 07:01

删除azkaban的执行历史

azkaban通常用在大数据任务调度场景，把任务提交之后，如果任务是spark，hive，hadoop，flink等任务的话，

飞有飞言·2023-12-27 07:09

Hadoop-Hbase集群搭建

archive.cloudera.com/cdh5/cdh/5/hbase-1.2.0-cdh5.7.0.tar.gz2.解压#解压到指定的文件夹tarxzvfhbase-1.2.0-cdh5.7.0.tar.gz-C/usr/loca/hadoop

GuangHui·2023-12-27 07:17

hive学习笔记

一、Hive基本概念1.1hive是什么hive是基于hadoop的一个数仓分析工具，hive可以将hdfs上存储的结构化的数据，映射成一张表，然后让用户写HQL(类SQL)来分析数据telupdown138383843813451567138383843953451567138383844012411657713838384413453157571383838434353551567567

不爱吃鱼的馋猫·2023-12-27 06:05

hive中metastore服务、hiveserver2服务、hive客户端、beeline客户端连接元数据的方式

1.前言hive是Hadoop的客户端，启动hive前必须启动hadoop，同时hive的元数据存储在mysql中，是由于hive自带的derby数据库不支持多客户端访问。

不爱吃鱼的馋猫·2023-12-27 06:35

[使用Python操作Hadoop，Python-MapReduce

环境环境使用：hadoop3.1，Python3.6，ubuntu18.04Hadoop是使用Java开发的，推荐使用Java操作HDFS。有时候也需要我们使用Python操作HDFS。

叫我老村长·2023-12-27 05:35

git 从一个源导入分支到另一个源

新增一个remote源gitremoteaddgithubhttps://github.com/apache/hadoop.git显示现在的remotegitremote-v获取gitfetchgithub

houzhizhen·2023-12-27 02:53

【Linux系统基础】（5）在Linux上集群化环境前置准备及部署Zookeeper、Kafka软件详细教程

老牛源码·2023-12-27 02:49

分布式系统面试连环炮

他们有共同的一个问题，就是都没怎么搞过分布式系统，现在互联网公司，一般都是做分布式的系统，大家都不是做底层的分布式系统、分布式存储系统hadoophdfs、分布式计算系统hadoopmapreduce/

Java机械师·2023-12-26 23:13

YARN知识点总结

如果把大数据Hadoop集群当作一台计算机,那么HDFS=磁盘YARN=任务调度器+资源管理器所有任务都是运行在Yarn上Yarn分为两个大的模块:ResourceManagerNodeManagerResourceManager

飞有飞言·2023-12-26 23:16

灵蜂BeeDI ETL

大数据时代的集成利器ETL工具https://blog.csdn.net/little_bee_2004/article/details/80006047在信息时代大数据环境下，基于分布式的开源Hadoop

weixin_49476464·2023-12-26 23:38

为什么Spark比MapReduce快？

一般而言，DAG相比Hadoop的MapReduce在大多数情况下可以减少shuffle次数（怎么体现？）。Spark的DAGScheduler相当于一个改进版的MapReduce，如果计算不涉及与

tracy_668·2023-12-26 23:00

Hadoop大数据实战系列文章之HDFS文件系统

Hadoop附带了一个名为HDFS(Hadoop分布式文件系统)的分布式文件系统，专门存储超大数据文件，为整个Hadoop生态圈提供了基础的存储服务。

测试帮日记·2023-12-26 21:39

从零开始学大数据框架Hudi，这些学习网站，助你一臂之力！

Hudi的设计使得您可以在Hadoop兼容的存储之上存储大量数据，并且它提供了两种原语，除了经典的批处理之外，还可以在数据湖上进行流处理。

知识分享小能手·2023-12-26 20:39

10.hadoop安装（全分布式安装）

全分布式首先必须有jdk安装，这里不再概述，参考4首先如果有不同就修改注意要改为disabled关闭防火墙iptable首先要免秘钥主节点要分发秘钥51020303540

文茶君·2023-12-26 20:43

hive下库里有表数据，删不了库的解决办法

hive下库里有表数据，删不了库的解决办法报错：FAILED:ExecutionError,returncode1fromorg.apache.hadoop.hive.ql.exec.DDLTask.InvalidOperationException

北凉-徐凤年·2023-12-26 20:07

借助 KMS (Hadoop Key Management Server) 实现 HDFS 数据加密

原生KMS模型概览适用场景将DataNode上的数据block加密存放，这样即使恶意用户通过某种方式绕过了权限控制，或直接访问了DataNode，获取了其它用户的数据block，也看不到这些block的真实内容。对HDFS的读写性能会有一定的降低，但应该不会太严重（未测试），HDFS优先使用native的libcrypto.so完成加解密（默认算法AES-CTR，支持128位AES加密），新版本的

xudong1991·2023-12-26 18:55

Grafana二进制部署并配置prometheus数据源

pg=graf&plcmt=deploy-box-1grafana官网下载地址[root@ambari-hadoop1~]#cd/opt/module/grafana/[root@ambari-hadoop1grafana

万里长江横渡·2023-12-26 13:04

Hive01_安装部署

Hive的安装上传安装包解压tarzxvfapache-hive-3.1.2-bin.tar.gzmvapache-hive-3.1.2-binhive解决Hive与Hadoop之间guava版本差异cd

程序喵猴·2023-12-26 12:47

推荐频道

Hadoop大数据相关