hadoop；hdfs 第36页

EMR集群迁移自建Hadoop(元数据及HDFS数据）

1.背景老集群采用的腾讯emr集群，使用过程中磁盘扩容成本费用高且开源组件兼容性存在问题，因此决定采用自建hadoop集群，需要将emr的元数据和hdfs基础数据迁移过来。

tuoluzhe8521·2023-12-28 02:37

HDFS_DELEGATION_TOKEN 还原及解决方案

HDFS_DELEGATION_TOKEN这个BUG在很多文章中都出现着，讲了很多原理，但是只给出了官方引用地扯，完全没有给出如何解决，我们线上的业务就有着这样的问题，7天一到马上出现这问题了，官方明明说这个

大猪大猪·2023-12-28 00:39

大数据开发之Sqoop详细介绍

测试环境CDH6.3.1Sqoop1.4.7一.Sqoop概述ApacheSqoop（SQL-to-Hadoop）项目旨在协助RDBMS与Hadoop之间进行高效的大数据交流。

lcz-2000·2023-12-27 23:31

Hive 部署

Hive构建在ApacheHadoop之上，并通过hdfs支持S3，adls，gs等存储。Hive允许用户使用SQL读取、写入和管理PB级数据。官网地址二、架构Hive中主要包

有人看我吗·2023-12-27 23:54

Hive实战：词频统计

文章目录一、实战概述二、提出任务三、完成任务（一）准备数据文件1、在虚拟机上创建文本文件2、将文本文件上传到HDFS指定目录（二）实现步骤1、启动HiveMetastore服务2、启动Hive客户端3、

howard2005·2023-12-27 23:24

大数据-Zookeeper 安装步骤(亲测保成功）

第2章Zookeeper本地安装步骤1.上传到hadoop01上面的apps包下面[root@hadoop01current]#cd/opt/apps2.解压该文件tar-zxvfzookeeper-3.4.6

王哪跑nn·2023-12-27 21:39

Hadoop集群shell常用命令

1.启动hadoop所有进程start-all.sh#等价于start-dfs.sh+start-yarn.sh但是一般不推荐使用start-all.sh(因为开源框架中内部命令启动有很多问题)。

Youngmon·2023-12-27 21:10

MATLAB入门

设计和问题求解而设计的桌面环境用于可视化数据的图形和用于创建自定义绘图的工具用于曲线拟合、数据分类、信号分析、控制系统优化和许多其他任务的APP用于各种工程和科学应用程序的附加功能工具箱用于构建包含自定义用户界面的应用程序的工具用于C/C++、Java、Net、Python、SQL、Hadoop

Litle_Pudding·2023-12-27 21:39

Hadoop期末考试自用

绪论大数据定义从字面意思来看，大数据指的是巨量数据最早提出“大数据”这一概念的是全球知名咨询公司麦肯锡，他是这样定义大数据的：一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型以及价值密度四大特征。大数据的基本特点大量（Volume）多样（Varity）时效性（Velocity）结果准确性（Veracity）价

Yolo_jin·2023-12-27 20:04

【大数据存储与处理】开卷考试总复习笔记

7.hadoop批量数据导入before三、MongoDB数据库操作0.

friklogff·2023-12-27 20:31

大数据库分析

ElasticSearch和impala首先，对于两个数据库作出说明，有hive查询比较慢，hbase会针对于列的查询不太友好，所以CDH推出了impala搜索引擎，都是基于HDFS的。

靈08_1024·2023-12-27 19:00

大数据面试题-1

一、map-reduce原理map过程：1.1读取HDFS中的文件。每一行解析成一个。每一个键值对调用一次map函数。1.2覆盖map()，接收1.1产生的，进行处理，转换为新的输出。

edwin1993·2023-12-27 19:29

Spark与PySpark(1.概述、框架、模块)

目录1.Spark概念2.Hadoop和Spark的对比3.Spark特点3.1运行速度快3.2简单易用3.3通用性强3.4可以允许运行在很多地方4.Spark框架模块4.1SparkCore4.2SparkSQL4.3SparkStreaming4.4MLlib4.5GraphX5

还是那个同伟伟·2023-12-27 18:06

【hive】hive的调优经验

一、hive自己进行优化对union这样的命令进行了优化二、数据本地化率hdfs数据本地化率对hive性能产生影响在数据大小一定的情况下，500个128M的文件和2个30G的文件跑hive任务，性能是有差异的

kiraraLou·2023-12-27 18:49

将本地镜像推送到阿里云

文章目录创建仓库镜像登录并上传下载上传的创建仓库镜像利用下面的脚本进行配置登录并上传[root@hadoop100~]#dockerlogin--username=13thmregistry.cn-hangzhou.aliyuncs.comPassword

我是小水水啊·2023-12-27 16:18

Gearman-任务分发系统

简介Gearman是一个分发任务的程序框架，可以用在各种场合，与Hadoop相比，Gearman更偏向于任务分发功能。

瞎胡侃·2023-12-27 15:58

There are 4 missing blocks. The following files may be corrupted

Thereare4missingblocks.ThefollowingfilesmaybecorruptedPleasecheckthelogsorrunfsckinordertoidentifythemissingblocks.SeetheHadoopFAQforcommoncausesandpotentialsolutions

玖玖1704·2023-12-27 14:53

HBase基础知识（六）：HBase 对接 Hive

1.HBase与Hive的对比1．Hive(1)数据仓库Hive的本质其实就相当于将HDFS中已经存储的文件在Mysql中做了一个双射关系，以方便使用HQL去管理查询。

依晴无旧·2023-12-27 14:49

Spark与Hadoop的关系和区别

在大数据领域，Spark和Hadoop是两个备受欢迎的分布式数据处理框架，它们在处理大规模数据时都具有重要作用。本文将深入探讨Spark与Hadoop之间的关系和区别，以帮助大家的功能和用途。

晓之以理的喵~~·2023-12-27 12:13

Hadoop生产集群各种维护命令

1.HDFS运维1.1HDFS集群操作命令#HDFS集群启停start-dfs.shstop-dfs.sh#获取HDFS集群信息hdfsdfsadmin-report#namenode和datanode

tuoluzhe8521·2023-12-27 12:12

HDFS shell 快查

HDFS设计的主要目的是对海量数据进行处理，也就是说在其上能够储存很大量文件，HDFS提供多种的访问的策略，首先我们来认识其通过shell接口的访问方式。hdfsshell与linux命令基本相同。

Tim在路上·2023-12-27 12:16

Hadoop真的要死了吗？

10月3日，Hortonworks宣布将与其主要竞争对手Cloudera合作创建一家年收入约为7.3亿美元、拥有2,500名客户、市场估值达52亿美元的公司，这令很多人感到意外。SpliceMachine首席执行官MonteZweben表示：“我认为对于我们来说，这是个好消息。我们已经看到了运营由这两家公司和其他公司部署的所有数据湖的巨大机会，而这样的机会在两年前可能连想都不敢想”。Conflue

伯雅之英·2023-12-27 11:23

Spark生产集群各种使用

1.环境配置1.1版本说明要求版本是否必须其他事项Hadoop3.3.4是hadoop3.3.0之后原生支持国内主要对象存储Hive3.1.3否实测没有Hive也可以使用sparksql，使用hive更好的管理

tuoluzhe8521·2023-12-27 10:15

datax 同步mongodb数据库到hive(hdfs)和elasticserch（es)

（有点老了，后来发现flinkcdc都只能监控一张表，多张表无法监控）2.datax版本：自己编译的DataX-datax_v2022103.hdfs版本：3.1.34.hive版本：3.1.2二、同步思路

tuoluzhe8521·2023-12-27 10:14

Hadoop-3.3.4集群部分lib缺失问题

1.问题描述(base)[hadoop@hadoop1native]$hadoopchecknative2023-12-2514:20:21,615INFObzip2.Bzip2Factory:Successfullyloaded

tuoluzhe8521·2023-12-27 10:13

【Hadoop】简单说下Zookeeper选举过程？

选票的时候，当一个服务器收到超过半数服务器以上的选票的时候，该服务器就被选举为Leader。首先需要知道在选举的过程中，服务器投票的时候会交换选票信息，这个选票信息就包括三个值：Epoch：每个Leader任期的代号。也就是一个逻辑时钟值。每投完一次票这个数据就会增加。所以每一轮选举的Epoch都不一样，如果Epoch值不是最大的，说明这次选票信息是过期的，也就不能参加本次选举ZXID：事务ID。

不怕娜·2023-12-27 10:40

Zookeeper特性与节点数据类型详解

客户端常见命令2.3可视化工具3.Zookeeper数据结构3.1节点分类3.2监听机制3.3节点特性3.4应用场景1.初识ZookeeperZooKeeper是一个开源的分布式协调框架，是ApacheHadoop

瑜伽娃娃·2023-12-27 07:01

删除azkaban的执行历史

azkaban通常用在大数据任务调度场景，把任务提交之后，如果任务是spark，hive，hadoop，flink等任务的话，

飞有飞言·2023-12-27 07:09

Hadoop-Hbase集群搭建

archive.cloudera.com/cdh5/cdh/5/hbase-1.2.0-cdh5.7.0.tar.gz2.解压#解压到指定的文件夹tarxzvfhbase-1.2.0-cdh5.7.0.tar.gz-C/usr/loca/hadoop

GuangHui·2023-12-27 07:17

[spark] 存储到hdfs时指定分区

在SparkSQL中指定多个分区字段进行数据存储：类似hive分区存储文章目录代码示例代码importorg.apache.spark.sql.SparkSessionvalspark=SparkSession.builder().appName("MultiPartitionedWriteExample").getOrCreate()//假设你有一个DataFrame叫做data，包含了需要存储

言之。·2023-12-27 06:33

[spark] DataFrame 的 checkpoint

具体来说，checkpoint方法执行以下操作：将DataFrame的物理计划执行，并将结果存储到指定的分布式文件系统（例如HDFS）上的检查点目录中。用新的DataFrame代替原始的Da

言之。·2023-12-27 06:29

hive学习笔记

一、Hive基本概念1.1hive是什么hive是基于hadoop的一个数仓分析工具，hive可以将hdfs上存储的结构化的数据，映射成一张表，然后让用户写HQL(类SQL)来分析数据telupdown138383843813451567138383843953451567138383844012411657713838384413453157571383838434353551567567

不爱吃鱼的馋猫·2023-12-27 06:05

hive中metastore服务、hiveserver2服务、hive客户端、beeline客户端连接元数据的方式

1.前言hive是Hadoop的客户端，启动hive前必须启动hadoop，同时hive的元数据存储在mysql中，是由于hive自带的derby数据库不支持多客户端访问。

不爱吃鱼的馋猫·2023-12-27 06:35

[使用Python操作Hadoop，Python-MapReduce

环境环境使用：hadoop3.1，Python3.6，ubuntu18.04Hadoop是使用Java开发的，推荐使用Java操作HDFS。有时候也需要我们使用Python操作HDFS。

叫我老村长·2023-12-27 05:35

git 从一个源导入分支到另一个源

新增一个remote源gitremoteaddgithubhttps://github.com/apache/hadoop.git显示现在的remotegitremote-v获取gitfetchgithub

houzhizhen·2023-12-27 02:53

orc小文件合并趣谈

之前做到存储和计算的管理，后续做了简单hdfs画像（其中，就有小文件趋势监控）。最近，集群中namenode压力有所显现。于是，针对小文件多的目录进行了排查和治理。

艾伦_alan·2023-12-27 01:02

分布式系统面试连环炮

他们有共同的一个问题，就是都没怎么搞过分布式系统，现在互联网公司，一般都是做分布式的系统，大家都不是做底层的分布式系统、分布式存储系统hadoophdfs、分布式计算系统hadoopmapreduce/

Java机械师·2023-12-26 23:13

YARN知识点总结

如果把大数据Hadoop集群当作一台计算机,那么HDFS=磁盘YARN=任务调度器+资源管理器所有任务都是运行在Yarn上Yarn分为两个大的模块:ResourceManagerNodeManagerResourceManager

飞有飞言·2023-12-26 23:16

灵蜂BeeDI ETL

大数据时代的集成利器ETL工具https://blog.csdn.net/little_bee_2004/article/details/80006047在信息时代大数据环境下，基于分布式的开源Hadoop

weixin_49476464·2023-12-26 23:38

为什么Spark比MapReduce快？

一般而言，DAG相比Hadoop的MapReduce在大多数情况下可以减少shuffle次数（怎么体现？）。Spark的DAGScheduler相当于一个改进版的MapReduce，如果计算不涉及与

tracy_668·2023-12-26 23:00

Hadoop大数据实战系列文章之HDFS文件系统

Hadoop附带了一个名为HDFS(Hadoop分布式文件系统)的分布式文件系统，专门存储超大数据文件，为整个Hadoop生态圈提供了基础的存储服务。

测试帮日记·2023-12-26 21:39

从零开始学大数据框架Hudi，这些学习网站，助你一臂之力！

Hudi的设计使得您可以在Hadoop兼容的存储之上存储大量数据，并且它提供了两种原语，除了经典的批处理之外，还可以在数据湖上进行流处理。

知识分享小能手·2023-12-26 20:39

10.hadoop安装（全分布式安装）

全分布式首先必须有jdk安装，这里不再概述，参考4首先如果有不同就修改注意要改为disabled关闭防火墙iptable首先要免秘钥主节点要分发秘钥51020303540

文茶君·2023-12-26 20:43

hive下库里有表数据，删不了库的解决办法

hive下库里有表数据，删不了库的解决办法报错：FAILED:ExecutionError,returncode1fromorg.apache.hadoop.hive.ql.exec.DDLTask.InvalidOperationException

北凉-徐凤年·2023-12-26 20:07

借助 KMS (Hadoop Key Management Server) 实现 HDFS 数据加密

对HDFS的读写性能会有一定的降低，但应该不会太严重（未测试），HDFS优先使用native的libcrypto.so完成加解密（默认算法AES-CTR，支持128位AES加密），新版本的

xudong1991·2023-12-26 18:55

【Spark-HDFS小文件合并】使用 Spark 实现 HDFS 小文件合并

【Spark-HDFS小文件合并】使用Spark实现HDFS小文件合并1）导入依赖2）代码实现2.1.HDFSUtils2.2.MergeFilesApplication需求描述：1、使用Spark做小文件合并压缩处理

bmyyyyyy·2023-12-26 17:15

datasophon组件安装时踩坑记录

*to'root'@'%'identifiedby'xxxx';1.安装hdfs后有一个namenode进程未启动解决：在那个未启动的节点上执行hdfsnamenode-bootstrapStandby

州周·2023-12-26 17:56

【HBase】——简介

1HBase定义 ApacheHBase™是以hdfs为数据存储的，一种分布式、可扩展的NoSQL数据库。

那时的样子_·2023-12-26 15:42

Grafana二进制部署并配置prometheus数据源

pg=graf&plcmt=deploy-box-1grafana官网下载地址[root@ambari-hadoop1~]#cd/opt/module/grafana/[root@ambari-hadoop1grafana

万里长江横渡·2023-12-26 13:04

Hive01_安装部署

Hive的安装上传安装包解压tarzxvfapache-hive-3.1.2-bin.tar.gzmvapache-hive-3.1.2-binhive解决Hive与Hadoop之间guava版本差异cd

程序喵猴·2023-12-26 12:47

推荐频道

hadoop；hdfs