小象Hadoop 第12页

11 配置Hadoop集群-免密登录

第一课时一、复习导入前面的课程中我们在虚拟机上安装并测试使用了hadoop的示例程序wordcount，并且在准备好了集群的同步工具，那接下来，我们就可去配置hadoop集群了。

满分对我强制爱·2025-04-01 07:37

Hadoop分布式文件系统HDFS

Hadoop分布式文件系统HDFS作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：大数据存储，分布式计算，海量数据处理，高可用性，容错机制1.背景介绍

AI天才研究院·2025-03-31 06:38

hdfs原理

简介HDFS（HadoopDistributedFileSystem）Hadoop分布式文件系统。是根据google发表的论文翻版的。

raining_time·2025-03-31 06:38

实时数据流处理利器：Apache Storm 在大数据中的应用

传统的批处理框架（如Hadoop）在面对海量数据时表现优秀，但其高延迟的缺点使其难以满足实时场景的需求。

Echo_Wish·2025-03-31 03:51

Hbase的学习笔记（3）

1.所需依赖jar包org.apache.hadoophadoop-clientorg.apache.hadoophadoop-common注意：有些时候程序报错，跟maven的jar包加载顺序有关，具体的可以去了解下相关知识

白居不易.·2025-03-30 20:32

Linux下安装Zookeeper教程

ZooKeeper简介ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，是Hadoop和Hbase的重要组件。

.猫的树·2025-03-29 16:00

大数据必学免费、开源分布式数据库——Apache Hive

Hive是基于ApacheHadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查

遇码·2025-03-29 04:56

Spark 从HDFS读取时，通常按文件块（block）数量决定初始partition数，这是怎么实现的？

在Spark中，从HDFS读取数据时按文件块（block）数量决定初始partition数，这一机制是通过HadoopInputFormat的分片（split）策略实现的。

闯闯桑·2025-03-28 16:33

酷爱码·2025-03-28 13:12

大数据内容分享(五)：Hadoop各组件的主要功能及作用详解

目录前言存储类型组件计算分析引擎组件任务调度和集群管理组件其它组件总结前言虽然hadoop的生态体系已经有好多年了，而且越来越多的做大数据的可能会觉得hadoop体系在数据处理方面有一些笨重，但是作为大数据的分布式系统领域的鼻祖

之乎者也··2025-03-28 07:25

hadoop 3.x 伪分布式搭建

hadoop伪分布式搭建环境CentOS7jdk1.8hadoop3.3.61.准备准备环境所需包上传所有压缩包到服务器2.安装jdk#解压jdk到/usr/local目录下tar-xvfjdk-8u431

勤匠·2025-03-28 05:12

java实现hbase表创建、数据插入、删除表

zhuiwenwen·2025-03-27 20:07

ssh: Could not resolve hostname you: Temporary failure in name resolution

安装Hadoop时报错此问题：原因是配置ip时写错了1、配置主机名与IP地址的映射关系：vi/etc/hosts192.168.215.152niit012、主机名称配置：vi/etc/sysconfig

Agatha方艺璇·2025-03-27 19:31

使用esri的gis-tools-for-hadoop工具包，在hive中实现空间计算

以基站工参表实现空间关系判断（点在多边形内）为例，使用ESRI的gis-tools-for-hadoop工具包，在hive中实现数据空间计算的几个主要步骤：上传空间地理实体数据到hadoop集群；hive

从地图看世界·2025-03-27 14:19

《Operating System Concepts》阅读笔记：p483-p488

一、技术总结1.objectstorage(1)objectstorage管理软件Hadoopfilesystem(HDFS)、Ceph。

·2025-03-27 10:34

Hadoop/Spark 生态

Hadoop/Spark生态是大数据处理的核心技术体系，专为解决海量数据的存储、计算和分析问题而设计。以下从底层原理到核心组件详细讲解，帮助你快速建立知识框架！一、为什么需要Hadoop/Spark？

不辉放弃·2025-03-27 09:15

数据湖和Apache Iceberg，Apache Hudi，Delta Lake

数据湖这个词目前已经流行开来，逐步被数据相关的从业者接受，可能还有很多人不太清楚它和Hadoop，Hive，Spark这些大数据系统的区别，简单说数据湖是个业务概念，主要是为了区别传统数仓这个概念的（传统数仓的定义

西土城计划·2025-03-27 05:17

2024年河南省职业院校技能大赛高职组 “大数据分析与应用” 赛项任务书（四）

2024年河南省职业院校技能大赛高职组“大数据分析与应用”赛项任务书（四））背景描述：任务一：Hadoop完全分布式安装配置（25分）任务二：离线数据处理（25分）子任务一：数据抽取任务三：数据采集与实时计算

落寞的魚丶·2025-03-25 19:32

大数据（2）Hadoop架构深度拆解：HDFS与MapReduce企业级实战与高阶调优

目录一、分布式系统的设计哲学演进1.1从Google三驾马车到现代数据湖二、企业级HDFS架构全景图2.1联邦架构的深度实践2.2生产环境容灾设计2.3性能压测方法论三、MapReduce引擎内核解密3.1Shuffle机制全链路优化3.2资源调度革命：从MRv1到YARN3.3企业级编码规范四、千亿级数据分析实战：运营商信令数据挖掘4.1场景描述4.2优化后的MR作业链4.3性能对比数据五、云原

一个天蝎座白勺程序猿·2025-03-25 13:48

hadoop-HDFS操作

1.使用的是hadoop的用户登录到系统，那么cd~是跳转到/home/hadoop下。2.在操作hdfs时，需要在hadoop用户下的/usr/local/hadoop，此时是在根目录下。

wenying_44323744·2025-03-24 19:02

Hadoop安装

Hadoop的安装方式有三种，分别是单机模式，伪分布式模式，分布式模式。单机模式：单机模式：Hadoop默认模式为非分布式模式（本地模式），无需进行其他配置即可运行。

Cindy_0124·2025-03-24 19:59

数据权限访问控制（Apache Sentry）

ApacheSentry最初由Cloudera公司内部开发，针对Hadoop系统中的数据（主要是HDFS、Hive的数据）进行细粒度控制，对HDFS、Hive以及Impala有着良好的支持性。

deepdata_cn·2025-03-24 14:56

hbase表无法删除，命令行卡住问题处理

问题现象hbase表无法删除，命令行卡住1.activemaster日志出现超时WARNorg.apache.hadoop.hbase.master.procedure.TruncateTableProcedure

spring208208·2025-03-24 11:59

【Linux 下的 bash 无法正常解析, Windows 的 CRLF 换行符问题导致的】

hadoop@hadoop:~/anaconda3$bashwait_for_gpu.sh:invalidopt

待磨的钝刨·2025-03-23 18:53

大数据技术实战---项目中遇到的问题及项目经验

项目中遇到过哪些问题7.1Hadoop宕机（1）如果MR造成系统宕机。此时要控制Yarn同时运行的任务数，和每个任务申请的最大内存。

一个“不专业”的阿凡·2025-03-23 16:05

Apache大数据旭哥优选大数据选题

售后态度和技术都很重要定制按需求做要求不高就实惠一点定制需提前沟通好怎么做，这样才能避免不必要的麻烦python、flask、Django、mapreduce、mysqljava、springboot、vue、echarts、hadoop

Apache大数据旭·2025-03-23 13:12

【Hive】-- hive 3.1.3 伪分布式部署（单节点）

1、环境准备1.1、版本选择apachehive3.1.3apachehadoop3.1.0oraclejdk1.8mysql8.0.15操作系统：Macos10.151.2、软件下载https://archive.apache.org

oo寻梦in记·2025-03-23 12:08

【Linux】Hadoop-3.4.1的伪分布式集群的初步配置

配置步骤一、检查环境JDK#目前还是JDK8最适合Hadoopjava-versionecho$JAVA_HOMEHadoophadoopversionecho$HADOOP_HOME二、配置SSH免密登录

孤独打铁匠Julian·2025-03-23 11:04

Hadoop 集群规划与部署最佳实践

作者：禅与计算机程序设计艺术1.简介2009年2月2日，ApacheHadoop项目诞生。它是一个开源的分布式系统基础架构，用于存储、处理和分析海量的数据。

AI天才研究院·2025-03-23 03:47

MySQL 到 Hadoop：Sqoop 数据迁移 ETL

文章目录ETL：Extract-Transform-Load数据迁移过程一、Extract数据抽取1.ODS：OperationalDataStore-可操作数据存储2.DW：DataWarehouse-数据仓库3.DM：DataMart-数据集市二、Transform数据清洗和转换1.数据清洗2.数据转换三、Load数据加载四、数据迁移方法1.Sqoop1.1MySQL->Hive1.1.1im

Ice星空·2025-03-23 03:45

HBase安装

需要用Java和Hadoop来处理HBase，所以必须下载java和Hadoop并安装系统中。安装前设置安装Hadoop在Linux环境下之前，需要建立和使用LinuxSSH(安全Shell)。

lianhedaxue·2025-03-23 01:01

HBase的架构介绍，安装及简单操作

Hadoop环境：HBase依赖于Hadoop，需要先安装并配置好Hadoop集群。确保Hadoop的相关服务（如HDFS、YARN等）已经正常启动。

pk_xz123456·2025-03-23 01:00

努力的搬砖人.·2025-03-22 18:16

hadoop3.x--搭建hadoop高可用集群（HA模式）

hadoop高可用集群（HA模式）一、安装前1.集群规划2.安装前配置3.安装jdk与hadoop4.克隆虚拟机与互信配置5.搭建zookeeper集群二、HDFS1.配置hdfs2.初始化启动hdfs

运维小菜·2025-03-22 14:17

在虚拟机上安装Hadoop

基本步骤与安装java一致:先用finalshell将hadoop-3.1.3.tar.gz导入到opt目录下面的software文件夹下面，然后解压,最后配置环境变量。

杜清卿·2025-03-22 07:58

hadoop集群配置-scp拓展使用

任务1：在hadoop102上，将hadoop101中/opt/module/hadoop-3.1.3目录拷贝到hadoop102上。

杜清卿·2025-03-22 06:28

大数据学习（75）-大数据组件总结

如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦一、CDHCDH（ClouderaDistributionIncludingApacheHadoop)是由Cloudera公司提供的一个集成了

viperrrrrrr·2025-03-21 22:42

Sqoop安装部署

ApacheSqoop简介Sqoop（SQL-to-Hadoop）是Apache开源项目，主要用于：将关系型数据库中的数据导入Hadoop分布式文件系统（HDFS）或相关组件（如Hive、HBase）。

愿与狸花过一生·2025-03-21 22:10

ssh命令

命令无需密码也可登录要先关闭防火墙，命令如下：systemctlstopfirewalldsystemctldisablefirewalldsystemctlstatusfirewalldeg：目标：hadoop100

满分对我强制爱·2025-03-21 18:32

Hive面试题

HiveCLI/Beeline和WebUI2.HiveQL3.HiveDriver（驱动）4.Metastore5.Compiler（编译器）6.Optimizer（优化器）7.Executor（执行器）8.HadoopCoreComponents

御风行云天·2025-03-21 13:24

#Hadoop全分布式安装 #mysql安装 #hive安装

分布式（多台机器部署不同组件）与集群（多台机器部署相同组件）概念。Linux基础命令linux具有文件数：目录、文件，从根目录开始，路径具有唯一性。pwd：显示当前路径特殊符号：/：根目录.：隐藏文件，如果路径以.开始，表示当前目录下..：当前目录下的上一级~：当前目录的home目录--help：帮助命令使用linux常用操作命令tab键：自动补全ls：显示指定目录内容默认：当前路径-a：显示所有

砸吧砸吧·2025-03-21 09:14

Hadoop（在Linux中安装jdk）

安装之前需准备：1.需要远程连接软件2.需要jdk3.需要准备两个文件夹01/export/software安装包02/export/servers解压文件夹现在正式开始安装1.将压缩包存放在/export/software目录下2.进入到software目录进行解压cd/export/software（切换目录）tar-zxvfjdk-8u202-linux-x64.tar.gz-C/expor

錠诗味·2025-03-21 03:34

数据仓库和非结构化数据。

存储影响性能如果是hadoop无所谓影响不大，但是从使用者的角度非结构化数据只能转换关系使用建一张元数据表存储非结构化存储位置

weixin_30631587·2025-03-21 03:33

CentOS 7系统中hadoop的安装和环境配置

1.创建Hadoop安装解压路径：mkdir-p/usr/hadoop2.进入路径：cd/usr/hadoop3.下载安装包（我这里用的是阿里云镜像压缩包）：wgethttps://mirrors.aliyun.com

代码小张z·2025-03-21 01:15

尚硅谷电商数仓6.0，hive on spark,spark启动不了

42000][40000]Errorwhilecompilingstatement:FAILED:SemanticExceptionFailedtogetasparksession:org.apache.hadoop.hive.ql.metadata.HiveException

新时代赚钱战士·2025-03-20 20:57

努力的搬砖人.·2025-03-20 01:53

Flink读取kafka数据并写入HDFS

硬刚大数据系列文章链接：2021年从零到大数据专家的学习指南(全面升级版)2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇2021年从零到大数据专家面试篇之SparkSQL篇2021

王知无(import_bigdata)·2025-03-19 22:59

Apache storm

基本上Hadoop和Storm框架用于分析大数据。两者互补，在某些方面有所不同。ApacheStorm执行除持久性之外的所有

赵世炎·2025-03-19 19:09

什么是Apache Avro？

它由ApacheHadoop项目开发，广泛应用于大数据生态系统中（如Hadoop、Kafka等）。Avro提供了一种紧凑、快速的二进制数据格式，同时支持丰富的数据结构和模式演化。

maozexijr·2025-03-19 19:32

计算机毕业设计之基于Hadoop的热点新闻分析系统的设计与实现

本文拟采用PyCharm开发工具，django框架、Python语言、Hadoop大数据处理技术进行开发，后台使用MySQL数据库进行信息管理，设计开发的热点新闻分析系统。

微信bishe69·2025-03-19 18:31

推荐频道

小象Hadoop