hadoop系列第2页

Hadoop系列三之运行模式

Hadoop的运行模式包括：本地模式、伪分布式模式和完全分布式模式。具体可参考官方网站：http://hadoop.apache.org/1.本地运行模式1.1官方Grep案例（1）在hadoop-3.1.3目录下面创建一个input文件夹cd/opt/module/hadoop-3.1.3mkdirinput（2）将Hadoop的xml配置文件复制到inputcpetc/hadoop/*.xml

Luckyman_zz·2023-01-30 15:52

大数据面试通关手册｜Hadoop系列之YARN

⭐⭐欢迎关注博客主页：https://blog.csdn.net/u013411339⭐⭐欢迎点赞收藏⭐留言，欢迎留言交流！⭐⭐本文由【王知无】原创，首发于CSDN博客！⭐⭐本文首发CSDN论坛，未经过官方和本人允许，严禁转载！1、简述hadoop1与hadoop2的架构异同1）加入了yarn解决了资源调度的问题。2）加入了对zookeeper的支持实现比较可靠的高可用。2、为什么会产生yarn,

王知无(import_bigdata)·2023-01-07 15:37

大数据面试通关手册｜Hadoop系列之MapReduce

⭐⭐欢迎关注博客主页：https://blog.csdn.net/u013411339⭐⭐欢迎点赞收藏⭐留言，欢迎留言交流！⭐⭐本文由【王知无】原创，首发于CSDN博客！⭐⭐本文首发CSDN论坛，未经过官方和本人允许，严禁转载！1、谈谈Hadoop序列化和反序列化及自定义bean对象实现序列化?1）序列化和反序列化（1）序列化就是把内存中的对象，转换成字节序列（或其他数据传输协议）以便于存储（持久

王知无(import_bigdata)·2023-01-07 15:07

Hadoop系列——Hadoop练手、压测day2-2

Hadoop系列——Hadoop练手、压测day2-2Hadoop练手HadoopHDFS简单使用创建文件夹（目录）命令式UI界面上传文件命令式UI界面HadoopMapReduce简单使用测试计算圆周率词频统计

简明编程·2022-10-13 12:21

大数据平台是什么？有哪些功能？如何搭建大数据平台？

典型的包括Hadoop系列、Spark、Storm、Flink以及Flume/Kafka等集群。既可以采用开源平台，也可以采用华为、星环等商业级解决方案，既可以部署在私有云上，也可以部署在公有云上。

cuijiao7259·2022-10-12 19:15

大数据基础之Hadoop（四）——Yarn

本篇文章源码参看：https://github.com/duktig666/big-dataYarn资源调度器Hadoop系列大数据基础之Hadoop（一）——Hadoop概述大数据基础之Hadoop（

Duktig丶·2022-09-28 09:26

Hadoop系列（三）——MapReudce总结

三、MapReduce1、简介MapReduce是一个基于集群的高性能并行计算平台（ClusterInfrastructure）MapReduce是一个并行计算与运行软件框架（SoftwareFramework）MapReduce是一个并行程序设计模型与方法（ProgrammingModel&Methodology）MapReduce有两个含义：一般来说，在说到计算框架时，我们指的是开源社区的Ma

气运联盟·2022-07-14 15:47

Hadoop系列（二）——YARN总结

二、YARN–资源管理1、HadoopYarn简介ApacheHadoopYARN（YetAnotherResourceNegotiator）在古老的Hadoop1.0中，MapReduce的JobTracker负责了太多的工作，包括资源调度，管理众多的TaskTracker等工作。这自然是不合理的，于是Hadoop在1.0到2.0的升级过程中，便将JobTracker的资源调度工作独立了出来，而

气运联盟·2022-07-14 15:47

Hadoop系列（一）——HDFS总结

Hadoop(hdfs,yarn,mapreduce)理论详解_大宁哥的博客-CSDN博客HDFS读写流程（史上最精炼详细）_bw_233的博客-CSDN博客_hdfs读取HDFS读写数据流程-CoderZZZ-博客园(cnblogs.com)深入浅出HadoopYARN-知乎(zhihu.com)hadoop之mapreduce详解（基础篇）-一寸HUI-博客园(cnblogs.com)Hado

气运联盟·2022-07-14 15:43

Hadoop 生态系列之 HDFS

目前Hadoop系列文章的规划就是这样，持续补充完善中...同时可以访问：data.cuteximi.comHadoop生态系列之1.0和2.0架构Hadoop生态系列之HDFSHadoop生态系列之MapreduceHadoop

weixin_33896069·2022-06-20 13:08

Hadoop系列之HDFS 简介(8)

HDFS简介本节我们开始介绍Hadoop生态里面的其中一个组件——HDFS，包括HDFS架构，数据是怎么在HDFS存储的，HDFS的特性，比如分布式存储、容错性，高可用，可靠性以及块概念等。另外还会涉及到HDFS的操作，比如如何从HDFS读写数据，还有HDFS的机架感知算法介绍。HDFS（HadoopDistributeFileSystem）是大数据领域一种非常可靠的存储系统，它以分布式方式存储超

不二人生·2022-06-20 12:05

大数据系列一：Hadoop安装&配置&基本测试

一.前言趁这几天放假，把以前大数据学习笔记梳理下，复习&整合下知识点，包含hadoop系列,流计算框架，ELKStack等；大数据的笔记相对完整些，开源词法&语法分析工具ANTLR4本来想分享一个系列，

henry.zhu·2022-02-27 09:09

阿里云机器学习平台PAI之理论基础

MaxComputer、大数据治理和分析平台DataWorks和可视化平台QuickBI，今天进入阿里云大数据的最后部分的学习——机器学习平台PAI，对往期内容感兴趣的小伙伴可以参考如下内容:hadoop专题:hadoop

柳小葱·2022-02-04 15:00

Hadoop系列 (七)：ZooKeeper详细介绍

文章目录Hadoop系列文章ZooKeeper简介概述特点数据模型结构工作原理选主流程basicpaxosfastpaxos同步流程工作流程Leader工作流程Follower工作流程应用场景统一命名服务统一配置管理统一集群管理负载均衡

EricRae·2021-10-18 16:07

Hadoop系列

HadoopHadoop-集群安装Hadoop-集群安装（高可用）HDFSHDFS-文件越来越多怎么办HDFS-HDFS的四个角色HDFS-NameNode的高可用HDFS-安全模式是什么HDFS-NameNode如何感知到DataNode的HDFS-什么是元数据HDFS-双缓冲机制如何保证对元数据的高并发请求HDFS-CheckPoint机制是怎么实现的HDFS-写数据的那些事HDFS源码思维导

·2021-07-27 19:09

UCloud一站式智能大数据平台USDP免费版正式发布！

背景在大数据业务系统中，所有技术栈生态均是围绕着存储进行扩展的，目前开源的主流存储技术栈主要包含如下3种类型：·HDFS：Hadoop系列套件，包含Hive、HBase、Phoenix等；·ElasticSearch

·2021-07-27 19:28

hadoop系列：zookeeper（3）——zookeeper核心原理（事件）

http://www.itnose.net/detail/6445740.htmlhttp://blog.csdn.net/yinwenjie/article/details/47685077

非凡coder·2021-06-27 03:54

UCloud一站式智能大数据平台USDP免费版正式发布！

背景在大数据业务系统中，所有技术栈生态均是围绕着存储进行扩展的，目前开源的主流存储技术栈主要包含如下3种类型：·HDFS：Hadoop系列套件，包含Hive、HBase、Phoenix等；·ElasticSearch

·2021-06-18 21:33

Hadoop系列番外篇之一文搞懂Hadoop RPC框架及细节实现（深度好文，纯干货）

文章目录HadoopRPC框架解析1.HadoopRPC框架概述1.1RPC框架特点1.2HadoopRPC框架2.Java基础知识回顾2.1Java反射机制与动态代理2.1.1代理关键类&接口信息2.1.2动态代理创建对象的过程2.2Java网络编程2.3JavaNIO2.3.1简介2.3.2常用类3.HadoopRPC基本框架分析3.1RPC基本概念3.1.1RPC组成部分3.1.2RPC工作

清风画扇·2021-05-29 09:44

大数据系列课程——根据情况调整

Hadoop系列课程安排手把手带你转行大数据人工智能大数据和人工智能的发展前景大数据开发都在开发什么项目整体介绍与大数据开发训练速成开发运行测试环境的介绍与搭建通过前端代码了解大数据业务离线日志分析系统页面展示程序后台框架搭建用户信息分析结果展示用户数据的抽取转换加载

Albert陈凯·2021-05-14 23:31

Spark系列--安装与配置

windows其他网址Spark在Windows下的环境搭建_大气人生-CSDN博客Windows10安装spark（包括hadoop安装）_小白白的博客-CSDN博客1.安装JDK略2.安装Hadoop见：Hadoop

feiying0canglang·2021-02-23 00:50

二十三、Hadoop的HA（高可用）

今天来给Hadoop的部分收收尾，这是Hadoop系列的最后一篇文章了，因为HA需要用到Zookeeper，所以在讲解了Zookeeper的部分内容后，才重新回过头来看Hadoop的HA部分，关注专栏《

象在舞·2020-12-06 17:41

Hadoop系列006-HDFS概念及命令行操作

本人微信公众号，欢迎扫码关注！HDFS概念及命令行操作一、HDFS概念1.1概念HDFS，它是一个文件系统，用于存储文件，通过目录树来定位文件；其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。HDFS的设计适合一次写入，多次读出的场景，且不支持文件的修改。适合用来做数据分析，并不适合用来做网盘应用。1.2组成1）HDFS集群包括，NameNode和DataNode以

云端笑猿·2020-09-15 16:14

Win10下安装Hadoop3.1.2

即使再小的帆也能远航Hadoop：Win10下安装Hadoop3.1.2西部开源-秦疆老师：Hadoop系列博客，秦老师交流Q群号：664386224,未授权禁止转载！编辑不易，转发请注明出处！

星夜小筑·2020-09-15 03:44

Hadoop(六)Hadoop-HA模式(超详细，剑指第一)

写在前面本文为hadoop系列博客最后一篇博客，下篇博客开启Hive篇章，敬请期待。那这篇博客讲了个什么事呢？

我是余傲:)·2020-09-15 01:23

大数据Hadoop系列之Hadoop服务开机自启动配置

1.编写运行脚本$sudocd/etc/init.d$sudovihadoop#!/bin/bash#chkconfig:35951#description:scripttostart/stophadoopsu-hadoop<

王者的路注定孤独·2020-09-14 11:12

hadoop系列之一问题锦集

1、启动过程中出现Configurationhasmultipleaddressesthatmatchlocalnode'saddress.Pleaseconfigurethesystemwithdfs.nameservice.idanddfs.ha.namenode.id解决办法：1）确保每台机器的/etc/hosts文件内容一致，最好不要127.0.0.1的信息，只需要类似如下信息即可2)在格

qq_29534155·2020-09-14 10:06

hadoop系列之一服务启动以及结果查看

1、服务启动完全由脚本实现，可根据实际情况，修改hadoop和zookeeper的路径即可说明：第二次启动，需要将格式化的代码注释掉即可#!/bin/bashHADOOP_PATH=/opt/hadoop/hadoop-2.8.1ZOOKEEPER_INSTALL_PATH=/opt/hadoop/zookeeper-3.4.10HADOOP_TMP=/opt/hadoop/tmprm-rf/op

qq_29534155·2020-09-14 09:21

【hadoop系列】Hadoop HDFS命令

格式：hadoopfs-命令主要有如下的命令：命令说明hadoopfs-mkdir创建HDFS目录hadoopfs-ls列出HDFS目录hadoopfs-copyFromLocal使用-copyFromLocal复制本地文件（local）到HDFShadoopfs-put使用-put复制本地（local）文件到HDFShadoopfs-copyToLocal将HDFS上的文件复制到本地（local

我去图书馆了·2020-09-13 23:10

hadoop编译

学习Hadoop系列，必不可少的就是自己编译一次Hadoop，同时也为后期学习支持文件压缩做好准备。

冬瓜螺旋雪碧·2020-09-13 12:05

菜鸟学习Hadoop系列一----安装Hadoop

一前期准备安装linux系统。这地方就不具体介绍了。网络上的博文很多。我一直使用的是Fedora12（32bit）.我的实验采用的系统就是这个了。以下的操作也都是基于该系统的。下载jdk，这个在官网（http://www.oracle.com/technetwork/java/javase/downloads/index.html）上很容易就可以找到。目前提供的是1.7.0.9版本。下载hadoo

W170532934·2020-09-13 11:14

hadoop系列之HDFS 原理与实战

HDFS文件系统HDFS简介HDFS是HadoopDistributedFileSystem的简称，即Hadoop分布式文件系统。它起源于谷歌发表的GFS论文，是该论文的开源实现，也是整个大数据的基础。HDFS专门为解决大数据的存储问题而产生的，具有如下特点：可存储超大文件：HDFS可存储PB级的数据流式数据访问：一次写入，多次读取。数据集通常从数据源复制而来，每次分析都涉及该数据集的商用硬件：H

搬砖学习·2020-09-13 07:25

hadoop系列之yarn

YARNYARN概述YARN，即YetAnotherResourceNegotiator的缩写，它是Hadoop资源管理系统，是在Hadoop2以后引入的。它在整个Hadoop中的位置如下：YARN与MapReduce1MapReduce1指Hadoop1.x中的MapReduce分布式执行框架，用以区别使用了YARN的MapReduce2。MapReduce1的机制MapReduce1由两类守护

搬砖学习·2020-09-13 07:25

hadoop系列之伪分布式环境搭建及测试验证

Hadoop2.x伪分布式环境搭建及测试验证作者：Dennis日期：2018-08-09前置条件：Linux虚拟机一台，版本为CentOS7.4，假设IP地址为192.168.159.181，并修改如下：修改/etc/hostname的内容为hadoop01说明：修改了主机名之后需要重启才能生效。修改/etc/hosts的内容为备注：配置这里主要是想通过域名或者IP地址找到相应的机器127.0.0

搬砖学习·2020-09-13 07:53

Hadoop系列：在Linux下部署hadoop 0.20.1

两台测试虚机，系统为REHL5.3x64，正常安装最新版本的JDK，正确设置SSH无密码登录。服务器一：192.168.56.101dev1服务器二：192.168.56.102dev2从http://apache.freelamp.com/hadoop/core/hadoop-0.20.1/下载hadoop-0.20.1.tar.gz，把hadoop-0.20.1.tar.gz拷贝到dev1的“

dayun·2020-09-12 02:43

大数据hadoop系列：Hive的安装与配置

下载地址https://mirrors.tuna.tsinghua.edu.cn/apache/hive/这边已我安装的1.2.2版本为例，可自行选择稳定版本或最新版本解压hive包tar-zxvfapache-hive-1.2.2-bin.tar.gz-C/usr/local/srccd/usr/local/src#创建软连接ln-sapache-hive-2.1.1-bin/hive修改配置文

兰波万·2020-08-26 13:10

Hadoop系列之 job运行机制

本人是hadoop入门级小白，一边学习Hadoop权威指南英文版，一边翻译相关内容，希望达到加深理解的效果，发布博客上，希望能和大家一起分享和交流。1.MapReducejob提交提交过程比较简单，submit()onaJobobject，通过waitForCompletion()等待job结束。waitForCompletion不断轮询当前job运行的进度。2.MapReducejob运行流程运

wujustin·2020-08-25 06:13

欢迎使用CSDN-markdown编辑器

Hadoop系列–Ubuntu搭建JDK及环境变量本文主要讲的是在VM中通过Ubuntu搭建JDK的开发环境。

樱木乐·2020-08-24 14:22

文章标题

Hadoop系列学习-MapReduce的排序与自定义排序默认排序由于Hadoop默认是根据key去排序的。

樱木乐·2020-08-24 14:51

Hadoop系列学习–Partitioner内置分区与Partitioner自定义分区

Hadoop系列学习–Partitioner内置分区与Partitioner自定义分区MapReduce的编程灵活性很高，其中Partitioner分区函数的作用也很重要。

樱木乐·2020-08-24 12:55

hadoop系列：zookeeper（3）——zookeeper核心原理（事件）

1、概述上一篇文章，我们对zookeeper中的数据组织结构、Leader选举原理进行了讲述（http://blog.csdn.net/yinwenjie/article/details/47613309）。这篇文章我们紧接上文讲解zookeeper中的事件机制。并通过示例代码告诉读者怎么使用zookeeper中的事件通知器：watcher。2、zookeeper中的监听机制按照上文中的讲解，我们

说好不能打脸·2020-08-23 04:39

数据仓库实践-阿里云环境

上一篇文章大致讲了数据仓库构建的理论部分，这一篇以实际工作为例，大致的整理下数据仓库的构建，也算是工作的总结；同时由于使用的是云平台，所以很多hadoop系列的技术问题基本都没有。

huobumingbai1234·2020-08-18 11:26

HBase: 看上去很美

缘起随着hadoop系列的兴起，基于HDFS的大规模KV存储系统HBase也进入“大规模使用阶段”。网上的Hbase资料很多，学习成本正在下降。

weixin_34233618·2020-08-18 10:28

Hadoop系列之Spark安装和使用（四）

spark简介Spark的主要抽象是分布式的元素集合（distributedcollectionofitems），称为RDD（ResilientDistributedDataset，弹性分布式数据集），它可被分发到集群各个节点上，进行并行操作。RDDs可以通过HadoopInputFormats创建（如HDFS），或者从其他RDDs转化而来。Spark安装步骤Spark官网下载地址：http://

梦Dreamer·2020-08-17 02:23

Hadoop系列之Storm安装和使用（五）

zookeeper单机模式的安装使用下载zookeeper地址：https://mirrors.cnnic.cn/apache/zookeeper/stable/tar-zxfapache-zookeeper-3.5.6-bin.tar.gz#解压mvapache-zookeeper-3.5.6-binzookeeper#修改名称chown-Rhadoopzookeeper#赋予hadoop用户权

梦Dreamer·2020-08-17 02:23

Hadoop系列(一)Docker部署Hadoop集群

搭建一个Hadoop集群环境时需要多台服务器，对于我们个人，这通常是个门槛，需要使用虚拟机，安装操作系统，然后运行起来多个虚机。安装操作系统是个不太轻松的任务，并且运行多个虚机对个人电脑性能也有一定要求，这些门槛影响了很多小伙伴的实践积极性使用Docker的话就简单了，不用安装操作系统，直接下载一个镜像，如centos，这样操作系统就有了，基于这个系统镜像运行多个容器，就相当于起了多个虚机，而且系

淡淡的倔强·2020-08-16 21:19

小丸子学Hadoop系列之——部署Hbase集群

0.集群规划主机名ip地址安装的软件运行的进程AI-OPT-HBS0110.46.52.30hadoop,hbasenamenode,zkfc,resourcemanagerAI-OPT-HBS0210.46.52.31hadoopnamenode,zkfc,resourcemanagerAI-OPT-HBS0310.46.52.32hadoop,hbasedatanodeAI-OPT-HBS04

ckml77559·2020-08-14 02:07

hadoop安装环境准备和关联知识解析

奈何还有常见的如穿透、雪崩、击穿、分布式锁、redis并发原理、linux多路复用、redis集群等都还没梳理清楚，而项目就需要先学习一下hadoop等大数据相关技术，于是不得不暂停redis，转而进入hadoop

涂宗勋·2020-08-14 01:03

hadoop（二）HDFS概述、shell操作、客户端操作（各种API操作）以及hdfs读写流程

hadoop系列笔记hadoop（一）入门、hadoop架构、集群环境搭建.hadoop（二）HDFS概述、shell操作、客户端操作（各种API操作）以及hdfs读写流程.hadoop（三）hdfs的

复姓独孤·2020-08-12 13:28

hadoop系列：zookeeper（2）——zookeeper核心原理（选举）

1、前述上篇文章《hadoop系列：zookeeper（1）——zookeeper单点和集群安装》（http://blog.csdn.net/yinwenjie/article/details/47361419

说好不能打脸·2020-08-11 19:03

推荐频道

hadoop系列

Hadoop系列三之运行模式

大数据面试通关手册｜Hadoop系列之YARN

大数据面试通关手册｜Hadoop系列之MapReduce

Hadoop系列——Hadoop练手、压测day2-2

大数据平台是什么？有哪些功能？如何搭建大数据平台？

大数据基础之Hadoop（四）——Yarn

Hadoop系列（三）——MapReudce总结

Hadoop系列（二）——YARN总结

Hadoop系列（一）——HDFS总结

Hadoop 生态系列之 HDFS

Hadoop系列之HDFS 简介(8)

大数据系列一：Hadoop安装&配置&基本测试

阿里云机器学习平台PAI之理论基础

Hadoop系列 (七)：ZooKeeper详细介绍

Hadoop系列

UCloud一站式智能大数据平台USDP免费版正式发布！

hadoop系列：zookeeper（3）——zookeeper核心原理（事件）

UCloud一站式智能大数据平台USDP免费版正式发布！

Hadoop系列番外篇之一文搞懂Hadoop RPC框架及细节实现（深度好文，纯干货）

大数据系列课程——根据情况调整

Spark系列--安装与配置

二十三、Hadoop的HA（高可用）

Hadoop系列006-HDFS概念及命令行操作

Win10下安装Hadoop3.1.2

Hadoop(六)Hadoop-HA模式(超详细，剑指第一)

大数据Hadoop系列之Hadoop服务开机自启动配置

hadoop系列之一问题锦集

hadoop系列之一服务启动以及结果查看

【hadoop系列】Hadoop HDFS命令

hadoop编译

菜鸟学习Hadoop系列一----安装Hadoop

hadoop系列之HDFS 原理与实战

hadoop系列之yarn

hadoop系列之伪分布式环境搭建及测试验证

Hadoop系列：在Linux下部署hadoop 0.20.1

大数据hadoop系列：Hive的安装与配置

Hadoop系列之 job运行机制

欢迎使用CSDN-markdown编辑器

文章标题

Hadoop系列学习–Partitioner内置分区与Partitioner自定义分区

hadoop系列：zookeeper（3）——zookeeper核心原理（事件）

数据仓库实践-阿里云环境

HBase: 看上去很美

Hadoop系列之Spark安装和使用（四）

Hadoop系列之Storm安装和使用（五）

Hadoop系列(一)Docker部署Hadoop集群

小丸子学Hadoop系列之——部署Hbase集群

hadoop安装环境准备和关联知识解析

hadoop（二）HDFS概述、shell操作、客户端操作（各种API操作）以及hdfs读写流程

hadoop系列：zookeeper（2）——zookeeper核心原理（选举）