hadoop2.X 第4页

eclipse 配置运行hadoop 2.7 程序例子参考步骤

前提：你搭建好了hadoop2.x的linux环境，并能够成功运行。还有就是window能够访问到集群。

fhg12225·2020-08-22 16:16

林里灰羊·2020-08-22 16:52

Hadoop集群各守护进程入门级详解

现在所被人熟知的有hadoop1.x和hadoop2.x两大版本，不同版本的had

PassionXxt·2020-08-22 13:53

hadoop2.7迁移到hadoop3.1，hive数据迁移

r3.1.0/hadoop-distcp/DistCp.html关于distcp的几点说明：1.如果跨版本迁移，官网推荐源目标要使用webhftp协议（此处有坑，hadoop0.x和1.x时时hftp协议，hadoop2

loveProLife·2020-08-21 14:44

Hadoop版本升级（2.7.6 => 3.1.2）

自己的主机上的Hadoop版本是2.7.6，是测试用的伪分布式Hadoop，在前段时间部署了HiveonSpark，但由于没有做好功课，导致了Hive无法正常启动，原因在于Hive3.x版本不适配Hadoop2

aju1790·2020-08-21 13:25

Apache Hadoop 3.0.0-alpha1版发布做了哪些改进

ApacheHadoop3.0.0-alpha1包含很多重要的改进在hadoop2.x的基础上。这个是一个alpha版，通过开发者和使用者帮助测试和搜集反馈。API的稳定性和质量还不能保证。概述提

wxzsebastian·2020-08-21 12:54

Hadoop2.2.0伪分布式之MapReduce简介

注：在hadoop2.x中MapReduce运行在yarn上，yarn支持多种运算模型。

雨钓Moowei·2020-08-19 07:15

如何在Centos6.5下部署hadoop2.2单机伪分布式

[color=green][size=large]hadoop2.x的稳定版本，已经发布多时了，散仙一直都用的hadoop1.x的版本，最近有项目用到hadoop2.x，所以就开始折腾hadoop2.x

三劫散仙·2020-08-19 04:31

从hadoop发展角度彻底明白hadoop1.x与hadoop2.x的区别

3.你如何看待hadoop2.x的yarn鉴于本人面试提到过这个问题：hadoop1.x和hadoop2.x的区别，起始存在很多模糊的地方，希望看到这篇文章，能够对hadoop有个基本的认识。

执念ID·2020-08-18 22:05

HDFS的高可用机制详解

在Hadoop2.X之前，Namenode是HDFS集群中可能发生单点故障的节点，每个HDFS集群只有一个namenode，一旦这个节点不可用，则整个HDFS集群将处于不可用状态。

daydayup_668819·2020-08-17 12:08

一文弄懂HDFS的Ha高可用原理

文章目录一、Hadoop1.x中hdfs架构二、Hadoop2.x中hdfs架构三、Hadoop2.x元数据四、基于QJM的共享存储系统的总体架构1、基于QJM的共享存储系统的内部实现架构图如图。

HaiwiSong·2020-08-17 05:30

Hadoop 1.X & Hadoop 2.X 默认端口对比

1，Hadoop2.X默认端口组件节点默认端口配置用途说明HDFSDataNode50010dfs.datanode.addressdatanode服务端口，用于数据传输HDFSDataNode50075dfs.datanode.http.addresshttp

nisxiya·2020-08-16 19:14

hadoop2.x常用端口及定义方法

端口Hadoop集群的各部分一般都会使用到多个端口，有些是daemon之间进行交互之用，有些是用于RPC访问以及HTTP访问。而随着Hadoop周边组件的增多，完全记不住哪个端口对应哪个应用，特收集记录如此，以便查询。这里包含我们使用到的组件：HDFS,YARN,HBase,Hive,ZooKeeper:组件节点默认端口配置用途说明HDFSDataNode50010dfs.datanode.add

奋起直追CDS·2020-08-16 18:58

HIVE-Hive搭建

文章目录Hive安装mysql安装hiveserver2搭建与可视化客户端安装Hive安装先决条件java1.7及以上hadoop2.X以上下载地址http://archive.apache.org/dist

yc_hen·2020-08-16 17:05

大数据学习初级入门教程（十二） —— Hadoop 2.x 集群和 Zookeeper 3.x 集群做集成

在以前一篇《大数据学习初级入门教程（一）——Hadoop2.x完全分布式集群的安装、启动和测试》中，详细写了Hadoop完全分布式集群的安装步骤，在上一篇《大数据学习初级入门教程（十一）——Zookeeper3.4.6

孟郎郎·2020-08-16 15:04

Windows下使用Hadoop2.6.0-eclipse-plugin插件

>>>首先说一下本人的环境:Windows764位系统SpringToolSuiteVersion:3.4.0.RELEASEHadoop2.6.0一．简介Hadoop2.x之后没有Eclipse插件工具

weixin_33831673·2020-08-16 09:29

Hadoop2.x安装

由于现在hadoop2.0还处于beta版本，在apache官方网站上发布的beta版本中只有编译好的32bit可用，如果你直接下载安装在64bit的linux系统的机器上，运行会报一个INFOutil.NativeCodeLoader-Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswherea

瑟龙·2020-08-16 06:29

编译Hadoop 2.x Hadoop-eclipse-plugin插件

经过hadoop1.x的发展，编译hadoop2.x版本的eclipse插件视乎比之前要轻松的多。

twlkyao·2020-08-16 05:48

Hadoop2.x eclipse plugin插件编译安装配置

一、编译环境CentOS7JDK1.7.0_75Hadoop-2.5.2eclipse-jee-luna-sr1二、准备安装ant和maven下载ant安装包，解压到/usr/local目录下；下载maven安装包，解压到/usr/local/目录下下载apache-ant-1.9.4-bin.tar.gz：http://ant.apache.org/bindownload.cgi下载apache

平凡的轨迹·2020-08-16 04:19

Hadoop2.X的安装部署

**任务一、配置基础环境（主机名、名字解析、ssh免密码登录、jdk环境）运用centos7镜像**1.克隆3台虚拟机，设置IP地址和主机名，使得3台虚拟机以及主机互通a)编辑/etc/sysconfig/network-scripts/ifcfg-ens32文件，修改IP地址masterslave1修改IP为192.168.153.101slave2修改IP为192.168.153.102修改v

bcmga·2020-08-15 22:57

HDFS元数据信息FSimage和Edits以及SecondaryNameNode辅助管理元数据信息

元数据：讲的通俗点就是描述数据的数据在hadoop2.x当中，使用如下的架构的时候：所有的元数据信息都保存在了FsImage与Eidts文件当中，这两个文件就记录了所有的数据的元数据信息，元数据信息的保存目录配置在了

Nice_N·2020-08-14 19:52

spark RDD中的partition和hdfs中的block的关系

hdfs文件是分布式存储，每个文件根据配置被切分成block(hadoop2.x默认128M)。为了达到容错的目的，根据配置每个block块存放N个副本，官方推荐正常情况下保留

sunkl_·2020-08-14 11:05

Ubantu下搭建Hadoop2.x完全分布式集群

原文地址：http://jingyan.baidu.com/article/27fa73269c02fe46f9271f45.html一、工具/原料·linux系统（本篇使用的是CentOSv6.5）·Hadoop安装包（本篇使用的是hadoopv2.6.0）二、环境要求1.1需要安装JDK6.0以上版本（可自行解压安装或使用自带的软件安装包，如yum）2.2需要无密码登录的SSH环境（安装ssh

mars-kobe·2020-08-13 20:52

mahout最新版+hadoop2.4.1运行kmeans分布式算法

但是mahout0.10之前都只能支持到hadoop1.x版本，所以大部分使用hadoop2.x的朋友，很苦恼，虽然网上各种办法，大都折腾的很，浪费时间且错误百出，鉴于此，将本人集成的成功案例分享给大家

wonderful_life_mrchi·2020-08-12 00:12

Debzium系列-Debzium MySQL Binlog 集成到Hive 坑（一）

环境说明kakfa2.5debezium-debezium-connector-mysql-1.2.0confluentinc-kafka-connect-hdfs-5.5.1(hadoop2.x的)集成思路

数据新玩法·2020-08-11 05:13

hadoop2.6.0 - eclipse插件下载、编译、安装、配置

-eclipse插件下载、编译、安装作者：易文俊Email：[email protected]截止目前（2015-02-10）为止，hadoop最新版本为2.6.0，下面以hadoop2.6.0为例安装hadoop2

Kevin2Yi·2020-08-10 12:41

hadoop2.5.2 eclipse 插件编译

原文地址：http://aub.iteye.com/blog/2162155插件地址：https://github.com/winghc/hadoop2x-eclipse-plugin1.下载并解压hadoop2

larntin2002·2020-08-10 08:42

Hadoop3.x安装部署

一、安装部署此处是单机版安装，我安装的使hadoop3.1.3，因为hadoop2.x和hadoop3.x的安装部署有些不同，所以记录一下首先安装好jdk，并且准备好hadoop3.x的安装包，可以去官网下载

hykDatabases·2020-08-09 15:23

Hadoop2.6.4版本64位编译

安装依赖包2.1安装jdk1.7版本2.2安装配置maven2.3安装Ant2.4安装protobuf2.5安装依赖包2.6下载Hadoop源码3.编译Hadoop3.1编译Hadoop3.2验证编译是否成功Hadoop2

LifeIsForSharing·2020-08-09 12:03

hadoop2.x的编译 & hadoop-snappy编译 & hadoop2.x 配置 snappy压缩

hadoop2.x默认没有支持snappy压缩，需要我们自己编译才能支持snappy的压缩。

zhiquanliu·2020-08-09 04:46

阿里云ECS（Ubuntu)搭建hadoop3.X 伪分布式环境

一、准备工作①利用xshell以及xftp远程连接云服务器②配置云服务器的相关端口hadoop3.X相比hadoop2.X，网页端口变化：Namenodeports:50470-->9871,50070

小王同学@com·2020-08-09 01:34

hadoop2.x之HDFS

1.HDFS简介HDFS（有时也成为DFS）是Hadoop的分布式文件系统。他可以将一个文件分布在多个主机上例如：现在有一个200GB的文件，我们有5台电脑，每台存储为100GB，所以我们在一台电脑上是无法存放该文件的。这时我们就需要将其分区（就是切割成好几块）然后将它分别存储在各个主机上（每个电脑存储40GB的）。这就是HDFS的原理。1.HDFS的特性HDFS的优势：超大文件存储HDFS能够存

erygreat·2020-08-08 15:40

运行hadoop2.x自带的wordcount

运行hadoop2.x自带的wordcount(1)首先在master虚拟机本地某一个目录下创建一个文件夹file，用来存储将要上传到HDFS的文件我是在/opt/hadoop路径下创建的文件夹filecd

王文友·2020-08-08 14:31

hadoop2.x之IO：序列化

序列化是指将结构化对象转化为字节流以便在网络上传输或写到磁盘进行永久存储的过程。反序列化是指将字节流转回结构化对象的逆过程。假设我们创建了一个类People，里面两个属性：name和age。在我们JVM没有关闭且该实例没有销毁的时候，我们可以调用这个实例。但是当我们关闭JVM等方式使该实例销毁的时候，我们将无法再使用该实例了。而序列化实际上就是将其存储起来，例如：以JSON存储成文件，或者XML存

erygreat·2020-08-08 10:05

hadoop2.x之IO：基于文件的数据结构

备注二进制文件广义上讲是所有文件（在物理上所有文件都是二进制编码）。狭义上是指文本文件以外的文件。而文本文件又是指ASCII或unicode编码的文件，二者在物理上没有本质的区别，只是逻辑上的概念。所以二进制文件在这里指的是所有文件。Hadoop主要处理日志文件，其中每一行文本代表一条日志记录。在MapReduce的数据处理中，处理结果是用key-value的格式传递给下一过程的。我们可以看到，在

erygreat·2020-08-08 10:35

hadoop2.x之IO：MapReduce压缩

前面我们说到了hadoop的压缩，在Hadoop所运行的数据一般都是很大的，输入的数据很大，输出的数据也很大。因此我们有必要对map和Reduce的数据进行压缩存储。如果我们想对Reduce进行压缩，有两种方法，一种是配置使用Configuration配置。另一种是还是用FileOutputFormat类对输出进行设置。1.对Reduce进行压缩（使用Configuration)使用Configu

erygreat·2020-08-08 10:35

hadoop2.x之IO：压缩和解压缩

文件压缩可以降低存储需要的空间，并且在传输过程中加快传输速度。因此对于大量数据的处理时，压缩是十分重要的。我们考虑一下Hadoop在文件中的压缩用法。有许多压缩方式，如下：压缩格式工具算法文件拓展名是否可切分DEFLATE无DEFLATE.deflate否GzipgzipDEFLATE.gz否bzip2bzip2bzip2bz2是LZOlzopLZO.lzo否LZ4无LZ4.lz4否Snappy无

erygreat·2020-08-08 10:34

使用Python 递归合并不同目录下小文件

#背景项目中,由网络爬虫爬取的日志文件,需要导入到hive数据仓库中,但日志文件包含很多的小文件（指代文件大小远小于HDFS块大小的文件，hadoop2.x之后，HDFS块大小默认未128M，那么1M，

江畔独步·2020-08-04 15:03

Hadoop 综合揭秘——MapReduce 基础编程（介绍 Combine、Partitioner、WritableComparable、WritableComparator 使用方式）...

请确保源代码运行在Hadoop2.x以上版本，并以伪分布形式安装以方便进行调

weixin_34111819·2020-08-04 05:19

HA-高可用的HDFS搭建（hdfs+zookeeper）（一）

为了解决这个问题在Hadoop2.x中借助于中间特定的中间渠道解决单点故障点问题，官方文档中提供两种解决方法：NFS和QJMNFS:采用的是网络共享文件模式QJM：QuorumJournalManager

勇敢先生·2020-08-03 22:52

Hadoop2.X开源软件及生态系统的最新发展综合分析（个人整理）

Hadoop2.X开源软件及生态系统的最新发展综合分析一、Hadoop版本概述目前Hadoop的发行版除了Apache的开源版本之外，还有华为发行版、Intel发行版、Cloudera发行版(CDH)、

未忘绘梨衣·2020-08-03 08:27

模拟实现一个基于zookeeper怎么解决单点故障

单点故障问题，在分布式系统中是一个很有可能发生的场景，比如说在Hadoop2.x之前的HDFS的NameNode和MapReduce的JobTracker的单点故障，当然这个问题已经在Hadoop2.x

tao_wei162·2020-08-03 04:30

Hadoop基础教程-第7章 MapReduce进阶（7.2 MapReduce工作机制）（草稿）

注意，在Hadoop2.x中，MapReduce的工作机制已经被YARN的工作机制所替代。YARN框架下的Mapreduce工作流程

程裕强·2020-08-02 23:21

Hadoop2之YARN介绍

、NodeManager四、ApplicationMaster五、ApplicationManager六、Container七、YARN运行过程八、Yarn的容错能力九、Yarn调度器十、结语一、简介Hadoop2

olifchou·2020-08-01 13:52

hadoop初识之四：HDFS、Yarn及mapreduce 回顾，配置文件的补充及yarn日志聚集功能配置

--==========================Hadoop2.x回顾======================>common=>HDFS存储数据NameNode:存储文件系统的元数据，命名空间

风行天下Num1·2020-08-01 13:10

Hadoop学习笔记（一）---Linux基本知识说明

Hadoop的生成环境都是在linux下面，不过呢hadoop2.x已经开始支持windows平台，但是支持并不是很好，因此熟悉linux的命令是很重要的，需要熟悉linux的基本命令和环境的基本配置：

garychenqin·2020-08-01 12:15

Hadoop基本原理

Hadoop的组成Hadoop目前主要包括Hadoop1.x和hadoop2.x，两种版

鬼～离未罔两·2020-08-01 09:10

hadoop修改HDFS默认块大小的配置

首先叙述一下：1.hadoop1.x的HDFS默认块大小为64MB；hadoop2.x的默认块大小为128MB。

飘羽·2020-08-01 01:29

HDFS文件块（block）大小设定依据

CSDN搜了半天也没有确切答案，查询资料思考后总结如下：我们在HDFS中存储数据是以块（block）的形式存放在DataNode中的，块（block）的大小可以通过设置dfs.blocksize来实现；在Hadoop2

人蠢多读书·2020-07-31 22:48

HDFS文件块大小（重点）

HDFS中的文件在物理上是分块存储（Block），块的大小可以通过配置参数(dfs.blocksize）来规定，默认大小在Hadoop2.x版本中是128M，老版本中是64M。

孙晨c·2020-07-31 13:58

推荐频道

hadoop2.X