Hadoop2 第48页

Hadoop HA高可用集群搭建测试

摘要在Hadoop2.0之前，只有一个NameNode，若NameNode机器出现故障，那么整个集群都无法使用。这个架构存在单点故障的隐患。

夏至1208·2020-07-09 08:01

macOS spark的安装与运行

spark.apache.org/，然后单击download连接https://spark.apache.org/downloads.html2.进入download界面后，选择类型为Pre-builforApacheHadoop2.7andlater

hil2000·2020-07-09 08:23

Hadoop2.6.5高可用集群搭建

软件环境:linux系统:CentOS6.7Hadoop版本:2.6.5zookeeper版本:3.4.8主机配置:一共m1,m2,m3这五部机,每部主机的用户名都为centos192.168.179.201:m1192.168.179.202:m2192.168.179.203:m3m1:Zookeeper,Namenode,DataNode,ResourceManager,NodeManage

咸鱼翻身记·2020-07-09 07:52

Spark集群部署

Spark集群集群环境基于hadoop集群64bit（hadoop2.5.1、jdk1.7）CentOS6.4下安装配置Spark-0.9集群Spark是一个快速、通用的计算集群框架，它的内核使用Scala

Garry1115·2020-07-09 06:27

zookeeper集群安装+集群值启动+source命令+export命令

1安装到3台虚拟机上（mini2,mini3,mini4）2先要安装好JDK步骤1先给mini2,mini3,mini4创建用户hadoop，密码也是hadoopadduserhadooppasswdhadoop2

单身贵族男·2020-07-09 05:02

Hadoop2.7.0+与Spark1.5+已将不支持JDK1.6

摘要：Hadoop2.7.0已发发布，但该版本已经不支持JDK1.6版本，由于该版本吸取了很多JIRAs，考虑到Bug还在测试中，请暂时不要使用该版本用于生产环境，可以用Hadoop2.7.1/2.7.2

zhongwen7710·2020-07-09 05:24

重新编译spark 增加spark-sql适配CDH

参考资料让clouderamanager装的spark支持hqlApacheSpark学习：将Spark部署到Hadoop2.2.0上CDH内嵌spark版本不支持spark-sql,可能是因为cloudera

Dino系我·2020-07-09 05:12

spark 安装实战

1.wgethttps://d3kbcqa49mib13.cloudfront.net/spark-2.2.0-bin-hadoop2.7.tgztar-zxvfspark-2.2.0-bin-hadoop2.7

zhaojike·2020-07-09 05:47

spark-2.4.0安装和部署

下载为了方便，我直接是进入到了/usr/local文件夹下面进行下载spark-2.2.0wgethttps://d3kbcqa49mib13.cloudfront.net/spark-2.4.0-bin-hadoop2.7

流云先生·2020-07-09 04:44

Hadoop2.x 让你真正明白yarn

原文：Hadoop2.x让你真正明白yarnyarn是比较难懂的一个地方，也是很重要的一个组件，不止hadoop使用yarn，spark，storm也可以使用yarn。因此yarn的理解是非常重要的。

奋斗吧_攻城狮·2020-07-09 04:56

hive 合并小文件处理方案

hadoop使用lzo压缩，block块大小为512MB环境：hadoop2.6+hive1.2.1lzo压缩启动压缩sethive.exec.compress.output=true;setmapreduce.output.fileoutputformat.compress

贝拉美·2020-07-09 04:15

Hadoop集群安装

1、环境CentOS5.8Master192.168.2.110M1hadoop2110Slave192.168.2.100S1hadoop2100Slave192.168.2.101S2hadoop2101Slave192.168.2.125S3hadoop2125Slave192.168.2.132S4hadoop2132Slave192.168.2.144S5hadoop2144vim

yq495·2020-07-09 04:30

docker 构建spark集群

1．准备工具Hadoop-2.8.0.tar.gz，scala-2.12.2.tgz，spark-2.1.1-bin-hadoop2.7.tgz，zookeeper-3.4.6.tar.gz，jdk-8u73

yinzhiyan43·2020-07-09 03:58

MapReduce再学习：资源管理框架YARN

组件Hadoop1.0的问题Hadoop2.0的改进HDFS单一节点问题HdfsHA提供热备机制HD

yinglish_·2020-07-09 03:47

Hadoop分别启动namenode,datanode,secondarynamenode等服务

查找当前解压文件之后，hadoop2.7.3的默认配置文件，四个文件的.xml，1.core-default.xmlcommon\hadoop-common-2.7.3.jar2.hdfs-default.xmlhdfs

小A__·2020-07-09 01:46

Hadoop简介

Hadoop简介1.概念Hadoop是一套大数据解决方案.它提供了一套分布式系统基础架构.核心内容包含HDFS和MapReduce,在Hadoop2.0以后引入YARN简单来讲,HDFS是供数据存储的,

wintershii·2020-07-09 00:09

本地编译Hadoop2.9.1源码总结

protocolBuffer3.5安装findbugs四、开始编译五、编译中可能遇到的问题一、文档编写的目的当在Windows平台安装hadoop时，或者添加Hadoop一些额外功能时，需要对Hadoop源码进行编译，本文以Hadoop2.9.1

whjcsdnwhj·2020-07-09 00:25

集群搭建

hadoop2.0已经发布了稳定版本了，增加了很多特性，比如HDFSHA、YARN等。

发条香蕉·2020-07-08 22:39

PCA(主成分分析）-用iris数据集的解析

这篇文章对PCA的算法分析的比较好：https://www.cnblogs.com/hadoop2015/p/7419087.html看完以后我想尝试用iris数据集来实验一下，这里把记录下来：步骤：a

OldBibi·2020-07-08 22:25

Hadoop学习（四）：资源调度管理系统YARN

YARN简介YARN是Hadoop2.0引进的，前身是MapReduce本身的资源调度框架，Hadoop2.0后将MapReduce计算框架和YARN资源调度框架做了分离。

有理想的番茄·2020-07-08 21:51

Hadoop2.7实战v1.0之start-balancer.sh与hdfs balancer数据均衡

转发：http://www.aboutyun.com/thread-17612-1-1.html适用场景：a.当动态添加或者删除集群的数据节点，必然会使各节点的数据不均衡b.当正常维护时1.对hdfs负载设置均衡，因为默认的数据传输带宽比较低，可以设置为64M，即hdfsdfsadmin-setBalancerBandwidth67108864即可[root@sht-sgmhadoopnn-01~

weixin_42868638·2020-07-08 21:24

YARN资源管理框架

Hadoop2.xMapReduceV2处理流程YARNHadoop2.0中的资源管理框架(系统)它的基本思想就是将MRV1中JobTracker拆分成两个独立的服务进程一个是全局的资源管理器ResourceManager

天黑要加班·2020-07-08 20:37

大数据篇：Spark入门第一个Spark应用程序详解：WordCount

备注：本文spark的根目录名：spark-1.6.3-bin-hadoop2.6#准备工作cd/usr/local/spark-1.6.3-bin-hadoop2.6mkdirmycodecdmycodemkdirwordcountcdwordcount

yunxiaoMr·2020-07-08 19:58

Hive部署安装

Hiveversions1.2onwardrequireJava1.7ornewer.Hiveversions0.14to1.1workwithJava1.6aswell.UsersarestronglyadvisedtostartmovingtoJava1.8(seeHIVE-8607).Hadoop2

钻石大门·2020-07-08 19:20

hdfs文件写入详情

一,首先我把写入流程图放在这，这些都是看hadoop中的源码得到的，可以说是很详细的流程图了，本文由版本hadoop2.7为主二，我们把里面的一下细节详细讲一下:首先我们要了解block,paket,chuck

zxzLife·2020-07-08 19:19

kafka集群搭建

准备条件：提前安装好zookeeper集群，本配置为三台机器(hadoop1、hadoop2、hadoop3)，所有操作先在一台机器上操作。

weixin_38613375·2020-07-08 18:42

hadoop-zookeeper-hive-flume-kafka-hbase集群，解决登录报错，Cli.sh启动失败，Error: java.lang.UnsupportedClassVersion

1.克隆虚拟机之前清理垃圾[root@hadoop201~]#rm-rfanaconda-ks.cfginstall.loginstall.log.syslog2.选中“克隆虚拟机”：“右键→管理→克隆

cevent·2020-07-08 18:33

[原]如何利用hadoop RPC框架实现和NameNode的交互

在此之前，我们需要准备：hadoop的源码protobuf2.5版本JDKhadoop2.x版本中采用了ProtocolBuffer(简称protobuf)作为序列化和反序列化的工具，所以我们在修改源码时需要按照相应规则编写

weixin_34319111·2020-07-08 17:22

分布式资源调度——YARN框架

YARN产生背景YARN是Hadoop2.x才有的，所以在介绍YARN之前，我们先看一下MapReduce1.x时所存在的问题：单点故障节点压力大不易扩展MapReduce1.x时的架构如下：可以看到，

weixin_34302561·2020-07-08 17:09

HDFS NameNode 高并发数据读写架构及QJM选举深入研究

1Hadoop2.x系统架构演进2.x版本中，HDFS架构解决了单点故障问题，即引入双NameNode架构。同时借助共享存

weixin_34242819·2020-07-08 17:54

Yarn（MapReduce 2.0）下分布式缓存（DistributedCache）的注意事项

2019独角兽企业重金招聘Python工程师标准>>>1、问题最近公司的集群从Apachehadoop0.20.203升级到了CDH4，迈进了Hadoop2.0的新时代，虽然新一代的hadoop努力做了架构

weixin_34216107·2020-07-08 17:43

Hadoop1.X 与 Hadoop2.X区别及改进

一：Haddop版本介绍0.20.x版本最后演化成了现在的1.0.x版本0.23.x版本最后演化成了现在的2.x版本hadoop1.0指的是1.x(0.20.x),0.21,0.22hadoop2.0指的是

weixin_30776545·2020-07-08 14:41

在Windows启动pyspark shell：Failed to find Spark jars directory. You need to build Spark before running ...

D:\Developtools\spark-2.2.0-bin-hadoop2.7\bin>pyspark2.cmd'tools\spark-2.2.0-bin-hadoop2.7\bin\..

weixin_30591551·2020-07-08 14:17

2. Client和Clister提交任务+算子+术语+宽窄依赖+stage+任务调度和资源

/lib/spark-examples-1.6.0-hadoop2.6.0.jar1000或者./spark-s

weixin_30457551·2020-07-08 13:05

Windows 下运行 Hadoop 并部署到 AWS（qbit）

本文环境Windows10JDK8IntelliJIDEA2019.3.4(CommunityEdition)Hadoop2.8.5AWSEMR5.3.0详细步骤新建Maven工程修改pom.xml配置

qbit·2020-07-08 13:40

spark on yarn任务提交缓慢解决

sparkonyarn任务提交缓慢解决spark版本：spark-2.0.0hadoop2.7.2。在sparkonyarn模式执行任务提交，发现特别慢，要等待几分钟，使用集群模式模式提交任务：.

weixin_30256505·2020-07-08 13:03

hdoop1.0与hadoop2.0的区别-比较清晰

b、Hadoop2.0即第二代Hadoop为克服Hadoop1.0中的不足：针对Hadoop1.0单NameNode制约HDFS的扩

爱萨萨·2020-07-08 12:31

【深入理解Hadoop原理】Hadoop1.0 MapReduce工作原理与 Hadoop 2.x Yarn 设计理验与基本架构理解

Hadoop1.0MapReduce工作原理与Hadoop2.xYarn设计理验与基本架构理解Hadoop1.0提交MapReduce作业，一般分为4个实体1.客户端提交MapReduce作业2.JobTracker

wangxiaoming·2020-07-08 12:17

Flink 集群搭建(基于flink on YARN模式)

调度器）https://blog.csdn.net/shell33168/article/details/87928001参考该博客基于FlinkonYARN的flink集群规划(flink1.9.0与Hadoop2.8.5

蜗牛杨哥·2020-07-08 11:38

hadoop2.2 搭建QJM模式HA遇阻，求助贴

NameNode：10.10.141.14(hostname:hadoop-active)10.10.141.44(hostname:hadoop-standby)journalnode：10.10.141.14(hostname:hadoop-active)10.10.141.44(hostname:hadoop-standby)10.10.141.22(hostname:hadoop-JN)N

雲竹小师傅·2020-07-08 10:37

Yarn Container计算和MapReduce的内存配置

在Hadoop2.0中,YARN负责管理MapReduce中的资源(内存,CPU等)并且将其打包成Container.这样可以精简MapReduce,使之专注于其擅长的数据处理任务,将无需考虑资源调度.

王茗颢·2020-07-08 08:46

Hadoop 原理学习（1）Hadoop 各服务的作用简述

注：以下服务为基于安装Hadoop2.6.0-cdh5.8.3后的所得服务，但并不是全部。

BarackHusseinObama·2020-07-08 07:17

hadoop2.x对hadoop1在HDFS和Mapre方面的改进（hadoop1和hadoop2的区别）

一、HDFS的改进1.1Hadoop1.x时代的HDFS架构在Hadoop1.x中的NameNode只可能有一个，虽然可以通过SecondaryNameNode与NameNode进行数据同步备份，但是总会存在一定的延时，如果NameNode挂掉，但是如果有部份数据还没有同步到SecondaryNameNode上，还是可能会存在着数据丢失的问题。该架构如图1所示：图1Hadoop1.x时代的HDFS

suibianshen2012·2020-07-08 06:53

Tez 0.9安装部署+hive on tez配置 + Tez-UI

关于版本1.Hadoop2.7.0+（我的是2.7.1）2.Tez还需要ProtocolBuffers2.5.0，包括protoc编译器

墨小柒·2020-07-08 05:03

DRBD部署

DRBD的介绍请参考http://blog.csdn.net/rzhzhz/article/details/7103772部署环境虚拟机2台（1G内存，40G硬盘，ubuntu操作系统）primary节点：hadoop2

rzhzhz·2020-07-08 04:29

Windows环境下安装pyspark环境常见错误及解决办法

例如:Java:jdk1.7scala:2.10hadoop:2.6spark:spark-1.6.0-bin-hadoop2.6pys

桂小林·2020-07-08 03:30

大数据之Hadoop学习（八）HBase Shell数据库表创建

HBaseShell数据库表创建一、启动Hadoop和HBase1.启动Hadoop2.启动HBase3.进入shell二、创建表三、插入数据①新增学号为2015001的学生的所有信息②、新增学号为2015002

w²大大·2020-07-08 02:11

手把手搭建Hadoop-HA高可用分布式文件系统

这种情况下就急需一个高可用的hadoop集群前提hadoop2

喜讯XiCent·2020-07-08 02:21

史上超详细基于Ubuntu搭建分布式Hadoop教程

若没有搭建完成，请浏览上一篇博文1、环境说明Ubuntu14.0.4Hadoop2.6.4java-7-openjdk-amd64VirtualBox四个节点:masternode1node2node3

王小明爱吃大菠萝·2020-07-08 02:15

YARN资源调度框架

前言：yarn是hadoop2.x版本以后才有的概念一：RM（resourceManager）+NM（nodeManager）解析：yarn的资源管理通常通过1个RM+N个NM的模式，其中还有一个处理准备状态的

钟日日·2020-07-08 02:38

推荐频道

Hadoop2