vmware10上三台虚拟机的Hadoop2.5.1集群搭建

由于官方版本的Hadoop是32位，若在64位Linux上安装，则必须先重新在64位环境下编译Hadoop源代码。本环境采用编译后的hadoop2.5.1 。

安装参考博客：

1 http://www.micmiu.com/bigdata/hadoop/hadoop2x-cluster-setup/

2 http://f.dataguru.cn/thread-18125-1-1.html

3 http://blog.sina.com.cn/s/blog_611317b40100t5od.html

一、安装条件

环境搭建：

物理机win7

虚拟机vmware10+3台ubuntu12.04 64位（可以配置好一台然后完全复制另外两台）

虚拟机采用NAT模式上网，

{ 在Virtual Network Editor中将Subnet IP设为192.168.23.0

为虚拟机配置静态Ip

autho eht0

iface eth0 inet static

address 192.168.23.5

gateway 192.168.23.2

netmask 255.255.255.0

network 192.168.23.0

broadcast 192.168.23.255

配置虚拟机DNS

在/etc/resolvconf/resolv.conf.d/base以及/etc/resolv.conf中加入

nameserver 8.8.8.8

虚拟机端口映射

将虚拟机的22（ssh）端口应射成主机的8841端口，以后ssh远程访问虚拟机都用主机的端口访问

Sudo vi /etc/vmware/vmnet8/nat/nat.conf

在[incomingtcp]下加入

8421=192.168.23.5:22

需要注意的是再加入端口之前要查看端口是否占用

Netstat –ap|grep 8421

} 这部分我安装时没有关心。

二、环境准备

安装好虚拟机，为方便设置： 用户名：hadoop 主机名分别为：master 、slave1、slave2

配置各台虚拟机的ip：

Ipconfig ：查看各个虚拟机的ip，没台机器就可以取这个ip。

hostname	IP	用途
master	192.168.164.133	NameNode/ResouceManager
Slave1	192.168.164.134	DataNode/NodeManager
slave2	192.168.164.135	DataNode/NodeManager

ps：如果是虚拟机可以把环境配置好后，copy多个实例即可，需要注意修改hostname

1 vi /etc/hosts 添加如下内容：

192.168.164.133 master

192.168.164.134 slave1

192.168.164.135 slave2

vmware10上三台虚拟机的Hadoop2.5.1集群搭建

这里可能hosts和hostname是只读权限

给只读文件添加权限：

sudo chmod a+rwx /etc/hosts

sudo chmod a+rwx /etc/hostname

2 修改各台主机的主机名：

Vi /etc/hostname

3 3台主机分别更新： sudo apt-get update

3台主机分别关闭防火墙：sudo ufw disable

（将hadoop用户添加root权限： sudo gpasswd -a hadoop root ）

给hadoop用户设置无密码sudo权限：

Chmod u+w /etc/sudoers

编辑增加：

Hadoop ALL=(root)NOPASSWD:ALL

Chmod u-w /etc/sudoers

测试是否成功：sudo ifconfig

4 配置jdk

在3台：在/usr目录下新建setup目录，用于安装jdk和hadoop

解压jdk到setup目录

加压到指定目录： tar zxvf 源文件 –C 指定目录

tar zxvf jdk1.x---

重命名为jdk1.7 ： mv jdk-1.7.x/ jdk1.7/

配置jdk的环境变量：

gedit /etc/profile

添加：红色部分为自己的jdk目录

#set Java environment

JAVA_HOME=/usr/setup/jdk1.7

PATH=$PATH:$JAVA_HOME/bin

CLASSPATH=.:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar

export PATH JAVA_HOME CLASSPATH

验证：Java -version

vmware10上三台虚拟机的Hadoop2.5.1集群搭建

Jdk配置完毕。（这一步完成后可以复制虚拟机）复制后注意配置主机名。

配置ssh互信（无密码登陆）

"公私钥"认证方式简单的解释:首先在客户端上创建一对公私钥（公钥文件：~/.ssh/id_rsa.pub；私钥文件：~/.ssh/id_rsa）。然后把公钥放到服务器上（~/.ssh/authorized_keys）, 自己保留好私钥.在使用ssh登录时,ssh程序会发送私钥去和服务器上的公钥做匹配.如果匹配成功就可以登录了。

1 安装ssh：

3台主机分别：sudo apt-get install ssh

然后：ssh-keygen -t rsa

一直回车选择是选 y

回到master主机上，使用跨主机的管道和重定向将slave1,slave2主机上的公钥id_rsa.pub添加到    master上的authorized_keys文件中。

三台主机上分别：

cd ~/.ssh/

cat id_rsa.pub >authorized_keys

在master上：ssh slave1 cat ~/.ssh/id_rsa.pub && ssh slave2 cat ~/.ssh/id_rsa.pub

添加到

authorized_keys，

然后复制authorized_keys到slave1 和slave2中：

    scp authorized_keys hadoop@slave1:~/.ssh/

    scp authorized_keys hadoop@slave2:~/.ssh/

（或者：在master上执行：

$cat ~/.ssh/id_rsa.pub | ssh 远程用户名@远程服务器ip 'cat >>         ~/.ssh/authorized_keys'

）

测试：ssh slave1

Ssh slave2

第一次需要密码，后续ssh时可以实现无密码登陆。

hadoop安装配置

1   下载hadoop，http://apache.fayea.com/apache-mirror/hadoop/common/

选择hadoop-2.2.0.tar.gz

 32位环境下不用编译。复制到setup目录（这部分看个人习惯）解压

tar zxvf hadoop-2.2.0.tar.gz

mv hadoop-2.2.0 hadoop

2 配置hadoop的环境变量

    vi /etc/profile

    添加如下内容：

# set java environment

export JAVA_HOME=/usr/setup/jdk1.7

export CLASSPATH=.:$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib

export PATH=$PATH:$JAVA_HOME/bin:$JAVA_HOME/jre/bin

# set Hadoop environment

export HADOOP_PREFIX="/usr/setup/hadoop"

export PATH=$PATH:$HADOOP_PREFIX/bin:$HADOOP_PREFIX/sbin

export HADOOP_COMMON_HOME=${HADOOP_PREFIX}

export HADOOP_HDFS_HOME=${HADOOP_PREFIX}

export HADOOP_MAPRED_HOME=${HADOOP_PREFIX}

export HADOOP_YARN_HOME=${HADOOP_PREFIX}

使环境变量生效

$source /etc/profile

3 编辑 <HADOOP_HOME>/etc/hadoop/hadoop-env.sh 指定java路径

    修改JAVA_HOME的配置：

    export JAVA_HOME=/usr/setup/jdk1.7

4 编辑 <HADOOP_HOME>/etc/hadoop/yarn-env.sh

     修改JAVA_HOME的配置：

    export JAVA_HOME=/usr/setup/jdk1.7

5编辑  <HADOOP_HOME>/etc/hadoop/core-site.xml

<name>fs.defaultFS</name>

<value>hdfs://master:9000</value> //指定主机和端口号，master可以改成主机ip当然

<description>The name of the default file system.</description>

</property>

<name>hadoop.tmp.dir</name>

<value>/usr/setup/hadoop/temp</value>

<description>A base for other temporary directories.</description>

</property>

//创建临时文件目录,在hadoop目录下新建temp目录

6 编辑<HADOOP_HOME>/etc/hadoop/hdfs-site.xml

<name>dfs.replication</name>

</property>

<name>dfs.namenode.name.dir</name>

<value>file:/usr/setup/hadoop/dfs/name</value>

</property>

<name>dfs.datanode.data.dir</name>

<value>file:/usr/setup/hadoop/dfs/data</value>

</property>

</configuration>

//hadoop根目录下新建dfs目录，在dfs下新建data和name目录

7编辑<HADOOP_HOME>/etc/hadoop/yarn-site.xml

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

<property> <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>

<value>org.apache.hadoop.mapred.ShuffleHandler</value>

</property>

<name>yarn.resourcemanager.hostname</name>

<value>master</value>

</property>

</configuration>

//三台机器上配置是一样的

8编辑 <HADOOP_HOME/etc/hadoop/mapred-site.xml

默认没有mapred-site.xml文件，copy mapred-site.xml.template 一份为 mapred-site.xml即可

<name>mapreduce.framework.name</name>

</property>

</configuration>

9编辑 <HADOOP_HOME>/etc/hadoop/slaves

添加：

slave1

slave2

配置好hadoop后可以通过scp –r hadoop hadoop@IP 复制hadoop这个目录到指定节点上

启动和测试

1    启动Hadoop

1.1、第一次启动需要在master执行format ：hdfs namenode -format

1.2、在master执行 start-dfs.sh

在master验证启动进程：

        [hadoop@master ~]$ jps



在slavex验证启动进程：

        hadoop@slave1 ~$ jps

1.3、在Master.Hadoop 执行 start-yarn.sh

在master验证启动进程：



在slavex验证启动进程：
```
    hadoop@slave1 ~$ jps 
```
```
    

					
```
```
2 演示
```
（这部分参考http://www.micmiu.com/bigdata/hadoop/hadoop2x-cluster-setup/）

2.1 演示hdfs 一些常用命令，为wordcount演示做准备
```
    hdfs dfs -ls / 
```
```
    hdfs dfs -mkdir /user 
```
```
    hdfs dfs -mkdir -p /user/test/wordcount/in 
```
```
    hdfs dfs -ls /user/test/wordcount 
```
2.2、本地（即home/下面）创建三个文件 test1.txt、test2.txt、test3.txt, 分别写入如下内容：

test1：

hi baixl welcome to hadoop

more see hadoop

test2：

hi baixl welcome to bigdata

more see hadoop

test3：

hi baixl welcome to spark

more see hadoop

把 test打头的三个文件上传到hdfs：
```
[hadoop@Master ~]$ hdfs dfs -put test*.txt /user/test/wordcount/in
```
```
[hadoop@Master ~]$ hdfs dfs -ls /user/test/wordcount/in 
```
2.3、然后cd 切换到Hadoop的根目录下执行：
```
    hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.1.jar wordcount  /user/test/wordcount/in  /user/test/wordcount/out 
```
```
到此 wordcount的job已经执行完成，执行如下命令可以查看刚才job的执行结果：类似如下：
```
```
[hadoop@Master hadoop]$ hdfs dfs -ls /user/test/wordcount/out 
```
```
[hadoop@Master hadoop]$ hdfs dfs -cat /user/test/wordcount/out/part-r-00000 
```
```
					
```
```
注意：当重启hdfs后需要删除hdfs上缓存的文件
```
安装过程中由于已经在hdfs上上传了文件，当重启在 hdfs namenode –format时，后，会提示无法上传文件，此时需要删除hdfs已经存在的副本：

在master上删除dfs上name目录下的current目录： rm –rf current/

在slave上删除dfs上的整个data目录：rm –rf data/
远程访问hadoop集群：masterIP:50070

你可能感兴趣的:(hadoop2)

输入hadoop version时，解决Cannot execute /home/hadoop/libexec/hadoop-config.sh.的方法有奇妙能力吗 ubuntu hadoop hdfs linux 大数据分布式
在ubuntu用hadoopversion遇到了一个错误：Cannotexecute/home/hadoop/hadoop2.8/libexec/hadoop-config.sh.解决方法：在/etc/profile中找到了这个HADOOP_HOME全局变量，将其删除运行source/etc/profile输入vim.bashrc命令，在最后一行输入unsetHADOOP_HOMEsource.b
什么是Hadoop Yarn ThisIsClark 大数据 hadoop 大数据分布式
HadoopYARN：分布式集群资源管理系统详解1.什么是YARN？YARN（YetAnotherResourceNegotiator）是ApacheHadoop生态系统中的资源管理和作业调度系统，最初在Hadoop2.0中引入，取代了Hadoop1.0的MapReduce1（MRv1）架构。它的核心目标是提高集群资源利用率，并支持多种计算框架（如MapReduce、Spark、Flink等）在同
虚拟机hadoop集群启动时DataNode进程缺失 Magicalapologize hadoop linux 大数据
虚拟机hadoop集群启动时DataNode进程缺失1.出现问题:在Linux命令窗口中输入Jps查询hadoop启动项目时缺少DataNode进程;2.问题原因:使用格式化命令之后又再次进行格式化,导致namenodeDatas文件序列号不一致使之启动失败3.解决方案:删除三台虚拟机hadoop2.7.5安装目录下/export/install/hadoop-2.7.5/hadoopDatas中
Hadoop 端口号及常用配置文件 m0_63648117 hadoop hadoop 大数据分布式
一、常用端口号hadoop3.x：HDFSNameNode内部通常端口：8020/9000/9820HDFSNameNode对用户的查询端口：9870Yarn查看任务运行情况的端口：8088历史服务器：19888hadoop2.x：HDFSNameNode内部通常端口：8020/9000HDFSNameNode对用户的查询端口：50070Yarn查看任务运行情况的端口：8088历史服务器：1988
Hadoop常用端口及配置文件耐码 hadoop 大数据
Hadoop常用端口号Hadoop常用端口号Hadoop2.XHadoop3.XHDFSNameNode内部通信端口8020/90008020/9000/9820HDFSNameNodeweb端口500709870HDFSDataNodeweb端口500759864Yarn查看任务端口80888088历史服务器通信端口1988819888Hadoop常用配置文件Hadoop3.Xcore-site
Hadoop常用端口号和配置文件 jiedaodezhuti hadoop 大数据分布式
常用端口号有：hadoop2.xHadoop3.x访问HDFS端口500709870访问MR执行情况端口80888088历史服务器1988819888客户端访问集群端口90008020常用配置文件hadoop2.xcore-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xmlslaveshadoop3.xcore-site.xml、hdfs-si
Hadoop的组成，HDFS架构，YARN架构概述计算机人哪有不疯的 hadoop 数据库大数据 spark
Hadoop的组成Hadoop1.X时代，Hadoop中的MapReduce同时处理业务逻辑运算和资源的调度，耦合性较大。Hadoop2.X时代，增加了Yarn，Yarn只负责资源的调度，MapReduce只负责运算。Hadoop3.X时代，在组成上并没有变化。一共有四个组成部分：MapReduce计算，Yarn资源调度，HDFS数据存储，Common辅助工具。HDFS架构HadoopDistri
sqoop到数据到mysql报错_hadoop sqoop 同步hive数据到mysql报错 classnotfound Sinaean Dean
今天在CDH5.4.4环境下，用sqoop导出mysql数据，然后再导入hive，成功用sqoop同步hive数据到mysql失败，求大神答疑：1.hive下有一个表testamysql下有一个表testa结构一样2.版本hadoop2.6CDH5.4.4sqoop1.4.5-CDH5.4.4JDK1.7MySQL5.53.导数命令为sqoopexport-Dmapred.job.queue.na
ssh免密 linux 极简教程青瓜先生大数据 hadoop ssh 大数据 linux
解决hadoop集群ssh免密登录通信问题1、家目录/home/xxx/.ssh文件夹下[xxx@hadoop201~]$cd/home/xxx/.ssh2、生成公钥和私钥：[[email protected]]$ssh-keygen-trsa#然后敲（三个回车），就会生成两个文件id_rsa（私钥）、id_rsa.pub（公钥）3、将公钥拷贝到要免密登录的目标机器上[xxx@hadoop201.
hadoop+hive+spark+zookeeper+hbase大数据环境搭建 fengwuxichen 大数据 hadoop spark hbase
1.硬件环境主机名IP地址操作系统master172.16.34.101CentOSLinuxrelease7.3.1611slave01172.16.34.102CentOSLinuxrelease7.3.1611slave03172.16.34.103CentOSLinuxrelease7.3.16112.软件版本软件名称版本hadoop2.7.7hive1.2.2spark2.3.4zook
《云计算》第三版总结冰菓Neko 书籍云计算
《云计算》第三版总结云计算体系结构云计算成本优势开源云计算架构Hadoop2.0Hadoop体系架构Hadoop访问接口Hadoop编程接口Hadoop大家族分布式组件概述ZooKeeperHbasePigHiveOozieFlumeMahout虚拟化技术服务器虚拟化存储虚拟化网络虚拟化桌面虚拟化OpenStack开源虚拟化平台NovaSwiftGlance云计算核心算法PaxosDHTGossi
《大数据： Spark Standalone 模式配置历史服务器》 HarkerYX
一、配置历史服务器1.上一篇说到Standalone集群模式时候客户端看不到信息，driver:8081虽然能看到日志和结果，但是体验非常差2.spark-shell本身就是客户端模式，这个是改不了为cluster模式，并且运行时候日志打印是有，但是一旦退出了再也没地方看到日志了yexiang@hadoop2:$bin/spark-shell\>--masterspark://hadoop2:70
spark配置历史服务都教授2000 大数据 spark
1：配置spark-default.conf文件,开启Logcpspark-defaults.conf.templatespark-defaults.conf在spark-defaults.conf文件中,添加如下内容:spark.eventLog.enabledtruespark.eventLog.dirhdfs://hadoop213:9000/spark-job-log2:修改spark-e
Hive安装与配置教程爱编程的王小美 hive hadoop 数据仓库
Hive安装与配置教程1.环境准备1.1系统要求Java8或更高版本Hadoop2.x或更高版本MySQL或其他关系型数据库（用于存储元数据）1.2安装依赖#安装Javasudoaptupdatesudoaptinstallopenjdk-8-jdk#安装MySQLsudoaptinstallmysql-server2.下载并安装Hive2.1下载Hive#创建安装目录sudomkdir-p/us
[大数据技术与应用省赛学习记录一]——软件准备 Ench77 大数据技术与应用比赛筹备大数据
@JIAQI第一章大数据平台环境搭建在指定主机上完成Hadoop完全分布式、Spark、Flink、kafka、flume的安装配置赛前准备主办方要求使用以下相关版本软件环境，仅供参考：设备类型软件类别软件名称、版本号竞赛服务器竞赛环境大数据集群操作系统Centos7大数据平台组件unbuntu18.04Hadoop2.7.7Hive2.3.4Spark2.1.1Kafka2.0.0Redis4.
Spark总结等雨季 spark 大数据分布式
一、Spark概念：Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。1、SparkandHadoop的关系（1）首先从时间节点上来看:➢Hadoop2006年1月，DougCutting加入Yahoo，领导Hadoop的开发2008年1月，Hadoop成为Apache顶级项目2011年1.0正式发布2012年3月稳定版发布2013年10月发布2.X(Yarn)版本➢Spark20
Ubuntu下安装Hive3.1.2教程（附MySQL安装方法及安装包） hjseo_seg 面试阿里巴巴 mysql ubuntu hadoop 开发语言人工智能
文章目录前言一、安装Hive1.下载压缩包并解压2.安装Hive3.配置环境变量4.修改配置文件二、MySQL安装与配置1.安装MySQL2.安装MySQLjdbc包3.为Hive创建MySQL账号三、验证Hive安装及错误处理1.启动Hadoop2.启动hive3.运行Hive实例总结前言Hive的安装需要建立在Hadoop的之上（类似于Hbase），关于Hadoop的单机安装以及伪分布式安装可
架构中 MapReduce 的资源管理和计算框架耦合的问题
Yarn（全称为YetAnotherResourceNegotiator，译为"另一个资源协调者"）在Hadoop2.0版本中引入，其诞生是为了解决Hadoop1.x架构中MapReduce的资源管理和计算框架耦合的问题。简而言之，就是之前MapReduce的资源管理和计算框架是耦合在一起的，为了解耦而设计出了Yarn。Yarn是一种新的Hadoop资源管理器，它是一个通用资源管理系统，提供统一的
yarn的定义 yyywoaini～ java 开发语言
###YARN的定义及其在Hadoop生态系统中的角色####1.**YARN的定义**YARN（YetAnotherResourceNegotiator）是Hadoop2.x版本引入的一个全新资源管理和作业调度框架。它的主要目标是分离资源管理和任务调度的功能，从而提高系统的灵活性和扩展性。YARN的设计允许不同的计算框架（如MapReduce、Spark、Flink等）在同一Hadoop集群中共
【HDFS入门】Hadoop 2.0+ HDFS核心架构深度解析：高可用设计揭秘 IT成长日记大数据成长笔记 hadoop hdfs 架构高可用
目录1HDFS核心架构概述2高可用设计背景3HDFS核心组件3.1Active与StandbyNameNode3.2JournalNode3.3ZKFailoverController（ZKFC）3.4DataNode4高可用设计的工作流程写入阶段：元数据同步：健康监测：故障转移：5高可用设计的优势6总结1HDFS核心架构概述Hadoop2.0及以后版本的HDFS（HadoopDistribute
spark配置——local模式-yarn模式-spark集群邪王真眼是最强的哦耶 spark scala big data 大数据
准备三台配置hadoop集群的虚拟机(分别是hadoop0、hadoop1和hadoop2)下载spark，scala，anacondaspark下载地址scala下载地址Anaconda下载地址将下载的软件上传到虚拟机上local模式解压spark和scala，并重命名到program文件夹下tar-zxvfscala-2.12.15.tgztar-zxvfspark-3.0.3-bin-had
【Hadoop】Yarn资源管理调度大数据hadoopyarn
一、Yarn产生背景Yarn（全称为YetAnotherResourceNegotiator，译为"另一个资源协调者"）在Hadoop2.0版本中引入，其诞生是为了解决Hadoop1.x架构中MapReduce的资源管理和计算框架耦合的问题。简而言之，就是之前MapReduce的资源管理和计算框架是耦合在一起的，为了解耦而设计出了Yarn。Yarn是一种新的Hadoop资源管理器，它是一个通用资源
kafka connect，将数据批量写到hdfs完整过程 weixin_34162401 大数据数据库 json
为什么80%的码农都做不了架构师？>>>本文是基于hadoop2.7.1，以及kafka0.11.0.0。kafka-connect是以单节点模式运行，即standalone。一.kafka和kafkaconnect简介kafka：Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者规模的网站中的所有动作流数据。比较直观的解释就是其有一个生产者（producer）和一个消费者（con
hadoop集群配置-scp拓展使用杜清卿 hadoop 服务器大数据
任务1：在hadoop102上，将hadoop101中/opt/module/hadoop-3.1.3目录拷贝到hadoop102上。分析：使用scp进行拉取操作：先登录到hadoop2使用命令：scp-rroot@hadoop101:/opt/module/hadoop-3.1.3/opt/module/任务2：在hadoop101上操作，将hadoop100中/opt/module目录下所有目
CentOS 7系统中hadoop的安装和环境配置代码小张z centos hadoop linux
1.创建Hadoop安装解压路径：mkdir-p/usr/hadoop2.进入路径：cd/usr/hadoop3.下载安装包（我这里用的是阿里云镜像压缩包）：wgethttps://mirrors.aliyun.com/apache/hadoop/common/hadoop-3.3.5/hadoop-3.3.5.tar.gz4.解压安装包到hadoop文件路径：tar-zxvf/usr/hadoo
hadoop运行java程序命令_使用命令行编译打包运行自己的MapReduce程序 Hadoop2.6.0 emi0wb
网上的MapReduceWordCount教程对于如何编译WordCount.java几乎是一笔带过…而有写到的，大多又是0.20等旧版本版本的做法，即javac-classpath/usr/local/hadoop/hadoop-1.0.1/hadoop-core-1.0.1.jarWordCount.java，但较新的2.X版本中，已经没有hadoop-core*.jar这个文件，因此编辑和打
docker-compose -volumes 两种不同定义方式胖胖胖胖胖虎 Docker docker hadoop big data
学习docker-compose部署hadoop集群、看到docker-compose一种不同volumes定义方式version:"3"services:namenode:image:bde2020/hadoop-namenode:2.0.0-hadoop2.7.4-java8volumes:-namenode:/hadoop/dfs/nameenvironment:-CLUSTER_NAME=
spark程序提交到集群上_Spark集群模式&Spark程序提交毫无特色 spark程序提交到集群上
Spark集群模式&Spark程序提交1.集群管理器Spark当前支持三种集群管理方式Standalone—Spark自带的一种集群管理方式，易于构建集群。ApacheMesos—通用的集群管理，可以在其上运行HadoopMapReduce和一些服务应用。HadoopYARN—Hadoop2中的资源管理器。Tip1:在集群不是特别大，并且没有mapReduce和Spark同时运行的需求的情况下，用
Hadoop常用端口号海洋之心 Hadoop问题解决 hadoop hbase 大数据
Hadoop是一个由多个组件构成的分布式系统，每个组件都会使用一些特定的端口号来进行通信和交互。以下是Hadoop2.x常用的端口号列表：HDFS端口号：NameNode：50070SecondaryNameNode：50090DataNode：50010DataNode（数据传输）：50020YARN端口号：ResourceManager：8088NodeManager：8042MapReduc
Ubuntu下配置安装Hadoop 2.2 weixin_30501857 大数据 java 运维
---恢复内容开始---这两天玩Hadoop，之前在我的Mac上配置了好长时间都没成功的Hadoop环境，今天想在win7虚拟机下的Ubuntu12.0464位机下配置，然后再建一个组群看一看。参考资料：1.InstallingsinglenodeHadoop2.2.0onUbuntu：http://bigdatahandler.com/hadoop-hdfs/installing-single-
Spring4.1新特性——Spring MVC增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
mysql 性能查询优化 annan211 java sql 优化 mysql 应用服务器
1 时间到底花在哪了？ mysql在执行查询的时候需要执行一系列的子任务，这些子任务包含了整个查询周期最重要的阶段，这其中包含了大量为了检索数据列到存储引擎的调用以及调用后的数据处理，包括排序、分组等。在完成这些任务的时候，查询需要在不同的地方花费时间，包括网络、cpu计算、生成统计信息和执行计划、锁等待等。尤其是向底层存储引擎检索数据的调用操作。这些调用需要在内存操
windows系统配置 cherishLC windows
删除Hiberfil.sys ：使用命令powercfg -h off 关闭休眠功能即可： http://jingyan.baidu.com/article/f3ad7d0fc0992e09c2345b51.html 类似的还有pagefile.sys msconfig 配置启动项 shutdown 定时关机 ipconfig 查看网络配置 ipconfig /flushdns
人体的排毒时间 Array_06 工作
======================== || 人体的排毒时间是什么时候？|| ======================== 转载于： http://zhidao.baidu.com/link?url=ibaGlicVslAQhVdWWVevU4TMjhiKaNBWCpZ1NS6igCQ78EkNJZFsEjCjl3T5EdXU9SaPg04bh8MbY1bR
ZooKeeper cugfy zookeeper
Zookeeper是一个高性能，分布式的，开源分布式应用协调服务。它提供了简单原始的功能，分布式应用可以基于它实现更高级的服务，比如同步，配置管理，集群管理，名空间。它被设计为易于编程，使用文件系统目录树作为数据模型。服务端跑在java上，提供java和C的客户端API。 Zookeeper是Google的Chubby一个开源的实现，是高有效和可靠的协同工作系统，Zookeeper能够用来lea
网络爬虫的乱码处理随意而生爬虫网络
下边简单总结下关于网络爬虫的乱码处理。注意，这里不仅是中文乱码，还包括一些如日文、韩文、俄文、藏文之类的乱码处理，因为他们的解决方式是一致的，故在此统一说明。网络爬虫，有两种选择，一是选择nutch、hetriex，二是自写爬虫，两者在处理乱码时，原理是一致的，但前者处理乱码时，要看懂源码后进行修改才可以，所以要废劲一些；而后者更自由方便，可以在编码处理
Xcode常用快捷键张亚雄 xcode
一、总结的常用命令：隐藏xcode command+h 退出xcode command+q 关闭窗口 command+w 关闭所有窗口 command+option+w 关闭当前
mongoDB索引操作 adminjun mongodb 索引
一、索引基础： MongoDB的索引几乎与传统的关系型数据库一模一样，这其中也包括一些基本的优化技巧。下面是创建索引的命令： > db.test.ensureIndex({"username":1}) 可以通过下面的名称查看索引是否已经成功建立： &nbs
成都软件园实习那些话 aijuans 成都软件园实习
无聊之中，翻了一下日志，发现上一篇经历是很久以前的事了，悔过~~ 　　断断续续离开了学校快一年了，习惯了那里一天天的幼稚、成长的环境，到这里有点与世隔绝的感觉。不过还好，那是刚到这里时的想法，现在感觉在这挺好，不管怎么样，最要感谢的还是老师能给这么好的一次催化成长的机会，在这里确实看到了好多好多能想到或想不到的东西。　　都说在外面和学校相比最明显的差距就是与人相处比较困难，因为在外面每个人都
Linux下FTP服务器安装及配置 ayaoxinchao linux FTP服务器 vsftp
检测是否安装了FTP [root@localhost ~]# rpm -q vsftpd 如果未安装：package vsftpd is not installed 安装了则显示：vsftpd-2.0.5-28.el5累死的版本信息安装FTP 运行yum install vsftpd命令，如[root@localhost ~]# yum install vsf
使用mongo-java-driver获取文档id和查找文档 BigBird2012 driver
注：本文所有代码都使用的mongo-java-driver实现。在MongoDB中，一个集合（collection）在概念上就类似我们SQL数据库中的表（Table），这个集合包含了一系列文档（document）。一个DBObject对象表示我们想添加到集合（collection）中的一个文档（document），MongoDB会自动为我们创建的每个文档添加一个id，这个id在
JSONObject以及json串 bijian1013 json JSONObject
一.JAR包简介要使程序可以运行必须引入JSON-lib包，JSON-lib包同时依赖于以下的JAR包： 1.commons-lang-2.0.jar 2.commons-beanutils-1.7.0.jar 3.commons-collections-3.1.jar &n
[Zookeeper学习笔记之三]Zookeeper实例创建和会话建立的异步特性 bit1129 zookeeper
为了说明问题，看个简单的代码， import org.apache.zookeeper.*; import java.io.IOException; import java.util.concurrent.CountDownLatch; import java.util.concurrent.ThreadLocal
【Scala十二】Scala核心六：Trait bit1129 scala
Traits are a fundamental unit of code reuse in Scala. A trait encapsulates method and field definitions, which can then be reused by mixing them into classes. Unlike class inheritance, in which each c
weblogic version 10.3破解 ronin47 weblogic
版本：WebLogic Server 10.3 说明：%DOMAIN_HOME%：指WebLogic Server 域(Domain）目录例如我的做测试的域的根目录 DOMAIN_HOME=D:/Weblogic/Middleware/user_projects/domains/base_domain 1.为了保证操作安全，备份%DOMAIN_HOME%/security/Defa
求第n个斐波那契数 BrokenDreams
今天看到群友发的一个问题：写一个小程序打印第n个斐波那契数。自己试了下，搞了好久。。。基础要加强了。 &nbs
读《研磨设计模式》-代码笔记-访问者模式-Visitor bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; interface IVisitor { //第二次分派，Visitor调用Element void visitConcret
MatConvNet的excise 3改为网络配置文件形式 cherishLC matlab
MatConvNet为vlFeat作者写的matlab下的卷积神经网络工具包，可以使用GPU。主页： http://www.vlfeat.org/matconvnet/ 教程： http://www.robots.ox.ac.uk/~vgg/practicals/cnn/index.html 注意：需要下载新版的MatConvNet替换掉教程中工具包中的matconvnet： http
ZK Timeout再讨论 chenchao051 zookeeper timeout hbase
http://crazyjvm.iteye.com/blog/1693757 文中提到相关超时问题，但是又出现了一个问题，我把min和max都设置成了180000，但是仍然出现了以下的异常信息： Client session timed out, have not heard from server in 154339ms for sessionid 0x13a3f7732340003
CASE WHEN 用法介绍 daizj sql group by case when
CASE WHEN 用法介绍 1. CASE WHEN 表达式有两种形式 --简单Case函数 CASE sex WHEN '1' THEN '男' WHEN '2' THEN '女' ELSE '其他' END --Case搜索函数 CASE WHEN sex = '1' THEN
PHP技巧汇总:提高PHP性能的53个技巧 dcj3sjt126com PHP
PHP技巧汇总:提高PHP性能的53个技巧　　用单引号代替双引号来包含字符串，这样做会更快一些。因为PHP会在双引号包围的字符串中搜寻变量，　　单引号则不会，注意：只有echo能这么做，它是一种可以把多个字符串当作参数的函数译注：　　PHP手册中说echo是语言结构，不是真正的函数，故把函数加上了双引号)。　　1、如果能将类的方法定义成static，就尽量定义成static，它的速度会提升将近4倍
Yii框架中CGridView的使用方法以及详细示例 dcj3sjt126com yii
CGridView显示一个数据项的列表中的一个表。表中的每一行代表一个数据项的数据,和一个列通常代表一个属性的物品(一些列可能对应于复杂的表达式的属性或静态文本)。　　CGridView既支持排序和分页的数据项。排序和分页可以在AJAX模式或正常的页面请求。使用CGridView的一个好处是,当用户浏览器禁用JavaScript,排序和分页自动退化普通页面请求和仍然正常运行。实例代码如下：
Maven项目打包成可执行Jar文件 dyy_gusi assembly
Maven项目打包成可执行Jar文件在使用Maven完成项目以后，如果是需要打包成可执行的Jar文件，我们通过eclipse的导出很麻烦，还得指定入口文件的位置，还得说明依赖的jar包，既然都使用Maven了，很重要的一个目的就是让这些繁琐的操作简单。我们可以通过插件完成这项工作，使用assembly插件。具体使用方式如下： 1、在项目中加入插件的依赖： <plugin>
php常见错误 geeksun PHP
1. kevent() reported that connect() failed (61: Connection refused) while connecting to upstream, client: 127.0.0.1, server: localhost, request: "GET / HTTP/1.1", upstream: "fastc
修改linux的用户名 hongtoushizi linux change password
Change Linux Username 更改Linux用户名，需要修改4个系统的文件： /etc/passwd /etc/shadow /etc/group /etc/gshadow 古老/传统的方法是使用vi去直接修改，但是这有安全隐患（具体可自己搜一下），所以后来改成使用这些命令去代替： vipw vipw -s vigr vigr -s 具体的操作顺
第五章常用Lua开发库1-redis、mysql、http客户端 jinnianshilongnian nginx lua
对于开发来说需要有好的生态开发库来辅助我们快速开发，而Lua中也有大多数我们需要的第三方开发库如Redis、Memcached、Mysql、Http客户端、JSON、模板引擎等。一些常见的Lua库可以在github上搜索，https://github.com/search?utf8=%E2%9C%93&q=lua+resty。 Redis客户端 lua-resty-r
zkClient 监控机制实现 liyonghui160com zkClient 监控机制实现
直接使用zk的api实现业务功能比较繁琐。因为要处理session loss，session expire等异常，在发生这些异常后进行重连。又因为ZK的watcher是一次性的，如果要基于wather实现发布/订阅模式，还要自己包装一下，将一次性订阅包装成持久订阅。另外如果要使用抽象级别更高的功能，比如分布式锁，leader选举
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句 pda158 mysql
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句：　　方法一：SELECT table_name, column_name from information_schema.columns WHERE column_name LIKE 'Name'; 　　方法二：SELECT column_name from information_schema.colum
程序员对英语的依赖 Smile.zeng 英语程序猿
1、程序员最基本的技能，至少要能写得出代码，当我们还在为建立类的时候思考用什么单词发牢骚的时候，英语与别人的差距就直接表现出来咯。 2、程序员最起码能认识开发工具里的英语单词，不然怎么知道使用这些开发工具。 3、进阶一点，就是能读懂别人的代码，有利于我们学习人家的思路和技术。 4、写的程序至少能有一定的可读性，至少要人别人能懂吧... 以上一些问题，充分说明了英语对程序猿的重要性。骚年
Oracle学习笔记(8) 使用PLSQL编写触发器 vipbooks oracle sql 编程活动 Access
时间过得真快啊，转眼就到了Oracle学习笔记的最后个章节了，通过前面七章的学习大家应该对Oracle编程有了一定了了解了吧，这东东如果一段时间不用很快就会忘记了，所以我会把自己学习过的东西做好详细的笔记，用到的时候可以随时查找，马上上手！希望这些笔记能对大家有些帮助！这是第八章的学习笔记，学习完第七章的子程序和包之后

vmware10上三台虚拟机的Hadoop2.5.1集群搭建

一 、安装条件

二、环境准备

配置ssh互信（无密码登陆）

hadoop安装配置

启动和测试

你可能感兴趣的:(hadoop2)

一、安装条件