wenzhibinbin_pt

hadoop学习笔记hadoop学习笔记

目录(?)[-]

hadoop 在 redhat linux下的安装过程
网上有很多讲授在windows下通过Cygwin安装hadoop的，笔者认为hadoop原始设计就是在linux下安装使用的，在windows下通过Cygwin安装也无非是模拟linux环境再在这个模拟的环境上装hadoop，既然要学hadoop就真枪实弹的在linux下安装来学习，但是要搞一台真正的linux系统对一般个人来说不容易，但是我们可以用虚拟机VMware Player，就是在windows下装一个虚拟机(VMware Player 就是个很好的虚拟机)，然后在虚拟机上装一个linux系统，实现和本机windows的通信，具体的怎么安装虚拟机，怎么在虚拟机上安装linux，以及怎么实现和本机windows的通信，这里就不讲了，这个网上有很多资料。
在本机windows下，通过eclispe连接到linux虚拟机上安装好的haoop，进行开发调试
linux上装好hadoop之后，可以等陆到linux上通过hadoop的shell命令查看hadoop的 hdfs文件系统，执行写好的mapreduce程序，但是这样会很不方便，我们通常的做法是在windows下开发程序，调试成功之后，再发布到linux上执行，这一部分就是来分享一下如何配置windows下的eclipse，可以链接到linux下的hadoop。
这个顺序并不是一个写死的顺序，就得按照这个来，如果你知道原理，可以打乱顺序来操作，比如1、2、3，先那个后那个，都没问题，但是有些步骤还是得依靠一些操作完成了才能进行，新手建议按照顺序来。前辈看看交流交流经验即可。(*^__^*) 嘻嘻……
一、实现linux的ssh无密码验证配置
二、安装jdk，并配置环境变量
1. 三、修改linux机器名
2. 四、在windows下下载hadoop 0.20.0，并修改hadoop-env.sh，core-site.xml，hdfs-site.xml，
3. mapred-site.xml，masters，slaves文件的配置
4. 五、把修改好的hadoop整个文件夹传到linux下
5. 六、把hadoop的bin加入到环境变量
6. 格式化hadoop，启动hadoop
7. 执行wordcount
8. 一、在eclipse下安装开发hadoop程序的插件
9. 二、插件安装后，配置一下连接参数
10. 三、写一个wordcount的程序，在eclipse里执行
11. 四、聊聊注意事项
12. 五、一些错误分析

此文章的前提是：知道hadoop是什么，知道什么是分布式系统，了解hdfs和mapreduce的概念和原理。这里只是把笔者在学习hadoop过程中的一些经验和自己的看法分享一下。此文章包括两部分：

1、hadoop 在 redhat linux下的安装过程

网上有很多讲授在windows下通过Cygwin安装hadoop的，笔者认为hadoop原始设计就是在linux下安装使用的，在windows下通过Cygwin安装也无非是模拟linux环境再在这个模拟的环境上装hadoop，既然要学hadoop就真枪实弹的在linux下安装来学习，但是要搞一台真正的linux系统对一般个人来说不容易，但是我们可以用虚拟机VMware Player，就是在windows下装一个虚拟机(VMware Player 就是个很好的虚拟机)，然后在虚拟机上装一个linux系统，实现和本机windows的通信，具体的怎么安装虚拟机，怎么在虚拟机上安装linux，以及怎么实现和本机windows的通信，这里就不讲了，这个网上有很多资料。

2、在本机windows下，通过eclispe连接到linux虚拟机上安装好的haoop，进行开发调试

linux上装好hadoop之后，可以等陆到linux上通过hadoop的shell命令查看hadoop的 hdfs文件系统，执行写好的mapreduce程序，但是这样会很不方便，我们通常的做法是在windows下开发程序，调试成功之后，再发布到linux上执行，这一部分就是来分享一下如何配置windows下的eclipse，可以链接到linux下的hadoop。

接下来就先说说第一部分的内容：

hadoop安装有三种模式：单机模式，伪分布式，完全分布式。

1、单机模式：没意义，pass掉，不讨论。

2、伪分布式：就是在一台机器上模拟namenode、datanode、jobtracker、tasktracker、secondaryname。每一个存在的形式是一个java进程。

3、完全分布式：就是一个hadoop集群，有n台机器组成，一般组织方式是：一台机器作为master，上面运行 namenode和jobtracker,另外的机器作为slave，上面运行datanode和tasktracker，至于secondaryname，可以运行在master上，也可以运行在另外一台机器上。secondaryname是namenode的一个备份里面同样保存了名字空间，和文件到文件块的map关系。建议运行在另外一台机器上，这样master死掉之后，还可以通过secondaryname所在的机器找回名字空间，和文件到文件块得map关系数据，恢复namenode。

这里条件有限，就只能实现伪分布式，就是在虚拟机上装一个linux。其实也可以在虚拟机上装n个linux，来实现完全分布式，但是我怕我的小本本，吃不消。就只能装伪分布式了。

首先确保windows下已经安装了虚拟机，并在虚拟机上安装了linux，且能和windows通信了（在windows的cmd里ping linux的ip能ping通说明可以通信了，ask：怎么知道linux的ip？，answer：进入linux终端，ifconfig即可看到）笔者window上已经安装了虚拟机并在虚拟机上装了linux系统，装linux的时候会有一个root用户，接下来我们就全部用这个root用户来操作，网上好多资料说新建一个用户比如hadoop，来安装hadoop，这里为了方便，就用root（其实是偷懒，不想弄得复杂，哇咔咔，(*^__^*) 嘻嘻……）。

安装hadoop步骤

1、实现linux的ssh无密码验证配置.

2、在linux下安装jdk，并配好环境变量

3、修改linux的机器名，并配置 /etc/hosts

4、在windows下下载hadoop 0.20.0，并修改hadoop-env.sh，core-site.xml，hdfs-site.xml，

mapred-site.xml，masters，slaves文件的配置

5、把修改好的hadoop整个文件夹传到linux下

6、把hadoop的bin加入到环境变量

7、格式化hadoop，启动hadoop

8、验证是否启动，并执行wordcount

这个顺序并不是一个写死的顺序，就得按照这个来，如果你知道原理，可以打乱顺序来操作，比如1、2、3，先那个后那个，都没问题，但是有些步骤还是得依靠一些操作完成了才能进行，新手建议按照顺序来。前辈看看交流交流经验即可。(^__^) 嘻嘻……

一、实现linux的ssh无密码验证配置

ask：为什么要配置ssh无密码验证

answer：Hadoop需要使用SSH协议，namenode将使用SSH协议启动namenode和datanode进程，(datanode向namenode传递心跳信息可能也是使用SSH协议，这是我认为的，还没有做深入了解)。许多教程上介绍Hadoop集群配置时只说明了namenode上SSH无密码登录所有datanode，我在配置时发现必须使datanode上也能SSH无密码登录到namenode，Hadoop集群才能正常启动(也许这不是必须的，只是我的一个失误，但是这样能够正常启动Hadoop集群)。上述蓝色字体，是我粘的某个前辈的话，大概意思是，namenode 和datanode之间发命令是靠ssh来发的，发命令肯定是在运行的时候发，发的时候肯定不希望发一次就弹出个框说：有一台机器连接我，让他连吗。所以就要求后台namenode和datanode无障碍的进行通信，这个无障碍怎么实现呢？，就是配置ssh无密码验证.上述中前辈有个顾虑，说实现了namenode到datanode无障碍链接到，那还用实现datanode和namenode的无障碍连接吗？，这个我就不考虑了，我这里是伪分布的，就一台机器，namenode和datanode都在一个机器上，能实现自己连自己就行了。不是自己的问题就不去伤脑筋了，哇咔咔~~，读者如果弄完全分布式的时候，碰到这个问题，可以自己试试，不行，也就实现datanode到namenode的无障碍的通信，试试又累不死~~~。

ask：实现无密码验证就能无障碍连接，这其中原理是神马捏？

answer：以namenode到datanode为例子：Namenode作为客户端，要实现无密码公钥认证，连接到服务端datanode上时，需要在namenode上生成一个密钥对，包括一个公钥和一个私钥，而后将公钥复制到datanode上。当namenode通过ssh连接datanode时，datanode就会生成一个随机数并用namenode的公钥对随机数进行加密，并发送给namenode。namenode收到加密数之后再用私钥进行解密，并将解密数回传给datanode，datanode确认解密数无误之后就允许namenode进行连接了。这就是一个公钥认证过程，其间不需要用户手工输入密码。重要过程是将客户端namenode公钥复制到datanode上。这也是我粘的某个前辈的话，啥也不说了，前辈说的很清楚，就是这么回事。

知道why了，现在就开始how吧

我这里就一台机器，所以操作很简单

在linux命令行里输入：ssh-keygen -t rsa，然后一路回车。

root@hadoopName-desktop:~$ ssh-keygen -t rsa

Generating public/private rsa key pair.

Enter file in which to save the key (/home/zhangtao/.ssh/id_rsa): //密钥保存位置，直接回车保持默认；

Created directory '/home/zhangtao/.ssh'.

Enter passphrase (empty for no passphrase): //设置密钥的密码，空密码直接回车即可；

Enter same passphrase again: //确认上一步设置的密码。

然后进入 /root/.ssh/下面，会看到两个文件 id_rsa.pub，id_rsa，

然后执行 cp id_rsa.pub authorized_keys

然后 ssh localhost 验证是否成功，第一次要你输入yes，以后就不需要了。

二、安装jdk，并配置环境变量

先在linux下面建一个目录用来安装jdk，我建的目录是 /usr/program,就是以后jdk安装到这个目录下面。

先去下载一个linux下面的jdk版本，我的是jdk-6u6-linux-i586.bin, 也有-rpm.bin 结尾的，这种结尾的安装不如直接.bin的简单，这个怎么下，就不说了，网上一大堆的，下载1.6包括1.6以上的哦~~，然后用工具传到linux的 /usr/program这个目录下，就是刚才我新建的那个，上传工具好多，ftp也行，ssh 客户端也行，这个不多说，继续~~。

登录到linux下，进入 /usr/program 目录下，发现多了一个文件，就是jdk-6u6-linux-i586.bin，

然后开始安装。

1、执行 chmod +x jdk-6u6-linux-i586.bin，（这是因为这个文件传过来不是可执行的文件，要把他变成可执行文件）。

2、执行 ./jdk-6u6-linux-i586.bin，（1、2步骤都是在 /usr/program 目录下执行的，2步骤，一路回车，遇到yes/no? 全部yes，最后会done，安装成功）.

3、执行 ls，会发现/usr/program 这个目录下有个文件，一个是jdk-6u6-linux-i586.bin就是我们上传上来的，另一个就是dk1.6.0_06,就是jdk的安装根目录.

开始配置环境变量

1、执行 cd /etc, 进入/etc 目录下。

2、执行 vi profile, 修改profile文件

在里面加入以下四行

      Java代码   
      
 #set java environment  
   
 export JAVA_HOME=/usr/program/jdk1.6.0_06  
   
 export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH  
   
 export CLASSPATH=.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib

3、执行 chmod +x profile ，把profile变成可执行文件

4、执行 source profile,把profile里的内容执行生效

5、执行，java、javac、java -version 查看是否安装成功.

三、修改linux机器名

先说说怎么查看linux下的机器名

在命令行里输入hostname回车，展现的即当前linux系统的机器名如下

[root@hadoopName ~]# hostname

hadoopName

[root@hadoopName ~]#

读者也看到了，命令行的前缀 [root@hadoopName ~]， @符号后面的就是机器名，前面的是当前用户名

下面说说怎么修改redhat linux下的机器名，下面的方法只适合修改redhat的，别的版本改机器名不是这样的

1、执行 cd /etc/sysconfig,进入/etc/sysconfig 目录下

2、执行 vi network,修改network文件，

NETWORKING=yes

HOSTNAME=hadoopName

把HOSTNAME改成你想要的机器名，我改成了hadoopName，然后保存

3、执行 cd /etc,进入/etc 目录下

4、执行 vi hosts，修改hosts文件

# Do not remove the following line, or various programs

# that require network functionality will fail.

192.168.133.128 hadoopName hadoopName

127.0.0.1 localhost.localdomain localhost

默认是只有黑色字体内容，然后加上红色字体内容，第一个是自身ip，第二个network里的hostname名字，第三个一样。网上很多资料说hadoop安装要在 hosts里面加入所有的集群机器的 ip hostname 对，嗯，没错，因为笔者这是单机，所以就只加自己就行了。

5、修改完后，执行hostname 就能看到自己新改的机器名了

四、在windows下下载hadoop 0.20.0，并修改hadoop-env.sh，core-site.xml，hdfs-site.xml，

mapred-site.xml，masters，slaves文件的配置

下面要做最重要的操作，下载hadoop，并修改配置文件

下载hadoop 0.20.0 版本 http://apache.etoak.com//hadoop/core/

下载后的文件是hadoop-0.20.2.tar.gz，然后解压出来

解压出来后的文件结构是这样的，进入conf目录里面，

修改hadoop-env.sh文件，加入如下一行

      Java代码   
      
 export JAVA_HOME=/usr/program/jdk1.6.0_06

其实hadoop-env.sh里面有这一行，默认是被注释的，你只需要把注释去掉，并且把JAVA_HOME 改成你的java安装目录即可。

需要说一下，在0.20.2版本之前，conf里面有一个 hadoop-site.xml文件，在0.20.0版本里面 conf下没有这个hadoop-site.xml文件，取而代之的是三个文件，core-site.xml,hdfs-site.xml,mapred.xml。下面要修改这三个文件

修改core-site.xml

默认的core-site.xml是如下这样的

      Xml代码   
      
 <?xml version="1.0"?>  
 <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>  
   
 <!-- Put site-specific property overrides in this file. -->  
   
 <configuration>  
   
 </configuration>

现在要改成如下

      Xml代码   
      
    
 <?xml version="1.0"?>  
 <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>  
   
 <!-- Put site-specific property overrides in this file. -->  
   
 <configuration>  
 <property>  
   <name>hadoop.tmp.dir</name>  
   <value>/usr/local/hadoop/hadooptmp</value>  
   <description>A base for other temporary directories.</description>  
 </property>  
 <property>  
   <name>fs.default.name</name>  
   <value>hdfs://192.168.133.128:9000</value>  
   <description>The name of the default file system.  A URI whose  
   scheme and authority determine the FileSystem implementation.  The  
   uri's scheme determines the config property (fs.SCHEME.impl) naming  
   the FileSystem implementation class.  The uri's authority is used to  
   determine the host, port, etc. for a filesystem.</description>  
 </property>  
 </configuration>  

修改hdfs-site.xml

默认的hdfs-site.xml是如下这样的

      Xml代码   
      
 <?xml version="1.0"?>  
 <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>  
   
 <!-- Put site-specific property overrides in this file. -->  
   
 <configuration>  
   
 </configuration>

要改成如下这样的

      Xml代码   
      
    
 <?xml version="1.0"?>  
 <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>  
   
 <!-- Put site-specific property overrides in this file. -->  
   
 <configuration>  
 <property>  
   <name>dfs.replication</name>  
   <value>1</value>  
   <description>Default block replication.   
   The actual number of replications can be specified when the file is created.  
   The default is used if replication is not specified in create time.  
   </description>  
 </property>  
   
 </configuration>  

修改mapred-site.xml

默认的mapred-site.xml是如下这样的

      Xml代码   
      
 <?xml version="1.0"?>  
 <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>  
   
 <!-- Put site-specific property overrides in this file. -->  
   
 <configuration>  
   
 </configuration>

要改成如下这样的

      Xml代码   
      
    
 <?xml version="1.0"?>  
 <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>  
   
 <!-- Put site-specific property overrides in this file. -->  
   
 <configuration>  
 <property>  
   <name>mapred.job.tracker</name>  
   <value>192.168.133.128:9001</value>  
   <description>The host and port that the MapReduce job tracker runs  
   at.  If "local", then jobs are run in-process as a single map  
   and reduce task.  
   </description>  
 </property>  
 </configuration><span style="color: #000000; font-size: 12px;">  
 </span>  

修改完这三个文件了，就一些注意的要点说一下

1、其实core-site.xml 对应有一个core-default.xml, hdfs-site.xml对应有一个hdfs-default.xml,

mapred-site.xml对应有一个mapred-default.xml。这三个defalult文件里面都有一些默认配置，现在我们修改这三个site文件，目的就覆盖default里面的一些配置，

2、hadoop分布式文件系统的两个重要的目录结构，一个是namenode上名字空间的存放地方，一个是datanode数据块的存放地方，还有一些其他的文件存放地方，这些存放地方都是基于hadoop.tmp.dir目录的，比如namenode的名字空间存放地方就是 ${hadoop.tmp.dir}/dfs/name, datanode数据块的存放地方就是 ${hadoop.tmp.dir}/dfs/data，所以设置好hadoop.tmp.dir目录后，其他的重要目录都是在这个目录下面，这是一个根目录。我设置的是 /usr/local/hadoop/hadooptmp,当然这个目录必须是存在的。

3、fs.default.name,这个是设置namenode位于哪个机器上，端口号是什么hdfs://192.168.133.128:9000，格式一定要这样写，网上很多资料说ip地址写localhost也行，笔者建议最好写ip，因为后期讲到windows下 eclipse连接hadoop 的时候，如果写localhost，就会连接不到。

4、mapred.job.tracker，这个是设置jobtracker位于哪个机器上，端口号是什么，192.168.133.128:9001，格式和上一个不一样，这个也必须这样写，同样localhost和ip的分别和上述一样

5、dfs.replication，这个是设置数据块的复制次数，默认是3，因为笔者这里就一台机器，所以只能存在一份，就改成了1

然后修改 masters和slaves文件

master文件里就把集群中的namenode所在的机器ip，这里就写 192.168.133.128, 不要写localhost，写了localhost，windows 下eclipse 连接不到hadoop

slaves文件里就把集群中所有的nodedata所在的机器ip，这里就写192.168.133.128，因为这里是单机，同样最好别写localhost

五、把修改好的hadoop整个文件夹传到linux下

上述文件修改好之后，把haoop整个目录copy草linux下，记得建个目录放这个，我建的目录是 /usr/local/hadoop,把hadoop的整个目录copy到这个下面，然后就是这样的形式

[root@hadoopName hadoop]# cd /usr/local/hadoop

[root@hadoopName hadoop]# ls

hadoop-0.20.2 hadooptmp

/usr/local/hadoop 下有两个文件，一个就是hadoop的根目录hadoop-0.20.2，另一个，就是上述的hadoop.tmp.dir的目录

六、把hadoop的bin加入到环境变量

把hadoop的执行命令加到环境变量里，这样就能直接在命令行里执行hadoop的命令了

操作跟把java的bin加入环境变量一样

1、执行 cd /etc, 进入/etc 目录下。

2、执行 vi profile, 修改profile文件

在里面加入以下四行

      Java代码   
      
 #set java environment  
   
 export JAVA_HOME=/usr/program/jdk1.6.0_06  
   
 export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH  
   
 export CLASSPATH=.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib

3、执行 chmod +x profile ，把profile变成可执行文件

4、执行 source profile,把profile里的内容执行生效

7、格式化hadoop，启动hadoop

格式化hadoop

在命令行里执行，hadoop namenode -format,

笔者在格式化的时候出现了一个错误 Invalid byte 2 of 2-byte UTF-8 sequence，经调查，是因为在修改那3个xml 的时候，用非utf-8 编码保存了，所以出错，用editplus打开从新以uft-8的形式保存，在上传到linux上，再执行 hadoop namenode -format 就行了，执行成功之后，去/usr/local/hadoop/hadooptmp 下会自动生成dfs文件夹，进去会有name文件夹，里面还有别的其他namenode上保存名字空间的文件

启动hadoop

在命令行里执行，start-all.sh，或者执行start-dfs.sh,再执行start-mapred.sh。

在命令行里输入 jps，如果出现一下内容，则说明启动成功。

[root@hadoopName ~]# jps

4505 NameNode

4692 SecondaryNameNode

4756 JobTracker

4905 Jps

4854 TaskTracker

4592 DataNode

启动之后，在/usr/local/hadoop/hadooptmp 下的dfs文件夹里会生成 data目录，这里面存放的是datanode上的数据块数据，因为笔者用的是单机，所以name 和 data 都在一个机器上，如果是集群的话，namenode所在的机器上只会有name文件夹，而datanode上只会有data文件夹。

执行 hadoop fs -ls命令，查看当前hdfs分布式文件系统的文件目录结构，刚执行会说no such dictionary，

你要先建一个文件夹,用命令 haoop fs -mkdir testdir ，然后再执行hadoop fs -ls，就会展示/user/root/testdir

当前用户是root，所以hdfs的根目录就是 /user/root ，

8、执行wordcount

hadoop安装成功了，来执行一下自带的例子，

执行之前要有输入输出目录，

建立输入目录： hadoop fs -mkdir input

在这个目录里放入文件：hadoop fs -put /usr/test_in/*.txt input（把本地/usr/test_in目录里的所有txt文件copy到 hdfs分布式文件系统的 /user/root/input 目录里面，因为当前目录就是root 所以直接写input 就代表/user/root/input）

进入 /usr/local/hadoop/hadoop 0.20.0目录下，

执行 hadoop jar hadoop-0.20.2-examples.jar wordcount input ouput

执行完毕之后，执行hadoop fs -ls output，会发现如下

[root@hadoopName hadoop-0.20.2]# hadoop fs -ls output

Found 2 items

drwxr-xr-x - root supergroup 0 2011-05-08 05:20 /user/root/output/_logs

-rw-r--r-- 1 root supergroup 1688 2011-05-08 05:21 /user/root/output/part-r-00000

用命令 hadoop fs -cat output/part-r-00000 查看这个part-r-00000文件的内容，会看到执行的结果。

至此hadoop在redhat上的安装就结束了，也学这里写的不够详细，如果有兴趣的朋友，可以来交流，(*^__^*) 嘻嘻……，下面我们来看看，在windows上怎么通过eclipse连接我们刚才安装好的hadoop，在linux下就可以查看hdfs分布式文件系统的目录结构，并能在eclipse调试刚才的wordcount程序。

------------------------------------------------------------------- 下面来说说第二部门，在windows下，用eclipse 连接haoop，开发调试。写程序，debug，找原因，看执行过程，这些事不是该linux干的，让它干也干不了，所以这些工作就得在windows下做，windows下用什么做，java程序当然就一个选择：eclipse，

配置过程如下：

1、在eclipse下安装开发hadoop程序的插件

2、插件安装后，配置一下连接参数

3、写一个wordcount的程序，在eclipse里执行

4、聊聊注意事项

5、一些错误分析

一、在eclipse下安装开发hadoop程序的插件

安装这个插件很简单，在上面提到过下载hadoop0.20.2，这个下载的haoop0.20.2自带一个eclipse的插件，在hadoop目录下的 contrib\eclipse-plugin\hadoop-0.20.2-eclipse-plugin.jar，把这个文件copy到 eclipse的eclipse\plugins目录下，然后重启就算完成安装了，这里说一下，这个hadoop-0.20.2-eclipse-plugin.jar安装在3.2版本上是不行的，笔者亲自试验过，装上之后没反应，要必须安装在3.3以上的版本，笔者是安装到了eclipse-jee-europa-winter-win32(java开发工具).ZIP，europa 版本，这europa版本可以到网上下载，网上还有很多说IBM开发的 MapReduce tools插件,这个和haoop自带的插件用法不一样，笔者没研究那个，只是觉得haoop自带的插件挺好用。

安装成功之后的标志如图：

1、在左边的 project explorer 上头会有一个 DFS locations的标志

2、在 windows -> preferences里面会多一个hadoop map/reduce的选项，选中这个选项，然后右边，把下载的hadoop根目录选中

如果能看到以上两点说明安装成功了

二、插件安装后，配置一下连接参数

插件装完了，就可以建一个连接了，就相当于eclipse里配置一个 weblogic的连接

第一步如图所示，打开Map/Reduce Locations 视图，在右上角有个大象的标志点击

第二步，在点击大象后弹出的对话框进行进行参数的添加，如下图

location name: 这个随便填写，笔者填写的是：hadoop.

map/reduce master 这个框里

host：就是jobtracker 所在的集群机器，笔者这里是单机伪分布式，jobtracker就在这个机器上，所以填上这个机器的ip

port：就是jobtracker 的port，这里写的是9001

这两个参数就是 mapred-site.xml里面mapred.job.tracker里面的ip和port

DFS master这个框里

host：就是namenode所在的集群机器，笔者这里是单机伪分布式，namenode就在这个机器上，所以填上这个机器的ip。

port：就是namenode的port，这里写9000

这两个参数就是 core-site.xml里fs.default.name里面的ip和port（use M\R master host，这个复选框如果选上，就默认和map\reduce master 这个框里的 host一样，如果不选择，就可以自己定义输入，这里jobtracker 和namenode在一个机器上，所以是一样的，就勾选上）

username：这个是连接hadoop的用户名，因为笔者是在linux中用root用户安装的hadoop，而且没建立其他的用户，所以就用root。

下面的不用填写。

然后点击 finish按钮，此时，这个视图中就有多了一条记录，

第三步，重启eclipse，然后重启完毕之后，重新编辑刚才建立的那个连接记录，如图，第二步里面我们是填写的General，tab页，现在我们编辑advance parameters tab页。

读者可能问，为什么不在第二步里直接把这个tab页也编辑了，这是因为，新建连接的时候，这个advance paramters tab页面的一些属性显示不出来，显示不出来也就没法设置，（这个有点不好哇~~，应该显示出来，免得又重启一次，小小鄙视一下~ 哇咔咔~），必须重启一下eclipse 再进来编辑才能看到。

这里大部门属性都已经自动填写上了，读者可以看到，这里其实就是把core-defaulte.xml,hdfs-defaulte.xml,mapred-defaulte.xml里面的一些配置属性展示在这，因为我们安装hadoop的时候，还在site系列配置文件里有改动，所以这里也要弄成一样的设置。主要关注的有以下属性

fs.defualt.name:这个在General tab页已经设置了。

mapred.job.tracker:这个在General tab页也设置了。

dfs.replication:这个这里默认是3，因为我们再hdfs-site.xml里面设置成了1，所以这里也要设置成1

hadoop.tmp.dir:这个默认是/tmp/hadoop-{user.name},因为我们在ore-defaulte.xml 里hadoop.tmp.dir设置的是/usr/local/hadoop/hadooptmp，所以这里我们也改成/usr/local/hadoop/hadooptmp,其他基于这个目录属性也会自动改

hadoop.job.ugi:刚才说看不见的那个，就是这个属性，这里要填写：root,Tardis，逗号前面的是连接的hadoop的用户，逗号后面就写死Tardis。

然后点击finish,然后就连接上了，连接上的标志如图：

DFS Locations下面会有一只大象，下面会有一个文件夹(2) 这个就是 hdfs的根目录，这里就是展示的分布式文件系统的目录结构。

三、写一个wordcount的程序，在eclipse里执行

在这个eclipse里建一个map\reduce 工程，如图

叫exam，然后在这个工程下面建个java类如下

第一个,MyMap.java

      Java代码   
      
    
 package org;  
   
 import java.io.IOException;  
 import java.util.StringTokenizer;  
   
 import org.apache.hadoop.io.IntWritable;  
 import org.apache.hadoop.io.Text;  
 import org.apache.hadoop.mapreduce.Mapper;  
   
 public class MyMap extends Mapper<Object, Text, Text, IntWritable> {  
     private final static IntWritable one = new IntWritable(1);  
   
     private Text word;  
   
     public void map(Object key, Text value, Context context)  
             throws IOException, InterruptedException {  
   
         String line = value.toString();  
         StringTokenizer tokenizer = new StringTokenizer(line);  
         while (tokenizer.hasMoreTokens()) {  
             word = new Text();  
             word.set(tokenizer.nextToken());  
             context.write(word, one);  
         }  
     }  
 }  

第二个，MyReduce.java

      Java代码   
      
    
 package org;  
   
 import java.io.IOException;  
   
 import org.apache.hadoop.io.IntWritable;  
 import org.apache.hadoop.io.Text;  
 import org.apache.hadoop.mapreduce.Reducer;  
   
 public class MyReduce extends  
         Reducer<Text, IntWritable, Text, IntWritable> {  
     public void reduce(Text key, Iterable<IntWritable> values, Context context)  
             throws IOException, InterruptedException {  
         int sum = 0;  
         for (IntWritable val : values) {  
             sum += val.get();  
         }  
         context.write(key, new IntWritable(sum));  
     }  
 }  

第三个，MyDriver.java

      Java代码   
      
    
 package org;  
   
 import org.apache.hadoop.conf.Configuration;  
 import org.apache.hadoop.fs.Path;  
 import org.apache.hadoop.io.IntWritable;  
 import org.apache.hadoop.io.Text;  
 import org.apache.hadoop.mapreduce.Job;  
 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;  
 import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;  
 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;  
 import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;  
   
 public class MyDriver {  
   
       
     public static void main(String[] args) throws Exception,InterruptedException {  
         Configuration conf=new Configuration();  
           
        Job job=new Job(conf,"Hello Hadoop");  
          
        job.setJarByClass(MyDriver.class);           
         
        job.setMapOutputKeyClass(Text.class);      
        job.setMapOutputValueClass(IntWritable.class);  
          
        job.setOutputKeyClass(Text.class);  
        job.setOutputValueClass(IntWritable.class);  
          
        job.setMapperClass(MyMap.class);  
         job.setCombinerClass(MyReduce.class);  
         job.setReducerClass(MyReduce.class);  
           
         job.setInputFormatClass(TextInputFormat.class);            
         job.setOutputFormatClass(TextOutputFormat.class);          
           
         FileInputFormat.setInputPaths(job, new Path(args[0]));  
           
         FileOutputFormat.setOutputPath(job, new Path(args[1]));  
       // JobClient.runJob(conf);  
        job.waitForCompletion(true);  
        }  
   
 }  

这三个类都是基于最新的 hadoop0.20.0的，

注意了，这一步非常关键，笔者折腾了半天才想明白，是在windows下的一些设置，进入C:\Windows\System32\drivers\etc 目录，打开 hosts文件加入：192.168.133.128 hadoopName

ip是我linux的机器ip，hadoopName是linux的机器名，这个一定要加，不然，会出错，这里其实就是把master的ip和机器名加上了

然后设置MyDriver类的执行参数，也就是输入，输出参数，和在linux下的一样，要指定输入的文件夹，和输出的文件夹

如图：

input 就是文件存放路径，outchen就是mapReduce 之后处理的数据输出文件夹

然后run on hadoop 如图

控制台打印如下信息：

      Java代码   
      
    
 11/05/14 19:08:07 WARN conf.Configuration: DEPRECATED: hadoop-site.xml found in the classpath. Usage of hadoop-site.xml is deprecated. Instead use core-site.xml, mapred-site.xml and hdfs-site.xml to override properties of core-default.xml, mapred-default.xml and hdfs-default.xml respectively  
 11/05/14 19:08:08 WARN mapred.JobClient: Use GenericOptionsParser for parsing the arguments. Applications should implement Tool for the same.  
 11/05/14 19:08:08 INFO input.FileInputFormat: Total input paths to process : 4  
 11/05/14 19:08:09 INFO mapred.JobClient: Running job: job_201105140203_0002  
 11/05/14 19:08:10 INFO mapred.JobClient:  map 0% reduce 0%  
 11/05/14 19:08:35 INFO mapred.JobClient:  map 50% reduce 0%  
 11/05/14 19:08:41 INFO mapred.JobClient:  map 100% reduce 0%  
 11/05/14 19:08:53 INFO mapred.JobClient:  map 100% reduce 100%  
 11/05/14 19:08:55 INFO mapred.JobClient: Job complete: job_201105140203_0002  
 11/05/14 19:08:55 INFO mapred.JobClient: Counters: 17  
 11/05/14 19:08:55 INFO mapred.JobClient:   Job Counters   
 11/05/14 19:08:55 INFO mapred.JobClient:     Launched reduce tasks=1  
 11/05/14 19:08:55 INFO mapred.JobClient:     Launched map tasks=4  
 11/05/14 19:08:55 INFO mapred.JobClient:     Data-local map tasks=4  
 11/05/14 19:08:55 INFO mapred.JobClient:   FileSystemCounters  
 11/05/14 19:08:55 INFO mapred.JobClient:     FILE_BYTES_READ=2557  
 11/05/14 19:08:55 INFO mapred.JobClient:     HDFS_BYTES_READ=3361  
 11/05/14 19:08:55 INFO mapred.JobClient:     FILE_BYTES_WRITTEN=5260  
 11/05/14 19:08:55 INFO mapred.JobClient:     HDFS_BYTES_WRITTEN=1688  
 11/05/14 19:08:55 INFO mapred.JobClient:   Map-Reduce Framework  
 11/05/14 19:08:55 INFO mapred.JobClient:     Reduce input groups=192  
 11/05/14 19:08:55 INFO mapred.JobClient:     Combine output records=202  
 11/05/14 19:08:55 INFO mapred.JobClient:     Map input records=43  
 11/05/14 19:08:55 INFO mapred.JobClient:     Reduce shuffle bytes=2575  
 11/05/14 19:08:55 INFO mapred.JobClient:     Reduce output records=192  
 11/05/14 19:08:55 INFO mapred.JobClient:     Spilled Records=404  
 11/05/14 19:08:55 INFO mapred.JobClient:     Map output bytes=5070  
 11/05/14 19:08:55 INFO mapred.JobClient:     Combine input records=488  
 11/05/14 19:08:55 INFO mapred.JobClient:     Map output records=488  
 11/05/14 19:08:55 INFO mapred.JobClient:     Reduce input records=202  

说明执行成功，

去看一下，会多一个outchen目录，里面放着执行的结果，和在普通的linux上执行的一样。

四、聊聊注意事项

1、在安装hadoop的时候 core-site.xml 和 mapred.site.xml里面的 fs.defulate.name，和 mapred.job.tracker那个一定要写ip地址，不要写localhost，虽然是单机，也不能写localhost，要写本机的ip，不然eclipse连接不到。

2、masters 和 slaves文件里也要写ip，不要写localhost

五、一些错误分析

1、出现如图所示

或者执行代码的时候，控制台如下信息

       Java代码   
       
     
 11/05/08 21:41:37 WARN conf.Configuration: DEPRECATED: hadoop-site.xml found in the classpath. Usage of hadoop-site.xml is deprecated. Instead use core-site.xml, mapred-site.xml and hdfs-site.xml to override properties of core-default.xml, mapred-default.xml and hdfs-default.xml respectively  
 job new ֮ǰ-----------------------------------  
 11/05/08 21:41:40 INFO ipc.Client: Retrying connect to server: /192.168.133.128:9001. Already tried 0 time(s).  
 11/05/08 21:41:42 INFO ipc.Client: Retrying connect to server: /192.168.133.128:9001. Already tried 1 time(s).  
 11/05/08 21:41:44 INFO ipc.Client: Retrying connect to server: /192.168.133.128:9001. Already tried 2 time(s).  
 11/05/08 21:41:46 INFO ipc.Client: Retrying connect to server: /192.168.133.128:9001. Already tried 3 time(s).  
 11/05/08 21:41:48 INFO ipc.Client: Retrying connect to server: /192.168.133.128:9001. Already tried 4 time(s).  
 11/05/08 21:41:50 INFO ipc.Client: Retrying connect to server: /192.168.133.128:9001. Already tried 5 time(s).  
 11/05/08 21:41:52 INFO ipc.Client: Retrying connect to server: /192.168.133.128:9001. Already tried 6 time(s).  
 11/05/08 21:41:54 INFO ipc.Client: Retrying connect to server: /192.168.133.128:9001. Already tried 7 time(s).  
 11/05/08 21:41:56 INFO ipc.Client: Retrying connect to server: /192.168.133.128:9001. Already tried 8 time(s).  
 11/05/08 21:41:58 INFO ipc.Client: Retrying connect to server: /192.168.133.128:9001. Already tried 9 time(s).  
 Exception in thread "main" java.net.ConnectException: Call to /192.168.133.128:9001 failed on connection exception: java.net.ConnectException: Connection refused: no further information  
     at org.apache.hadoop.ipc.Client.wrapException(Client.java:767)  
     at org.apache.hadoop.ipc.Client.call(Client.java:743)  
     at org.apache.hadoop.ipc.RPC$Invoker.invoke(RPC.java:220)  
     at org.apache.hadoop.mapred.$Proxy0.getProtocolVersion(Unknown Source)  
     at org.apache.hadoop.ipc.RPC.getProxy(RPC.java:359)  
     at org.apache.hadoop.mapred.JobClient.createRPCProxy(JobClient.java:429)  
     at org.apache.hadoop.mapred.JobClient.init(JobClient.java:423)  
     at org.apache.hadoop.mapred.JobClient.<init>(JobClient.java:410)  
     at org.apache.hadoop.mapreduce.Job.<init>(Job.java:50)  
     at org.apache.hadoop.mapreduce.Job.<init>(Job.java:54)  
     at org.apache.hadoop.examples.WordCount.main(WordCount.java:59)  
 Caused by: java.net.ConnectException: Connection refused: no further information  
     at sun.nio.ch.SocketChannelImpl.checkConnect(Native Method)  
     at sun.nio.ch.SocketChannelImpl.finishConnect(SocketChannelImpl.java:567)  
     at org.apache.hadoop.net.SocketIOWithTimeout.connect(SocketIOWithTimeout.java:206)  
     at org.apache.hadoop.net.NetUtils.connect(NetUtils.java:404)  
     at org.apache.hadoop.ipc.Client$Connection.setupIOstreams(Client.java:304)  
     at org.apache.hadoop.ipc.Client$Connection.access$1700(Client.java:176)  
     at org.apache.hadoop.ipc.Client.getConnection(Client.java:860)  
     at org.apache.hadoop.ipc.Client.call(Client.java:720)  
     ... 9 more  

出现以上错误的时候，原因可能有：a、hadoop没起来没有启动导致的，b、就是连接不对，看看core-site.xml 和mapred-site.xml里面的 ip 是否写成 localhost了，写成localhost是连接不到的，必须写成ip。

读者也可以看到如果连接成功那个文件夹的（2）而不是文件夹（1）

2、如果出现一下错误

       Java代码   
       
     
 11/05/14 20:08:26 WARN conf.Configuration: DEPRECATED: hadoop-site.xml found in the classpath. Usage of hadoop-site.xml is deprecated. Instead use core-site.xml, mapred-site.xml and hdfs-site.xml to override properties of core-default.xml, mapred-default.xml and hdfs-default.xml respectively  
 11/05/14 20:08:46 WARN mapred.JobClient: Use GenericOptionsParser for parsing the arguments. Applications should implement Tool for the same.  
 Exception in thread "main" java.net.UnknownHostException: unknown host: hadoopName  
     at org.apache.hadoop.ipc.Client$Connection.<init>(Client.java:195)  
     at org.apache.hadoop.ipc.Client.getConnection(Client.java:850)  
     at org.apache.hadoop.ipc.Client.call(Client.java:720)  
     at org.apache.hadoop.ipc.RPC$Invoker.invoke(RPC.java:220)  
     at $Proxy1.getProtocolVersion(Unknown Source)  
     at org.apache.hadoop.ipc.RPC.getProxy(RPC.java:359)  
     at org.apache.hadoop.hdfs.DFSClient.createRPCNamenode(DFSClient.java:106)  
     at org.apache.hadoop.hdfs.DFSClient.<init>(DFSClient.java:207)  
     at org.apache.hadoop.hdfs.DFSClient.<init>(DFSClient.java:170)  
     at org.apache.hadoop.hdfs.DistributedFileSystem.initialize(DistributedFileSystem.java:82)  
     at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:1378)  
     at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:66)  
     at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:1390)  
     at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:196)  
     at org.apache.hadoop.fs.Path.getFileSystem(Path.java:175)  
     at org.apache.hadoop.mapred.JobClient.getFs(JobClient.java:463)  
     at org.apache.hadoop.mapred.JobClient.configureCommandLineOptions(JobClient.java:567)  
     at org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:761)  
     at org.apache.hadoop.mapreduce.Job.submit(Job.java:432)  
     at org.apache.hadoop.mapreduce.Job.waitForCompletion(Job.java:447)  
     at org.MyDriver.main(MyDriver.java:40)  

就说明刚才那个

C:\Windows\System32\drivers\etc 目录，打开 hosts文件加入：192.168.133.128 hadoopName，在hosts文件里写入这个就行了，要重启机器才行

好了，这两部门说完了，有些地方说的不明确，可以讨论，也是学习，分享一下经验~~~~(*^__^*) 嘻嘻…

你可能感兴趣的:(hadoop学习笔记hadoop学习笔记)

C# Hadoop学习笔记第八个猴子大数据
记录一下学习地址http://www.360doc.com/content/14/0607/22/3218170_384675141.shtml转载于:https://www.cnblogs.com/TF12138/p/4170558.html
hadoop学习笔记草琳情 hadoop 学习笔记
下载安装伪分布式：1.国内源下载地址：https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/Indexof/apache/hadoop/commonhttps://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/https://mirrors.tuna.tsinghua.edu.cn/
第一章大数据Hadoop学习笔记(一） Thanks. hadoop 学习大数据
一、存储单位按顺序给出数据存储单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。一般TB、PB、EB为单位的数据为大数据。1Byte=8bit1K=1024Byte1MB=1024K1G=1024M1T=1024G1P=1024T二、大数据主要解决海量数据的采集、存储和分析计算问题。三、大数据特点(4V)Volume(大量)、Velocity(高速)、Var
【大数据进阶第三阶段之Hive学习笔记】Hive安装伊达 Hive 大数据大数据 hive 学习
1、环境准备安装hadoop以及zookeeper、mysql【大数据进阶第二阶段之Hadoop学习笔记】Hadoop运行环境搭建-CSDN博客《zookeeper的安装与配置》自行百度《Linux环境配置MySQL》自行百度2、下载安装CSDN下载：https://download.csdn.net/download/liguohuaty/88702104Hive官网下载：Downloads(a
大数据高级开发工程师——Hadoop学习笔记（4）讲文明的喜羊羊拒绝pua 大数据 hadoop mapreduce
文章目录Hadoop进阶篇MapReduce：Hadoop分布式并行计算框架MapReduce的理解MapReduce的核心思想MapReduce编程模型MapReduce编程指导思想【八大步骤】Map阶段2个步骤shuffle阶段4个步骤reduce阶段2个步骤MapReduce编程入门——单词统计hadoop当中常用的数据类型词频统计MapReduce的运行模式1.本地模式2.集群运行模式Ma
【大数据进阶第二阶段之Hadoop学习笔记】Hadoop 概述伊达 Hadoop 大数据大数据学习 hadoop
【大数据进阶第二阶段之Hadoop学习笔记】Hadoop概述-CSDN博客【大数据进阶第二阶段之Hadoop学习笔记】Hadoop运行环境搭建-CSDN博客【大数据进阶第二阶段之Hadoop学习笔记】Hadoop运行模式-CSDN博客1、Hadoop是什么（1）Hadoop是一个由Apache基金会所开发的分布式系统基础架构（2）主要解决海量数据的存储和海量数据的分析计算问题（3）广义上来说，Ha
【大数据进阶第二阶段之Hadoop学习笔记】Hadoop 运行环境搭建伊达大数据 Hadoop 大数据 hadoop 学习
【大数据进阶第二阶段之Hadoop学习笔记】Hadoop概述-CSDN博客【大数据进阶第二阶段之Hadoop学习笔记】Hadoop运行环境搭建-CSDN博客【大数据进阶第二阶段之Hadoop学习笔记】Hadoop运行模式-CSDN博客1、模板虚拟机环境准备1.1、hadoop100虚拟机配置要求如下（1）使用yum安装需要虚拟机可以正常上网，yum安装前可以先测试下虚拟机联网情况[root@had
【大数据进阶第二阶段之Hadoop学习笔记】Hadoop 运行模式伊达大数据 hadoop 学习
【大数据进阶第二阶段之Hadoop学习笔记】Hadoop概述-CSDN博客【大数据进阶第二阶段之Hadoop学习笔记】Hadoop运行环境搭建-CSDN博客【大数据进阶第二阶段之Hadoop学习笔记】Hadoop运行模式-CSDN博客目录1、Hadoop运行模式2、编写集群分发脚本xsync2.1、scp(securecopy)：安全拷贝2.2、rsync远程同步工具2.3、xsync集群分发脚本
Hadoop学习笔记[6]-MapReduce与Yarn安装部署流程 kinglinch 大数据 mapreduce yarn hadoop 大数据
Hadoop学习笔记[6]-MapReduce与Yarn安装部署流程前面的文章已经对MR和Yarn做了基本介绍，本文主要介绍MR和Yarn的安装部署流程1、角色划分 NodeManager和DataNode一般都是1:1，主要是为了计算向数据移动，如果NM和DN分开，就得用网路拷贝数据，在Yarn的体系里NM也是从节点，既然其和DN是1:1的关系，所以配置中和HDFS共用一个slaves文件
【Hadoop学习笔记】（二）——Hive的原理及使用 wanger61 大数据开发 hadoop hive 大数据
一、Hive概述Hive是一个在Hadoop中用来处理结构化数据的数据仓库基础工具。它架构在Hadoop之上，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive数据仓库工具能为HDFS上的数据提供类似SQL的查询语言（HiveQL），并将SQL语句转变成MapReduce任务来执行。Hive明显降低了Hadoop的使用门槛，任何熟悉SQL的用
四、Hadoop学习笔记————各种工具用法 weixin_30528371 大数据数据库
hive基本hql语法Sqoop(发音：skup)是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递，可以将一个关系型数据库（例如：MySQL,Oracle,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。数据传递转载于:https://www.cnblogs.com/
Hadoop学习笔记（17）Hive的数据类型和文件编码柏冉看世界 hadoop
一、Hive的常用内部命令1、有好几种方式可以与Hive进行交互。此处主要是命令行界面（CLI）。2、$HIVE_HOME/bin目录下包含了可以执行各种各样Hive服务的可执行文件，包括hive命令行界面（CLI是使用Hive的最常用方式）。[admin@master~]$cdapache-hive-1.2.2-bin/bin[admin@masterbin]$lsbeelineexthiveh
大数据高级开发工程师——Hadoop学习笔记（7）讲文明的喜羊羊拒绝pua 大数据 hadoop big data mapreduce yarn
文章目录Hadoop进阶篇YARN：Hadoop资源调度系统什么是YARNYARN架构剖析1.ResourceManager2.NodeManager3.Container4.ApplicationMaster5.JobHistoryServer6.TimelineServerYARN应用运行原理1.YARN应用提交过程2.MapReduceonYARN提交作业初始化作业Task任务分配Task任
Hadoop学习笔记（一）分布式文件存储系统 —— HDFS zhang35 大数据技术栈大数据分布式 Hadoop 入门 hdfs
概念HDFS（HadoopDistributedFileSystem），Hadoop分布式文件系统，用来存超大文件的。HDFS遵循主/从架构，由单个NameNode(NN)和多个DataNode(DN)组成：NameNode:负责执行有关文件系统命名空间的操作，例如打开，关闭、重命名文件和目录等。它同时还负责集群元数据的存储，记录着文件中各个数据块的位置信息。管理员，负责协调。DataNode：负
大数据高级开发工程师——Hadoop学习笔记（1）讲文明的喜羊羊拒绝pua 大数据大数据 hadoop hdfs 集群 zookeeper
文章目录Hadoop基础篇Hadoop集群安装环境准备服务器准备设置时钟同步三台虚拟机添加普通用户三台虚拟机定义统一目录三台虚拟机hadoop用户设置免密登录三台虚拟机安装jdkhadoop集群安装环境部署规划安装包下载查看hadoop支持的压缩方式以及本地库修改配置文件修改hadoop-env.sh修改core-site.xml修改hdfs-site.xml修改mapred-site.xml修改
Hadoop学习笔记(3)——MapReduce入门今天有没有写代码大数据 hadoop java
一、MapReduce介绍MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心是“分而治之”，适用于大量复杂的任务处理场景（大规模数据处理场景）。”map"负责分，即把复杂的任务分解为若干简单的任务来处理。前提是这些小任务可以并行计算，彼此间几乎没有依赖关系“Redude”负责合，即对map阶段的结果进行全局汇总1.MapReduce设计构思MapRed
hadoop学习笔记(五)Hive安装部署 So.j hadoop学习笔记大数据 hive hadoop
Hive安装部署Hive安装及配置配置已经完成,在此处启动hadoop集群Hive常用命令将本地文件导入Hive案例安装MySqlHive元数据配置到MySqlHive安装及配置下载地址:https://pan.baidu.com/s/1_7g8Bw85Nw03t40H67sLfQ提取码:gj4n把apache-hive-1.2.1-bin.tar.gz上传到linux的/opt/software
Hadoop学习笔记（7）Hadoop解压安装以及配置柏冉看世界 hadoop
一、安装Hadoop之前说明安装Hadoop需要在官网把Hadoop文件下载好，并且上传到Linux中。上传步骤请参考：Hadoop学习笔记（6）如何使用Xshell从Windows向Linux上传文件二、解压安装Hadoop输入命令查看文件存放[admin@master~]$lshadoop-2.5.2.tar.gztestusr公共模板视频图片文档下载音乐桌面开始解压安装[admin@mast
hadoop学习笔记--1３.hive 属性配置、交互式命令行和文件系统交互 liuzebin9 Hadoop hadoop hive
一、hive配置文件常见属性1.在cli命令行上显示当前的数据库名以及查询的行头信息在hive-site.xml中添加以下配置hive.cli.print.headertrueWhethertoprintthenamesofthecolumnsinqueryoutput.hive.cli.print.current.dbtrueWhethertoincludethecurrentdatabasei
hadoop学习笔记——NO.4_HADOOP集群搭建与使用初步蔡茂昌 hadoop学习笔记
HADOOP集群搭建与使用初步HADOOP集群搭建集群简介HADOOP集群具体来说包含两个集群：HDFS集群和YARN集群，两者逻辑上分离，但物理上常在一起HDFS集群：负责海量数据的存储，集群中的角色主要有NameNode/DataNodeYARN集群：负责海量数据运算时的资源调度，集群中的角色主要有ResourceManager/NodeManager本集群搭建案例，以5节点为例进行搭建，角色
Hadoop学习笔记---大数据概论入门沉迷技术不能自拔大数据 hadoop 学习
第一章：大数据概念大数据是指无法在一定时间范围内，用常用的工具软件进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。大数据主要解决海量数据的采集、存储和分析计算问题。按顺序给出存储单位：bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。1Byte=8bit1KB=1024MB1MB=102
Hadoop入门+组成学习笔记 Fan_Coder Hadoop hadoop 大数据 mapreduce
Hadoop学习笔记Hadoop的优势（4高）1.高可靠性—Hadoop底层有多个数副本，保存再不同的服务器里，即使一台计算机出现故障，也不会丢失数据2.高扩展性—可以添加多个节点3.高效性—再MapReduce的思想下，Hadoop是并行工作的4.高容错性—能够自动将失败的任务重新分配Hadoop1.x和2.x组成Hadoop1.x和2.x的区别？Hadoop1.x里MapReduce负责逻辑运
Hadoop学习笔记：运行wordcount对文件字符串进行统计案例朱季谦大数据 hadoop 学习笔记
文/朱季谦我最近使用四台Centos虚拟机搭建了一套分布式hadoop环境，简单模拟了线上上的hadoop真实分布式集群，主要用于业余学习大数据相关体系。其中，一台服务器作为NameNode，一台作为SecondaryNameNode，剩下两台当做DataNodes节点服务器，类似下面这样一个架构——NameNodeSecondaryNameNodeDataNodesmaster1(192.168
Hadoop学习笔记怕被各位卷死大数据学习笔记 hadoop 学习大数据
HDFS、YARN、MapReduce概述及三者之间的关系一、Hadoop组成（面试重点）1.1Hadoop1.x、2.x、3.x区别在Hadoop1.x时代，Hadoop中的MapReduce同时处理业务逻辑运算和资源的调度，耦合性较大。在Hadoop2.x时代，增加了Yarn。Yarn只负责资源的调度，MapReduce只负责运算Hadoop3.x在组成上没有变化。1.2HDFS架构概述HDF
Hadoop学习笔记——入门基础枫落@ hadoop 学习笔记
Hadoop优势高可靠性：Hadoop底层维护多个数据副本，所以即使Hadoop某个计算元素或存储出现故障，也不会导致数据的丢失。高扩展性：在集群间分配任务数据，可方便的扩展数以千计的节点高效性：在MapReduced的思想下，Hadoop是并行工作的，以加快任务处理速度。高容错性：能够自动将失败的任务重新分配。Hadoop各版本区别在Hadoop1.x时代Hadoop中的MapReduce同时处
hadoop学习笔记1了解流程大概小美元 hadoop 学习大数据
海量数据的存储hdfs海量数据的计算：mapreducehdfs概述namenode：元数据，存储在哪个节点，存储什么信息datanode：存储数据2nn：备份namenode的信息yarn概述负责集群资源的管理ResourceManger：服务器运行的老大nodemanger：单个服务器运行的老大MapReduce架构概述mapreduce将计算分为两个阶段：map阶段把任务分下去reduce阶
hbase的学习逻辑_Hadoop学习笔记之十六——HBase框架学习（基础知识篇） weixin_39574140 hbase的学习逻辑
HBase是ApacheHadoop的数据库，能够对大型数据提供随机、实时的读写访问。HBase的目标是存储并处理大型的数据。HBase是一个开源的，分布式的，多版本的，面向列的存储模型，它存储的是松散型数据。一、HBase：BigTable的开源实现1.1HBase出现的背景(1)随着数据规模越来越大，大量业务场景开始考虑数据存储水平扩展，使得存储服务可以增加/删除，而目前的关系型数据库更专注于
Hadoop学习笔记泥地小白菜 hadoop
文章目录前言这是关于Hadoop的学习笔记，仅供个人使用-----2022.8.12当前企业数据分析方向：1.现状分析（分析当下的数据）：现阶段的整体情况，各个部分的构成占比，发展，变动2.原因分析（分析过去的数据）：某一现状为什么发生，确定原因，做出调整优化3.预测分析（结合数据预测未来）：结合已有数据预测未来发展趋势1.原因分析：离线分析（BatchProcessing）：面向过去，面向历史，
HBase/Hadoop学习笔记 (转) wbj0110 Hive MapReduce 测试 Hadoop Hbase Storm 性能 Hadoop Hbase MapReduce 性能测试
HBase/Hadoop学习笔记学习目标：至少掌握五点：1.深入理解HTable，掌握如何结合业务涉及高性能的HTable。2.掌握与HBase的交互，通过HBaseShell命令及JavaAPI进行数据的增删改查。3.掌握如何用MapReduce分析HBase里的数据4.掌握如何测试HBaseMapReduce。HBase简介：HBase在产品中还包含了Jetty，在HBase启动时采用嵌入式的
HBase/Hadoop学习笔记 codepython Hbase hadoop hadoop hbase mapreduce
学习目标：至少掌握五点：1.深入理解HTable，掌握如何结合业务涉及高性能的HTable。2.掌握与HBase的交互，通过HBaseShell命令及JavaAPI进行数据的增删改查。3.掌握如何用MapReduce分析HBase里的数据4.掌握如何测试HBaseMapReduce。HBase简介：HBase在产品中还包含了Jetty，在HBase启动时采用嵌入式的方式来启动Jetty，因此可以通
html 周华华 html
js 1，数组的排列 var arr=[1,4,234,43,52,]; for(var x=0;x<arr.length;x++){ for(var y=x-1;y<arr.length;y++){ if(arr[x]<arr[y]){ &
【Struts2 四】Struts2拦截器 bit1129 struts2拦截器
Struts2框架是基于拦截器实现的，可以对某个Action进行拦截，然后某些逻辑处理，拦截器相当于AOP里面的环绕通知，即在Action方法的执行之前和之后根据需要添加相应的逻辑。事实上，即使struts.xml没有任何关于拦截器的配置，Struts2也会为我们添加一组默认的拦截器，最常见的是，请求参数自动绑定到Action对应的字段上。 Struts2中自定义拦截器的步骤是：
make:cc 命令未找到解决方法 daizj linux 命令未知 make cc
安装rz sz程序时，报下面错误： [root@slave2 src]# make posix cc -O -DPOSIX -DMD=2 rz.c -o rz make: cc：命令未找到 make: *** [posix] 错误 127 系统：centos 6.6 环境：虚拟机错误原因：系统未安装gcc，这个是由于在安
Oracle之Job应用周凡杨 oracle job
最近写服务，服务上线后，需要写一个定时执行的SQL脚本，清理并更新数据库表里的数据，应用到了Oracle 的 Job的相关知识。在此总结一下。一：查看相关job信息 1、相关视图 dba_jobs all_jobs user_jobs dba_jobs_running 包含正在运行
多线程机制朱辉辉33 多线程
转至http://blog.csdn.net/lj70024/archive/2010/04/06/5455790.aspx 程序、进程和线程：程序是一段静态的代码，它是应用程序执行的蓝本。进程是程序的一次动态执行过程，它对应了从代码加载、执行至执行完毕的一个完整过程，这个过程也是进程本身从产生、发展至消亡的过程。线程是比进程更小的单位，一个进程执行过程中可以产生多个线程，每个线程有自身的
web报表工具FineReport使用中遇到的常见报错及解决办法（一）老A不折腾 web报表 finereport java报表报表工具
FineReport使用中遇到的常见报错及解决办法（一）这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、address pool is full：含义：地址池满，连接数超过并发数上
mysql rpm安装后没有my.cnf 林鹤霄没有my.cnf
Linux下用rpm包安装的MySQL是不会安装/etc/my.cnf文件的，至于为什么没有这个文件而MySQL却也能正常启动和作用，在这儿有两个说法，第一种说法，my.cnf只是MySQL启动时的一个参数文件，可以没有它，这时MySQL会用内置的默认参数启动，第二种说法，MySQL在启动时自动使用/usr/share/mysql目录下的my-medium.cnf文件，这种说法仅限于r
Kindle Fire HDX root并安装谷歌服务框架之后仍无法登陆谷歌账号的问题 aigo root
原文：http://kindlefireforkid.com/how-to-setup-a-google-account-on-amazon-fire-tablet/ Step 4: Run ADB command from your PC On the PC, you need install Amazon Fire ADB driver and instal
javascript 中var提升的典型实例 alxw4616 JavaScript
// 刚刚在书上看到的一个小问题,很有意思.大家一起思考下吧 myname = 'global'; var fn = function () { console.log(myname); // undefined var myname = 'local'; console.log(myname); // local }; fn() // 上述代码实际上等同于以下代码 m
定时器和获取时间的使用百合不是茶时间的转换定时器
定时器:定时创建任务在游戏设计的时候用的比较多 Timer();定时器 TImerTask();Timer的子类由 Timer 安排为一次执行或重复执行的任务。定时器类Timer在java.util包中。使用时，先实例化，然后使用实例的schedule(TimerTask task, long delay)方法，设定
JDK1.5 Queue bijian1013 java thread java多线程 Queue
JDK1.5 Queue LinkedList： LinkedList不是同步的。如果多个线程同时访问列表，而其中至少一个线程从结构上修改了该列表，则它必须保持外部同步。（结构修改指添加或删除一个或多个元素的任何操作；仅设置元素的值不是结构修改。）这一般通过对自然封装该列表的对象进行同步操作来完成。如果不存在这样的对象，则应该使用 Collections.synchronizedList 方
http认证原理和https bijian1013 http https
一.基础介绍在URL前加https://前缀表明是用SSL加密的。你的电脑与服务器之间收发的信息传输将更加安全。 Web服务器启用SSL需要获得一个服务器证书并将该证书与要使用SSL的服务器绑定。 http和https使用的是完全不同的连接方式，用的端口也不一样,前者是80，后
【Java范型五】范型继承 bit1129 java
定义如下一个抽象的范型类，其中定义了两个范型参数，T1，T2 package com.tom.lang.generics; public abstract class SuperGenerics<T1, T2> { private T1 t1; private T2 t2; public abstract void doIt(T
【Nginx六】nginx.conf常用指令(Directive) bit1129 Directive
1. worker_processes 8; 表示Nginx将启动8个工作者进程，通过ps -ef|grep nginx,会发现有8个Nginx Worker Process在运行 nobody 53879 118449 0 Apr22 ? 00:26:15 nginx: worker process
lua 遍历Header头部 ronin47 lua header 遍历　
local headers = ngx.req.get_headers() ngx.say("headers begin", "<br/>") ngx.say("Host : ", he
java-32.通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小(两数组的差最小)。 bylijinnan java
import java.util.Arrays; public class MinSumASumB { /** * Q32.有两个序列a,b，大小都为n,序列元素的值任意整数，无序. * * 要求：通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小。 * 例如: * int[] a = {100,99,98,1,2,3
redis 开窍的石头 redis
在redis的redis.conf配置文件中找到# requirepass foobared 把它替换成requirepass 12356789 后边的12356789就是你的密码打开redis客户端输入config get requirepass 返回 redis 127.0.0.1:6379> config get requirepass 1) "require
[JAVA图像与图形]现有的GPU架构支持JAVA语言吗？ comsci java语言
无论是opengl还是cuda，都是建立在C语言体系架构基础上的，在未来，图像图形处理业务快速发展，相关领域市场不断扩大的情况下，我们JAVA语言系统怎么从这么庞大，且还在不断扩大的市场上分到一块蛋糕，是值得每个JAVAER认真思考和行动的事情
安装ubuntu14.04登录后花屏了怎么办 cuiyadll ubuntu
这个情况，一般属于显卡驱动问题。可以先尝试安装显卡的官方闭源驱动。按键盘三个键：CTRL + ALT + F1 进入终端，输入用户名和密码登录终端：安装amd的显卡驱动 sudo apt-get install fglrx 安装nvidia显卡驱动 sudo ap
SSL 与数字证书的基本概念和工作原理 darrenzhu 加密 ssl 证书密钥签名
SSL 与数字证书的基本概念和工作原理 http://www.linuxde.net/2012/03/8301.html SSL握手协议的目的是或最终结果是让客户端和服务器拥有一个共同的密钥，握手协议本身是基于非对称加密机制的，之后就使用共同的密钥基于对称加密机制进行信息交换。 http://www.ibm.com/developerworks/cn/webspher
Ubuntu设置ip的步骤 dcj3sjt126com ubuntu
在单位的一台机器完全装了Ubuntu Server，但回家只能在XP上VM一个，装的时候网卡是DHCP的，用ifconfig查了一下ip是192.168.92.128,可以ping通。转载不是错： Ubuntu命令行修改网络配置方法 /etc/network/interfaces打开后里面可设置DHCP或手动设置静态ip。前面auto eth0，让网卡开机自动挂载. 1. 以D
php包管理工具推荐 dcj3sjt126com PHP Composer
http://www.phpcomposer.com/ Composer是 PHP 用来管理依赖（dependency）关系的工具。你可以在自己的项目中声明所依赖的外部工具库（libraries），Composer 会帮你安装这些依赖的库文件。中文文档入门指南下载安装包列表 Composer 中国镜像
Gson使用四（TypeAdapter） eksliang json gson Gson自定义转换器 gsonTypeAdapter
转载请出自出处：http://eksliang.iteye.com/blog/2175595 一.概述 Gson的TypeAapter可以理解成自定义序列化和返序列化二、应用场景举例例如我们通常去注册时（那些外国网站），会让我们输入firstName，lastName,但是转到我们都
JQM控件之Navbar和Tabs gundumw100 html xml css
在JQM中使用导航栏Navbar是简单的。只需要将data-role="navbar"赋给div即可： <div data-role="navbar"> <ul> <li><a href="#" class="ui-btn-active&qu
利用归并排序算法对大文件进行排序 iwindyforest java 归并排序大文件分治法 Merge sort
归并排序算法介绍，请参照Wikipeida zh.wikipedia.org/wiki/%E5%BD%92%E5%B9%B6%E6%8E%92%E5%BA%8F 基本思想：大文件分割成行数相等的两个子文件，递归（归并排序）两个子文件，直到递归到分割成的子文件低于限制行数低于限制行数的子文件直接排序两个排序好的子文件归并到父文件直到最后所有排序好的父文件归并到输入
iOS UIWebView URL拦截啸笑天 UIWebView
本文译者：candeladiao，原文：URL filtering for UIWebView on the iPhone说明：译者在做app开发时，因为页面的javascript文件比较大导致加载速度很慢，所以想把javascript文件打包在app里，当UIWebView需要加载该脚本时就从app本地读取，但UIWebView并不支持加载本地资源。最后从下文中找到了解决方法，第一次翻译，难免有
索引的碎片整理SQL语句 macroli sql
SET NOCOUNT ON DECLARE @tablename VARCHAR (128) DECLARE @execstr VARCHAR (255) DECLARE @objectid INT DECLARE @indexid INT DECLARE @frag DECIMAL DECLARE @maxfrag DECIMAL --设置最大允许的碎片数量,超过则对索引进行碎片
Angularjs同步操作http请求with $promise qiaolevip 每天进步一点点学习永无止境 AngularJS 纵观千象
// Define a factory app.factory('profilePromise', ['$q', 'AccountService', function($q, AccountService) { var deferred = $q.defer(); AccountService.getProfile().then(function(res) {
hibernate联合查询问题 sxj19881213 sql Hibernate HQL 联合查询
最近在用hibernate做项目，遇到了联合查询的问题，以及联合查询中的N+1问题。针对无外键关联的联合查询，我做了HQL和SQL的实验，希望能帮助到大家。（我使用的版本是hibernate3.3.2） 1 几个常识：（1）hql中的几种join查询，只有在外键关联、并且作了相应配置时才能使用。（2）hql的默认查询策略，在进行联合查询时，会产
struts2.xml wuai struts
<?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache