MapReduce and MachineLearning——笔记一(安装虚拟机和配置JAVA环境)

  这几天看了一篇斯坦福Cheng-Tao Chu等人写的论文《Map-Reduce for Machine Learning on Multicore》,其中讲到如何把机器学习算法和MapReduce结合应用,利用最近炙手可热的云计算技术和传统的机器学习算法相结合,在拥有海量数据的数据中心上肯定能发挥很大的作用。因此,我决定使用hadoop搭一个测试环境来尝试一下论文中的方法。

  首先介绍一下环境,我使用本人的笔记本电脑当服务器,配置是双核P8400,2G内存,操作系统是windows XP。在主机上使用vmware7.1.4虚拟了3个fedora12系统,每个都分配512的内存和10G的硬盘空间(因为不使用X登录,所以暂时先分配这么多)。

1.安装第一台虚拟机

  安装虚拟机的方式采用首先安装一台fedora 12主机,不使用WMWARE的easyinstall方式,选择install os later,然后重启fedora12开始从光盘引导安装(主要是easyinstall安装时不能选择配置),网络选用bridge模式(我笔记本是无线网卡,因此将vmnet0的网卡映射到了我主机的无线网卡上)。安装完成后,先安装vmtools(安装tools之前需要从镜像里面找一个kernel-devel.rpm装了),然后安装JAVA环境(之前先将当前用户加入sudo组):

  sudo ./jdk1.x_xxx.bin
  sudo cp -r jdk1.x_xxx /usr/lib/
  sudo rm /etc/alternatives/java
  sudo ln -s /usr/lib/jdk1.x_xxx/bin/java /etc/alternatives/java

  (输入 java -version查看版本)

  增加hadoop用户:

  sudo useradd hadoop

  sudo passwd hadoop

  (输入密码)

  配置java环境变量:

  su hadoop
  cd ~
  vi .bash_profile

  增加下列行:

  export JAVA_HOME=/usr/lib/jdk1.6.0_27/
  export PATH=$JAVA_HOME/bin:$PATH
  export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

  (此时可以注销后重新登录hadoop用户测试java和javac命令)

  因为后面会用到ssh,因此在这里可以先修改一下SSH的配置以便clone镜像:

  su root

  vi /etc/ssh/sshd_config

      将#RSAAuthentication yes #PubkeyAuthentication yes #AuthorizedKeysFile ...前面的#去掉,然后输入命令:

  /etc/rc.d/init.d/sshd restart   (重启ssh服务)

  因为一共就2G内存,分给三个节点每个512M,起X的话直接卡巴斯基了,因此将/etc/inittab中的启动级别都改成3(命令行多用户)。

2.克隆剩下两个节点

  这步只需要先把虚拟机关了,然后使用vmware的克隆功能就可以。

3.配置网络环境

  一共三台fedora主机,其中一台作为master,将IP设为192.168.1.90,另外两台作为salve1和salve2,IP最后一位分别91和92。配完后记得ping一下相互之间能不能连通。

你可能感兴趣的:(mapreduce)