Hadoop基础学习

一、hadoop集群环境建立,一个namenode 二个datanode:

1.虚拟机安装Ubuntu Linux时,建立pmpa用户,如何修改root密码:
以pmpa用户登录,输入命令 sudo passwd root就可以设定root的密码了。
其实sudo是让普通用户以管理员身份来执行命令,passwd root是设定root用户密码的意思。

2. 可以使用SSH远程连接Ubuntu Linux:
安装 SSH(Secure Shell) 服务以提供远程管理服务,
sudo apt-get install openssh-server就可以,Ubuntu默认是安装了openssh-clinet的了,如果安装server时报错,需要先安装对应版本的clinet才能继续安装Server(安装哪个版本的clinet需要根据日志决定)。

3. 设置Ubuntu可以使用root用户使用SSH连接Linux,主要为了FTP上传文件。
  (1)将 /etc/ssh/sshd_confg中PermitRootLogin  no 改为yes;注释注释掉 #PermitRootLogin without-password,添加 PermitRootLogin yes。
  (2)重启SSH服务   sudo service ssh restart。

4. 免密码登陆设置
在hadoop的不同结点间用ssh命令连接时,不需要输入密码直接登陆。退出ssh命令用Ctrl+D。

(1)在hadoop多个不同结点上都生成公钥:
pmpa@ubuntu:~$ ssh-keygen -t rsa
Generating public/private rsa key pair.
Enter file in which to save the key (/home/pmpa/.ssh/id_rsa):
Enter passphrase (empty for no passphrase):
Enter same passphrase again:
Your identification has been saved in /home/pmpa/.ssh/id_rsa.
Your public key has been saved in /home/pmpa/.ssh/id_rsa.pub.
The key fingerprint is:
4f:e9:df:56:9e:56:83:24:84:1b:a2:f8:38:da:52:b8 pmpa@ubuntu
The key's randomart image is:
+--[ RSA 2048]----+
|          .      |
|       . o .     |
|    . . . +      |
|   . .   . o .   |
|  . o   S o o .  |
| . + .   +   . .o|
|  = .     o    o+|
| E .       . ..o.|
|  .         ..o  |
+-----------------+

(2)在生成的.ssh目录中,新建一个文件authorized_keys,在这个文件中。将不同服务器上的公钥文件(id_rsa.pub)中的内容都放在这个文件里,就可以访问了。注意:对于服务器自己,也要将自己的id_rsa.pub的内容放到自己的authorized_keys里。也就是可以无密码访问自己。
例如将namenode(192.168.58.139)的id_rsa.pub文件 拷贝到datanode(192.168.58.141)上:
pmpa@ubuntu:~/.ssh$ scp ./id_rsa.pub [email protected]:/home/pmpa/.ssh/authorized_keys
[email protected]'s password:
id_rsa.pub                                                                                        100%  393     0.4KB/s   00:00

pmpa@ubuntu:~/.ssh$ ssh 192.168.58.141
Welcome to Ubuntu 14.04.1 LTS (GNU/Linux 3.13.0-32-generic x86_64)

* Documentation:  https://help.ubuntu.com/
Last login: Tue Mar 31 07:28:15 2015 from 192.168.58.1

这样在从139服务器ssh到141服务器时就不需要再输入密码了。也就是说A服务器的公钥如果存在于B服务器的authorized_keys文件中时,那么从A服务器ssh到B服务器时就不再需要输入密码了。


5.安装java并设置环境变量
安装java时,切换到root用户。下载jdk的tar包(oracle官网获得),解压即可,可以放在任何目录,只不过在设置环境变量时能找到这个目录即可。
修改用户目录下的.bashrc文件,加入下边2个环境变量:
export JAVA_HOME=/home/pmpa/jdk1.8.0_40
export PATH=$PATH:$JAVA_HOME/bin

加入了2个环境变量后,执行该文件.bashrc  命令:
source .bashrc

在完成了namenode的java的安装之后呢,可以将java解压的文件夹直接拷贝到datanode1和datanode2上,并且将环境变量的文件.bashrc也拷贝过去,
scp -r $JAVA_HOME datanode1:/home/pmpa
scp -r .bashrc datanode1:/home/pmpa
scp -r $JAVA_HOME datanode2:/home/pmpa
scp -r .bashrc datanode2:/home/pmpa

6.网络参数配置:
(1)设置主机名:vi /etc/hostname
修改后重启系统(root用户) reboot
(补充知识点:ubuntu中的VI编辑器insert模式,按上下左右键显示ABCD字母 ,需要装下vim, sudo apt-get install vim)

设置ip(建议设置固定ip): vi  /etc/sysconfig/network-scripts/ifcfg-eth0
Ip与主机名映射关系设置:vi /etc/hosts
由于Hadoop的3个结点分别命名为namenode、datanode1、datanode2,所以需要简化ssh登陆,譬如ssh namenode、ssh datanode1、ssh datanode2,需要在/etc/hosts中加入这几个ip的命名
192.168.58.139       namenode
192.168.58.141       datanode1
192.168.58.142       datanode2

7.安装和配置分布式Hadoop:
(1)下载hadoop的安装包,并解压(使用pmpa账户):
tar -zxvf hadoop-2.6.0.tar.gz
(2)首先修改hadoop-env.sh,这个文件主要修改的作用是export JAVA_HOME,也就是让hadoop可以找到java,2.6.0的版本已经不需要修改了。
(3)添加环境变量  HADOOP_HOME和PATH
(4)配置core-site.xml 文件,
主要为了指定名称节点(namenode)和监听的端口号,例如:
<property>
    <name>fs.default.name</name>
    <value>hdfs://namenode:8980</value>
    <final>true</final>
</property>
<name>fs.default.name</name>:表示这个值是用来指定名称节点在哪里,<value>hdfs://namenode:8980</value>表示名称节点会监听namenode主机的8980端口。<final>true</final> final属性表示无法被作业配置覆盖。
<property>
        <name>hadoop.tmp.dir</name>
        <value>/home/pmpa/hadoop-2.6.0/tmp</value>
</property>
<name>hadoop.tmp.dir</name>是为了指定hadoop的临时路径。
(5)配置hdfs-site.xml 文件:
在$HADOOP_HOME下创建2个目录name和data:mkdir name; mkdir data
用来指定namenode和datanode存储数据的目录。
<property>
        <name>dfs.replication</name>
        <value>2</value>
</property>
<name>dfs.replication</name>:指定HDFS系统的复制因子,这个例子中是复制2份。


(6)配置mapred-site.xml

(9)启动和验证方法:
./sbin/start-dfs.sh
./sbin/start-yarn.sh
浏览器访问:http://192.168.58.139:50070/ 其中192.168.58.139是namenode的ip,


pmpa@namenode:~/hadoop-2.6.0/sbin$ ./stop-yarn.sh
stopping yarn daemons
stopping resourcemanager
datanode2: no nodemanager to stop
datanode1: no nodemanager to stop
no proxyserver to stop

查看hdfs系统的目录内容:
hdfs dfs -ls /
hdfs dfs -mkdir /wcin

配置core-site.xml,fs.defaultFS的配置应该输入IP,我在使用hosts文件中配置的namenode会报错。

查看mysql的配置文件:
/etc/mysql/my.cnf

hive安装时报错如下:
[ERROR] Terminal initialization failed; falling back to unsupported
java.lang.IncompatibleClassChangeError: Found class jline.Terminal, but interface was expected
        at jline.TerminalFactory.create(TerminalFactory.java:101)
        at jline.TerminalFactory.get(TerminalFactory.java:158)
        at jline.console.ConsoleReader.<init>(ConsoleReader.java:229)
        at jline.console.ConsoleReader.<init>(ConsoleReader.java:221)
        at jline.console.ConsoleReader.<init>(ConsoleReader.java:209)
        at org.apache.hadoop.hive.cli.CliDriver.getConsoleReader(CliDriver.java:773)
        at org.apache.hadoop.hive.cli.CliDriver.executeDriver(CliDriver.java:715)
        at org.apache.hadoop.hive.cli.CliDriver.run(CliDriver.java:675)
        at org.apache.hadoop.hive.cli.CliDriver.main(CliDriver.java:615)
        at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
        at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
        at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
        at java.lang.reflect.Method.invoke(Method.java:497)
        at org.apache.hadoop.util.RunJar.run(RunJar.java:221)
        at org.apache.hadoop.util.RunJar.main(RunJar.java:136)

Exception in thread "main" java.lang.IncompatibleClassChangeError: Found class jline.Terminal, but interface was expected
        at jline.console.ConsoleReader.<init>(ConsoleReader.java:230)
        at jline.console.ConsoleReader.<init>(ConsoleReader.java:221)
        at jline.console.ConsoleReader.<init>(ConsoleReader.java:209)
        at org.apache.hadoop.hive.cli.CliDriver.getConsoleReader(CliDriver.java:773)
        at org.apache.hadoop.hive.cli.CliDriver.executeDriver(CliDriver.java:715)
        at org.apache.hadoop.hive.cli.CliDriver.run(CliDriver.java:675)
        at org.apache.hadoop.hive.cli.CliDriver.main(CliDriver.java:615)
        at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
        at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
        at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
        at java.lang.reflect.Method.invoke(Method.java:497)
        at org.apache.hadoop.util.RunJar.run(RunJar.java:221)
        at org.apache.hadoop.util.RunJar.main(RunJar.java:136)

~/hadoop-2.6.0/share/hadoop/yarn/lib
这个目录下的jline-0.9.94.jar,版本过低,用hive目录下的lib里jline-2.12.jar放在~/hadoop-2.6.0/share/hadoop/yarn/lib目录中。
cp /home/pmpa/apache-hive-1.1.0-bin/lib/jline-2.12.jar ./

你可能感兴趣的:(hadoop)