Hadoop(一)环境搭建

Hadoop简介

  • Apache开源软件,Doug Cutting(Lucene)
  • 计算框架 分布式、可靠、可伸缩
  • 搜索引擎、海量数据存储

Hadoop发展史:
- 2002 Apache Nutch 抓取网页,数十亿存储瓶颈
- 2003 GFS论文
- 2004 Nutch开发NDFS,即HDFS前身
- 2004 Google发表MapReduce
- 2005 Nutch应用MR,主要算法转移到MR和NDFS运行
- 2006 MapReduce和NDFS从Nutch分离,形成Hadoop作为一个独立Lucene子项
- 2006 Doug Cutting加入Yahoo
- 2008.2 Yahho/1万内核/hadoop/
- 2008.4 Yahho/1T排序/209秒/910节点
- 2008.11 Google/1T/68秒
- 2009.5 Yahoo/1T/62秒

Hadoop:
1. 可靠、可伸缩、分布式计算的开源软件。
2. HDFS hadoop distributed file system. GFS
3. 去IOE IBM + Oracle + EMC
4. MapRedusce 简称MR 映射和化简,编程模型
5. 推荐系统

big data 4V
1. Volumn 体量大
2. Variaty 样式多
3. Velocity 速度快
4. Valueless 价值密度低

Hadoop包含模块
1. Hadoop common 支持其他模块的工具模块
2. Hadoop Distributed File System (HDFS)。 分布式文件系统,提供了对应用程序数据的吞吐量访问。
1. NameNode 名称节点 –NN
2. DataNode 数据节点 –DN
3. SecondaryNamenode 辅助名称节点 –2ndNN
3. Hadoop YARN yet another resource negotiate 作业调度与集群资源管理框架。
1. ResourceManger 资源管理器 –RM
2. NodeManager 节点管理器 –NM
4. Hadoop MapReduce 基于yarn系统的对大数据集进行并发处理技术。

Hadoop的安装

  1. 安装jdk
    1. 解压jdk
    2. 配置环境变量

      export JAVA_HOME=/usr/java/jdk1.7.0_71
      export PATH=$JAVA_HOME/bin:$PATH
    3. 让环境变量生效

      source /etc/profile
    4. 检查安装是否成功

      java -version
  2. 安装hadoop
    1. 解压hadoop
    2. 配置环境变量

      export HADOOP_HOME=/usr/local/hadoop/hadoop
      export PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
    3. 验证安装是否成功

      hadoop version
  3. 3.

配置Hadoop

  1. Standalone/local 独立/本地模式
    查看文件系统的方式: hadoop fs -ls
    没有启动任何java进程,用于测试和开发环境。
  2. Pseudodistributed mode 伪分布式模式
    配置过程
    1. core-site.xml,默认端口8020可省略




      fs.defaultFS
      hdfs://localhost/


    2. hdfs-site.xml,类似于完全分布式,但是只要一个节点




      dfs.replication
      1


    3. mapred-site.xml




      mapreduce.framework.name
      yarn


    4. yarn-site.xml



      yarn.resourcemanager.hostname
      localhost


      yarn.nodemanager.aux-services
      mapreduce_shuffle


    5. 配置ssh
      1)安装ssh
      2)生成秘钥对

      ssh-keygen -t rsa -P '' -f ~/.ssh/
      cd ./ssh

      3)导入公钥数据到授权库中

      cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

      4)登录到localhost

      ssh localhost

      5)格式化hdfs文件系统

      hadooop namenode -format

      6)启动

      which start-all.sh
      start-all.sh
      #解决报错,Error: JAVA_HOME is not set and could not be found
      #修改/etc/hadoop/hadoop-env.sh中设JAVA_HOME
      #export JAVA_HOME=${JAVA_HOME}
      export JAVA_HOME=/usr/java/jdk1.8.0_144
      #更新配置文件
      source /usr/local/hadoop/hadoop/etc/hadoop/hadoop-env.sh

      7)查看进程

      jps #5个 RM NM NN DN 2NN

      8)查看文件系统

      hadoop fs -ls

      9)创建文件系统

      hadoop fs -mkdir -p /user/centos/data
      hadoop fs -ls -R / # -lsr
  3. Fully distributed mode 完全分布式
    1. 准备5台客户机,安装jdk
    2. 安装hadoop
    3. 配置环境变量 JAVA_HOMEHADOOP_HOMEPATH

hadoop进程处理

  1. 查看hadoop进程数(5个)
jps # NN DN 2NN RM NM 
  1. 如果进程数不对,杀死所有进程
stop-all.sh
  1. 重新格式化系统
hadoop namenode -format
  1. 启动所有进程
start-all.sh #不推荐使用,拆分为以下两个脚本
start-dfs.sh
start-yarn.sh
  1. jps

web访问hadoop hdfs:

#访问hdfs
ip:50070
#访问数据节点
ip:50075
#访问SecondaryNamenode
ip:50090
  1. 结束所有进程
stop-all.sh

完全分布式

分布式:由分布在不同主机上的进程协同在一起,才能构成整个应用。

  1. 准备服务器
  2. 安装jdk
  3. 安装hadoop
  4. 配置环境变量
  5. 安装ssh
  6. 配置文件
  7. 配置文件
core-site.xml
fs.defaultFS=hsfs://s100/

yarn-site.xml
yarn.resourcemanager.hostname=s100

slaves
s101
s102
s103

你可能感兴趣的:(大数据)