【大数据零基础】大数据入门1

  1. Hadoop
    广义:以hadoop软件为主的生态圈
    狭义:hadoop软件
    大数据网站:hadoop.apache.org
    hive.apache.org
    spark.apache.org
    flink.apache.org
    hadoop软件:
    1.x
    2.x 生产用2.6
    3.x
    hadoop2.x组件:
    (1)hdfs: 存储 分布式文件系统 底层 生产
    其它的 hive/hbase
    (2)mapreduce: 分布式计算,生产不用,因为开发难度高、计算慢(shuffle 磁盘)
    代替 hive sql/spark
    (3)yarn: 资源(内存+core)+作业(job)调度管理系统 生产
    但:
    apache hadoop 不选择部署
    企业一般选择CDH、Ambari、hdp部署
    CDH:
    cloudera公司 将Apache hadoop-2.6.0源代码,修复bug,新功能,编译为自己的版本cdh5.7.0
    Apache hadoop-2.6.0 --》hadoop-2.6.0-cdh5.7.0
  2. 部署
    (1)添加sudo权限的无密码访问的hadoop用户
    useradd hadoop
    cat /etc/sudoers |grep hadoop
    su - hadoop
    (2)下载
    mkdir app
    cd app
    wget 下载
    tar -xzvf 解压
    Required software for Linux include:
    Java™ must be installed. Recommended Java versions are described at HadoopJavaVersions.
    ssh must be installed and sshd must be running to use the Hadoop scripts that manage remote Hadoop daemons.
    (3)JAVA1.7部署
    which java 查看java
    java -version 查看java版本
    (4)准备
    启动三种模式
    Local (Standalone) Mode: 单机 没有进程 不用
    Pseudo-Distributed Mode: 伪分布式 1台机器 进程 学习
    Fully-Distributed Mode: 分布式 进程 生产
    (5)配置文件
    (6)无密码ssh
    注意权限改为600
    (7)环境变量
    格式化文件系统
    启动NameNode进程和DateNode进程
    云主机,开启防火墙

你可能感兴趣的:(大数据零基础)