Hadoop介绍与安装

大数据

人工智能 = 机器学习 + 大数据 ---李开复

大数据技术

  • Hadop

几个简单的概念

  • 物联网

  • 区块

  • 分布式计算

    • p2p-迅雷

大数据的特点

  • V-VOLUME 海量

  • V-VELOCITY 时效性

  • V-VARIETY 多样性 数据的来源很多,形式很多样,视频音频图片。

大量的数据优于好的算法

存在的问题

  • “三无数据”

  • 数据量太大,对储存和算法要求极高

应用

  • 数据收集与储存

  • 数据预处理

  • 特征工程

  • 构建模型

  • 训练

  • 预测

  • 其他

Hadoop

  • Hadoop是Apache软件基金会旗下一个开源的分布式计算平台

  • 以HDFS(Hadoop Distributed File System)和MapReduce

  • 允许用户在不了解计算机底层的情况下,构建分布式计算系统

Hadoop历史

Hadoop生态圈

  • MapReduce(离线计算)

  • Spark(内存计算)-实时计算

  • YARN(分布式计算框架)- 资源的分发

配置Hadoop

  • 下载: http://mirrors.shu.edu.cn/apache/hadoop/common/hadoop-2.8.5/hadoop-2.8.5-src.tar.gz, 通过镜像下载并解压,设置环境变量

    • 新建变量 HADOOP_HOME = D:\Programs\Java\Hadoop\hadoop-2.9.2

    • 新建环境变量 %HADOOP_HOME%\bin; %HADOOP_HOME%\sbin

    • 如果没有新建JAVA_HOME,新建一个不然需要改{HADOOP_HOME}/etc/hadoop/hadoop-env.sh中的Java路径

    • 下载https://github.com/steveloughran/winutils windows对应的bin进行覆盖(很重要)

  • 配置core-site.xml


 
 fs.defaultFS
 hdfs://localhost:9000
 

  • 修改hdfs-site.xml

 
 dfs.replication
 1
 
 
 dfs.namenode.name.dir
 file:/hadoop/data/dfs/namenode
 
 
 dfs.datanode.data.dir
 file:/hadoop/data/dfs/datanode
 

  • 修改mapred-site.xml

 
 mapreduce.framework.name
 yarn
 

  • 修改yarn-site.xml

 
 yarn.nodemanager.aux-services
 mapreduce_shuffle
 
 
 yarn.nodemanager.aux-services.mapreduce.shuffle.class
 org.apache.hadoop.mapred.ShuffleHandler
 

启动Hadoop

1)进入到hadoop–>bin目录下,shift+右键 打开命令行

2)hadoop namenode -format //格式化hdfs

3)cd..\sbin

4)start-dfs.cmd //先启动dfs

start-yarn.cmd //再启动yarn

•网页客户端查看集群状态

1)http://localhost:50070查看HDFS状态

2)http://localhost:8088查看yarn状态
成功界面

你可能感兴趣的:(Hadoop介绍与安装)