Hadoop 集群搭建 1. Hadoop简介

Hadoop的基本知识
由Apache Lucene 创始人Doug Cutting创建的,Lucene是一个应用广泛的文本搜搜系统库。
Lucene 是一个应用广泛的文本搜索系统库。
Hadoop起源于开源的网络搜索引擎Apache Nutch,它诞生之初是作为Lucene项目的一个重要核心组成部分。

Hadoop发展
2008年1月,Hadoop称为Apache顶级项目。到目前为止,数量众多的公司都在使用Hadoop或推出了基于Hadoop的各种云平台。
目前,Hadoop打破世界纪录,成为成长最快的TB级数据处理系统。借助群集,Hadoop仅使用1分钟作于哦时间,即可完成1TB数据的排序。

Hadoop基本框架
  1. Hadoop Distributed File System(HDFS):分布式文件存储系统
  2. Hadoop YARN:计划任务与集群管理框架
  3. Hadoop MapReduce:提供大数据(大于1TB)并行运算支持。

Hadoop运行环境
  1. Linux系统
  2. 最新的JDK运行环境
  3. SSH免密连接
  4. Hadoop软件

Hadoop 可以在单节点上以伪分布式方式运行,单机模式下,主机可以同时担任NameNode、DataNode两种工作职责。
NameNode主要职责:
管理文件胸痛的元数据信息(包括目录结构、文件名称、文件属性)
维护文件到块的对应关系和块到节点的对应关系
维护用户对文件的读写操作
各节点间的任务调度
DataNode主要职责:
数据存储

分布式部署的相关配置文件,都处于以下:
./etc/hadoop/
可通过两个文件来说明NameNode、DataNode的位置信息
core-site.xml
hdfs-site.xml

你可能感兴趣的:(大数据)