1、Hadoop

 

1、基础知识

2、安装

3、时间同步

1、基础知识

涞源时Google三篇论文:

 

1: 小文件存储占用大量的内存

2: 2.x以后支持文件修改append功能,但是生产不开放这个功能,因为修改过程文件大小修改,切分重新定义,CPU 内存 IO 都会处理这个过程,性能浪费

3: 原数据信息存放在NameNode中,生产环境有且只有一个NameNode处于工作状态中

4: 1.x存在secondary namenode的概念 只能部分备份namenode数据,2.x 做HA就不需要了

5: namenode 和datanode保持心跳(图中虚线),便于知道存活状态和负载状态

6: 1.x默认block=64M,配置文件可配置,block是一个逻辑概念,65M不会占用两个64M,而是两个block 一个64M, 另一个是1M

7: 第一台服务器down掉,高容错性会再一次复制副本数到另一台机器,这样当第一台服务器up时候,会多出副本,也就是说 副本数>=配置副本数,不会在删除多余的副本

8: 客户端会并发的写入block副本中

9:顺序就近读取block文件,不会并发,保持有序

 

2、安装

下载:

- sudo wget https://archive.apache.org/dist/hadoop/common/hadoop-2.5.2/hadoop-2.5.2.tar.gz

官网文档:

- https://hadoop.apache.org/docs/r2.5.2/hadoop-project-dist/hadoop-common/SingleCluster.html

版本:

- hadoop 2.5.2

- jdk1.8

https://blog.csdn.net/lu1171901273/article/details/86518494

 

mac hadoop 目录:

/Users/xielianjun/003-software/尚学堂/hadoop/hadoop-2.5.1

3、时间同步

分布式部署一定要事先执行时间同步

 

NTP 时间服务器

linux服务器请求时间服务器,同步时间

ntp常用服务器

中国国家授时中心:210.72.145.44

NTP服务器(上海) :ntp.api.bz

经测试中国国家授时中心与NTP上海服务器可以正常同步时间,注意需要加上-u参数!

 

ntpdate -u ntp.api.bz

ntpdate -u 210.72.145.44

国外:

 

美国:time.nist.gov

复旦:ntp.fudan.edu.cn

微软公司授时主机(美国) :time.windows.com

台警大授时中心(台湾):asia.pool.ntp.org

 

 

你可能感兴趣的:(Hadoop)