#学习笔记#章二-大数据处理架构hadoop-中国MOOC厦大

1. hadoop简介:

1.1. hadoop背景与简介

  1. 开源
  2. 运行在linux上且用JAVA编写,有良好的跨平台特性。
  3. 应用可以用多种语言编写。
  4. 可运行在低端机上,构成集群。

1.2. Hadoop应用现状

#学习笔记#章二-大数据处理架构hadoop-中国MOOC厦大_第1张图片
application.png

1.3. YARN

资源调度,可以用在hadoop,storm,spark上面。

1.4. 怎么选择合适版本?

#学习笔记#章二-大数据处理架构hadoop-中国MOOC厦大_第2张图片
version.png

学生选一个难装的版本,完全是因为我们穷啊,哈哈哈哈哈哈。心酸,我想用CDH....

2. Hadoop项目结构

#学习笔记#章二-大数据处理架构hadoop-中国MOOC厦大_第3张图片
str-1.png

#学习笔记#章二-大数据处理架构hadoop-中国MOOC厦大_第4张图片
str-2.png

3. 安装

这个课程用的是hadoop开源版,我觉得可以用个人版CDH搭起来,会比较简单。

4. Hadoop集群的部署与使用

  1. 分布式节点: 在集群中,大部分的机器设备是作为Datanode和TaskTracker工作的

  2. 主节点: NameNode提供整个HDFS文件系统的NameSpace(命名空间)管理、块管理等所有服务,因此需要更多的RAM,与集群中的数据块数量相对应,并且需要优化RAM的内存通道带宽,采用双通道或三通道以上内存。

  3. 集群规模要多大
    a. 考虑每周存储A,并且有三个HDFS副本,需要额外的3A存储,允许一些中间文件和日志(假定30%A)的空间。--》算两年需要多少机器。
    b. 对于一个小的集群,名称节点(NameNode)和JobTracker运行在单个节点上,通常是可以接受的。
    c. 第二名称节点(SecondaryNameNode)会和名称节点可以运行在相同的机器上,但是,由于第二名称节点和名称节点几乎具有相同的主存需求,因此,二者最好运行在不同节点上

  4. 集群网络拓扑

把hadoop看成服务器,跟路由网络差不多。也需要交换机和路由器进行联通。


一些内心OS:

林子雨老师:你只要在hadoop上敲一些傻瓜指令就可以运行hadoop
我:???????[真的吗.jpg]
林子雨老师:hadoop平台可以做很多东西,但我们不讲,这只是入门级课程
我:额.......求高级篇!

2018.6.9

你可能感兴趣的:(#学习笔记#章二-大数据处理架构hadoop-中国MOOC厦大)