Hadoop权威指南第一章

Nutch->Hadoop(yahoo)

第一章 初识Hadoop

分治,多机器并行I/O数据

问题1:硬件故障数据丢失
解决办法:复制replication

问题2:数据的结合使用,可能需要所有硬盘中的数据共同分析,保证其正确性很困难。
解决方法:MapReduce编程模型

Hadoop提供了一个 开源的 可靠的 可扩展的 存储和分析平台

查询所有数据,每个查询需要处理整个数据集或至少一个书局街的绝大部分。
通过整合超大量数据,可分析得到以往没有注意到的一些对数据的理解。

批处理系统,一条查询语句就可能需要几分钟或更多时间。因此MapReduce更适合没有用户在现场等待查询结果的离线使用场景。

?????那么推荐系统都是怎么做到的?

HBase
在线访问组件
用HDFS做底层存储的键值存储模型。
不仅提供对当行的在线IO访问,还提供对数据块IO的批操作。

批处理(Batch),也称为批处理脚本。顾名思义,批处理就是对某对象进行批量的处理,通常被认为是一种简化的脚本语言,它应用于DOS和Windows系统中。批处理文件的扩展名为bat 。DOS批处理则是基于DOS命令的,用来自动地批量地执行DOS命令以实现特定操作的脚本

Yarn
集群资源管理系统

Slor
搜索平台
能在Hadoop集群上运行

寻址时间提升远不如传输速率的提升
寻址是导致硬盘操作延迟的主要原因.传输速率取决于硬盘的带宽.
批处理时读取大浪数据集会消耗更长时间(相较于流数据读取模式,流数据读取模式主要取决于传输速率).

MapReduce 适合解决需要以批处理方式分析整个数据集的问题.适合一次写入多次读取数据的应用.

相较于其他系统的优势

1. 关系型数据库和Hadoop

区别是模糊的.

Hadoop权威指南第一章_第1张图片

1.1 一个区别是: 他们操作的数据集的结构化程度.
结构化数据: 具有既定格式的实体化数据. 例如XML文档.
半结构化数据:比较松散,有格式但是常被忽略。例如电子表格。
非结构化数据:没有什么内部结构。例如:纯文本或者图像数据。

Hadoop对结构化或者半结构化数据非常有效,他在处理数据时才对数据进行解释。

1.2 关系型数据往往是规范的
Hadoop适合分析非规范化数据
Web服务器日志是非规范化数据(同一客户端全名出现多次)

2. 网格计算

高性能计算(High Performance Computing)将作业分散到集群的各台机器上,适用于计算密集型的作业,如果节点需要访问的数据量非常庞大,许多节点会因为带宽的瓶颈问题不得不闲下来等数据。
网格计算(Grid Computing)

Hadoop在计算机欸单上储存数据,实现数据的本地快速访问。
数据本地化是Hadoop数据处理的核心。

移动数据在一台或多台机器上部署程序,然后把数据获通过接口抓取到程序里进行分析
移动计算把程序自动分发到各hadoop结点上进行计算,然后通过一定机制把结果进行汇总最后返回出来

你可能感兴趣的:(Hadoop权威指南第一章)