Nutch->Hadoop(yahoo)

第一章初识Hadoop

分治，多机器并行I/O数据

问题1：硬件故障数据丢失
解决办法：复制replication

问题2：数据的结合使用，可能需要所有硬盘中的数据共同分析，保证其正确性很困难。
解决方法：MapReduce编程模型

Hadoop提供了一个 开源的可靠的可扩展的 存储和分析平台。

查询所有数据，每个查询需要处理整个数据集或至少一个书局街的绝大部分。
通过整合超大量数据，可分析得到以往没有注意到的一些对数据的理解。

批处理系统，一条查询语句就可能需要几分钟或更多时间。因此MapReduce更适合没有用户在现场等待查询结果的离线使用场景。

?????那么推荐系统都是怎么做到的？

HBase
在线访问组件
用HDFS做底层存储的键值存储模型。
不仅提供对当行的在线IO访问，还提供对数据块IO的批操作。

批处理(Batch)，也称为批处理脚本。顾名思义，批处理就是对某对象进行批量的处理，通常被认为是一种简化的脚本语言，它应用于DOS和Windows系统中。批处理文件的扩展名为bat 。DOS批处理则是基于DOS命令的，用来自动地批量地执行DOS命令以实现特定操作的脚本

Yarn
集群资源管理系统

Slor
搜索平台
能在Hadoop集群上运行

寻址时间提升远不如传输速率的提升
寻址是导致硬盘操作延迟的主要原因.传输速率取决于硬盘的带宽.
批处理时读取大浪数据集会消耗更长时间(相较于流数据读取模式,流数据读取模式主要取决于传输速率).

MapReduce 适合解决需要以批处理方式分析整个数据集的问题.适合一次写入多次读取数据的应用.

区别是模糊的.

1.1 一个区别是：他们操作的数据集的结构化程度.
结构化数据：具有既定格式的实体化数据. 例如XML文档.
半结构化数据：比较松散，有格式但是常被忽略。例如电子表格。
非结构化数据：没有什么内部结构。例如：纯文本或者图像数据。

Hadoop对结构化或者半结构化数据非常有效，他在处理数据时才对数据进行解释。

1.2 关系型数据往往是规范的
Hadoop适合分析非规范化数据
Web服务器日志是非规范化数据（同一客户端全名出现多次）

高性能计算（High Performance Computing）将作业分散到集群的各台机器上，适用于计算密集型的作业，如果节点需要访问的数据量非常庞大，许多节点会因为带宽的瓶颈问题不得不闲下来等数据。
网格计算（Grid Computing）

Hadoop在计算机欸单上储存数据，实现数据的本地快速访问。
数据本地化是Hadoop数据处理的核心。

移动数据在一台或多台机器上部署程序，然后把数据获通过接口抓取到程序里进行分析
移动计算把程序自动分发到各hadoop结点上进行计算，然后通过一定机制把结果进行汇总最后返回出来

Hadoop权威指南第一章