hadoop学习之hadoop优缺点

hdfs是一个文件系统,通过目录树来定位资源,也是分布式的,通过很多个服务器来实现功能。
与window的ntfs文件系统同是文件系统,但是原理不同。

hdfs的设计适合一次写入,多次读出的场景,但是不支持文件的修改。
不适合网盘的应用(网盘需要下载和删除),适合用来数据的分析。
hdfs 优点:

  1. 高容错性:通过增加副本的形式,来提高容错性,而且数据自动保存多个副本。
    副本丢失以后,可以自动恢复。

  2. 适合大数据处理:数据规模达到pb级别。
    文件数量可以达到百万之多。

  3. 流式数据访问:一次写入,多次读取,不可更改,只可追加
    能保持数据的一致性 可构建在廉价服务器

  4. 可构建在廉价服务器

hadoop缺点:

  1. 不适合快速数据的存储
  2. 无法高效的对大量的小文件进行存储。效率非常低
    寻道的时间非常低
    访问时间与传输时间应该在一定的比例中,
    访问时间指的是寻找文件或者存放文件的时间,
    传输时间指的是客户端到hdfs系统传输文件的时间
  3. 一个文件只能一个线程写,只支持数据的追加

hadoop块大小为什么是128m?
在物理是分块存储(block)
Hadoop2.x以上都是128m,在集群运行的是128m,在本地运行的时候是64m

文件的寻址时间为传输时间的1%的时候,为最佳状态,寻址时间一般为10ms,
所以最佳的传输时间为10ms/1%为1000ms,也就是1s
目前的硬盘传输速率是100m/s,所以文件的大小在100m左右的时候,传输速率较高。

传输时间与文件的大小有关。

你可能感兴趣的:(hadoop学习之hadoop优缺点)