HDFS的出现是为了解决什么问题?


单机文件系统的限制:

    早期计算机中的文件是由单机的操作系统来进行管理的,单机中的文件管理存在以下不足:
    ①存储容量的限制。
    ②读写性能的限制。
    ③容灾能力不足。
    当文件特别大的时候,上面三个问题凸显。


行业现状:

    ①数据格式多样化。各业务系统数据库中的结构化数据;日志文件等半结构化数据;视频、图片等非结构化数据。传统的数据库已经满足不了我们的存储需求。
    ②每天各种类型的数据以GB、TB的速度增长。单机的文件系统已管理不了如此大的数据量。


HDFS就是为了解决上面这些问题而生的:

    ①HDFS是一种允许文件通过网络在多台机器上分享的文件系统。
    ②HDFS将一个大文件分割成多个数据块,将这些数据块分散存储在多台机器上。
    ③虽然HDFS会将文件分割成多个数据块,但在程序和用户看来就跟操作本地磁盘中的文件一样。
    ④针对一个文件,可以并发读取它的数据块,增加了读取的性能。
    ⑤HDFS存储的容量具有巨大的扩展性。
    ⑥HDFS可以保证系统中的某些节点脱机时整个系统仍然能持续运行,并保证数据不丢失。


为什么不使用配有大量硬盘的单台机器来存储文件?

    ①随着计算机硬件技术的发展,单台机器硬盘存储容量不断提升,但硬盘数据读取速度却提升缓慢。
    ②硬盘寻址速度的提升远远不如网络传输速度的提升。如果数据的访问包含大量的硬盘寻址,那么读取大量数据就会花费更长的时间。


你可能感兴趣的:(HDFS的出现是为了解决什么问题?)