Google File System阅读笔记

今天应着《大数据与人工智能》选修课老师的要求阅读了谷歌大数据三篇重要论文的其中一篇“Google File System“,想着要阅读一篇和本专业八杆子打不着的专业论文,我的内心是迷茫的,感觉和阅读无字天书没什么区别,在阅读完摘要和简介后,”嗯,还行,目前为止还看得懂它在讲啥”我是这么想的,但到了第二节后,意料到的问题还是出现了,“API 接口函数”、“Master 节点”、“Chunk 服务器”等这些专业名词的意思完全就是一头雾水,阅读难度直线上升。没办法,只能应着头皮上了,实在不懂还有“万能”的百度帮我理解一些难懂的词语和句子呢。

Google GFS文件系统是一个面向大规模数据,使用许许多多的廉价的服务器拼装而成的一种文件系统,为大量用户提供高性能服务。为什么不使用性能更好但是昂贵的“高端”服务器而选择用很多的性能低下甚至老旧的“草根”服务器呢?首先是价格因素,也就是省钱,非常现实的优点,我可以花更少的钱搭建文件系统那我肯定有更高的收入。其次是它的容错性,GFS允许它的服务器组件发生故障,因为这是一个常态事件,成百上千的廉价设备组装成的储存机器,再被相当数量的客户访问,想要不发生故障是不现实的,但由于是数以千计的廉价机器组成的系统,大大降低了其修理花费,所以GFS允许这样的事故发生。GFS对文件的操作是追加数据,而不是修改覆盖原有数据。这大大减轻了设备系统的负担,由一台机器生成、另外一台机器处理的中间数据,这些中间数据的处理可能是同时进行的、也可能是 后续才处理的,如果允许加以修改这些数据,操作就会变得繁琐,不符合系统设计之初的基本目的。GFS主要是为了追加而不是改写而设计的。GFS数据追加以记录为单位,每个记录的大小为几十KB到MB不等,如果每次记录追加需要请求主服务器,那么主服务器的性能就无法支撑整个文件系统。因此,GFS系统中通过租约机制将大量操作授权给所属的小服务器,这样的租约机制就解决了主服务器的性能瓶颈问。

以上就是现在的我对Google GFS系统的粗略理解,理解有误的地方应该会有很多,以后会多多学习,加深自己对其的理解。

你可能感兴趣的:(个人作业)