谷歌三篇大数据论文读后感

谷歌三篇大数据论文读后感

   这几天,我读了谷歌有关大数据的三篇论文,给我带来了很大影响,从对大数据一点都不了解到有了一点了解,了解到了Google关于大数据前沿报告。这三篇论文分别是Google File System、Google Bigtable、Google MapReduce,每一篇都介绍了一种系统。
   Google GFS 文件系统,是一个面向大规模数据密集型应用的、分布式的可扩展的分布式文件系统。GFS 运行在廉价的普遍硬件设备上,提供容错功能,它可以给大量的用户提供总体性能较高的服务。GFS的设计思路与传统文件系统设计不同:第一,组件失效被认为是常态事件,而不是偶然事件;第二,按照传统的标准,文件都非常大;第三,绝大部分文件的修改是采用在文件尾部追加数据,而不是覆盖原有数据的方式;第四,应用程序和文件系统 API 的协同设计提高了整个系统的灵活性。它的系统的工作负载主要由两种读操作组成:大规模的流式读取和小规模的随机读取。GFS 提供了一套类似传统文件系统的 API 接口函数,架构方式是一个 GFS 集群包含一个单独的 Master 节点、多台 Chunk 服务器,并且同时被多个客户端访问。它还具有一致性。系统交互、垃圾回收、容错和诊断等功能。
   Bigtable 是一个分布式的结构化数据存储系统,它被设计用来处理海量数据:通常是分布在数千台普通服务器上的 PB 级的数据。它具有适用性广泛、可扩展、高性能和高可用性,被运用在Google Analytics、Google Finance、Orkut、Personalized Search、Writely 和 Google Earth上。在很多方面,Bigtable 和数据库很类似:它使用了很多数据库的实现策略。并行数据库和内存数据库已经具备可扩展性和高性能,但是 Bigtable 提供了一个和这些系统完全不同的接口。Bigtable 不支持完整的关系数据模型;相反,Bigtable 为客户提供了简单的数据模型,使用这些简单模型客户可以完成适当的操作。从数据模型来看Bigtable 是一个稀疏的、分布式的、持久化存储的多维度排序 Map。Bigtable包括了三个主要的组件:链接到客户程序中的库、一个 Master 服务器和多个 Tablet 服务器. 针对系统工作负载的变化情况,BigTable 可以动态的向集群中添加(或者删除)Tablet 服务器。
   MapReduce是一种编程模型,也是一个处理和生成超大数据集的算法模型的相关实现,用于大规模数据集(大于1TB)的并行运算。MapReduce 架构的程序能够在大量的普通配置的计算机上实现并行化处理。
   对于我们大学生来说,这三种系统现在暂时还用不到,没有这么大量的数据来计算,即使有一些数据,我们也可以用云计算。但是在今后的工作中,如果一旦涉及到几PB的数据计算是不够的,就可以使用这三种系统,这样就能方便我们的计算操作。即使现在用不到但我们还是要了解和学习。这三种系统在让我们方便操作使用的同时也让我们了解到了大数据等前沿IT技术,了解到了大数据未来的发展。
   在如今这个科技爆炸时代,如果不了解前沿科学技术,我们就会OUT。总之,我们要努力了解和学习世界前沿科学技术,学无止境!

你可能感兴趣的:(谷歌三篇大数据论文读后感)