Bigtable

什么是大数据？

大数据（英语：Big data），又称为巨量资料，指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。大数据也可以定义为来自各种来源的大量非结构化或结构化数据。从学术角度而言，大数据的出现促成了广泛主题的新颖研究。这也导致了各种大数据统计方法的发展。大数据并没有抽样；它只是观察和追踪发生的事情。因此，大数据通常包含的数据大小超出了传统软件在可接受的时间内处理的能力。由于近期的技术进步，发布新数据的便捷性以及全球大多数政府对高透明度的要求，大数据分析在现代研究中越来越突出。

GFS（Google File System）

GFS可以解决传统的文件系统中硬盘小、数据存储单份，容易丢失等问题。

GFS的优点：

1、理论上GFS可以存储无限的数据，由于硬盘可以扩展，从而成功提高了数据的量。

2、具有容错性，数据备份多份，分别存储在不同的地方，而多份数据同时损坏的概念几乎为零，只要数据不同损坏，数据就可以一直保存下来。

3、存储大数据的性能比传统关系型数据库好，安全、可靠、稳定。

MapReduce

MapReduce是Google提出的一个软件架构，用于大规模数据集（大于1TB）的并行运算。概念“Map（映射）”和“Reduce（归纳）”，及他们的主要思想，都是从函数式编程语言借来的，还有从矢量编程语言借来的特性。当前的软件实现是指定一个Map（映射）函数，用来把一组键值对映射成一组新的键值对，指定并发的Reduce（归纳）函数，用来保证所有映射的键值对中的每一个共享相同的键组。

1、Map的输出，是Reduce阶段的输入。每个Map输出的是一个值，Reduce阶段的输入是一个集合，集合中的每个元素都是Map的每个输出值。

2、Map的输入来自HDFS，Reduce也输出到HDFS。

3、MapReduce所有的输入输出类型必须是Hadoop的类型：LongWritable，java中得String对应Hadoop中得Text，java中得null对应hadoop中得NullWritable.

关于我的专业思考：

我的专业是电子信息工程，我们本身就是对信号的采集与处理，我们可以在我们的专业中用到大数据的知识，比如在探测哪一个地方有石油，不可能直接就对目标地进行钻孔，提前一定要尽可能确定这个地方下面有石油，我们对采集到的信息进行处理，然后利用大数据的知识，将我们采集得到的信号与历史数据进行对比，找出最接近的数据，从而可以更好的判断出该地是否有石油，从而可以尽可能的减少因开错地方造成的巨大经济损失。

引用：

1、维基百科

2、https://blog.csdn.net/heweimingming/article/details/82177142

3、Google 的三篇论文

google的三篇论文阅读感想

Bigtable

GFS（Google File System）

MapReduce

你可能感兴趣的:(google的三篇论文阅读感想)