8.1 你好，我是一只Hadoop

大家好，好久不见啦。我是李大仁。

近一年都在忙着PM skill社区运营工作, 每天要看很多优秀产品作者的文章，受益匪浅。

《产品经理的技术修养》一书断更许久，这是续更的第一篇，首发于公众号、同步于PM skill社区。

Jack

8.1 大数据和Hadoop家族

image

小奈：表哥，你知道么。昨天我同事更新简历，然后就被hr约谈了。据说是有一种大数据简历监控服务，可以监控到公司员工简历更新动态。

李大仁：没错的，是有这样一家公司，不过这家大数据简历公司，已经被警方端了，所有员工都被带走。随后，有部分员工被陆续放出。

该公司疑似在没有获得授权下抓取用户简历。

之前创新工厂还投资过。号称有上亿简历。

****小奈****：大数据好可怕啊，我还能更新简历么？

李大仁：大数据并不可怕，而且大数据也不仅仅是你理解的那样。

小奈：大数据究竟是什么？我想系统的了解下。

李大仁讲故事模式：

之前也给你讲过，在浏览器输入url后的故事了。我们来回顾一下。

当你在浏览器输入url之后，网页像商品一样，从远方服务器通过网络管道传输回来，显示在浏览器上。

image

这个便是早期的web网页应用。这里我们将web应用比喻为商品，用户则是村里购物的小李。早期的架构就像是小作坊生产商品，再通过公路运输。

后来随着村里经济发展，大量像小李网络购物的村民。商家小作坊模式已经适应不了。有一家叫谷歌的商家，提出了工厂联合生产-统一装配高速公路运输的模式（Map切割工作-reduce合并结果）。

商品分为好几个部分，每个工厂就可以并行生产(分布式集群并行计算)，然后统一装配运输。这种联合模式工厂（Hadoop）大大提升了商品的生产效率。

这就是大数据，简单来说就是一种“分而治之”的哲学。

我是联合模式工厂，我叫Hadoop：

image

作为一个大数据工厂的基础设施，我分为两部分。HDFS(Hadoop Distributed FileSystem )分布式文件系统，这个是机身。另一部分是MapReduce(分布式计算模型)，这个是引擎。

HDFS是HBase（高可用、大型机身），作为大数据工厂设施机身的开山鼻祖，在数据文件存储这块意义非凡。

Map-Reduce引擎的原理如下，通过切分计算工作，最后再聚合计算结果。

image

我是Hadoop，各个村子都用上我了，村里都拥有了大数据的能力和财富。那么多人用我，自然而然，我的家族也庞大起来，形成一个生态。

image

HBase：是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，是为有数十亿行和数百万列的超大表设计的，这是一种分布式数据库,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。

image

Apache Zookeeper: 是一个为分布式应用所设计的分布的、开源的协调服务，它主要是用来解决分布式应用中经常遇到的一些数据管理问题，简化分布式应用协调及其管理的难度，提供高性能的分布式服务。

查看小程序或原文，与我一起深入了解hadoop家族

你好，我是一只hadoop

【产品经理大咖秀】2019年第4期：深访顺丰云计算产品经理

【产品经理大咖秀】2019年第2期：啥是佩奇？

【产品经理大咖秀】2019年第1期：数据产品经理的价值