欧凯惯例：引子

世界上唯一不变的就是变化，大数据的架构也不例外。
这次变化的推动者，多是一些大的商业公司！

Teradata 美国天睿

Teradata这家公司其实挺陌生的，但这并不能让我们忽视其在大数据方面做出的贡献。简单一句描述这家公司的贡献就是：

2008年之前，这家公司以关系型为基础，硬刚大数据，之后意识到数据实在太大大复杂了，终究实现了对非关系型数据的支持。

具体它拿关系型作为对大数据的解决方案硬刚到什么程度呢？拿一个数据说来说明白了，直到2017年，它可以基于其关系型解决方案处理50PB级别的数据。（当然50PB在现在的大数据框架中都是毛毛雨了，不过这也从侧面反应出它对自己产品的自信与不舍)

LexisNexis

2000年，这家公司用C++开发了一个分布式文件共享及数据存储查询框架，它可以在节点间处理结构化，半结构化和非结构化数据。2004年，它收购了Seisint，又在2008年收购了ChoicePoint，然后它基于二者的产品在2011年融合成了HPCC系统。HPCC是高性能计算集群的简称。还不错，HPCC是开源的。

其实在这里，我们就可以看到当下主流的大数据处理框架的雏形了，所以这家公司在大数据处理方面的贡献是很大的，这也得意于其管理者的眼光，通过买买买的策略实现技术的融合，推动时代的进步。

不值一提的欧洲核组织

CERN是欧洲核子研究组织，这里为什么要提到CERN呢？因为它和其它的一些物理实现组织在几十年内积累了大量的数据，而且这些数据相当的精密，随着计算机的发展，它们自然而然的选择了以超级计算机作为这些数据的处理工具。这里反应了大数据的一个侧面，即，假如数据非常精密且内部关系十分紧密，使用分布式并行处理可能并不方便，那只不能求助于超级计算机了，毕竟超级计算机『一个顶俩』。

牛逼哄哄的Google

曾经丰田的广告那叫一个牛逼啊『车到山前必有路，有路必有丰田车』，现在，谷歌在互联网办就是这般存在，而且是完全有过之。

2004年，谷歌发布了类似于HPCC的MapReduce，它提出了一个并行处理模型并成功发布了基于此的大数据处理工具。MapReduce包含两个阶段：

Map阶段：将数据的查询进行拆分，然后将子查询分散到各个结点，各个结点并行处理各自的查询。
Reduce阶段：收集并行结点的相关结果然后再次进行分发。

这种设计相当成功，所以后来Apache基于MapReduce框架创建了Hadoop这个开源项目。
2012年，Apache又创建了Spark项目，该项目旨在解决MapReduce中Map阶段后只能跟随Reduce阶段的局限，即可以按需配置多个操作。

大数据处理平台的6C共识

Connection(连接：传感器和网络传输)
Cloud(云：计算和数据点播)
Cyber(网络：模型与存储)
Content/Context(内容与背景：意义与内在关系)
Community(社区：分享与协作)
Customization(定制：个性化与价值)

欧凯惯例：小结

很明显，大数据技术的革新是需求驱动的，而主力就是当代的有实力的技术公司，这里不得不在点名一个谷歌，是真强啊。

大数据之三：架构上，欧洲打酱油，谷歌依旧强悍！