OODA的整个处理流程,其实就是一个运动控制系统。大数据也是类似,从手机信息、处理分析到决策执行,这些都与OODA有异曲同工之妙!大数据的运算速度与OODA的循环速度一样,都提前决定着结果。
第三节:大数据的内幕
引言:接着前两篇对大数据的介绍之后,本篇从实际操作的角度分享大数据内部关键的运作机制,这是在真正开始学习大数据之前对大数据的一个概览。为的是让我们成为大数据的主人。
大数据运行机制
这是对大数据运行机制的概览,如果你阅读过上一篇(OODA),就会感觉非常熟悉。不错,他们在概念上是如出一撤的!不过实际操作却又有巨大的不同。
收集数据:
大数据的第一站就是收集和存储海量数据(公开/隐私)。现在每个人都是一个巨大的数据源,通过智能手机和个人笔记本释放出大量的个人行为信息。获取数据似乎已经变得越来越容易,数据收集这一模块最大的挑战在于获取海量数据的高速要求以及数据的全面性考虑。
清洗数据:
传统商业智能在数据清洗处理的做法(ETL)是,把准确的数据放入定义好的格式中,通过基础的抽取统计生成高维度的数据,方便直接使用。然而大数据有个最突出的特征——数据非结构化或者半结构化。因为数据有可能是图片,二进制等等。数据清洗的最大挑战来了——如何转化处理大量非结构数据,便于分布式地计算分析。 。 。 。 。 。 。
分享与反馈:
随着大数据分析结果的产生,决策者需要的旺旺不是一堆僵硬的数据,而是一张直观动态的决策建议视图。并且在决策之后,需要一个执行反馈系统来评估大数据分析结果的准确性。不断地去优化大数据分析的架构和算法!使得大数据架构更加智能!!
最后请你再次阅读这个系列的上一篇文章,对比大数据与OODA之间的异同点,并且在图纸上画出你对大数据的理解!
第四节:Hadoop是什么
引言:Hadoop作为大数据工业中的主引擎,了解Hadoop就像是在打开大数据这扇门。首先它本身是一个分布式计算架构,更重要的是它是一个可扩展的生态系统,像IBM,EMC,Amazon,微软,甲骨文等大型IT公司都已经有了基于Hadoop的商业化大数据产品。虽然现在还有比Hadoop更为先进的分布式架构(Dremel,DataFlow等),但也都是基于Hadoop的改进升级,因此也说Hadoop是大数据的基础,基础的稳固决定了未来能走多远!!
Hadoop是一个大家族,是一个开源的生态系统,是一个分布式运行系统,是基于Java编程语言的架构。不过它最高明的技术还是HDFS和MapReduce,使得它可以分布式处理海量数据。
它与现存的文件系统不同的特性有很多,比如高度容错(即使中途出错,也能继续运行),支持多媒体数据和流媒体数据访问,高效率访问大型数据集合,数据保持严谨一致,部署成本降低,部署效率提交等,如图是HDFS的基础架构
MapReduce(并行计算架构),它可以将计算任务拆分成大量可以独立运行的子任务,接着并行运算,另外会有一个系统调度的架构负责收集和汇总每个子任务的分析结果。其中 包含映射算法与规约算法。如图是MapReduce的内部计算步骤 。 。 。 。 。 。
两本最重要的书籍(这两本基本已经可以满足大部分你对Hadoop的需要): Hadoop权威指南/Hadoop最佳实践
第五节:大数据服务比较
第六节:大数据平台实例
第七节:为什么是Hadoop
第八节:MapReduce是什么
第九节:HDFS是什么