大数据处理的类型

    提到Spark Streaming,我们不得不说一下BDAS(Berkeley Data Analytics Stack),这个伯克利大学提出的关于数据分析的软件栈。从它的视角来看,目前的大数据处理可以分为如以下三个类型。

  • 复杂的批量数据处理(batch data processing),通常的时间跨度在数十分钟到数小时之间。

  • 基于历史数据的交互式查询(interactive query),通常的时间跨度在数十秒到数分钟之间。

  • 基于实时数据流的数据处理(streaming data processing),通常的时间跨度在数百毫秒到数秒之间。 

    目前已有很多相对成熟的开源软件来处理以上三种情景,我们可以利用MapReduce来进行批量数据处理,可以用Impala来进行交互式查询,对于流式数据处理,我们可以采用Storm。对于大多数互联网公司来说,一般都会同时遇到以上三种情景,那么在使用的过程中这些公司可能会遇到如下的不便。 

  • 三种情景的输入输出数据无法无缝共享,需要进行格式相互转换。

  • 每一个开源软件都需要一个开发和维护团队,提高了成本。

  • 在同一个集群中对各个系统协调资源分配比较困难。 


======================END======================

你可能感兴趣的:(大数据处理的类型)