数据采集与存储

时效性的要求比较宽松时,一个简单文件传输或者Sqoop任务适合作为采集数据的工具,HDFS适合作为主要存储位置。

当用户的需要从简单的批处理转向更高频率的更新时,传输时间要求不超过2分钟,就应该考虑Flume或Kafka之类的工具了。存储层可能需要变为HBase或Solr,这样插入与读取操作会获得更细的粒度。

当要求提高到实时水平时,我们首先需要考虑内存,然后是永久性存储。如果磁盘在转,500ms的耗时是跑不掉了。基于这一点,我们开始进入流处理领域,采用Storm或Spark Streaming之类的工具。这里要强调的是,这些工具应该真正用于数据处理,而不是像Flume或Sqoop那样用于数据采集。

你可能感兴趣的:(数据采集与存储)