[flow]Impala~实时离线统一的较好解决方案

如何选择满足需求的SQL on Hadoop系统 - 文章
http://weibo.com/p/1001603864171165928729
总的来说,目前来看Hive依然是批处理/ETL 类应用的首选。Hive on Spark能够降低Hive的延迟,但是还是达不到交互式BI查询的需求。目前交互式BI查询最好的选择是Impala。Spark SQL/DataFrame是Spark用户使用SQL或者DataFrame API构建Spark pipeline的一种选择,并不是一个通用的支持交互式查询的引擎,更多的会用在基于Spark的机器学习任务的数据处理和准备的环节。

Impala部署、权限、资源隔离杂谈 - Hello World - 博客频道 - CSDN.NET
http://blog.csdn.net/yu616568/article/details/52751081

如何选择满足需求的SQL on Hadoop系统 - 文章
http://weibo.com/p/1001603864171165928729
Impala主要的推动者是Cloudera,自从推出以来一直不温不火。Impala是一种MPP架构的执行引擎,查询速度非常快,是交互式BI查询最好的选择,即使是在并发性非常高的情况下也能保证查询延迟,所以在multi-tenant, shared clusters上表现比较好。Impala的另外一个重要的优点就是支持的SQL是在以上这些系统中是最标准的,也就是跟SQL99是最像的,所以对于传统企业来说可能是个不错的选择。Impala的主要缺点是社区不活跃,由C++开发,可维护性差,目前系统稳定性还有待提高。

你可能感兴趣的:([flow]Impala~实时离线统一的较好解决方案)