Impala 5.7性能优化系列-10大优化思路

1.1.1  Impala 5.7-10大优化思路

Impala中,提供了10大类优化思路和方法

1)       分区

2)       连接查询性能考虑

3)       表和列信息统计

4)       Impala性能测试:

5)       基准Impala查询:

6)       控制Impala的资源使用情况:

7)      使用Impala查询Amazon S3的文件系统。

8)       HDFS缓存

9)       执行计划和查询概况

10)    数据块倾斜



表分区:基于不同列值进行查询,避免大量无效信息过滤,和常规数据库分区理念一致。

连接查询性能考虑:连接查询的主要类,你可以在SQL级,相对于变化的物理因素如文件格式或硬件配置。有关列统计和表统计的概述的相关主题也很重要,主要用于连接性能。

表和列信息统计:概要表统计和列统计的概述。收集表和列的统计,计算统计报表,帮助impala自动优化性能的查询,而不需要更改SQL查询语句。(这个过程是在impala1.2.2高,大大简化了计算统计表因为聚集在一个操作,这两种类型的统计,不需要任何的安装和配置进行必要的分析表的语句在hive。)

Impala性能测试:做一些安装后的测试以确保Impala使用最优设置的性能基准测试之前,进行任何。

基准Impala查询:配置和样本数据,您使用的Impala最初的实验和测试数据往往是不适合做性能测试。

控制Impala的资源使用情况:越多的Impala内存可以利用,你可以期待更好的查询性能。但在集群中运行的其他工作一样,你必须权衡确保Hadoop所有组件有足够的内存来执行的前提下,你可能使用盖的内存,Impala可以使用,不能不能够此时彼。

使用Impala查询Amazon S3的文件系统。对存储在亚马逊文件系统(S3)和数据存储在HDFS有不同的的数据查询性能对比。

下篇:impala优化10指导原则和最佳实践,敬请关注!

             在impala的官方文档中居然出现了十大优化思路和10大指导原则及最佳实践,貌似冲突,实则是一致的,一个侧重思路逻辑表达,一个侧重具体实践,在下一篇中将有详细的每个技术要点和原则指导及最佳实践案例,欢迎关注。

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/24179204/viewspace-2129509/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/24179204/viewspace-2129509/

你可能感兴趣的:(Impala 5.7性能优化系列-10大优化思路)