七十二、Impala的简介与安装部署

咱们前面几篇文章穿插了些CDH的内容,因为咱们的Impala的安装是基于CDH的,所以提前将如何部署安装CDH讲解了一下。本文我们来看一下Impala的相关知识。关注专栏《破茧成蝶——大数据篇》,查看更多相关的内容~


目录

一、Impala概述

1.1 Impala是什么

1.2 Impala的优缺点

1.2.1 优点

1.2.2 缺点

1.3 Impala的架构

二、Impala的安装

2.1 Impala的安装

2.2 Impala的测试


一、Impala概述

1.1 Impala是什么

七十二、Impala的简介与安装部署_第1张图片

Impala是由Cloudera公司推出,提供对HDFS、HBase数据的高性能、低延迟的交互式SQL查询。它基于Hive,使用内存计算,兼顾数据仓库、具有实时、批处理、多并发等优点,是CDH平台首选的PB级大数据实时查询分析引擎。

1.2 Impala的优缺点

1.2.1 优点

1、基于内存运算,不需要把中间结果写入磁盘,省掉了大量的I/O开销。

2、无需转换为MapReduce,直接访问存储在HDFS,HBase中的数据进行作业调度,速度快。

3、使用了支持Data locality的I/O调度机制,尽可能地将数据和计算分配在同一台机器上进行,减少了网络开销。

4、支持各种文件格式,如TEXTFILE 、SEQUENCEFILE 、RCFile、Parquet。

5、可以访问Hive的metastore,对Hive数据直接做数据分析。

1.2.2 缺点

1、对内存的依赖大,且完全依赖于Hive。

2、当分区超过1万,性能严重下降。

3、只能读取文本文件,而不能直接读取自定义二进制文件。

4、每当新的记录/文件被添加到HDFS中的数据目录时,该表需要被刷新。

1.3 Impala的架构

Impala自身包含三个模块:Impalad、Statestore和Catalog,除此之外它还依赖Hive Metastore和HDFS。

七十二、Impala的简介与安装部署_第2张图片

1、Impalad:

(1)接收client的请求、Query执行并返回给中心协调节点。

(2)子节点上的守护进程,负责向statestore保持通信,汇报工作。

2、Catalog:

(1)分发表的元数据信息到各个impalad中。

(2)接收来自statestore的所有请求。

3、Statestore:

(1)负责收集分布在集群中各个impalad进程的资源信息、各节点健康状况,同步节点信息。

(2)负责query的协调调度。

二、Impala的安装

Impala的安装我们只介绍基于CDH的安装,这种方式相对比较便捷。Impala的官网请点击这里~

2.1 Impala的安装

1、打开cloudera manager的监控界面

七十二、Impala的简介与安装部署_第3张图片

2、点击添加服务

七十二、Impala的简介与安装部署_第4张图片

3、选择Impala

七十二、Impala的简介与安装部署_第5张图片

4、进行角色分配

七十二、Impala的简介与安装部署_第6张图片

5、启动Impala

七十二、Impala的简介与安装部署_第7张图片

至此,说明安装成功。

2.2 Impala的测试

1、启动Impala

[root@cdh-slave03 ~]# impala-shell

2、创建数据库并使用

七十二、Impala的简介与安装部署_第8张图片

3、创建表

七十二、Impala的简介与安装部署_第9张图片

4、加载数据到表

七十二、Impala的简介与安装部署_第10张图片

这里需要注意的是,在加载数据的时候,需要对hdfs上的文件目录赋权,如下所示:

hdfs dfs -chmod -R 777 /xzw

 并且在监控界面需要修改相应的权限,如下图所示:

七十二、Impala的简介与安装部署_第11张图片

5、查询

七十二、Impala的简介与安装部署_第12张图片

6、退出

quit;

 

以上就是本文的所有内容,比较简单。你们在此过程中遇到了什么问题,欢迎留言,让我看看你们都遇到了哪些问题~

你可能感兴趣的:(破茧成蝶——大数据篇,大数据,impala)