kavy

Impala入门笔记

转自：http://tech.uc.cn/?p=817

问题背景：

初步了解Impala的应用
重点测试Impala的查询速度是否真的如传说中的比Hive快3~30倍

写作目的：

了解Impala的安装过程
初步了解Impala的使用
比较Impala与Hive的性能测试

适合阅读对象：

想了解Impala安装的读者
想了解Impala与Hive性能比较的读者

不涉及的内容：

如何安装Hadoop（假设你已经安装好了Hadoop）
如何安装Hive（假设你已经安装好了Hive）

关于Hadoop和Hive的安装，可参考我们公司一位Hadoop牛人写的Hadoop一键安装（里面包含了Hive的安装）
https://github.com/hadoop-deployer/hadoop-deployer

正文：

1. Impala介绍

Impala 号称在性能上比Hive高出3~30倍，甚至预言说在将来的某一天可能会超过Hive的使用率而成为Hadoop上最流行的实时计算平台（也许我这里有点曲解Impala专家的意思，但其诱惑的言辞足以令Hadoop迷不禁有蠢蠢欲试的激动）。毕竟Impala也是人写出来的，是否真的如想象中的快，还得靠客观数据来验证。下面就这两个星期对Impala的认识小记一下，供日后翻阅。（请原谅我没有告诉你Hadoop是个啥东东，因为我这里假设你已经听过这头在海量数据的世界驰骋几个岁月的大象，但不一定要求你是大牛）

以下内容是对Cloudera官网中关于Impala文档（主要是《Installing and Using Cloudera Impala》）一些内容的个人理解，欠妥之处还请不吝赐教：

Impala的目的不在于替换现有的MapReduce工具，如Hive，而是提供一个统一的平台用于实时查询。事实上Impala的运行也是依赖Hive的元数据。Impala与其它组件之间的关系如下：

与Hive类似，Impala也可以直接与HDFS和HBase库直接交互。只不过Hive和其它建立在MapReduce上的框架适合需要长时间运行的批处理任务。例如那些批量提取，转化，加载（ETL）类型的Job。而Impala主要用于实时查询。

1.1 Impala组成

1.1.1 State Store

对应进程为 statestored （笔者这里使用的Impala版本为0.4，有些版本的statestore进程名可能不是这样叫的）
用于协调各个运行impalad的实例之间的信息关系，Impala正是通过这些信息去定位查询请求所要的数据。换句话说，state store的作用主要为跟踪各个impalad实例的位置和状态，让各个impalad实例以集群的方式运行起来。
与 HDFS的NameNode不一样，虽然State Store一般只安装一份，但一旦State Store挂掉了，各个impalad实例却仍然会保持集群的方式处理查询请求，只是无法将各自的状态更新到State Store中，如果这个时候新加入一个impalad实例，则新加入的impalad实例不为现有集群中的其他impalad实例所识别（事实上，经笔者测试，如果impalad启动在statestored之后，根本无法正常启动，因为impalad启动时是需要指定statestored的主机信息的）。然而，State Store一旦重启，则所有State Store所服务的各个impalad实例（包括state store挂掉期间新加入的impalad实例）的信息（由impalad实例发给state store）都会进行重建。

1.1.2 Impalad

对应进程为 impalad（核心进程，数据的计算就靠这个进程来执行）
该进程应运行在DataNode机器上（建议每个DataNode机器运行一个impalad，官方的意思似乎这种建议是必须的），每个impalad实例会接收、规划并调节来自ODBC或Impala Shell等客户端的查询。每个impalad实例会充当一个Worker，处理由其它impalad实例分发出来的查询片段(query fragments)。客户端可以随便连接到任意一个impalad实例，被连接的impalad实例将充当本次查询的协调者（Ordinator)，将查询分发给集群内的其它impalad实例进行并行计算。当所有计算完毕时，其它各个impalad实例将会把各自的计算结果发送给充当 Ordinator的impalad实例，由这个Ordinator实例把结果返回给客户端。每个impalad进程可以处理多个并发请求。

1.1.3 Impala shell

这是一个客户端工具
该客户端工具提供一个交互接口，供使用者发起数据查询或管理任务，比如连接到impalad。这些查询请求会传给ODBC这个标准查询接口。说白了，就是一个命令行客户端。日后你便是通过它来查询数据的。

1.2 安装impala

这里介绍使用rpm包安装的方式（需有root或sudo权限），基于源码包安装的方式待后续折腾。

1.2.1 安装前需知

impala能使用的内存无法超过系统的硬件可用内存（GA版，查询需要的内存如果超出硬件内存，则查询将失败），对内存要求高，典型的硬件内存为：32~48G
impala（版本0.4）只支持redhat 5.7/centos 5.7或redhat 6.2/centos 6.2以上（好像还要求是64位的，所以建议安装在64位系统上），不支持ubuntu
假设你已经安装了CDH4（即Hadoop 2.0）
假设你已经安装了Hive，并配置一个外部数据库（如MySQL）供Hive存储元数据。可通过执行下面的命令来判断Hive是否安装正常
$ hive
hive> show tables;
OK
Time taken: 2.809 seconds
这里请原谅我没有提到Hadoop和Hive的安装过程，还请尊驾自行搜索。
Impala不支持的特性：
- 查询流数据
- 删除数据
- 索引（至少当前版本不支持）
- YARN集成（至少当前版本不支持）
- 全文搜索
- 不具有像Hive SerDe的可扩展机制
- 不支持线上查询容错，如果查询出错，如机器宕机，Impala将会丢弃本次查询。
- 不支持表和列级别的授权
- impalad实例之间的传输没有加密
- 不支持Hive UFS
- beta版尚不支持JDBC，计划GA版支持

1.2.2 安装步骤

1.2.2.1 软件包安装

下载Impala的yum repository （考虑到内存和性能问题，如果机器数允许，建议Impalad实例不要跟NameNode运行在同一台机，但却需与DataNode安装在同一台机，以免影响Impala整体性能）。因Impala的rpm包比较大（v0.4版约90M），且需要在多部机器上安装，故建议直接下载rpm包，然后通过rpm -ivh的方式安装。这里给出rpm包的地址：http://beta.cloudera.com/impala/redhat/6/x86_64/impala/0/RPMS/x86_64/。

rpm包如下（发现Impala的版本已经更新到v0.5了，但本文的测试结果还是还是基于Impala v0.4的）：

文件名更新时间包大小

impala-0.5-1.p0.491.el6.x86_64.rpm	01-Feb-2013 20:10	97M
impala-debuginfo-0.5-1.p0.491.el6.x86_64.rpm	01-Feb-2013 20:10	75M
impala-server-0.5-1.p0.491.el6.x86_64.rpm	01-Feb-2013 20:10	4.2K
impala-shell-0.5-1.p0.491.el6.x86_64.rpm	01-Feb-2013 20:10	450K
impala-state-store-0.5-1.p0.491.el6.x86_64.rpm	01-Feb-2013 20:10	4.3K

其中，除了 impala-debuginfo-0.5-1.p0.491.el6.x86_64.rpm 可以不下载之外，其它几个包都是必须的，尤其是 impala-0.5-1.p0.491.el6.x86_64.rpm ，这里对各个包的作用稍微说明一下：

impala-state-store-0.5-1.p0.491.el6.x86_64.rpm 是运行statestored实例所需要的包，该包依赖 impala-0.5-1.p0.491.el6.x86_64.rpm （核心包）
impala-0.5-1.p0.491.el6.x86_64.rpm（核心包）和 impala-server-0.5-1.p0.491.el6.x86_64.rpm（扩展包，需首先安装核心包）是运行impalad实例所需要的包。
impala-shell-0.5-1.p0.491.el6.x86_64.rpm 是运行impala-shell客户端所需要的包

如果你选择用yum的方式来安装，则请将下面的repo文件拷贝到/etc/yum.repos.d/ 目录下
文件：cloudera-impala.repo
[cloudera-impala]
name=Impala
baseurl=http://beta.cloudera.com/impala/redhat/6/x86_64/impala/0/
gpgkey = http://beta.cloudera.com/impala/redhat/6/x86_64/impala/RPM-GPG-KEY-cloudera
gpgcheck = 1

如果你非要选择yum的方式安装，请执行以下相关命令(这里假设你有sudo权限，不建议用该方式，除非你的repo库是在内网。当然这种方式也有个好处，它会自动安装一些依赖包）：

在DataNode节点安装impalad后台实例：sudo yum install -y impala-server（会自动安装impala核心包）
安装statestored实例：sudo yum install -y impala-state-store（会自动安装impala核心包）
安装impala-shell客户端：sudo yum install -y impala-shell

进入Impala安装目录，默认为/usr/lib/impala（可通过rpm -ql impala查看），创建目录conf如果不存在的话。这里创建conf目录是为了存放impalad的配置文件，impalad的配置文件路径由环境变量IMPALA_CONF_DIR指定，默认为/usr/lib/impala/conf。

拷贝hive-site.xml、core-site.xml、hdfs-site.xml（只需从Hadoop和Hive配置文件目录中拷贝过来）至/usr/lib/impala/conf目录下（假设 impalad的配置文件路径为/usr/lib/impala/conf），并作下面修改（这些修改据官方文档，说是为了优化Impala性能，但具体效果如何，笔者目前尚未测出）：

1.2.2.2 core-site.xml

在core-site.xml文件中添加如下内容（如果不存在的话）：

      
          1 
        
          2 
        
          3 
        
          4 
        
          5 
        
          6 
        
          7 
        
          8 
        
          9 
        
          10 
        
         < 
         property 
         > 
        
         < 
         name 
         > 
         dfs 
         . 
         client 
         . 
         read 
         . 
         shortcircuit 
         < 
         / 
         name 
         > 
        
         < 
         value 
         > 
         true 
         < 
         / 
         value 
         > 
        
         < 
         / 
         property 
         > 
        
         < 
         property 
         > 
        
         < 
         name 
         > 
         dfs 
         . 
         client 
         . 
         read 
         . 
         shortcircuit 
         . 
         skip 
         . 
         checksum 
         < 
         / 
         name 
         > 
        
         < 
         value 
         > 
         false 
         < 
         / 
         value 
         > 
        
         < 
         / 
         property 
         >

1.2.2.3 hdfs-site.xml

在hdfs-site.xml文件中添加如下内容（如果不存在的话）：

1.2.2.4 又是core-site.xml

这里需要提一点的是，如果你用的是hadoop 2.0（即CDH4，虽然官方也称Impala必须得CDH4以上）的HA方式配置NameNode，则Impala的core-site.xml（注意，只有Impala的core-site.xml才需作修改，Hadoop的core-site.xml配置文件不用改）还需作以下修改：

将原来（以NameNode的HA方式配置，其中mycluster代表某个NameService）

      
          1 
        
          2 
        
          3 
        
          4 
        
          5 
        
         < 
         property 
         > 
        
         < 
         name 
         > 
         fs 
         . 
         defaultFS 
         < 
         / 
         name 
         > 
        
         < 
         value 
         > 
         hdfs 
         : 
         //mycluster</value> 
        
         < 
         / 
         property 
         >

改为（以NameNode非HA方式配置，即指定某个具体的NameNode主机信息）

      
          1 
        
          2 
        
          3 
        
          4 
        
          5 
        
         < 
         property 
         > 
        
         < 
         name 
         > 
         fs 
         . 
         defaultFS 
         < 
         / 
         name 
         > 
        
         < 
         value 
         > 
         hdfs 
         : 
         //192.168.22.30:12900</value> 
        
         < 
         / 
         property 
         >

这里配置的NameNode主机信息要求与impalad实例启动时指定的-nn=namenode_host -nn_port=namenode_port参数的信息一致。从这里也初步怀疑Impala目前可能尚不支持NameNode的HA配置（到底是不是如此，还请高人赐教）。

1.3 相关服务进程

下面为笔者安装后的机器（共5台，节点越多，也许越能测出更有价值的性能数字）及服务（安装中发现impalad的启动似乎需要依赖Hive，所以每台启动impalad实例的机器都需安装Hive，这关系有点诡异）：

主机通过jps命令查看到的服务其它服务

192.168.22.30	JournalNode QuorumPeerMain NodeManager NameNode ResourceManager DataNode DFSZKFailoverController	Hive statestored impalad
192.168.22.31	NameNode QuorumPeerMain NodeManager DFSZKFailoverController JournalNode DataNode	Hive impalad
192.168.22.32	NodeManager JournalNode DataNode QuorumPeerMain	Hive impalad
192.168.22.33	DataNode JournalNode QuorumPeerMain NodeManager	Hive impalad
192.168.22.34	QuorumPeerMain JournalNode DataNode NodeManager	Hive impalad

从上面可见，笔者在5台机器中都启动了impalad实例，而只有192.168.22.30那台机器启动了statestored。你可能会问，为何没看到启动impala-shell客户端的机器，那是因为笔者决定impala-shell随便装在那台机器都可以，只要能连接到上面启动impalad实例的机器便可，故这里没列出。

1.3.1 启动命令

以下为impala服务启动命令：

先启动statestored（默认端口为24000）:
statestored -state_store_port=24000
再启动impalad实例：
HADOOP_CONF_DIR=”/usr/lib/impala/conf” impalad -state_store_host=192.168.22.30 -nn=192.168.22.30 -nn_port=12900 -hosame=192.168.22.34 -ipaddress=192.168.22.34

注意：

这里需要加上HADOOP_CONF_DIR，否则在impala查询数据，可能会报类似 Wrong FS 。。。expect 。。。的错误
其中的-nn和-nn_port，表示NameNode的主机和端口，因Hadoop 2以上的版本对NameNode采用HA的方式，对外提供NameService而不是某个具体的NameNode，然而这里impalad启动时却依然需要知道某个具体的NameNode的主机和端口，怀疑Impala目前尚不支持Hadoop的NameNode的HA方式。
在第一次启动impalad的时候，你可能会遇到impalad报类似找不到JDBC数据库驱动（假设为MYSQL)的问题，其实是因为impalad默认使用的数据库驱动包的位置为：/usr/share/java/mysql-connector-java.jar，该配置默认由/etc/default/impala文件中的MYSQL_CONNECTOR_JAR项指定，读者可在~/.bash_profile文件中修改为自己的驱动文件路径，如下为笔者在~/.bash_profile中添加的项：

export MYSQL_CONNECTOR_JAR=$HOME/hive/lib/mysql-connector-java-5.1.16-bin.jar:$MYSQL_CONNECTOR_JAR

别忘了修改后执行一下source ~/.bash_profile来是修改生效。

1.4 启动参数

关于impala服务的启动参数，请参见下表：

Argument Description Notes Required?

-ipaddress	The IP address for the machine that will host Impalad. While there is a default for this argument, it is important to provide a value other than 127.0.0.1 for good performance. To use the local host, provide the local host’s actual IP address.	Default: 127.0.0.1.	Yes
-state_store_host	The Impala state store host name.	Default: 127.0.0.1.	Yes
-state_store_port	The Impala state store port.	Default: 24000.	No
-nn	The HDFS NameNode hostname or IP address.	For example, MyNameNode. Default: 127.0.0.1.	Yes
-nn_port	The NameNode port.	Default: 20500.	Yes
-be_port	Impala’s internal service port.	Default: 22000.	No
-fe_port	Impala’s front end port for external connections.	Default: 21000.	No
-log_filename	The path to and name of the file that impala will use to store logging information.		Yes
-webserver_interface	The network interface the debugging web server uses.	Default: 0.0.0.0.	No
-webserver_port	The port the debugging web server uses.	Default: 25000.	No
-web_log_bytes	The maximum number of bytes to display on a debug web server’s log page.	Default: 1048576	No

2. hive和impala测试性能比较

本次测试中，hdfs中存有文件大小为20G，并已装载到了表mytest_impala中，可通过Hive来装载。

2.1 impala-shell的使用

在进入性能测试比较前，先简要介绍一下impala-shell的使用。首先确保你已经有一台机器安装了impala-shell客户端。

2.1.1 启动impala-shell

$ impala-shell

得到下面的Welcome信息：

Welcome to the Impala shell. Press TAB twice to see a list of available commands. Copyright (c) 2012 Cloudera, Inc. All rights reserved. (Build version: Impala v0.1 (cf57fd9) built on Thu Sep 27 10:32:13 PDT 2012)
[Not connected] >

2.1.2 查看支持的命令

正如上面提示，可通过敲击两次的TAB键来查看impala-shell目前支持的命令：

connect explain history quit select shell use
describe help insert refresh set show version
[Not connected] >

从中可见，Impala目前尚不支持表的创建（即CREATE TABLE)

2.1.3 连接impalad服务端

[Not connected] > connect 192.168.22.30:21000
Connected to 192.168.22.30:21000
[192.168.22.30:21000] >

2.1.4 查询数据

[192.168.22.30:21000] > show tables;
Query: show tables
Query finished, fetching results …
mytest
mytest_2
mytest_impala
Returned 3 row(s) in 0.17s

[192.168.22.30:21000] > select * from mytest_impala limit 1;
Query: select * from mytest_impala limit 1
Query finished, fetching results …
1 2012-06-19 21:18:09 http://book1.sina.cn/prog/wapsite/books/vipchl.php?bid=39922&PHPSESSID=9743b7325413117a25d1efa7975daea7&vt=4&wm=4002
Returned 1 row(s) in 1.57s
[192.168.22.30:21000] >

因Impala支持的SQL语句是Hive的HQL语句的一个子集，也就说Hive中的一些HQL语句在这里同样适用，具体请参考相关文档，这里不再详述。

2.2 性能测试1

测试show tables。

2.2.1 使用Impala的执行情况

[192.168.22.31:21000] > show tables;
Query: show tables
Query finished, fetching results …
mytest
mytest_2
mytest_impala
Returned 3 row(s) in 0.01s

2.2.2 使用Hive的执行情况

2.2.2.1 第一次执行

刚开始还以为Hive每次show tables都那么慢，当执行第二次时才发现其实不然。

hive> show tables;
OK
mytest
mytest_2
mytest_impala
Time taken: 2.785 seconds

2.2.2.2 第二次执行

hive> show tables;
OK
mytest
mytest_2
mytest_impala
Time taken: 0.103 seconds

2.3 性能测试2

测试select count(*) from mytest_impala

2.3.1 使用Impala的执行情况

[192.168.22.31:21000] > select count(*) from mytest_impala;
Query: select count(*) from mytest_impala
Query finished, fetching results …
69007188
Returned 1 row(s) in 106.58s

2.3.2 使用Hive的执行情况

hive> select count(*) from mytest_impala;
Total MapReduce jobs = 1
Launching Job 1 out of 1
Number of reduce tasks determined at compile time: 1
In order to change the average load for a reducer (in bytes):
set hive.exec.reducers.bytes.per.reducer=
In order to limit the maximum number of reducers:
set hive.exec.reducers.max=
In order to set a constant number of reducers:
set mapred.reduce.tasks=
Starting Job = job_1361238384421_0001, Tracking URL = http://192.168.22.30:12088/proxy/application_1361238384421_0001/
Kill Command = /home/zhengzn/hadoop/bin/hadoop job -Dmapred.job.tracker=ignorethis -kill job_1361238384421_0001
Hadoop job information for Stage-1: number of mappers: 44; number of reducers: 1
2013-02-20 12:11:33,026 Stage-1 map = 0%, reduce = 0%
…
2013-02-20 12:13:45,502 Stage-1 map = 100%, reduce = 100%, Cumulative CPU 256.1 sec
MapReduce Total cumulative CPU time: 4 minutes 16 seconds 100 msec
Ended Job = job_1361238384421_0001
MapReduce Jobs Launched:
Job 0: Map: 44 Reduce: 1 Cumulative CPU: 256.1 sec HDFS Read: 11393427897 HDFS Write: 9 SUCCESS
Total MapReduce CPU Time Spent: 4 minutes 16 seconds 100 msec
OK
69007188
Time taken: 148.285 seconds

2.4 性能测试3

测试select count(*) from mytest_impala where id = ‘1205-4721599131-fa2451a7’。

2.4.1 使用Impala的执行情况

[192.168.22.31:21000] > select count(*) from mytest_impala where id = ‘1205-4721599131-fa2451a7′;
Query: select count(*) from mytest_impala where id = ‘1205-4721599131-fa2451a7′
Query finished, fetching results …
9
Returned 1 row(s) in 96.54s

2.4.2 使用Hive的执行情况

hive> select count(*) from mytest_impala where id = ‘1205-4721599131-fa2451a7′;
Total MapReduce jobs = 1
Launching Job 1 out of 1
Number of reduce tasks determined at compile time: 1
In order to change the average load for a reducer (in bytes):
set hive.exec.reducers.bytes.per.reducer=
In order to limit the maximum number of reducers:
set hive.exec.reducers.max=
In order to set a constant number of reducers:
set mapred.reduce.tasks=
Starting Job = job_1361238384421_0002, Tracking URL = http://192.168.22.30:12088/proxy/application_1361238384421_0002/
Kill Command = /home/zhengzn/hadoop/bin/hadoop job -Dmapred.job.tracker=ignorethis -kill job_1361238384421_0002
Hadoop job information for Stage-1: number of mappers: 44; number of reducers: 1
2013-02-20 12:46:19,786 Stage-1 map = 0%, reduce = 0%
…
2013-02-20 12:48:00,077 Stage-1 map = 100%, reduce = 100%, Cumulative CPU 295.09 sec
MapReduce Total cumulative CPU time: 4 minutes 55 seconds 90 msec
Ended Job = job_1361238384421_0002
MapReduce Jobs Launched:
Job 0: Map: 44 Reduce: 1 Cumulative CPU: 295.09 sec HDFS Read: 11393427897 HDFS Write: 2 SUCCESS
Total MapReduce CPU Time Spent: 4 minutes 55 seconds 90 msec
OK
9
Time taken: 107.81 seconds

2.5 性能测试4

测试select count(*) from mytest_impala group by id;。

2.5.1 使用Impala的执行情况

[192.168.22.31:21000] > select count(*) from mytest_impala group by id;
Returned 2587674 row(s) in 146.32s

2.5.2 使用Hive的执行情况

hive> select count(*) from mytest_impala group by id;
Total MapReduce jobs = 1
Launching Job 1 out of 1
Number of reduce tasks not specified. Estimated from input data size: 12
In order to change the average load for a reducer (in bytes):
set hive.exec.reducers.bytes.per.reducer=
In order to limit the maximum number of reducers:
set hive.exec.reducers.max=
In order to set a constant number of reducers:
set mapred.reduce.tasks=
Starting Job = job_1361238384421_0005, Tracking URL = http://192.168.22.30:12088/proxy/application_1361238384421_0005/
Kill Command = /home/zhengzn/hadoop/bin/hadoop job -Dmapred.job.tracker=ignorethis -kill job_1361238384421_0005
Hadoop job information for Stage-1: number of mappers: 44; number of reducers: 12
2013-02-20 17:39:48,627 Stage-1 map = 0%, reduce = 0%
…
2013-02-20 17:41:36,799 Stage-1 map = 100%, reduce = 92%, Cumulative CPU 469.77 sec

Time taken: 155.724 seconds

2.6 测试总结

对于上面的测试结果我们也觉得有些困惑，为何跟Impala专家号称的比Hive快3~30倍差那么远呢，虽然是快了点，但并没有传说中的神速。到底是我们的测试节点不够呢，还是我们的测试方法欠妥，本文就以该问题做结束，留给你我来共同思考验证，期待高手不吝赐教。。。。。。

您可能感兴趣的文章

你可能感兴趣的:(impala)

Spring Cloud: Hystrix请求队列线程不足 MeazZa
在SpringCloud中，Feign可以实现本地化的微服务API调用，Hystrix可以实现调用失败时的fallback处理。问题描述：在实际生产环境中使用时，我们遇到了这样一个错误："...,stacktrace:[com.netflix.hystrix.exception.HystrixRuntimeException:QueryNodeImpalaBdService#getQueryRes
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构汤萌妮Margaret
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构scalable_agent项目地址:https://gitcode.com/gh_mirrors/sc/scalable_agent在当今的人工智能研究前沿，深度强化学习（DRL）因其在复杂任务中的卓越表现而备受瞩目。本文要介绍的是一个开源于GitHub的重量级项目：“ScalableDistributedDeep-RLwithImp
2024年大数据高频面试题(下篇）猿与禅 Java架构师面试大数据面试 scala 即席查询分桶调度系统数据倾斜
文章目录Scala数据类型函数式编程闭包函数柯里化面向对象样例类对象与伴生对象特质(trait)模式匹配隐式转换即席查询KylinKylin特点Kylin工作原理核心算法Kylin总结Kylin的优点什么场景用KylinKylin的缺点Impala什么是ImpalaImpala为什么快FrontendBackendImpala总结：Presto什么是PrestoPresto的执行过程Presto总
Impala-架构与设计临江蓑笠翁大数据 #Impala 架构
架构与设计一、背景和起源二、框架概述1.设计特点2.框架优点3.框架限制三、架构图1.ImpalaDaemon2.Statestore3.Catalog四、Impala查询流程1.发起查询2.生成执行计划3.分配任务4.交换中间数据5.汇集结果6.返回结果总结参考链接一、背景和起源现有的大数据查询分析工具Hive更适合长时间批处理查询分析，并不能满足实时交互式场景。因此根据谷歌的Dremel设计思
史上最全OLAP对比只会写demo的程序猿数仓 spark hadoop 数据仓库
目录1.什么是OLAP2.OLAP引擎的常见操作3.OLAP分类MOLAP的优点和缺点ROLAP的优点和缺点4.并发能力与查询延迟对比5.执行模型对比5.OLAP引擎的主要特点5.2SparkSQL、FlinkSQL5.3Clickhouse5.4Elasticsearch5.5Presto5.6Impala5.7Doris5.8Druid5.9Kylin综上所述:1.什么是OLAPOLAP（On
【Iceberg学习一】什么是Iceberg？周润发的弟弟 Iceberg 学习
ApacheIceberg是一个面向大型分析数据集的开放表格格式。Iceberg为包括Spark、Trino、PrestoDB、Flink、Hive和Impala在内的计算引擎增加了表格功能，使用一种高性能的表格格式，其工作方式就像一个SQL表一样。用户体验Iceberg避免了不愉快的意外。模式演化功能正常运作，并不会无意中恢复已删除的数据。用户无需了解分区信息也能获得快速查询。模式演化支持添加、
Spark Chapter 8 Spark SQL 深海suke
【参考以慕课网日志分析为例进入大数据Sparksql】0导读SQL：MySQL，Oracle，DB2，SQLServer在大数据平台上实现大数据计算：Hive/SparkSQL/SparkCore直接使用SQL语句进行大数据分析hive的问题：底层MR，2.x之后可以用spark应用场景SQLonHadoop:Hive,Shark(不维护了)，Impala（Cloudera，内存使用较多），Pre
SQL Parser TaiKuLaHa sql 数据库
https://blog.csdn.net/w1047667241/article/details/123110220alibabadruid经过不断迭代，已经解决了很多hive解析的bug，比如2020年的createtablebug支持的dbtype多，impala,hive，oracle等等都支持。缺点就是捆绑销售，1个jar包高大全的datasource全家桶。我们只是想要parser而已
Kudu+Impala介绍 wjmmjr1
转自：http://www.360doc.com/content/18/0913/16/59691344_786386910.shtmlKudu+Impala介绍概述Kudu和Impala均是Cloudera贡献给Apache基金会的顶级项目。Kudu作为底层存储，在支持高并发低延迟kv查询的同时，还保持良好的Scan性能，该特性使得其理论上能够同时兼顾OLTP类和OLAP类查询。Impala作为
impala与kudu进行集成 shandongwill 大数据 impala kudu impala与kudu集成
文章目录概要Kudu与Impala整合配置Impala内部表Impala外部表Impalasql操作kuduImpalajdbc操作表如果使用了Hadoop使用了Kerberos认证，可使用如下方式进行连接。概要Impala是一个开源的高效率的SQL查询引擎，用于查询存储在Hadoop分布式文件系统（HDFS）中的大规模数据集。它提供了一个类似于传统关系型数据库的SQL接口，允许用户使用SQL语言
45.使用Sentry授权—Kudu 大勇任卷舒
45.1演示环境CDH5.11.2和CDH5.13两个集群运行正常两个集群Kudu已经安装，且已集成Impala，操作正常两个集群都已启用Sentry并且配置正确CDH5.11.2和CDH5.13集群用root用户操作集群未启用Kerberos该项不影响整个测试效果，Fayson只是为了操作方便。45.2操作演示CDH5.11.2测试Kudu1.3的Sentry授权创建admin管理员role，给
大数据入门-大数据技术概述(二) 水坚石青大数据理论大数据 spark kafka
目录大数据入门系列文章1.大数据入门-大数据是什么2.大数据入门-大数据技术概述(一)一、简介二、技术详解1.分布式协调服务：Zookeeper2.分布式资源管理器：Yarn3.计算引擎：Spark4.查询引擎：Impala5.分布式消息系统：Kafka6.日志收集系统：Flume大数据入门系列文章1.大数据入门-大数据是什么2.大数据入门-大数据技术概述(一)最近在收集整理大数据入门文章，各位盆
使用haproxy做impala的负载均衡要树立远大的理想 Impala 负载均衡 impala haproxy
1.IMPALA组件概述Impala组件包含3个子模块（ImpalaCatalogServer、ImpalaStateStore、ImpalaDaemon），如图所示：其中ImpalaCatalogServer与ImpalaStateStore是无数据、无状态的模块，没有高可用的需求更不需要做负载均衡；ImpalaDaemon模块的每一个节点都可以提供jdbc和thrift服务（作为coordin
Fink CDC数据同步（三）Flink集成Hive 苡~ flink hive 大数据
1目的持久化元数据Flink利用Hive的MetaStore作为持久化的Catalog，我们可通过HiveCatalog将不同会话中的Flink元数据存储到HiveMetastore中。利用Flink来读写Hive的表Flink打通了与Hive的集成，如同使用SparkSQL或者Impala操作Hive中的数据一样，我们可以使用Flink直接读写Hive中的表。2环境及依赖环境：vim/etc/p
InnoDB行格式 saviochen
InnoDB的记录按行存储在数据页中。记录在数据页种的排布在《InnoDB页面结构》中已述及，本文重点介绍InnoDB的记录格式。1行格式总览InnoDB规划了26种行格式，分别对应26种动物，首字母由A至Z：Antelope,Barracuda,Cheetah,Dragon,Elk,Fox,Gazelle,Hornet,Impala,Jaguar,Kangaroo,Leopard,Moose,N
不同的强化学习模型适配与金融二级市场的功能性建议路人与大师金融
DQNESDDPGA2CTD3SACQMIXMADDPGPPOCQLIMPALA哪个模型适合进行股票操作在考虑使用哪种模型进行股票操作时，需要考虑模型的特点、适用场景以及实现复杂度等因素。以下是对您列出的几种强化学习模型的简要概述，以帮助您做出选择：DQN(DeepQ-Network):适合：适用于离散动作空间的强化学习任务。特点：通过神经网络近似Q函数，使用经验回放和目标网络来提高学习的稳定性和
Impala源码阅读——SimpleScheduler stiga-huang Impala impala 源码调度
Scheduler的任务相关概念：DistributedPlan在Frontend中已经把SQL转换成了singlenodeplan，然后又将其切分成了distributedplan。代码见Planner::createPlan和DistributedPlanner::createPlanFragments.比如左图的singlenodeplan会切成为右图的distributedplan（图片来
Impala实践：解析glog打印的 C++ 报错堆栈 stiga-huang Impala c++impala
Impala实践：解析glog打印的C++报错堆栈Impala使用glog生成日志。生产环境用的都是releasebuild，glog产生的报错堆栈里没有函数名，很难像Java报错堆栈那样方便定位问题。下面是Impalad日志中的一个报错：I052209:07:16.00205620222status.cc:128]Snappy:RawUncompressfailed@0xae26c9@0x107
Impala如何将Iceberg上的查询编译性能提升12倍 stiga-huang Impala impala 大数据
Impala如何将Iceberg上的查询编译性能提升12倍原文作者：RizaSuminto原文链接：https://blog.cloudera.com/12-times-faster-query-planning-with-iceberg-manifest-caching-in-impala/译者：stiga-huangApacheIceberg是一种新兴的开放表格式，专为大规模分析场景而设计。I
Kudu-1.16编译中下载Gradle依赖失败的解决办法 stiga-huang Impala gradle impala
Kudu-1.16编译中下载Gradle依赖失败的解决办法最近在国内的机器上编译Impala的native-toolchain，没法挂代理，发现编译kudu-1.16时失败了：FAILURE:Buildfailedwithanexception.*Whatwentwrong:Executionfailedfortask':buildSrc:compileGroovy'.>Couldnotresol
Apache Impala 4.2概览 stiga-huang Impala apache impala
ApacheImpala4.2概览Impala4.2于2022年12月发布，共有265个commits，有37位开发者贡献了代码。1.新功能1.1Iceberg相关新功能支持读取使用positiondelete模式的IcebergV2表(IMPALA-11484)支持读取Iceberg表的虚拟列，如INPUT__FILE__NAME,FILE__POSITION等（IMPALA-801,IMPAL
Apache Impala 4.1概览 stiga-huang Impala apache impala
ApacheImpala4.1概览自从Impala4.0发布后，历时近11个月，Impala4.1终于发布了！新版本在Iceberg集成、Catalog优化、Parquet/ORC读取性能、嵌套类型等方面都有较大进展。限于个人认知和篇幅有限，本文只能挑些重要功能进行介绍，详细更新列表可见ChangeLog-4.1.1.Iceberg集成Impala-4.1开始正式支持ApacheIceberg。I
在CDH6.3中单独升级Impala到Apache Impala 3.4 stiga-huang Impala impala cloudera CDH
１.实验环境一个CDH6.3.3集群，部署在三台Ubuntu16.04机器上一台同样环境的Ubuntu16.04机器用来编译ApacheImpala3.4CDH6.3.3对应的Impala基础版本是ApacheImpala3.2，当然还打了不少补丁。从Impala网页上能看到版本号是3.2.0-cdh6.3.32.编译ApacheImpala3.4ApacheImpala是以源码的形式releas
Impala-shell卡顿分析——记一次曲折的Debug经历 stiga-huang Impala 大数据 impala debug
Impala-shell卡顿分析——记一次曲折的Debug经历问题发现最近准备在Impala中增加对UTF-8的支持，以修正跟Hive、Spark等基于Java的系统在UTF-8字符串上的不兼容表现（如IMPALA-2019、IMPALA-5675、IMPALA-9662等）。结果在impala-shell里简单跑了个substring查询就挂住了：[localhost:21050]default
如何在Apache JIRA中搜索issue stiga-huang Impala apache impala jira 开发工具
经常会遇到这样的问题：某个功能在哪个Impala版本开始有？具体细节是什么？某个bug在哪个Impala版本开始出现/修复？遇到某个报错，是否是已知问题？这些当然可以直接google，但也可以在ApacheJIRA中搜索，结果会更精准。操作步骤打开网址：https://issues.apache.org/jira或者任何一个已有issue的链接。点击左上角的Issues->Searchforiss
Apache Impala 4.0概览 stiga-huang Impala 大数据分布式数据库
ApacheImpala4.0概览历经15个月，ApacheImpala4.0终于发布了！本次发布一共包含700多个JIRA，本文将带大家快速了解4.0的主要改动，参考自社区ReleaseNotes：http://impala.apache.org/docs/release-notes-4.0.html非兼容性改动大版本一般会有非兼容性的改动，主要是抛弃掉一些历史负担，让整个代码库更简洁更易于维护
动态调整Impala日志级别 stiga-huang Impala cloudera 大数据
Impala日志级别诊断线上事故时，动态调整日志级别非常有用，Impala的各个server也提供这样的能力。每个server都有一个/log_level页面，如图：Impala的FE代码中主要用了FATAL、INFO、TRACE三种日志级别，很少用DEBUG。因此实战时一般是把日志级别调成TRACE，另外由于不确定是哪个类出问题，最好把整个org.apache.impala包的日志级别都调成TR
Impala 3.4的新功能和社区进展 stiga-huang Impala 大数据 impala
Impala3.4的新功能和社区进展Impala社区在四月底发布了3.4版本。这是时隔半年后的又一个新版本，也是最后一个3.x版本。之后将进入4.x时代，为的是接受一系列breakingchanges，如删除对过时操作系统（Centos6、Ubuntu14等）的支持、删除对Sentry的支持、删除对lzo的支持等。具体的breakingchanges还在讨论之中，感兴趣的同学可以订阅邮件列表参与讨
Impala编译：一个maven编译错误的解决 stiga-huang Impala maven 大数据 cloudera
编译Impala时遇到了一个maven错误，准确地说是编译testdata模块时报的错。我用的指令是“./buildall.sh-skiptests-format-testdata”，遇到的错误如下：========================================================================Runningmvn-UpackageDirectory
Impala查询卡顿分析案例 stiga-huang Impala Impala
Impala查询卡顿分析案例最近在开发时遇到查询卡顿(stuck)的情况，感觉比较有代表性，因此记录一下排查过程。在生产环境中也可以用类似的方法找到卡顿的源头。注：本文所用的Impala版本为3.4.0-SNAPSHOT。Impala由C++和Java写成，分别对应BE(Backend)和FE(Frontend)两部分。案例描述使用AlterTable语句新建一个partition时，查询一直不返
jvm调优总结（从基本概念到深度优化） oloz java jvm jdk 虚拟机应用服务器
JVM参数详解：http://www.cnblogs.com/redcreen/archive/2011/05/04/2037057.html Java虚拟机中，数据类型可以分为两类：基本类型和引用类型。基本类型的变量保存原始值，即：他代表的值就是数值本身；而引用类型的变量保存引用值。“引用值”代表了某个对象的引用，而不是对象本身，对象本身存放在这个引用值所表示的地址的位置。
【Scala十六】Scala核心十：柯里化函数 bit1129 scala
本篇文章重点说明什么是函数柯里化，这个语法现象的背后动机是什么，有什么样的应用场景，以及与部分应用函数(Partial Applied Function)之间的联系 1. 什么是柯里化函数 A way to write functions with multiple parameter lists. For instance def f(x: Int)(y: Int) is a
HashMap dalan_123 java
HashMap在java中对很多人来说都是熟的；基于hash表的map接口的非同步实现。允许使用null和null键；同时不能保证元素的顺序；也就是从来都不保证其中的元素的顺序恒久不变。 1、数据结构在java中，最基本的数据结构无外乎：数组和引用（指针），所有的数据结构都可以用这两个来构造，HashMap也不例外，归根到底HashMap就是一个链表散列的数据
Java Swing如何实时刷新JTextArea，以显示刚才加append的内容周凡杨 java 更新 swing JTextArea
在代码中执行完textArea.append("message")后，如果你想让这个更新立刻显示在界面上而不是等swing的主线程返回后刷新，我们一般会在该语句后调用textArea.invalidate()和textArea.repaint()。问题是这个方法并不能有任何效果，textArea的内容没有任何变化，这或许是swing的一个bug，有一个笨拙的办法可以实现
servlet或struts的Action处理ajax请求 g21121 servlet
其实处理ajax的请求非常简单，直接看代码就行了： //如果用的是struts //HttpServletResponse response = ServletActionContext.getResponse(); // 设置输出为文字流 response.setContentType("text/plain"); // 设置字符集 res
FineReport的公式编辑框的语法简介老A不折腾 finereport 公式总结
FINEREPORT用到公式的地方非常多，单元格（以=开头的便被解析为公式），条件显示，数据字典，报表填报属性值定义，图表标题，轴定义，页眉页脚，甚至单元格的其他属性中的鼠标悬浮提示内容都可以写公式。简单的说下自己感觉的公式要注意的几个地方： 1.if语句语法刚接触感觉比较奇怪，if(条件式子,值1,值2)，if可以嵌套，if(条件式子1，值1，if(条件式子2，值2，值3)
linux mysql 数据库乱码的解决办法墙头上一根草 linux mysql 数据库乱码
linux 上mysql数据库区分大小写的配置 lower_case_table_names=1 1-不区分大小写 0-区分大小写修改/etc/my.cnf 具体的修改内容如下: [client] default-character-set=utf8 [mysqld] datadir=/var/lib/mysql socket=/va
我的spring学习笔记6-ApplicationContext实例化的参数兼容思想 aijuans Spring 3
ApplicationContext能读取多个Bean定义文件，方法是： ApplicationContext appContext = new ClassPathXmlApplicationContext（ new String[]｛“bean-config1.xml”，“bean-config2.xml”，“bean-config3.xml”，“bean-config4.xml
mysql 基准测试之sysbench annan211 基准测试 mysql基准测试 MySQL测试 sysbench
1 执行如下命令，安装sysbench-0.5： tar xzvf sysbench-0.5.tar.gz cd sysbench-0.5 chmod +x autogen.sh ./autogen.sh ./configure --with-mysql --with-mysql-includes=/usr/local/mysql
sql的复杂查询使用案列与技巧百合不是茶 oracle sql 函数数据分页合并查询
本片博客使用的数据库表是oracle中的scott用户表; ------------------- 自然连接查询查询 smith 的上司(两种方法) &
深入学习Thread类 bijian1013 java thread 多线程 java多线程
一．线程的名字下面来看一下Thread类的name属性，它的类型是String。它其实就是线程的名字。在Thread类中，有String getName()和void setName(String)两个方法用来设置和获取这个属性的值。同时，Thr
JSON串转换成Map以及如何转换到对应的数据类型 bijian1013 java fastjson net.sf.json
在实际开发中，难免会碰到JSON串转换成Map的情况，下面来看看这方面的实例。另外，由于fastjson只支持JDK1.5及以上版本，因此在JDK1.4的项目中可以采用net.sf.json来处理。一.fastjson实例 JsonUtil.java package com.study; impor
【RPC框架HttpInvoker一】HttpInvoker：Spring自带RPC框架 bit1129 spring
HttpInvoker是Spring原生的RPC调用框架，HttpInvoker同Burlap和Hessian一样，提供了一致的服务Exporter以及客户端的服务代理工厂Bean，这篇文章主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中
【Mahout二】基于Mahout CBayes算法的20newsgroup的脚本分析 bit1129 Mahout
#!/bin/bash # # Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agreements. See the NOTICE file distributed with # this work for additional information re
nginx三种获取用户真实ip的方法 ronin47
随着nginx的迅速崛起，越来越多公司将apache更换成nginx. 同时也越来越多人使用nginx作为负载均衡, 并且代理前面可能还加上了CDN加速，但是随之也遇到一个问题：nginx如何获取用户的真实IP地址,如果后端是apache,请跳转到<apache获取用户真实IP地址>，如果是后端真实服务器是nginx，那么继续往下看。实例环境：用户IP 120.22.11.11
java-判断二叉树是不是平衡 bylijinnan java
参考了 http://zhedahht.blog.163.com/blog/static/25411174201142733927831/ 但是用java来实现有一个问题。由于Java无法像C那样“传递参数的地址，函数返回时能得到参数的值”，唯有新建一个辅助类：AuxClass import ljn.help.*; public class BalancedBTree {
BeanUtils.copyProperties VS PropertyUtils.copyProperties 诸葛不亮 PropertyUtils BeanUtils
BeanUtils.copyProperties VS PropertyUtils.copyProperties 作为两个bean属性copy的工具类，他们被广泛使用，同时也很容易误用，给人造成困然；比如：昨天发现同事在使用BeanUtils.copyProperties copy有integer类型属性的bean时，没有考虑到会将null转换为0，而后面的业
[金融与信息安全]最简单的数据结构最安全 comsci 数据结构
现在最流行的数据库的数据存储文件都具有复杂的文件头格式，用操作系统的记事本软件是无法正常浏览的，这样的情况会有什么问题呢？从信息安全的角度来看，如果我们数据库系统仅仅把这种格式的数据文件做异地备份，如果相同版本的所有数据库管理系统都同时被攻击，那么
vi区段删除 Cwind linux vi 区段删除
区段删除是编辑和分析一些冗长的配置文件或日志文件时比较常用的操作。简记下vi区段删除要点备忘。 vi概述引文中并未将末行模式单独列为一种模式。单不单列并不重要，能区分命令模式与末行模式即可。 vi区段删除步骤： 1. 在末行模式下使用:set nu显示行号非必须，随光标移动vi右下角也会显示行号，能够正确找到并记录删除开始行
清除tomcat缓存的方法总结 dashuaifu tomcat 缓存
用tomcat容器，大家可能会发现这样的问题，修改jsp文件后，但用IE打开依然是以前的Jsp的页面。出现这种现象的原因主要是tomcat缓存的原因。解决办法如下: 在jsp文件头加上 <meta http-equiv="Expires" content="0"> <meta http-equiv="kiben&qu
不要盲目的在项目中使用LESS CSS dcj3sjt126com Web less
　如果你还不知道LESS CSS是什么东西，可以看一下这篇文章，是我一朋友写给新人看的《CSS——LESS》　　不可否认，LESS CSS是个强大的工具，它弥补了css没有变量、无法运算等一些“先天缺陷”，但它似乎给我一种错觉，就是为了功能而实现功能。　　比如它的引用功能 ? .rounded_corners{
[入门]更上一层楼 dcj3sjt126com PHP yii2
更上一层楼通篇阅读完整个“入门”部分，你就完成了一个完整 Yii 应用的创建。在此过程中你学到了如何实现一些常用功能，例如通过 HTML 表单从用户那获取数据，从数据库中获取数据并以分页形式显示。你还学到了如何通过 Gii 去自动生成代码。使用 Gii 生成代码把 Web 开发中多数繁杂的过程转化为仅仅填写几个表单就行。本章将介绍一些有助于更好使用 Yii 的资源：
Apache HttpClient使用详解 eksliang httpclient http协议
Http协议的重要性相信不用我多说了，HttpClient相比传统JDK自带的URLConnection，增加了易用性和灵活性（具体区别，日后我们再讨论），它不仅是客户端发送Http请求变得容易，而且也方便了开发人员测试接口（基于Http协议的），即提高了开发的效率，也方便提高代码的健壮性。因此熟练掌握HttpClient是很重要的必修内容，掌握HttpClient后，相信对于Http协议的了解会
zxing二维码扫描功能 gundumw100 android zxing
经常要用到二维码扫描功能现给出示例代码 import com.google.zxing.WriterException; import com.zxing.activity.CaptureActivity; import com.zxing.encoding.EncodingHandler; import android.app.Activity; import an
纯HTML+CSS带说明的黄色导航菜单 ini html Web html5 css hovertree
HoverTree带说明的CSS菜单:纯HTML+CSS结构链接带说明的黄色导航在线体验效果：http://hovertree.com/texiao/css/1.htm代码如下,保存到HTML文件可以看到效果： <!DOCTYPE html > <html > <head> <title>HoverTree
fastjson初始化对性能的影响 kane_xie fastjson 序列化
之前在项目中序列化是用thrift，性能一般，而且需要用编译器生成新的类，在序列化和反序列化的时候感觉很繁琐，因此想转到json阵营。对比了jackson，gson等框架之后，决定用fastjson，为什么呢，因为看名字感觉很快。。。网上的说法： fastjson 是一个性能很好的 Java 语言实现的 JSON 解析器和生成器，来自阿里巴巴的工程师开发。
基于Mybatis封装的增删改查实现通用自动化sql mengqingyu DAO
1.基于map或javaBean的增删改查可实现不写dao接口和实现类以及xml，有效的提高开发速度。 2.支持自定义注解包括主键生成、列重复验证、列名、表名等 3.支持批量插入、批量更新、批量删除 <bean id="dynamicSqlSessionTemplate" class="com.mqy.mybatis.support.Dynamic
js控制input输入框的方法封装(数字，中文，字母，浮点数等) qifeifei javascript js
在项目开发的时候，经常有一些输入框，控制输入的格式，而不是等输入好了再去检查格式，格式错了就报错，体验不好。 /** 数字，中文，字母,浮点数(+/-/.) 类型输入限制，只要在input标签上加上 jInput="number,chinese,alphabet,floating" 备注：floating属性只能单独用*/ funct
java 计时器应用 tangqi609567707 java timer
mport java.util.TimerTask; import java.util.Calendar; public class MyTask extends TimerTask { private static final int
erlang输出调用栈信息 wudixiaotie erlang
在erlang otp的开发中，如果调用第三方的应用，会有有些错误会不打印栈信息，因为有可能第三方应用会catch然后输出自己的错误信息，所以对排查bug有很大的阻碍，这样就要求我们自己打印调用的栈信息。用这个函数：erlang:process_display (self (), backtrace).需要注意这个函数只会输出到标准错误输出。也可以用这个函数：erlang:get_s