Imflash

Impala

文章目录

Apache Impala

二、 Apache Impala

1． Impala基本介绍
2． Impala与Hive关系
3． Impala与Hive异同

3.1． Impala使用的优化技术
3.2．执行计划
3.3．数据流
3.4．内存使用
3.5．调度
3.6．容错
3.7．适用面

4． Impala架构

4.1． Impalad
4.2． Impala State Store
4.3． CLI
4.4． Catalogd

5． Impala查询处理过程

三、 Impala安装部署

1．安装前提
2．下载安装包、依赖包
3．虚拟机新增磁盘（可选）

3.1．关机新增磁盘
3.2．开机挂载磁盘

4．配置本地yum源

4.1．上传安装包解压
4.2．配置本地yum源信息

5．安装Impala

5.1．集群规划
5.2．主节点安装
5.3．从节点安装

6．修改Hadoop、Hive配置

6.1．修改hive配置
6.2．修改hadoop配置
6.3．重启hadoop、hive
6.4．复制hadoop、hive配置文件

7．修改impala配置

7.1．修改impala默认配置
7.2．添加mysql驱动
7.3．修改bigtop配置

8．启动、关闭impala服务

8.1． impala web ui

四、 Impala-shell命令参数

1． impala-shell外部命令
2． impala-shell内部命令

五、 Impala sql语法

1．数据库特定语句

1.1．创建数据库
1.2．删除数据库

2．表特定语句

2.1． create table语句
2.2． insert语句
2.3． select语句
2.4． describe语句
2.5． alter table
2.6． delete、truncate table
2.7． view视图
2.8． order by子句
2.9． group by子句
2.10． having子句
2.11． limit、offset
2.12． with子句（适合子查询）
2.13． distinct

六、 Impala数据导入方式

1． load data
2． insert into values
3． insert into select
4． create as select

七、 Impala的java开发

1．下载impala jdbc依赖
2．创建java工程
3． java api

Apache Impala

二、 Apache Impala

1． Impala基本介绍

impala是cloudera提供的一款高效率的sql查询工具，提供实时的查询效果，官方测试性能比hive快10到100倍，其sql查询比sparkSQL还要更加快速，号称是当前大数据领域最快的查询sql工具，

impala是参照谷歌的新三篇论文（Caffeine–网络搜索引擎、Pregel–分布式图计算、Dremel–交互式分析工具）当中的Dremel实现而来，其中旧三篇论文分别是（BigTable，GFS，MapReduce）分别对应我们即将学的HBase和已经学过的HDFS以及MapReduce。

impala是基于hive并使用内存进行计算，兼顾数据仓库，具有实时，批处理，多并发等优点。

2． Impala与Hive关系

impala是基于hive的大数据分析查询引擎，直接使用hive的元数据库metadata，意味着impala元数据都存储在hive的metastore当中，并且impala兼容hive的绝大多数sql语法。所以需要安装impala的话，必须先安装hive，保证hive安装成功，并且还需要启动hive的metastore服务。

Hive元数据包含用Hive创建的database、table等元信息。元数据存储在关系型数据库中，如Derby、MySQL等。

客户端连接metastore服务，metastore再去连接MySQL数据库来存取元数据。有了metastore服务，就可以有多个客户端同时连接，而且这些客户端不需要知道MySQL数据库的用户名和密码，只需要连接metastore 服务即可。

nohup hive --service metastore >> ~/metastore.log 2>&1 &

Hive适合于长时间的批处理查询分析，而Impala适合于实时交互式SQL查询。可以先使用hive进行数据转换处理，之后使用Impala在Hive处理后的结果数据集上进行快速的数据分析。

3． Impala与Hive异同

Impala 与Hive都是构建在Hadoop之上的数据查询工具各有不同的侧重适应面，但从客户端使用来看Impala与Hive有很多的共同之处，如数据表元数据、ODBC/JDBC驱动、SQL语法、灵活的文件格式、存储资源池等。

但是Impala跟Hive最大的优化区别在于：没有使用 MapReduce进行并行计算，虽然MapReduce是非常好的并行计算框架，但它更多的面向批处理模式，而不是面向交互式的SQL执行。与 MapReduce相比，Impala把整个查询分成一执行计划树，而不是一连串的MapReduce任务，在分发执行计划后，Impala使用拉式获取数据的方式获取结果，把结果数据组成按执行树流式传递汇集，减少的了把中间结果写入磁盘的步骤，再从磁盘读取数据的开销。Impala使用服务的方式避免每次执行查询都需要启动的开销，即相比Hive没了MapReduce启动时间。

3.1． Impala使用的优化技术

使用LLVM产生运行代码，针对特定查询生成特定代码，同时使用Inline的方式减少函数调用的开销，加快执行效率。(C++特性)

充分利用可用的硬件指令（SSE4.2）。

更好的IO调度，Impala知道数据块所在的磁盘位置能够更好的利用多磁盘的优势，同时Impala支持直接数据块读取和本地代码计算checksum。

通过选择合适数据存储格式可以得到最好性能（Impala支持多种存储格式）。

最大使用内存，中间结果不写磁盘，及时通过网络以stream的方式传递

3.2．执行计划

Hive: 依赖于MapReduce执行框架，执行计划分成 map->shuffle->reduce->map->shuffle->reduce…的模型。如果一个Query会被编译成多轮MapReduce，则会有更多的写中间结果。由于MapReduce执行框架本身的特点，过多的中间过程会增加整个Query的执行时间。

Impala: 把执行计划表现为一棵完整的执行计划树，可以更自然地分发执行计划到各个Impalad执行查询，而不用像Hive那样把它组合成管道型的 map->reduce模式，以此保证Impala有更好的并发性和避免不必要的中间sort与shuffle。

3.3．数据流

Hive: 采用推的方式，每一个计算节点计算完成后将数据主动推给后续节点。

Impala: 采用拉的方式，后续节点通过getNext主动向前面节点要数据，以此方式数据可以流式的返回给客户端，且只要有1条数据被处理完，就可以立即展现出来，而不用等到全部处理完成，更符合SQL交互式查询使用。

3.4．内存使用

Hive: 在执行过程中如果内存放不下所有数据，则会使用外存，以保证Query能顺序执行完。每一轮MapReduce结束，中间结果也会写入HDFS中，同样由于MapReduce执行架构的特性，shuffle过程也会有写本地磁盘的操作。

Impala: 在遇到内存放不下数据时，版本1.0.1是直接返回错误，而不会利用外存，以后版本应该会进行改进。这使用得Impala目前处理Query会受到一定的限制，最好还是与Hive配合使用。

3.5．调度

Hive: 任务调度依赖于Hadoop的调度策略。

Impala: 调度由自己完成，目前只有一种调度器simple-schedule，它会尽量满足数据的局部性，扫描数据的进程尽量靠近数据本身所在的物理机器。调度器目前还比较简单，在SimpleScheduler::GetBackend中可以看到，现在还没有考虑负载，网络IO状况等因素进行调度。但目前 Impala已经有对执行过程的性能统计分析，应该以后版本会利用这些统计信息进行调度吧。

3.6．容错

Hive: 依赖于Hadoop的容错能力。

Impala: 在查询过程中，没有容错逻辑，如果在执行过程中发生故障，则直接返回错误（这与Impala的设计有关，因为Impala定位于实时查询，一次查询失败，再查一次就好了，再查一次的成本很低）。

3.7．适用面

Hive: 复杂的批处理查询任务，数据转换任务。

Impala：实时数据分析，因为不支持UDF，能处理的问题域有一定的限制，与Hive配合使用,对Hive的结果数据集进行实时分析。

4． Impala架构

Impala主要由Impalad、 State Store、Catalogd和CLI组成。

4.1． Impalad

Impalad: 与DataNode运行在同一节点上，由Impalad进程表示，它接收客户端的查询请求（接收查询请求的Impalad为Coordinator，Coordinator通过JNI调用java前端解释SQL查询语句，生成查询计划树，再通过调度器把执行计划分发给具有相应数据的其它Impalad进行执行），读写数据，并行执行查询，并把结果通过网络流式的传送回给Coordinator，由Coordinator返回给客户端。同时Impalad也与State Store保持连接，用于确定哪个Impalad是健康和可以接受新的工作。

在Impalad中启动三个ThriftServer: beeswax_server（连接客户端），hs2_server（借用Hive元数据）， be_server（Impalad内部使用）和一个ImpalaServer服务。

4.2． Impala State Store

Impala State Store: 跟踪集群中的Impalad的健康状态及位置信息，由statestored进程表示，它通过创建多个线程来处理Impalad的注册订阅和与各Impalad保持心跳连接，各Impalad都会缓存一份State Store中的信息，当State Store离线后（Impalad发现State Store处于离线时，会进入recovery模式，反复注册，当State Store重新加入集群后，自动恢复正常，更新缓存数据）因为Impalad有State Store的缓存仍然可以工作，但会因为有些Impalad失效了，而已缓存数据无法更新，导致把执行计划分配给了失效的Impalad，导致查询失败。

4.3． CLI

CLI: 提供给用户查询使用的命令行工具（Impala Shell使用python实现），同时Impala还提供了Hue，JDBC， ODBC使用接口。

4.4． Catalogd

Catalogd：作为metadata访问网关，从Hive Metastore等外部catalog中获取元数据信息，放到impala自己的catalog结构中。impalad执行ddl命令时通过catalogd由其代为执行，该更新则由statestored广播。

5． Impala查询处理过程

Impalad分为Java前端与C++处理后端，接受客户端连接的Impalad即作为这次查询的Coordinator，Coordinator通过JNI调用Java前端对用户的查询SQL进行分析生成执行计划树。

Java前端产生的执行计划树以Thrift数据格式返回给C++后端（Coordinator）（执行计划分为多个阶段，每一个阶段叫做一个PlanFragment，每一个PlanFragment在执行时可以由多个Impalad实例并行执行(有些PlanFragment只能由一个Impalad实例执行,如聚合操作)，整个执行计划为一执行计划树）。

Coordinator根据执行计划，数据存储信息（Impala通过libhdfs与HDFS进行交互。通过hdfsGetHosts方法获得文件数据块所在节点的位置信息），通过调度器（现在只有simple-scheduler, 使用round-robin算法）Coordinator::Exec对生成的执行计划树分配给相应的后端执行器Impalad执行（查询会使用LLVM进行代码生成，编译，执行），通过调用GetNext()方法获取计算结果。

如果是insert语句，则将计算结果通过libhdfs写回HDFS当所有输入数据被消耗光，执行结束，之后注销此次查询服务。

三、 Impala安装部署

1．安装前提

集群提前安装好hadoop，hive。

hive安装包scp在所有需要安装impala的节点上，因为impala需要引用hive的依赖包。

hadoop框架需要支持C程序访问接口，查看下图，如果有该路径下有这么文件，就证明支持C接口。

2．下载安装包、依赖包

由于impala没有提供tar包进行安装，只提供了rpm包。因此在安装impala的时候，需要使用rpm包来进行安装。rpm包只有cloudera公司提供了，所以去cloudera公司网站进行下载rpm包即可。

但是另外一个问题，impala的rpm包依赖非常多的其他的rpm包，可以一个个的将依赖找出来，也可以将所有的rpm包下载下来，制作成我们本地yum源来进行安装。这里就选择制作本地的yum源来进行安装。

所以首先需要下载到所有的rpm包，下载地址如下

http://archive.cloudera.com/cdh5/repo-as-tarball/5.14.0/cdh5.14.0-centos6.tar.gz

3．虚拟机新增磁盘（可选）

由于下载的cdh5.14.0-centos6.tar.gz包非常大，大概5个G，解压之后也最少需要5个G的空间。而我们的虚拟机磁盘有限，可能会不够用了，所以可以为虚拟机挂载一块新的磁盘，专门用于存储的cdh5.14.0-centos6.tar.gz包。

注意事项：新增挂载磁盘需要虚拟机保持在关机状态。

如果磁盘空间有余，那么本步骤可以省略不进行。

3.1．关机新增磁盘

虚拟机关机的状态下，在VMware当中新增一块磁盘。

3.2．开机挂载磁盘

开启虚拟机，对新增的磁盘进行分区，格式化，并且挂载新磁盘到指定目录。

下面对分区进行格式化操作：

mkfs -t ext4 -c /dev/sdb1

创建挂载目录：

mount -t ext4 /dev/sdb1 /cloudera_data/

添加至开机自动挂载：

vim /etc/fstab
/dev/sdb1   /cloudera_data    ext4    defaults    0 0

4．配置本地yum源

4.1．上传安装包解压

使用sftp的方式把安装包大文件上传到服务器/cloudera_data目录下。

cd /cloudera_data
tar -zxvf cdh5.14.0-centos6.tar.gz

4.2．配置本地yum源信息

安装Apache Server服务器

yum  -y install httpd
service httpd start
chkconfig httpd on

配置本地yum源的文件

cd /etc/yum.repos.d
vim localimp.repo

[localimp]
name=localimp
baseurl=http://node-3/cdh5.14.0/
gpgcheck=0
enabled=1

创建apache httpd的读取链接

ln -s /cloudera_data/cdh/5.14.0 /var/www/html/cdh5.14.0

确保linux的 Selinux关闭

#临时关闭：
[root@localhost ~]# getenforce
Enforcing
[root@localhost ~]# setenforce 0
[root@localhost ~]# getenforce

Permissive
#永久关闭：
[root@localhost ~]# vim /etc/sysconfig/selinux
SELINUX=enforcing 改为 SELINUX=disabled
#重启服务reboot

通过浏览器访问本地yum源，如果出现下述页面则成功。

http://192.168.227.153/cdh5.14.0/

将本地yum源配置文件localimp.repo发放到所有需要安装impala的节点。

cd /etc/yum.repos.d/
scp localimp.repo  node-2:$PWD
scp localimp.repo  node-3:$PWD

5．安装Impala

5.1．集群规划

服务名称	从节点	从节点	主节点
impala-catalog			Node-3
impala-state-store			Node-3
impala-server(impalad)	Node-1	Node-2	Node-3

5.2．主节点安装

在规划的主节点node-3执行以下命令进行安装：

yum install -y impala impala-server impala-state-store impala-catalog impala-shell

5.3．从节点安装

在规划的从 节点node-1 、 node-2执行以下命令进行安装：

yum install -y impala-server

6．修改Hadoop、Hive配置

需要在3台机器整个集群上进行操作，都需要修改。hadoop、hive是否正常服务并且配置好，是决定impala是否启动成功并使用的前提。

6.1．修改hive配置

可在node-1机器上进行配置，然后scp给其他2台机器。

vim /export/servers/hive/conf/hive-site.xml

<configuration> 
  <property> 
    <name>javax.jdo.option.ConnectionURLname>  
    <value>jdbc:mysql://node01:3306/hive?createDatabaseIfNotExist=truevalue> 
  property>  
  <property> 
    <name>javax.jdo.option.ConnectionDriverNamename>  
    <value>com.mysql.jdbc.Drivervalue> 
  property>  
  <property> 
    <name>javax.jdo.option.ConnectionUserNamename>  
    <value>rootvalue> 
  property>  
  <property> 
    <name>javax.jdo.option.ConnectionPasswordname>  
    <value>hadoopvalue> 
  property>  
  <property> 
    <name>hive.cli.print.current.dbname>  
    <value>truevalue> 
  property>  
  <property> 
    <name>hive.cli.print.headername>  
    <value>truevalue> 
  property>  
    
  <property> 
    <name>hive.server2.thrift.bind.hostname>  
    <value>node01value> 
  property>  
    
  <property> 
    <name>hive.metastore.urisname>  
    <value>thrift://node01:9083value> 
  property>  
  <property> 
    <name>hive.metastore.client.socket.timeoutname>  
    <value>3600value> 
  property> 
configuration>

vim /export/servers/hive/conf/hive-site.xml

将hive安装包cp给其他两个机器

cd /export/servers/
scp -r hive/ node02:$PWD
scp -r hive/ node03:$PWD

6.2．修改hadoop配置

所有节点创建下述文件夹

mkdir -p /var/run/hdfs-sockets

修改所有节点的hdfs-site.xml添加以下配置，修改完之后重启hdfs集群生效

vim   etc/hadoop/hdfs-site.xml

	<property>
		<name>dfs.client.read.shortcircuit</name>
		<value>true</value>
	</property>
	<property>
		<name>dfs.domain.socket.path</name>
		<value>/var/run/hdfs-sockets/dn</value>
	</property>
	<property>
		<name>dfs.client.file-block-storage-locations.timeout.millis</name>
		<value>10000</value>
	</property>
	<property>
		<name>dfs.datanode.hdfs-blocks-metadata.enabled</name>
		<value>true</value>
	</property>

dfs.client.read.shortcircuit 打开DFSClient本地读取数据的控制，

dfs.domain.socket.path是Datanode和DFSClient之间沟通的Socket的本地路径。

把更新hadoop的配置文件，scp给其他机器。

cd /export/servers/hadoop-2.7.5/etc/hadoop
scp -r hdfs-site.xml node-2:$PWD
scp -r hdfs-site.xml node-3:$PWD

注意：root用户不需要下面操作，普通用户需要这一步操作。

给这个文件夹赋予权限，如果用的是普通用户hadoop，那就直接赋予普通用户的权限，例如：

chown  -R  hadoop:hadoop   /var/run/hdfs-sockets/

因为这里直接用的root用户，所以不需要赋权限了

6.3．重启hadoop、hive

在node-1上执行下述命令分动别启hive metastore服务和hadoop。

cd  /export/servers/hive
nohup bin/hive --service metastore &
nohup bin/hive --service hiveserver2 &
cd /export/servers/hadoop-2.7.5/
sbin/stop-dfs.sh  |  sbin/start-dfs.sh

6.4．复制hadoop、hive配置文件

impala的配置目录为/etc/impala/conf，这个路径下面需要把core-site.xml，hdfs-site.xml以及hive-site.xml。

所有节点执行以下命令

cp -r /export/servers/hadoop-2.7.5/etc/hadoop/core-site.xml /etc/impala/conf/core-site.xml
cp -r /export/servers/hadoop-2.7.5/etc/hadoop/hdfs-site.xml /etc/impala/conf/hdfs-site.xml
cp -r /export/servers/apache-hive-2.1.1-bin/conf/hive-site.xml /etc/impala/conf/hive-site.xml

7．修改impala配置

7.1．修改impala默认配置

所有节点更改impala默认配置文件

vim /etc/default/impala
IMPALA_CATALOG_SERVICE_HOST=node02
IMPALA_STATE_STORE_HOST=node02

7.2．添加mysql驱动

通过配置/etc/default/impala中可以发现已经指定了mysql驱动的位置名字。解开注释

使用软链接指向该路径即可（3台机器都需要执行）

ln -s /export/servers/apache-hive-2.1.1-bin/lib/mysql-connector-java-5.1.38.jar /usr/share/java/mysql-connector-java.jar

7.3．修改bigtop配置

修改bigtop的java_home路径（3台机器）

vim /etc/default/bigtop-utils
export JAVA_HOME=/export/servers/jdk1.8.0_141

8．启动、关闭impala服务

主节点node-3启动以下三个服务进程

service impala-state-store start
service impala-catalog start
service impala-server start

从节点启动node-1与node-2启动impala-server

service  impala-server  start

查看impala进程是否存在

ps -ef | grep impala

启动之后所有关于impala的日志默认都在/var/log/impala

如果需要关闭impala服务把命令中的start该成stop即可。注意如果关闭之后进程依然驻留，可以采取下述方式删除。正常情况下是随着关闭消失的。

解决方式：

8.1． impala web ui

访问impalad的管理界面http://node02:25000/

访问statestored的管理界面http://node02:25010/

访问impalad的端口为25020

四、 Impala-shell命令参数

1． impala-shell外部命令

所谓的外部命令指的是不需要进入到impala-shell交互命令行当中即可执行的命令参数。impala-shell后面执行的时候可以带很多参数。你可以在启动 impala-shell 时设置，用于修改命令执行环境。

impala-shell –h可以帮助我们查看帮助手册。也可以参考课程附件资料。

比如几个常见的：

impala-shell –r刷新impala元数据，与建立连接后执行 REFRESH 语句效果相同

impala-shell –f 文件路径执行指的的sql查询文件。

impala-shell –i指定连接运行 impalad 守护进程的主机。默认端口是 21000。你可以连接到集群中运行 impalad 的任意主机。

impala-shell –o保存执行结果到文件当中去。

2． impala-shell内部命令

所谓内部命令是指，进入impala-shell命令行之后可以执行的语法。

connect hostname 连接到指定的机器impalad上去执行。

refresh dbname.tablename增量刷新，刷新某一张表的元数据，主要用于刷新hive当中数据表里面的数据改变的情况。

invalidate metadata全量刷新，性能消耗较大，主要用于hive当中新建数据库或者数据库表的时候来进行刷新。

quit/exit命令从Impala shell中弹出

explain 命令用于查看sql语句的执行计划。

explain的值可以设置成0,1,2,3等几个值，其中3级别是最高的，可以打印出最全的信息

set explain_level=3;

profile命令执行sql语句之后执行，可以

打印出更加详细的执行步骤，主要用于查询结果的查看，集群的调优等。

注意:如果在hive窗口中插入数据或者新建的数据库或者数据库表，那么在impala当中是不可直接查询，需要执行invalidate metadata以通知元数据的更新；

在impala-shell当中插入的数据，在impala当中是可以直接查询到的，hive也可以直接查到，不需要刷新数据库，其中使用的就是catalog这个服务的功能实现的，catalog是impala1.2版本之后增加的模块功能，主要作用就是同步impala之间的元数据。

更新操作通知Catalog，Catalog通过广播的方式通知其它的Impalad进程。默认情况下Catalog是异步加载元数据的，因此查询可能需要等待元数据加载完成之后才能进行（第一次加载）。

五、 Impala sql语法

1．数据库特定语句

1.1．创建数据库

CREATE DATABASE语句用于在Impala中创建新数据库。

CREATE DATABASE IF NOT EXISTS database_name;

这里，IF NOT EXISTS是一个可选的子句。如果我们使用此子句，则只有在没有具有相同名称的现有数据库时，才会创建具有给定名称的数据库。

impala默认使用impala用户执行操作，会报权限不足问题，解决办法：

一：给HDFS指定文件夹授予权限

hadoop fs -chmod -R 777 hdfs://node-1:9000/user/hive

二：haoop 配置文件中hdfs-site.xml 中设置权限为false

上述两种方式都可以。

默认就会在hive的数仓路径下创建新的数据库名文件夹

/user/hive/warehouse/ittest.db

也可以在创建数据库的时候指定hdfs路径。需要注意该路径的权限。

hadoop fs -mkdir -p /input/impala
hadoop fs -chmod -R 777 /input/impala

create  external table  t3(id int ,name string ,age int )  row  format  delimited fields terminated  by  '\t' location  '/input/impala/external';

1.2．删除数据库

Impala的DROP DATABASE语句用于从Impala中删除数据库。在删除数据库之前，建议从中删除所有表。

如果使用级联删除，Impala会在删除指定数据库中的表之前删除它。

DROP database sample cascade;

2．表特定语句

2.1． create table语句

CREATE TABLE语句用于在Impala中的所需数据库中创建新表。需要指定表名字并定义其列和每列的数据类型。

impala支持的数据类型和hive类似，除了sql类型外，还支持java类型

create table IF NOT EXISTS database_name.table_name (
   column1 data_type,
   column2 data_type,
   column3 data_type,
   ………
   columnN data_type
);

CREATE TABLE IF NOT EXISTS my_db.student(name STRING, age INT, contact INT );

默认建表的数据存储路径跟hive一致。也可以在建表的时候通过location指定具体路径，需要注意hdfs权限问题。

2.2． insert语句

Impala的INSERT语句有两个子句: into和overwrite。into用于插入新记录数据，overwrite用于覆盖已有的记录。

insert into table_name (column1, column2, column3,...columnN)
values (value1, value2, value3,...valueN);
Insert into table_name values (value1, value2, value2);

这里，column1，column2，… columnN是要插入数据的表中的列的名称。还可以添加值而不指定列名，但是，需要确保值的顺序与表中的列的顺序相同。

举个例子：

create table employee (Id INT, name STRING, age INT,address STRING, salary BIGINT);
insert into employee VALUES (1, 'Ramesh', 32, 'Ahmedabad', 20000 );
insert into employee values (2, 'Khilan', 25, 'Delhi', 15000 );
Insert into employee values (3, 'kaushik', 23, 'Kota', 30000 );
Insert into employee values (4, 'Chaitali', 25, 'Mumbai', 35000 );
Insert into employee values (5, 'Hardik', 27, 'Bhopal', 40000 );
Insert into employee values (6, 'Komal', 22, 'MP', 32000 );

overwrite覆盖子句覆盖表当中全部记录。覆盖的记录将从表中永久删除

Insert overwrite employee values (1, 'Ram', 26, 'Vishakhapatnam', 37000 );

2.3． select语句

Impala SELECT语句用于从数据库中的一个或多个表中提取数据。此查询以表的形式返回数据。

2.4． describe语句

Impala中的describe语句用于提供表的描述。此语句的结果包含有关表的信息，例如列名称及其数据类型。

Describe table_name;

此外，还可以使用hive的查询表元数据信息语句。

desc formatted table_name;

2.5． alter table

Impala中的Alter table语句用于对给定表执行更改。使用此语句，我们可以添加，删除或修改现有表中的列，也可以重命名它们。

表重命名：

ALTER TABLE [old_db_name.]old_table_name RENAME TO
 [new_db_name.]new_table_name

向表中添加列**：**

ALTER TABLE name ADD COLUMNS (col_spec[, col_spec ...])

从表中删除列：

ALTER TABLE name DROP [COLUMN] column_name

更改列的名称和类型：

ALTER TABLE name CHANGE column_name new_name new_type

2.6． delete、truncate table

Impala drop table语句用于删除Impala中的现有表。此语句还会删除内部表的底层HDFS文件。

注意：使用此命令时必须小心，因为删除表后，表中可用的所有信息也将永远丢失。

DROP table database_name.table_name;

Impala的Truncate Table语句用于从现有表中删除所有记录。保留表结构。

您也可以使用DROP TABLE命令删除一个完整的表，但它会从数据库中删除完整的表结构，如果您希望存储一些数据，您将需要重新创建此表。

truncate table_name;

2.7． view视图

视图仅仅是存储在数据库中具有关联名称的Impala查询语言的语句。它是以预定义的SQL查询形式的表的组合。

视图可以包含表的所有行或选定的行。

Create View IF NOT EXISTS view_name as Select statement

创建视图view、查询视图view

CREATE VIEW IF NOT EXISTS employee_view AS select name, age from employee;

修改视图

ALTER VIEW database_name.view_name as --加上Select语句

删除视图

DROP VIEW database_name.view_name;

2.8． order by子句

Impala ORDER BY子句用于根据一个或多个列以升序或降序对数据进行排序。默认情况下，一些数据库按升序对查询结果进行排序。

select * from table_name ORDER BY col_name
[ASC|DESC] [NULLS FIRST|NULLS LAST]

可以使用关键字ASC或DESC分别按升序或降序排列表中的数据。

如果我们使用NULLS FIRST，表中的所有空值都排列在顶行; 如果我们使用NULLS LAST，包含空值的行将最后排列。

2.9． group by子句

Impala GROUP BY子句与SELECT语句协作使用，以将相同的数据排列到组中。

select data from table_name Group BY col_name;

2.10． having子句

Impala中的Having子句允许您指定过滤哪些组结果显示在最终结果中的条件。

一般来说，Having子句与group by子句一起使用; 它将条件放置在由GROUP BY子句创建的组上。

2.11． limit、offset

Impala中的limit子句用于将结果集的行数限制为所需的数，即查询的结果集不包含超过指定限制的记录。

一般来说，select查询的resultset中的行从0开始。使用offset子句，我们可以决定从哪里考虑输出。

一个表可能位于多个文件中，所以limit查询时最好配置order by和offset使用；

2.12． with子句（适合子查询）

如果查询太复杂，我们可以为复杂部分定义别名，并使用Impala的with子句将它们包含在查询中。

with x as (select 1), y as (select 2) (select * from x union y);

例如：使用with子句显示年龄大于25的员工和客户的记录。

with t1 as (select * from customers where age>25), 
   t2 as (select * from employee where age>25) 
   (select * from t1 union select * from t2);

2.13． distinct

Impala中的distinct运算符用于通过删除重复值来获取唯一值。

select distinct columns… from table_name;

六、 Impala数据导入方式

1． load data

首先创建一个表：

create table user(id int ,name string,age int ) row format delimited fields terminated by "\t";

准备数据user.txt并上传到hdfs的 /user/impala路径下去

加载数据

load data inpath '/user/impala/' into table user;
--底层是mv,而不是cp

查询加载的数据

select  *  from  user;

如果查询不不到数据，那么需要刷新一遍数据表。

refresh user;

2． insert into values

这种方式非常类似于RDBMS的数据插入方式。

create table t_test2(id int,name string);
insert into table t_test2 values(1,”zhangsan”);--速度相对hive快很多，但是不推荐

3． insert into select

插入一张表的数据来自于后面的select查询语句返回的结果

4． create as select

建表的字段个数、类型、数据来自于后续的select查询语句。

七、 Impala的java开发

在实际工作当中，因为impala的查询比较快，所以可能有会使用到impala来做数据库查询的情况，可以通过java代码来进行操作impala的查询。

1．下载impala jdbc依赖

下载路径：

https://www.cloudera.com/downloads/connectors/impala/jdbc/2-5-28.html

因为cloudera属于商业公司性质，其提供的jar并不会出现在开源的maven仓库中，如果在企业中需要使用，请添加到企业maven私服。

2．创建java工程

创建普通java工程，把依赖添加工程。

3． java api

public static void test(){
        Connection con = null;
        ResultSet rs = null;
        PreparedStatement ps = null;
        String JDBC_DRIVER = "com.cloudera.impala.jdbc41.Driver";
        String CONNECTION_URL = "jdbc:impala://node-3:21050";
        try
        {
            Class.forName(JDBC_DRIVER);
            con = (Connection) DriverManager.getConnection(CONNECTION_URL);
            ps = con.prepareStatement("select * from my_db.employee");
            rs = ps.executeQuery();
            while (rs.next())
            {
                System.out.println(rs.getString(1));
                System.out.println(rs.getString(2));
                System.out.println(rs.getString(3));
            }
        } catch (Exception e)
        {
            e.printStackTrace();
        } finally
        {
            try {
                rs.close();
                ps.close();
                con.close();
            } catch (SQLException e) {
                e.printStackTrace();
            }
        }
    }
    public static void main(String[] args) {
        test();
    }

你可能感兴趣的:(大数据工具)

5118优惠券优惠链接是多少？5118优惠码怎么用？白杨SEO营销百度
5118是一个大数据工具，可以提供多种功能，如关键词挖掘、行业词库、站群权重监控、关键词排名监控、指数词、流量词挖掘工具等，是做SEO排名工作人员和网站运营者的必备工具！5118优惠券优惠链接是多少？5118优惠券优惠链接是：https://www.5118.com?promote=baiyang你也可以在使用时填写5118优惠码【baiyang】,用上它，可以有10%左右的优惠！5118优惠码怎
大数据技术汇总转身成为了码农大数据 hadoop hive spark 数据仓库
HadoopHadoop入门概述Hadoop运行模式介绍HadoopHDFS的运行流程HadoopMapReduce的运行流程Hadoopyarn的运行流程Hadoop内HDFS、MapReduce和YARN交互过程HadoopHDFS常用命令HadoopYARN常用命令Hive大数据工具Hive介绍大数据工具Hive架构设计原理大数据之Hive常用命令大数据之Hive常用聚合函数大数据之Hive
一文读懂大数据工具Phoenix：让你的数据管理更高效！知识分享小能手学习心得体会大数据大数据数据库数据分析
介绍：Phoenix，最初由saleforce开发并开源，后成为Apache基金会的顶级项目。它是一个构建在HBase上的SQL层，可以使用标准的JDBCAPIs而不是HBase客户端APIs来创建表、插入数据和查询HBase中的数据。此外，Phoenix还完全使用Java编写，作为HBase内嵌的JDBC驱动，将SQL查询转换为一个或多个HBase扫描。Phoenix的主要特点包括：将SQL查询
湖仓架构的演进土豆马铃薯数据湖架构大数据
1.数据仓库架构的历史演进起初，业界数据处理首选方式是数仓架构。通常数据处理的流程是把一些业务数据库，通过ETL的方式加载到DataWarehouse中，再在前端接入一些报表或者BI的工具去展示。数据仓库概念是Inmon于1990年提出并给出了完整的建设方法。随着互联网时代来临，数据量暴增，开始使用大数据工具来替代经典数仓中的传统工具。此时仅仅是工具的取代，架构上并没有根本的区别，可以把这个架构叫
对比Pig、Hive和SQL，浅看大数据工具之间的差异 MayerBin
【编者按】在笔者看来，语言和工具之争从来都没有太大的意义，所谓存在既有道理，如何在场景下做出最合适的选择才至关重要。本文，DeZyre公司专家ManishaNandyMazumder对比了Pig、Hive和SQL的区别，并为读者浅谈了一些选择标准。以下为译文有人说对于大数据分析来说Hadoop才是炙手可热的新技术，SQL虽然久经考验但已经有些过时了。这话说得不错，但有非常多的项目都用Hadoop作
大数据大价值 X_dmword 数据分析大数据数据分析案例
大数据的大价值：大数据五大成功案例深度解析2017年09月24日17:44:18阅读数：2719大数据的热潮并未有消褪迹象，相反，包括航空、金融、电商、政府、电信、电力甚至F1赛车等各个行业的企业都在纷纷掘金大数据。可以看出，在推动大数据企业应用方面，真正看到大数据潜在商业价值的企业比大数据技术厂商还要着急。例如IT经理网曾经报道过沃尔玛大数据实验室直接参与到大数据工具的开发和开源工作中。但是在国
EXCEL竟靠这招碾压大数据，网友:以前不会用真是瞎了眼了喜欢下厨的数据分析师
曾几何时，EXCEL在数据界可谓是独树一帜，引领风骚，在职场中无人不知，无人不晓。但是随着大数据的出现，EXCEL便风光不再，江河日下，一度被其他大数据工具挤到了后面，逐渐被边缘化了。而我是一个EXCEL忠实用户，从最开始的EXCEL2003用到了最新的EXCEL2016，每一次更新换代都感觉EXCEL的功能一次比一次强大，也更加地人性化。但是面对大数据的来势汹汹，EXCEL毕竟只是轻量级的工具，
大数据技术4：Lambda和Kappa架构区别 Java架构何哥大数据治理 Lambda和Kappa区别 Lambda架构 Kappa架构
前言：在大数据处理领域，两种突出的数据架构已成为处理大量数据的流行选择：Lambda架构和Kappa架构。这些架构为实时处理和批处理提供了强大的技术解决方案，使组织能够从其数据中获得有价值的见解。随着互联网时代来临，数据量暴增，开始使用大数据工具来替代经典数仓中的传统工具。此时仅仅是工具的取代，架构上并没有根本的区别，可以把这个架构叫做离线大数据架构。后来随着业务实时性要求的不断提高，人们开始在离
同样都是打工人，为何别人会建模，而你只会用EXCEL? 喜欢下厨的数据分析师
小李是一家外企的数据分析师，平时处理的都是亿万行级别数据量的报表，为了可以胜任这份工作，小李早早地就学会了各种大数据工具，而且做出来的数据模型高度自动化，效率极高，为公司创造了非常大的价值。因为小李出色的表现，公司年底计划把他提升为公司的数据总监。而小王是一家电商公司的数据专员，除了EXCEL其他的数据工具均不会，如果遇到数据量大的表格，小王就要和同事们一起去加班完成了。因此小王的工作效率非常低，
如何优化 Elasticsearch 以获得更好的搜索性能 vvoennvv elasticsearch 大数据搜索引擎
当今世界，数据大量生成，为了利用数据进行生产，需要对提取的数据进行转换、存储、维护、管理和分析。这些过程只有通过大数据工具所基于的分布式架构和并行处理机制才能实现。Elasticsearch是最流行的开源数据存储之一，可以满足大多数用例。Elasticsearch是一个分布式数据存储和搜索引擎，具有容错和高可用性功能。为了充分利用Elasticsearch的搜索功能，需要正确配置。由于一个简单的配
大数据工具-kafkaUi-lite 人猿宇宙大数据-玩转数据-工具大数据
1、kafkaUI-litev1.0已经发布，此版本更新内容包括：可以实现kafak/zookooper/redis的界面化操作kafka:多环境管理、生产消息、消费消息、创建topic、删除topiczookeeper：多环境管理、查看节点、查看节点数据redis:多环境管理、查询数据2、kafkaUI-lite介绍史上最轻便好用的kafkaui界面工具，提供了对kafka的界面化操作可以在界面
Hadoop和大数据：60款顶级开源工具 yoku酱
说到处理大数据的工具，普通的开源解决方案（尤其是ApacheHadoop）堪称中流砥柱。弗雷斯特调研公司的分析师MikeGualtieri最近预测，在接下来几年，“100%的大公司”会采用Hadoop。MarketResearch的一份报告预测，到2011年，Hadoop市场会以58%的年复合增长率（CAGR）高速增长；到2020年，市场产值会超过10亿美元。IBM更是非常看好开源大数据工具，派出
大数据工具千千万，到底谁才是最强王者？丨程序之道丨
外面有成千上万的大数据工具。它们都承诺可以为你节省时间和资金，并帮助发掘之前从来见过的业务洞察力。虽然确实如此，可是面对那么多的选择，想理清这么多的工具谈何容易。哪一种工具适合你的技能组合?哪一种工具适合你的项目?为了替你节省一点时间，并帮助你首次选对工具，我们列出了我们青睐的几款数据工具，涉及数据提取、存储、清理、挖掘、可视化、分析和整合等领域。数据存储和管理如果你准备处理大数据，就要考虑该如何
Maxcompute批量分区删除 Wesin
ps:Maxcompute数据仓库建设的分享。Maxcompute大致介绍下Maxcompute,Maxcompute是阿里的一个大数据工具，基于Maxcompute阿里搭建了一个Datawork的数据平台。可以很“方便”的从各种数据源导入数据，做数据分析、机器学习等。“方便"之所以加个引号，是因为某些方面的确很方便，当然业务实在复杂了，很多时候也存在用的很难受的地方。更多介绍去阿里官网了解吧。回
HBase入门精要独行侠梦 hbase笔记 java hbase hadoop 大数据数据库
前言HBase，是基于GoogleBigtable实现的开源、分布式、可伸缩的列式存储数据库。诞生于Hadoop，也是Hadoop生态的重要一环，如今作为一个Apache顶级项目，早已经不能将其仅仅看作Hadoop的一部分，基于Storm，Spark等框架的数据处理方案中，都有它的身影，可以说它已经成为大数据工具箱中非常重要的一种数据存储工具，也因此必然会被很纳入很多人学习计划。对于任何一个新技术
100款大数据框架和工具汇总羋学僧
本文列举出全球100款大数据工具，包括数据存储、数据计算、资源调度以及可视化等软件，这里面肯定有你需要的。如果你有更好的大数据软件推荐，欢迎留言啊。1、TalendOpenStudio是第一家针对的数据集成工具市场的ETL(数据的提取Extract、传输Transform、载入Load)开源软件供应商。Talend的下载量已超过200万人次，其开源软件提供了数据整合功能。其用户包括美国国际集团（A
如何使用固态硬盘+硬盘盒子+U盘创造移动双系统 JSU_曾是此间年少 ubuntu 笔记
本文背景这学期上了一节鸟水课《大数据实践》，老师要求扩展硬盘盒，以部署大数据工具进行机器挖掘等大数据领域工作参考视频链接：无需启动盘，用虚拟机将ubuntu安装到移动硬盘上_哔哩哔哩_bilibili项目使用设备1.绿联（urgeen）M.2移动硬盘盒子NVMe/SATA双协议Type-C3.2硬盘盒子2.梵想（FANXIANG）1TBSSD固态硬盘M.2接口PCIe4.0（新的比较好）3.64G
163 胡聪勇 23 调查报告（大数据）小年糕i
帆布鞋如何进行网络营销？大数据工具：百度指数我通过百度指数分析得出以下结论：地域分布1.人群主要分布在东南方，广东人最多。西北地区则比较少。所以我认为应把重点放在东南地区，物流仓库等也应聚集在这片区域。资讯指数2.帆布鞋的热度在春季较为突出。需求图谱3.帆布鞋相关词搜索最高的是帆布鞋品牌排行，其次为板鞋，品牌。所以说人们以帆布鞋的品牌来作为依据，应该多注重品牌方面。近半年整体趋势4.发现帆布鞋的整
excel中使用python代码 hqw921054 python 人工智能 r语言
这次我们会介绍如何使用xlwings将Python和Excel两大数据工具进行集成，更便捷地处理日常工作。说起Excel，那绝对是数据处理领域王者般的存在，尽管已经诞生三十多年了，现在全球仍有7.5亿忠实用户，而作为网红语言的Python，也仅仅只有700万的开发人员。Excel是全世界最流行的编程语言。对，你没看错，自从微软引入了LAMBDA定义函数后，Excel已经可以实现编程语言的算法，因此
如何在Excel中调用Python脚本，实现数据自动化处理 Wang_AI 编程语言 python 数据分析 eclipse 人工智能
这次我们会介绍如何使用xlwings将Python和Excel两大数据工具进行集成，更便捷地处理日常工作。说起Excel，那绝对是数据处理领域王者般的存在，尽管已经诞生三十多年了，现在全球仍有7.5亿忠实用户，而作为网红语言的Python，也仅仅只有700万的开发人员。Excel是全世界最流行的编程语言。对，你没看错，自从微软引入了LAMBDA定义函数后，Excel已经可以实现编程语言的算法，因此
大数据工具比较：R 语言和 Spark 谁更胜一筹？ weixin_34161083 大数据 r语言人工智能
本文有两重目的，一是在性能方面快速对比下R语言和Spark，二是想向大家介绍下Spark的机器学习库背景介绍由于R语言本身是单线程的，所以可能从性能方面对比Spark和R并不是很明智的做法。即使这种比较不是很理想，但是对于那些曾经遇到过这些问题的人，下文中的一些数字一定会让你很感兴趣。你是否曾把一个机器学习的问题丢到R里运行，然后等上好几个小时？而仅仅是因为没有可行的替代方式，你只能耐心地等。所以
学习大数据月薪过万的秘密金光闪闪耶
什么是大数据？大家对大数据的定义不尽相同，但作为学习者和使用者来说，如何使用大数据工具和技术从大数据中提取、分析出有价值的信息和数据，指导各个行业用户做出准确决策才是更值得关心的。大数据好就业吗？根据全球最顶尖管理咨询公司麦肯锡(McKinsey)出具的一份详细分析报告显示，预计到2018年，大数据或者数据工作者的岗位需求将达到150万!大数据学习扣裙：740041381大数据工资高吗？事实上，大
全球100款大数据工具汇总大数据架构师
1、TalendOpenStudio是第一家针对的数据集成工具市场的ETL(数据的提取Extract、传输Transform、载入Load)开源软件供应商。Talend的下载量已超过200万人次，其开源软件提供了数据整合功能。其用户包括美国国际集团（AIG）、康卡斯特、电子港湾、通用电气、三星、Ticketmaster和韦里逊等企业组织。2、DYSON探码科技自主研发的DYSON智能分析系统，可以
【大数据工具】Zookeeper 分布式集群和伪分布式安装程序员胖五大数据工具安装 java-zookeeper zookeeper 分布式
Zookeeper安装zookeeper安装包下载地址：https://archive.apache.org/dist/zookeeper/1.伪分布式部署说明：伪分布即在一台服务器上通过不同端口模拟出分布式集群的效果，分布式一般3台起，一主两从。说明：伪分布安装在了Windows开辟的虚拟机上，主机名为bigdata1.将zookeeper安装包zookeeper-3.4.10.tar.gz导入
【大数据工具】HBase 集群搭建与基本使用程序员胖五大数据工具安装 hbase hadoop 大数据
HBase集群搭建HBase安装包下载地址：https://archive.apache.org/dist/hbase/安装HBase的前提：ZooKeeper集群OKHadoop集群OK1.HBase集群安装1.将HBase软件包上传至Hadoop0解压并重命名使用FileZilla将hbase-1.3.1-bin.tar.gz上传至Hadoop0的/software/目录下解压hbase-1.
【大数据工具】Hive 安装程序员胖五大数据工具安装 hive 大数据 mysql
Hive环境搭建与基本使用Hive安装包下载地址：https://dlcdn.apache.org/hive/注：安装Hive前要先安装好MySQL1.MySQL安装MySQL安装包下载地址：https://dev.mysql.com/downloads/mysql/archives/community/MySQL%20::%20Download%20MySQL%20Community%20Ser
【大数据工具】Flume、Sqoop、Azkaban 安装程序员胖五大数据工具安装大数据 flume sqoop azkaban
1.Flume1、上传解压重命名tar-zxvfapache-flume-1.9.0-bin.tar.gzmvapache-flume-1.9.0-binflume2、修改配置文件cdflume/conf/mvflume-env.sh.templateflume-env.sh#flume-env.sh配置JavaexportJAVA_HOME=/software/jdk2.Sqoop1、上传解压重
【大数据工具】Kafka伪分布式、分布式安装和Kafka-manager工具安装与使用程序员胖五大数据工具安装 kafka 大数据分布式 Kafka-manager
Kafka安装Kafka安装包下载地址：https://archive.apache.org/dist/kafka/1.Kafka伪分布式安装1.上传并解压Kafka安装包使用FileZilla或其他文件传输工具上传Kafka安装包：kafka_2.11-0.10.0.0.tgz解压安装包[root@bigdatasoftware]#tar-zxvfkafka_2.11-0.10.0.0.tgz2
【大数据工具】Spark 伪分布式、分布式集群搭建程序员胖五大数据工具安装 spark 大数据分布式
Spark集群搭建Spark安装包下载地址：https://archive.apache.org/dist/spark/1.Spark伪分布式安装安装前提：安装Spark前需要先安装好JDK1.上传并解压Spark安装包使用fileZilla或其他文件传输工具上传Spark安装包：spark-2.1.0-bin-hadoop2.7.tgz解压安装包[root@bigdatasoftware]#ta
【大数据工具】Flink集群搭建程序员胖五大数据工具安装大数据 flink scala
Flink集群安装1.单机版Flink安装与使用1、下载Flink安装包并上传至服务器下载flink-1.10.1-bin-scala_2.11.tgz并上传至Hadoop0/software下2、解压[root@hadoop0software]#tar-zxvfflink-1.10.1-bin-scala_2.11.tgz3、创建快捷方式[root@hadoop0software]#ln-sfl
java杨辉三角 3213213333332132 java基础
package com.algorithm; /** * @Description 杨辉三角 * @author FuJianyong * 2015-1-22上午10:10:59 */ public class YangHui { public static void main(String[] args) { //初始化二维数组长度 int[][] y
《大话重构》之大布局的辛酸历史白糖_ 重构
《大话重构》中提到“大布局你伤不起”，如果企图重构一个陈旧的大型系统是有非常大的风险，重构不是想象中那么简单。我目前所在公司正好对产品做了一次“大布局重构”，下面我就分享这个“大布局”项目经验给大家。背景公司专注于企业级管理产品软件，企业有大中小之分，在2000年初公司用JSP/Servlet开发了一套针对中
电驴链接在线视频播放源码 dubinwei 源码电驴播放器视频 ed2k
本项目是个搜索电驴（ed2k）链接的应用,借助于磁力视频播放器（官网： http://loveandroid.duapp.com/ 开放平台），可以实现在线播放视频，也可以用迅雷或者其他下载工具下载。项目源码： http://git.oschina.net/svo/Emule,动态更新。也可从附件中下载。项目源码依赖于两个库项目，库项目一链接： http://git.oschina.
Javascript中函数的toString()方法周凡杨 JavaScript js toString function object
简述 The toString() method returns a string representing the source code of the function. 简译之，Javascript的toString()方法返回一个代表函数源代码的字符串。句法 function.
struts处理自定义异常 g21121 struts
很多时候我们会用到自定义异常来表示特定的错误情况，自定义异常比较简单，只要分清是运行时异常还是非运行时异常即可，运行时异常不需要捕获，继承自RuntimeException，是由容器自己抛出，例如空指针异常。非运行时异常继承自Exception，在抛出后需要捕获，例如文件未找到异常。此处我们用的是非运行时异常，首先定义一个异常LoginException: /** * 类描述：登录相
Linux中find常见用法示例 510888780 linux
Linux中find常见用法示例 ·find path -option [ -print ] [ -exec -ok command ] {} \; find命令的参数；
SpringMVC的各种参数绑定方式 Harry642 springMVC 绑定表单
1. 基本数据类型(以int为例，其他类似)： Controller代码： @RequestMapping("saysth.do") public void test(int count) { } 表单代码： <form action="saysth.do" method="post&q
Java 获取Oracle ROWID aijuans java oracle
A ROWID is an identification tag unique for each row of an Oracle Database table. The ROWID can be thought of as a virtual column, containing the ID for each row. The oracle.sql.ROWID class i
java获取方法的参数名 antlove java jdk parameter method reflect
reflect.ClassInformationUtil.java package reflect; import javassist.ClassPool; import javassist.CtClass; import javassist.CtMethod; import javassist.Modifier; import javassist.bytecode.CodeAtt
JAVA正则表达式匹配查找替换提取操作百合不是茶 java 正则表达式替换提取查找
正则表达式的查找;主要是用到String类中的split(); String str; str.split();方法中传入按照什么规则截取,返回一个String数组常见的截取规则: str.split("\\.")按照.来截取 str.
Java中equals()与hashCode()方法详解 bijian1013 java set equals()hashCode()
一.equals()方法详解 equals()方法在object类中定义如下： public boolean equals(Object obj) { return (this == obj); } 很明显是对两个对象的地址值进行的比较（即比较引用是否相同）。但是我们知道，String 、Math、I
精通Oracle10编程SQL(4)使用SQL语句 bijian1013 oracle 数据库 plsql
--工资级别表 create table SALGRADE ( GRADE NUMBER(10), LOSAL NUMBER(10,2), HISAL NUMBER(10,2) ) insert into SALGRADE values(1,0,100); insert into SALGRADE values(2,100,200); inser
【Nginx二】Nginx作为静态文件HTTP服务器 bit1129 HTTP服务器
Nginx作为静态文件HTTP服务器在本地系统中创建/data/www目录，存放html文件(包括index.html) 创建/data/images目录，存放imags图片在主配置文件中添加http指令 http { server { listen 80; server_name
kafka获得最新partition offset blackproof kafka partition offset 最新
kafka获得partition下标，需要用到kafka的simpleconsumer import java.util.ArrayList; import java.util.Collections; import java.util.Date; import java.util.HashMap; import java.util.List; import java.
centos 7安装docker两种方式 ronin47
第一种是采用yum 方式 yum install -y docker
java-60-在O(1)时间删除链表结点 bylijinnan java
public class DeleteNode_O1_Time { /** * Q 60 在O(1)时间删除链表结点 * 给定链表的头指针和一个结点指针(!!)，在O(1)时间删除该结点 * * Assume the list is: * head->...->nodeToDelete->mNode->nNode->..
nginx利用proxy_cache来缓存文件 cfyme cache
user zhangy users; worker_processes 10; error_log /var/vlogs/nginx_error.log crit; pid /var/vlogs/nginx.pid; #Specifies the value for ma
[JWFD开源工作流]JWFD嵌入式语法分析器负号的使用问题 comsci 嵌入式
假如我们需要用JWFD的语法分析模块定义一个带负号的方程式，直接在方程式之前添加负号是不正确的，而必须这样做： string str01 = "a=3.14;b=2.71;c=0;c-((a*a)+(b*b))" 定义一个0整数c,然后用这个整数c去
如何集成支付宝官方文档 dai_lm android
官方文档下载地址 https://b.alipay.com/order/productDetail.htm?productId=2012120700377310&tabId=4#ps-tabinfo-hash 集成的必要条件 1. 需要有自己的Server接收支付宝的消息 2. 需要先制作app，然后提交支付宝审核，通过后才能集成调试的时候估计会真的扣款，请注意
应该在什么时候使用Hadoop datamachine hadoop
原帖地址：http://blog.chinaunix.net/uid-301743-id-3925358.html 存档，某些观点与我不谋而合，过度技术化不可取，且hadoop并非万能。 --------------------------------------------万能的分割线-------------------------------- 有人问我，“你在大数据和Hado
在GridView中对于有外键的字段使用关联模型进行搜索和排序 dcj3sjt126com yii
在GridView中使用关联模型进行搜索和排序首先我们有两个模型它们直接有关联: class Author extends CActiveRecord { ... } class Post extends CActiveRecord { ... function relations() { return array( '
使用NSString 的格式化大全 dcj3sjt126com Objective-C
格式定义The format specifiers supported by the NSString formatting methods and CFString formatting functions follow the IEEE printf specification; the specifiers are summarized in Table 1. Note that you c
使用activeX插件对象object滚动有重影蕃薯耀 activeX插件滚动有重影
使用activeX插件对象object滚动有重影 <object style="width:0;" id="abc" classid="CLSID:D3E3970F-2927-9680-BBB4-5D0889909DF6" codebase="activex/OAX339.CAB#
SpringMVC4零配置 hanqunfeng springmvc4
基于Servlet3.0规范和SpringMVC4注解式配置方式，实现零xml配置，弄了个小demo，供交流讨论。项目说明如下： 1.db.sql是项目中用到的表，数据库使用的是oracle11g 2.该项目使用mvn进行管理，私服为自搭建nexus,项目只用到一个第三方 jar，就是oracle的驱动； 3.默认项目为零配置启动，如果需要更改启动方式，请
《开源框架那点事儿16》：缓存相关代码的演变 j2eetop 开源框架
问题引入上次我参与某个大型项目的优化工作，由于系统要求有比较高的TPS，因此就免不了要使用缓冲。该项目中用的缓冲比较多，有MemCache，有Redis，有的还需要提供二级缓冲，也就是说应用服务器这层也可以设置一些缓冲。当然去看相关实现代代码的时候，大致是下面的样子。 [java] view plain copy print ? public vo
AngularJS浅析 kvhur JavaScript
概念 AngularJS is a structural framework for dynamic web apps. 了解更多详情请见原文链接：http://www.gbtags.com/gb/share/5726.htm Directive 扩展html，给html添加声明语句，以便实现自己的需求。对于页面中html元素以ng为前缀的属性名称，ng是angular的命名空间
架构师之jdk的bug排查(一)---------------split的点号陷阱 nannan408 split
1.前言. jdk1.6的lang包的split方法是有bug的,它不能有效识别A.b.c这种类型,导致截取长度始终是0.而对于其他字符,则无此问题.不知道官方有没有修复这个bug. 2.代码 String[] paths = "object.object2.prop11".split("'"); System.ou
如何对10亿数据量级的mongoDB作高效的全表扫描 quentinXXZ mongodb
本文链接: http://quentinXXZ.iteye.com/blog/2149440 一、正常情况下，不应该有这种需求首先，大家应该有个概念，标题中的这个问题，在大多情况下是一个伪命题，不应该被提出来。要知道，对于一般较大数据量的数据库，全表查询，这种操作一般情况下是不应该出现的，在做正常查询的时候，如果是范围查询，你至少应该要加上limit。说一下，
C语言算法之水仙花数 qiufeihu c 算法
/** * 水仙花数 */ #include <stdio.h> #define N 10 int main() { int x,y,z; for(x=1;x<=N;x++) for(y=0;y<=N;y++) for(z=0;z<=N;z++) if(x*100+y*10+z == x*x*x
JSP指令 wyzuomumu jsp
jsp指令的一般语法格式： <%@ 指令名属性 =”值 ” %> 常用的三种指令： page,include,taglib page指令语法形式： <%@ page 属性 1=”值 1” 属性 2=”值 2”%> include指令语法形式： <%@include file=”relative url”%> (jsp可以通过 include

Impala

文章目录

Apache Impala

二、 Apache Impala

1． Impala基本介绍

2． Impala与Hive关系

3． Impala与Hive异同

3.1． Impala使用的优化技术

3.2． 执行计划

3.3． 数据流

3.4． 内存使用

3.5． 调度

3.6． 容错

3.7． 适用面