Phoenix的常用操作
Phoenix是架构在Hbase上的一个SQL转化组件,它可以把sql语句转换成Hbase的一个或者多个扫描,然后分发到Hbase的Server端进行查询,提高了查询效率同时避免开发者写复杂的api代码,只需要会sql即可操作hbase的数据,大大降低了上手难度。
- 前期准备
想要通过phoenix查询Hbase的表必须先在phoenix建立映射表,映射到Hbase已存在的表,可以通过create view 和create table命令来实现
create view "t1" ("rowkey" varchar primary key,
"f1"."id" varchar,
"f2"."money" varchar,
"f1"."name" varchar,
) as select * from "t1";
create view和create table的区别是create table会加上一个验证信息,在phoenix删除表的时候table会把hbase对应的数据删除,view则不会。
- 添加依赖
org.apache.phoenix
phoenix-core
4.10.0-HBase-1.1
org.apache.hadoop
hadoop-hdfs
2.6.3
org.apache.hadoop
hadoop-common
2.6.3
org.slf4j
slf4j-log4j12
在添加phoenix的依赖时需要加上hadoop的依赖包,不然会报找不到hadoop下的配置文件
- 建立连接
C3P0配置文件
使用C3p0连接池可以很好配置多数据源,另外phoenix在查询的时候建立连接的速度很慢,使用连接池可以大幅提高查询的速度。
org.apache.phoenix.jdbc.PhoenixDriver
jdbc:phoenix:localhost:2181
2
3
3
10
20
5
120
select 1
C3P0的连接代码这里就不贴出来了哈,和通用的sql连接一样
- 常用语法
1.sum等聚合函数
在hbase的存储类型中,都是以字符串的形式存储,因此在对某些字段进行聚合操作时需要通过过to_number()函数把相应的字段转换成number类型。
select sum(to_number("money")) from t1;
2.分页
phoenix的分页不是像mysql的limit 1,3 这种分页语法,而是用limit 3 offset 0 来实现分页,另外phoenix的分页是从0开始不是1
select name from t1 limit 3 offset 0;
3.排序
在使用phoenix的排序时,phoenix会把0作为null排在最前面,使用nulls last 可以解决次问题
select name,sum(to_number("money")) as money from t1 group by name order by money desc nulls last;
- 二级索引
rowkey是hbase的一级索引,所有的查询都通过rowkey来定位数据,但是面对复杂查询逻辑往往需要扫描全表来查询数据,这极大地降低了hbase的查询效率,这时就需要使用索引来提高查询的速度,在自己维护hbase的二级索引时十分繁琐,现在通过phoenix就可以建立索引。
1.覆盖索引
覆盖索引一旦找到了对应的索引,不需要返回主表,会直接把数据绑定到索引行,节省了读取的开销。
cteate index cover_index on t1(name,money) include(order)
上面语句的意思是在表t1的列name,money上创建索引cover_index,并在索引中包含了order列,防止从原始数据获取该列。
2.功能索引
功能索引允许不仅可以在列上而且可以在任意表达式上创建索引。然后,当一个查询时使用该表达式时,索引可以用来检索结果而不是数据表。
3.全局索引
建立全局索引主要是为了提高了读操作的性能,但在写操作的时候会损失一些性能,因为全局索引是建立了单独的habse表来存储索引表的索引数据
cteate index blobal_index on t1(name)
在使用全局索引时尽量条件包含到索引列,不然会导致扫描全表,影响效率。同时需要在每个RegionServer的hbase-site.xml配置文件下添加一下属性,用以支持全局或者本地索引。
hbase.regionserver.wal.codec
org.apache.hadoop.hbase.regionserver.wal.IndexedWALEditCodec
4.本地索引
本地索引主要适用于写多读少且空间非常有限的场景,与全局索引一样,Phoenix将自动选择是否在查询时适用本地索引。索引数据表和原始数据表都放在相同的服务器中,为了防止在写入期间出现额外的网络开销。但是即使查询的字段不是索引字段,本地索引也会被使用,与全局索引不同的是,所有的本地索引都单独存储在同一张共享的表中,因为无法预先确定Region的位置,所以在读数据的时候会检查每个Region上的数据,因此会带来一定的性能开销
#建立本地索引
create local index local_index on t1(name);
#使用本地索引
select * from t1 where name = 'xx';