Phoenix index 二级索引

一、索引的创建
通过二级索引,索引的列或表达式形成一个备用行键,以允许沿着这个新轴进行点查找和范
围扫描。
(1)覆盖索引
覆盖索引,一旦找到索引的条目,不需要返回主表,会把我们关心的数据绑定到索引行,节
省读取的开销。
例如:以下内容将在v1和v2列上创建一个索引,并在索引中包含v3列,以防止从原始数据
表中获取该列:
CREATE INDEX my_index ON my_table(v1,v2)INCLUDE(v3)
(2)功能索引
功能索引,允许您不仅在列上而且在任意表达式上创建索引。然后,当一个查询使用该表达
式时,索引可以用来检索结果而不是数据表。
例如:在EMP上创建索引UPPER_NAME_IDX(UPPER(FIRST_NAME ||''||
LAST_NAME))
有了这个索引,发出下面的查询时,将使用索引而不是数据表来检索结果:
SELECT EMP_ID FROM EMP WHERE UPPER(FIRST_NAME ||''|| LAST_NAME)
='JOHN DOE'
(3)全局索引
全局索引适合读操作任务重的用例。使用全局索引,索引的所有性能损失都是在写入时发生
的。我们拦截数据表更新写(DELETE,UPSERT VALUES和UPSERT SELECT),建立索引
更新,然后发送任何必要的更新到所有感兴趣的索引表。在读的时候,phoenix会选择索引
表,然后使用它,这使得查询加快并且直接可想其它表一样scan索引表。默认情况下,除
非暗示,否则索引不会用于引用不属于索引的列的查询。
在用使用全局索引之前需要在每个RegionServer上的hbase­site.xml添加如下属性:
注意:如果使用的是ambari或者cloudera搭建的集群,可直接创建全局或本地索引,这些配置文件已经配置好了

hbase.regionserver.wal.codec
org.apache.hadoop.hbase.regionserver.wal.IndexedWALEditCodec

CREATE INDEX USERIDINDEX ON CSVTABLES(USERID);
以下查询会用到索引
SELECT USERID FROM CSVTABLES WHERE USERID='9bb8b2af925864bb275b840c578df3c3';
(4)本地索引
本地索引适用于写多读少,空间有限的场景,和全局索引一样,Phoneix在查询时会自动选
择是否使用本地索引,使用本地索引,为避免进行写操作所带来的网络开销,索引数据和表
数据都存放在相同的服务器中,当查询的字段不完全是索引字段时本地索引也会被使用,与全局索引不同的是,所有的本地索引都单独存储在同一张共享表中,由于无法预先确定
region的位置,所以在读取数据时会检查每个region上的数据因而带来一定性能开销。
在使用本地索引需要在Master的hbase-site.xml添加以下属性
注意:注意本地索引与全局索引的区别,全局只有在,select和where中都为索引才会使用索引
复制代码

hbase.master.loadbalancer.class
org.apache.phoenix.hbase.index.balancer.IndexLoadBalancer


hbase.coprocessor.master.classes
org.apache.phoenix.hbase.index.master.IndexMasterObserver

复制代码
Phoeinx4.3以上为支持在数据region合并时本地索引region也能进行合并需要在每个
region servers中添加以下属性

hbase.coprocessor.regionserver.classes
org.apache.hadoop.hbase.regionserver.LocalIndexMerger

创建本地索引
CREATE LOCAL INDEX MYINDEX ON CSVTABLES(USERID);
删除索引
CREATE LOCAL INDEX MYINDEX ON CSVTABLES(KEYWORD);
如果表中的一个索引列被删除,则索引也将被自动删除,如果删除的是
覆盖索引上的列,则此列将从覆盖索引中被自动删除。

二、索引的优化
以下属性都必须在各节点上的hbase­site.xml中设置为true才能起
效,
1.index.builder.threads.max:(默认值:10)
根据主表的更新来确定更新索引表的线程数

2.index.builder.threads.keepalivetime:(默认值:60) builder线程池中线程的存活时间

3.index.write.threads.max:(默认值:10)
更新索引表时所能使用的线程数(即同时能更新多少张索引表),其数量最好与索引表的数量一

4.index.write.threads.keepalivetime(默认值:60)
更新索引表的线程所能存活的时间

5.hbase.htable.threads.max(默认值:2147483647)
每张索引表所能使用的线程(即在一张索引表中同时可以有多少线程对其进行写入更新),增加
此值可以提高更新索引的并发量

6.hbase.htable.threads.keepalivetime(默认值:60)
索引表上更新索引的线程的存活时间

7.index.tablefactoy.cache.size(默认值:10)
允许缓存的索引表的数量
增加此值,可以在更新索引表时不用每次都去重复的创建htable,由于是缓存在内存中,所以
其值越大,其需要的内存越多

注意:如果数据的导入是通过Hbase直接导入,而不是通过Phoenix中间层,则索引不会建立成功,会出现索引表与数据表的条数不一致

你可能感兴趣的:(Phoenix index 二级索引)